不过林灰注意到,即便是同样获得科技进步奖二等奖提名的也不是所有人都被主持人播报了一遍。
或许是因为每次评选国家科学技术进步获得二等奖的都几十个,获得提名的只会更多。
主持人不大可能挨个去播报。
既然有的提到了有的没提到。
那肯定是别有深意。
在这么一堆同样获得科学技术进步奖二等奖提名的技术中能被提及。
说明林灰搞得这项技术相应的权重是相当有分量的。
毕竟很多同样获得提名的甚至不配拥有被播报的权利……
这样来说的话,即便目前林灰搬运的“一种新型的汉语言文本处理方式”这个专利目前只是被提名,那跟正式获奖也不遥远了。
至于说为什么是“一种新型的汉语言文本处理方式”这个子专利获得了提名。
而不是母专利生成式摘要算法最核心的专利获得提名。
纵然“一种新型的汉语言文本处理方式”这个专利只是一个林灰在搞生成式摘要算法时顺手搞定的一个子专利。
但子专利并不一定就弱于母专利。
之所以有“子”“母”之分。
只是因为子专利的申报必须是建立在母专利已经获批之后的。
没有“母专利”就无法形成子专利所必须的技术支撑。
某种程度上而言,子专利是母专利在细分的专业应用领域的具体阐述。
子专利非但不弱于母专利,反倒在一些细分领域往往能够青出于蓝而胜于蓝。
而林灰搞得“一种新型的汉语言文本处理方式”这个专利来说。
这个专利所采用的核心算法依然是生成式摘要摘要算法。
但该专利着重强化了生成式摘要算法对于汉语的处理能力。
事实上生成式文本摘要相对于抽取式摘要在处理汉语言方面的摘要本就技高一筹。
而现在“一种新型的汉语言文本处理方式”更上一层楼。
那么该技术在汉语言能力方面的处理水平可见一斑。
文本摘要生成和总结是因为数据爆炸而连带着兴起的科研技术难题。
随着数据的爆炸性产生,特别是文本数据,人们已经无法及时浏览和理解所有感兴趣的相关文本。
遗漏重要的文本信息又会造成很多组织和应用的损失。
因此文本摘要自动归纳总结是实际应用中非常需要的应用面非常广的一项技术。
在林灰生成式摘要算法问世之前。
大部分文章摘要自动产生工具的工作方式实际上依然是在利用抽取式摘要算法。
这种比较古板的摘要算法依然是进行关键字式的片段提取从而形成文章总结或摘要。
这种方法并不高明,其核心工作原理仍然是要寻找文章中的关键字。
然后选取含有关键字较多的句子形成摘要。
这样的方法对文章缺乏整体的理解。
摘要中的句子之间没有很好的自然衔接。
这是因为这些方法都没有真正的理解文章用自己理解后的语言组织成摘要。
从纯粹技术角度出发,此前的抽取式摘要的主要步骤依然是:
将原文本拆分为句子,在每个句子中过滤掉停用词,并只保留指定词性的单词。
由此得到句子的集合和单词的集合。