第169章 你渴望推开那扇门么(6)(1 / 2)

穿越:2014 猪熊 1688 字 2022-12-14

在尹芙·卡莉陈述完成后。

林灰领略到了她的意思。

不过却并没有正面回答尹芙·卡莉的问题。

而是反问尹芙·卡莉:“关于使用向量介入进行语义文本相似度计算你怎么看?”

虽然这是林灰在这次交流中提出的第一个问题。

但这个问题让尹芙·卡莉多少有点措手不及。

尹芙·卡莉不太清楚林灰为什么提出这个问题。

莫非可以不依靠向量来进行语义文本相似度计算吗?

可这怎么能做到呢?

机器识别文本时为了要机器识别自然语言,往往将自然语言数值化。

而将这些数值进行属性区分则必须进行向量化。

这种方法已经有很长时间历史了,尹芙·卡莉记得在1977年这个时空就有研究人员首次提出向量空间模型v了。

一经提出这种研究方法就比较受欢迎。

虽然很快这种方法就被发现了有不小的漏洞。

利用v方法的话,当文本量很大时,生成的文本向量是非常稀疏的,这就导致了空间和计算资源的浪费;

另外v为达到简化模型的效果忽略了词语间的关系,而在很多情况下词语之间是存在联系的,因此简单地认为词语间相互独立是不合理的。

尽管有着明显的漏洞,但在之后近四十年的历史中,人们仍然要引入向量进行语义文本相似度分析。

以尹芙·卡莉先前的团队,虽然他们在先前用的是基于网络知识计算文本相似度的方法。

但本质上也只是将wk百科中的网页内容映射为高维向量,

再通过基于向量空间的方法进行语义文本相似度计算。

可以说依旧没能离开向量空间的壳子。

虽然四十年后,当年遇到的所谓的“空间和计算资源浪费”某种程度上可以通过硬堆计算力可以暴力解决。

但这仅仅是能解决当年遇到的难题而已。

现在文本处理时面对的信息量复杂程度和当年完全不可同日而语。

此时的向量化面对着全新的困难——维度爆炸!

维度灾难又名维度的诅咒是一个最早由理查德·贝尔曼在考虑优化问题时首次提出来的术语,用来描述当数学空间维度增加时,分析和组织高维空间通常有成百上千维,因体积指数增加而遇到各种问题场景。

当在数学空间上额外增加一个维度时,其体积会呈指数级的增长。

这样的难题在低维空间中不会遇到。

比如物理空间很少会遇到这样的问题,毕竟物理上通常只用三维来建模。

说起来很神奇,尽管物理上很难遇到维度爆炸问题。

但在自然语言处理、机器学习方面维度爆炸是常有的事情。

在这一领域随便一点信息量都会轻而易举地突破三维。

其实在很多领域中,如采样、组合数学、机器学习和数据挖掘都有提及到维度爆炸的现象。

这些问题的共同特色是当维数提高时,空间的体积提高太快,因而可用数据变得很稀疏。

在高维空间中,当所有的数据都变得很稀疏,从很多角度看都不相似,因而平常使用的数据组织策略变得极其低效。

事实上尹芙·卡莉她们先前团队所应用的基于网路知识进行文本相似度衡量时。

如果直接对所有网页进行分析,往往会导致知识含量稀疏计算困难。

事实上,这种情况就是因为维度爆炸所导致的。

尹芙·卡莉很清楚现在这种利用向量引入到语义文本相似度的方法会带来维度爆炸。

林灰为什么突然询问她如何看到将向量引入到计算语义文本相似度呢?

莫非林灰真的有什么办法能够妥善处理维度爆炸这一问题吗?

可是在机器学习、自然语言处理方向的维度爆炸并不是那么容易解决的。

还是说林灰打算干脆绕过向量去衡量语义文本相似度吗?

尹芙·卡莉虽然不知道林灰为什么突然这么问。

但这种有可能得到林灰提点的机会,尹芙·卡莉怎可能轻易放弃。

尹芙·卡莉先是给林灰陈述了一下当前西方在计算语义文本相似度的时候向量通常客串的角色。

而后尹芙·卡莉才正式开始回答林灰先前问她的问题:

“引入向量后才能使得机器更方便的处理语义文本的信息。

如果不引入向量的话在处理语义文本相似度的时候我们能选择的方案很少。

而且不引入向量的情况下,我们在计算语义文本相似度所选择的方案多多少少都有点lw。

比如说,基于字符串的方法,这种方法都是对原始文本进行比较。

主要包括编辑距离、最长公共子序列、ngra相似度等来进行衡量。

话说,,,版。】

就以编辑距离来说吧,其衡量两个文本之间相似度的根据是依据两个文本之间由一个转换成另一个所需的最少编辑操作次数。

这种算法界定的编辑操作包括增加、删除、替换三种。

最长公共子系列是根据……

这套衡量标准甚至有点像crrd格式来衡量一般。

基于字符串的方法虽然原理简单、实现方便。

但这种方法没有考虑到单词的含义及单词和单词之间的相互关系。

涉及到同义词、多义词等问题都无法处理。

目前很少单独使用基于字符串的方法计算文本相似度。

而是将这些方法的计算结果作为表征文本的特征融入更加复杂的方法中。

除了这种方法之外,还有……”

林灰对于这些也是了解一些的。

他只是想通过尹芙·卡莉之口判定一下这个时空的研究到底是什么进展的。

基于字符串通过编辑操作、最长公共子系列的方式衡量语义文本相似度确实有点低端。

但低端不等于没用,不能因此就说这种算法没价值。

设想一下,如果文本识别领域取得突破的话。

把界定文本相似度的判断方法和文本识别算法结合在一起的话。