← All Posts

词向量

一文简介词向量的发展历程,及它和大语言模型的关联

词向量是什么?#

词向量,即词蕴含的信息的向量表示,又称词嵌入(word embedding);
如:[0.03418,-1.3432,0.7289,…],[ ]中的每个数字都是这个向量的一个维度;

通常一个词的向量表示有几十至上千维度,在理想的模型训练时,设定的维度越高,这个词向量就越能准确地代表具体词的语义信息,但超出一定限度以后,反而会有反效果;


为什么需要词向量?#

在信息化的时代,语言已不是人类的专属符号,如何让计算机理解自然语言成为一个亟待解决的问题

对于人类来说,在后天的学习中,理解母语(或其它语言)及其中词汇表达的语义信息,像是”自然而然”、“水到渠成”的一个过程,但计算机只认识0和1,所以解决以上问题的第一步就要面对:
如何无损地将文本信息转换成数字这一难题

  • 在词向量(词嵌入技术)问世以前,词汇的语义信息无法用文本/数字准确且直观地表现出来,更不必说进行客观的研究

词向量从何而来#

分布语义假说#

You shall know a word by the company it keeps. — J.R. Firth

“观其伴而知其义”,分布假说是推动词向量诞生的一大理论基础

矩阵#


词向量的发展历程#

独热编码(one-hot)#

最初的实践:

用计算机能识别的0和1,表示所有词汇的所有维度

如:リンゴ:[0,0,0,1,0,…] :[1,0,0,0,…] ,

这种词向量生成方式被称为独热编码(one-hot)

但是这样很快就出现了一个问题 : 冗余太高,效率太低


Word2Vec模型(2013)#

在2013年左右, Mikolov 等人发布了Word2Vec模型(2013, Google)

其中的CBOW(Continuous Bag of Words)类似于完型填空

Skip-Gram 类似于关键字造句

极大地影响了后来的词向量模型

最著名的一个推论:

king - man + woman ≈ queen

但这一模型也有缺点,即无法处理子词信息

如英语中的词缀,或是日语中的词头、词尾,Word2Vec模型只能お手上げ


FastText模型(2016)#

T. Mikolov, E. Grave, P. Bojanowski, C. Puhrsch, A. Joulin. Advances in Pre-Training Distributed Word Representations 的发布改变了词向量模型的发展进程

计算机在大量的矩阵计算和文本学习后,逐渐掌握了词汇的语义信息,

正真实现了使用极少的计算资源,将词汇的语义载体由文本转变为数字

FastText模型由此诞生

其进步之处在于提出了:词 = 字符 n-gram 的向量和

playing = <pla, play, lay, ayi, yin, ing>

然而FastText模型也不完美,

由于是静态词向量模型,词的语义的向量表示完全取决于训练中使用的文本和训练参数,一旦生成,无法更改,

将其用于多义词,多音词的语言研究几乎是不可能事件;

其对语序的忽略也是一大弱点

BERT模型(2018)#

2017年,大语言模型的萌芽之年

谷歌旗下研究团队发布重磅论文Attention is all you need

2018年,基于Attention is all you needtransformer架构的BERT模型横空出世

“在短语、句子、篇章中,学习词的语义,以及各个词之间的关联,语法结构”

“既从向前后看,又从后向前看”

“动态词向量”

”…”

上下文感知一词多义 这是 BERT 最革命性的突破,对语言学研究意义重大。
BERT 基于 Transformer 架构,采用双向注意力机制,能够同时考虑一个词左右两边的所有上下文信息。
因此,它会为不同两个句子中的“苹果”生成两个完全不同的向量。

  • 当看到「生きる」时,BERT 生成的向量会包含“生存、生活”的语义特征,并能准确预测读音为「い」。
    当看到「学生」时,BERT 生成的向量则包含“身份、属性”的特征,预测读音为「せい」。
  • 在“水果”语境下,“苹果”的向量会与“香蕉”、“水果”等词的向量更接近。
    在“品牌”语境下,“苹果”的向量则会与“华为”、“科技”等词的向量更接近。

深层语义句法关系捕捉
BERT的架构使其能够理解词语之间复杂的长距离依赖和句法关系。
通过自注意力机制,BERT可以学习到句子中任意两个词之间的关联强度。
这一优点在用于日语这样高语境依赖成分省略频繁语序错落有致的语言研究中具有显著效果。

  • 「とても面白いね、(先生が)昨日買った本は。」
    BERT的自注意力机制会在处理「面白い」时,自动分配极高的注意力权重给远处的「本」,
    同时忽略中间可能的干扰项(先生、昨日)。

BERT模型的诸多优点使其成为近期NLP以及语言学研究中的香饽饽…


词向量与大语言模型#

在与BERT模型平行的另一条时间线上,一家名为Open AI的公司敏锐地发现了这类模型的潜力

Open AI选择了一条不同的发展道路,最终发布了广为人知的GPT

GoogleBERT模型的开发基础上,经过数次迭代,也最终发布了类似GPT的生成式人工智能模型

Gemini模型

End#