词向量
一文简介词向量的发展历程,及它和大语言模型的关联
词向量是什么?#
词向量,即词蕴含的信息的向量表示,又称词嵌入(word embedding);
如:[0.03418,-1.3432,0.7289,…],[ ]中的每个数字都是这个向量的一个维度;通常一个词的向量表示有几十至上千维度,在理想的模型训练时,设定的维度越高,这个词向量就越能准确地代表具体词的语义信息,但超出一定限度以后,反而会有反效果;
为什么需要词向量?#
在信息化的时代,语言已不是人类的专属符号,如何让计算机理解自然语言成为一个亟待解决的问题
对于人类来说,在后天的学习中,理解母语(或其它语言)及其中词汇表达的语义信息,像是”自然而然”、“水到渠成”的一个过程,但计算机只认识0和1,所以解决以上问题的第一步就要面对:
如何无损地将文本信息转换成数字这一难题
- 在词向量(词嵌入技术)问世以前,词汇的语义信息无法用文本/数字准确且直观地表现出来,更不必说进行客观的研究
词向量从何而来#
分布语义假说#
You shall know a word by the company it keeps. — J.R. Firth
“观其伴而知其义”,
分布假说是推动词向量诞生的一大理论基础
矩阵#
词向量的发展历程#
独热编码(one-hot)#
最初的实践:
用计算机能识别的0和1,表示所有词汇的所有维度如:
リンゴ:[0,0,0,1,0,…]本:[1,0,0,0,…] ,这种词向量生成方式被称为
独热编码(one-hot)但是这样很快就出现了一个问题 : 冗余太高,效率太低
Word2Vec模型(2013)#
在2013年左右, Mikolov 等人发布了
Word2Vec模型(2013, Google)其中的
CBOW(Continuous Bag of Words)类似于完型填空和
Skip-Gram类似于关键字造句极大地影响了后来的词向量模型
最著名的一个推论:
king - man + woman ≈ queen但这一模型也有缺点,即无法处理子词信息
如英语中的词缀,或是日语中的词头、词尾,
Word2Vec模型只能お手上げ
FastText模型(2016)#
T. Mikolov, E. Grave, P. Bojanowski, C. Puhrsch, A. Joulin. Advances in Pre-Training Distributed Word Representations 的发布改变了词向量模型的发展进程
计算机在大量的矩阵计算和文本学习后,逐渐掌握了词汇的语义信息,
正真实现了使用极少的计算资源,将词汇的语义载体由文本转变为数字
FastText模型由此诞生
其进步之处在于提出了:词 = 字符 n-gram 的向量和
playing = <pla, play, lay, ayi, yin, ing>然而
FastText模型也不完美,由于是静态词向量模型,词的语义的向量表示完全取决于训练中使用的文本和训练参数,一旦生成,无法更改,
将其用于多义词,多音词的语言研究几乎是不可能事件;
其对语序的忽略也是一大弱点
BERT模型(2018)#
2017年,大语言模型的萌芽之年
谷歌旗下研究团队发布重磅论文Attention is all you need
2018年,基于
Attention is all you need中transformer架构的BERT模型横空出世“在短语、句子、篇章中,学习词的语义,以及各个词之间的关联,语法结构”
“既从向前后看,又从后向前看”
“动态词向量”
”…”
上下文感知与一词多义这是 BERT 最革命性的突破,对语言学研究意义重大。
BERT 基于 Transformer 架构,采用双向注意力机制,能够同时考虑一个词左右两边的所有上下文信息。
因此,它会为不同两个句子中的“苹果”生成两个完全不同的向量。
- 当看到「生きる」时,BERT 生成的向量会包含“生存、生活”的语义特征,并能准确预测读音为「い」。
当看到「学生」时,BERT 生成的向量则包含“身份、属性”的特征,预测读音为「せい」。- 在“水果”语境下,“苹果”的向量会与“香蕉”、“水果”等词的向量更接近。
在“品牌”语境下,“苹果”的向量则会与“华为”、“科技”等词的向量更接近。
深层语义与句法关系捕捉
BERT的架构使其能够理解词语之间复杂的长距离依赖和句法关系。
通过自注意力机制,BERT可以学习到句子中任意两个词之间的关联强度。
这一优点在用于日语这样高语境依赖、成分省略频繁、语序错落有致的语言研究中具有显著效果。
- 「とても面白いね、(先生が)昨日買った本は。」
BERT的自注意力机制会在处理「面白い」时,自动分配极高的注意力权重给远处的「本」,
同时忽略中间可能的干扰项(先生、昨日)。
BERT模型的诸多优点使其成为近期NLP以及语言学研究中的香饽饽…
词向量与大语言模型#
在与
BERT模型平行的另一条时间线上,一家名为Open AI的公司敏锐地发现了这类模型的潜力但
Open AI选择了一条不同的发展道路,最终发布了广为人知的GPT…
BERT模型的开发基础上,经过数次迭代,也最终发布了类似GPT的生成式人工智能模型即
Gemini模型