Python之酒店评论词向量训练 gensim

2021-05-02 16:28

阅读：755

标签：重要 max 取数连续 str embedding word2vec googl 词向量

1.word2vec词向量原理解析

word2vec，即词向量，就是一个词用一个向量来表示。是2013年Google提出的。word2vec工具主要包含两个模型：跳字模型（skip-gram）和连续词袋模型（continuous bag of words，简称CBOW），以及两种高效训练的方法：负采样（negative sampling）和层序softmax（hierarchical softmax）。word2vec词向量可以较好地表达不同词之间的相似和类比关系。word2vec是一个NLP工具，它可以将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。

NLP（自然语言处理）里面，最细粒度的是词语，词语组成句子，句子再组成段落、篇章、文档。所以处理 NLP 的问题，首先要先处理词语。词语，是人类的抽象总结，是符号形式的（比如中文、英文、拉丁文等等），所以需要把他们转换成数值形式，或者说——嵌入到一个数学空间里，这种嵌入方式，就叫词嵌入（word embedding)，而 Word2vec，就是词嵌入（ word embedding) 的一种。简单点来说就是把一个词语转换成对应向量的表达形式，来让机器读取数据。

2.gensim训练中文词向量

如果在以词为基本单元输入的自然语言处理任务中，都避免不了使用词的表示，词的表示有很多种，这里主要介绍的就是词向量，word2vec是目前比较通用的训练词向量的工具，使用Gensim模块，可以使词向量的训练变的简单，那么我们知道对于word2vec来说，不论的Skip-Gram models还是CBOW models，他们的输入以及输出都是以单词为基本单位的，只是他们对应的输入以及输出不一样：

Skip-Gram models：输入为单个词，输出目标为多个上下文单词；
CBOW models：输入为多个上下文单词，输出目标为一个单词；

我们从上面可以看出，无论是Skip-Gram models还是CBOW models基本的单元都是词，那么我们获取到的语料，必须要经过分词处理以后才能用于词向量的训练语料。

对于词向量的训练，语料越大训练出来的结果越好(非常重要)

Python之酒店评论词向量训练 gensim

标签：重要 max 取数连续 str embedding word2vec googl 词向量

原文地址：https://www.cnblogs.com/luckyplj/p/13202698.html

上一篇：Java方法的概述

下一篇：汇编语言-12内中断

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：Python之酒店评论词向量训练 gensim
文章链接：http://soscw.com/index.php/essay/81405.html

亲，登录后才可以留言！

Python之酒店评论词向量训练 gensim

评论

热门文章

推荐文章

最新文章

置顶文章