Extracting Word Information in Natural Languages: An Improved Skip-Gram Model
作者: 章乐[1];朱娅霖[1]
作者机构: [1]北京电子科技学院,北京市100070
出版物刊名: 北京电子科技学院学报
页码: 19-26页
正则化匹配26个字母python年卷期: 2020年 第2期
主题词: 词向量;词类比任务;负采样
摘要:词向量是大多数自然语言处理任务的基本要素之一。高质量的词向量将减轻这些自然处理应用中对各个词的表示任务,从而带来更好的模型效果,甚至取代模型在词表示方面的所谓的词向量或词嵌入(word embedding)部分。在中文词向量生成任务中,Niu等人提出了SAT模型[ACL 2017],并取得了目前在中文词类比任务中最好的结果。这里基于skip-gram模型给出了scaled word2vec,且不仅从理论上解释了不同点的意义,同时实验表明scaled word2vec在中
文词向量任务中,基于中小规模的中文文本训练数据将会得到比SAT模型更好的词向量。另
外,scaled word2vec也将极大缩减SAT模型所需要的训练时间。该模型也完全基于无结构化的中文文本数据,避免了SAT模型需借助于人工标记知识的弊端。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。