如何运用stata进行文本分析
主讲人:***
文本可视化31分词原理4分词的实现2情感分析及实现目录
一、分词原理
⏹将一个汉字序列切分成一个一个单独的词
⏹This is a book. → ["This", "is", "a", "book", "."]
⏹这是一本书。→ [("这", "pronoun"), ("是", "verb"),
("一", "numeral"), ("本", "classifier"),
("书", "noun"), ("。", "punctuation mark")]
为什么要进行中文分词?
⏹词是最小的能够独立运用的语言单位
⏹英文单词之间是以空格作为自然分界符
⏹汉语是以字为基本的书写单位,词语之间没有明显的区分标记,
因此,中文词语分析是中文信息处理的基础与关键。
⏹武汉市长江大桥→ 武汉市长江大桥
python官方文档中文版武汉市长江大桥
武汉市长江大桥
中文分词技术的分类
⏹基于字典、词库匹配的分词方法
⏹基于词频度统计的分词方法
⏹基于知识理解的分词方法。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论