python训练⾃⼰中⽂语料库_利⽤Python实现wiki中⽂语料的
word2vec模型构建
本实例主要介绍的是选取wiki中⽂语料,并使⽤python完成Word2vec模型构建的实践过程,不包含原理部分,旨在⼀步⼀步的了解⾃然语⾔处理的基本⽅法和步骤。⽂章主要包含了开发环境准备、数据的获取、数据的预处理、模型构建和模型测试四⼤内容,对应的是实现模型构建的五个步骤。
⼀、 开发环境准备
1.1 python环境
在python官⽹下载计算机对应的python版本,本⼈使⽤的是Python2.7.13的版本。
1.2 gensim模块
(1)下载模块
(2)安装模块
下载完成后,在python安装⽬录下的Scripts⽬录中执⾏cmd命令进⾏安装。
pip install numpy*.whl
pip install scipy*.whl
pip install gensim.whl
(3)验证模块是否安装成功
输⼊python命令进⼊python命令⾏,分别输⼊*import numpy; import scipy; import gensim; *没有报错,即安装成功!
⼆、Wiki数据获取
2.1 Wiki中⽂数据的下载
到wiki官⽹下载中⽂语料,下载完成后会得到命名为l.bz2的⽂件,⼤⼩约为1.3G,⾥⾯是⼀个XML⽂件。
2.2 将XML的Wiki数据转换为text格式
(1)python实现
编写python程序将XML⽂件转换为text格式,使⽤到了pora中的WikiCorpus函数来处理的数据。python代码实现如下所⽰,⽂件命名为1_process.py。
1_process.py--wiki⽂件转换代码
(2)运⾏程序⽂件
在代码⽂件夹下运⾏如下cmd命令⾏,即可得到转换后⽣成的⽂件。
D:\PyRoot\iDemo\wiki_zh>python 1_process.l.bz2
(3)得到运⾏结果
2017-04-18 09:24:28,901: INFO: running 1_process.l.bz2
2017-04-18 09:25:31,154: INFO: Saved 10000 articles.
2017-04-18 09:26:21,582: INFO: Saved 20000 articles.
2017-04-18 09:27:05,642: INFO: Saved 30000 articles.
2017-04-18 09:27:48,917: INFO: Saved 40000 articles.
2017-04-18 09:28:35,546: INFO: Saved 50000 articles.
2017-04-18 09:29:21,102: INFO: Saved 60000 articles.
2017-04-18 09:30:04,540: INFO: Saved 70000 articles.
2017-04-18 09:30:48,022: INFO: Saved 80000 articles.
2017-04-18 09:31:30,665: INFO: Saved 90000 articles.
2017-04-18 09:32:17,599: INFO: Saved 100000 articles.
2017-04-18 09:33:13,811: INFO: Saved 110000 articles.
2017-04-18 09:34:06,316: INFO: Saved 120000 articles.
2017-04-18 09:35:01,007: INFO: Saved 130000 articles.
2017-04-18 09:35:52,628: INFO: Saved 140000 articles.
2017-04-18 09:36:47,148: INFO: Saved 150000 articles.
2017-04-18 09:37:41,137: INFO: Saved 160000 articles.
2017-04-18 09:38:33,684: INFO: Saved 170000 articles.
2017-04-18 09:39:37,957: INFO: Saved 180000 articles.
2017-04-18 09:43:36,299: INFO: Saved 190000 articles.
2017-04-18 09:45:21,509: INFO: Saved 200000 articles.
2017-04-18 09:46:40,865: INFO: Saved 210000 articles.
2017-04-18 09:47:55,453: INFO: Saved 220000 articles.
2017-04-18 09:49:07,835: INFO: Saved 230000 articles.
2017-04-18 09:50:27,562: INFO: Saved 240000 articles.
2017-04-18 09:51:38,755: INFO: Saved 250000 articles.
2017-04-18 09:52:50,240: INFO: Saved 260000 articles.
2017-04-18 09:53:57,526: INFO: Saved 270000 articles.
2017-04-18 09:55:01,720: INFO: Saved 280000 articles.
2017-04-18 09:55:22,565: INFO: finished iterating over Wikipedia corpus of 28285 5 documents with 63427579 positions (total 2908316 articles, 75814559 positions before pruning articles shorter than 50 words)
2017-04-18 09:55:22,568: INFO: Finished Saved 282855 articles.
由结果可知,31分钟运⾏完成282855篇⽂章,得到⼀个931M的txt⽂件。
三、Wiki数据预处理
3.1 中⽂繁体替换成简体
Wiki中⽂语料中包含了很多繁体字,需要转成简体字再进⾏处理,这⾥使⽤到了OpenCC⼯具进⾏转
python安装教程win7换。
(1)安装OpenCC
到以下链接地址下载对应版本的OpenCC,本⼈下载的版本是opencc-1.0.1-win32。
另外,资料显⽰还有python版本的,使⽤pip install opencc-python进⾏安装,未实践不做赘述。
(2)使⽤OpenCC进⾏繁简转换
进⼊解压后的opencc的⽬录(opencc-1.0.1-win32),双击⽂件。在当前⽬录打开dos窗⼝(Shift+⿏标右键->在此处打开命令窗⼝),输⼊如下命令⾏:
opencc -i -o wiki. -c t2s.json
则会得到⽂件wiki.,即转成了简体的中⽂。
(3)结果查看
解压后的txt有900多M,⽤notepad++⽆法打开,所以采⽤python⾃带的IO进⾏读取。Python代码如下:
import codecs,sys
f = codecs.open(‘wiki.‘,‘r‘,encoding="utf8")
line = f.readline()
print(line)
繁体中⽂⽰例截图如下所⽰:
git克隆
wiki原始数据
转换后的简体中⽂截图如下所⽰:
txt改成vbs
Wiki转换后简体数据
3.2 结巴分词
本例中采⽤结巴分词对字体简化后的wiki中⽂语料数据集进⾏分词,在执⾏代码前需要安装jieba模块。由于此语料已经去除了标点符号,因此在分词程序中⽆需进⾏清洗操作,可直接分词。若是⾃⼰采集的数据还需进⾏标点符号去除和去除停⽤词的操作。
Python实现代码如下:
2_jieba_participle.py--结巴分词代码
代码执⾏完成后得到⼀个1.12G⼤⼩的⽂档wiki.zh.。分词结果截图如下所⽰:
Wiki结巴分词
四、Word2Vec模型训练
(1)word2vec模型实现
分好词的⽂档即可进⾏word2vec词向量模型的训练了。⽂档较⼤,本⼈在4GWin7的电脑中报内存的
错误,更换成8G内容的Mac后即可训练完成,且速度很快。具体Python代码实现如下所⽰,⽂件命名为3_train_word2vec_model.py。
3_train_word2vec_model.py--模型训练代码
(2)运⾏结果查看
2017-05-03 21:54:14,887: INFO: training on 822697865 raw words (765330910 effective words) took 1655.2s, 462390 effective words/s
2017-05-03 21:54:14,888: INFO: saving Word2Vec object under
/Users/sy/Desktop/pyRoot/wiki_zh_vec/odel, separately None
2017-05-03 21:54:14,888: INFO: not storing attribute syn0norm
2017-05-03 21:54:14,889: INFO: storing np array 'syn0' to
/Users/sy/Desktop/pyRoot/wiki_zh_vec/odel.wv.syn0.npy
通配符掩码匹配2017-05-03 21:54:16,505: INFO: storing np array 'syn1neg' to
/Users/sy/Desktop/pyRoot/wiki_zh_vec/odel.syn1neg.npy
2017-05-03 21:54:18,123: INFO: not storing attribute cum_table
2017-05-03 21:54:26,542: INFO: saved /Users/sy/Desktop/pyRoot/wiki_zh_vec/odel
2017-05-03 21:54:26,543: INFO: storing 733434x400 projection weights into
/Users/sy/Desktop/pyRoot/wiki_zh_vec/vector
摘取了最后⼏⾏代码运⾏信息,代码运⾏完成后得到如下四个⽂件,其中odel是建好的模型,vector是词向量。
⽣成模型
五、模型测试语言乱码符号
伦勃朗的光影下的人模型训练好后,来测试模型的结果。Python代码如下,⽂件名为4_model_match.py。
4_model_match.py--模型测试代码
运⾏⽂件得到结果,即可查看给定词的相关词。
模型匹配结果
⾄此,使⽤python对中⽂wiki语料的词向量建模就全部结束了,vector中是每个词对应的词向量,可以在此基础上作⽂本特征的提取以及分类。所有代码都已上传⾄本⼈GitHub中,欢迎指教!

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。