win10⼦系统python开发环境准备及kenlm和nltk的使⽤教程
⽬录
前⾔
Python的下载
kenlm的安装
nltk安装
前⾔
因为NLP作业需要⽤到kenlm,⽽kenlm在linux下更为⽅便。本⼈win10之前开启了⼦系统,所以就打算在⼦系统下进⾏相关作业的完成。
⾸先开启win10⼦系统,⽹上教程挺多,照着做就成。我当前安装版本是Ubuntu16.04。终端输⼊cat /etc/lsb-release或uname可以查看版本。⼦系统开启后,win10的盘符挂载在mnt下,可以执⾏ls -al /mnt 查看。
Python的下载
Linux中⾃带python2,不过Pyhton软件基⾦会宣布到2020年元旦不在为py2任何分⽀提供⽀持。所以我们下载安装py3。在后⾯的编译操作中需要⽤到make和cmake⼯具,需要提前下载安装。make和cmake的使⽤,需要gcc的⽀持。在这⾥就不介绍gcc的安装了,可⾃⾏百度解决。
make是⼀个命令⼯具,它解释 Makefile 中的指令。在Makefile⽂件中描述了整个⼯程所有⽂件的编译顺序、编译规则。make依据Makefile⽂件来批处理编译,因为编写Makefile⽂件太繁琐复杂,就出现了cmake⼯具,它能读⼊所有源⽂件之后,⾃动⽣成makefile。
在进⾏下⾯步骤前,先执⾏sudo apt update更新,防⽌出现⼀些错误
1.make的下载和安装
wget /gnu/make/make-4.
tar -zxvf make-4.
cd make-4.2
./configure #⽣成 Makefile,为下⼀步的编译做准备
make    #进⾏源代码编译
sudo make install #安装,这⼀步会将编译好的make⽂件转移到/usr/local/make⽬录下,该⽬录需要root权限
ln -s -f /usr/local/bin/make /usr/bin/make
make --version #查看版本
wget /files/v3.3/cmake-3.5.
tar xzvf cmake-3.5.
yum install gcc-c++ # 安装gcc等程序包(安装过就忽略)
cd cmake-3.5.1
./bootstrap
make
make install
cmake --version #查看版本
cmake 会默认安装在/usr/local/bin 下⾯
也可以直接安uild-essential软件包,该软件包中包含了编译c/c++所需要的软件包。sudo apt-get install build-essential
3.Python下载
wget /ftp/python/3.7.3/Python-3.
4.解压
tar zxvf Python-3.
cd Python-3.7.3
5.编译
./configure --with-ssl
make
sudo make install
注意:–with-ssl必须加上,否则使⽤pip安装第三⽅包时,会引发ssl错误。导致⽆法使⽤。如果执⾏pip install出错,重新编译安装即可。
⼀些错误问题:
ZipError:
sudo apt install zlib*
ImportError:'_ctypes'
sudo apt-get install python-dev python-setuptools python-pip python-smbus build-essential libncursesw5-dev libgdbm-dev libc6-dev zlib1g-dev libsqlite3-dev tk-dev libssl-dev openssl libffi-dev
6.创建软链接
# 添加python3的软链接
sudo ln -s /usr/local/bin/python3.7 /usr/bin/python3
# 添加 pip3 的软链接
sudo ln -s /usr/local/bin/pip3.7 /usr/bin/pip3
kenlm的安装
1.boost
在下载boost,本⼈下载了boost_1_70_0。
cd boost_1_70_0
./bootstrap.sh
./b2 install
<cmake如何使用
wget /xz/xz-5.2.
tar xzvf xz-5.2.
cd xz-5.2.2
./configure
make
make install
3.zlib
wget zlib/zlib-1.2.
tar xzf zlib-1.2.
cd zlib-1.2.11
./configure
make
make install
4.bzip
wget /linux/misc/bzip2-1.0.
tar xzvf bzip2-1.0.
cd bzip2-1.0.6/
make
make install
5.libbz2-dev
apt-get install libbz2-dev
6.kenlm
cd kenlm
mkdir -p build
cd build
cmake ..
make -j 4 # 启⽤4个cpu去编译。提⾼编译速度
cd ..
python setup.py install
测试,在python环境中导⼊kenlm⽆报错,说明kenlm安装成功。或者运⾏\kenlm\python\example.py⽂件
nltk安装
nltk直接⽤pip下载就⾏,nltk_data⽂件较⼤,可以离线下载后添加进路径。win10下使⽤nltk_data,直接放进D盘中就⾏,nltk会⾃动查到。但是在Linux下需要将nltk_data路径添加到data,或者移动到
下⾯输出的路径中。为了⽅便,我个⼈是建⽴了个软链接sudo ln -s /mnt/d/nltk_data /usr/local/nltk_data
import nltk
nltk.data.find(".")
# Searched in:
#  - '/root/nltk_data'
#  - '/usr/local/nltk_data'
#  - '/usr/local/share/nltk_data'
#  - '/usr/local/lib/nltk_data'
#  - '/usr/share/nltk_data'
#  - '/usr/local/share/nltk_data'
#  - '/usr/lib/nltk_data'
#  - '/usr/local/lib/nltk_data'
在当前会话下添加路径到data
from nltk import data
data.path.append(r"你下载的nltk_data所在路径")
添加完路径,使⽤nltk.data.path查看当前已添加路径
简单测试
kenize import word_tokenize
sentence = "since the 1890s , and beginning in france , the term ''libertarianism '' has often been used as an synonym for anarchism and was used almost exclusively in this sense until the 1950s in the united states ; its use as an synonym is still common outs print(word_tokenize(sentence))
总结
以上所述是⼩编给⼤家介绍的win10⼦系统python开发环境准备及kenlm和nltk的使⽤教程,希望对⼤家有所帮助,如果⼤家有任何疑问请给我留⾔,⼩编会及时回复⼤家的。在此也⾮常感谢⼤家对⽹站的
⽀持!
如果你觉得本⽂对你有帮助,欢迎转载,烦请注明出处,谢谢!

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。