现代维吾尔语句子资源库构建研究--688IT编程网

现代维吾尔语句子资源库构建研究

买买提•许库尔艾孜尔古丽*

（新疆师范大学，新疆乌鲁木齐830054）

摘要：在自然语言处理中，文本通常由多个句子组成。文本的分句以及句子的分类和统计在自然语言处理中占有十分重要的地位，是构建句子资源库的重要步骤.在此背景下，笔者重点分析了如何利用Python和MySQL数据库构建现代维吾尔语句子资源库，希望能够为相关研究提供借鉴.javascript判断是否为闰年

双老太婆原型是三个女人关键词：维吾尔语；句子统计；处理技术；Python;MySQL;C#

中图分类号：TP18文献标识码：A文章编号：1003-9767（2021）05-204-04

Research on Sentence Statistical Processing Technology Based on Uighur

Corpus

Maimati Xukul,Aizilguli*

(Xinjiang Normal University,Urumqi Xinjiang830054,China)

Abstract：In natural language processing,text usually consists of multiple sentences.The text segmentation and sentence classification and statistics play a very important role in natural language processing,and are an important step in constructing a sentence resource database.In this context,the author focused on analyzing how to use Python and MySQL databases to build a modem Uyghur sentence sub-resource library,hoping to provide a reference for related research.

Keywords：Uyghur language;sentence statistics;treatment technology;Python;MySQL;C#

0引言

句法分析是自然语言处理研究中的重点和难点。在句法分析方面，新疆多语种信息技术重点实验室构建了维吾尔语句法树库标注体系，并建立了规则库Z]，为实现基于规则的维吾尔语Chart句法分析器切进行了初步研究，同时也对基于自顶向下的句法分析方法进行了初探，并讨论了基于规则的维吾尔语句法分析方法间。本文主要利用Python相关技术从天山网维文版爬虫下载了近900万词的维吾尔语新闻语料，建立文本库，并进行统计形成句种句频库。

1文本语料采集技术研究

为了实现采集系统，本文使用Python3.7语言进行编程并导入requests>BeautiftilSoup、PyMySQL等模块，存储数据使用MySQL数据库5.7版本，编辑工具使用PyCharm。1.1文本采集环境分析

Python是个面向对象的高级程序设计语言，已广泛应用于科学计算、Web开发和网络爬虫等领域。本文在此文本采集系统中使用了以下库和模块。

（1）Requests库。Requests是基于urllib编写的一个库，主要用于HTTP请求，可以实现对网站数据的爬取。与urllib 相比，Requests更加方便，可以节约大量的工作，所以笔者在此爬虫中使用了Requests库。

（2）Beautiful Soup库。beautifulsoup库主要用于解析HTML或XML格式的数据，可以从解析后的HTML或XML数据中查、提取和修改信息，因此在网络爬虫中被研究者广泛应用。与其他解析库相比，BeautiftdSoup库更加简洁、高效、功能强大，它支持多种解析器，包括Python自带

基金项目：国家自然科学基金（项目编号：61662081）；新疆维吾尔自治区社会科学基金（项目编号：2016CYY067）；国家语言资源监测与研究中心少数民族语言分中心项目（项目编号：NMLR201602）；新疆维吾尔自治区自然科学基金（项目编号：2017D01A58）；新疆维吾尔自治区青年科技创新人才培养工程（项目编号：QN2016BS0365）0

作者简介：买买提•许库尔（1982-），男，维吾尔族，新疆阿克苏人，硕士研究生在读。研究方向：计算语言学。

通信作者：艾孜尔古丽（1987-），女，维吾尔族，新疆乌鲁木齐人，博士研究生，副教授。研究方向：计算语言学、自然语言处理。E-mail：****************。

的解析器"html.parser"，以及第三方的lxml和html51ib等[7I O （3）PyMySQL模块。PyMySQL是Python与MySQL 数据库进行交互的一个模块，本文通过PyMySQL模块实现MySQL数据库的各种操作。首先打开MySQL数据库创建一个表，表名为“文本库”，这个表的字段分别为ID、目录网址、网址、发布时间、标题和内容，用这个表存储爬虫的文本语料。本文从天山网维文版爬虫下载了维吾尔语新闻语料，包含新疆、全国、体育、科学教育、脱贫攻坚、经济和生活等27428条新闻。

1.2文本采集思路

1.2.1爬虫建立文本库

卖游戏源码的网站首先确定爬取目标网址，创建好存储数据库，准备好总调度模块的各个配置参数，批量读取待爬取的网站目录页URL，从URL管理器中取出n个新闻URL，收集页面下载器下载的数据，然后用解析器解析标题，发布时间和新闻内容等数据，最后通过SQL语句写入待爬取URL库。数据存储模块开始往数据库中写入数据后开始下一轮爬取，否则用异常处理模块显示信息。系统文本采集过程如图1所示。

图1系统文本采集过程

1.2.2建立文本库使用的技术

①mysql数据库的总结

总调度模块。该模块是爬虫采集程序的总入口，完成一个数据爬虫会返回数据信息并触发下一个任务，直到完成所有的爬虫采集任务。②ULR管理器。用于管理所有爬虫获取的URL，判断URL是否有效，分类管理待爬取的URL 和已爬取的URL。③异常隔离模块。这个模块链接爬取数据过程中的所有模块，在程序运行过程中发生异常时执行异常处理命令，把错误信息写入数据表中。④页面下载器。负责收集URL管理器获取的所有URL。⑤数据解释器。从上一步骤获得数据后，使用页面解析器去除多余的数据，获得所需要的数据。⑥数据存储模块。这个模块的作用是把爬虫得到的数据存储在数据库中。⑦数据库结构：为实现整个爬虫过程分别使用爬虫目录表和文本库2个表。

2句子识别算法研究

在自然语言处理中，文本通常由多个句子组成，而句子是由词汇组成的。从语言角度来看，语言粒度从大到小依次为篇章、段落、句子、短语、词和语素，句子起到承上启下的重要作用。

2.1维吾尔语句子的类型研究

维吾尔语按结构进行分类可以分简单句和复合句，按说话的语气和表达目的可分为陈述句、疑问句、

祈使句和感叹句等。在计算语言学自动分离维吾尔语句子时，以标点符号为主，包括问号（？）、感叹号（!）和句号（•）。可是表示维吾尔语句尾结束的句号存在歧义，即句号可能是省略号，可能是小数点，可能是缩写标记。本文通过分析总结出维吾尔语句子的划分规则。

①当句子结尾是问号、感叹号、句号时，大多数情况下以为是一个句子，例如：

站毀吃比3曲（你今天累了吗？）

亡応6疋>f占！（你安心吧！）

%沁血（我们了危重病人）

②当句号出现在缩写词中或数字中时，不能视为句子结束标识，例如：

简述什么是微服务出口6*$3心3此心sdJJ活寸360一sJdi%9.33心6 ts竝J3.（集体提案360件，占9.33%）

J.QsJJg&応0品6少牝亠L.Mutallip（是著名的诗人）

③当双引号里有问号、感叹号、句号时不能看作是一个句子结束的标识，例如：

tsi-住吃心&3宀』如弋出呻®（他说："我们要过年了！”）

④当由句点符号组成的省略号出现在句子最后时，不能视为句子结束标志，例如：

QZd3昨」品』"dGdGjQ（还有这种感人的时刻）

⑤当句号出现在英文网址里时，不能视为句子结束，例如：

二a诂己S.6&6审，二・辭切6563&凶56占63_#33.（你可以上网，点击网址：）

2.2维吾尔语句子识别规则设计研究

为了取消句号的歧义，本文用正则表达式到有歧义的句号暂时替换特殊符号，然后分局完了以后把

替换句号。正则表达式如下：

（\d+\.\d+）|（[\w+]{l,2}\.\w+）|（\d+\.\D）|（\.\.\.）|（[-A-Za-zO-9+&@#/%?=~_|+[-A-Za-z0-9+&@#/%=〜_|]）|（[!.打{l,2}\s?>⑵）

2.3维吾尔语句子识别算法

对于分句，本文使用了Split方法，split。就是将一个字符串分裂成多个字符串组成的列表。例如：strin

g[]sentences =text.Split（new char[]{丫，*!7;*}）;

句子的识别总体流程如图2所示。

（初始化配置）

图2旬子的识别流程

频统计，统计每条句子的文本数和长度；②统计简单句和

复合句的频次和比例；③统计陈述句、疑问句、祈使句和

感叹句的频次和比例；④按长度和分类统计句子的频次和比例[11'17]o

3.2系统的实现技术

MySQL 是一个拥有强大功能的数据库系统。C#编程

语言的语法简单，代码健壮，调试容易，所以本文采用C#

开发基于MySQL 数据库的统计系统。在建好句子库以后，使用C#和MySQL 数据库的统计功能统计句种、句频和文

本数。

3句子资源库构建研究

3.2.1句种句频统计

本文主要使用爬虫系统建立维吾尔语文本库和句子资源库。

根据本研究的需求，整个系统由爬虫建立文本库模块，分句分类戦和统计分析唤虺祖文本^^于陋濟维吾尔

语文本并保存管理文本库。统计模块能够对句子的长度、频次、文本数和类型进行统计和分析，最终形成句子资源库吧

3.1统计系统的设计

统计系统要实现以下功能：①根据分句实现句种、句mysql语句分类

表1句种句频表

序号

句子

频次

文本数

长度

1如剜150迅3新华网新闻501450123

2河3"』@36却叭*曲£占请点击此处査看原新闻83183163/6翅牝％丫你们来过新疆吗？7

44UMj 』3占创阴』込S 你对此有什么看法？

3345

各位代表！

60施53&占刖3」凸Jadgs 匕皿㈡“&如询心!我们对会议的召开表示热烈的祝贺！

4457屮也©

碱事实胜于雄辩。

1348

f 6JJ2Jbj 辿』6J&6&-»aj 胆JJ2

g 创0 民族团结是各族人民的生命线o

1010

97』06如3占3血诗65：这一'点，我们要始终坚持；335

£$i5u*^i53^^•占心3此1 口7晁口36广33」活,JiiJcSuAOcS-收缴其违纪违法所得；22

3.2.2

句子分类统计 ”）、疑问句（句子以问号结尾“°”

）、分号句（句子

从计算语言学角度考察句子时，需要按照句子结构来判断句子类型，其中主要靠句子特征，比如句子中的标点符号

和其他特征。在句子中不存在其他标点符号的称为简单句或者复合句。批量分类所有句子后使用SQL 语句统计并在统计系统显示出来。统计语句：SELECT 分类2, COUNT （分

类 2） AS 频次 from 句子 GROUP BY 分类 2, ORDER BY

COUNT （分类2） DESCo 简复句和复合句的比例如图3所示。

根据句子末尾标点符号分为陈述句（句子以句号结尾

分句保存的395 156条句子记录通过sql 统计语句后得

到354 340条句种后把这些句子存储到句种句频表里。统计

SQL 语句如下：SELECT 句子,COUNT （句子）AS 频次from

分句表 GROUP BY 句子 ORDER BY COUNT （句子）DESC O

统计文本数SQL 语句如下：SELECT COUNT （DISTINCT 文

本 ID ） AS 文本数 from 分句表 where 句子="'+JuZhong+" 'o

由此得到的统计结果如表1所示。

以分号结尾“;”）、感叹句（句子以感叹号结尾“!”）、其他句子类型（题目、作者信息、非法句子等）等5种句子

类型。统计使用的SQL 语句：SELECT 分类1, COUNT （分类 1） AS 频次 from 句子 GROUP BY 分类 1 ORDER BY

COUNT （分类1） DESCo 句子类型比例如图4所示。

表2句长和频次统计表

序号句长频次分类

1169991陈述句

2149953陈述句

3159877陈述句

4179789陈述句

5139576陈述句

6189461陈述句

7199163陈述句

8129079陈述句

9209050陈述句

10118493陈述句

4结语

本文描述了构建句子资源库所用的爬虫技术和句子统计技术，分别介绍了如何利用Python和MySQL数据库实现文本语料的采集和分析。该工作对于建设维吾尔语树库和处理自然语言具有重要的参考价值。

参考文献

[1]艾孜海尔江，艾孜尔古丽，玉素甫•艾白都拉.现代维吾尔

语句子分类系统[J].计算机与现代化,2015(3):84-87. [2]吐尔根•依布拉音，卡哈尔江•阿比的热西提，艾山•吾买尔,

买合木提•买买提.中亚语言自然语言处理综述[J].中文信息学报,2018,32(5):1-13.

⑶沈承放，莫达隆.beautifulsoup库在网络爬虫中的使用技

巧及应用[J].电脑知识与技术,2019,15(28):13-16.

[4]钟机灵.基于Python网络爬虫技术的数据采集系统研究[J].

信息通信,2020(4):96-98.

[5]高雅，苏艳，席方园.基于Python的新浪微博用户数据采

集与分析[J].电子设计工程,2019,27(20):157-160.[6]艾山•吾买尔，吐尔根•依步拉音.统计与规则相结合的维

吾尔语句子边界识别[J].计算机工程与应用,2010,46(14): 162-165.

[7]布海丽倩穆•玉努斯，阿布都热依木•沙力.中学化学维

吾尔文教材句子识别与统计分析[J].信息与电脑(理论版),2014(1):250-252.

[8]刘连芳，海银花，那顺乌日图，等.壮、蒙古、维、哈、

柯、朝语信息处理研究进展[J].广西科学院学报,201& 34(1):18-26.

[9]哈里旦木•阿布都克里木，孙茂松，刘洋，等.THUUyMorph：维

吾尔语形态切分语料库[J].中文信息学报2018,32(2):81-86. [10]玉素甫•艾白都拉，姚天昉，吾守尔•斯拉卡.维吾尔语句

法描述和分析方法[J].中文信息,1996(4):37-41.

[11]陈炜，买买提吐尔逊•阿布都拉.现代维吾尔语莎车土语

调查及其语音特点分析[J].语言与翻译,2020(1):31-35.

[12]苏日彦•艾尔西丁，艾孜尔古丽•玉素甫.现代维吾

尔语形动词短语识别规则研究[J]，电脑知识与技术,2020,16(16):205-206.

[13]哈斯亚提•买买提，阿不都热依木•沙力.现代维吾尔

语同形词的分类及其识别规则[J].信息与电脑(理论版),2020,32(7):35-37.

[14]李凌枫，柳慧.浅析现代维吾尔语形容词和副词的兼类词

问题[J].中国民族博览,2020(6):100-101.

[15]阿依古再丽•图尔贡.论现代维吾尔动词语义分析构建研

究[J].中国新通信,2020,22(1):163.

[16]艾买提•艾合买提.浅谈哈密土语中保留的一些古语词:

以《突厥语大辞典》为例[J].北方文学,2019(11):55. [17]木那瓦尔•吐送尼牙孜.形态学视域下的现代汉语和现代

维吾尔语名词研究[J].西部学刊,2019(1):119-123.

688IT编程网

现代维吾尔语句子资源库构建研究

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

现代维吾尔语句子资源库构建研究

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式