自然语言理解课程实验报告--688IT编程网

实验一、中文分词

一、实验内容

用正向最大匹配法对文档进行中文分词，其中：

（1）词表文件

（2）未经过分词的文档文件

（3while语句怎么用自然语言）pku_ 经过分词的文档文件

二、实验所采用的开发平台及语言工具

Visual C++ 6.0

三、实验的核心思想和算法描述

本实验的核心思想为正向最大匹配法，其算法描述如下

假设句子：，某一词，m 为词典中最长词的字数。

(1) 令 i=0，当前指针 pi 指向输入字串的初始位置，执行下面的操作：

(2) 计算当前指针 pi 到字串末端的字数（即未被切分字串的长度）n，如果n=1，转(4)，结束算法。否则，令 m=词典中最长单词的字数，如果n<m, 令 m=n；

(3) 从当前 pi 起取m个汉字作为词 wi，判断：

(a) 如果 wi 确实是词典中的词，则在wi 后添加一个切分标志，转(c)；

(b) 如果 wi 不是词典中的词且 wi 的长度大于1，将wi 从右端去掉一个字，转(a)步；否则（wi 的长度等于1），则在wi 后添加一个切分标志，将wi 作为单字词添加到词典中，执行 (c)步；

(4) 输出切分结果，结束分词程序。

四、系统主要模块流程、源代码

（1）正向最大匹配算法

（2）原代码如下

// Dictionary.h

#include <iostream>

#include <string>

#include <fstream>

using namespace std;

class CDictionary

{

public:

CDictionary(); //将词典文件读入并构造为一个哈希词典

~CDictionary();

int FindWord(string w); //在哈希词典中查词

private:

string strtmp; //读取词典的每一行

string word; //保存每个词

string strword[55400];

};

//将词典文件读入并

CDictionary::CDictionary()

{

ifstream infile(""); // 打开词典

if (!infile.is_open()) // 打开词典失败则退出程序

{

cerr << "Unable to open input file: " << ""

<< " -- bailing out!" << endl;

exit(-1);

}

int i=0;

while (getline(infile, strtmp)) // 读入词典的每一行并将其添加入哈希中

{

strword[i++]=strtmp;

}

infile.close();

}

CDictionary::~CDictionary(){}

//在哈希词典中查词，若到，则返回，否则返回

int CDictionary::FindWord(string w)

{

int i=0;

while ((strword[i]!=w) && (i<55400))

i++;

if(i<55400)

return 1;

else

return 0;

}

// 主程序main.cpp

#include "Dictionary.h"

#define MaxWordLength 14 // 最大词长为个字节（即个汉字）

# define Separator " " // 词界标记

CDictionary WordDic; //初始化一个词典

//对字符串用最大匹配法（正向）处理

688IT编程网

自然语言理解课程实验报告

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

自然语言理解课程实验报告

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式