语料库常用统计方法--688IT编程网

frequency函数计算频数3.5语料库常用统计方法

第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成，可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义，常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。

3.5.1 语料库与统计方法

介绍相关统计方法之前，首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时，我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中，我们需要描述这些样本的出现和分布情况。此外，我们还经常需要观察不同语言项目之间在一定语境中共同出现（简称共现）的概率；以及观察某个（些）语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。

理论上说，几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用，不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化（normalization）、频数差异检验和搭配强度的计算方法。

3.5.2 频数标准化

基本原理

通常语料检索、词表生成结果中都会报告频数（frequency, freq或raw frequency）。那么某词（如many）在某语料库中出现频数为100次说明什么呢？这个词在另一个语料库中出现频数为105次，是否可以说many在第二个语料库中更常用呢？显然，不能因为105大于100，就认定many在第二个语料库中更常用。这里大家很容易想到，两个语料库的大小未必相同。按照通常的思维，我们可以算出many在两个语料库中的出现百分比，这样就可比了。这种情况下，我们是将many在两个语料库中的出现频数归到一个共同基数100之上，即每100词中出现多少个many。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率，即基于一个统一基准得出的频率。

实例及操作

频数标准化，首先需要用某个（些）检索项的实际观察频数（原始频数，raw frequency）除以总体频数（通常为文本或语料库的总词数），这样得到每一个单词里会出现该检索项多少

次。在频数标准化操作中，我们通常会在此基础上乘以1千（1万、1百万）得到平均每千（万、百万）词的出现频率。即：

（注：观测频数即检索词项实际出现的次数；总体频数即语料库的大小或总形符数。）

例如，more在中国学生的作文里出现251次，在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外，我们还可以利用Excel或SPSS等工具来计算标准化频率。比如，可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格，然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more约为6.67次。要得到母语者more使用的每千词频率，只需点击C1单元格，将光标移至单元格右下角直至光标变为黑+时，按住鼠标左键，顺势下拉至C2格即可得到母语者每千词使用more的次数约为2.72次。如有更多频数数据需要标准化处理，可依同样方法求得。

图3.5.1 频数标准化

3.5.3 频数差异检验

上节，我们通过将频数归到一个共同的基数，从而可以对不同频数加以比较。然而，在统计学中，常常需要对参与比较的数据之间的差异是否具有显著性加以综合检验。在语料库数据分析中，最常用的是卡方检验（chi-square或χ2）和对数似然比（log-likelihood ratio，常简写为LL）。两种检验方法的作用和实际操作类似，以下我们重点讲解卡方检验。这两种检验方法也可以用作搭配强度计算。

基本原理

与频数标准化不同，卡方检验除了考虑到某个检索项在两个不同语料库中的出现频数和语料

库大小外，还考虑到检索项在语料库不出现的情况。例如，在1000词的文本中the出现50次，那么它不出现的情况就是余下的950次。类似的频数数据，我们用到的是2×2连列表（contingency table）方法的卡方检验。在统计学上，综合该检索项在两个语料库中出现和不出现的情况，统计学家提出了该检索项理论上的预期频数，其算法是：

688IT编程网

语料库常用统计方法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

语料库常用统计方法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式