python实现统计汉字/英文单词数的正则表达式--688IT编程网

python实现统计汉字／英⽂单词数的正则表达式思路

•使⽤正则式 "(?x) (?: [\w-]+ | [ 80- ff]{3} )"获得utf-8⽂档中的英⽂单词和汉字的列表。

•使⽤dictionary来记录每个单词／汉字出现的频率，如果出现过则＋1，如果没出现则置1。

•将dictionary按照value排序，输出。

源码

复制代码代码如下:

#!/usr/bin/python

# -*- coding: utf-8 -*-

#author: rex

#blog:

#filename counter.py

#created: Mon Sep 20 21:00:52 2010

#desc: convert .py file to html with VIM.

import sys

import re正则化匹配26个字母python

from operator import itemgetter

def readfile(f):

with file(f,"r") as pFile:

ad()

def divide(c, regex):

#the regex below is only valid for utf8 coding

return regex.findall(c)

def update_dict(di,li):

for i in li:

if di.has_key(i):

di[i]+=1

else:

di[i]=1

return di

def main():

#receive files from bash

files=sys.argv[1:]

#regex compile only once

regex=repile("(?x) (?: [\w-]+ | [ 80- ff]{3} )")

dict={}

#get all words from files

for f in files:

words=divide(readfile(f), regex)

dict=update_dict(dict, words)

#sort dictionary by value

#dict is now a list.

dict=sorted(dict.items(), key=itemgetter(1), reverse=True)

#output to standard-output

for i in dict:

print i[0], i[1]

if __name__=='__main__':

main()

Tips

由于使⽤了files=sys.argv[1:] 来接收参数，因此./counter.py file1 file2 ...可以将参数指定的⽂件的词频累加计算输出。

可以⾃定义该程序。例如，

•使⽤

复制代码代码如下:

regex=repile("(?x) ( [\w-]+ | [ 80- ff]{3} )")

words=[w for w in regex.split(line) if w]

这样得到的列表是包含分隔符在内的单词列表，⽅便于以后对全⽂分词再做操作。

•以⾏为单位处理⽂件，⽽不是将整个⽂件读⼊内存，在处理⼤⽂件时可以节约内存。

•可以使⽤这样的正则表达式先对整个⽂件预处理⼀下，去掉可能的html tags: content=re.sub(r"<[^>]+","",content)，这样的结果对于某些⽂档更精确。

688IT编程网

python实现统计汉字/英文单词数的正则表达式

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

python实现统计汉字/英文单词数的正则表达式

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式