使用Python内置集合对象和内置函数filter()过滤无效书评--688IT编程网

使⽤Python内置集合对象和内置函数filter（）过滤⽆效书评很多朋友是从编写⽹络爬⾍开始学习Python的，⼀个很⾃然的想法是爬取书评（关于如何编写爬⾍抓取书评会单独形成⽂章进⾏介绍），然后选择⾃⼰喜欢的书或者其他读者评价较⾼的书，这是⼀个⾮常好的思路，也是⾮常明智的做法。

然⽽，并不是每个消费者都会认真留⾔评论，也有部分消费者可能会复制了⼏个简单的句⼦或词作为评论。在爬取到原始书评之后可能需要进⾏简单的处理和过滤，这时就需要制定⼀个过滤的标准进⾏预处理，这也是数据处理与分析的关键内容之⼀。

在进⼊正题之前，⾸先回顾⼀个常识：Python集合中的所有元素是不允许重复的，⾮常适合⽤来提取唯⼀元素。

在下⾯的代码中，采⽤了⼀个最简单的规则：正常书评中，重复的字应该不会超过⼀定的⽐例。

comments = ['这是⼀本⾮常好的书，作者⽤⼼了',

'作者⼤⼤⾟苦了',

'好书，感谢作者提供了这么多的好案例',

'书在运输的路上破损了，我好悲伤。。。',

'为啥我买的书上有菜汤。。。。',

'啊啊啊啊啊啊，我怎么才发现这么好的书啊，相见恨晚',

'书的质量有问题啊，怎么会开胶呢',

'好好好好好好好好好好好',

'好难啊看不懂好难啊看不懂好难啊看不懂',

'书的内容很充实',

'你的书上好多代码啊，不过想想也是，编程的书嘛，肯定代码多⼀些',

'书很不错!!⼀级棒!!买书就上当当，正版，价格⼜实惠，让⼈放⼼ ',

'⽆意中来到你⼩铺就淘到⼼意的宝贝，⼼情不错! ',

'送给朋友的、很不错',

'这是⼀本好书，讲解内容深⼊浅出⼜清晰明了，推荐给所有喜欢阅读的朋友同好们。']

filter过滤对象数组

rule = lambda s:len(set(s))/len(s)>0.5

result = filter(rule, comments)

print('原始书评：')

for comment in comments:

print(comment)

print('='*30)

print('过滤后的书评：')

for comment in result:

print(comment)

代码运⾏结果：

----------喜⼤普奔----------

1、继《Python程序设计基础》《Python程序设计（第2版）》《Python可以这样学》系列图书之后，董付国⽼师新书《Python程序设计开发宝典》已于2017年8⽉1⽇在清华⼤学出版社出版。为庆祝新书《Python程序设计开发宝典》全⾯上架，清华⼤学出版社联合“赣江图书专营”淘宝店推出特价优惠活动，《Python程序设计开发宝典》原价69元，新书上架期间超低价39.8元，可以复制下⾯的链接使⽤浏览器打开查看图书详情和购买：

2、10⽉13⽇——15⽇，重庆，全国⾼校程序设计系列课程⾼级研究班，详见：

3、9⽉22⽇——24⽇，北京，全国Python科研应⽤专题实操培训班通知，详见：

688IT编程网

使用Python内置集合对象和内置函数filter()过滤无效书评

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

使用Python内置集合对象和内置函数filter()过滤无效书评

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式