python 快速从文档中查敏感词的方法--688IT编程网

python 快速从文档中查敏感词的方法

在Python中，可以使用正则表达式模块`re`来进行快速搜索敏感词。下面是一个简单示例：

python

import re

def find_sensitive_words(text, sensitive_words):

found_words = []

for word in sensitive_words:

pattern = repile(r'\b' + re.escape(word) + r'\b', flags=re.IGNORECASE)

matches = re.findall(pattern, text)

d(matches)

return found_words

# 示例文本

document = """

Python is a powerful programming language and is widely used in data analysis.

However, some people may use it to perform malicious activities such as hacking.

We need to prevent the misuse of Python and protect computer security.

"""

# 敏感词列表

sensitive_words = ['python', 'hacking', 'misuse']

# 查敏感词

result = find_sensitive_words(document, sensitive_words)

# 输出结果

文档字符串是什么

print("Found sensitive words:", result)

输出结果：

Found sensitive words: ['Python', 'hacking', 'misuse']

上述代码中，`find_sensitive_words`函数接受一个文档字符串和一个敏感词列表作为参数。它使用`repile`函数创建一个正则表达式模式，将每个敏感词都包裹在`\b`边界匹配符中，并使用`re.IGNORECASE`标志进行不区分大小写的匹配。然后，使用`re.findall`函数在文档字符串中到所有匹配的词，并将它们保存在一个列表中。最后，返回到的敏感词列表。

请注意，在上述示例中使用了`\b`边界匹配符来确保只匹配整个单词，而不是单词的一部分。这可以避免误判类似于“reception”等与敏感词形似的词语。根据需要，可以自定义或添加其他预处理步骤来适应特定的敏感词查需求。

发表评论

688IT编程网

python 快速从文档中查敏感词的方法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

python 快速从文档中查敏感词的方法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式