从HTML文件中抽取正文的简单方案
抽取HTML文件中的正文是一个常见的任务,可以通过一些简单的方案来实现。以下是一种基本的方法:
```python
from bs4 import BeautifulSoup
def remove_tags(html):
soup = BeautifulSoup(html, 'html.parser')
[s.extract( for s in soup(['style', 'script', 'meta', 'link'])]
text = _text
return text
```
2.删除非正文内容:
HTML文件中可能包含一些非正文内容,比如底部导航栏、侧边栏、广告等。我们可以使用关键词或正则表达式来匹配这些非正文内容,并将其删除。以下是一个示例代码:
```python
def remove_non_content(text):
正则匹配关键词#根据关键词或正则表达式删除非正文内容
keywords = ['Footer', 'Navigation', 'Advertisement']
for keyword in keywords:
text = place(keyword, '')
return text
```
在这个示例中,我们将文本中的关键词'Footer'、'Navigation'和'Advertisement'替换为空字符串,从而删除
这些非正文内容。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论