实例二》爬取论坛标题--688IT编程网

实例⼆》爬取论坛标题

爬取论坛中的标题

这部分的重点：

1、明确你要爬取⽹页的⽹址，使⽤⾕歌的检查功能，可以抓取页⾯的数据，但加载的内容有很多，图⽚，js⽂件都⾮常多，必须要在这⾥⾯到你想爬取的页⾯的⽹址。

2、⽤到了正则表达式，正则表达式不准确也是输出不了想要的结果，建议输出r.text后在正则表达式的⽹站上确认⾃⼰的表达式没有问题，再进⾏使⽤。

3、beautifulsoup知识点太多，单开⽂章汇总使⽤⽅法

# 使⽤正则表达式实现抓取⽹页的标题

import requests

import re

url = "bbs.tianya/m/list-funinfo-1.shtml"

headers = {

'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Mobile Safari/537.36'

}

r = (url,headers)

html = r.text

)

title_list = re.findall('<div class=\Sp-title\S>(.*?)\n.*\n.+</div>',html)

print(title_list)

# 使⽤BeautifulSoup抓取标题

import requests

from bs4 import BeautifulSoup

url = "bbs.tianya/m/list-funinfo-1.shtml"

headers = {

'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Mobile Safari/537.36'

}

r = (url, headers)

soup = ,"lxml")

ul = soup.find_all("div",class_="p-title")

# 使⽤class做参数会导致语法错误，从Beautiful Soup的4.1.1版本开始，可以通过class_参数搜索有指定CSS类名的tag

for i in range(len(ul)):

title = ul[i].get_text()

print(title)

"""

使⽤lxml提取⽹页源代码有3种⽅法：

1、XPath选择器

在XML⽂档中查信息的语⾔

2、CSS选择器

3、BeautifulSoup的find()⽅法

"""

import requests

from lxml import etree

link = "bbs.tianya/m/list-funinfo-1.shtml"

headers = {

'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Mobile Safari/537.36'

}

最新论坛网站源码r = (link, headers)

html = etree.)

title_list = html.xpath('//div[@class="p-title"]/text()')

# 右键检查，定位标题，右键选择复制-复制xpath，快速得到xpath路径，缺点是⼀次输出⼀个值

title_list1 = html.xpath('//*[@id="bbs_list"]/div[4]/ul/li[1]/a/div[1]/text()')

print(title_list)

print(title_list1)

688IT编程网

实例二》爬取论坛标题

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

实例二》爬取论坛标题

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式