python解析HTML网页代码,获取所有超链接--688IT编程网

mysql没有配置环境变量会怎样python解析HTML⽹页代码，获取所有超链接

背景：领导让统计点东西，之前⼀个页⾯的都⽤JS操作的，这次不⾏了：要跳2个页⾯才能获取到数据（我的思路是先从第⼀个页⾯获取所有超链接放到⼀个数组⾥，然后循环遍历，取第⼆个页⾯⾥的数据）。然后决定⽤刚学的PYTHON上⼿。（其实我这个整体思路就错了，应该直接通过接⼝取数据；⽽不是通过页⾯URL；因为URL有可能是动态⽣成的数据，就算获取到了url解析出来了，数据也是不全的...但也算加深学习python 了）

思路：⾸先就是把请求头（包括cookie）放在header⾥登录⽹页。第⼆步是获取A标签。

from bs4

import BeautifulSoup

from urllib import request

quest

import chardet

import zlib

import requests

#1 数据url

url ="/xxxxx"

#2 添加请求头

header = {

"method":"POST",

"accept":"application/json, text/plain, */*",

inmetro怎么读"accept-encoding":"gzip, deflate, br",

"accept-language":"zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",

"content-type":"application/json;charset=UTF-8",

"cookie":"xxxxxxxxxxxxxxxxxxx",

}

#3 构建请求对象

request = quest.Request(url, headers=header)python请求并解析json数据

#4 发送请求对象

response = quest.urlopen(request)

#5 读取并解析GZIP格式的页⾯（这⾥踩过坑，⼀开始解析出是都是乱码；后来知道是因为gzip格式导致的；处理⽅式如下）

创建一个简单的链表c语言data = zlib.ad(), 16+zlib.MAX_WBITS)

#打印data

print(data)

#调试打印解析出的⽂件的格式是什么

print (chardet.detect(data).get('encoding'))

soup = BeautifulSoup(data, 'html.parser', from_encoding='iso-8859-1')

print(soup.decode('UTF-8'))

# 出所有的 a 标签，因为所有的链接都在 a 标签内

data = soup.find_all('a')

# 打开⽂件对象做持久化操作

file =open('D:/', mode='w', encoding='UTF-8')

# 遍历所有的 a 标签，获取它们的 href 属性的值和它们的text

for itemin data:

if item.stringis not None and item['href'] !='javascript:;' and item['href'] !='#':

print(item.string, ('href'))

redis面试题及答案2022file.write(str.__add__(item.string, ' '))

file.write(str.__add__(item['href'], '\n'))

mysql数据库端口号怎么查踩了3个坑：

1.⼀个是read源⽹页后，发现都是乱码；然后发现是gzip格式导致的；然后导⼊python的zlib库解决的。

然后还百度了--->打印解析出的⽂件的格式的指令：#print (chardet.detect(html).get('encoding'))

2.最开始写得那版，其实没有read，其实也是运⾏成功了的；但是我看着返回结果不太对，就⼜去read了⼀下源⽂件。然后出现了上述乱码问题。

第⼀版代码：

第⼆版代码：

3.成功解析出源码后，发现⽐源HTML少了好多数据。⼀查，发现有些数据是js后期加载⽣成的.....也就

是说我这些都⽩写了。参考⽂章：

688IT编程网

python解析HTML网页代码,获取所有超链接

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python解析HTML网页代码,获取所有超链接

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式