使用python爬取文库文档--688IT编程网

使⽤python爬取⽂库⽂档下载doc⽂档

import requests

import re

import json

telnet命令在哪里开启

from docx import Document

def get_document(url):

'''rank函数使用说明

url ⽂库地址

'''

sess = requests.Session()

html = (url).content.decode("gbk")

# 抓取到⽂档标题

title = re.search('id="doc-tittle-0">(.*?)</span>', html).group(1)

# 使⽤正则提取⽂档内容的url

res = re.search("WkInfo.htmlUrls = '(.*)'", html).group(1)

# \\x22是linux中的引号，替换成Python中的引号

res = place("\\x22","\"")

# 转成字典

data = json.loads(res)

document = Document()

string =""

for i in data["json"]:

url = i["pageLoadUrl"]# 获取到url

url = place("\\","")# url中有转义符\去掉

# 请求⽂档内容

preference 100data = (url).content.decode("utf-8")

# 提取⽂本数据

res = re.search("wenku_\d*\((.*)\)", data, re.S).group(1)

# 将json对象数据转成Python对象

data = json.loads(res)

for i in data['body']:

# 判断数据是什么类型

if i["t"]=="word":

# 获取到⽂本

string +=str(i["c"])

# ps中不为空并且_enter==1的时候是换⾏也就是⼀段内容

if i["ps"]and i["ps"].get("_enter")==1:

document.add_paragraph(string)# 将⼀段内容写⼊到word

string =""# 重新复制 "" 表⽰新的⼀段⽂本

# 保存word

document.save(title +".docx")

if __name__ =='__main__':

xml文件写法get_document("wenku.baidu/view/5abffd98a200a6c30c22590102020740bf1ecd0d.html?from=search")

⽅法直接调⽤就可以，传⼊参数为⽂库地址，纯⽂本⽂档⽐较好⽤，如果⽂档有表格等其它特殊样式，可能会出现乱码，但是不影响⽂本内容。

代码中⽤到的module：

requests ⽤于发送请求获取请求结果

json 解析请求结果，转化为json数据，便于数据整理

淘宝轮播图

python请求并解析json数据re 正则模块，从请求结果中取出我们所需要的内容

docx ⽂档操作，将读出来的内容，重新写⼊新建⽂档中

688IT编程网

使用python爬取文库文档

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

使用python爬取文库文档

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则