【Python爬虫】爬取企业专利信息--688IT编程网

【Python爬⾍】爬取企业专利信息

本来是个美好的周末的，但是周五晚上领导给了⼀个公司名称的Excel，让把这些公司的专利信息爬取下来。本⽂记录了爬取企业专利信息的⼼酸过程。码字不易，喜欢请点赞

⼀、寻⽬标⽹页

在接到这个任务之后，我的内⼼是拒绝的。但是⼜不能不⼲。因此⾸先我需要先到有公司专利信息的地⽅。在⼀番查和问了问朋友之后，我知道中国专利⽹、国家知识产权⽹、Incopat、天眼查、企查查这些⽹站上⾯都有企业的专利信息。

1. 中国专利⽹和国家知识产权局

⾸先我看了下这两个⽹站，⽹页⾯如下，⽹页可以根据公司名称来搜索专利，并且还有个好处就是可以使⽤关键字连接公司名

称，从⽽⼀次查询多个公司的专利信息。

爬虫可以干什么

但是我还是放弃了这两个⽹址，是因为加载速度⽐较慢，如下图，点击查询或者下⼀页速度很慢(可能

是我这边⽹速或者啥别的原因)。

⼤家可以先试⼀下⾃⼰那边加载这个⽹址的速度，如果速度还⾏的话，建议直接在这个⽹页上爬取。

2.Incopat

Incopat⽹页如下，这个⽹页的话需要登录才能使⽤，当然你也可以申请试⽤，申请之后⼯作⼈员会联系，也⽐较慢。但是会有学校买过了这些数据库，⽐如17年⼤连理⼯买了这个数据库，当时我需要数据时候直接让⼤⼯的朋友帮忙下载的，速度很快，⽽且可以直接导出。

所以⼤家可以看看有没有哪些⾼校或者机构买了这个数据库，然后⼀下在⾥⾯的朋友帮忙下载，速度⾮常快，操作⼗分简单。

3.天眼查和企查查

我了⼀下，没到买了Incopat的数据库的朋友。所以只好⾃⼰爬了，因为之前爬过天眼查的很多数据，所以⾸先看了天眼查。

其实18年年初爬过天眼查专利信息，但是因为电脑坏了，忘记备份代码了，所以没了，很扎⼼然后这次⾸先看了下天眼查专利这部分的爬⾍，发现反爬做的太好了。所以选择了反差⽐他差⼀点点的企查查，企查查专利页⾯如下。

⼆、开始爬⾍

1. 获取公司的ID

天眼查和企查查的整个⽹页结构是⼀样的，⼀般根据公司名称爬取企业信息，都是先获取公司的ID，然后根据公司ID进⼊到包含企业各项指标信息的页⾯。这⾥以华为公司为例，上⾯标签a的href属性值中KaTeX parse error: Expected group after '_' at position 6: /frim_后的⼀串字母数字组合就是这个公司的ID。

2.进⼊公司信息主页⾯

然后根据刚刚得到的公司ID(保存这个ID，后⾯爬取企业专利信息还需要)可以进⼊包含华为的内容的主页⾯，可以看到⽹址由公司ID加其他固定信息组成。

688IT编程网

【Python爬虫】爬取企业专利信息

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

【Python爬虫】爬取企业专利信息

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式