【Python爬⾍】爬取企业专利信息
本来是个美好的周末的,但是周五晚上领导给了⼀个公司名称的Excel,让把这些公司的专利信息爬取下来。本⽂记录了爬取企业专利信息的⼼酸过程。码字不易,喜欢请点赞
⼀、寻⽬标⽹页
在接到这个任务之后,我的内⼼是拒绝的。但是⼜不能不⼲。因此⾸先我需要先到有公司专利信息的地⽅。在⼀番查和问了问朋友之后,我知道中国专利⽹、国家知识产权⽹、Incopat、天眼查、企查查这些⽹站上⾯都有企业的专利信息。
1. 中国专利⽹ 和 国家知识产权局
⾸先我看了下这两个⽹站,⽹页⾯如下,⽹页可以根据公司名称来搜索专利,并且还有个好处就是可以使⽤关键字连接公司名
称,从⽽⼀次查询多个公司的专利信息。
爬虫可以干什么
但是我还是放弃了这两个⽹址,是因为加载速度⽐较慢,如下图,点击查询或者下⼀页速度很慢(可能
是我这边⽹速或者啥别的原因)。
⼤家可以先试⼀下⾃⼰那边加载这个⽹址的速度,如果速度还⾏的话,建议直接在这个⽹页上爬取。
OR
2.Incopat
Incopat⽹页如下,这个⽹页的话需要登录才能使⽤,当然你也可以申请试⽤,申请之后⼯作⼈员会联系,也⽐较慢。但是会有学校买过了这些数据库,⽐如17年⼤连理⼯买了这个数据库,当时我需要数据时候直接让⼤⼯的朋友帮忙下载的,速度很快,⽽且可以直接导出。
所以⼤家可以看看有没有哪些⾼校或者机构买了这个数据库,然后⼀下在⾥⾯的朋友帮忙下载,速度⾮常快,操作⼗分简单。
3.天眼查和企查查
我了⼀下,没到买了Incopat的数据库的朋友。所以只好⾃⼰爬了,因为之前爬过天眼查的很多数据,所以⾸先看了 天眼查。
其实18年年初爬过天眼查专利信息,但是因为电脑坏了,忘记备份代码了,所以没了,很扎⼼然后这次⾸先看了下天眼查专利这部分的爬⾍,发现反爬做的太好了。所以选择了反差⽐他差⼀点点的企查查,企查查专利页⾯如下。
⼆、开始爬⾍
1. 获取公司的ID
天眼查和企查查的整个⽹页结构是⼀样的,⼀般根据公司名称爬取企业信息,都是先获取公司的ID,然后根据公司ID进⼊到包含企业各项指标信息的页⾯。这⾥以华为公司为例,上⾯标签a的href属性值中KaTeX parse error: Expected group after '_' at position 6: /frim_后的⼀串字母数字组合就是这个公司的ID。
2.进⼊公司信息主页⾯
然后根据刚刚得到的公司ID(保存这个ID,后⾯爬取企业专利信息还需要)可以进⼊包含华为的内容的主页⾯,可以看到⽹址由公司ID加其他固定信息组成。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。