java+webmagic 爬取csdn ⽂章java面试题csdn
⽤webmagic 爬⾍框架,做了⼀个demo 来爬取csdn 的⽂章
可以根据⽤户名,来爬取这个⽤户的⽂章,在这之前,建议有兴趣的可以先看⼀下⾸先,是引⼊webmagic 的jar 包,开始这⾥我只使⽤了核⼼的包,下⾯是gradle 的引⼊
爬取⽂章后,我们需要存⼊数据库⾥,所以这⾥设计⼀下数据库的表,需要注意的是,表结构的编码设置为utf8mb4,
因为这个编码可以⽀持⼀些表情符号的录⼊,其他的编码类型,可能会导致⽂章录⼊数据库的时候失败⽂章内容“content”字段,类型需为mediumtext ,因为⽂章⾥包含了标签,实际上的⽂章内容长度⾮常⼤1
// mvnrepository/decraft/webmagic-core 2
compile group: 'us.codecraft', name: 'webmagic-core', version: '0.7.4'3 // mvnrepository/decraft/webmagic-extension 4 compile group: 'us.codecraft', name: 'webmagic-extension', version: '0.7.4'
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论