Webscraper爬取使⽤总结(持续更新)
我是精神抖擞王⼤鹏,不卑不亢,和蔼可亲~
计算机硕⼠,⽬前⼩⽶⼤数据开发。⽇常会分享总结⼀些⾃⼰⾯试实际问题的回答,欢迎⼀起讨论。
:diting_dapeng
1.使⽤link可以使得爬取到的内容多获取两列,⼀列是该指定link处的⽂字text,⼀列是跳转的链接的url;
2.使⽤link爬取多级页⾯时,如果想获得多级页⾯下的内容,不管这个页⾯是在当页打开,或是在新的页⾯打开,都可以在创建的类型为link的结构下,再对⼦页⾯的元素进⾏抓取;
3.Text⽤于⽂本,Table⽤于表格,image⽤于图⽚;
4.Element⽤于结构体,可以在结构体内再去选择⼦元素,但是其⼦元素不⽤勾选multiple选项;
5.Element scroll down⽤于爬取下拉滚动式的页⾯结构体;
6.Element click⽤来爬取需要点击的分页页⾯;
scraper7.Element click的使⽤基本上有两种:
第⼀是采⽤click one的⽅式直接全部选取:
第⼆是采⽤click more的⽅式来点击下⼀页进⾏获取:
8.遇到有规律的分页,可以使⽤[2-5]表⽰第2页到第5页,如果是步长为2页,则可以:[2-5:2];

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。