六客Chrome插件

Webscraper爬取使用总结

[复制链接]
发表于 2020-12-14 22:41:26 | 显示全部楼层 |阅读模式
在使用Webscraper爬虫插件添加任务的时候,会接触到link(链接)、Text、Element …… 简单介绍下。

1.使用link可以使得爬取到的内容多获取两列,一列是该指定link处的文字text,一列是跳转的链接的url;

2.使用link爬取多级页面时,如果想获得多级页面下的内容,不管这个页面是在当页打开,或是在新的页面打开,都可以在创建的类型为link的结构下,再对子页面的元素进行抓取;

3.Text用于文本,Table用于表格,image用于图片;

4.Element用于结构体,可以在结构体内再去选择子元素,但是其子元素不用勾选multiple选项;

5.Element scroll down用于爬取下拉滚动式的页面结构体;

6.Element click用来爬取需要点击的分页页面;

7.Element click的使用基本上有两种:

第一是采用click one的方式直接全部选取:

w1.jpg

第二是采用click more的方式来点击下一页进行获取:

w2.jpg

8.遇到有规律的分页,可以使用[2-5]表示第2页到第5页,如果是步长为2页,则可以:[2-5:2];


六客插件 - 好用的插件

本站鼓励并倡导使用正版软件,并不做任何破解软件的工作内容。站内所有软件资源版权均属于原作者所有,资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

最近更新的插件

免责声明

六客插件所发布的一切软件应用的帖子仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。(如有侵犯了您权益的应用请点此处联系我们处理

Archiver|小黑屋|sitemap|, Processed in 0.069595 second(s), 7 queries , File On.   
快速回复 返回顶部 返回列表