安装插件
直接访问 "Chrome 网上应用店",搜索 Web Scraper 下载安装即可。由于某些原因,我们需要开发者模式进行安装。这里就不再多说。
食用
这里我们以豆瓣电影Top 250
为例。因为初次使用,我们仅抓标题进行测试。
浏览器按 F12
打开控制台,并把控制台放在网页的下方,然后找到 Web Scraper
这个 Tab,点进去就来到了 Web Scraper
的控制页面。
点击 Create Sitemap
这个按钮,创建我们的第一个爬虫。
点击 Add new selector
这个蓝底白字的按钮,创建一个选择器,用来选择我们想要抓取的元素。
参数说明
id就是要爬取内容的名称,如 name
type就是要爬取的内容的文本类型,如 txt
number
多选按钮 Multiple 勾选上,因为我们要抓的是批量的数据,不勾选的话只能抓取一个; 最后点击黄色圆圈里的 Select,开始在网页上勾选电影名字;
点击完成后,点击done selecting
会出现下图。
保存完成后,点击Data preview
就可以看到预览数据了。
在顶部的 tab 栏,有一个 Sitemap kali 的 tab,这个就是我们刚刚创建的爬虫。点击它,再点击下拉菜单里的 Scrape
按钮,开始我们的数据抓取。
爬虫完毕后,会自动关闭当前浏览器。点击refresh
蓝色按钮,就可以看到我们抓取的数据了!
点击 Sitemap kali 下的 Export data as CSV,这样就可以导出成 .csv 格式的数据
爬取多页
在上述的列子中,我们仅仅爬取了第一页的数据。其他页面的数据怎么爬取呢?这时,我们需要分析每个页面的链接变化规律。
# 第一页
https://movie.douban.com/top250
# 第二页
https://movie.douban.com/top250?start=25&filter=
# 第三页
https://movie.douban.com/top250?start=50&filter=
通过对比发现,链接中的参数start=
在发生变化。故而我们给其添加为变量即可。start=[0-250]
最终效果
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...