Portia - 用 Python 编写 无需编程知识的开源可视爬虫工具
Portia 是一个用 Python 编写无需任何编程知识,就能可视爬取网站数据的开源工具。无需下载或安装任何东西,因为,Portia 是运行在您的 Web 浏览器中。
Scrapinghub 的 Portia 项目完全开源且可被导出,还可用于其它开源项目,为用户提供所有自由和开放源码好处。
通过点击您想爬取的页面元素创建一个爬取模板,然后,Portia 会创建一个蜘蛛,从而对网站类似页面进行爬取。具体工作原理:首先,用 Portia 注解网页,以确定希望提取的数据;然后,Portia 会基于这些注解,理解如何从类似网页爬取数据。
Portia 是 scrapyhub 开源的一款可视化爬虫规则编写工具。Portia 提供了可视化的 Web 页面,只需通过简单点击,标注页面上需提取的相应数据,无需任何编程知识即可完成爬取规则的开发。这些规则还可在 Scrapy 中使用,用于抓取页面。
Portia
运行 Portia
运行 Portia 的最简单方式,是使用 Vagrant。
自动批量挖掘 "深网 暗网" 内容的 "数据采集" 工具 http://www.digitser.top/zh-CN/big/collect/index.html
先克隆 Portia 储存库: - git clone https://github.com/scrapinghub/portia
复制代码
然后,在 Portia 目录内,执行:
扫一扫关注 德云社区 微信公众号
版权声明:
本文为独家原创稿件,版权归 德云社区,未经许可不得转载。
|