广州市德数机械设备有限公司 ── 专业研发、设计、生产贴标机/不干胶贴标机/包装机/包装生产线/定制非标设备

德云社区

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

数字浏览器 ── 永久免费,比一般浏览器集成了更多功能,譬如:所见即所得编写 HTML4、HTML5 网站及强大文本编辑器功能。。。集成中英自动 TTS 文本诵读功能。。。可浏览文件夹、文件、图片、音频、视频等文件格式
数字 IDE 网页 ── 所见即所得编写 HTML4、HTML5 静态-动态网站,生成 Robots、站点地图,死链检测,强大文本编辑器功能。。。集成中英自动 TTS 文本诵读功能。。。
数字翻译 ── 网页浏览 批处理 全文搜索 全文替换 全文删除 全文插入 数据比较 文档翻译。。。集成中英自动 TTS 文本诵读功能。。。
数字 IDE Python ── 支持编写 Python、Django、HTML5、XML、C/C++、Java、Perl、PHP、Ruby、C#、VB .Net 等程序源代码。。。集成了很多常用编程智能辅助工具。。。
查看: 2649|回复: 0

Portia ── 用 Python 编写 无需编程知识的开源可视爬虫工具

[复制链接]

49

主题

86

帖子

361

积分

中级技师

Rank: 3Rank: 3

金钱
220
金币
4
威望
0
贡献
0
发表于 2015-11-24 18:27:32 | 显示全部楼层 |阅读模式
|          
Portia ── 用 Python 编写 无需编程知识的开源可视爬虫工具

Portia 是一个用 Python 编写无需任何编程知识,就能可视爬取网站数据的开源工具。无需下载或安装任何东西,因为,Portia 是运行在您的 Web 浏览器中。


Scrapinghub 的 Portia 项目完全开源且可被导出,还可用于其它开源项目,为用户提供所有自由和开放源码好处。


通过点击您想爬取的页面元素创建一个爬取模板,然后,Portia 会创建一个蜘蛛,从而对网站类似页面进行爬取。具体工作原理:首先,用 Portia 注解网页,以确定希望提取的数据;然后,Portia 会基于这些注解,理解如何从类似网页爬取数据。


Portia 是 scrapyhub 开源的一款可视化爬虫规则编写工具。Portia 提供了可视化的 Web 页面,只需通过简单点击,标注页面上需提取的相应数据,无需任何编程知识即可完成爬取规则的开发。这些规则还可在 Scrapy 中使用,用于抓取页面。


Portia

Portia


运行 Portia

运行 Portia 的最简单方式,是使用 Vagrant。


先克隆 Portia 储存库:


  1. git clone https://github.com/scrapinghub/portia
复制代码

然后,在 Portia 目录内,执行:

  1. vagrant up
复制代码

版权声明:
本文为独家原创稿件,版权归 德云社区,未经许可不得转载;否则,将追究其法律责任。


广州市德数机械设备有限公司 ── 专业研发、设计、生产贴标机/不干胶贴标机/包装机/包装生产线/定制非标设备
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|Sitemap|手机版|小黑屋|德云社区    

GMT+8, 2017-9-21 18:29 , Processed in 0.048962 second(s), 17 queries , Apc On.

版权所有 © Guangzhou Digits Cloud Technology Co., Ltd.

工业和信息化部:粤ICP备14079481号-2

快速回复 返回顶部 返回列表