Scrapy ── 用 Python 开发的数据挖掘 自动化测试 Web 爬虫框架
Scrapy 是基于 Twisted 异步处理框架,用 Python 开发的一个快速、高级屏幕和 Web 抓取框架,能抓取 Web 站点并从页面提取结构化数据。Scrach是抓取的意思,这个 Python 爬虫框架叫 Scrapy,大概也是这个意思。
Scrapy 是一个为遍历爬行网站、分析获取数据而设计的 Web 应用程序框架,它可应用的领域,包括:数据挖掘、信息处理、历史记录打包、监测、自动化测试等等。尽管 Scrapy 原本是设计用来抓取屏幕(更精确点说,是抓取网络)的,但 Scrapy 也可用来访问 API 提取数据,譬如:Amazon 的 AWS 或当作一般目的应用的网络蜘蛛。
Scrapy 吸引人的地方在于它是一个框架,任何人都可根据需求方便地修改。Scrapy 提供了多种类型爬虫基类,如 BaseSpider、sitemap 爬虫等,最新版本又提供了 Web2.0 爬虫的支持。
版权声明:
本文为独家原创稿件,版权归 德云社区,未经许可不得转载;否则,将追究其法律责任。
|