python html5 bootstrap 视频教程

德云社区

 找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

数字 IDE 网页 ── \"所见即所得\" 编写 HTML4、HTML5 静态 \"网站站群\" 动态网站,生成 Robots、站点地图,死链检测,强大文本编辑器功能。。。集成中英自动 TTS 文本诵读功能。。。
数字 IDE Python ── 支持 \"极速编写-重构\" Python、Django、HTML5、XML、C/C++、Java、Perl、PHP、Ruby、C#、VB .Net 等程序源代码。。。集成了很多常用编程智能辅助工具。。。
业务范围:
01、企业 \"内部 | 外部\" 数据管理、分析、挖据
02、企业效率优化专用 APP 程序定制、IT 外包
03、智能数字化系统平台架设、开发、部署、维护
04、高仿真、低成本,可动画-可 VR 数字样机建模、开发、规划
05、企业 Linux 云计算 \"IaaS | SaaS\" 服务器架设、开发、部署、维护
06、\"标准 | 非标\" 设备全流程研发,PLC、单片机、工控系统开发、集成
07、企业 Linux / Windows 平台 PLM、ERP 系统架设、开发、部署、维护
08、企业 Linux / Windows 平台 \"内网 | 外网\" 服务器架设、开发、部署、维护
09、企业微信公众号智能互动营销、策划,Web 网站代码、SEO 排名优化,大数据网络推广
10、企业跨平台、跨硬件、跨浏览器 HTML5 Web 电子商务平台、\"静态 | 动态\" 网站开发、部署、维护
11、企业文档、资料、公司网页多语种翻译,数据资料标准化、版本化、数字化管理的规划、研发、实施
数字翻译 ── 能 \"批量翻译\" 文档 GUI 用户界面。。。网页浏览 批处理 全文搜索 全文替换 全文删除 全文插入 数据比较 。。。集成中英自动 TTS 文本诵读功能。。。
查看: 1506|回复: 0

PySpider──Apache 许可 Python 编写的 JavaScript 开源 Web 爬虫系统

[复制链接]

49

主题

77

帖子

343

积分

中级技师

Rank: 3Rank: 3

金钱
211
金币
4
威望
0
贡献
0
发表于 2015-11-23 18:30:29 | 显示全部楼层 |阅读模式
|          
PySpider──Apache 许可 Python 编写的 JavaScript 开源 Web 爬虫系统

PySipder 是一个用 Python 编写的专业开源 Web 爬虫系统。PySipder 采用 Apache v2 许可协议。


主要特点如下:


01、用 Python 编写脚本,可用任何 HTML 解析包 (内置 pyquery),提供强大的 API;


02、强大的 Web UI 界面编写调试/起停脚本、脚本编辑、监控执行状态、项目管理、查看历史记录及结果;


03、支持采用 SQLAlchemy 作后台的数据库,包括:MySQL、MongoDB、Redis、SQLite、PostgreSQL;


04、支持采用 RabbitMQ、Beanstalk、Redis 及 Kombu 作消息队列;


05、支持任务优先级、重试、定期抓取、按时间重新抓取等;


06、分布式架构,组件可替换,支持 “单机/分布式” 部署,支持 Docker 部署;


07、支持抓取 JavaScript 页面;


08、支持 Python 2.x & 3.x;


09、强大的调度控制功能;


demo.jpg

简单示例代码

  1. from pyspider.libs.base_handler import *


  2. class Handler(BaseHandler):
  3.     crawl_config = {
  4.     }

  5.     @every(minutes=24 * 60)
  6.     def on_start(self):
  7.         self.crawl('http://scrapy.org/', callback=self.index_page)

  8.     @config(age=10 * 24 * 60 * 60)
  9.     def index_page(self, response):
  10.         for each in response.doc('a[href^="http"]').items():
  11.             self.crawl(each.attr.href, callback=self.detail_page)

  12.     def detail_page(self, response):
  13.         return {
  14.             "url": response.url,
  15.             "title": response.doc('title').text(),
  16.         }
复制代码

版本历史

# 时间 版本 新功能 备注
01 V0.4.0 本地模式,从文件加载脚本;
作为框架进行工作 (所有组件运行在一进程中,而非线程);
支持 redis 数据库;
可视扒取接口,类似可视网站扒取工具 Portia。

版权声明:
本文为独家原创稿件,版权归 德云社区,未经许可不得转载;否则,将追究其法律责任。

AI人工智能 语音助理 人工翻译 教程
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|Sitemap|手机版|小黑屋| |网站地图  

GMT+8, 2018-12-18 02:19 , Processed in 0.078709 second(s), 34 queries .

技术支持 乐数软件  版权所有 © 2014-2019 德云社区

工业和信息化部:粤ICP备14079481号-2

快速回复 返回顶部 返回列表