cola Python高级分布式爬虫框架
cola简介
cola,Python第三方库,一个高级的分布式爬虫框架,用于抓取页面和从网站中提取结构化数据,通过cola框架,用户只需要编写一段可以在本地和分布式模式下运行的代码。
cola应用实例
#单机模式
cd /to/path/cola/contrib/wiki
python __init__.py
#分布式模式
cd /to/path/cola
python bin/start_master.py --data /my/path/data
提示:基于Cola实现的爬虫位于contrib/目录下,包括wiki、weibo、generic(unstable)——通用、weibosearch(unstable)等。
cola Github统计数据
Licensed under the Apache License, Version 2.0 (the "License");
Github 1.5k stars
cola安装命令
pip install cola
cola Python版本要求
Python2.7
免责声明:内容编辑自网络,仅供参考,不保证正确性,不作任何决策依据!!以上数据皆截止于博文的写稿日期。