cola Python高级分布式爬虫框架

cola简介

cola,Python第三方库,一个高级的分布式爬虫框架,用于抓取页面和从网站中提取结构化数据,通过cola框架,用户只需要编写一段可以在本地和分布式模式下运行的代码。

cola应用实例

#单机模式
cd /to/path/cola/contrib/wiki
python __init__.py
#分布式模式
cd /to/path/cola
python bin/start_master.py --data /my/path/data

提示:基于Cola实现的爬虫位于contrib/目录下,包括wiki、weibo、generic(unstable)——通用、weibosearch(unstable)等。

cola Github统计数据

Licensed under the Apache License, Version 2.0 (the "License");

Github 1.5k stars

cola安装命令

pip install cola

cola Python版本要求

Python2.7

免责声明:内容编辑自网络,仅供参考,不保证正确性,不作任何决策依据!!以上数据皆截止于博文的写稿日期。


行业导航 / Python指南 :
























Copyright © 2022-2024 笨鸟工具 x1y1z1.com All Rights Reserved.