portia 可视化Scrapy爬取工具
portia简介
portia,可视化Scrapy爬取工具。portia允许使用者在没有任何编程知识的情况下可视化地直观地抓取网站内容,还可以对网页进行注释,以识别出那些希望被提取的数据,Portia将根据这些注释了解如何从类似页面中提取数据。
portia运行方法
#Linux需要安装Docker,Windows或Mac OS X,需要boot2docker;
#运行Portia命令:
docker run -i -t --rm -v :/app/data/projects:rw -p 9001:9001 scrapinghub/portia
#使用docker通过运行来编写
docker compose up
#Portia现在将在端口9001上运行,可以访问http://localhost:9001.项目将存储在装载到docker的项目文件夹中;
#使用portia提取数据命令:
docker run -i -t --rm -v :/app/data/projects:rw -v :/mnt:rw -p 9001:9001 scrapinghub/portia \
portiacrawl /app/data/projects/PROJECT_NAME SPIDER_NAME -o /mnt/SPIDER_NAME.jl
portia Github统计数据
BSD-3-Clause license
Github 9k stars
免责声明:内容编辑自网络,仅供参考,不保证正确性,不作任何决策依据!!以上数据皆截止于博文的写稿日期。