pattern Python的Web挖掘模块

pattern简介

pattern,Python第三方库,Web挖掘模块,可用于抓取、自然语言处理、机器学习、网络分析和可视化,包括网络服务、网络爬虫、HTML DOM解析器,自然语言处理的词性标注、n元搜索、情感分析、WordNet,机器学习的向量空间模型,聚类,分类(KNN,SVM,Perceptron)等。

pattern应用实例

from pattern.web import Twitter
from pattern.en import tag
from pattern.vector import KNN, count

twitter, knn = Twitter(), KNN()

for i in range(1, 3):
    for tweet in twitter.search('#win OR #fail', start=i, count=100):
        s = tweet.text.lower()
        p = '#win' in s and 'WIN' or 'FAIL'
        v = tag(s)
        v = [word for word, pos in v if pos == 'JJ'] # JJ = adjective
        v = count(v) # {'sweet': 1}
        if v:
            knn.train(v, type=p)

print(knn.classify('sweet potato burger'))
print(knn.classify('stupid autocorrect'))

pattern Github统计数据

BSD-3-Clause license

Github 8.6k stars

pattern安装命令

pip install pattern

Python版本要求

Pattern 3.6 Requires: Python 3.6

免责声明:内容编辑自网络,仅供参考,不保证正确性,不作任何决策依据!!以上数据皆截止于博文的写稿日期。


行业导航 / Python指南 :
























Copyright © 2022-2024 笨鸟工具 x1y1z1.com All Rights Reserved.