pattern Python的Web挖掘模块
pattern简介
pattern,Python第三方库,Web挖掘模块,可用于抓取、自然语言处理、机器学习、网络分析和可视化,包括网络服务、网络爬虫、HTML DOM解析器,自然语言处理的词性标注、n元搜索、情感分析、WordNet,机器学习的向量空间模型,聚类,分类(KNN,SVM,Perceptron)等。
pattern应用实例
from pattern.web import Twitter
from pattern.en import tag
from pattern.vector import KNN, count
twitter, knn = Twitter(), KNN()
for i in range(1, 3):
for tweet in twitter.search('#win OR #fail', start=i, count=100):
s = tweet.text.lower()
p = '#win' in s and 'WIN' or 'FAIL'
v = tag(s)
v = [word for word, pos in v if pos == 'JJ'] # JJ = adjective
v = count(v) # {'sweet': 1}
if v:
knn.train(v, type=p)
print(knn.classify('sweet potato burger'))
print(knn.classify('stupid autocorrect'))
pattern Github统计数据
BSD-3-Clause license
Github 8.6k stars
pattern安装命令
pip install pattern
Python版本要求
Pattern 3.6 Requires: Python 3.6
免责声明:内容编辑自网络,仅供参考,不保证正确性,不作任何决策依据!!以上数据皆截止于博文的写稿日期。