TheFuzz Python字符串模糊匹配工具,计算相似度

TheFuzz字符串模糊匹配工具

TheFuzz是Python的一个可用于模糊匹配字符串的第三方库。TheFuzz是依据 Levenshtein Distance 算法来计算两个字符串序列之间的差异。其中,Levenshtein Distance 算法,一般指的是两个字符串之间,由其中一个转成另一个所需的最少编辑次数,其中许可的编辑包括字符替换成另一个字符,插入一个字符,删除一个字符等等。通常情况下,Levenshtein Distance越小,越相似。

TheFuzz简单应用实例

>>> from thefuzz import fuzz
#简单匹配
>>> fuzz.ratio("this is a test", "this is a test!")
    97
#非完全匹配
>>> fuzz.partial_ratio("this is a test", "this is a test!")
    100
#忽略顺序匹配
>>> fuzz.ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
    91
>>> fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
    100

Github开源协议和stars

MIT license

Github 2k stars

TheFuzz安装命令

pip install thefuzz

Python版本要求和环境依赖

Python 3.8 or higher

免责声明:内容编辑自网络,仅供参考,不保证正确性,不作任何决策依据!!以上数据皆截止于博文的写稿日期。


行业导航 / Python指南 :
























Copyright © 2022-2024 笨鸟工具 x1y1z1.com All Rights Reserved.