使用Python完成公司名稱和地址的模糊匹配的實現

阿新 • • 發佈：2020-01-09

github主頁

匯入：

>>> from fuzzywuzzy import fuzz
>>> from fuzzywuzzy import process

1）

>>> fuzz.ratio("this is a test","this is a test!")
out  97
>>> fuzz.partial_ratio("this is a test","this is a test!")
out  100

fuzz.ratio()對位置敏感，全匹配。fuzz.partial_ratio()對位置敏感，搜尋匹配。

2）

>>> fuzz._process_and_sort(s,force_ascii,full_process=True)

對字串s排序。force_ascii:True 或者False。為True表示轉換為ascii碼。如果full_process為True，則會將字串s轉換為小寫，去掉除字母和數字之外的字元（發現不能去掉-字元），剩下的字串以空格分開，然後排序。如果為False，則直接對字串s排序。

>>> fuzz._token_sort(s1,s2,partial=True,force_ascii=True,full_process=True)

給出字串 s1,s2的相似度。首先經過 fuzz._process_and_sort（）函式處理。partial為True時，再經過fuzz.partial_ratio（）函式。partial為False時，再經過fuzz.ratio（）函式。

>>> fuzz.token_sort_ratio("fuzzy wuzzy was a bear","wuzzy fuzzy was a bear")
out  100

partial為False的_token_sort()

fuzz.partial_token_sort_ratio(s1,full_process=True)

就是partial為True時的Fuzz._token_sort（）

3）

>>> fuzz.token_set_ratio("fuzzy was a bear","fuzzy fuzzy was a bear")
out  100

fuzz._token_set(s1,full_process=True)

當partial為False時，就是 fuzz.token_set_ratio（）函式。

fuzz.partial_token_set_ratio(s1,full_process=True)

partial為True的fuzz._token_set（）函式。

4）

fuzz.QRatio(s1,full_process=True)

full_process為True時，經過utils.full_process(）函式。然後經過fuzz.ratio()函式。對順序敏感。

fuzz.UQRatio(s1,full_process=True)

就是 force_ascii為False的fuzz.QRatio（）函式。

fuzz.WRatio(s1,full_process=True)

使用另一種不同演算法計算相似度。對順序敏感。

UWRatio(s1,full_process=True)

是force_ascii為False的fuzz.WRatio(）函式。

總結：如果計算相似度的字串只有字母和數字，直接可以用ratio（）和partial_ratio()。但如果還有其他字元，而且我們想要去掉這些沒用字元，就用下邊的。下邊的函式都對順序不敏感，但token_sort_ratio（）系列是全字元匹配，不管順序。而token_set_ratio（）只要第二個字串包含第一個字串就100,不管順序。

5）

>>> choices = ["Atlanta Falcons","New York Jets","New York Giants","Dallas Cowboys"]
>>> process.extract("new york jets",choices,limit=2)
  [('New York Jets',100),('New York Giants',78)]
>>> process.extractOne("cowboys",choices)
  ("Dallas Cowboys",90)

>>> process.extract(query,processor=default_processor,scorer=default_scorer,limit=5)

query是字串，choices是陣列，元素是字串。 processor是對輸入比較的字串的處理函式，預設是fuzzywuzzy.utils.full_process()，即將字串變為小寫，去掉除字母和數字之外的字元（發現不能去掉-字元），剩下的字串以空格分開。scorer計算兩個字串相似度的函式，預設fuzz.WRatio()。 limit是輸出個數。

輸出為陣列，元素為元組，元祖第一個匹配到的字串，第二個為int型，為score。對輸出按照score排序。

>>> process.extractWithoutOrder(query,score_cutoff=0)

score_cutoff為一個閾值，當score小於該閾值時，不會輸出。返回一個生成器，輸出每個大於 score_cutoff的匹配，按順序輸出，不排序。

>>> process.extractBests(query,score_cutoff=0,limit=5)

process.extractBests（）和process.extract（）都呼叫了process.extractWithoutOrder（），只不過process.extractBests（）能傳輸 score_cutoff。

>>> process.extractOne(query,score_cutoff=0)

也呼叫了process.extractWithoutOrder（），只不過輸出一個score最高的值。

process.dedupe(contains_dupes,threshold=70,scorer=fuzz.token_set_ratio)

contains_dupes是陣列，元素為字串。

取出相似度小於 threshold的字串，相似度大於 threshold的字串取最長一個。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

使用Python完成公司名稱和地址的模糊匹配的實現

使用Python完成公司名稱和地址的模糊匹配的實現

利用Python產生加密表和解密表的實現方法

Python異常繼承關係和自定義異常實現程式碼例項

python 已知一個字元,在一個list中找出近似值或相似值實現模糊匹配

python利用Excel讀取和儲存測試資料完成介面自動化教程

如何匯出python安裝的所有模組名稱和版本號到檔案中

Python爬蟲：輸入公司名稱，爬取企查查網站中的公司資訊

python測試開發django（19）--admin後臺表名稱和欄位顯示中文

Python處理郵件內容和提取郵件裡的url地址

手把手教你用用Python爬取上道網的贊助公司名稱

模糊匹配-方法1 Python 結巴分詞

康佳：公司研發的 Micro LED 晶片已完成小批量和中批量試產

掌握Python系統管理-除錯和分析指令碼2- cProfile和timeit

掌握Python系統管理-除錯和分析指令碼1-debugging

python爬蟲貓眼電影和電影天堂資料csv和mysql儲存過程解析

SqlServer2016模糊匹配的三種方式及效率問題簡析

Python時間差中seconds和total_seconds的區別詳解

Python 內建變數和函式的檢視及說明介紹

python字典setdefault方法和get方法使用例項

Python的形參和實參使用方式

使用Python完成公司名稱和地址的模糊匹配的實現

相關推薦