1 回答

TA貢獻(xiàn)1797條經(jīng)驗(yàn) 獲得超6個(gè)贊
如果你看這里的文檔SequenceMatcher
您將看到其算法的以下描述:
The idea is to find the longest contiguous matching subsequence that contains
no “junk” elements
根據(jù)這個(gè)定義,arctic salmon獲得更高的相似度分?jǐn)?shù)是有道理的salmon。
為了更好地理解為什么看下面的代碼:
a = 'salmon: does not contain real salmon'
b = 'arctic salmon'
sm = SequenceMatcher(a, b, autojunk=False)
sm.get_matching_blocks()
輸出:
[Match(a=1, b=0, size=1),
Match(a=15, b=3, size=1),
Match(a=17, b=5, size=1),
Match(a=29, b=6, size=7),
Match(a=36, b=13, size=0)]
如您所見(jiàn),有 10 個(gè)匹配項(xiàng)可供arctic salmon比較,而salmon其中只有 6個(gè)匹配項(xiàng)的比率為2 * 10 / 49 = 0.40816326530612246.
有關(guān)ratio()上面鏈接中計(jì)算戰(zhàn)利品的完整說(shuō)明。
添加回答
舉報(bào)