Скажем , у меня есть список некоторых строк, и есть определенные строки , что там очень, очень похожи. И я хочу , чтобы удалить эти почти дубликаты . Для этого я придумал следующий код:
from difflib import SequenceMatcher
l = ['Apple', 'Appel', 'Aple', 'Mango']
c = [l[0]]
for i in l:
count = 0
for j in c:
if SequenceMatcher(None, i, j).ratio() < 0.7:
count += 1
if count == len(c):
c.append(i)
Который, кажется, работает нормально, но я не очень люблю вложенные циклы, а также это count
решение выглядит некрасиво. Но , наверное , это можно записать его в более вещий образом? Использование генераторов, может быть?
Был бы признателен за подсказку, спасибо :)