Список вопросов
Как зайти в Даркнет?!
25th January, 01:11
174
0
Как в tkinter из поля ввода Entry получить значение в одну переменную и обновить строку кнопкой, затем получить ещё одно введённое значение и затем сложить их. Ниже пример кода
21st July, 19:00
1524
0
Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam
21st March, 17:43
1149
0
Очень долго работает Update запрос Oracle
27th January, 09:58
1057
0
не могу запустить сервер на tomcat HTTP Status 404 – Not Found
21st January, 18:02
1031
0
Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?
2nd December, 09:48
1072
0
Разработка мобильной кроссплатформенной военной игры
16th July, 17:57
1869
0
период по дням
25th October, 10:44
4087
0
Пишу скрипты для BAS только на запросах
16th September, 02:42
3849
0
Некорректный скрипт для закрытия блока
14th April, 18:33
4769
0
прокидывать exception в блоках try-catch JAVA
11th March, 21:11
4515
0
Помогите пожалуйста решить задачи
24th November, 23:53
6263
0
Не понимаю почему не открывается детальное описание продукта
11th November, 11:51
4479
0
Нужно решить задачу по программированию на массивы
27th October, 18:01
4560
0
Метода Крамера С++
23rd October, 11:55
4462
0
помогите решить задачу на C++
22nd October, 17:31
4127
0
Помогите решить задачу на python с codeforces
22nd October, 11:11
4608
0
Python с нуля: полное руководство для начинающих
18th June, 13:58
2731
0
Алгоритм сравнения текстовых строк?
Просмотров: 350
 
Ответов: 6
Посоветуйте алгоритм сравнения строк с принципом работы вроде:
'Иван Иваныч Иванов' = 'Иванов Иван Иваныч'
'Иван Иваныч' ~ 'Иванов Иваныч'
'Иван Иваныч Иванов с утра ходит без штанов' != 'Иванов Иван Иваныч одевает штаны на ночь'
То есть, нужно найти коэффициент похожести строк, с учетом того, что слова в строке могут быть поменяны местами.
UPD: Кажется придумал:
a — массив слов первой строки
b — массив слов второй строки
n — количество слов первой строки
m — количество слов второй строки
Сij — коэффициент похожести слов a[i] и b[j] (можно использовать soundex или Levenshtein distance)
K = (С11 + С12 +… + С1m + C21 + C22 +… + C2m +… + Cnm) / ((n + m) / 2)
Итого для примера, пусть Cij считается как a[i] == b[j] ? 1 : 0
a = ['Иван', 'Иваныч', 'Иванов']
b = ['Иванов', 'Иван', 'Иваныч']
K = (0 + 1 + 0 + 0 + 0 + 1 + 1 + 0 + 0) / ((3 + 3) / 2) = 3 / 3 = 1 — строки одинаковы
a = ['Иван', 'Иваныч']
b = ['Иванов', 'Иваныч']
K = (0 + 0 + 0 + 1) / ((2 + 2) / 2) = 1 / 2 = 0.5 — похожи, но не равны
Вроде логично.
Спасибо hamMElion, что напомнил разбить строки на слова %)
Дополнительно, после разбиения строки на слова, их можно сравнивать с помощью levinshtein(). Потом с учетом длины слова получать коэффициент похожести. Таким образом можно с довольно точно определять схожесть, даже если допущена опечатка в слове, или если оно написано немного иначе.
Ну и дополнительный бонус — транслитерация строки и очистка ее от мусора.
Алгоритмов — хоть антилопой жуй.
На staffwww.dcs.shef.ac.uk/people/S.Chapman/stringmetrics.html есть описания и ссылки на реализации. Выбери подходящий.
Чтобы ответить на вопрос вам нужно войти в систему или зарегистрироваться