Сведения о вопросе

Life

10:57, 4th August, 2020

Алгоритм сравнения текстовых строк?

Просмотров: 350 Ответов: 6

Посоветуйте алгоритм сравнения строк с принципом работы вроде:

'Иван Иваныч Иванов' = 'Иванов Иван Иваныч'

'Иван Иваныч' ~ 'Иванов Иваныч'

'Иван Иваныч Иванов с утра ходит без штанов' != 'Иванов Иван Иваныч одевает штаны на ночь'

То есть, нужно найти коэффициент похожести строк, с учетом того, что слова в строке могут быть поменяны местами.

UPD: Кажется придумал:

a — массив слов первой строки

b — массив слов второй строки

n — количество слов первой строки

m — количество слов второй строки

Сij — коэффициент похожести слов a[i] и b[j] (можно использовать soundex или Levenshtein distance)

K = (С11 + С12 +… + С1m + C21 + C22 +… + C2m +… + Cnm) / ((n + m) / 2)

Итого для примера, пусть Cij считается как `a[i] == b[j] ? 1 : 0`

a = ['Иван', 'Иваныч', 'Иванов']

b = ['Иванов', 'Иван', 'Иваныч']

K = (0 + 1 + 0 + 0 + 0 + 1 + 1 + 0 + 0) / ((3 + 3) / 2) = 3 / 3 = 1 — строки одинаковы

a = ['Иван', 'Иваныч']

b = ['Иванов', 'Иваныч']

K = (0 + 0 + 0 + 1) / ((2 + 2) / 2) = 1 / 2 = 0.5 — похожи, но не равны

Вроде логично.

Спасибо hamMElion, что напомнил разбить строки на слова %)

Сведения об ответе

padenie

18:35, 16th August, 2020

Дополнительно, после разбиения строки на слова, их можно сравнивать с помощью levinshtein(). Потом с учетом длины слова получать коэффициент похожести. Таким образом можно с довольно точно определять схожесть, даже если допущена опечатка в слове, или если оно написано немного иначе.
Ну и дополнительный бонус — транслитерация строки и очистка ее от мусора.

Сведения об ответе

baggs

18:47, 14th August, 2020

1. Разбить обе строки на массивы слов (split)
2. Цикл поиска элементов одного массива в другом (подсчет совпадений = k)
3. Нахождение числа совпадений для второго массива из пропорции k1/n1=k2/n2 (n — число элементов массива)
4. Разница |k1-k2| и есть коэффициент похожести

Сведения об ответе

dump

19:34, 11th August, 2020

Алгоритмов — хоть антилопой жуй.
На staffwww.dcs.shef.ac.uk/people/S.Chapman/stringmetrics.html есть описания и ссылки на реализации. Выбери подходящий.

Сведения об ответе

P_S_S

12:41, 27th August, 2020

по вашему алгоритму получается, что строки «Джей Джей Йохансон» и «Джей Кью Йохансон» равны. нужно исключать из массивов строк уже совпавшие

Сведения об ответе

JUST___

21:06, 1st October, 2020

Как определить похожесть двух строк?

Сведения об ответе

repe

12:13, 27th August, 2020

Вот уже готовый онлайн сервис TextTools.ru

Сведения о вопросе

Life

10:57, 4th August, 2020

Теги

Алгоритм сравнения текстовых строк?

Сведения об ответе

padenie

18:35, 16th August, 2020

Сведения об ответе

baggs

18:47, 14th August, 2020

Сведения об ответе

dump

19:34, 11th August, 2020

Алгоритмов — хоть антилопой жуй.
На staffwww.dcs.shef.ac.uk/people/S.Chapman/stringmetrics.html есть описания и ссылки на реализации. Выбери подходящий.

Сведения об ответе

P_S_S

12:41, 27th August, 2020

по вашему алгоритму получается, что строки «Джей Джей Йохансон» и «Джей Кью Йохансон» равны. нужно исключать из массивов строк уже совпавшие

Сведения об ответе

JUST___

21:06, 1st October, 2020

Как определить похожесть двух строк?

Сведения об ответе

repe

12:13, 27th August, 2020

Вот уже готовый онлайн сервис TextTools.ru

Ответить на вопрос

Как зайти в Даркнет?! 25th January, 01:11 174 0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam 21st March, 17:43 1149 0

Очень долго работает Update запрос Oracle 27th January, 09:58 1057 0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found 21st January, 18:02 1031 0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе? 2nd December, 09:48 1072 0

Разработка мобильной кроссплатформенной военной игры 16th July, 17:57 1869 0

период по дням 25th October, 10:44 4087 0

Пишу скрипты для BAS только на запросах 16th September, 02:42 3849 0

Некорректный скрипт для закрытия блока 14th April, 18:33 4769 0

прокидывать exception в блоках try-catch JAVA 11th March, 21:11 4515 0

Помогите пожалуйста решить задачи 24th November, 23:53 6263 0

Не понимаю почему не открывается детальное описание продукта 11th November, 11:51 4479 0

Нужно решить задачу по программированию на массивы 27th October, 18:01 4560 0

Метода Крамера С++ 23rd October, 11:55 4462 0

помогите решить задачу на C++ 22nd October, 17:31 4127 0

Помогите решить задачу на python с codeforces 22nd October, 11:11 4608 0

Python с нуля: полное руководство для начинающих 18th June, 13:58 2731 0

Все вопросы

Сведения о вопросе

10:57, 4th August, 2020

Теги

Алгоритм сравнения текстовых строк?

Сведения об ответе

18:35, 16th August, 2020

Сведения об ответе

18:47, 14th August, 2020

Сведения об ответе

19:34, 11th August, 2020

Алгоритмов — хоть антилопой жуй. На staffwww.dcs.shef.ac.uk/people/S.Chapman/stringmetrics.html есть описания и ссылки на реализации. Выбери подходящий.

Сведения об ответе

12:41, 27th August, 2020

по вашему алгоритму получается, что строки «Джей Джей Йохансон» и «Джей Кью Йохансон» равны. нужно исключать из массивов строк уже совпавшие

Сведения об ответе

21:06, 1st October, 2020

Сведения об ответе

12:13, 27th August, 2020

Вот уже готовый онлайн сервис TextTools.ru

Ответить на вопрос

Как зайти в Даркнет?!

25th January, 01:11

174

0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam

21st March, 17:43

1149

0

Очень долго работает Update запрос Oracle

27th January, 09:58

1057

0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found

21st January, 18:02

1031

0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?

2nd December, 09:48

1072

0

Разработка мобильной кроссплатформенной военной игры

16th July, 17:57

1869

0

период по дням

25th October, 10:44

4087

0

Пишу скрипты для BAS только на запросах

16th September, 02:42

3849

0

Некорректный скрипт для закрытия блока

14th April, 18:33

4769

0

прокидывать exception в блоках try-catch JAVA

11th March, 21:11

4515

0

Помогите пожалуйста решить задачи

24th November, 23:53

6263

0

Не понимаю почему не открывается детальное описание продукта

11th November, 11:51

4479

0

Нужно решить задачу по программированию на массивы

27th October, 18:01

4560

0

Метода Крамера С++

23rd October, 11:55

4462

0

помогите решить задачу на C++

22nd October, 17:31

4127

0

Помогите решить задачу на python с codeforces

22nd October, 11:11

4608

0

Python с нуля: полное руководство для начинающих

18th June, 13:58

2731

0

Алгоритмов — хоть антилопой жуй.
На staffwww.dcs.shef.ac.uk/people/S.Chapman/stringmetrics.html есть описания и ссылки на реализации. Выбери подходящий.