Сведения о вопросе

None

11:56, 11th August, 2020

Определение языка текста

Просмотров: 275 Ответов: 2

Исходные данные: есть сотни тысяч небольших текстов, написанных на всех известных науке языках.
Цель: оставить только те из текстов, которые написаны на русском или английском языке, остальные отбросить.

Как делаю сейчас:
1. С помощью PCRE выкидываю из текста всё, кроме букв (\p{^L}).
2. Так же убираю русские и английские буквы ([а-яa-z]).
3. Если что-то осталось — считаю текст не русским и не английским, соответственно отбрасываю.

В текущем раскладе есть как false positive так и false negative ошибки, это расстраивает.
Первые: в немецком или французском, например, тексте, может по несчастливой случайности не быть ни одного умляута и он посчитается английским.
Вторые: в корректном русском или анлийском тексте может встретиться какое-нибудь, например, имя собственное с умляутом, либо цитата из других языков — текст будет ошибочно отброшен.

Вопрос: не говоря о стопроцентном распознавании языка (оставим это экспертным системам и прочему ИИ), есть ли возможность снизить число ошибок распознавания? Интересуют готовые библиотеки (PHP, perl) / публичные веб-сервисы либо алгоритм, который достаточно прост в имплементации.

Сведения об ответе

crush

00:55, 5th August, 2020

1. Для небольших текстов 100% распознавание невозможно будет в принципе.
2. Для улучшения распознавания надо делать экспертную систему с базой слов и с частотами различных языков.

Но возможно получится воспользоваться Google переводчиком с помощью API или еще каким-нибудь.

Обзор определителей языков есть здесь. Может быть у некоторых есть API.

Сведения об ответе

прога

12:49, 18th August, 2020

Можно сравнивать частотный характеристики текстов.

www.statsoft.ru/home/portal/exchange/textanalysis.htm

как видно — одни и те же буквы в разных языках используются с разной частотой — за счёт этого можно улучшить распознавание языка. И отделять, казалось бы неотделимые =) (при достаточном объёме текста, конечно же)

Сведения о вопросе

None

11:56, 11th August, 2020

Теги

Определение языка текста

Сведения об ответе

crush

00:55, 5th August, 2020

Сведения об ответе

прога

12:49, 18th August, 2020

Ответить на вопрос

Как зайти в Даркнет?! 25th January, 01:11 183 0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam 21st March, 17:43 1157 0

Очень долго работает Update запрос Oracle 27th January, 09:58 1065 0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found 21st January, 18:02 1040 0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе? 2nd December, 09:48 1082 0

Разработка мобильной кроссплатформенной военной игры 16th July, 17:57 1878 0

период по дням 25th October, 10:44 4096 0

Пишу скрипты для BAS только на запросах 16th September, 02:42 3858 0

Некорректный скрипт для закрытия блока 14th April, 18:33 4784 0

прокидывать exception в блоках try-catch JAVA 11th March, 21:11 4524 0

Помогите пожалуйста решить задачи 24th November, 23:53 6274 0

Не понимаю почему не открывается детальное описание продукта 11th November, 11:51 4488 0

Нужно решить задачу по программированию на массивы 27th October, 18:01 4571 0

Метода Крамера С++ 23rd October, 11:55 4472 0

помогите решить задачу на C++ 22nd October, 17:31 4139 0

Помогите решить задачу на python с codeforces 22nd October, 11:11 4617 0

Python с нуля: полное руководство для начинающих 18th June, 13:58 2740 0

Все вопросы

Сведения о вопросе

None

11:56, 11th August, 2020

Теги

Определение языка текста

Сведения об ответе

crush

00:55, 5th August, 2020

Сведения об ответе

прога

12:49, 18th August, 2020

Ответить на вопрос

Как зайти в Даркнет?!

25th January, 01:11

183

0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam

21st March, 17:43

1157

0

Очень долго работает Update запрос Oracle

27th January, 09:58

1065

0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found

21st January, 18:02

1040

0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?

2nd December, 09:48

1082

0

Разработка мобильной кроссплатформенной военной игры

16th July, 17:57

1878

0

период по дням

25th October, 10:44

4096

0

Пишу скрипты для BAS только на запросах

16th September, 02:42

3858

0

Некорректный скрипт для закрытия блока

14th April, 18:33

4784

0

прокидывать exception в блоках try-catch JAVA

11th March, 21:11

4524

0

Помогите пожалуйста решить задачи

24th November, 23:53

6274

0

Не понимаю почему не открывается детальное описание продукта

11th November, 11:51

4488

0

Нужно решить задачу по программированию на массивы

27th October, 18:01

4571

0

Метода Крамера С++

23rd October, 11:55

4472

0

помогите решить задачу на C++

22nd October, 17:31

4139

0

Помогите решить задачу на python с codeforces

22nd October, 11:11

4617

0

Python с нуля: полное руководство для начинающих

18th June, 13:58

2740

0