Сведения о вопросе

Gaukhar

20:12, 28th August, 2020

Теги

Что такое хорошая библиотека естественного языка, чтобы использовать для перефразирования?

Просмотров: 387   Ответов: 5

Я ищу существующую библиотеку для обобщения или перефразирования контента (я нацелен на сообщения в блоге) - есть ли опыт работы с существующими библиотеками обработки естественного языка?

Я открыт для различных языков, поэтому меня больше интересуют способности & точность.



  Сведения об ответе

#hash

23:50, 14th August, 2020

Там шел какой-то разговор о Гроке. Это теперь поддерживается как OpenCCG, и будет повторно реализовано в OpenNLP также.

Вы можете найти OpenCCG по адресу http://openccg.sourceforge.net/ . Я бы также предложил парсер Curran and Clark CCG, доступный здесь: http://svn.ask.it.usyd.edu.au/trac/candc/wiki

В принципе, для перефразирования вам нужно будет написать что-то, что сначала разбирает предложения сообщений в блоге, извлекает семантическое значение этих сообщений, а затем ищет в пространстве слов vocab, которые композиционно создают то же самое семантическое значение, а затем выбирает то, что не соответствует текущему предложению. Это займет много времени, и это может не иметь большого смысла. Не забывайте, что для этого вам понадобится почти идеальное разрешение анафоры и способность улавливать выводы на уровне дискурса.

Если вы просто хотите сделать записи в блоге, которые не содержат идентифицируемого машиной дубликата контента, вы всегда можете просто использовать преобразования темы и фокуса и синонимы WordNet. Безусловно, были сайты, которые заработали деньги на AdWords, которые делали это раньше.


  Сведения об ответе

PAGE

07:02, 29th August, 2020

Я думаю, что он хочет генерировать сообщения в блогах, автоматически перефразируя то, что было в блогах, которые эта система отслеживает.

Это было бы действительно интересно, если бы вы могли объединить от 2 до 10 сообщений в блоге, которые похожи, но из разных источников, а затем автоматически сделать перефразированное резюме "real" (размер 1 сообщения в блоге).

Это также может быть отлично подходит для домашних работ. К сожалению, это не так просто сделать.

Единственный способ, который я мог бы увидеть, - это разложить каждое предложение на "meaning", а затем случайным образом изменить структуру предложения и некоторые слова, сохраняя значение.

Эти предложения означают одно и то же:

  • Я ненавижу этого парня, он такой тупой.
  • Этот парень глуп, я его ненавижу.
  • Я презираю этого тупого парня.
  • Он тупой, я его ненавижу.

Было бы нетривиально написать программу для преобразования одного из этих предложений в другие, и это простые предложения, реальные предложения из блогов гораздо сложнее.


  Сведения об ответе

SILA

21:22, 26th August, 2020

Ваше попадание в очень далекий домен типа AI. Я проделал обширную работу по преобразованию текста в машинное знание, в основном используя английский язык с контролем попыток (см.: http://attempto.ifi.uzh.ch/site/), это естественный язык (английский), который полностью компьютерно обрабатывается в несколько различных онтологий, таких как OWLDL.

Хотя, похоже, это было бы чересчур...

Есть ли причина для того, чтобы не просто взять первые несколько предложений Вашего сообщения в блоге, а затем добавить эллипс для вашего резюме?


  Сведения об ответе

9090

11:30, 2nd August, 2020

Спасибо за эти ссылки. Похоже, что GROK мертв - но он все еще может работать для моих целей.

Еще 2 ссылки:

Попытка контролировать английский язык-это интересная концепция, поскольку это совершенно обратный взгляд на проблему. Не очень практично для того, что я пытаюсь сделать.

@mmattax что касается предложения взять несколько предложений - я не пытаюсь представить резюме: в противном случае это было бы хорошим решением дзюдо . Я хочу на самом деле обобщить содержание, чтобы использовать его для других целей оценки.


  Сведения об ответе

VERSUION

03:07, 19th August, 2020

Возможно, вы захотите попробовать GATE или закрытый исходный код, проприетарный и дорогостоящий TextAnalyst COM API


Ответить на вопрос

Чтобы ответить на вопрос вам нужно войти в систему или зарегистрироваться