Сведения о вопросе

NOTtoday

20:01, 8th August, 2020

Теги

Sphinx   HTML    

Как добавлять html и plain text файлы в индекс Sphinx?

Просмотров: 285   Ответов: 1

В документации Sphinx написано «The data to be indexed can generally come from very different sources: SQL databases, plain text files, HTML files, mailboxes, and so on».


Но в Quick Sphinx usage tour показано только как настроить Sphinx для работы c базой данных Mysql. Как настроить его для работы с html и plain text?



  Сведения об ответе

piter

08:44, 25th August, 2020

Вам понадобится xmlpipe data source:
sphinxsearch.com/docs/1.10/xmlpipe2.html
И придётся написать скрипт, который будет делать xml (в том формате, как там написано) из html или plaintext файлов (хотя может быть, уже что-то готовое написали, надо загуглить).

Пример индексации из MemcacheDb:
nutrun.com/weblog/distributed-key-value-store-indexing/

Вот тут pdf индексируют даже:
www.sphinxsearch.com/forum/view.html?id=338


Ответить на вопрос

Чтобы ответить на вопрос вам нужно войти в систему или зарегистрироваться