Сведения о вопросе

FromRussia

21:06, 1st October, 2020

Как организовать поиск по 10 млн. документов?

Просмотров: 330 Ответов: 8

Есть сайт. В MySQL БД хранится порядка 10 000 000 записей.

Нужно сделать полнотекстовый поиск + что бы поиск был релевантным.

Использование поискового движка не спасает. Уже при 1 млн. задержка выдачи результатов с помощью ApacheSolr несколько секунд.

Пытались смотреть на www.elasticsearch.org и вообще связки с NoSQL (HSearch), но решения способного давать релевантную выдачу за приемлемое время не нашли. Вернее варианты есть, но пришлось бы реализовывать логику подсчета релевантности самим, для всех типов записей, а хотелось бы чего-нибудь готового.

Сведения об ответе

screen

03:33, 3rd August, 2020

sphinxsearch.com

Сведения об ответе

screen

06:06, 6th August, 2020

Спасибо за информацию. Устроим тест-драйв сфинксу, тогда станет понятно подойдет ли он нам…

Сведения об ответе

VCe znayu

21:50, 7th August, 2020

До 100 запросов в секунду держит сфинкс.

Сведения об ответе

SEEYOU

22:26, 14th August, 2020

В рамках поставленного вопроса, да сфинкс скорее всего бы спас.

Но ввиду того, что приложение на PHP + MySQL с таким объемом может не справиться, видится необходимость добавления NoSQL. И как следствие хотелось бы найти самый простой способ объединения NoSQL и поискового движка.
Идеальной была бы связка NoSQL + Search таким образом что бы поисковик отдавал список ключей по релевантности, а сами документы уже потом тянуть из NoSQL.

Сведения об ответе

dump

02:29, 26th August, 2020

Xapian например

Сведения об ответе

DAAA

21:08, 5th August, 2020

Яндекс для сервера, как вариант.

Сведения об ответе

KOMP

16:46, 15th August, 2020

Мы для этой цели использовали Lucene

Сведения об ответе

piter

05:39, 3rd August, 2020

Использование поискового движка не спасает. Уже при 1 млн. задержка выдачи результатов с помощью ApacheSolr несколько секунд.

Вы что-то делаете не так.

сколько индекс занимает на жестком диске?

сколько памяти выделяете под виртуальную машину и сколько соотв-но остается под файловый кеш операционной системы?

какое кол-во документов возвращает поисковый запрос?

есть ли какие-то хитрые штуки вроде группировки документов или подсветки ключевых слов на огромных документах

Ну в вообще, если документы не огромные, то обьем вполне реальный, и даже не требует распределенного индекса, при увеличении нагрузки можно обойтись и репликацией.

Сведения о вопросе

FromRussia

21:06, 1st October, 2020

Теги

Как организовать поиск по 10 млн. документов?

Сведения об ответе

screen

03:33, 3rd August, 2020

sphinxsearch.com

Сведения об ответе

screen

06:06, 6th August, 2020

Спасибо за информацию. Устроим тест-драйв сфинксу, тогда станет понятно подойдет ли он нам…

Сведения об ответе

VCe znayu

21:50, 7th August, 2020

До 100 запросов в секунду держит сфинкс.

Сведения об ответе

SEEYOU

22:26, 14th August, 2020

Сведения об ответе

dump

02:29, 26th August, 2020

Xapian например

Сведения об ответе

DAAA

21:08, 5th August, 2020

Яндекс для сервера, как вариант.

Сведения об ответе

KOMP

16:46, 15th August, 2020

Мы для этой цели использовали Lucene

Сведения об ответе

piter

05:39, 3rd August, 2020

Ответить на вопрос

Как зайти в Даркнет?! 25th January, 01:11 4 0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam 21st March, 17:43 948 0

Очень долго работает Update запрос Oracle 27th January, 09:58 912 0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found 21st January, 18:02 905 0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе? 2nd December, 09:48 938 0

Разработка мобильной кроссплатформенной военной игры 16th July, 17:57 1724 0

период по дням 25th October, 10:44 3955 0

Пишу скрипты для BAS только на запросах 16th September, 02:42 3720 0

Некорректный скрипт для закрытия блока 14th April, 18:33 4613 0

прокидывать exception в блоках try-catch JAVA 11th March, 21:11 4380 0

Помогите пожалуйста решить задачи 24th November, 23:53 6084 0

Не понимаю почему не открывается детальное описание продукта 11th November, 11:51 4350 0

Нужно решить задачу по программированию на массивы 27th October, 18:01 4395 0

Метода Крамера С++ 23rd October, 11:55 4308 0

помогите решить задачу на C++ 22nd October, 17:31 4002 0

Помогите решить задачу на python с codeforces 22nd October, 11:11 4492 0

Python с нуля: полное руководство для начинающих 18th June, 13:58 2598 0

Все вопросы

Сведения о вопросе

21:06, 1st October, 2020

Теги

Как организовать поиск по 10 млн. документов?

Сведения об ответе

03:33, 3rd August, 2020

sphinxsearch.com

Сведения об ответе

06:06, 6th August, 2020

Спасибо за информацию. Устроим тест-драйв сфинксу, тогда станет понятно подойдет ли он нам…

Сведения об ответе

21:50, 7th August, 2020

До 100 запросов в секунду держит сфинкс.

Сведения об ответе

22:26, 14th August, 2020

Сведения об ответе

02:29, 26th August, 2020

Xapian например

Сведения об ответе

21:08, 5th August, 2020

Яндекс для сервера, как вариант.

Сведения об ответе

16:46, 15th August, 2020

Мы для этой цели использовали Lucene

Сведения об ответе

05:39, 3rd August, 2020

Ответить на вопрос

Как зайти в Даркнет?!

25th January, 01:11

4

0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam

21st March, 17:43

948

0

Очень долго работает Update запрос Oracle

27th January, 09:58

912

0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found

21st January, 18:02

905

0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?

2nd December, 09:48

938

0

Разработка мобильной кроссплатформенной военной игры

16th July, 17:57

1724

0

период по дням

25th October, 10:44

3955

0

Пишу скрипты для BAS только на запросах

16th September, 02:42

3720

0

Некорректный скрипт для закрытия блока

14th April, 18:33

4613

0

прокидывать exception в блоках try-catch JAVA

11th March, 21:11

4380

0

Помогите пожалуйста решить задачи

24th November, 23:53

6084

0

Не понимаю почему не открывается детальное описание продукта

11th November, 11:51

4350

0

Нужно решить задачу по программированию на массивы

27th October, 18:01

4395

0

Метода Крамера С++

23rd October, 11:55

4308

0

помогите решить задачу на C++

22nd October, 17:31

4002

0

Помогите решить задачу на python с codeforces

22nd October, 11:11

4492

0

Python с нуля: полное руководство для начинающих

18th June, 13:58

2598

0