Список вопросов
Как зайти в Даркнет?!
25th January, 01:11
4
0
Как в tkinter из поля ввода Entry получить значение в одну переменную и обновить строку кнопкой, затем получить ещё одно введённое значение и затем сложить их. Ниже пример кода
21st July, 19:00
892
0
Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam
21st March, 17:43
948
0
Очень долго работает Update запрос Oracle
27th January, 09:58
912
0
не могу запустить сервер на tomcat HTTP Status 404 – Not Found
21st January, 18:02
905
0
Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?
2nd December, 09:48
938
0
Разработка мобильной кроссплатформенной военной игры
16th July, 17:57
1724
0
период по дням
25th October, 10:44
3955
0
Пишу скрипты для BAS только на запросах
16th September, 02:42
3720
0
Некорректный скрипт для закрытия блока
14th April, 18:33
4613
0
прокидывать exception в блоках try-catch JAVA
11th March, 21:11
4380
0
Помогите пожалуйста решить задачи
24th November, 23:53
6084
0
Не понимаю почему не открывается детальное описание продукта
11th November, 11:51
4350
0
Нужно решить задачу по программированию на массивы
27th October, 18:01
4395
0
Метода Крамера С++
23rd October, 11:55
4308
0
помогите решить задачу на C++
22nd October, 17:31
4002
0
Помогите решить задачу на python с codeforces
22nd October, 11:11
4492
0
Python с нуля: полное руководство для начинающих
18th June, 13:58
2598
0
Как организовать поиск по 10 млн. документов?
Просмотров: 330
 
Ответов: 8
Есть сайт. В MySQL БД хранится порядка 10 000 000 записей.
Нужно сделать полнотекстовый поиск + что бы поиск был релевантным.
Использование поискового движка не спасает. Уже при 1 млн. задержка выдачи результатов с помощью ApacheSolr несколько секунд.
Пытались смотреть на www.elasticsearch.org и вообще связки с NoSQL (HSearch), но решения способного давать релевантную выдачу за приемлемое время не нашли. Вернее варианты есть, но пришлось бы реализовывать логику подсчета релевантности самим, для всех типов записей, а хотелось бы чего-нибудь готового.
В рамках поставленного вопроса, да сфинкс скорее всего бы спас.
Но ввиду того, что приложение на PHP + MySQL с таким объемом может не справиться, видится необходимость добавления NoSQL. И как следствие хотелось бы найти самый простой способ объединения NoSQL и поискового движка.
Идеальной была бы связка NoSQL + Search таким образом что бы поисковик отдавал список ключей по релевантности, а сами документы уже потом тянуть из NoSQL.
Использование поискового движка не спасает. Уже при 1 млн. задержка выдачи результатов с помощью ApacheSolr несколько секунд.
Вы что-то делаете не так.
- сколько индекс занимает на жестком диске?
- сколько памяти выделяете под виртуальную машину и сколько соотв-но остается под файловый кеш операционной системы?
- какое кол-во документов возвращает поисковый запрос?
- есть ли какие-то хитрые штуки вроде группировки документов или подсветки ключевых слов на огромных документах
Ну в вообще, если документы не огромные, то обьем вполне реальный, и даже не требует распределенного индекса, при увеличении нагрузки можно обойтись и репликацией.
Чтобы ответить на вопрос вам нужно войти в систему или зарегистрироваться