Как зайти в Даркнет?!
25th January, 01:11
5
0
Как в tkinter из поля ввода Entry получить значение в одну переменную и обновить строку кнопкой, затем получить ещё одно введённое значение и затем сложить их. Ниже пример кода
21st July, 19:00
893
0
Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam
21st March, 17:43
948
0
Очень долго работает Update запрос Oracle
27th January, 09:58
912
0
не могу запустить сервер на tomcat HTTP Status 404 – Not Found
21st January, 18:02
905
0
Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?
2nd December, 09:48
938
0
Разработка мобильной кроссплатформенной военной игры
16th July, 17:57
1724
0
период по дням
25th October, 10:44
3955
0
Пишу скрипты для BAS только на запросах
16th September, 02:42
3720
0
Некорректный скрипт для закрытия блока
14th April, 18:33
4613
0
прокидывать exception в блоках try-catch JAVA
11th March, 21:11
4381
0
Помогите пожалуйста решить задачи
24th November, 23:53
6085
0
Не понимаю почему не открывается детальное описание продукта
11th November, 11:51
4350
0
Нужно решить задачу по программированию на массивы
27th October, 18:01
4395
0
Метода Крамера С++
23rd October, 11:55
4309
0
помогите решить задачу на C++
22nd October, 17:31
4002
0
Помогите решить задачу на python с codeforces
22nd October, 11:11
4492
0
Python с нуля: полное руководство для начинающих
18th June, 13:58
2599
0
Использование Lucene для поиска email адресов
Я хочу использовать Lucene (в частности, Lucene.NET) для поиска email адресных доменов.
E.g. Я хочу найти "@gmail.com", чтобы найти все письма, отправленные на адрес gmail.
Выполнение запроса Lucene для "*@gmail.com " приводит к ошибке, звездочки не могут быть в начале запросов. Выполнение запроса для "@gmail.com " не возвращает никаких совпадений, потому что "foo@gmail.com" рассматривается как целое слово, и вы не можете искать только части слова.
Как я могу это сделать?
Никто не дал удовлетворительного ответа, поэтому мы начали копаться в документации Lucene и обнаружили, что можем сделать это с помощью пользовательских анализаторов и маркеров.
Ответ таков: создайте WhitespaceAndAtSymbolTokenizer и WhitespaceAndAtSymbolAnalyzer, а затем воссоздайте свой индекс с помощью этого анализатора. Как только вы сделаете это, поиск "@gmail.com" вернет все адреса gmail, потому что он рассматривается как отдельное слово благодаря только что созданному маркеру.
Вот исходный код, он на самом деле очень прост:
class WhitespaceAndAtSymbolTokenizer : CharTokenizer
{
public WhitespaceAndAtSymbolTokenizer(TextReader input)
: base(input)
{
}
protected override bool IsTokenChar(char c)
{
// Make whitespace characters and the @ symbol be indicators of new words.
return !(char.IsWhiteSpace(c) || c == '@');
}
}
internal class WhitespaceAndAtSymbolAnalyzer : Analyzer
{
public override TokenStream TokenStream(string fieldName, TextReader reader)
{
return new WhitespaceAndAtSymbolTokenizer(reader);
}
}
Вот и все! Теперь вам просто нужно перестроить свой индекс и выполнять все поиски с помощью этого нового анализатора. Например, для записи документов в ваш индекс:
IndexWriter index = new IndexWriter(indexDirectory, new WhitespaceAndAtSymbolAnalyzer());
index.AddDocument(myDocument);
При выполнении поиска также следует использовать анализатор:
IndexSearcher searcher = new IndexSearcher(indexDirectory);
Query query = new QueryParser("TheFieldNameToSearch", new WhitespaceAndAtSymbolAnalyzer()).Parse("@gmail.com");
Hits hits = query.Search(query);
Я вижу, что у вас есть свое решение, но мое бы избежало этого и добавило поле к документам, которые вы индексируете, под названием email_domain, в которое я бы добавил разбираемый домен адреса email. Это может показаться глупым, но объем памяти, связанный с этим, довольно минимален. Если вы чувствуете, что становитесь более любознательным, скажем, у какого-то домена было много поддоменов, вы можете вместо этого сделать поле, в которое вошел обратный домен, поэтому вы храните com.gmail, com.company.department или ae.eim, чтобы вы могли найти все связанные адреса Объединенных Арабских Эмиратов с префиксным запросом 'ae.'
Там же находится setAllowLeadingWildcard
Но будьте осторожны . Это может привести к очень высокой производительности (вот почему он отключен по умолчанию). Может быть, в некоторых случаях это было бы простым решением,но я бы предпочел пользовательский токенизатор, как заявил Иуда Химанго.