Сведения о вопросе

Life

13:14, 26th August, 2020

Теги

.net   search   lucene    

Использование Lucene для поиска email адресов

Просмотров: 459   Ответов: 4

Я хочу использовать Lucene (в частности, Lucene.NET) для поиска email адресных доменов.

E.g. Я хочу найти "@gmail.com", чтобы найти все письма, отправленные на адрес gmail.

Выполнение запроса Lucene для "*@gmail.com " приводит к ошибке, звездочки не могут быть в начале запросов. Выполнение запроса для "@gmail.com " не возвращает никаких совпадений, потому что "foo@gmail.com" рассматривается как целое слово, и вы не можете искать только части слова.

Как я могу это сделать?



  Сведения об ответе

lourence

07:09, 13th August, 2020

Никто не дал удовлетворительного ответа, поэтому мы начали копаться в документации Lucene и обнаружили, что можем сделать это с помощью пользовательских анализаторов и маркеров.

Ответ таков: создайте WhitespaceAndAtSymbolTokenizer и WhitespaceAndAtSymbolAnalyzer, а затем воссоздайте свой индекс с помощью этого анализатора. Как только вы сделаете это, поиск "@gmail.com" вернет все адреса gmail, потому что он рассматривается как отдельное слово благодаря только что созданному маркеру.

Вот исходный код, он на самом деле очень прост:

class WhitespaceAndAtSymbolTokenizer : CharTokenizer
{
    public WhitespaceAndAtSymbolTokenizer(TextReader input)
        : base(input)
    {
    }

    protected override bool IsTokenChar(char c)
    {
        // Make whitespace characters and the @ symbol be indicators of new words.
        return !(char.IsWhiteSpace(c) || c == '@');
    }
}


internal class WhitespaceAndAtSymbolAnalyzer : Analyzer
{
    public override TokenStream TokenStream(string fieldName, TextReader reader)
    {
        return new WhitespaceAndAtSymbolTokenizer(reader);
    }
}

Вот и все! Теперь вам просто нужно перестроить свой индекс и выполнять все поиски с помощью этого нового анализатора. Например, для записи документов в ваш индекс:

IndexWriter index = new IndexWriter(indexDirectory, new WhitespaceAndAtSymbolAnalyzer());
index.AddDocument(myDocument);

При выполнении поиска также следует использовать анализатор:

IndexSearcher searcher = new IndexSearcher(indexDirectory);
Query query = new QueryParser("TheFieldNameToSearch", new WhitespaceAndAtSymbolAnalyzer()).Parse("@gmail.com");
Hits hits = query.Search(query);


  Сведения об ответе

crush

09:51, 25th August, 2020

Я вижу, что у вас есть свое решение, но мое бы избежало этого и добавило поле к документам, которые вы индексируете, под названием email_domain, в которое я бы добавил разбираемый домен адреса email. Это может показаться глупым, но объем памяти, связанный с этим, довольно минимален. Если вы чувствуете, что становитесь более любознательным, скажем, у какого-то домена было много поддоменов, вы можете вместо этого сделать поле, в которое вошел обратный домен, поэтому вы храните com.gmail, com.company.department или ae.eim, чтобы вы могли найти все связанные адреса Объединенных Арабских Эмиратов с префиксным запросом 'ae.'


  Сведения об ответе

SSESION

08:00, 16th August, 2020

Там же находится setAllowLeadingWildcard

Но будьте осторожны . Это может привести к очень высокой производительности (вот почему он отключен по умолчанию). Может быть, в некоторых случаях это было бы простым решением,но я бы предпочел пользовательский токенизатор, как заявил Иуда Химанго.


  Сведения об ответе

lool

21:38, 2nd August, 2020

Вы можете создать отдельное поле, индексирующее адрес email.: Индекс 'foo@gmail.com' как 'moc.liamg@oof' Что позволяет сделать запрос для "moc.liamg@*"


Ответить на вопрос

Чтобы ответить на вопрос вам нужно войти в систему или зарегистрироваться