Сведения о вопросе

Codeliver

02:01, 23rd August, 2020

Как решить семантические проблемы с веб-сайтами на основе тегов

Просмотров: 412 Ответов: 7

Веб-сайты на основе тегов часто страдают от деликатности языка, такого как синонимы, омонимы и т. д. Для программистов, ищущих информацию, скажем, о переполнении стека, конкретными примерами являются:

Subversion или SVN (или svn, с чувствительными к регистру тегами)
.
NET или Mono

[Добавит еще]

Проблема в том, что мы хотим сохранить нашу деликатность языка и заставить машину работать с ним как можно лучше.

Сайт, подобный del.icio.us, видит, что его база тегов сильно растет, что, вероятно, препятствует использованию или поиску. Поиск записей, связанных с SVN, вероятно, перечислит большинство записей с тегами subversion и svn, но я могу думать о трех проблемах:

Поиск является неполным, так как многие записи могут не иметь обоих тегов (которые являются 'synonyms').

Поиск менее полезен, так как Q / A часто приводит к большему количеству Qs! Особенно для новичков по данной теме.

Пометка вопроса (Примечание: или ответ отдельно, звучит полезно) становится философской: "правильно ли я пометил?'

Одним из способов решения этих проблем является создание семантических связей между тегами, чтобы subversion и SVN автоматически связывались системой, а не плохими пользователями.

Это подход, который звучит good/feasible/attractive/useful? Как реализовать его эффективно?

Сведения об ответе

DINO

06:40, 9th August, 2020

Распознавание синонимов и семантических связей-это то, в чем люди хороши; решение для организации открытой таксономии, такой как то, что показывает SO, вероятно, будет хорошо служить, найдя способ оставить соответствие людям.

Один общий подход: кто-то (или какая-то команда) ежедневно просматривает новые теги. Новые синонимы добавляются в группы синонимов. Поиск по группам синонимов (или, более подробно, по буквальным совпадениям или совпадениям групп синонимов в соответствии с предпочтениями пользователя).

Это требует поддержки групп синонимов на заднем конце (работа для команды разработчиков). Требуется обработчик тегов или десять (работа для руководителей или для проверенных пользователей). Это не требует постоянного масштабирования, though—the скорость, с которой общий пул тегов растет, скорее всего (после того, как начальный здесь приходит каждый удар открытой бета-версии), по всей вероятности, будет уменьшаться с течением времени, как и скорость роста любого органического лексикона.

Синонимия поражает меня как проблема go-to. Иерархическое отображение-это амбициозная и более сложная проблема; это может стоить того, а может и нет, но, учитывая относительную сложность определения иерархии, ее, вероятно, лучше оставить в качестве Фазы 2 для Фазы 1 любого потенциального синонима проекта.

Сведения об ответе

P_S_S

11:31, 8th August, 2020

Способ настройки программного обеспечения на blogspot.com заключается в том, что на поле, где вы пишете имя тегов, есть ajax-autocomplete-thingie. Это поиск всех ваших предыдущих сообщений для тегов, которые начинаются с тех же букв. По крайней мере, таким образом вы поймаете разные оболочки и написания (но не синонимы).

Сведения об ответе

JUST___

04:42, 11th August, 2020

Я полностью согласен. Масса тегов, которые есть на данный момент. Я не участвую в других сайтах на основе тегов. Однако наличие иерархии тегов было бы очень полезно, вместо ruby rails ruby-on-rails rubyonrails и т. д...

Сведения об ответе

fo_I_K

08:47, 12th August, 2020

Как система узнает, какие теги семантически связывать? Будет ли он держать постоянно растущую карту тегов? Я не вижу, что это работает. Что, если кто-то набрал sbversion вместо этого? Как это может быть связано?

Я думаю, что спрашивать пользователя, когда они отправляют теги, может работать. Например, "вы ввели следующие теги: sbversion, pascal и привязки. Вы имели в виду, "Subversion", "Pascal" и "Bindings"?

Очевидно, что система должна была бы иметь довольно умную систему сопоставления, чтобы это работало. Выполнение этого способа будет дополнительным вводом для пользователя (что, вероятно, раздражает их), но человеческий ввод, если он будет выполнен правильно, сделает меньше дубликатов тегов.

Фактически, сказав Все это, система может использовать результаты ввода пользователя в качестве основы для автоматического сопоставления тегов. Из предыдущего примера, кто - то создает тег "sbversion" и при появлении запроса изменяет его на "Subversion"-система может узнать, что и сделать это автоматически в следующий раз.

Сведения об ответе

Chhiki

19:22, 13th August, 2020

Часть проблемы, на которую вы смотрите, заключается в том, что английский язык изобилует синонимами - различаются ли следующие: build-management, subversion, cvs, source-control?

Может быть, а может и нет. Наличие системы, подобной той, которая [сейчас] используется на SO, которая вызывает тег, который вы, вероятно, имели в виду, чрезвычайно полезно. Но это не останавливает людей от запугивания-через процесс маркировки.

Может быть, вы могли бы отказаться принимать теги "new" без взаимодействия с пользователем? Прежде чем вы позволите 'sbversion' войти, принудительно проверьте орфографию?

Это, безусловно, интересная проблема. Я задал открытый вопрос, подобный этому, в своем блоге в прошлом году. Несколько ответов были довольно проницательными.

Сведения об ответе

screen

00:19, 18th August, 2020

Теги-это в основном наше признание того, что алгоритмы поиска не соответствуют требованиям. Если мы можем заставить компьютер быть достаточно умным, чтобы определить, что вещи с тегами "Subversion" имеют похожий контент на вещи с тегами "svn", предположительно, мы можем проанализировать содержимое, так почему бы не пропустить теги вообще и не сопоставить поисковый запрос непосредственно с контентом (т. е. автотегирование, которое в основном сопоставляет ключевые слова с результатами)?!

Сведения об ответе

JUST___

02:52, 12th August, 2020

Проблема заключается в том, чтобы заставить поисковую систему использовать тот факт, что 'subversion' и 'svn' очень похожи в том смысле, что они означают один и тот же 'thing'.

Возможно, было бы интересно вычислить простое сходство между тегами на основе частоты: 'subversion' и 'svn' очень часто появляются вместе, поэтому запрос 'svn' вернет вопросы, связанные с SVN, но также и редкие вопросы, помеченные только 'subversion' (и наоборот). Однако 'java' и 'c#' также часто появляются вместе, но по очень разным причинам (они не являются синонимами). Таким образом, сходство, основанное на частоте, отсутствует.

Ответом на эту проблему может быть сочетание механизмов, как те, которые предложены в этом потоке вопросов и ответов:

Фильтрация опечаток путем предложения тегов, когда пользователь вводит их.

Ведение пользовательской карты синонимов. Эта карта может быть не такой большой, если она просто нацелена на синонимы.

Разрешение поиска с несколькими тегами, так что пользователь может поместить 'subversion svn' или 'subversion && svn' (ну, от программистов к программистам) в поле поиска и получить оба. Это было бы весьма практично, поскольку многие пользователи могут на самом деле попробовать такой подход, когда они не знают, какой термин является наиболее значимым.

@Nick: согласился. Этот вопрос не предназначен для того, чтобы спорить с тегами. Теги имеют большой потенциал, но пользователи столкнутся с растущей проблемой, если не удается найти 'across' тегов.

@Steve: поддержание постоянно растущей карты тегов, безусловно, нецелесообразно. Поскольку SO накапливает постоянно растущий пакет тегов, как мы можем затенить некоторый свет на этот пакет, чтобы сделать поиск тегов Q/A еще более полезным, удобным способом?

@Espo: 'Ajax-powered' предложения тегов на основе существующих тегов, по-видимому, доступны на SO при создании вопроса. Это, кстати, очень полезно, чтобы выбрать теги и соответствующее написание (избегая вопроса 'subversion' против 'sbversion' от Стива).

Как зайти в Даркнет?! 25th January, 01:11 174 0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam 21st March, 17:43 1149 0

Очень долго работает Update запрос Oracle 27th January, 09:58 1057 0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found 21st January, 18:02 1031 0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе? 2nd December, 09:48 1072 0

Разработка мобильной кроссплатформенной военной игры 16th July, 17:57 1869 0

период по дням 25th October, 10:44 4087 0

Пишу скрипты для BAS только на запросах 16th September, 02:42 3849 0

Некорректный скрипт для закрытия блока 14th April, 18:33 4770 0

прокидывать exception в блоках try-catch JAVA 11th March, 21:11 4515 0

Помогите пожалуйста решить задачи 24th November, 23:53 6263 0

Не понимаю почему не открывается детальное описание продукта 11th November, 11:51 4479 0

Нужно решить задачу по программированию на массивы 27th October, 18:01 4560 0

Метода Крамера С++ 23rd October, 11:55 4462 0

помогите решить задачу на C++ 22nd October, 17:31 4127 0

Помогите решить задачу на python с codeforces 22nd October, 11:11 4608 0

Python с нуля: полное руководство для начинающих 18th June, 13:58 2731 0

Все вопросы

Сведения о вопросе

02:01, 23rd August, 2020

Теги

Как решить семантические проблемы с веб-сайтами на основе тегов

Сведения об ответе

06:40, 9th August, 2020

Сведения об ответе

11:31, 8th August, 2020

Сведения об ответе

04:42, 11th August, 2020

Сведения об ответе

08:47, 12th August, 2020

Сведения об ответе

19:22, 13th August, 2020

Сведения об ответе

00:19, 18th August, 2020

Сведения об ответе

02:52, 12th August, 2020

Ответить на вопрос

Как зайти в Даркнет?!

25th January, 01:11

174

0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam

21st March, 17:43

1149

0

Очень долго работает Update запрос Oracle

27th January, 09:58

1057

0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found

21st January, 18:02

1031

0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?

2nd December, 09:48

1072

0

Разработка мобильной кроссплатформенной военной игры

16th July, 17:57

1869

0

период по дням

25th October, 10:44

4087

0

Пишу скрипты для BAS только на запросах

16th September, 02:42

3849

0

Некорректный скрипт для закрытия блока

14th April, 18:33

4770

0

прокидывать exception в блоках try-catch JAVA

11th March, 21:11

4515

0

Помогите пожалуйста решить задачи

24th November, 23:53

6263

0

Не понимаю почему не открывается детальное описание продукта

11th November, 11:51

4479

0

Нужно решить задачу по программированию на массивы

27th October, 18:01

4560

0

Метода Крамера С++

23rd October, 11:55

4462

0

помогите решить задачу на C++

22nd October, 17:31

4127

0

Помогите решить задачу на python с codeforces

22nd October, 11:11

4608

0

Python с нуля: полное руководство для начинающих

18th June, 13:58

2731

0