Сведения о вопросе

Kimsanov

04:46, 24th August, 2020

Как программно определить уникальность текста в поисковых системах?

Просмотров: 394   Ответов: 2

Интересно, как сервисы подобные copyscape,antiplagiat.ru определяют уникальность текста?



  Сведения об ответе

SEEYOU

01:35, 13th August, 2020

Скорее всего так — ищут похожие документы. И если исследуемый текст по некоторой метрике очень похож на какой-либо, то считается копией. Возможно, то же делается на уровне абзацев.

Как найти похожие документы быстро — LSH (locality sensitive hashing) и кластеризация.


  Сведения об ответе

$DOLLAR

02:56, 9th August, 2020

Используют шинглы (shingle). То есть берут рандомом шингл из текста (обычно используют шинглы, точно не помню, от 5ти до 9ти слов) и в кавычках запрашивают его на поиске. Если результатов более 1го, то кто-то кого-то скопипастил. И здесь начинает работать алгоритм самих поисковых систем по определению оригинала, причем, не всегда верно определяющий оригинальный источник.


Ответить на вопрос

Чтобы ответить на вопрос вам нужно войти в систему или зарегистрироваться