Сведения о вопросе

04:37, 4th August, 2020

Отсеивание дублей строк с Mysql?

Просмотров: 338 Ответов: 4

Здравствуйте,

Встала задача раздублить около 60гб строковых данных. Уникальных среди них около 25-30%

Решили использовать mysql с уникальным индексом для этого.

Вопросы:
1. Уникальным лучше делать поле с самой строкой (1-5 слов) или же оптимальней считать сначала crc32 от этой строки, и уже на хеш вешать уникальный индекс?

2. Можно ли применить некое курстарное подобие партиционирования, но не на уровне таблиц, а на уровне БД?

Например, делить данные по первой букве строки (получим 28 физических баз), и одновременно заполнять только одну из них, тем самым уменьшая потребление RAM?

Сведения об ответе

13:53, 10th August, 2020

обязательно в mysql?
если данные в текстовом файле то можно на авк:


awk '!t[$0]++' data.txt

работает быстрее чем всё остальное, возвращает первую уникальную строку, но потребует оперативной или виртуальной памяти на весь массив, а это прямо пропорционально кол-ву уникальных строк.

партиционирование — супер идея. но побъется порядок, и к тому же нужно руками перечислить все варианты, например начальные буквы строки.

awk '/^[A-F]/ {print $0 >> file1_AF.txt }

/^[G-M]/ {print $0 >> file2_GM.txt }

...'

обработка каждого из таких файлов, тем -же awk-фильтром, потребует меньше памяти.

Сведения об ответе

lats

05:34, 3rd August, 2020

Исходные данные в текстовых файлах лежат. Подлежать заполнению.
А вообще индекс на неочищенную можно добавить так:

ALTER IGNORE TABLE `test` ADD UNIQUE (`text`)

Сведения об ответе

padenie

21:06, 1st October, 2020

а, т.е. вы хотите создать БД с уникальным ключом и попытаться на неё импортнуть все строки?
насчёт партиционирования не знаю, я таких фич не встречал
считать хеш не рекомендую, тем более что 1-5 слов это весьма короткий фрагмент текста,MySQL сам справится с задачей

Сведения об ответе

SKY

18:22, 21st August, 2020

К сожалению только (no)mysql, там кроме раздублирования еще доп функионал нужен. Остановился на mysql т.к. только с ней работал плотно и опыта на порядок больше чем с другими субд.

Сведения о вопросе

nikolya

04:37, 4th August, 2020

Теги

Отсеивание дублей строк с Mysql?

Сведения об ответе

baggs

13:53, 10th August, 2020

Сведения об ответе

lats

05:34, 3rd August, 2020

Исходные данные в текстовых файлах лежат. Подлежать заполнению.
А вообще индекс на неочищенную можно добавить так:

ALTER IGNORE TABLE `test` ADD UNIQUE (`text`)

Сведения об ответе

padenie

21:06, 1st October, 2020

Сведения об ответе

SKY

18:22, 21st August, 2020

Ответить на вопрос

Как зайти в Даркнет?! 25th January, 01:11 183 0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam 21st March, 17:43 1157 0

Очень долго работает Update запрос Oracle 27th January, 09:58 1065 0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found 21st January, 18:02 1040 0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе? 2nd December, 09:48 1082 0

Разработка мобильной кроссплатформенной военной игры 16th July, 17:57 1878 0

период по дням 25th October, 10:44 4096 0

Пишу скрипты для BAS только на запросах 16th September, 02:42 3858 0

Некорректный скрипт для закрытия блока 14th April, 18:33 4784 0

прокидывать exception в блоках try-catch JAVA 11th March, 21:11 4524 0

Помогите пожалуйста решить задачи 24th November, 23:53 6274 0

Не понимаю почему не открывается детальное описание продукта 11th November, 11:51 4488 0

Нужно решить задачу по программированию на массивы 27th October, 18:01 4571 0

Метода Крамера С++ 23rd October, 11:55 4472 0

помогите решить задачу на C++ 22nd October, 17:31 4139 0

Помогите решить задачу на python с codeforces 22nd October, 11:11 4617 0

Python с нуля: полное руководство для начинающих 18th June, 13:58 2740 0

Все вопросы

Сведения о вопросе

nikolya

04:37, 4th August, 2020

Теги

Отсеивание дублей строк с Mysql?

Сведения об ответе

baggs

13:53, 10th August, 2020

Сведения об ответе

lats

05:34, 3rd August, 2020

Исходные данные в текстовых файлах лежат. Подлежать заполнению. А вообще индекс на неочищенную можно добавить так: ALTER IGNORE TABLE `test` ADD UNIQUE (`text`)

Сведения об ответе

padenie

21:06, 1st October, 2020

Сведения об ответе

SKY

18:22, 21st August, 2020

Ответить на вопрос

Как зайти в Даркнет?!

25th January, 01:11

183

0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam

21st March, 17:43

1157

0

Очень долго работает Update запрос Oracle

27th January, 09:58

1065

0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found

21st January, 18:02

1040

0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?

2nd December, 09:48

1082

0

Разработка мобильной кроссплатформенной военной игры

16th July, 17:57

1878

0

период по дням

25th October, 10:44

4096

0

Пишу скрипты для BAS только на запросах

16th September, 02:42

3858

0

Некорректный скрипт для закрытия блока

14th April, 18:33

4784

0

прокидывать exception в блоках try-catch JAVA

11th March, 21:11

4524

0

Помогите пожалуйста решить задачи

24th November, 23:53

6274

0

Не понимаю почему не открывается детальное описание продукта

11th November, 11:51

4488

0

Нужно решить задачу по программированию на массивы

27th October, 18:01

4571

0

Метода Крамера С++

23rd October, 11:55

4472

0

помогите решить задачу на C++

22nd October, 17:31

4139

0

Помогите решить задачу на python с codeforces

22nd October, 11:11

4617

0

Python с нуля: полное руководство для начинающих

18th June, 13:58

2740

0

Исходные данные в текстовых файлах лежат. Подлежать заполнению.
А вообще индекс на неочищенную можно добавить так:

ALTER IGNORE TABLE `test` ADD UNIQUE (`text`)