Список вопросов
Как зайти в Даркнет?!
25th January, 01:11
179
0
Как в tkinter из поля ввода Entry получить значение в одну переменную и обновить строку кнопкой, затем получить ещё одно введённое значение и затем сложить их. Ниже пример кода
21st July, 19:00
1531
0
Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam
21st March, 17:43
1154
0
Очень долго работает Update запрос Oracle
27th January, 09:58
1062
0
не могу запустить сервер на tomcat HTTP Status 404 – Not Found
21st January, 18:02
1037
0
Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?
2nd December, 09:48
1078
0
Разработка мобильной кроссплатформенной военной игры
16th July, 17:57
1874
0
период по дням
25th October, 10:44
4092
0
Пишу скрипты для BAS только на запросах
16th September, 02:42
3854
0
Некорректный скрипт для закрытия блока
14th April, 18:33
4778
0
прокидывать exception в блоках try-catch JAVA
11th March, 21:11
4520
0
Помогите пожалуйста решить задачи
24th November, 23:53
6270
0
Не понимаю почему не открывается детальное описание продукта
11th November, 11:51
4484
0
Нужно решить задачу по программированию на массивы
27th October, 18:01
4566
0
Метода Крамера С++
23rd October, 11:55
4467
0
помогите решить задачу на C++
22nd October, 17:31
4133
0
Помогите решить задачу на python с codeforces
22nd October, 11:11
4613
0
Python с нуля: полное руководство для начинающих
18th June, 13:58
2737
0
Отсеивание дублей строк с Mysql?
Просмотров: 337
 
Ответов: 4
Здравствуйте,
Встала задача раздублить около 60гб строковых данных. Уникальных среди них около 25-30%
Решили использовать mysql с уникальным индексом для этого.
Вопросы:
1. Уникальным лучше делать поле с самой строкой (1-5 слов) или же оптимальней считать сначала crc32 от этой строки, и уже на хеш вешать уникальный индекс?
2. Можно ли применить некое курстарное подобие партиционирования, но не на уровне таблиц, а на уровне БД?
Например, делить данные по первой букве строки (получим 28 физических баз), и одновременно заполнять только одну из них, тем самым уменьшая потребление RAM?
обязательно в mysql?
если данные в текстовом файле то можно на авк:
awk '!t[$0]++' data.txt
работает быстрее чем всё остальное, возвращает первую уникальную строку, но потребует оперативной или виртуальной памяти на весь массив, а это прямо пропорционально кол-ву уникальных строк.
партиционирование — супер идея. но побъется порядок, и к тому же нужно руками перечислить все варианты, например начальные буквы строки.
awk '/^[A-F]/ {print $0 >> file1_AF.txt }
/^[G-M]/ {print $0 >> file2_GM.txt }
...'обработка каждого из таких файлов, тем -же awk-фильтром, потребует меньше памяти.
Чтобы ответить на вопрос вам нужно войти в систему или зарегистрироваться