Как зайти в Даркнет?!
25th January, 01:11
6
0
Как в tkinter из поля ввода Entry получить значение в одну переменную и обновить строку кнопкой, затем получить ещё одно введённое значение и затем сложить их. Ниже пример кода
21st July, 19:00
895
0
Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam
21st March, 17:43
948
0
Очень долго работает Update запрос Oracle
27th January, 09:58
914
0
не могу запустить сервер на tomcat HTTP Status 404 – Not Found
21st January, 18:02
905
0
Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?
2nd December, 09:48
938
0
Разработка мобильной кроссплатформенной военной игры
16th July, 17:57
1724
0
период по дням
25th October, 10:44
3955
0
Пишу скрипты для BAS только на запросах
16th September, 02:42
3720
0
Некорректный скрипт для закрытия блока
14th April, 18:33
4613
0
прокидывать exception в блоках try-catch JAVA
11th March, 21:11
4381
0
Помогите пожалуйста решить задачи
24th November, 23:53
6086
0
Не понимаю почему не открывается детальное описание продукта
11th November, 11:51
4351
0
Нужно решить задачу по программированию на массивы
27th October, 18:01
4396
0
Метода Крамера С++
23rd October, 11:55
4309
0
помогите решить задачу на C++
22nd October, 17:31
4002
0
Помогите решить задачу на python с codeforces
22nd October, 11:11
4492
0
Python с нуля: полное руководство для начинающих
18th June, 13:58
2599
0
большие наборы данных
Я всегда ищу большие наборы данных для тестирования различных типов программ. У кого-нибудь есть предложения?
Посмотрите конкурс netflix . Я считаю, что они выставили свою базу данных или большое подмножество, чтобы облегчить конкурс.
UPDATE: их faq говорит, что у них есть 100 миллионов записей в подмножестве, которое вы можете скачать.
Я проделал некоторую работу с наборами загрузок Викимедиа , которые представляют собой огромные файлы XML. К сожалению, их сервер загрузки в настоящее время испытывает проблемы с дисковым пространством, поэтому многие наборы данных недоступны. Но когда он доступен, весь набор данных английской Википедии с полной историей составляет 2.8 TB (18 GB сжатых).
Несколько del.icio.us пользователей (включая меня) помечают страницы, содержащие общедоступные данные, используя тег "publicdata". Вы можете найти этот архив здесь и подписаться на канал RSS для этого тега здесь . Подпишитесь на ленту, и вы увидите постоянный поток интересных наборов данных, которые появляются в интернете.
Не все из этих наборов данных являются большими, но они часто интересны.
Возможно, вы захотите посмотреть на генерацию случайных данных для тестирования Fuzz. Это даст вам практически неограниченное количество тестовых данных, и вы с большей вероятностью попадете в крайние случаи.
Может быть, еще немного информации о том, какие тестовые данные вам нужны, в каком формате и для каких типов приложений?
Я не знаю, какова ваша целевая платформа, но если вы разрабатываете против базы данных MSSQL, проверьте Visual Studio для специалистов по базам данных . У него есть очень интересная функция, где он может генерировать данные для вашей схемы, используя план данных, который вы можете определить.
У Redgate также есть инструмент для сбора данных, но я им не пользовался.
Преимущество заключается в том, что вы можете создать план генерации данных и использовать его для заполнения базы данных согласованными большими объемами данных, которые можно настроить для тестирования определенных областей вашей схемы.
Возможно, вы также захотите ознакомиться с книгой Аарона Шварца.
С сайта
Это сайт для больших наборов данных и люди, которые их любят: скребки а краулеры, которые их собирают, то же самое академики и гики, которые их обрабатывают, дизайнеры и художники, которые визуализируйте их. Это такое место, где они могут обмениваться советами и хитростями, совместно разрабатывать и обмениваться инструментами, а также начинайте интегрировать свои особенности проекты.
Если вы заинтересованы в персонализации типа данных, которые вы получаете, проверьте Kimono Labs . Это программное обеспечение для очистки веб-страниц, которое вы можете использовать для очистки практически любого сайта бесплатно без ограничения количества строк. Просто установите на нем API (вы можете использовать их генератор url, чтобы очистить кучу URL-адресов сразу), а затем использовать свой личный набор данных как JSON, CSV или RSS.