Сведения о вопросе

NOTtoday

19:50, 26th August, 2020

Теги

resources   dataset    

большие наборы данных

Просмотров: 471   Ответов: 8

Я всегда ищу большие наборы данных для тестирования различных типов программ. У кого-нибудь есть предложения?



  Сведения об ответе

SILA

15:43, 26th August, 2020

Посмотрите конкурс netflix . Я считаю, что они выставили свою базу данных или большое подмножество, чтобы облегчить конкурс.

UPDATE: их faq говорит, что у них есть 100 миллионов записей в подмножестве, которое вы можете скачать.


  Сведения об ответе

FAriza

03:56, 8th August, 2020

Возможно, вы захотите взглянуть на данные американской статистической Ассоциации data expo - это сведения о рейсах всех коммерческих рейсов в US за последние 20 лет - 120 миллионов записей, 11 гигов данных.


  Сведения об ответе

COOL

17:16, 22nd August, 2020

Я проделал некоторую работу с наборами загрузок Викимедиа , которые представляют собой огромные файлы XML. К сожалению, их сервер загрузки в настоящее время испытывает проблемы с дисковым пространством, поэтому многие наборы данных недоступны. Но когда он доступен, весь набор данных английской Википедии с полной историей составляет 2.8 TB (18 GB сжатых).


  Сведения об ответе

baggs

15:53, 29th August, 2020

Несколько del.icio.us пользователей (включая меня) помечают страницы, содержащие общедоступные данные, используя тег "publicdata". Вы можете найти этот архив здесь и подписаться на канал RSS для этого тега здесь . Подпишитесь на ленту, и вы увидите постоянный поток интересных наборов данных, которые появляются в интернете.

Не все из этих наборов данных являются большими, но они часто интересны.


  Сведения об ответе

COOL

14:43, 16th August, 2020

Возможно, вы захотите посмотреть на генерацию случайных данных для тестирования Fuzz. Это даст вам практически неограниченное количество тестовых данных, и вы с большей вероятностью попадете в крайние случаи.

Может быть, еще немного информации о том, какие тестовые данные вам нужны, в каком формате и для каких типов приложений?


  Сведения об ответе

pumpa

21:53, 11th August, 2020

Я не знаю, какова ваша целевая платформа, но если вы разрабатываете против базы данных MSSQL, проверьте Visual Studio для специалистов по базам данных . У него есть очень интересная функция, где он может генерировать данные для вашей схемы, используя план данных, который вы можете определить.

У Redgate также есть инструмент для сбора данных, но я им не пользовался.

Преимущество заключается в том, что вы можете создать план генерации данных и использовать его для заполнения базы данных согласованными большими объемами данных, которые можно настроить для тестирования определенных областей вашей схемы.


  Сведения об ответе

SEEYOU

09:06, 29th August, 2020

Возможно, вы также захотите ознакомиться с книгой Аарона Шварца.

С сайта

Это сайт для больших наборов данных и люди, которые их любят: скребки а краулеры, которые их собирают, то же самое академики и гики, которые их обрабатывают, дизайнеры и художники, которые визуализируйте их. Это такое место, где они могут обмениваться советами и хитростями, совместно разрабатывать и обмениваться инструментами, а также начинайте интегрировать свои особенности проекты.


  Сведения об ответе

DAAA

16:22, 17th August, 2020

Если вы заинтересованы в персонализации типа данных, которые вы получаете, проверьте Kimono Labs . Это программное обеспечение для очистки веб-страниц, которое вы можете использовать для очистки практически любого сайта бесплатно без ограничения количества строк. Просто установите на нем API (вы можете использовать их генератор url, чтобы очистить кучу URL-адресов сразу), а затем использовать свой личный набор данных как JSON, CSV или RSS.


Ответить на вопрос

Чтобы ответить на вопрос вам нужно войти в систему или зарегистрироваться