Сведения о вопросе

NOTtoday

19:50, 26th August, 2020

большие наборы данных

Просмотров: 471 Ответов: 8

Я всегда ищу большие наборы данных для тестирования различных типов программ. У кого-нибудь есть предложения?

Сведения об ответе

SILA

15:43, 26th August, 2020

Посмотрите конкурс netflix . Я считаю, что они выставили свою базу данных или большое подмножество, чтобы облегчить конкурс.

UPDATE: их faq говорит, что у них есть 100 миллионов записей в подмножестве, которое вы можете скачать.

Сведения об ответе

FAriza

03:56, 8th August, 2020

Возможно, вы захотите взглянуть на данные американской статистической Ассоциации data expo - это сведения о рейсах всех коммерческих рейсов в US за последние 20 лет - 120 миллионов записей, 11 гигов данных.

Сведения об ответе

COOL

17:16, 22nd August, 2020

Я проделал некоторую работу с наборами загрузок Викимедиа , которые представляют собой огромные файлы XML. К сожалению, их сервер загрузки в настоящее время испытывает проблемы с дисковым пространством, поэтому многие наборы данных недоступны. Но когда он доступен, весь набор данных английской Википедии с полной историей составляет 2.8 TB (18 GB сжатых).

Сведения об ответе

baggs

15:53, 29th August, 2020

Несколько del.icio.us пользователей (включая меня) помечают страницы, содержащие общедоступные данные, используя тег "publicdata". Вы можете найти этот архив здесь и подписаться на канал RSS для этого тега здесь . Подпишитесь на ленту, и вы увидите постоянный поток интересных наборов данных, которые появляются в интернете.

Не все из этих наборов данных являются большими, но они часто интересны.

Сведения об ответе

COOL

14:43, 16th August, 2020

Возможно, вы захотите посмотреть на генерацию случайных данных для тестирования Fuzz. Это даст вам практически неограниченное количество тестовых данных, и вы с большей вероятностью попадете в крайние случаи.

Может быть, еще немного информации о том, какие тестовые данные вам нужны, в каком формате и для каких типов приложений?

Сведения об ответе

pumpa

21:53, 11th August, 2020

Я не знаю, какова ваша целевая платформа, но если вы разрабатываете против базы данных MSSQL, проверьте Visual Studio для специалистов по базам данных . У него есть очень интересная функция, где он может генерировать данные для вашей схемы, используя план данных, который вы можете определить.

У Redgate также есть инструмент для сбора данных, но я им не пользовался.

Преимущество заключается в том, что вы можете создать план генерации данных и использовать его для заполнения базы данных согласованными большими объемами данных, которые можно настроить для тестирования определенных областей вашей схемы.

Сведения об ответе

SEEYOU

09:06, 29th August, 2020

Возможно, вы также захотите ознакомиться с книгой Аарона Шварца.

С сайта

Это сайт для больших наборов данных и люди, которые их любят: скребки а краулеры, которые их собирают, то же самое академики и гики, которые их обрабатывают, дизайнеры и художники, которые визуализируйте их. Это такое место, где они могут обмениваться советами и хитростями, совместно разрабатывать и обмениваться инструментами, а также начинайте интегрировать свои особенности проекты.

Сведения об ответе

DAAA

16:22, 17th August, 2020

Если вы заинтересованы в персонализации типа данных, которые вы получаете, проверьте Kimono Labs . Это программное обеспечение для очистки веб-страниц, которое вы можете использовать для очистки практически любого сайта бесплатно без ограничения количества строк. Просто установите на нем API (вы можете использовать их генератор url, чтобы очистить кучу URL-адресов сразу), а затем использовать свой личный набор данных как JSON, CSV или RSS.

Сведения о вопросе

NOTtoday

19:50, 26th August, 2020

Теги

большие наборы данных

Я всегда ищу большие наборы данных для тестирования различных типов программ. У кого-нибудь есть предложения?

Сведения об ответе

SILA

15:43, 26th August, 2020

Сведения об ответе

FAriza

03:56, 8th August, 2020

Сведения об ответе

COOL

17:16, 22nd August, 2020

Сведения об ответе

baggs

15:53, 29th August, 2020

Сведения об ответе

COOL

14:43, 16th August, 2020

Сведения об ответе

pumpa

21:53, 11th August, 2020

Сведения об ответе

SEEYOU

09:06, 29th August, 2020

Сведения об ответе

DAAA

16:22, 17th August, 2020

Ответить на вопрос

Как зайти в Даркнет?! 25th January, 01:11 6 0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam 21st March, 17:43 948 0

Очень долго работает Update запрос Oracle 27th January, 09:58 914 0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found 21st January, 18:02 905 0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе? 2nd December, 09:48 938 0

Разработка мобильной кроссплатформенной военной игры 16th July, 17:57 1724 0

период по дням 25th October, 10:44 3955 0

Пишу скрипты для BAS только на запросах 16th September, 02:42 3720 0

Некорректный скрипт для закрытия блока 14th April, 18:33 4613 0

прокидывать exception в блоках try-catch JAVA 11th March, 21:11 4381 0

Помогите пожалуйста решить задачи 24th November, 23:53 6086 0

Не понимаю почему не открывается детальное описание продукта 11th November, 11:51 4351 0

Нужно решить задачу по программированию на массивы 27th October, 18:01 4396 0

Метода Крамера С++ 23rd October, 11:55 4309 0

помогите решить задачу на C++ 22nd October, 17:31 4002 0

Помогите решить задачу на python с codeforces 22nd October, 11:11 4492 0

Python с нуля: полное руководство для начинающих 18th June, 13:58 2599 0

Все вопросы

Сведения о вопросе

19:50, 26th August, 2020

Теги

большие наборы данных

Я всегда ищу большие наборы данных для тестирования различных типов программ. У кого-нибудь есть предложения?

Сведения об ответе

15:43, 26th August, 2020

Сведения об ответе

03:56, 8th August, 2020

Сведения об ответе

17:16, 22nd August, 2020

Сведения об ответе

15:53, 29th August, 2020

Сведения об ответе

14:43, 16th August, 2020

Сведения об ответе

21:53, 11th August, 2020

Сведения об ответе

09:06, 29th August, 2020

Сведения об ответе

16:22, 17th August, 2020

Ответить на вопрос

Как зайти в Даркнет?!

25th January, 01:11

6

0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam

21st March, 17:43

948

0

Очень долго работает Update запрос Oracle

27th January, 09:58

914

0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found

21st January, 18:02

905

0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?

2nd December, 09:48

938

0

Разработка мобильной кроссплатформенной военной игры

16th July, 17:57

1724

0

период по дням

25th October, 10:44

3955

0

Пишу скрипты для BAS только на запросах

16th September, 02:42

3720

0

Некорректный скрипт для закрытия блока

14th April, 18:33

4613

0

прокидывать exception в блоках try-catch JAVA

11th March, 21:11

4381

0

Помогите пожалуйста решить задачи

24th November, 23:53

6086

0

Не понимаю почему не открывается детальное описание продукта

11th November, 11:51

4351

0

Нужно решить задачу по программированию на массивы

27th October, 18:01

4396

0

Метода Крамера С++

23rd October, 11:55

4309

0

помогите решить задачу на C++

22nd October, 17:31

4002

0

Помогите решить задачу на python с codeforces

22nd October, 11:11

4492

0

Python с нуля: полное руководство для начинающих

18th June, 13:58

2599

0