Сведения о вопросе

Fhohir

05:51, 13th August, 2020

Опыт работы с Hadoop?

Просмотров: 504 Ответов: 9

Кто-нибудь из вас пробовал Hadoop? Может ли он использоваться без распределенной файловой системы, которая идет с ним, в архитектуре общего доступа? Есть ли в этом смысл?

Я также заинтересован в любых результатах работы, которые у вас есть...

Сведения об ответе

piter

14:28, 28th August, 2020

Да, вы можете использовать Hadoop в локальной файловой системе, используя файл URIs вместо hdfs URIs в различных местах. Я думаю, что многие примеры, которые приходят с Hadoop, делают это.

Это, вероятно, хорошо, если вы просто хотите узнать, как работает Hadoop и основная парадигма сокращения карт, но вам потребуется несколько машин и распределенная файловая система, чтобы получить реальные преимущества масштабируемости, присущие архитектуре.

Сведения об ответе

PIRLO

12:02, 8th August, 2020

Hadoop MapReduce может работать на любом количестве файловых систем или даже более абстрактных источников данных, таких как базы данных. На самом деле существует несколько встроенных классов для поддержки не HDFS файловых систем, таких как S3 и FTP . Вы также можете легко построить свой собственный входной формат, расширив базовый класс InputFormat .

Однако использование HDFS дает определенные преимущества. Самое мощное преимущество заключается в том, что планировщик заданий MapReduce будет пытаться выполнять сопоставления и сокращения на физических машинах, которые хранят записи, нуждающиеся в обработке. Это приводит к повышению производительности boost, поскольку данные могут быть загружены прямо с локального диска, а не переданы по сети, что в зависимости от соединения может быть на порядки медленнее.

Сведения об ответе

KOMP

03:45, 26th August, 2020

Как сказал Джо, вы действительно можете использовать Hadoop без HDFS. Однако пропускная способность зависит от способности кластера выполнять вычисления вблизи места хранения данных. Использование HDFS имеет 2 основных преимущества IMHO: 1) вычисления распределяются более равномерно по всему кластеру (сокращается объем межузловой связи) и 2) кластер в целом более устойчив к сбоям из-за отсутствия данных.

Если ваши данные уже секционированы или тривиально секционируются, вы можете рассмотреть возможность предоставления своей собственной функции секционирования для вашей задачи сокращения карт.

Сведения об ответе

park

18:35, 20th August, 2020

Лучший способ обернуть свою голову вокруг Hadoop-это загрузить его и начать изучать примеры включения. Используйте Linux box/VM, и ваша настройка будет намного проще, чем Mac или Windows. Как только вы почувствуете себя комфортно с образцами и концепциями, начните видеть, как ваше проблемное пространство может быть отображено в рамки.

Пара ресурсов, которые вы можете найти полезными для получения дополнительной информации о Hadoop:

Hadoop видео и презентации на высшем уровне

Hadoop: окончательное руководство: грубая версия сокращений -это один из немногих (только?) книги, доступные на Hadoop в данный момент. Я бы сказал, что это стоит стоимости опции электронной загрузки даже на этом этапе ( книга ~40% завершена ).

Сведения об ответе

lats

02:06, 24th August, 2020

Если вы просто промокаете ноги, начните с загрузки CDH4 &, запустив его. Вы можете легко установить его на локальную виртуальную машину и запустить в "pseudo-distributed mode", который точно имитирует работу в реальном кластере.

Сведения об ответе

VCe znayu

17:14, 23rd August, 2020

да, hadoop можно очень хорошо использовать и без HDFS. HDFS - это просто хранилище по умолчанию для Hadoop. Вы можете заменить HDFS любым другим хранилищем, например базами данных. HadoopDB-это дополнение к hadoop, которое использует базы данных вместо HDFS в качестве источника данных. Погуглите его, вы получите его легко.

Сведения об ответе

dumai

01:31, 26th August, 2020

Parallel/ распределенные вычисления = SPEED << Hadoop делают это действительно очень легко и дешево, так как вы можете просто использовать кучу товарных машин!!!

За эти годы емкость дискового хранилища значительно возросла, но скорость, с которой Вы читаете данные, не сохранилась. Чем больше у вас данных на одном диске, тем медленнее идет поиск.

Hadoop-это умный вариант подхода "разделяй и властвуй" к решению проблем. По существу, вы разбиваете проблему на более мелкие фрагменты и назначаете их нескольким разным компьютерам для параллельной обработки, чтобы ускорить процесс, а не перегружать одну машину. Каждая машина обрабатывает свое собственное подмножество данных, и результат в конечном итоге объединяется. Hadoop на одном узле не даст вам той скорости, которая имеет значение.

Чтобы увидеть преимущества hadoop, вы должны иметь кластер по крайней мере с 4 - 8 товарными машинами (в зависимости от размера ваших данных) на том же rack.

Вам больше не нужно быть супер-гениальным инженером параллельных систем, чтобы воспользоваться преимуществами распределенных вычислений. Просто знайте hadoop с Hive и ваше добро, чтобы идти.

Сведения об ответе

pumpa

16:25, 11th August, 2020

Да, вы можете использовать локальную файловую систему с помощью file:// при указании входного файла и т. д., И это будет работать также с небольшими наборами данных. Но фактическая мощность hadoop основана на распределенном и совместном механизме. Но Hadoop используется для обработки огромного количества данных. Такой объем данных не может быть обработан одной локальной машиной, а если и будет обработан,то это займет много времени. Поскольку ваш входной файл находится в общем расположении (HDFS), несколько картографов могут читать его одновременно и сокращают время выполнения задания. В двух словах вы можете использовать его с локальной файловой системой, но для удовлетворения бизнес-требований вы должны использовать его с общей файловой системой.

Сведения об ответе

lool

15:50, 18th August, 2020

Отличные теоретические ответы выше.

Чтобы изменить вашу файловую систему hadoop на локальную, вы можете изменить ее в конфигурационном файле "core-site.xml", как показано ниже для hadoop версий 2.x.x.

 <property>
    <name>fs.defaultFS</name>
    <value>file:///</value>
  </property>

для hadoop версий 1.x.x.

 <property>
    <name>fs.default.name</name>
    <value>file:///</value>
  </property>

Сведения о вопросе

Fhohir

05:51, 13th August, 2020

Теги

Опыт работы с Hadoop?

Сведения об ответе

piter

14:28, 28th August, 2020

Сведения об ответе

PIRLO

12:02, 8th August, 2020

Сведения об ответе

KOMP

03:45, 26th August, 2020

Сведения об ответе

park

18:35, 20th August, 2020

Сведения об ответе

lats

02:06, 24th August, 2020

Сведения об ответе

VCe znayu

17:14, 23rd August, 2020

Сведения об ответе

dumai

01:31, 26th August, 2020

Сведения об ответе

pumpa

16:25, 11th August, 2020

Сведения об ответе

lool

15:50, 18th August, 2020

Ответить на вопрос

Как зайти в Даркнет?! 25th January, 01:11 5 0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam 21st March, 17:43 948 0

Очень долго работает Update запрос Oracle 27th January, 09:58 912 0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found 21st January, 18:02 905 0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе? 2nd December, 09:48 938 0

Разработка мобильной кроссплатформенной военной игры 16th July, 17:57 1724 0

период по дням 25th October, 10:44 3955 0

Пишу скрипты для BAS только на запросах 16th September, 02:42 3720 0

Некорректный скрипт для закрытия блока 14th April, 18:33 4613 0

прокидывать exception в блоках try-catch JAVA 11th March, 21:11 4381 0

Помогите пожалуйста решить задачи 24th November, 23:53 6086 0

Не понимаю почему не открывается детальное описание продукта 11th November, 11:51 4350 0

Нужно решить задачу по программированию на массивы 27th October, 18:01 4396 0

Метода Крамера С++ 23rd October, 11:55 4309 0

помогите решить задачу на C++ 22nd October, 17:31 4002 0

Помогите решить задачу на python с codeforces 22nd October, 11:11 4492 0

Python с нуля: полное руководство для начинающих 18th June, 13:58 2599 0

Все вопросы

Сведения о вопросе

05:51, 13th August, 2020

Теги

Опыт работы с Hadoop?

Сведения об ответе

14:28, 28th August, 2020

Сведения об ответе

12:02, 8th August, 2020

Сведения об ответе

03:45, 26th August, 2020

Сведения об ответе

18:35, 20th August, 2020

Сведения об ответе

02:06, 24th August, 2020

Сведения об ответе

17:14, 23rd August, 2020

Сведения об ответе

01:31, 26th August, 2020

Сведения об ответе

16:25, 11th August, 2020

Сведения об ответе

15:50, 18th August, 2020

Ответить на вопрос

Как зайти в Даркнет?!

25th January, 01:11

5

0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam

21st March, 17:43

948

0

Очень долго работает Update запрос Oracle

27th January, 09:58

912

0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found

21st January, 18:02

905

0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?

2nd December, 09:48

938

0

Разработка мобильной кроссплатформенной военной игры

16th July, 17:57

1724

0

период по дням

25th October, 10:44

3955

0

Пишу скрипты для BAS только на запросах

16th September, 02:42

3720

0

Некорректный скрипт для закрытия блока

14th April, 18:33

4613

0

прокидывать exception в блоках try-catch JAVA

11th March, 21:11

4381

0

Помогите пожалуйста решить задачи

24th November, 23:53

6086

0

Не понимаю почему не открывается детальное описание продукта

11th November, 11:51

4350

0

Нужно решить задачу по программированию на массивы

27th October, 18:01

4396

0

Метода Крамера С++

23rd October, 11:55

4309

0

помогите решить задачу на C++

22nd October, 17:31

4002

0

Помогите решить задачу на python с codeforces

22nd October, 11:11

4492

0

Python с нуля: полное руководство для начинающих

18th June, 13:58

2599

0