Сведения о вопросе

Fhohir

05:51, 13th August, 2020

Теги

Опыт работы с Hadoop?

Просмотров: 504   Ответов: 9

Кто-нибудь из вас пробовал Hadoop? Может ли он использоваться без распределенной файловой системы, которая идет с ним, в архитектуре общего доступа? Есть ли в этом смысл?

Я также заинтересован в любых результатах работы, которые у вас есть...



  Сведения об ответе

piter

14:28, 28th August, 2020

Да, вы можете использовать Hadoop в локальной файловой системе, используя файл URIs вместо hdfs URIs в различных местах. Я думаю, что многие примеры, которые приходят с Hadoop, делают это.

Это, вероятно, хорошо, если вы просто хотите узнать, как работает Hadoop и основная парадигма сокращения карт, но вам потребуется несколько машин и распределенная файловая система, чтобы получить реальные преимущества масштабируемости, присущие архитектуре.


  Сведения об ответе

PIRLO

12:02, 8th August, 2020

Hadoop MapReduce может работать на любом количестве файловых систем или даже более абстрактных источников данных, таких как базы данных. На самом деле существует несколько встроенных классов для поддержки не HDFS файловых систем, таких как S3 и FTP . Вы также можете легко построить свой собственный входной формат, расширив базовый класс InputFormat .

Однако использование HDFS дает определенные преимущества. Самое мощное преимущество заключается в том, что планировщик заданий MapReduce будет пытаться выполнять сопоставления и сокращения на физических машинах, которые хранят записи, нуждающиеся в обработке. Это приводит к повышению производительности boost, поскольку данные могут быть загружены прямо с локального диска, а не переданы по сети, что в зависимости от соединения может быть на порядки медленнее.


  Сведения об ответе

KOMP

03:45, 26th August, 2020

Как сказал Джо, вы действительно можете использовать Hadoop без HDFS. Однако пропускная способность зависит от способности кластера выполнять вычисления вблизи места хранения данных. Использование HDFS имеет 2 основных преимущества IMHO: 1) вычисления распределяются более равномерно по всему кластеру (сокращается объем межузловой связи) и 2) кластер в целом более устойчив к сбоям из-за отсутствия данных.

Если ваши данные уже секционированы или тривиально секционируются, вы можете рассмотреть возможность предоставления своей собственной функции секционирования для вашей задачи сокращения карт.


  Сведения об ответе

park

18:35, 20th August, 2020

Лучший способ обернуть свою голову вокруг Hadoop-это загрузить его и начать изучать примеры включения. Используйте Linux box/VM, и ваша настройка будет намного проще, чем Mac или Windows. Как только вы почувствуете себя комфортно с образцами и концепциями, начните видеть, как ваше проблемное пространство может быть отображено в рамки.

Пара ресурсов, которые вы можете найти полезными для получения дополнительной информации о Hadoop:

Hadoop видео и презентации на высшем уровне

Hadoop: окончательное руководство: грубая версия сокращений -это один из немногих (только?) книги, доступные на Hadoop в данный момент. Я бы сказал, что это стоит стоимости опции электронной загрузки даже на этом этапе ( книга ~40% завершена ).

Hadoop: The Definitive Guide: Rough Cuts Version


  Сведения об ответе

lats

02:06, 24th August, 2020

Если вы просто промокаете ноги, начните с загрузки CDH4 &, запустив его. Вы можете легко установить его на локальную виртуальную машину и запустить в "pseudo-distributed mode", который точно имитирует работу в реальном кластере.


  Сведения об ответе

VCe znayu

17:14, 23rd August, 2020

да, hadoop можно очень хорошо использовать и без HDFS. HDFS - это просто хранилище по умолчанию для Hadoop. Вы можете заменить HDFS любым другим хранилищем, например базами данных. HadoopDB-это дополнение к hadoop, которое использует базы данных вместо HDFS в качестве источника данных. Погуглите его, вы получите его легко.


  Сведения об ответе

dumai

01:31, 26th August, 2020

Parallel/ распределенные вычисления = SPEED << Hadoop делают это действительно очень легко и дешево, так как вы можете просто использовать кучу товарных машин!!!

За эти годы емкость дискового хранилища значительно возросла, но скорость, с которой Вы читаете данные, не сохранилась. Чем больше у вас данных на одном диске, тем медленнее идет поиск.

Hadoop-это умный вариант подхода "разделяй и властвуй" к решению проблем. По существу, вы разбиваете проблему на более мелкие фрагменты и назначаете их нескольким разным компьютерам для параллельной обработки, чтобы ускорить процесс, а не перегружать одну машину. Каждая машина обрабатывает свое собственное подмножество данных, и результат в конечном итоге объединяется. Hadoop на одном узле не даст вам той скорости, которая имеет значение.

Чтобы увидеть преимущества hadoop, вы должны иметь кластер по крайней мере с 4 - 8 товарными машинами (в зависимости от размера ваших данных) на том же rack.

Вам больше не нужно быть супер-гениальным инженером параллельных систем, чтобы воспользоваться преимуществами распределенных вычислений. Просто знайте hadoop с Hive и ваше добро, чтобы идти.


  Сведения об ответе

pumpa

16:25, 11th August, 2020

Да, вы можете использовать локальную файловую систему с помощью file:// при указании входного файла и т. д., И это будет работать также с небольшими наборами данных. Но фактическая мощность hadoop основана на распределенном и совместном механизме. Но Hadoop используется для обработки огромного количества данных. Такой объем данных не может быть обработан одной локальной машиной, а если и будет обработан,то это займет много времени. Поскольку ваш входной файл находится в общем расположении (HDFS), несколько картографов могут читать его одновременно и сокращают время выполнения задания. В двух словах вы можете использовать его с локальной файловой системой, но для удовлетворения бизнес-требований вы должны использовать его с общей файловой системой.


  Сведения об ответе

lool

15:50, 18th August, 2020

Отличные теоретические ответы выше.

Чтобы изменить вашу файловую систему hadoop на локальную, вы можете изменить ее в конфигурационном файле "core-site.xml", как показано ниже для hadoop версий 2.x.x.

 <property>
    <name>fs.defaultFS</name>
    <value>file:///</value>
  </property>

для hadoop версий 1.x.x.

 <property>
    <name>fs.default.name</name>
    <value>file:///</value>
  </property>


Ответить на вопрос

Чтобы ответить на вопрос вам нужно войти в систему или зарегистрироваться