Как зайти в Даркнет?!
25th January, 01:11
5
0
Как в tkinter из поля ввода Entry получить значение в одну переменную и обновить строку кнопкой, затем получить ещё одно введённое значение и затем сложить их. Ниже пример кода
21st July, 19:00
893
0
Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam
21st March, 17:43
948
0
Очень долго работает Update запрос Oracle
27th January, 09:58
912
0
не могу запустить сервер на tomcat HTTP Status 404 – Not Found
21st January, 18:02
905
0
Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?
2nd December, 09:48
938
0
Разработка мобильной кроссплатформенной военной игры
16th July, 17:57
1724
0
период по дням
25th October, 10:44
3955
0
Пишу скрипты для BAS только на запросах
16th September, 02:42
3720
0
Некорректный скрипт для закрытия блока
14th April, 18:33
4613
0
прокидывать exception в блоках try-catch JAVA
11th March, 21:11
4381
0
Помогите пожалуйста решить задачи
24th November, 23:53
6086
0
Не понимаю почему не открывается детальное описание продукта
11th November, 11:51
4350
0
Нужно решить задачу по программированию на массивы
27th October, 18:01
4396
0
Метода Крамера С++
23rd October, 11:55
4309
0
помогите решить задачу на C++
22nd October, 17:31
4002
0
Помогите решить задачу на python с codeforces
22nd October, 11:11
4492
0
Python с нуля: полное руководство для начинающих
18th June, 13:58
2599
0
Опыт работы с Hadoop?
Кто-нибудь из вас пробовал Hadoop? Может ли он использоваться без распределенной файловой системы, которая идет с ним, в архитектуре общего доступа? Есть ли в этом смысл?
Я также заинтересован в любых результатах работы, которые у вас есть...
Да, вы можете использовать Hadoop в локальной файловой системе, используя файл URIs вместо hdfs URIs в различных местах. Я думаю, что многие примеры, которые приходят с Hadoop, делают это.
Это, вероятно, хорошо, если вы просто хотите узнать, как работает Hadoop и основная парадигма сокращения карт, но вам потребуется несколько машин и распределенная файловая система, чтобы получить реальные преимущества масштабируемости, присущие архитектуре.
Hadoop MapReduce может работать на любом количестве файловых систем или даже более абстрактных источников данных, таких как базы данных. На самом деле существует несколько встроенных классов для поддержки не HDFS файловых систем, таких как S3 и FTP . Вы также можете легко построить свой собственный входной формат, расширив базовый класс InputFormat .
Однако использование HDFS дает определенные преимущества. Самое мощное преимущество заключается в том, что планировщик заданий MapReduce будет пытаться выполнять сопоставления и сокращения на физических машинах, которые хранят записи, нуждающиеся в обработке. Это приводит к повышению производительности boost, поскольку данные могут быть загружены прямо с локального диска, а не переданы по сети, что в зависимости от соединения может быть на порядки медленнее.
Как сказал Джо, вы действительно можете использовать Hadoop без HDFS. Однако пропускная способность зависит от способности кластера выполнять вычисления вблизи места хранения данных. Использование HDFS имеет 2 основных преимущества IMHO: 1) вычисления распределяются более равномерно по всему кластеру (сокращается объем межузловой связи) и 2) кластер в целом более устойчив к сбоям из-за отсутствия данных.
Если ваши данные уже секционированы или тривиально секционируются, вы можете рассмотреть возможность предоставления своей собственной функции секционирования для вашей задачи сокращения карт.
Лучший способ обернуть свою голову вокруг Hadoop-это загрузить его и начать изучать примеры включения. Используйте Linux box/VM, и ваша настройка будет намного проще, чем Mac или Windows. Как только вы почувствуете себя комфортно с образцами и концепциями, начните видеть, как ваше проблемное пространство может быть отображено в рамки.
Пара ресурсов, которые вы можете найти полезными для получения дополнительной информации о Hadoop:
Hadoop видео и презентации на высшем уровне
Hadoop: окончательное руководство: грубая версия сокращений -это один из немногих (только?) книги, доступные на Hadoop в данный момент. Я бы сказал, что это стоит стоимости опции электронной загрузки даже на этом этапе ( книга ~40% завершена ).
да, hadoop можно очень хорошо использовать и без HDFS. HDFS - это просто хранилище по умолчанию для Hadoop. Вы можете заменить HDFS любым другим хранилищем, например базами данных. HadoopDB-это дополнение к hadoop, которое использует базы данных вместо HDFS в качестве источника данных. Погуглите его, вы получите его легко.
Parallel/ распределенные вычисления = SPEED << Hadoop делают это действительно очень легко и дешево, так как вы можете просто использовать кучу товарных машин!!!
За эти годы емкость дискового хранилища значительно возросла, но скорость, с которой Вы читаете данные, не сохранилась. Чем больше у вас данных на одном диске, тем медленнее идет поиск.
Hadoop-это умный вариант подхода "разделяй и властвуй" к решению проблем. По существу, вы разбиваете проблему на более мелкие фрагменты и назначаете их нескольким разным компьютерам для параллельной обработки, чтобы ускорить процесс, а не перегружать одну машину. Каждая машина обрабатывает свое собственное подмножество данных, и результат в конечном итоге объединяется. Hadoop на одном узле не даст вам той скорости, которая имеет значение.
Чтобы увидеть преимущества hadoop, вы должны иметь кластер по крайней мере с 4 - 8 товарными машинами (в зависимости от размера ваших данных) на том же rack.
Вам больше не нужно быть супер-гениальным инженером параллельных систем, чтобы воспользоваться преимуществами распределенных вычислений. Просто знайте hadoop с Hive и ваше добро, чтобы идти.
Да, вы можете использовать локальную файловую систему с помощью file:// при указании входного файла и т. д., И это будет работать также с небольшими наборами данных. Но фактическая мощность hadoop основана на распределенном и совместном механизме. Но Hadoop используется для обработки огромного количества данных. Такой объем данных не может быть обработан одной локальной машиной, а если и будет обработан,то это займет много времени. Поскольку ваш входной файл находится в общем расположении (HDFS), несколько картографов могут читать его одновременно и сокращают время выполнения задания. В двух словах вы можете использовать его с локальной файловой системой, но для удовлетворения бизнес-требований вы должны использовать его с общей файловой системой.
Отличные теоретические ответы выше.
Чтобы изменить вашу файловую систему hadoop на локальную, вы можете изменить ее в конфигурационном файле "core-site.xml", как показано ниже для hadoop версий 2.x.x.
<property>
<name>fs.defaultFS</name>
<value>file:///</value>
</property>
для hadoop версий 1.x.x.
<property>
<name>fs.default.name</name>
<value>file:///</value>
</property>