Я использую hadoop на машине с одним узлом. Когда я запускаю большой файл размером 1 ГБ, а размер разделения составляет 128 МБ. Таким образом, он запускает файл в 8 разделениях, но эти разделения выполняются последовательно, что означает, что одно разделение начинается после завершения другого разделения. Должны ли мы установить какое-либо значение свойства для параллельного запуска разбиений на машине с одним узлом.
1 ответ
Hadoop
предоставляет структуру распределенной обработки (batch
), то есть MapReduce
, которая выполняет задачи параллельно. Но уровень параллелизма зависит от количества машин в вашем кластере. Параллелизм также можно контролировать с помощью input split size
, но, поскольку у вас автономная установка, параллелизм не может быть достигнут.
Похожие вопросы
Новые вопросы
hadoop
Hadoop - это проект с открытым исходным кодом Apache, который предоставляет программное обеспечение для надежных и масштабируемых распределенных вычислений. Ядро состоит из распределенной файловой системы (HDFS) и менеджера ресурсов (YARN). Различные другие проекты с открытым исходным кодом, такие как Apache Hive, используют Apache Hadoop в качестве слоя персистентности.