Я работаю над аспектом хранения Hadoop и изучаю, как файлы ORC хранятся в блоке HDFS.
1 ответ
В HDFS файл состоит из блоков. Один блок не может содержать несколько файлов.
Для двух файлов ORC, каждый размером 1 МБ, потребуется блок на файл.
Если вас беспокоит фактическое дисковое пространство, которое оно может занять, оно будет составлять всего 2 МБ. Хотя блоки составляют 128 МБ, дисковое хранилище определяется размером фактического файла / блока.
Похожие вопросы
Новые вопросы
hadoop
Hadoop - это проект с открытым исходным кодом Apache, который предоставляет программное обеспечение для надежных и масштабируемых распределенных вычислений. Ядро состоит из распределенной файловой системы (HDFS) и менеджера ресурсов (YARN). Различные другие проекты с открытым исходным кодом, такие как Apache Hive, используют Apache Hadoop в качестве слоя персистентности.