有一定Hadoop基础或对Hive感兴趣的人群。
Hadoop作为一个较通用的海量数据处理平台,每次运算都会需要处理大量数据,我们会在 Hadoop 系统中对数据进行压缩处理来优化磁盘使用率,提高数据在磁盘和网络中的传输速度,从而提高系统处理数据的效率。在使用压缩方式方面,主要考虑压缩速度和压缩文件的可分割性。
学习目标:
1.了解什么是压缩、为什么要使用压缩 ;
2.能够进行常用压缩格式的技术选型 ;
3.掌握压缩在MapReduce中的使用 ;
4.掌握压缩在Hive中的使用 。
学习建议:
测试各种压缩方式在HDFS上的空间占用情况。
下载资料:有