有一定Hadoop基础或对Hive感兴趣的人群。
介绍大数据离线批处理(特别是针对各种日志分析的场景)的处理流程和系统架构,通过一个比较复杂的案例手把手带大家实现,使得大家能够了解离线批处理有更深刻的认识。
学习目标:
1.了解用户行为日志分析的目的 ;
2.掌握离线批数据处理流程和系统架构 ;
3.掌握整合Hive及周边框架完成离线批处理操作;
4.掌握Hive常用优化方案 。
学习建议:
1.查阅资料总结常见场景下导致数据倾斜的原因 ;
2.总结常用数据倾斜的解决方案:join、group by、distinct等。
下载资料:有