有一定Hadoop基础或对Hive感兴趣的人群。
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
学习目标:
1.了解Sqoop是什么、能做什么及架构 ;
2.能够进行Sqoop环境部署 ;
3.掌握Sqoop在生产中的使用 ;
4.能够使用Sqoop进行ETL操作 。
学习建议:
1.Sqoop脚本的使用可以参考sqoop help或者官网介绍;
2.可以尝试使用MapReduce作业来完成从RDBMS到HDFS的导入操作,这样可以加深数据导入导出操作底层原理;
3.尝试搭建Azkaban或者Oozie调度平台来对ETL处理流程进行调度。
下载资料:有