sql统计,排序,join(大表之间join,大小表之间join等性能分析及优化),分组聚合操作数据倾斜及解决方案。
hive的外部表,分区表,分同表的使用等。
四by:sort by ,order by,cluster by,distribute by等
1. Hadoop
参考资料:《Hadoop实战》、《Hadoop 权威指南》
- 知道MapReduce大致流程,Map, Shuffle, Reduce
- 知道Combiner, partition作用,设置Compression
- 搭建Hadoop集群,Master/Slave 都运行那些服务 NameNode, DataNode, JobTracker, TaskTracker
- Pig, Hive 简单语法,UDF写法
- 知道 HDFS2 HA,Snapshot,ResourceManager,ApplicationsManager,NodeManager
- Hadoop 参数调优,性能优化,Cluster level: JVM, Map/Reduce Slots, Job level: Reducer #, Memory, use Combiner? use Compression?
2. Spark
参考资料:《Spark快速大数据分析》
- Spark集群安装,执行第一个Spark案例程序(求PI)
- RDD编程API
- RDD的依赖关系,缓存
- DataFrame常用操作
- 编写Spark SQL查询程序
- DStream相关操作
3. Flink
参考资料:《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》
4. 其他系统
参考资料:《设计数据密集型应用(影印版)(英文版)》
- Kafka,参考《Kafka技术内幕:图文详解Kafka源码设计与实现》
- Sqoop,数据导入导出
- Flume,搭建采集nginx日志案例
- Storm
- HBase 搭建,Region server, key如何选取?
- kudu
- Druid
- Kylin
5. OLAP系统
- Cloudera Impala
- Apache Drill
- Presto
参考:
三个月大数据工程师学习计划
https://github.com/Thpffcj/BigData-Getting-Started
打赏作者
抢沙发
还没有评论,你可以来抢沙发