大数据系统入门指南

sql统计,排序,join(大表之间join,大小表之间join等性能分析及优化),分组聚合操作数据倾斜及解决方案。
hive的外部表,分区表,分同表的使用等。
四by:sort by ,order by,cluster by,distribute by等

1. Hadoop

参考资料:《Hadoop实战》、《Hadoop 权威指南》

  • 知道MapReduce大致流程,Map, Shuffle, Reduce
  • 知道Combiner, partition作用,设置Compression
  • 搭建Hadoop集群,Master/Slave 都运行那些服务 NameNode, DataNode, JobTracker, TaskTracker
  • Pig, Hive 简单语法,UDF写法
  • 知道 HDFS2 HA,Snapshot,ResourceManager,ApplicationsManager,NodeManager
  • Hadoop 参数调优,性能优化,Cluster level: JVM, Map/Reduce Slots, Job level: Reducer #, Memory, use Combiner? use Compression?

2. Spark

参考资料:《Spark快速大数据分析》

  • Spark集群安装,执行第一个Spark案例程序(求PI)
  • RDD编程API
  • RDD的依赖关系,缓存
  • DataFrame常用操作
  • 编写Spark SQL查询程序
  • DStream相关操作

3. Flink

参考资料:《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》

4. 其他系统

参考资料:《设计数据密集型应用(影印版)(英文版)》

  • Kafka,参考《Kafka技术内幕:图文详解Kafka源码设计与实现》
  • Sqoop,数据导入导出
  • Flume,搭建采集nginx日志案例
  • Storm
  • HBase 搭建,Region server, key如何选取?
  • kudu
  • Druid
  • Kylin

5. OLAP系统

  • Cloudera Impala
  • Apache Drill
  • Presto

参考:
三个月大数据工程师学习计划

https://github.com/Thpffcj/BigData-Getting-Started

打赏作者
提交看法

抢沙发

还没有评论,你可以来抢沙发