大数据系统入门指南

发布时间：2018 年 05 月 23 日/作者：chao/

sql统计，排序，join（大表之间join，大小表之间join等性能分析及优化），分组聚合操作数据倾斜及解决方案。

hive的外部表，分区表，分同表的使用等。

四by：sort by ，order by，cluster by，distribute by等

1. Hadoop

参考资料：《Hadoop实战》、《Hadoop 权威指南》

知道MapReduce大致流程，Map, Shuffle, Reduce
知道Combiner, partition作用，设置Compression
搭建Hadoop集群，Master/Slave 都运行那些服务 NameNode, DataNode, JobTracker, TaskTracker
Pig, Hive 简单语法，UDF写法
知道 HDFS2 HA，Snapshot，ResourceManager，ApplicationsManager，NodeManager
Hadoop 参数调优，性能优化，Cluster level: JVM, Map/Reduce Slots, Job level: Reducer #, Memory, use Combiner? use Compression?

2. Spark

参考资料：《Spark快速大数据分析》

Spark集群安装，执行第一个Spark案例程序（求PI）
RDD编程API
RDD的依赖关系，缓存
DataFrame常用操作
编写Spark SQL查询程序
DStream相关操作

3. Flink

参考资料：《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》

4. 其他系统

参考资料：《设计数据密集型应用(影印版)(英文版)》

Kafka，参考《Kafka技术内幕:图文详解Kafka源码设计与实现》
Sqoop，数据导入导出
Flume，搭建采集nginx日志案例
Storm
HBase 搭建，Region server, key如何选取?
kudu
Druid
Kylin

5. OLAP系统

Cloudera Impala
Apache Drill
Presto

参考：
三个月大数据工程师学习计划

https://github.com/Thpffcj/BigData-Getting-Started

打赏作者

抢沙发

还没有评论，你可以来抢沙发