实习两周了。确实还是比较忙的,永远有做不完的工作。总结一下:
- 每天大部分时间是写 SQL;
- 建议关注一下数据一致性,元数据管理,数据血缘,之前面试被问到过,工作中也多有涉及;
- 《大数据之路》里面的内容就和实际场景相符,还是推荐阅读;
- 调优是软肋,包括 Spark 和 Hive;
- 快速定位问题很慢;
- 需要适应多线程工作,手上的活不止一个;
- 沟通很重要,很多时间都在开会;
后面学习的方向可能是:
- 有空的话回顾一遍《大数据之路》;
- 继续学习 SQL,包括函数等;
- 学习 Spark 调优,不然程序运行太慢,动辄几小时;
- 学习如何查 Spark 的问题,比如 Spark Web UI 如何使用;
- 学习 Spark 的一些参数设置;
- 继续学习 Spark 的原理;
- 面试常考问题还是要继续关注,不管是秋招还是工作都用得上;
- 大数据基础知识和实践结合。
目前总结下来是这些工作,后面发现问题会调整方向。
欢迎关注。



