文章

大数据专业课程划水指南 - 大三上篇

【叠甲】以下所有评价是针对课程材料的,与授课水准无关 (因为没听).

操作系统

材料:白给级别的阿里云实验,比较靠背诵的PPT和考题。

教学内容偏向于408,传统课程,偏理论轻实践,没有具体深入操作系统的实现。

本来内容量是巨大的,不过题型非常固定,想考及格其实只需要备好热门知识点(各种调度、信号量、虚拟内存、文件系统)即可,主要区分度在于小题有没有背到和信号量大题吧。

期末卷子流传了,在此就不回忆了。

感觉xz老师人挺好的。不过学有余力者,推荐南京大学蒋炎岩老师的OS(前置课:南大PA)。

数据库

本学期线上考试没有大题,考试题型就那几样,背题就行......据说df老师上课还行。

实验:华为云 (臭名昭著) ,耗时的不是你的能力,还有交互的不友好。(助教carry)

期末卷子流传了,在此就不回忆了。

大数据技术基础

虽然是大文科,但说实话其内容还是比较符合“大数据”的,useful,感兴趣可以听听,不过ozh上课废话有点多就是了,看你喜不喜欢这一风格吧。

实验和课程设计:都是助教carry,如果有linux使用经验,则工作量不大,可以接受。

期末:毕竟是文科,自己划重点就可以了,毕竟自己考前押题命中了70%。不妨放上来给大家图一乐:

一、简答题(35分)-> 实际是10 * 6pts
1. 大数据的4V特性是什么?(4分)
2. 大数据的基本框架有哪几层?(7分)
3. 简述CAP理论和BASE理论?(4分)
4. 强一致性和弱一致性有什么区别?(2分)
5. NoSQL模型有哪几类?(4分)
6. 请举几例常见的计算框架及其适用场景(5分)
7. Spark有哪几种运行模式?(3分)
8. YARN资源分配的单位是什么?(2分)
9. DataFrame和RDD的区别是什么?(2分)
10.Spark的基本计算单元是什么?(2分)
二、论述题(65分) -> 实际是3大题40pts
1. 如何进行数据收集?(2分)
2. KafKa的基础架构包含哪几个组件?各有什么功能?(8分)
3. 简述YARN的恢复机制(3分)
4. HDFS的基本架构包含哪几个组件?各有什么功能?(4分)
5. 简述HDFS的容错机制(3分)
6. ZooKeeper为什么一般采用奇数个节点?(3分)
7. YARN的基本架构含哪几个组件?各有什么功能?(5分)
8. 简述YARN的工作流程(8分)
9. 简述Spark作业的生命周期(3分)
10.流式计算框架Storm包含什么模块?怎么保证可靠性?(5分)
11.KafKa如何通过ZooKeeper实现负载均衡?(4分)
12.行存储和列存储的区别,各有什么优缺点?(4分)
13.HBase包含哪几个组件?各有什么功能?(3分)
14.HBase是怎么组织表的数据存储的?(4分)
15.简述MapReduce的使用场景和计算流程(6分)

没押中的知识点包括:

1. 资源管理系统架构演化
2. MRv1的局限性
3. RDD有哪几类算子
4. Kafka解决了什么问题

基于大数据的机器学习

新课说多点。

极差评,zwa老师把2学分的课上出了10学分的效果:

  • 平时小作业并不是初学者能够轻易写出来的那种,以比较划水的方式写也起码也需要4个小时,而且来了6次。(占比20%,助教给分比较慷慨)

  • 需要2次solo大作业,一次全流程入门,一次模型设计,后者需要较长时间的训练和调优,耗时波动20-50h。(占比8%和30%,助教carry就完事了)

考试内容大部分是选择和判断,主要是些概念,可以刷牛客的机器学习笔试题即可,以保守的方式做答可以捞个及格。期中考过计算决策树和梯度下降法的推导。

我觉得划水的方式是直接开摆,等捞。

算法设计与分析

考前背算法即可,注意不要盲目自信:一些最优子结构性质推导、算法原理是需要记忆的。

如有条件,平时实验建议用 CSP 成绩(300+)抵,挺花时间的。

期末卷子流传了,在此就不回忆了。

Linux 开发环境与应用

比较useful的一门课,不过期末考可能需要碰点运气,因为有些题的坑确实比较tricky,需要背mooc的练习,正则和shell编程需要练一下的。

License:  CC BY 4.0