2019年大数据实战班课程大纲

课程简介

hadoop作为大数据存储与批处理的利器，在数据海量的行业比如：电信、保险、金融、互联网、政府等公司都有大量应用。但是，仅靠hadoop自身还不行，还需要大量的围绕hadoop而生的外围框架如HBase、Hive等，我们课程中都进行了详细并深入原理机制讲解。通过后期的大数据实战项目的训练则具备实际开发经验，完全和公司开发一样。hadoop应用于海量数据的处理，但是在现代快节奏的生活中数据要求实时的海量处理，那么我们在大数据课程中会重点的学习storm和spark课程，既保证了hadoop的技术又保证了现在比较流行和先进的流式海量处理技术。

适学人群

1.毕业或即将毕业的学生；

2.在工作中想转大数据开发的在职人员；

3.在工作中需要用到并快速进入开发状态的人员；

4.为了拓展技术知识面的开发人员或项目经理；

培训周期

10天课程（部分校区可能会根据实际情况有所调整，详情可询咨询老师）

培训方式：周末两天上课（实际培训时间可能因法定节假日等因素发生变化），早9：00-晚20：00

学习费用

详见：源码时代所有校区、所有学科最新开班及学费总览

课程特色

1. 通过自有经典、高效的大数据课程体系让学员更快、更深入的掌握大数据技术及项目实战经验。
2. 由浅入深课程安排，让学员潜移默化全面掌握并能承担大数据开发。
3. 讲师具有大数据从业6年大数据开发，长期在项目一线承担大数据架构和管理工作。
4. 通过课程和讲师结合：让学员能够在课程周期能具有大数据实战能力。

课程内容

大数据开发工程师课程体系
课程名称	课程内容	项目实战
第一阶段：Linux课程
Linux课程	centos linux镜像、桌面环境、shell环境、文件系统操作、网络管理、虚拟机与linux的通信设置、进程管理、软件管理、环境变量配置、ssh管理、防火墙管理、调度管理等。	讲解linux基础操作，讲的是在命令行下进行文件系统的操作，这是hadoop学习的基础，后面的所有视频都是基于linux操作的。鉴于很多学员没有linux基础，特增加该内容，保证零linux基础入门。如果你从没有使用过linux，本节内容可以让你快速入门。
第二阶段：hadoop课程
搭建分布实验环境	核心组成介绍、hdfs/mapreduce体系结构、Hadoop集群结构、详细安装步骤、通过命令行和浏览器观察hadoop等。	本节是最基本的课程，属于入门级别，主要讲述在linux单机上面安装hadoop的分布模式，在linux集群上面安装hadoop集群。对于不熟悉linux的同学，课程中会简单的讲解常用的linux命令。这两种是必须要掌握的。尤其是在hadoop的部署上，一定要使用分布模式，这样学习才有立体概念。
介绍HDFS体系结构及shell、java操作方式	Hdfs/NameNode/DataNode/SecondaryNameNode体系结构、hadoop的HA及和Zookeeper的关系、block的划分原理和存储方式、修改namenode、datanode数据存储位置、操纵hdfs、使用java操作hdfs、rpc机制、hdfs的多种文件及压缩等。	本节是对hadoop核心之一——hdfs的讲解。在本节学习中，我们不仅对理论和操作进行讲解，也会讲解hdfs的源代码，方便部分学员以后对hadoop源码进行修改。通过该节学习我们能够熟练的对hadoop进行配置HA、hdfs的操作及深入原理的分析，同时也会给同学分享独家源码流程图。
介绍MapReduce基本技术	Mapreduce原理及执行的八大步骤、mapreduce实现单词计数功能、覆盖Mapper/Reducer功能、Writable接口、自定义hadoop类型、输入来源处理器、输出来源处理器、读取hdfs文件等。	本节开始对hadoop核心之一——mapreduce的讲解。在本次讲解中，掌握mapreduce执行的详细过程，以实际例子，讲解mapreduce的详细执行过程。还讲解hadoop的序列化机制和数据类型，并使用自定义类型实现广电日志信息的统计。
MapReduce进阶	mapreduce，讲解计数器、combiner、partitioner、排序算法、分组算法等全部知识。	通过这两次课程学习，学员可以把整个mapreduce的执行细节搞清楚，把各个可扩展点学习明白，包括MapReduce配置、优化等技术难点的讲解。
第三阶段：zookeeper课程
zookeeper课程	zookeeper集群环境、命令行操作、java操作、zookeeper和hadoopp生态环境中的应用。	在整个Hadoop生态环境中Zookeeper扮演着不可或缺的角色，在Hadoop的HA、Hbase的Master和regionserver等等都使用了Zookeeper的一致性等特性，虽然在开发中没有和Zookeeper直接打交道，但是理解该课程尤为重要。
第四阶段：HBase课程
HBase课程	Hbase的概述、数据模型、表设计、伪分布式和集群安装、shell操作、JavaAPI操作、数据迁移、数据备份及恢复、Hive使用、集群管理、性能调优。	hbase做为hadoop中列式数据库，在各种行业应用处于不可缺少的组件。本节讲解hbase的分布集群的安装，讲解基本理论和各种操作。我们通过对hbase原理的讲解，以及对各个行业的技术支持。最后讲解hbase如何设计表结构，这是hbase优化的重点，最后讲解hbase的优化配置，以及架构上的设计及优化，避免很多大坑。
第五阶段：Hive课程
Hive课程	Hive的体系结构、安装、导入数据、导出数据、学习分区导入、增量导入、优化导入过程、Hive查询语句、单行函数、聚合函数、表函数、自定义函数、Hive操作普通文件格式、Hive的性能调优、广电项目的日志导入服务器通过Hive进行分析。	本课程的目的就是把Hive框架的边边角角都涉猎到，重点讲解Hive的数据库管理、数据表管理、表连接、查询优化、如何设计Hive表结构。
第六阶段：Sqoop2课程
Sqoop2课程	Sqoop2概述、Sqoop2把mysql中的数据导入到hdfs中、Sqoop2把hdfs中的数据导出到mysql中、Job化Sqoop2。	通过sqoop2将关系数据库与hdfs之间进行双向数据转换的。
第七阶段：Flume课程
Flume课程	Flume是什么、Flume的体系结构、agent配置信息、动态监控文件夹中文件变化、数据导入到hdfs中、通过flume动态监控广电日志文件变化，导入到hdfs中。	Flume是cloudera公布的分布式日志收集系统，在日志服务器中数据收集，统一提交到hdfs或者Kafka，再由后续storm或spark处理。
第八阶段：Kafka课程
Kafka课程	kafka是什么、体系结构、安装、存储策略、发布与订阅、Zookeeper协调管理、和Spark Streaming的综合应用。	Kafka是分布式消息订阅系统，学习kafka内部原理及优化配置，使用方法。
第九阶段：Redis课程
Redis课程	redis特点、与其他数据库的比较、安装redis、使用命令行客户端、字符串类型、散列类型、列表类型、集合类型、使用java访问redis、事务、管道、持久化、优化、主从复制、sentinel高可用、redis3.x集群安装配置。	redis是一款高性能的基于内存的分布式键值数据库，常常在项目中做为缓存及根据特征做为特定业务场景的数据库。
第十阶段：Scala课程
Scala课程	Scala的解释器、变量、常用数据类型、条件表达式、输入输出、循环等控制结构、函数、默认参数、变长参数、数组、变长数组、多维数组、映射、元祖等操作、类、对象、单例对象、伴生对象、扩展类、apply方法、包、引入、继承等概念、特质、操作符、高阶函数、集合。	Scala是学习spark的必备基础语言。
第十一阶段：Spark课程
Spark课程	Spark入门，与Hadoop的比较、环境搭建、完成单词计数、缓存策略、transformation和action、容错机制、核心组件、各种RDD、流计算、与Kafka结合、使用低阶Api控制kafka数据读取。	Spark是一款高性能的分布式计算框架，该框架几乎做为大部分公司应用的首选，所以未来Spark是趋势！
第十二阶段：Spark Mllib课程
Spark Mllib课程	Spark Mllib体系结构介绍、Spark Mllib如何在推荐、分类、聚类领域中使用。	Spark Mllib是数据挖掘和机器学习领域的利器，本课程是带领大家进入到这个领域中。
第十三阶段：CM+CDH集群管理课程
CM+CDH集群管理课程	CM + CDH集群的安装、CM主机及各种服务组件的管理、CDH集群的配置和参数调优、CDH集群HA配置及集群升级、CM的监控管理、集群管理的注意事项。	学习商用Hadoop版本，掌握通过web工具对hadoop集群进行安装、配置、调优、监控各个组件运行情况以及服务器IO、CPU、磁盘等工作情况。

UI	2024/04/20	立即咨询
Java	2024/04/03	立即咨询
新媒体运营短视频直播电商	2024/03/28	立即咨询
产品	2024/02/26	立即咨询
H5	2023/11/25	立即咨询
H5	2023/09/28	立即咨询