2019年大数据实战班课程大纲
课程简介
hadoop作为大数据存储与批处理的利器,在数据海量的行业比如:电信、保险、金融、互联网、政府等公司都有大量应用。 但是,仅靠hadoop自身还不行,还需要大量的围绕hadoop而生的外围框架如HBase、Hive等,我们课程中都进行了详细并深入原理机制讲解。 通过后期的大数据实战项目的训练则具备实际开发经验,完全和公司开发一样。hadoop应用于海量数据的处理,但是在现代快节奏的生活中数据要求实时的海量处理,那么我们在大数据课程中会重点的学习storm和spark课程,既保证了hadoop的技术又保证了现在比较流行和先进的流式海量处理技术。
适学人群
1.毕业或即将毕业的学生;
2.在工作中想转大数据开发的在职人员;
3.在工作中需要用到并快速进入开发状态的人员;
4.为了拓展技术知识面的开发人员或项目经理;
培训周期
10天课程(部分校区可能会根据实际情况有所调整,详情可询咨询老师)
培训方式:周末两天上课(实际培训时间可能因法定节假日等因素发生变化),早9:00-晚20:00
学习费用
课程特色
-
1. 通过自有经典、高效的大数据课程体系让学员更快、更深入的掌握大数据技术及项目实战经验。
2. 由浅入深课程安排,让学员潜移默化全面掌握并能承担大数据开发。
3. 讲师具有大数据从业6年大数据开发,长期在项目一线承担大数据架构和管理工作。
4. 通过课程和讲师结合:让学员能够在课程周期能具有大数据实战能力。
课程内容
大数据开发工程师课程体系 | ||
---|---|---|
课程名称 | 课程内容 | 项目实战 |
第一阶段:Linux课程 | ||
Linux课程 | centos linux镜像、桌面环境、shell环境、文件系统操作、网络管理、虚拟机与linux的通信设置、进程管理、软件管理、环境变量配置、ssh管理、防火墙管理、调度管理等。 | 讲解linux基础操作,讲的是在命令行下进行文件系统的操作,这是hadoop学习的基础,后面的所有视频都是基于linux操作的。鉴于很多学员没有linux基础,特增加该内容,保证零linux基础入门。如果你从没有使用过linux,本节内容可以让你快速入门。 |
第二阶段:hadoop课程 | ||
搭建分布实验环境 | 核心组成介绍、hdfs/mapreduce体系结构、Hadoop集群结构、详细安装步骤、通过命令行和浏览器观察hadoop等。 | 本节是最基本的课程,属于入门级别,主要讲述在linux单机上面安装hadoop的分布模式,在linux集群上面安装hadoop集群。对于不熟悉linux的同学,课程中会简单的讲解常用的linux命令。这两种是必须要掌握的。尤其是在hadoop的部署上,一定要使用分布模式,这样学习才有立体概念。 |
介绍HDFS体系结构及shell、java操作方式 | Hdfs/NameNode/DataNode/SecondaryNameNode体系结构、hadoop的HA及和Zookeeper的关系、block的划分原理和存储方式、修改namenode、datanode数据存储位置、操纵hdfs、使用java操作hdfs、rpc机制、hdfs的多种文件及压缩等。 | 本节是对hadoop核心之一——hdfs的讲解。在本节学习中,我们不仅对理论和操作进行讲解,也会讲解hdfs的源代码,方便部分学员以后对hadoop源码进行修改。通过该节学习我们能够熟练的对hadoop进行配置HA、hdfs的操作及深入原理的分析,同时也会给同学分享独家源码流程图。 |
介绍MapReduce基本技术 | Mapreduce原理及执行的八大步骤、mapreduce实现单词计数功能、覆盖Mapper/Reducer功能、Writable接口、自定义hadoop类型、输入来源处理器、输出来源处理器、读取hdfs文件等。 | 本节开始对hadoop核心之一——mapreduce的讲解。在本次讲解中,掌握mapreduce执行的详细过程,以实际例子,讲解mapreduce的详细执行过程。还讲解hadoop的序列化机制和数据类型,并使用自定义类型实现广电日志信息的统计。 |
MapReduce进阶 | mapreduce,讲解计数器、combiner、partitioner、排序算法、分组算法等全部知识。 | 通过这两次课程学习,学员可以把整个mapreduce的执行细节搞清楚,把各个可扩展点学习明白,包括MapReduce配置、优化等技术难点的讲解。 |
第三阶段:zookeeper课程 | ||
zookeeper课程 | zookeeper集群环境、命令行操作、java操作、zookeeper和hadoopp生态环境中的应用。 | 在整个Hadoop生态环境中Zookeeper扮演着不可或缺的角色,在Hadoop的HA、Hbase的Master和regionserver等等都使用了Zookeeper的一致性等特性,虽然在开发中没有和Zookeeper直接打交道,但是理解该课程尤为重要。 |
第四阶段:HBase课程 | ||
HBase课程 | Hbase的概述、数据模型、表设计、伪分布式和集群安装、shell操作、JavaAPI操作、数据迁移、数据备份及恢复、Hive使用、集群管理、性能调优。 | hbase做为hadoop中列式数据库,在各种行业应用处于不可缺少的组件。本节讲解hbase的分布集群的安装,讲解基本理论和各种操作。我们通过对hbase原理的讲解,以及对各个行业的技术支持。最后讲解hbase如何设计表结构,这是hbase优化的重点,最后讲解hbase的优化配置,以及架构上的设计及优化,避免很多大坑。 |
第五阶段:Hive课程 | ||
Hive课程 | Hive的体系结构、安装、导入数据、导出数据、学习分区导入、增量导入、优化导入过程 、Hive查询语句、单行函数、聚合函数、表函数、自定义函数、Hive操作普通文件格式、Hive的性能调优、广电项目的日志导入服务器通过Hive进行分析。 | 本课程的目的就是把Hive框架的边边角角都涉猎到,重点讲解Hive的数据库管理、数据表管理、表连接、查询优化、如何设计Hive表结构。 |
第六阶段:Sqoop2课程 | ||
Sqoop2课程 | Sqoop2概述、Sqoop2把mysql中的数据导入到hdfs中、Sqoop2把hdfs中的数据导出到mysql中、Job化Sqoop2。 | 通过sqoop2将关系数据库与hdfs之间进行双向数据转换的。 |
第七阶段:Flume课程 | ||
Flume课程 | Flume是什么、Flume的体系结构、agent配置信息、动态监控文件夹中文件变化、数据导入到hdfs中、通过flume动态监控广电日志文件变化,导入到hdfs中。 | Flume是cloudera公布的分布式日志收集系统,在日志服务器中数据收集,统一提交到hdfs或者Kafka,再由后续storm或spark处理。 |
第八阶段:Kafka课程 | ||
Kafka课程 | kafka是什么、体系结构、安装、存储策略、发布与订阅、Zookeeper协调管理、和Spark Streaming的综合应用。 | Kafka是分布式消息订阅系统,学习kafka内部原理及优化配置,使用方法。 |
第九阶段:Redis课程 | ||
Redis课程 | redis特点、与其他数据库的比较、安装redis、使用命令行客户端、字符串类型、散列类型、列表类型、集合类型、使用java访问redis、事务、管道、持久化、优化、主从复制、sentinel高可用、redis3.x集群安装配置。 | redis是一款高性能的基于内存的分布式键值数据库,常常在项目中做为缓存及根据特征做为特定业务场景的数据库。 |
第十阶段:Scala课程 | ||
Scala课程 | Scala的解释器、变量、常用数据类型、条件表达式、输入输出、循环等控制结构、函数、默认参数、变长参数、数组、变长数组、多维数组、映射、元祖等操作、类、对象、单例对象、伴生对象、扩展类、apply方法、包、引入、继承等概念、特质、操作符、高阶函数、集合。 | Scala是学习spark的必备基础语言。 |
第十一阶段:Spark课程 | ||
Spark课程 | Spark入门,与Hadoop的比较、环境搭建、完成单词计数、缓存策略、transformation和action、容错机制、核心组件、各种RDD、流计算、与Kafka结合、使用低阶Api控制kafka数据读取。 | Spark是一款高性能的分布式计算框架,该框架几乎做为大部分公司应用的首选,所以未来Spark是趋势! |
第十二阶段:Spark Mllib课程 | ||
Spark Mllib课程 | Spark Mllib体系结构介绍、Spark Mllib如何在推荐、分类、聚类领域中使用。 | Spark Mllib是数据挖掘和机器学习领域的利器,本课程是带领大家进入到这个领域中。 |
第十三阶段:CM+CDH集群管理课程 | ||
CM+CDH集群管理课程 | CM + CDH集群的安装、CM主机及各种服务组件的管理、CDH集群的配置和参数调优、CDH集群HA配置及集群升级、CM的监控管理、集群管理的注意事项。 | 学习商用Hadoop版本,掌握通过web工具对hadoop集群进行安装、配置、调优、监控各个组件运行情况以及服务器IO、CPU、磁盘等工作情况。 |