轻松了解hadoop
2021/03/08 15:37 分类: 技术交流 浏览:0
轻松了解hadoop
Hadoop以前是,现在仍然是大数据批处理领域的王者。Hadoop逐渐完善的生态体系,也让Hadoop广泛应用于各行业,本文首先介绍Hadoop的发展史和组成.
一、Hadoop介绍
Hadoop是什么?作用?
Hadoop是一个由Apache基金会所开发的分布式系统基础架构
主要解决海量数据的存储和海量数据的分析计算问题
广义上来说,Hadoop通常是指一个更广泛的概念-----Hadoop生态圈 如下图:
二、hadoop发展历史
Lucene框架是Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎。
2001年年底Lucene成为了Apache基金会的一个子项目。
对于海量数据的场景,Lucene遇到了存储数据困难,检索速度慢等问题。之后对于这些问题,学习和模仿Google解决问题的办法:微型版Nutch。可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文)
GFS-->HDFS
Map-Reduce-->MR
BigTable-->HBase
2003-2004年,Google公开了部分GFS和MapReduce思想细节,以此为基础Doug Cutting等人用了两年的业余时间实现了DFS和MapReduce机制,是Nutch性能飙升。
2005年Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。
2006年3月份,Map-Reduce和NDFS分别被纳入到Hadoop项目中,Hadoop就此正式诞生,标志着大数据时代来临。名字来源于Doug Cutting儿子的玩具大象。
三、Hadoop三大发行版本
Hadoop三大发行版本:Apache、Cloudera、Hortonworks。
Apache版本最原始(最基础)的版本,对于入门学习最好。
Cloudera在大型互联网企业中用的较多。
Hortonworks文档较好。
1、Apache Hadoop
官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/
2、Cloudera Hadoop
官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
3、Hortonworks Hadoop
官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform
四、Hadoop组成
上图 Hadoop1.x与Hadoop2.x的区别
其中HDFS架构概述:
NameNode:存储文件的元数据,如文件名,温江目录结构,文件属性,以及每个文件的块列表和块所在的DataNode等
DataNode:在本地文件系统存储文件块数据,以及块数据的校验和
Secondary NameNode:用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。
YARN架构概述:(注:引用网上图片)
MapReduce架构概述:
MapReduce将计算过程分为两个阶段:Map和Reduce 如图:
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总
赞 0