028-86261949

当前位置:首页 > 技术交流 > 轻松了解hadoop

轻松了解hadoop

2021/03/08 15:37 分类: 技术交流 浏览:0

轻松了解hadoop 

Hadoop以前是,现在仍然是大数据批处理领域的王者。Hadoop逐渐完善的生态体系,也让Hadoop广泛应用于各行业,本文首先介绍Hadoop的发展史和组成.

一、Hadoop介绍

Hadoop是什么?作用?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构

主要解决海量数据的存储和海量数据的分析计算问题

广义上来说,Hadoop通常是指一个更广泛的概念-----Hadoop生态圈 如下图:

二、hadoop发展历史

Lucene框架是Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎。

2001年年底Lucene成为了Apache基金会的一个子项目。

对于海量数据的场景,Lucene遇到了存储数据困难,检索速度慢等问题。之后对于这些问题,学习和模仿Google解决问题的办法:微型版Nutch。可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文)

GFS-->HDFS

                Map-Reduce-->MR

                BigTable-->HBase

2003-2004年,Google公开了部分GFS和MapReduce思想细节,以此为基础Doug Cutting等人用了两年的业余时间实现了DFS和MapReduce机制,是Nutch性能飙升。

2005年Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。

2006年3月份,Map-Reduce和NDFS分别被纳入到Hadoop项目中,Hadoop就此正式诞生,标志着大数据时代来临。名字来源于Doug Cutting儿子的玩具大象。

三、Hadoop三大发行版本

Hadoop三大发行版本:Apache、Cloudera、Hortonworks。

Apache版本最原始(最基础)的版本,对于入门学习最好。

Cloudera在大型互联网企业中用的较多。

Hortonworks文档较好。

1、Apache Hadoop

官网地址:http://hadoop.apache.org/releases.html

下载地址:https://archive.apache.org/dist/hadoop/common/

 

2、Cloudera Hadoop 

官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html

下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/

 

3、Hortonworks Hadoop

官网地址:https://hortonworks.com/products/data-center/hdp/

下载地址:https://hortonworks.com/downloads/#data-platform

四、Hadoop组成

上图  Hadoop1.x与Hadoop2.x的区别

 

其中HDFS架构概述:

NameNode:存储文件的元数据,如文件名,温江目录结构,文件属性,以及每个文件的块列表和块所在的DataNode等

DataNode:在本地文件系统存储文件块数据,以及块数据的校验和

Secondary NameNode:用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

 

 

 

YARN架构概述:(注:引用网上图片

 

 

MapReduce架构概述:

MapReduce将计算过程分为两个阶段:Map和Reduce  如图:

1)Map阶段并行处理输入数据

2)Reduce阶段对Map结果进行汇总

 

#标签:hadoop,Java