大数据技术区||Hadoop是什么？Hadoop的起源

新闻动态

大数据技术区||Hadoop是什么？Hadoop的起源

发布者：唯众布时间：2020-09-17 10:17:28 点击量：

1.Hadoop是什么

Hadoop是一个开源的分布式计算平台，它不是指一个具体框架或者组件。Hadoop采用Java语言开发，是对Google的GFS、MapReduce和Bigtable等核心技术的开源实现，是以Hadoop分布式文件系统HDFS ( Hadoop Distributed File System)和MapReduce为核心，以及-些支持Hadoop的其他子项目的通用工具组成的分布式计算系统。Hadoop是目前最流行的大数据软件框架，主要用于大数据的分布式存储和处理。由Apache软件基金会支持。

2.Hadoop的起源

Hadoop最早起源于Nutch。Nutch是基于Java实现的开源搜索引擎，2002年由Doug Cutting领衔的Yahoo!团队开发。

Hadoop的灵感来自Google发表的3篇论文，即GFS（Google的分布式文件系统Google File System）、MapReduce（Google的MapReduce开源分布式并行计算框架）和BigTable（一个大型的分布式数据库）。

2003年Google在SOSP（操作系统原理会议）上发表了有关GFS（Google File System）分布式存储系统的论文。2004年Google在OSDI（操作系统设计与实现会议）上发表了有关MapReduce分布式处理技术的论文。Cutting意识到，GFS可以解决在网络抓取和索引过程中产生的超大文件存储需求的问题，MapReduce框架可用于处理海量网页的索引问题。但是，Google仅仅提供了思想，并没有开源代码，于是，在2004年Nutch项目组将这两个系统复制重建，形成了Hadoop，成为真正可扩展应用于Web数据处理的技术。

Hadoop这个词是Hadoop之父Doug Cutting用他儿子的毛绒玩具象命名而生造出来的。

3. Hadoop发展简史

2003年10月Google分布式文件系统的论文发表。

2004年最初的版本由Doug Cutting和Mike Cafarella开始实施。

2004年12月MapReduce计算框架的论文发表。

2005年作为Lucene的子项目Nutch的一部分正式引入Apache基金会。

2006年2月Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。

2006年4月Hadoop 0.1 版正式发布。

2008年— 淘宝开始投入研究基于Hadoop的系统——“云梯”。云梯总容量约9.3PB，共有1100台机器，每天处理18000道作业，扫描500TB数据。

2008年5月Hadoop用910个节点在 209 秒内排序1TB数据，创造世界纪录。

2008年9月Hive成为Hadoop的子项目。

2009年3月Cloudera推出CDH。

2009年7月Hadoop Core项目更名为Hadoop Common。

2009年7月MapReduce 和 HDFS成为Hadoop项目的独立子项目。

2009年7月Avro 和 Chukwa 成为Hadoop新的子项目。

2010年5月Avro脱离Hadoop项目，成为Apache顶级项目。

2010年5月HBase脱离Hadoop项目，成为Apache顶级项目。

2010年5月IBM提供了基于Hadoop 的大数据分析软件——InfoSphere BigInsights，包括基础版和企业版。

2010年9月Hive脱离Hadoop，成为Apache顶级项目。

2010年9月Pig脱离Hadoop，成为Apache顶级项目。

2011年1月ZooKeeper 脱离Hadoop，成为Apache顶级项目。

2011年7月Yahoo!和硅谷风险投资公司 Benchmark Capital创建了Hortonworks 公司，旨在让Hadoop更加可靠，并让企业用户更容易安装、管理和使用Hadoop。

2011年8月Dell与Cloudera联合推出Hadoop解决方案——Cloudera Enterprise。Cloudera Enterprise基于Dell PowerEdge C2100机架服务器以及Dell PowerConnect 6248以太网交换机。

2011年12月Hadoop1.0.0版正式发布。

2012年5月Hadoop2.0 Alpha版发布。

2014年2月Hadoop2.3.0发布。

2014年4月Hadoop2.4.0发布。

2014年8月Hadoop2.5.0发布。

2014年11月Hadoop2.6.0发布。

2015年7月Hadoop2.7.0发布。

2017年3月Hadoop2.8.0发布。

2017年12月Apache Hadoop3.0.0 GA 版本正式发布。

唯众大数据实训平台助你快速掌握大数据关键技术点

大数据实训平台简介

唯众大数据实训平台系统是针对IT类实验室现状开发的一套虚拟化网络创新教学实训平台，它采用B/S的软件架构，基于web浏览器访问，以少量硬件设备完成大量实训集群的构建，可提供大量学生进行IT类相关实训。每个学生的实训环境互相隔离、实训过程互不干扰。同一页面中既包含了各类实操环境，也包含了每个实验对应的实验文档，省去了在同页面间来回切换的麻烦，实验过程采用分布式设计，配合大数据分析模块，实时监控每个步骤的学习情况，方便学生高效的完成实训操作的同时，大幅节省了硬件成本和人力成本的投入。

大数据实训平台特点

配置灵活

支持集群部署，支持集群内管理云主机，提供高可用特性，自动生成IP池，内置DHCP服务器，自动为云主机分配IP地址
支持自定义镜像上传，可满足多种格式镜像上传及管理功能
支持批量创建/删除多个云主机，支持云主机基本生命周期控制，
支持自定义云主机配置管理

操作简便

同一页面中既包含了各类实操环境，也包含了每个实验对应的实验文档，省去了在同页面间来回切换的麻烦。
学生在实验过程中可以根据学习内容记录学习笔记，并查看他人笔记
学生在实验过程中可以将自己遇到的问题进行提问或回答其他同学的问题，老师或其他同学可对起问题进行回答
学生在实验结束后在线提交实验报告，并查看成绩以及评语

大数据实训资源

大数据之Linux基础

大数据之Python基础

大数据之MySQL基础

大数据之Java程序设计

大数据之jQuery数据处理

大数据之可视化

大数据之JavaWeb应用程序设计

大数据之JavaWeb图书管理系统项目

大数据之JavaWeb试题库管理系统项目

大数据之环境搭建

Hadoop离线大数据网站点击流日志分析

Hadoop离线大数据学情分析系统开发

Spark Streming医疗实时审核系统开发

Spark用户人群画像系统开发

上一篇：大数据技术区||大数据、云计算和物联网三者之间的关系

下一篇：大数据技术区||Hadoop的设计思想和特性

新闻动态

联系方式

新闻动态