大数据技术区||Hadoop的设计思想和特性
发布者:唯众
布时间:2020-09-17 10:29:01
点击量:
1. Hadoop的设计思想
Hadoop的所有组件都基于高容错性、高并发性和高可扩展性的理念设计的。
(1)通过使用低廉的普通机器组成的服务器集群(总数可达数千个节点)来分发和处理大数据,实现高性能、低成本的目标。
(2)通过数据冗余实现高容错。通过自动维护数据的多份副本(默认是3个),并且在任务失败后能自动地重新部署计算任务,极度减少服务器节点失效导致的工作不能正常进行的问题,实现工作可靠性和弹性扩容能力。
(3)并行化处理(MR)。采用并行执行机制,使得数据所在的节点同时存储和处理海量数据。
(4)移动计算而不是移动数据,即以数据为中心,而不是以计算为中心。海量数据的情况下移动计算比移动数据更高效;文件不会被频繁地写入和修改;机柜内的数据传输速度大于机柜间的数据传输速度。
2.Hadoop的特性
Hadoop具有以下几个方面的特性:
(1)高效性(Efficient)。通过并发数据,Hadoop可以在节点之间动态并行地移动数据,使得速度非常快。
(2)高可靠性(Rellable)。
(3)高可扩展性(Scalable)。Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计个节点中。
(4)高容错性。能自动维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务。
(5)成本低(Economical)。Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。
(6)运行在Linux平台上。
(7)支持多种编程语言。
由于Hadoop 具有上述优良的特性,因此它一出现就受到众多大公司的青睐,同时也引起了研究界的普遍关注。到目前为止,Hadoop 技术在互联网领域已经得到了广泛的运用,如淘宝的Hadoop系统用于存储并处理电子商务交易的相关数据,百度用Hadoop处理每周200TB的数据,从而进行搜索日志分析和网页数据挖掘工作。Yahoo使用4000个节点的Hadoop集群来支持广告系统和Web 搜索的研究;Facebook 使用1000个节点的集群运行Hadoop,存储日志数据,支持其上的数据分析和机器学习等。
唯众大数据实训平台助你快速掌握大数据关键技术点
大数据实训平台简介
唯众大数据实训平台系统是针对IT类实验室现状开发的一套虚拟化网络创新教学实训平台,它采用B/S的软件架构,基于web浏览器访问,以少量硬件设备完成大量实训集群的构建,可提供大量学生进行IT类相关实训。每个学生的实训环境互相隔离、实训过程互不干扰。同一页面中既包含了各类实操环境,也包含了每个实验对应的实验文档,省去了在同页面间来回切换的麻烦,实验过程采用分布式设计,配合大数据分析模块,实时监控每个步骤的学习情况,方便学生高效的完成实训操作的同时,大幅节省了硬件成本和人力成本的投入。
大数据实训平台特点
配置灵活
- 支持集群部署,支持集群内管理云主机,提供高可用特性,自动生成IP池,内置DHCP服务器,自动为云主机分配IP地址
- 支持自定义镜像上传,可满足多种格式镜像上传及管理功能
- 支持批量创建/删除多个云主机,支持云主机基本生命周期控制,
- 支持自定义云主机配置管理
操作简便
- 同一页面中既包含了各类实操环境,也包含了每个实验对应的实验文档,省去了在同页面间来 回切换的麻烦。
- 学生在实验过程中可以根据学习内容记录学习笔记,并查看他人笔记
- 学生在实验过程中可以将自己遇到的问题进行提问或回答其他同学的问题,老师或其他同学可对起问题进行回答
- 学生在实验结束后在线提交实验报告,并查看成绩以及评语
大数据实训资源
大数据之Linux基础
大数据之Python基础
大数据之MySQL基础
大数据之Java程序设计
大数据之jQuery数据处理
大数据之可视化
大数据之JavaWeb应用程序设计
大数据之JavaWeb图书管理系统项目
大数据之JavaWeb试题库管理系统项目
大数据之环境搭建
Hadoop离线大数据网站点击流日志分析
Hadoop离线大数据学情分析系统开发
Spark Streming医疗实时审核系统开发
Spark用户人群画像系统开发
上一篇:大数据技术区||Hadoop是什么?Hadoop的起源
下一篇:大数据技术区||简述Hadoop的体系结构