大数据技术区||大数据概述
发布者:唯众
布时间:2020-09-17 08:34:06
点击量:
大数据产生的原因
20世纪中后期以来,计算机技术快速发展并全面融入社会生活。
21世纪是数据信息大发展的时代。进入21世纪后,随着互联网的广泛应用,人类活动的进一步扩展,移动互联、电子商务、搜索引擎、社交网络、物联网等拓展了互联网的边界和应用范围,数据规模急剧膨胀,包括电信、金融、零售、娱乐、汽车、餐饮、能源、政务、医疗、体育等在内的各行业都在疯狂产生着数据,累积的数据量越来越大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系统、处理模式的能力范围,信息已经积累到了一个开始引发变革的程度,它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快,于是“大数据”这样一个概念应运而生。
“大数据”这一概念的形成,有三个标志性事件:
(1)2008年9 月,美国《自然》杂志专刊——The next google第一次正式提出“大数据”概念。
(2)2011年2月,《科学》杂志专刊——Dealing with data,通过社会调查的方式,第一次综合分析了大数据对人们生活造成的影响,详细描述了人类面临的“数据困境”。
(3)2011年5月,麦肯锡研究院发布报告——Big data: The next frontier for innovation, competition, and productivity,第一次给大数据做出相对清晰的定义:“大数据是指其大小超出了常规数据库工具获取、储存、管理和分析能力的数据集。”
归纳起来大数据的出现有以下几个原因。
(1)信息科技的不断进步为大数据时代提供了技术支撑,表现在CPU处理能力大幅提升,存储设备容量不断增加,硬件设备价格大幅降低,网络带宽不断增加,网络技术的发展为数据的生产提供了极大的方便,云计算概念的出现进一步促进了大数据的发展,人工智能进一步提升了处理和理解数据的能力。
(2)数据产生方式的变革,使得数据爆炸性增长,这促成大数据时代的来临。传统IT、企业业务系统、门户网站大约占大数据主要来源的15%。随着数据生产方式变得自动化,数据生产融入到每个人的日常生活,伴随着社交网络兴起,大量的用户自生成内容、音频、文本信息、视频、图片,出现了非结构化数据,目前,图像、视频和音频数据所占的比例越来越大。物联网产生的数据量更大,加上移动互联网能更准确、更快地收集用户信息(如环境、位置、生活信息等数据),使得数据量处于急剧加速增长的趋势。根据IDC作出的估测,数据一直都在以每年50%的速度增长(大数据摩尔定律),人类在最近两年产生的数据量相当于之前产生的全部数据量,如图1-1所示。
大数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层,在不同层面,都已经形成了一批引领市场的技术和企业。
大数据的发展历程
大数据发展大致经历以下三个阶段。
(1)萌芽阶段。上世纪90年代至本世纪初,随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。
(2)成熟阶段。本世纪前十年,Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道
(3)大规模应用阶段。2010年以后,大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高。
大数据的概念
大数据最早在上世纪90年代被提出,麦肯锡在2012年的评估报告中指出“大数据时代”已经到来,使得人们对于大数据重要性的认知和关注度进一步增加,但尚无统一的定义。
麦肯锡给出的定义:大数据是大小超出常规数据库工具获取、存储、管理和分析能力的数据集,即大数据是现有数据库管理工具和传统数据处理手段很难处理的大型、复杂的数据集,涉及采集、存储、搜索、共享、传输和可视化等方面。
全球最具权威的IT研究与顾问咨询公司Gartner 将大数据定义为:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。这里传统的IT技术和软硬件工具是指单机计算模式和传统的数据分析算法。
尽管对大数据概念的表述不同,但普遍认为大数据是信息技术领域的重大技术变革。
唯众大数据实训平台助你快速掌握大数据关键技术点
大数据实训平台简介
唯众大数据实训平台系统是针对IT类实验室现状开发的一套虚拟化网络创新教学实训平台,它采用B/S的软件架构,基于web浏览器访问,以少量硬件设备完成大量实训集群的构建,可提供大量学生进行IT类相关实训。每个学生的实训环境互相隔离、实训过程互不干扰。同一页面中既包含了各类实操环境,也包含了每个实验对应的实验文档,省去了在同页面间来回切换的麻烦,实验过程采用分布式设计,配合大数据分析模块,实时监控每个步骤的学习情况,方便学生高效的完成实训操作的同时,大幅节省了硬件成本和人力成本的投入。
大数据实训平台特点
配置灵活
- 支持集群部署,支持集群内管理云主机,提供高可用特性,自动生成IP池,内置DHCP服务器,自动为云主机分配IP地址
- 支持自定义镜像上传,可满足多种格式镜像上传及管理功能
- 支持批量创建/删除多个云主机,支持云主机基本生命周期控制,
- 支持自定义云主机配置管理
操作简便
- 同一页面中既包含了各类实操环境,也包含了每个实验对应的实验文档,省去了在同页面间来 回切换的麻烦。
- 学生在实验过程中可以根据学习内容记录学习笔记,并查看他人笔记
- 学生在实验过程中可以将自己遇到的问题进行提问或回答其他同学的问题,老师或其他同学可对起问题进行回答
- 学生在实验结束后在线提交实验报告,并查看成绩以及评语
大数据实训资源
大数据之Linux基础
大数据之Python基础
大数据之MySQL基础
大数据之Java程序设计
大数据之jQuery数据处理
大数据之可视化
大数据之JavaWeb应用程序设计
大数据之JavaWeb图书管理系统项目
大数据之JavaWeb试题库管理系统项目
大数据之环境搭建
Hadoop离线大数据网站点击流日志分析
Hadoop离线大数据学情分析系统开发
Spark Streming医疗实时审核系统开发
Spark用户人群画像系统开发
上一篇:物联网技术区||传感控制器应用之 LED点阵显示
下一篇:大数据技术区||大数据有哪些特征?