大数据技术区||大数据的处理流程
发布者:唯众
布时间:2020-09-17 09:53:26
点击量:
大数据的基本处理流程一般可分为四大步骤:数据采集、数据清洗、数据分析和数据可视化,如图1-2所示。
图1-2 大数据处理流程
1.数据采集
大数据的采集一般使用ETL工具将分布的、异构数据源(如移动APP应用端、网页端、智能硬件端、多种传感器端等)中的数据采集到数据库或临时文件中。
常用的数据采集的方式主要包括:数据抓取、数据导入、物联网传感设备自动信息采集等。
2.数据清洗
这些采集到的海量数据大体上是所谓的脏数据,不能直接进行有效的分析或挖掘结果差强人意,因为里面往往不少是重复或是无用的数据,此时需要对数据进行简单的清洗和预处理,使得不同来源的数据整合成一致的、适合数据分析算法和工具读取的数据。然后,将这些清洗过的数据存到分布式文件系统(如HDFS)或者分布式数据库(如HBase)或者数据仓库(如Hive)中。
也有一些用户会在导入时使用Storm来对流数据进行流式计算,来满足部分业务的实时计算需求。
数据清洗完后接着进行或同时进行数据集成、数据转换和数据规约等一系列处理的过程称为数据预处理。
(1)数据清洗:主要是删除原始数据集中的无关数据、重复数据,处理缺失值、异常值,平滑噪声数据,筛选掉与挖掘主题无关的数据等目标。
(2)数据集成:是将多个数据源中的数据合并起来并存放在一个一致的数据存储(如数据仓库)中的过程。
(3)数据转换:通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。
(4)数据归约:寻找依赖于发现目标的数据的有用特征,缩减数据规模,最大限度地精简数据量。
3.数据分析
数据分析是大数据处理流程的核心步骤。通过数据采集和清洗两个环节,我们已经从异构的数据源中获得了用于大数据处理的原始数据,用户可以根据自己的需求对这些数据进行分析处理(如数据挖掘、机器学习、数据统计等)。数据分析可以用于预测系统、决策支持、推荐系统和商业智能等。
统计分析需要用工具来对数据进行普通的分析和分类汇总,以满足常见的数据分析需求。在大数据的统计与分析过程中,主要面对的挑战是分析涉及的数据量太大,其对系统资源,特别是I/O会有极大的占用。
数据挖掘是创建数据挖掘模型的一组试探法和计算方法,通过对提供的数据进行分析,查找特定类型的模式和趋势,最终形成模型。与统计分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,起到预测效果,实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。
4.数据可视化
数据可视化是指将结构或非结构化的数据转换成适当的可视化图表,从而将隐藏在数据中的信息直接展现在人们面前。
大数据分析的使用者既有专业的大数据分析师,也有普通用户,二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够以图形直观地呈现大数据的特点,非常容易被用户所接受。
唯众大数据实训平台助你快速掌握大数据关键技术点
大数据实训平台简介
唯众大数据实训平台系统是针对IT类实验室现状开发的一套虚拟化网络创新教学实训平台,它采用B/S的软件架构,基于web浏览器访问,以少量硬件设备完成大量实训集群的构建,可提供大量学生进行IT类相关实训。每个学生的实训环境互相隔离、实训过程互不干扰。同一页面中既包含了各类实操环境,也包含了每个实验对应的实验文档,省去了在同页面间来回切换的麻烦,实验过程采用分布式设计,配合大数据分析模块,实时监控每个步骤的学习情况,方便学生高效的完成实训操作的同时,大幅节省了硬件成本和人力成本的投入。
大数据实训平台特点
配置灵活
- 支持集群部署,支持集群内管理云主机,提供高可用特性,自动生成IP池,内置DHCP服务器,自动为云主机分配IP地址
- 支持自定义镜像上传,可满足多种格式镜像上传及管理功能
- 支持批量创建/删除多个云主机,支持云主机基本生命周期控制,
- 支持自定义云主机配置管理
操作简便
- 同一页面中既包含了各类实操环境,也包含了每个实验对应的实验文档,省去了在同页面间来 回切换的麻烦。
- 学生在实验过程中可以根据学习内容记录学习笔记,并查看他人笔记
- 学生在实验过程中可以将自己遇到的问题进行提问或回答其他同学的问题,老师或其他同学可对起问题进行回答
- 学生在实验结束后在线提交实验报告,并查看成绩以及评语
大数据实训资源
大数据之Linux基础
大数据之Python基础
大数据之MySQL基础
大数据之Java程序设计
大数据之jQuery数据处理
大数据之可视化
大数据之JavaWeb应用程序设计
大数据之JavaWeb图书管理系统项目
大数据之JavaWeb试题库管理系统项目
大数据之环境搭建
Hadoop离线大数据网站点击流日志分析
Hadoop离线大数据学情分析系统开发
Spark Streming医疗实时审核系统开发
Spark用户人群画像系统开发
上一篇:大数据技术区||大数据由什么意义?
下一篇:大数据技术区||大数据的主要技术层面有哪些?