辜渝傧

13037102709

027-87870986

新闻动态

您当前的位置:首页 > 新闻动态 > 新闻动态 >

《大数据技术与应用Ⅰ》

发布者:    布时间:2020-09-16 13:50:22    点击量:

《大数据技术与应用Ⅰ》职业教育赛教一体化课程改革系列规划教材
内容简介
       本书教学设计遵循教学规律,对真实项目进行了科学拆分与提炼。主要内容分为Hadoop大数据技术基础与Hadoop大数据分析案例两部分,前者包括大数据的有关概念、Hadoop概述、Hadoop集群的部署与管理、HDFS 、MapReduce编程以及Hadoop生态的其他常用组件ZooKeeper、HBase、Hive、Sqoop、Flume、Storm、Kafka的工作原理、安装部署和使用方法,后者通过“基于云虚拟实训平台的学情分析系统”项目完整展示了大数据分析的过程。
       全书遵循“理论够用、实用,实践第一”的原则选择内容,编排合理,表述深人浅出,所有操作命令全部按序列出,并配有解释和运行截图,指导性、实用性强,能使读者快速、轻松地掌握Hadoop大数据平台运维和分析的基本技术。
       本书适合作为高等职业院校电子信息大类各专业学习Hadoop大数据技术的教材,也可作为培训学校的培训教材,还可作为大数据爱好者的自学用书。

前言
       为认真贯彻落实教育部实施新时代中国特色高水平高职学校和专业群建设,扎实、持续地推进职校改革,强化内涵建设和高质量发展,落实双高计划,抓好2019年职业院校信息技术人才培养方案实施及配套建设,在湖北信息技术职业教育集团的大力支持下,武汉唯众智创科技有限公司统一规划并启动了“职业教育赛教一体化课程改革系列规划教材”(《云计算技术与应用》《大数据技术与应用 I》《网络综合布线》《物联网.NET开发》《物联网嵌入式开发》《物联网移动应用开发》 ),本书是“教育教学一线专家、教育企业一线工程师”等专业团队的匠心之作,是全体编委精益求精,在日复一日年复一年的工作中,不断探索和超越的教学结晶。本书教学设计遵循教学规律,涉及内容是真实项目的拆分与提炼。
       大数据技术让我们以一种前所未有的方式,对海量数据进行处理与分析,从中挖掘出高价值的信息。但同时,大数据技术也是一门综合性强、难度大的技术,掌握好它不是一件容易的事。本书是一本介绍Hadoop大数据技术的入门书。编者在对大数据运维和大数据分析岗位职业能力进行分析的基础上,以基于工作过程课程开发理论为依据,结合高职学生的学习特点,遵循从大数据初学者到大数据运维工程师和大数据分析工程师的职业能力发展过程和学生认知规律,按照由浅入深、由易到难的顺序整合、序化、串联过程性知识,较为全面地介绍了大数据的有关概念和Hadoop生态常用组件的工作原理、安装部署及使用方法,最后通过一个企业真实项目“基于云虚拟实训平台的学情分析系统”给读者展示了大数据分析的全流程。
       本书便于教师开展“项目导向、任务驱动”模式的教学,实施“在做中学、在学中做、教学练做于一体”的理论实践一体化教学。全书教学内容分为Hadop大数据技术基础与Hadoop大数据分析案例两部分。前者包括大数据的有关概念、 Hadoop 概述、Hadoop 集群的部署与管理、HDFS、MapReduce编程以及Hadoop生态的其他常用组件ZooKeeper、HBase、Hive、Sqoop、 Flume、Storm、Kafka的工作原理、安装部署和使用方法,后者通过项目“基于云虚拟实训平台的学情分析系统”完整展示了大数据分析的过程。全书遵循理论够用、实用,实践第的原则选择内容, 合理编排,表述深入浅出。
       本书有两大特点:一是所有实验循序渐进,都有完整的命令和代码及其运行截图, 便于读者对照学习,能有效降低学习难度,提高学习效率,指导性、实用性强。二是采用虛拟机技术,所有基础实验能在普通台式机上完成,便于实践教学条件不足的学校开展大数据教学。书中案例源于企业真实项目,可操作性强,能帮助读者快速掌握大数据分析的基本技能。
       本书由武汉职业技术学院胡大威、武汉软件工程职业学院孙琳任主编;由武汉城市职业学院王世刚、荆州职业技术学院孙重巧、湖北三峡职业技术学院陈文明、武汉唯众智创科技有限公司冉柏权任副主编。具体分工如下:胡大威编写了单元1、3、4、5、6、10,孙琳编写了单元2、7、8、13,王世刚编写了单元9,孙重巧编写了单元11,陈文明编写了单元12,冉柏权编写了单元14,全书由胡大威统稿。
       本书在编写过程中参考和借鉴了大量国内外最新著作和网上资料,在此对所参考著作和资料的作者及相关出版单位表示衷心的感谢!另外,对本书编写及出版过程中给予支持的同事、朋友及相关人士表示感谢!
       由于时间仓促,编者水平有限,书中难免有遗漏和不足之处,敬请各位读者批评指正。
编者

2019年5月于武汉
 
 
 
 
目录
内容提要 2
前 言 9
参考文献 10
单元1  大数据概述 11
1.1大数据的产生 11
1.1.1大数据产生的原因 11
1.1.2大数据的发展历程 12
1.2 大数据的概念 13
1.2.1 大数据的概念 13
1.2.2 大数据的特征 13
1.2.3 大数据的构成 14
1.2.4 大数据的意义 14
1.3大数据的处理流程 15
1.4大数据的技术 16
1.4.1大数据的技术层面 16
1.4.2大数据的计算模式 17
1.4.3大数据的技术路线 17
1.4.4大数据技术的应用 18
1.5 大数据与云计算、物联网的关系 18
1.5.1 云计算 18
1.5.2  物联网 19
1.5.3  大数据与云计算、物联网的关系 20
习题一 21
单元2  Hadoop概述 22
2.1 Hadoop概述 22
2.1.1 Hadoop的起源 22
2.1.2 Hadoop的设计思想和特性 23
2.1.3 Hadoop的体系结构 24
2.1.4 Hadoop的生态系统 25
2.1.5 Hadoop的发行版本 26
2.1.6 Apache Hadoop的下载 28
2.2 Hadoop系列实验前的准备工作 28
2.2.1电脑软硬件基本配置要求 28
2.2.2大数据实验软件包介绍 29
2.2.3检查实验机是否支持虚拟化 31
2.2.4检查在BIOS中是否已打开VT-x功能 32
习题二 32
单元3 Vmware和CentOS的安装 33
3.1 安装VMware Workstation 33
3.1.1 VMware虚拟机简介 33
3.1.2 安装VMware虚拟机 34
3.2 创建虚拟机Master 40
3.3 安装CentOS 51
3.4 克隆虚拟机Slave 53
3.5 上传Hadoop实验软件包到Linux系统中 57
3.6 常用的Linux操作系统命令和文本编辑器Vi 61
3.6.1 常用的Linux操作系统命令 61
3.6.2 文本编辑器Vi 63
习题三 65
单元4  Hadoop集群的部署与管理 66
4.1 Hadoop的运行模式 66
4.1.1 计算机集群 66
4.1.2 Hadoop的运行模式 68
4 .2 配置Linux系统 70
4.2.1 说明 70
4.2.2 配置时钟同步 71
4.2.3 配置主机名 72
4.2.4 配置网络环境 73
4.2.5 关闭防火墙 78
4.2.6 配置 hosts 列表 81
4.2.7 安装 JDK 82
4.2.8 配置免密钥登录 84
4.3  配置Hadoop 87
4.3.1 解压Hadoop 安装包 88
4.3.2 在Master节点修改Hadoop配置文件 88
4.3.3在Master节点上配置Hadoop的系统环境变量 94
4.3.4 将已经配置好的Hadoop复制到其他节点 95
4.3.5创建数据目录 95
4.4启动 Hadoop 集群 95
4.4.1格式化文件系统 95
4.4.2 启动 Hadoop集群 96
4.5 测试Hadoop集群 97
4.6监控Hadoop集群 98
4.6.1监控HDFS 98
4.6.2监控Yarn 101
4.7 停止Hadoop集群 103
4.8 动态管理节点 104
4.8.1增加节点 104
4.8.2删除节点 108
4.9 Hadoop的命令 110
习题四 111
单元5  Hadoop分布式文件系统HDFS 113
5.1 HDFS概述 113
5.1.1 HDFS简介 113
5.1.2 HDFS的体系结构 114
5.1.3 HDFS的概念 115
5.1.4 HDFS的存储原理 118
5.1.5 HDFS文件的读写过程 119
5.1.6 HDFS高可用性 120
5.2 用命令方式实现HDFS常用操作 121
5.2.1 HDFS的基本命令 121
5.2.2 HDFS文件系统的操作 127
5.3 安装与配置Eclipse集成开发环境 129
5.3.1 Eclipse开发环境介绍 129
5.3.2 Eclipse的安装和配置 130
5.4编程实现HDFS常用操作 140
5.4.1 HDFS Java API简介 140
5.4.2 HDFS Java API的一般用法 141
5.4.3 HDFS Java API的编程实践 142
习题五 145
单元6  MapReduce 147
6.1 MapReduce概述 147
6.1.1 MapReduce的设计思想 147
6.1.2 MapReduce的体系结构 148
6.1.3 MapReduce的工作过程 149
6.1.4 MapReduce的工作过程示例——词频统计 152
6.2 Yarn概述 154
6.2.1 Yarn的设计思想 154
6.2.2 Yarn的体系结构 155
6.2.3 YARN的工作流程 156
6.3 在集群中运行MapReduce任务 157
6.3.1 Hadoop官方示例包中的测试程序 157
6.3.2 提交MapReduce任务给集群运行 158
6.4 在Eclipse中配置MapReduce环境 160
6.5 编写MapReduce词频统计程序 163
6.5.1 MapReduce编程步骤 163
6.5.2 编写MapReduce词频统计程序 164
6.5.3打包提交代码运行 165
习题六 165
单元7  Zookeeper的安装部署和管理 168
7.1 Zookeeper概述 168
7.1.1 Zookeeper简介 168
7.1.2 Zookeeper的体系结构 169
7.1.3 Zookeeper的数据模型 170
7.1.4 Zookeeper的工作原理 172
7.2 Zookeeper集群安装部署 173
7.2.1 在Master节点上安装Zookeeper 173
7.2.2 配置ZooKeeper属性文件 174
7.2.3 将Master节点上的Zookeeper安装文件复制到Slave节点和Slave2节点上 175
7.2.4 启动 ZooKeeper 集群 175
7.2.5 测试ZooKeeper集群 176
7.3 Zookeeper的简单操作 177
7.3.1使用zkServer.sh脚本进行的操作 177
7.3.2 Zookeeper的常用Shell命令 178
习题七 179
单元8  HBase的安装部署和管理 180
8.1 HBase概述 180
8.1.1 HBase简介 180
8.1.2 HBase的数据模型 181
8.1.3 HBase的物理存储 183
8.1.4 HBase的体系结构 184
8.1.5 HBase的工作原理 186
8.2 HBase集群的安装部署 188
8.2.1在Master节点上安装HBase 188
8.2.2 在Master节点上配置HBase 189
8.2.3将HBase安装文件复制到Slave和Slave2节点上 190
8.2.4启动HBase 190
8.2.5验证HBase 190
8.2.6停止HBase 191
8.3常用的HBase Shell命令 192
习题八 196
单元9 数据仓库Hive 197
9.1 Hive概述 197
9.1.1 数据仓库简介 197
9.1.2 Hive简介 198
9.1.3 Hive的体系结构 199
9.1.4 Hive的工作原理 200
9.1.5 Hive的数据类型与存储格式 200
9.1.6 Hive的数据模型 201
9.2 Hive的安装部署 202
9.2.1 安装Hive 202
9.2.2安装配置 MySQL 203
9.2.3配置Hive 207
9.2.4启动Hive安装 208
9.3 Hive Shell操作 209
9.4 Hive数据导入的实例 211
习题九 214
单元10 Sqoop的安装和使用 215
10.1 Sqoop概述 215
10.1.1 Sqoop简介 215
10.1.2 Sqoop的工作原理 216
10.2 Sqoop的安装、配置和运行 218
10.2.1 安装Sqoop 218
10.2.2 配置MySQL连接器 219
10.2.3 配置环境变量 219
10.2.4 启动并验证 Sqoop 220
10.3 Sqoop的应用 222
10.3.1 从MySQL数据库导入数据到HDFS中 222
10.3.2 从Hive或HDFS中导出数据到MySQL数据库 226
10.3.3 脚本打包 227
习题十 228
单元11  Flume 229
11.1 Flume概述 229
11.1.1 Flume简介 229
11.1.2 Flume的工作原理 230
11.2 Flume的安装配置 234
11.2.1下载安装包并解压 234
11.2.2配置环境变量 236
11.2.3配置flume-env.sh文件 236
11.2.4验证flume 236
11.3 flume的常用操作命令 236
11.4 Flume的应用 237
11.4.1  Flume的配置和运行 237
11.4.2  Flume的简单实例 239
习题十一 241
单元12  流计算框架Storm 242
12.1 Storm概述 242
12.2.1 Storm简介 242
12.2.2 Storm的工作原理 243
12.2.3 Storm的数据模型 245
12.2 Storm集群的搭建 246
12.2.1在Master节点上安装Storm 246
12.2.2将Storm安装文件复制到Slave、Slave2、Slave3节点 248
12.2.3 启动Storm集群 248
12.2.4 测试Storm集群 249
12.3 向Storm集群提交任务 249
习题十二 250
单元13 Kafka 251
13.1 Kafka概述 251
13.1.1 Kafka简介 251
13.1.2 Kafka的体系结构 251
13.1.3 Kafka的工作原理 253
13.1.4 Kafka使用场景 253
13.2 安装配置和使用Kafka 253
13.2.1安装Kafka 254
13.2.2配置Kafka 254
13.2.3 启动并使用Kafka 255
习题十三 257
单元14 基于云虚拟实训平台的学情分析系统 258
14.1 项目简介 258
14.1.1 唯众云虚拟实训平台介绍 258
14.1.2 学情分析系统需求分析 259
14.1.3 学情分析系统数据库设计 265
14.2 获取云虚拟平台日志内容 267
14.2.1 使用爬虫获取数据 267
14.2.2将爬取到的数据上传HDFS 279
14.2.3 使用MapReduce对数据进行清洗 282
14.3 对结果进行分析及可视化 295
14.3.1 Echarts介绍 295
14.3.2对清洗后的数据分析 296
14.3.3使用Echarts展示 299
 
 


上一篇:《物联网.NET开发》

下一篇:《云计算技术与应用》