《大数据治理与安全从理论到开源实践PDF完整版》电子书

互联网|IT adminlele 4年前 (2022-05-09) 463次浏览 已收录 0个评论

本站主要采用城通网盘链接分享,因为其他网盘会和谐链接!非VIP会员的朋友请点击普通下载,弹窗关闭即可。速度可能比较慢,请耐心等待,提高下载速度,送您10元消费红包

《大数据治理与安全从理论到开源实践PDF完整版》电子书

大数据治理与安全从理论到开源实践PDF完整版》电子书内容介绍

本书分为理论篇和开源实践篇,特别注重系统搭建与部署,书中介绍的步骤与代码从易到难、逐步深化,同时对所涉及的知识点、难点均进行了详细的解释,从而满足不同读者的多元化需求。此外,结合实际使用场景进行了设计与实现,为相关读者的实践操作提供有效参考。

文字通俗易懂

本书避免了过于理论的描述方式,简单风趣的写作风格贯穿全书,对大数据治理与安全的实践内容中的每一个组件、每一步操作、每一行代码都进行了详细的解释,使得读者在阅读过程中能容易地按照本书指导同步上机操作,搭建大数据治理与安全实际系统。

大数据治理与安全PDF预览

图书目录

前 言

第一篇 理论篇

第1章 大数据治理技术2

1.1 概述2

1.1.1 大数据治理的基本概念2

1.1.2 大数据治理的意义和重要作用5

1.2 框架7

1.2.1 大数据治理框架概述7

1.2.2 大数据治理的原则9

1.2.3 大数据治理的范围11

1.2.4 大数据治理的实施与评估14

第2章 大数据安全、隐私保护和审计技术19

2.1 大数据安全19

2.1.1 大数据安全的意义和重要作用19

2.1.2 大数据安全面临的问题与挑战21

2.1.3 大数据安全防护技术23

2.2 大数据隐私保护26

2.2.1 大数据隐私保护的意义和重要作用26

2.2.2 大数据隐私保护面临的问题与挑战28

2.2.3 大数据隐私保护技术31

2.3 大数据治理审计34

2.3.1 大数据治理审计概述34

2.3.2 大数据治理审计内容37

2.3.3 大数据治理审计方法和技术39

2.3.4 大数据治理审计流程43

第二篇 开源实现篇

第3章 大数据治理之Apache Falcon48

3.1 Apache Falcon概述48

3.1.1 Apache Falcon技术概况49

3.1.2 Apache Falcon发展近况50

3.1.3 Apache Falcon技术优势50

3.1.4 Apache Falcon架构51

3.2 Apache Falcon的使用53

3.2.1 Oozie的安装与配置56

3.2.2 Falcon的安装与配置61

3.2.3 实体XML的创建与声明63

3.3 Apache Falcon场景设计与实现74

3.3.1 数据管道74

3.3.2 结构化数据导入分布式文件系统82

3.3.3 结构化数据库与数据仓库的交互89

3.3.4 跨集群数据传输104

3.3.5 数据镜像109

3.3.6 数据仓库中的数据操作113

3.4 Apache Falcon优化与性能分析118

3.4.1 Apache Falcon控制流118

3.4.2 分布式部署119

3.4.3 安全模式120

3.4.4 Apache Falcon优化122

3.5 Apache Falcon应用举例123

3.5.1 InMobi基于Falcon的数据治理123

3.5.2 Expedia基于Falcon的数据治理125

3.6 本章小结126

第4章 大数据治理之Apache Atlas127

4.1 Apache Atlas概述127

4.1.1 Apache Atlas技术概况127

4.1.2 Apache Atlas发展近况130

4.1.3 Apache Atlas技术优势133

4.1.4 Apache Atlas架构136

4.2 Apache Atlas的配置与使用143

4.2.1 安装配置Apache Atlas143

4.2.2 添加或修改Atlas Web UI的登录账户158

4.2.3 配置Hive通过Hive HOOK导入数据159

4.2.4 配置Sqoop通过Sqoop HOOK导入数据163

4.2.5 配置Storm通过Storm HOOK导入数据167

4.2.6 配置Falcon通过Falcon HOOK导入数据173

4.3 Apache Atlas的场景设计176

4.3.1 Atlas总场景介绍176

4.3.2 Atlas非实时数据场景178

4.3.3 Atlas实时数据场景183

4.3.4 Hive数据表操作183

4.4 Apache Atlas优化与性能分析190

4.5 本章小结193

第5章 大数据安全之Apache Ranger194

5.1 Apache Ranger概述194

5.1.1 Ranger技术概况194

5.1.2 Ranger发展史及近况196

5.1.3 Ranger的特点和作用197

5.1.4 Ranger架构199

5.1.5 Ranger应用场景200

5.2 Apache Ranger的安全认证配置201

5.2.1 Ranger安装与部署201

5.2.2 安全及访问权限控制机制206

5.2.3 Ranger集成HDFS的安全认证机制与配置208

5.2.4 Ranger集成YARN的安全认证机制与配置213

5.2.5 Ranger集成Hive的安全认证机制与配置217

5.2.6 Ranger集成HBase的安全认证机制与配置221

5.2.7 Ranger集成Kafka的安全认证机制与配置228

5.2.8 Ranger集成Atlas的安全认证机制与配置235

5.2.9 Ranger集成Storm的安全认证机制与配置238

5.2.10 Ranger集成Solr的安全认证机制与配置246

5.3 Apache Ranger的功能配置254

5.3.1 Tag同步验证254

5.3.2 各类Policy验证255

5.4 Apache Ranger优化与性能分析262

5.5 本章小结263

第6章 大数据安全之Apache Sentry265

6.1 Apache Sentry 概述265

6.1.1 Apache Sentry技术概况265

6.1.2 Apache Sentry发展近况267

6.1.3 Apache Sentry技术优势269

6.1.4 Apache Sentry架构272

6.2 Apache Sentry的安装与配置274

6.2.1 先决条件274

6.2.2 Impala的安装与调试274

6.2.3 Apache Sentry的安装和配置282

6.2.4 Apache Sentry与Impala的集成286

6.3 Apache Sentry场景设计之Sentry对Impala的控制288

6.3.1 场景数据准备288

6.3.2 基于文件存储元数据的场景验证288

6.3.3 基于数据库存储元数据的场景验证292

6.4 Apache Sentry场景设计之Sentry对Hive的控制296

6.4.1 Hive与Sentry的集成配置296

6.4.2 准备实验数据298

6.4.3 基于文件存储方式的数据表操作298

6.4.4 基于数据库存储方式的数据表操作301

6.5 本章小结305

第7章 大数据安全之Kerberos认证306

7.1 Kerberos概述306

7.1.1 Kerberos技术概况306

7.1.2 Kerberos发展史及近况307

7.1.3 Kerberos架构308

7.1.4 Kerberos的认证流程309

7.1.5 Kerberos的风险与缺陷311

7.1.6 Kerberos应用举例312

7.2 Kerberos使用操作说明314

7.2.1 名词解释314

7.2.2 KDC常用操作315

7.2.3 Client常用操作316

7.3 Kerberos集成环境配置317

7.3.1 Kerberos服务配置318

7.3.2 HDFS集成Kerberos的安装与调试322

7.3.3 YARN集成Kerberos的安装与调试330

7.3.4 Hive集成Kerberos的配置与调试336

7.3.5 Zookeeper集成Kerberos的配置与调试341

7.3.6 HBase集成Kerberos的配置与调试343

7.3.7 Sqoop集成Kerberos的配置与调试348

7.3.8 Hue集成Kerberos的安装与调试351

7.3.9 Spark集成Kerberos的安装与调试361

7.3.10 Solr集成Kerberos的安装与调试366

7.3.11 Kafka集成Kerberos的配置与调试371

7.3.12 Storm集成Kerberos的安装与调试377

7.3.13 Impala集成Kerberos的安装与调试382

7.4 Kerberos配置优化及常见问题386

7.4.1 Kerberos的认证方式386

7.4.2 时间同步386

7.4.3 ticket周期387

7.4.4 KVNO导致的认证失败387

相关介绍

在大数据时代,随着信息量与日俱增,数据价值也得到越来越多人的认可。但大数据在迅猛发展的同时也带来不少问题,如怎样管理数据、实现数据价值最大化等,这些问题始终未得到完美的解答。在不同时间段,针对不同业务需求,数据的价值也不尽相同。为了最大化大数据的价值,互联网数据共享不可避免。然而,由于各个企业和部门之间相互独立,数据所在的系统甚至数据存储结构存在较大差异,数据之间难以进行信息共享,从而造成信息孤岛这一普遍现象。同时,互联网庞大的使用群体,也使得互联网数据在实现共享时,难以保障数据的安全性以及数据隐私为了解决这些问题,大数据治理与安全成为当下学术界与工业界最热门的研究领域之一。大数据治理主要在于建立一个统一标准化平台,从不同数据源中获取数据,在对数据进行生命周期管理的同时允许各方对数据进行相应操作(例如数据审计、数据筛选以及数据迁移等),从而实现数据价值最大化。而在数据业务流程中,这个统一标准化平台能够针对不同用户,根据不同的时间点以及IP地址,对不同的元数据进行权限设置,以保证数据使用的安全性。

本书总体分为两部分。第一篇:理论篇,包括第1章和第2章。第1章从大数据治理的概念以及作用两方面,阐述大数据治理的重要性,并对大数据治理的原则、范围及评估内容做了详尽介绍。第2章从大数据安全、隐私和审计三个方面出发,探讨了大数据安全所面临的挑战与问题,以及解决这些问题的技术与方案第二篇:开源实现篇,包括第3~7章。作者对开源社区中的大数据治理与安全相关的开源项目做了充分的介绍和实践,将内容根据不同组件分类,汇总成为该篇的主要内容该篇全面介绍了 Apache Falcon、 Apache Atlas、 Apache Ranger, Apache Sentry与 Kerberos等大数据治理与安全开源组件的技术概况、配置与使用、场景设计与实现以及具体应用举例等多方面的内容。

第3章深人介绍建立在 Hadoop环境下的数据过程及数据集管理系统 Apache Falcon的

技术概况与架构特点。在此基础上,对集群上进行数据保留、生命周期管理、数据血统及追踪等功能进行介绍。并且设计与实现了日常生产环境中可能用到的数据处理场景,可作为相关从业者的参考。最后作者举例说明了 Falcon在数据流程管理领域的使用前景第4章全面介绍元数据管理框架 Apache Atlas的技术概况、配置使用与具体使用场景等核心内容。本章首先介绍 Apache Atlas在元数据管理方面的突出优势,进面对HiveScoop、 Storm及 Falcon等多种元数据导入方式进行了介绍,并对元数据的管理做了十分深入的阐述。在此基础上,对 Atlas的实时数据、非实时数据等元数据管理场景进行了设计与实现,可以作为类似场景下构建与使用的参考第5章讲述安全认证框架 Apache Ranger的技术概况,发展近况、插件集成和功能验证等内容。本章首先介绍 Apache Ranger在 Hadoop生态系统中实施安全认证的优势和特点,并对 Hadoop生态组件如HDFS、Hive、 HBase等如何进行安全数据访问控制做出详细阐述。最后给出了 Ranger四种不同策略的实际场景,对其安全功能进行了验证。

第6章对 Cloudera公司发布的高度模块化的权限管理组件 Apache Sentry做了深入的介绍,弥补了 Hadoop文件系统HDFs缺乏对数据和元数据细粒度权限访问支持的问题。从Sentry的特点、优势、发展近况三个方面,对其架构中的 Binding、 Policy Engine和 PolicyProvider三大棱心组件进行了详细的阐述。并介绍了 Sentry的搭建与部署步骤,以及其与mpala的集成步骤和在各类场景下 Sentry的设计与使用方法第7章除了对网络认证协议 Kerberos的特点与组成、架构与应用等做了介绍以外,还对大数据应用下的诸多组件与 Kerberos的集成做了详细的实践介绍,包括HDFS、YarZookeeper、Hive、 HBase、 Scoop、Hue、Spak、Solr、Kaka、Stom与 Impala,几乎涵盖了大部分学术界与工业界所涉及的各类组件,能够为高校科研人员与企业开发人员提供有效的参考与帮助作者认为大数据治理与安全理论部分已经有一些书籍进行了较好的阐述,而实践应用部分却十分匮乏。因此本书着重在实践部分使用大量篇幅进行详细的讲解描述。若读者想要查阅大数据治理与安全的相关理论内容,作者推荐桑尼尔·索雷斯的《大数据治理》和张邵华的《大数据治理与服务》两本书作为进一步的参考本书的作者除了封面和内封提到的六位之外,还有王文杰、段雄、吴琪、方久鑫童楚云、陈超源、徐杰、陈喆、吴岳秋、吴成、张品大数据发展迅速,而大数据治理与安全作为其分支,发展更是日新月异。由于作者水平有限,书中难免有不足与谬误之处,若读者发现问题并不吝告知,不胜感激

《大数据治理与安全:从理论到开源实践》2017年09月机械工业出版社出版的图书,作者是刘驰、胡柏青、谢一、施盟捷。

dsjzlyaqclldsj.pdf: https://t00y.com/f/560517-575257795-f516f1?p=311929 (访问密码:311929)


中信图书出版社全部书籍617本 百度网盘福利
西部数码域名服务器优惠券 老薛主机优惠券
请通过以下商城购买正版书籍
图书库 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:《大数据治理与安全从理论到开源实践PDF完整版》电子书本站电子书版权归原作者及开发商所有,仅限个人测试交流学习之用,请在下载后24小时内删除。若有违反您个人权益,请留言反馈删除相关信息。

喜欢 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址