编辑推荐
null
内容简介
尽管不需要一个巨大的计算基础设施来运用Apache Hadoop处理大规模数据,但是要开始启动项目仍然是十分困难的。《弹性MapReduce编程》展示了如何在云中使用亚马逊弹性MapReduce(EMR)来快速启动数据分析项目,EMR是亚马逊Web服务(AWS)提供的Hadoop框架。 作者施密特和菲利普斯通过一个样本MapReduce日志分析应用程序的开发全过程,向读者展示了使用EMR、多种AWS和Apache技术的最佳实践。通过使用代码样本和示例配置,《弹性MapReduce编程》介绍了如何装配解决大数据分析问题所必须的构建模块。
作者介绍
Kevin J.Schmidt是Dell SecureWorks有限公司的一名资深管理员。他负责公司SIEM平台主要部分的设计与开发。 Christopher Phillips是Dell SecureWorks有限公司的一名资深软件开发者。他负责公司的威胁智能服务平台的设计与开发。
目 录
前言第1章 亚马逊弹性MapReduce介绍 1.1 本书中使用的亚马逊Web服务 1.2 亚马逊弹性MapReduce 1.3 亚马逊EMR及Hadoop生态系统 1.4 亚马逊弹性MapReduce安装与传统的Hadoop安装 1.5 应用程序构建块第2章 AWS的数据采集及数据分析 2.1 日志分析应用 2.2 日志消息数据集分析 2.3 理解.MapReduce 2.4 收集阶段 2.5 模拟系统日志数据 2.6 开发一个MapReduce应用程序 2.7 自定义JARMapReduce工作 2.8 运行一个亚马逊EMR集群 2.9 查看结果 2.10 调试JobFlow 2.11 应用程序的实际使用第3章 数据过滤设计模型及调度工作 3.1 扩展应用程序示例 3.2 理解wleb服务器日志 3.3 使用数据过滤发现wleb日志中的错误 3.4 在数据集中构建汇总统计 3.5 JobFlow调度 3.6 AWS数据管道调度 3.7 实际使用第4章 亚马逊EMR上使用Hive和Pig进行数据分析 4.1 亚马逊JobFlow技术 4.2 Pig是什么? 4.3 在亚马逊EMR上使用Pig 4.4 Hive是什么? 4.5 在亚马逊EMR上使用Hive 4.6 我们应用程序中的Hive和Pig第5章 使用EMR进行机器学习 5.1 机器学习快速导览 5.2 Python和EMR 5.3 接下来干什么呢?第6章 规划AWS项目并管理开销 6.1 开发项目开销模型 6.2 优化AWS资源来减少项目开销 6.3 亚马逊为预估项目开销提供的工具附录A 亚马逊Web服务资源和工具附录B 云计算、亚马逊Web服务及其影响附录C 安装和设置
媒体评论
null