编辑推荐
null
内容简介
学习高级分析技术,并利用现有工具包使分析应用更加强大、精确和高效!克里·柯伊兹著的《Hadoop高级数据分析(使用Hadoop生态系统设计和构建大数据系统)》将架构、设计及实现信息恰当地融为一体,将指导你创建超越基础方法(SF分类、聚类、推荐)的分析系统。 在本书中,最佳实践强调“确保连贯、高效的开发”。将使用包含工具箱、库、可视化组件和报表代码在内的标准第三方组件,借助集成“组合件”开发一个可运行的、可扩展的、端到端的完整示例系统。 本书强调以下四点: 具有分析组件及合理可视化结果的完整、灵活、可配置、高性能数据管道系统的重要性。深入探讨的主题包括Spark、H2O、Vopal Wabbit(NLP)、Stanford NLP、Apache Mahout,以及其他适用的工具包、库和插件。 最佳实践和结构化设计原则。包括重要主题及示例部分。 用混合搭配或混合系统实现应用目标的重要性。你在学习深度示例时可体会到混合方法的重要性。 使用现有第三方库是有效开发的关键。在开发示例系统时,深度示例将展示一些第三方工具包的功能。
作者介绍
[美]Kerry Koitzsch,在计算机科学、图像处理和软件工程等领域拥有超过二十年的工作经验,致力于研究Apache Hadoop和Apache Spark技术。Kerry擅长软件咨询,精通一些定制的大数据应用,包括分布式搜索、图像分析、立体视觉和智能图像检索系统。Kerry目前就职于Kildane软件技术股份有限公司,该公司是加州桑尼维尔市的一个机器人系统和图像分析软件提供商。
目 录
第Ⅰ部分 概念 第1章 概述:用Hadoop构建数据分析系统 1.1 构建DAS的必要性 1.2 Hadoop Core及其简史 1.3 Hadoop生态系统概述 1.4 AI技术、认知计算、深度学习以及BDA 1.5 自然语言处理与BDAS 1.6 SQL与NoSQL查询处理 1.7 必要的数学知识 1.8 设计及构建BDAS的循环过程 1.9 如何利用Hadoop生态系统实现BDA 1.10 “图像大数据”(IABD)基本思想 1.10.1 使用的编程语言 1.10.2 Hadoop生态系统的多语言组件 1.10.3 Hadoop生态系统架构 1.11 有关软件组合件与框架的注意事项 1.12 Apache Lucene、Solr及其他:开源搜索组件 1.13 建立BDAS的架构 1.14 你需要了解的事情 1.15 数据可视化与报表 1.15.1 使用Eclipse IDE作为开发环境 1.15.2 本书未讲解的内容 1.16 本章小结 第2章 Scala及Python进阶 2.1 动机:选择正确的语言定义应用 2.2 Scala概览 2.3 Python概览 2.4 错误诊断、调试、配置文件及文档 2.4.1 Python的调试资源 2.4.2 Python文档 2.4.3 Scala的调试资源 2.5 编程应用与示例 2.6 本章小结 2.7 参考文献 第3章 Hadoop及分析的标准工具集 3.1 库、组件及工具集:概览 3.2 在评估系统中使用深度学习方法 3.3 使用Spring框架及Sprin 3.4 数字与统计库:R、Weka及其他 3.5 分布式系统的OLAP技术 3.6 用于分析的Hadoop工具集:Apache Mahout及相关工具 3.7 Apache Mahout的可视化 3.8 Apache Spark库与组件 3.8.1 可供选择的不同类型的shell 3.8.2 Apache Spark数据流 3.8.3 Sparkling Water与H2O机器学习 3.9 组件使用与系统建立示例 3.10 封包、测试和文档化示例系统 3.11 本章小结 3.12 参考文献 第4章 关系、NoSQL及图数据库 4.1 图查询语言:Cypher及Gremlin 4.2 Cypher示例 4.3 Gremlin示例 4.4 图数据库:Apache Neo4J 4.5 关系数据库及Hadoop生态系统 4.6 Hadoop以及UA组件 4.7 本章小结 4.8 参考文献 第5章 数据管道及其构建方法 5.1 基本数据管道 5.2 Apache Beam简介 5.3 Apache Falcon简介 5.4 数据源与数据接收:使用Apache Tika构建数据管道 5.5 计算与转换 5.6 结果可视化及报告 5.7 本章小结 5.8 参考文献 第6章 Hadoop、Lucene、Solr与高级搜索技术 6.1 Lucene/Solr生态系统简介 6.2 Lucene查询语法 6.3 使用Solr的编程示例 6.4 使用ELK栈(Elasticsearch、Logstash、Kibana) 6.5 Solr与Elasticsearch:特点与逻辑 6.6 应用于Elasticsearch和Solr的Spring Data组件 6.7 使用LingPipe和GATE实现定制搜索 6.8 本章小结 6.9 参考文献 第Ⅱ部分 架构及算法 第Ⅲ部分 组件与系统 第Ⅳ部分 案例研究与应用 附录
媒体评论
null