Hadoop实际解决方案手册 Chinese Edition

Detailed summary in vernacular field only.

Detalles Bibliográficos
Autor principal: Press, Posts & Telecom (-)
Otros Autores: OWENS, Jonathan, Jon, Lentz, Brian, Femiano
Formato: Libro electrónico
Idioma:Inglés
Publicado: Birmingham : Packt Publishing, Limited 2024.
Edición:1st ed
Materias:
Ver en Biblioteca Universitat Ramon Llull:https://discovery.url.edu/permalink/34CSUC_URL/1im36ta/alma991009820529106719
Tabla de Contenidos:
  • 异步社区电子书
  • 版权声明
  • 内容提
  • 简介
  • 作 简介
  • 审 简介
  • 目录
  • 第1 章Hadoop 分布式文件系统-导入和导出数据
  • 1.1 介绍
  • 1.2 使用Hadoop shell 命令导入和导出数据到HDFS
  • 1.3 使用distcp 实现 群 数据复制
  • 1.4 使用Sqoop 从MySQL 数据库导入数据到HDFS
  • 1.5 使用Sqoop 从HDFS 导出数据到MySQL
  • 1.6 置Sqoop 以支持SQL Server
  • 1.7 从HDFS 导出数据到MongoDB
  • 1.8 从MongoDB 导入数据到HDFS
  • 1.9 使用Pig 从HDFS 导出数据到MongoDB
  • 1.10 在Greenplum 外 中使用HDFS
  • 1.11 利用Flume 加 数据到HDFS 中
  • 第2 章HDFS
  • 2.1 介绍
  • 2.2 写HDFS 数据
  • 2.3 使用LZO 压缩数据
  • 2.4 写序列化文件数据
  • 2.5 使用Avro 序列化数据
  • 2.6 使用Thrift 序列化数据
  • 2.7 使用Protocol Buffers 序列化数据
  • 2.8 置HDFS 备份因子
  • 2.9 置HDFS 块大小
  • 第3 章抽取和 换数据
  • 3.1 介绍
  • 3.2 使用MapReduce 将Apache 日志 换为TSV 格式
  • 3.3 使用Apache Pig 滤网络服务器日志中的爬
  • 3.4 使用Apache Pig 根据时 戳对网络服务器日志数据排序
  • 3.5 使用Apache Pig 对网络服务器日志 会 分析
  • 3.6 Python 扩展Apache Pig 的功
  • 3.7 使用MapReduce 及二次排序 算
  • 3.8 使用Hive 和Python 清洗、 换地理事件数据
  • 3.9 使用Python 和Hadoop Streaming 执 时 序列分析
  • 3.10 在MapReduce中利用MultipleOutputs 出多个文件
  • 3.11 创建用户 定义的Hadoop Writable 及InputFormat 取地理事件数据
  • 第4 章使用Hive、Pig 和MapReduce 处理常 的任务
  • 4.1 介绍
  • 4.2 使用Hive 将HDFS 中的网络日志数据映射为外
  • 4.3 使用Hive 动态地为网络日志查 结果创建Hive
  • 4.4 利用Hive 字符串UDF 拼接网络日志数据的各个字段
  • 4.5 使用Hive 截取网络日志的IP 字段并确定其对应的国家
  • 4.6 使用MapReduce 对新 档案数据生成n-gram
  • 4.7 MapReduce 使用分布式缓存查找新 档案数据中包含关 的
  • 4.8 使用Pig 加 一个 并执 包含GROUP BY 的SELECT操作
  • 第5 章 级 接操作
  • 5.1 介绍
  • 5.2 使用MapReduce 对数据 接
  • 5.3 使用Apache Pig 对数据 复制 接
  • 5.4 使用Apache Pig 对有序数据 归并 接
  • 5.5 使用Apache Pig 对倾斜数据 倾斜 接
  • 5.6 在Apache Hive 中 map 端 接对地理事件 分析
  • 5.7 在Apache Hive 优化的全外 接分析地理事件数据
  • 5.8 使用外 值存储 Redis 接数据
  • 第6 章大数据分析
  • 6.1 介绍
  • 6.2 使用MapReduce 和Combiner 统 网络日志数据 中的独立IP 数
  • 6.3 用Hive 日期UDF 对地理事件数据 中的时 日期 换与排序
  • 6.4 使用Hive 创建基于地理事件数据的每月死亡报告
  • 6.5 实现Hive 用户 定义UDF 用于确 地理事件数据的来源可 性
  • 6.6 使用Hive 的map/reduce 操作以及Python 标 最 的无暴力发生的时 区
  • 6.7 使用Pig 算Audioscrobbler 数据 中 术家之 的余弦相似度
  • 6.8 使用Pig 以及datafu 剔 Audioscrobbler 数据 中的离群值.
  • 第7 章 级大数据分析
  • 7.1 介绍
  • 7.2 使用Apache Giraph 算PageRank
  • 7.3 使用Apache Giraph 算单源最短 径
  • 7.4 使用Apache Giraph 执 分布式宽度优先搜索
  • 7.5 使用Apache Mahout 算协同 滤
  • 7.6 使用Apache Mahout 类
  • 7.7 使用Apache Mahout 情感分类
  • 第8 章
  • 8.1 介绍
  • 8.2 在MapReduce 中使用Counters 监测异常 录
  • 8.3 使用MRUnit 开发和测 MapReduce
  • 8.4 本地模式下开发和测 MapReduce
  • 8.5 MapReduce 作业 异常 录
  • 8.6 在流 算作业中使用Counters
  • 8.7 更改任务状态显示 信息
  • 8.8 使用illustrate Pig 作业
  • 第9 章系统管理
  • 9.1 介绍
  • 9.2 在伪分布模式下启动Hadoop
  • 9.3 在分布式模式下启动Hadoop
  • 9.4 添加一个新 点
  • 9.5 点安全 役
  • 9.6 NameNode 故 恢复
  • 9.7 使用Ganglia 监控 群
  • 9.8 MapReduce 作业参数 优
  • 第10 章使用Apache Accumulo 持久化
  • 10.1 介绍
  • 10.2 在Accumulo 中 存储地理事件
  • 10.3 使用MapReduce 批 导入地理事件数据到Accumulo
  • 10.4 置 定义字段约束Accumulo 中的地理事件数据
  • 10.5 使用正则 滤器 制查 结果
  • 10.6 使用SumCombiner 算同一个 的不同版本的死亡数总和
  • 10.7 使用Accumulo 实 单元级安全的扫描
  • 10.8 使用MapReduce Accumulo 中的消息源
  • 欢 来到异步社区
  • 封底.