Hadoop实际解决方案手册 Chinese Edition
Detailed summary in vernacular field only.
Autor principal: | |
---|---|
Otros Autores: | , , |
Formato: | Libro electrónico |
Idioma: | Inglés |
Publicado: |
Birmingham :
Packt Publishing, Limited
2024.
|
Edición: | 1st ed |
Materias: | |
Ver en Biblioteca Universitat Ramon Llull: | https://discovery.url.edu/permalink/34CSUC_URL/1im36ta/alma991009820529106719 |
Tabla de Contenidos:
- 封
- 异步社区电子书
- 版权声明
- 内容提
- 序
- 简介
- 前
- 作 简介
- 审 简介
- 目录
- 第1 章Hadoop 分布式文件系统-导入和导出数据
- 1.1 介绍
- 1.2 使用Hadoop shell 命令导入和导出数据到HDFS
- 1.3 使用distcp 实现 群 数据复制
- 1.4 使用Sqoop 从MySQL 数据库导入数据到HDFS
- 1.5 使用Sqoop 从HDFS 导出数据到MySQL
- 1.6 置Sqoop 以支持SQL Server
- 1.7 从HDFS 导出数据到MongoDB
- 1.8 从MongoDB 导入数据到HDFS
- 1.9 使用Pig 从HDFS 导出数据到MongoDB
- 1.10 在Greenplum 外 中使用HDFS
- 1.11 利用Flume 加 数据到HDFS 中
- 第2 章HDFS
- 2.1 介绍
- 2.2 写HDFS 数据
- 2.3 使用LZO 压缩数据
- 2.4 写序列化文件数据
- 2.5 使用Avro 序列化数据
- 2.6 使用Thrift 序列化数据
- 2.7 使用Protocol Buffers 序列化数据
- 2.8 置HDFS 备份因子
- 2.9 置HDFS 块大小
- 第3 章抽取和 换数据
- 3.1 介绍
- 3.2 使用MapReduce 将Apache 日志 换为TSV 格式
- 3.3 使用Apache Pig 滤网络服务器日志中的爬
- 3.4 使用Apache Pig 根据时 戳对网络服务器日志数据排序
- 3.5 使用Apache Pig 对网络服务器日志 会 分析
- 3.6 Python 扩展Apache Pig 的功
- 3.7 使用MapReduce 及二次排序 算
- 3.8 使用Hive 和Python 清洗、 换地理事件数据
- 3.9 使用Python 和Hadoop Streaming 执 时 序列分析
- 3.10 在MapReduce中利用MultipleOutputs 出多个文件
- 3.11 创建用户 定义的Hadoop Writable 及InputFormat 取地理事件数据
- 第4 章使用Hive、Pig 和MapReduce 处理常 的任务
- 4.1 介绍
- 4.2 使用Hive 将HDFS 中的网络日志数据映射为外
- 4.3 使用Hive 动态地为网络日志查 结果创建Hive
- 4.4 利用Hive 字符串UDF 拼接网络日志数据的各个字段
- 4.5 使用Hive 截取网络日志的IP 字段并确定其对应的国家
- 4.6 使用MapReduce 对新 档案数据生成n-gram
- 4.7 MapReduce 使用分布式缓存查找新 档案数据中包含关 的
- 4.8 使用Pig 加 一个 并执 包含GROUP BY 的SELECT操作
- 第5 章 级 接操作
- 5.1 介绍
- 5.2 使用MapReduce 对数据 接
- 5.3 使用Apache Pig 对数据 复制 接
- 5.4 使用Apache Pig 对有序数据 归并 接
- 5.5 使用Apache Pig 对倾斜数据 倾斜 接
- 5.6 在Apache Hive 中 map 端 接对地理事件 分析
- 5.7 在Apache Hive 优化的全外 接分析地理事件数据
- 5.8 使用外 值存储 Redis 接数据
- 第6 章大数据分析
- 6.1 介绍
- 6.2 使用MapReduce 和Combiner 统 网络日志数据 中的独立IP 数
- 6.3 用Hive 日期UDF 对地理事件数据 中的时 日期 换与排序
- 6.4 使用Hive 创建基于地理事件数据的每月死亡报告
- 6.5 实现Hive 用户 定义UDF 用于确 地理事件数据的来源可 性
- 6.6 使用Hive 的map/reduce 操作以及Python 标 最 的无暴力发生的时 区
- 6.7 使用Pig 算Audioscrobbler 数据 中 术家之 的余弦相似度
- 6.8 使用Pig 以及datafu 剔 Audioscrobbler 数据 中的离群值.
- 第7 章 级大数据分析
- 7.1 介绍
- 7.2 使用Apache Giraph 算PageRank
- 7.3 使用Apache Giraph 算单源最短 径
- 7.4 使用Apache Giraph 执 分布式宽度优先搜索
- 7.5 使用Apache Mahout 算协同 滤
- 7.6 使用Apache Mahout 类
- 7.7 使用Apache Mahout 情感分类
- 第8 章
- 8.1 介绍
- 8.2 在MapReduce 中使用Counters 监测异常 录
- 8.3 使用MRUnit 开发和测 MapReduce
- 8.4 本地模式下开发和测 MapReduce
- 8.5 MapReduce 作业 异常 录
- 8.6 在流 算作业中使用Counters
- 8.7 更改任务状态显示 信息
- 8.8 使用illustrate Pig 作业
- 第9 章系统管理
- 9.1 介绍
- 9.2 在伪分布模式下启动Hadoop
- 9.3 在分布式模式下启动Hadoop
- 9.4 添加一个新 点
- 9.5 点安全 役
- 9.6 NameNode 故 恢复
- 9.7 使用Ganglia 监控 群
- 9.8 MapReduce 作业参数 优
- 第10 章使用Apache Accumulo 持久化
- 10.1 介绍
- 10.2 在Accumulo 中 存储地理事件
- 10.3 使用MapReduce 批 导入地理事件数据到Accumulo
- 10.4 置 定义字段约束Accumulo 中的地理事件数据
- 10.5 使用正则 滤器 制查 结果
- 10.6 使用SumCombiner 算同一个 的不同版本的死亡数总和
- 10.7 使用Accumulo 实 单元级安全的扫描
- 10.8 使用MapReduce Accumulo 中的消息源
- 欢 来到异步社区
- 封底.