Hadoop-12-YARN

发表于 2023-07-25 更新于 2024-11-23 分类于技术
本文字数： 13k 阅读时长 ≈ 12 分钟

什么是YARN

Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。

YARN基础架构

YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。

阅读全文 »

Hadoop-11-Hadoop数据压缩

发表于 2023-07-21 更新于 2024-11-23 分类于技术
本文字数： 2.1k 阅读时长 ≈ 2 分钟

数据压缩概述

压缩的好处和坏处

压缩的优点：以减少磁盘IO、减少磁盘存储空间。

压缩的缺点：增加CPU开销。

压缩原则

运算密集型的Job，少用压缩。
IO密集型的Job，多用压缩。

阅读全文 »

Hadoop-10-MapReduce框架原理2

发表于 2023-07-18 更新于 2024-11-23 分类于技术
本文字数： 20k 阅读时长 ≈ 18 分钟

OutputFormat数据输出

OutputFormat概述

OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口。

在MR中默认的使用的OutputFormat子类是TextOutputFormat。

源码分析

打开IDEA，双击两下Shift键搜索OutputFormat查看源码，然后将光标防放在OutputFormat类名上按Ctrl + H查看层次结构。

阅读全文 »

Hadoop-9-MapReduce框架原理1

发表于 2023-07-17 更新于 2024-11-23 分类于技术
本文字数： 18k 阅读时长 ≈ 16 分钟

MapReduce的构成

从流的角度

Input ---> InputFormat --->Mapper--->Shuffle--->Reducer--->OutputFormat--->Output

从不同的阶段

Map阶段---->Reduce阶段

Map阶段 ---> Shuffle(Map后半段+Reduce前半段)--->Reduce阶段

从源码的角度

MapTask：map ---> sort

1 2	mapPhase = getProgress().addPhase("map", 0.667f); sortPhase = getProgress().addPhase("sort", 0.333f);

ReduceTask : copy ---> sort ---> reduce

1
2
3

copyPhase = getProgress().addPhase("copy");
sortPhase  = getProgress().addPhase("sort");
reducePhase = getProgress().addPhase("reduce");

阅读全文 »

Hadoop-8-Hadoop序列化

发表于 2023-07-17 更新于 2024-11-23 分类于技术
本文字数： 5.9k 阅读时长 ≈ 5 分钟

序列化概述

什么是序列化

序列化：就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。

反序列化：就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。

为什么要序列化

一般来说，“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象，可以将“活的”对象发送到远程计算机。

阅读全文 »

Hadoop-7-MapReduce概述

发表于 2023-07-16 更新于 2024-11-23
本文字数： 12k 阅读时长 ≈ 11 分钟

MapReduce定义

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。

MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

阅读全文 »

Hadoop-6-HDFS2

发表于 2023-07-13 更新于 2024-11-23 分类于技术
本文字数： 6.2k 阅读时长 ≈ 6 分钟

HDFS读写流程

写数据流程

写数据流程如图所示：

阅读全文 »

Hadoop-5-HDFS1

发表于 2023-07-12 更新于 2024-11-23 分类于技术
本文字数： 13k 阅读时长 ≈ 12 分钟

HDFS概述

HDFS产生的背景

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。

HDFS定义

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

阅读全文 »

Hadoop-4-Hadoop运行模式

发表于 2023-07-11 更新于 2024-11-23 分类于技术
本文字数： 14k 阅读时长 ≈ 13 分钟

Hadoop的运行模式包括：本地模式、伪分布式以及完全分布式

本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。
伪分布式模式：也是单机运行，但是具备Hadoop集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。
完全分布式模式：多台服务器组成分布式环境。生产环境使用。

阅读全文 »

Hadoop-3-根据模板虚拟机克隆节点

发表于 2023-07-06 更新于 2024-11-23 分类于技术
本文字数： 186 阅读时长 ≈ 1 分钟

参考此文章按照以下内容去克隆3个节点。

节点102，IP地址：192.168.128.102，hostname：hadoop102
节点103，IP地址：192.168.128.103，hostname：hadoop103
节点104，IP地址：192.168.128.104，hostname：hadoop104

阅读全文 »