Docker-2-常用Dockerfile命令

发表于 2023-08-13 分类于技术
本文字数： 3k 阅读时长 ≈ 3 分钟

常用Dockerfile命令汇总。

Docker-1-Docker基础

发表于 2023-08-12 更新于 2023-08-17 分类于技术
本文字数： 21k 阅读时长 ≈ 19 分钟

docker简介

什么是docker

Docker 最初是dotCloud公司创始人Solomon Hykes在法国期间发起的一个公司内部项目，它是基于 dotCloud公司多年云服务技术的一次革新，并于2013年3月以 Apache 2.0 授权协议开源，主要项目代码在 GitHub上进行维护。Docker 项目后来还加入了Linux基金会，并成立推动开放容器联盟（OCI）。

Docker使用 Google 公司推出的Go语言进行开发实现，基于Linux 内核的cgroup，namespace，以及OverlayFS 类的Union FS 等技术，对进程进行封装隔离，属于操作系统层面的虚拟化技术。由于隔离的进程独立于宿主和其它的隔离的进程，因此也称其为容器。最初实现是基于LXC，从 0.7版本以后开始去除 LXC，转而使用自行开发的libcontainer，从 1.11开始，则进一步演进为使用runC 和containerd。

Docker在容器的基础上，进行了进一步的封装，从文件系统、网络互联到进程隔离等等，极大的简化了容器的创建和维护。使得 Docker 技术比虚拟机技术更为轻便、快捷。

阅读全文 »

使用百度网盘不占用额外硬盘空间同步文件

发表于 2023-08-12 分类于技术
本文字数： 2.5k 阅读时长 ≈ 2 分钟

前言

不知道大家是否需要过这样的问题，自己有多台电脑，例如：一个在家，一个在公司。有的时候在家使用电脑时，需要用到公司电脑的文件，这个时候一般的做法是远程控制公司电脑，然后将文件拷贝过来。但是这样做有以下弊端：

想要远控公司电脑，必须保证公司电脑是开启且不休眠的状态。
对于小文件，少量文件这样做没有问题，但是对于大量小文件或者大文件而言，使用远程工具去拷贝对于网速的要求非常高，并且速度很慢。

阅读全文 »

Hadoop-19-Hive4分区表、分桶表与函数

发表于 2023-08-09 更新于 2024-11-23 分类于技术
本文字数： 19k 阅读时长 ≈ 17 分钟

分区表与分桶表

我们创建一个hive表时，此时在hdfs上就在默认路径下创建了一个以表的名字命名的文件夹。

Hive表中的数据在hdfs上则是对应文件夹下的所有文件。在查询表中数据时，其实就是将文件夹下的所有文件进行读取，在海量数据的场景下，这无疑是非常耗时的，并且在实际生产环境中，往往会进行查询过滤。

阅读全文 »

Hadoop-18-Hive3查询操作

发表于 2023-08-08 更新于 2024-11-23 分类于技术
本文字数： 9.1k 阅读时长 ≈ 8 分钟

基础语法及执行顺序

查询语句语法

SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SORT BY col_list]]
[LIMIT number]

书写次序和执行次序

顺序	书写次序	书写次序说明	执行次序	执行次序说明
1	`select`	查询	`from`	先执行表与表直接的关系
2	`from`	先执行表与表直接的关系	`on`
3	`join on`		`join`
4	`where`		`where`	过滤
5	`group by`	分组	`group by`	分组
6	`having`	分组后再过滤	`having`	分组后再过滤
7	`distribute by` `cluster by`	4个by	`select`	查询
8	`sort by`		`distinct`	去重
9	`order by`		`distribute by` `cluster by`	4个by
10	`limit`	限制输出的行数	`sort by`
11	`union/union all`	合并	`order by`
12			`limit`	限制输出的行数
13			`union /union all`	合并

阅读全文 »

Hadoop-17-Hive2

发表于 2023-08-05 更新于 2024-11-23 分类于技术
本文字数： 13k 阅读时长 ≈ 11 分钟

Hive数据类型

在Hive种数据类型分为两种：

基本数据类型
集合数据类型

基本数据类型

Hive数据类型	Java数据类型	长度	例子
`TINYINT`	`byte`	`1byte`有符号整数	`20`
`SMALINT`	`short`	`2byte`有符号整数	`20`
INT	`int`	`4byte`有符号整数	`20`
BIGINT	`long`	`8byte`有符号整数	`20`
`BOOLEAN`	`boolean`	布尔类型，`true`或者`false`	`TRUE FALSE`
`FLOAT`	`float`	单精度浮点数	`3.14159`
DOUBLE	`double`	双精度浮点数	`3.14159`
STRING	`string`	字符系列。可以指定字符集。可以使用单引号或者双引号。	`Hello world!`
`TIMESTAMP`		时间类型
`BINARY`		字节数组

对于Hive的String类型相当于数据库的varchar类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储2GB的字符数。

阅读全文 »

Hadoop-16-Hive1

发表于 2023-08-03 更新于 2024-11-23 分类于技术
本文字数： 16k 阅读时长 ≈ 14 分钟

IDEA的扩展功能

之前每次我们想要去修改集群中的一些配置文件，采用的方式是vim，这种方式对于非常熟悉vim命令的程序员来说是很方便的，但是对于我们大多数初学者很不友好。前面我们使用过IDEA去编写Java代码，这种方式十分高效，那么如果可以使用IDEA去直接修改配置文件，那我们代码的编写效率就可以大大提升了。

在IDEA中是有这样的功能的，接下来我们一起操作。

依次点击工具->部署->浏览远程主机

阅读全文 »

Hadoop-15-HA

发表于 2023-08-02 更新于 2024-11-23 分类于技术
本文字数： 12k 阅读时长 ≈ 11 分钟

HA概述

所谓HA（High Availablity），即高可用（7 * 24小时不中断服务）。
实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。
NameNode主要在以下两个方面影响HDFS集群
- NameNode机器发生意外，如宕机，集群将无法使用，直到管理员重启。
- NameNode机器需要升级，包括软件、硬件升级，此时集群也将无法使用。