层和块

之前⾸次介绍神经⽹络时，我们关注的是具有单⼀输出的线性模型。在这⾥，整个模型只有⼀个输出。

注意，单个神经⽹络

接受⼀些输⼊；
⽣成相应的标量输出；
具有⼀组相关参数（parameters），更新这些参数可以优化某⽬标函数

当考虑具有多个输出的⽹络时，我们利⽤⽮量化算法来描述整层神经元。

像单个神经元⼀样，层

接受⼀组输⼊
⽣成相应的输出
由⼀组可调整参数描述。

为了实现更复杂的⽹络，我们引⼊了神经⽹络块的概念。块（block）可以描述单个层、由多个层组成的组件或整个模型本⾝。使⽤块进⾏抽象的⼀个好处是可以将⼀些块组合成更⼤的组件，这⼀过程通常是递归的，

从编程的⻆度来看，块由类（class）表⽰。它的任何⼦类都必须定义⼀个将其输⼊转换为输出的前向传播函数，并且必须存储任何必需的参数。注意，有些块不需要任何参数。最后，为了计算梯度，块必须具有反向传播函数。在定义我们⾃⼰的块时，由于⾃动微分提供了⼀些后端实现，我们只需要考虑前向传播函数和必需的参数。

在构造自定义块之前，我们先回顾一下多层感知机的代码。下面的代码生成一个网络，其中包含一个具有256个单元和ReLU激活函数的全连接隐藏层，然后是一个具有10个隐藏单元且不带激活函数的全连接输出层。

import torch
from torch import nn
from torch.nn import functional as F

net = nn.Sequential(nn.Linear(20, 256),
                    nn.ReLU(),
                    nn.Linear(256, 10))

X = torch.rand(2, 20)
net(X)

tensor([[ 0.0245, -0.0111, -0.0928, -0.0953, -0.0050,  0.0019, -0.1171, -0.1416,
          0.0784,  0.0440],
        [ 0.0434, -0.0726, -0.1085, -0.0335,  0.0189, -0.0921, -0.0794, -0.1732,
         -0.0648, -0.0184]], grad_fn=<AddmmBackward>)

nn.Sequential定义了一种特殊的Module，即在Pytorch中表示一个块的类，它维护了一个有Module组成的有序列表。注意，两个全连接层都是Linear类的实例，Linear类本身就算Module的子类。

在调用模型时直接使用的是net(X)获得模型的输出，这实际上是运用了魔法函数__call__(X)

自定义块

想要直观地了解块是如何工作的，最简单的方法就是自己实现一个。在实现我们自定义块之前，我们简单总结一下每个块必须提供的基本功能：

将输入数据作为其前向传播函数的参数。
通过前向传播函数来生成输出。
计算其输出关于输入的梯度，可通过其反向传播函数进行访问。
存储和访问当前传播计算所需的参数。
根据需要初始化模型参数。

class MLP(nn.Module):
    # 用模型参数声明层。这里，我们声明两个全连接的层
    def __init__(self):
        # 调用MLP的父类Module的构造函数来执行必要的初始化。
        # 这样，在类实例化时也可以指定其他函数参数，例如模型参数params
        super().__init__()
        self.hidden = nn.Linear(20, 256)  # 隐藏层
        self.out = nn.Linear(256, 10)  # 输出层
        
    # 定义模型的前向传播，即如何根据输入X返回所需的模型输出
    def forward(self, X):
        # 注意，这里我们使用ReLU的函数版本，其在nn.functional模块中定义
        return self.out(F.relu(self.hidden(X)))

1 2	net = MLP() net(X)

tensor([[ 0.1098,  0.1047,  0.0625, -0.1535,  0.0845,  0.2014, -0.2848, -0.0389,
         -0.2126,  0.2409],
        [ 0.0870,  0.0876,  0.1605, -0.0286,  0.1187,  0.0536, -0.1739,  0.0941,
         -0.0759,  0.1876]], grad_fn=<AddmmBackward>)

块的一个主要优点是它的多功能性。我们可以子类化块以创建层（如全连接层的类）、整个模型（如上面的MLP类）或具有重点复杂度的各种组件。

顺序块

现在我们可以更仔细地看看Sequential类是如何工作的，回想一下Sequential的设计是为了把其他模块串起来。为了构建我们自己的简化的MySequential，我们只需要定义两个关键函数：

一种将块逐个追加到列表中的函数。
一种前向传播函数，用于将输入按追加块的顺序传递给块组成的“链条”。

class MySequential(nn.Module):
    def __init__(self, *args):
        super().__init__()
        for idx, module in enumerate(args):
            # 这里，module是Module子类的一个实例。我们把它保存在'Module'类的成员
            # 变量_modules中。module的类型是OrderedDict
            self._modules[str(idx)] = module
            
    def forward(self, X):
        # OrderdDict保证了按照成员添加的顺序遍历它们
        for block in self._modules.values():
            X = block(X)
        return X

__init__函数将每个模块逐个添加到有序字典_modules中。你可能会好奇为什么每个Module都有一个_modules属性？以及为什么我们使用它而不是自己定义一个Python列表？简而言之，_modules的主要优点是：在模块的参数初始化过程中，系统知道在_modules字典中查找需要初始化参数的子块。

1 2	net = MySequential(nn.Linear(20, 256), nn.ReLU(), nn.Linear(256, 10)) net(X)

tensor([[-0.0161,  0.1370, -0.1066, -0.1052, -0.0573,  0.0281,  0.1026,  0.0446,
          0.1310,  0.0329],
        [-0.0654,  0.1250,  0.1760, -0.0270, -0.1305,  0.1387,  0.0318,  0.0599,
          0.1033,  0.0471]], grad_fn=<AddmmBackward>)

在前向传播函数中执行代码

Sequential类使模型构造变得简单，允许我们组合新的架构，⽽不必定义⾃⼰的类。然⽽，并不是所有的架构都是简单的顺序架构。当需要更强的灵活性时，我们需要定义⾃⼰的块。例如，我们可能希望在前向传播函数中执⾏Python的控制流。此外，我们可能希望执⾏任意的数学运算，⽽不是简单地依赖预定义的神经⽹络层。

class FixedHiddenMLP(nn.Module):
    def __init__(self):
        super().__init__()
        # 不计算梯度的随机权重参数。因此其在训练期间保持不变
        self.rand_weight = torch.rand((20, 20), requires_grad=False)
        self.linear = nn.Linear(20, 20)
    
    def forward(self, X):
        X = self.linear(X)
        # 使用创建的常量参数以及relu和mm函数
        X = F.relu(torch.mm(X, self.rand_weight) + 1)
        # 复用全连接层。这相当于两个全连接层共享参数
        X = self.linear(X)
        # 控制流
        while X.abs().sum() > 1:
            X /= 2
        return X.sum()

在返回输出之前，模型做了⼀些不寻常的事情：它运⾏了⼀个while循环，在L 1 范数⼤于1的条件下，将输出向量除以2，直到它满⾜条件为⽌。最后，模型返回了X中所有项的和。注意，此操作可能不会常⽤于在任何实际任务中，只是向你展⽰如何将任意代码集成到神经⽹络计算的流程中。

1 2	net = FixedHiddenMLP() net(X)

tensor(0.0529, grad_fn=<SumBackward0>)

我们还可以混合搭配各种组合块的方法

class NestMLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.net = nn.Sequential(nn.Linear(20, 64),
                                 nn.ReLU(),
                                 nn.Linear(64, 32),
                                 nn.ReLU())
        self.linear = nn.Linear(32, 16)
        
    def forward(self, X):
        return self.linear(self.net(X))

chimera = nn.Sequential(NestMLP(), nn.Linear(16, 20), FixedHiddenMLP())
chimera(X)

tensor(-0.0705, grad_fn=<SumBackward0>)

效率

你可能会开始担⼼操作效率的问题。毕竟，我们在⼀个⾼性能的深度学习库中进⾏了⼤量的字典查找、代码执⾏和许多其他的Python代码。Python的问题全局解释器锁是众所周知的。在深度学习环境中，我们担⼼速度极快的GPU可能要等到CPU运⾏Python代码后才能运⾏另⼀个作业。

参数管理

在选择了架构并设置了超参数后，我们就进⼊了训练阶段。此时，我们的⽬标是找到使损失函数最⼩化的模型参数值。经过训练后，我们将需要使⽤这些参数来做出未来的预测。此外，有时我们希望提取参数，以便在其他环境中复⽤它们，将模型保存下来，以便它可以在其他软件中执⾏，或者为了获得科学的理解⽽进⾏检查。

之前的介绍中，我们只依靠深度学习框架来完成训练的⼯作，⽽忽略了操作参数的具体细节。本节，我们将
介绍以下内容：

访问参数，⽤于调试、诊断和可视化。
参数初始化。
在不同模型组件间共享参数。

参数访问

import torch
from torch import nn
net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(), nn.Linear(8, 1))
X = torch.rand(size=(2, 4))
net(X)

tensor([[-0.2628],
        [-0.4082]], grad_fn=<AddmmBackward>)

我们从已有模型中访问参数。当通过Sequential类定义模型时，我们可以通过索引来访问模型的任意层。这就像模型是⼀个列表⼀样，每层的参数都在其属性中。如下所⽰，我们可以检查第⼆个全连接层的参数。

1	print(net[2].state_dict())

OrderedDict([('weight', tensor([[-0.1541, -0.2901,  0.0169, -0.2310, -0.1171,  0.2987, -0.2756,  0.3078]])), ('bias', tensor([-0.1445]))])

输出的结果告诉我们⼀些重要的事情：⾸先，这个全连接层包含两个参数，分别是该层的权重和偏置。两者都存储为单精度浮点数（float32）。注意，参数名称允许唯⼀标识每个参数，即使在包含数百个层的⽹络中也是如此。

目标参数

注意，每个参数都表⽰为参数类的⼀个实例。要对参数执⾏任何操作，⾸先我们需要访问底层的数值。有⼏种⽅法可以做到这⼀点。有些⽐较简单，⽽另⼀些则⽐较通⽤。下⾯的代码从第⼆个全连接层（即第三个神经⽹络层）提取偏置，提取后返回的是⼀个参数类实例，并进⼀步访问该参数的值。

1
2
3

print(type(net[2].bias))
print(net[2].bias)
print(net[2].bias.data)

<class 'torch.nn.parameter.Parameter'>
Parameter containing:
tensor([-0.1445], requires_grad=True)
tensor([-0.1445])

参数是复合的对象，包含值、梯度和额外信息。这就是我们需要显式参数值的原因。除了值之外，我们还可以访问每个参数的梯度。在上⾯这个⽹络中，由于我们还没有调⽤反向传播，所以参数的梯度处于初始状态。

1	net[2].weight.grad == None

True

一次访问所有参数

当我们需要对所有参数执⾏操作时，逐个访问它们可能会很⿇烦。当我们处理更复杂的块（例如，嵌套块）时，情况可能会变得特别复杂，因为我们需要递归整个树来提取每个⼦块的参数。下⾯，我们将通过演⽰来⽐较访问第⼀个全连接层的参数和访问所有层。

1 2	# 访问第一个全连接层的参数 print(*[(name, param.shape) for name, param in net[0].named_parameters()])

('weight', torch.Size([8, 4])) ('bias', torch.Size([8]))

1 2	# 访问所有层 print(*[(name, param.shape) for name, param in net.named_parameters()])

('0.weight', torch.Size([8, 4])) ('0.bias', torch.Size([8])) ('2.weight', torch.Size([1, 8])) ('2.bias', torch.Size([1]))

这为我们提供了另⼀种访问⽹络参数的⽅式，如下所⽰。

1	net.state_dict()['2.weight'].data

tensor([[-0.1541, -0.2901,  0.0169, -0.2310, -0.1171,  0.2987, -0.2756,  0.3078]])

从嵌套块收集参数

让我们看看，如果我们将多个块相互嵌套，参数命名约定是如何⼯作的。我们⾸先定义⼀个⽣成块的函数（可以说是“块⼯⼚”），然后将这些块组合到更⼤的块中。

def block1():
    return nn.Sequential(nn.Linear(4, 8),
                         nn.ReLU(),
                         nn.Linear(8, 4),
                         nn.ReLU())

def block2():
    net = nn.Sequential()
    for i in range(4):
        # 在这里嵌套
        net.add_module(f'block{i}', block1())
    return net

rgnet = nn.Sequential(block2(), nn.Linear(4, 1))
rgnet(X)

tensor([[-0.2735],
        [-0.2735]], grad_fn=<AddmmBackward>)

设计了⽹络后，我们看看它是如何⼯作的。

1	print(rgnet)

Sequential(
  (0): Sequential(
    (block0): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block1): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block2): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block3): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
  )
  (1): Linear(in_features=4, out_features=1, bias=True)
)

因为层是分层嵌套的，所以我们也可以像通过嵌套列表索引⼀样访问它们。下⾯，我们访问第⼀个主要的块中、第⼆个⼦块的第⼀层的偏置项。

1	rgnet[0][1][0].bias.data

tensor([-0.1550, -0.0942, -0.2024, -0.2669,  0.0101,  0.3473, -0.3262, -0.0965])

参数初始化

知道了如何访问参数后，现在我们看看如何正确地初始化参数。我们在 4.8节中讨论了良好初始化的必要性。深度学习框架提供默认随机初始化，也允许我们创建⾃定义初始化方法，满⾜我们通过其他规则实现初始化权重。

默认情况下，PyTorch会根据⼀个范围均匀地初始化权重和偏置矩阵，这个范围是根据输⼊和输出维度计算出的。PyTorch的nn.init模块提供了多种预置初始化⽅法。

内置初始化

让我们首先调⽤内置的初始化器。

下⾯的代码将所有权重参数初始化为标准差为0.01的⾼斯随机变量，且将偏置参数设置为0。

def init_normal(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, mean=0, std=0.01)
        nn.init.zeros_(m.bias)
net.apply(init_normal)
net[0].weight.data[0], net[0].bias.data[0]

(tensor([ 0.0167,  0.0012, -0.0071,  0.0068]), tensor(0.))

将所有参数初始化为给定的常数，⽐如初始化为1。

def init_constant(m):
    if type(m) == nn.Linear:
        nn.init.constant_(m.weight, 1)
        nn.init.zeros_(m.bias)
net.apply(init_constant)
net[0].weight.data[0], net[0].bias.data[0]

(tensor([1., 1., 1., 1.]), tensor(0.))

还可以对某些块应⽤不同的初始化方法。

例如，下⾯我们使⽤Xavier初始化⽅法初始化第⼀个神经⽹络层，然后将第三个神经⽹络层初始化为常量值42。

def xavier(m):
    if type(m) == nn.Linear:
        nn.init.xavier_uniform_(m.weight)
        
def init_42(m):
    if type(m) == nn.Linear:
        nn.init.constant_(m.weight, 42)

net[0].apply(xavier)
net[2].apply(init_42)
print(net[0].weight.data[0])
print(net[2].weight.data)

tensor([ 0.5670, -0.0233,  0.1025, -0.4254])
tensor([[42., 42., 42., 42., 42., 42., 42., 42.]])

自定义初始化

有时，深度学习框架没有提供我们需要的初始化⽅法。在下⾯的例⼦中，我们使⽤以下的分布为任意权重参数$w$定义初始化⽅法：

$w \sim \begin{cases}U(5,10) & \text { 可能性 } \frac{1}{4} \\ 0 & \text { 可能性 } \frac{1}{2} \\ U(-10,-5) & \text { 可能性 } \frac{1}{4}\end{cases}$

同样，我们实现了一个my_init函数来应用到net

def my_init(m):
    if type(m) == nn.Linear:
        print("Init", *[(name, param.shape) for name, param in m.named_parameters()][0])
        nn.init.uniform_(m.weight, -10, 10)
        m.weight.data *= m.weight.data.abs() >= 5
        
net.apply(my_init)
net[0].weight[:2]

Init weight torch.Size([8, 4])
Init weight torch.Size([1, 8])





tensor([[ 0.0000,  6.1604, -0.0000, -0.0000],
        [-0.0000, -6.2209,  0.0000, -6.2103]], grad_fn=<SliceBackward>)

注意，我们始终可以直接设置参数。

1
2
3

net[0].weight.data[:] += 1
net[0].weight.data[0, 0] = 42
net[0].weight.data[0]

tensor([42.0000,  7.1604,  1.0000,  1.0000])

参数绑定

有时我们希望在多个层间共享参数：我们可以定义⼀个稠密层，然后使⽤它的参数来设置另⼀个层的参数。

# 我们需要给共享层⼀个名称，以便可以引⽤它的参数
shared = nn.Linear(8, 8)
net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(),
                    shared, nn.ReLU(),
                    shared, nn.ReLU(),
                    nn.Linear(8, 1))
print(net)
net(X)
# 检查参数是否相同
print(net[2].weight.data[0] == net[4].weight.data[0])
net[2].weight.data[0, 0] = 100
print('net[4]结果：', net[4].weight.data[0, 0])
# 确保它们实际上是同⼀个对象，⽽不只是有相同的值
print(net[2].weight.data[0] == net[4].weight.data[0])

Sequential(
  (0): Linear(in_features=4, out_features=8, bias=True)
  (1): ReLU()
  (2): Linear(in_features=8, out_features=8, bias=True)
  (3): ReLU()
  (4): Linear(in_features=8, out_features=8, bias=True)
  (5): ReLU()
  (6): Linear(in_features=8, out_features=1, bias=True)
)
tensor([True, True, True, True, True, True, True, True])
net[4]结果： tensor(100.)
tensor([True, True, True, True, True, True, True, True])

这个例⼦表明第三个和第五个神经⽹络层的参数是绑定的。它们不仅值相等，⽽且由相同的张量表⽰。因此，如果我们改变其中⼀个参数，另⼀个参数也会改变。你可能会思考：当参数绑定时，梯度会发⽣什么情况？答案是由于模型参数包含梯度，因此在反向传播期间第⼆个隐藏层（即第三个神经⽹络层）和第三个隐藏层（即第五个神经⽹络层）的梯度会加在⼀起。

延后初始化

到目前为止，我们忽略了建立网络时需要做的以下这些事情：

我们定义了网络架构，但没有指定输入维度
我们添加层时没有指定前一层的输出维度
我们在初始化参数时，甚至没有足够的信息来确定模型应该包含多少参数

你可能会对我们的代码能运行感到惊讶。毕竟，深度学习框架无法判断网络的输入维度是什么。这里的诀窍是框架的延后初始化，即直到数据第一次通过模型传递时，框架才会动态地推断出每个层的大小。

实例化网络

nn.LazyLinear：延后初始化，全连接层

1
2
3

net = nn.Sequential(nn.LazyLinear(256),
                    nn.ReLU(),
                    nn.Linear(256, 10))

1	print(net)

Sequential(
  (0): LazyLinear(in_features=0, out_features=256, bias=True)
  (1): ReLU()
  (2): Linear(in_features=256, out_features=10, bias=True)
)

1	net[0].weight

Uninitialized parameter

net(X)

tensor([[ 0.2092, -0.2179, -0.0044,  0.1780, -0.2131,  0.1658,  0.3004, -0.0157,
         -0.1154, -0.3769],
        [ 0.3296, -0.0757,  0.0329,  0.0812, -0.1362,  0.2927,  0.0773,  0.0638,
         -0.0448, -0.2469]], grad_fn=<AddmmBackward>)

1	net[0].weight # 经过使用后会自动进行初始化

Parameter containing:
tensor([[-0.1225, -0.1422,  0.3074,  0.3573],
        [-0.2188,  0.0541,  0.0414,  0.0416],
        [-0.4397, -0.2238, -0.4481, -0.1612],
        ...,
        [ 0.1303,  0.1513,  0.0017, -0.3045],
        [-0.4023,  0.0995, -0.3202,  0.1096],
        [ 0.2366,  0.3432,  0.1951,  0.2831]], requires_grad=True)

自定义层

深度学习成功背后的⼀个因素是神经⽹络的灵活性：我们可以⽤创造性的⽅式组合不同的层，从⽽设计出适⽤于各种任务的架构。例如，研究⼈员发明了专⻔⽤于处理图像、⽂本、序列数据和执⾏动态规划的层。未来，你会遇到或要⾃⼰发明⼀个现在在深度学习框架中还不存在的层。在这些情况下，你必须构建⾃定义层。在本节中，我们将向你展⽰如何构建。

不带参数的层

⾸先，我们构造⼀个没有任何参数的⾃定义层。如果你还记得我们对块的介绍，这应该看起来很眼熟。下⾯的CenteredLayer类要从其输⼊中减去均值。要构建它，我们只需继承基础层类并实现前向传播功能

1
2
3

import torch
import torch.nn.functional as F
from torch import nn

class CenteredLayer(nn.Module):
    def __init__(self):
        super().__init__()
        
    def forward(self, X):
        return X - X.mean()

1 2	layer = CenteredLayer() layer(torch.FloatTensor([1, 2, 3, 4, 5]))

tensor([-2., -1.,  0.,  1.,  2.])

我们可以将层作为组件合并到更复杂的模型中

1	net = nn.Sequential(nn.Linear(8, 128), CenteredLayer())

作为额外的健全性检查，我们可以在向该网络发送随机数据后，检查均值是否为0。由于我们处理的是浮点数，因为存储精度的原因，我们仍然可能会看到一个非常小的非零数。

1 2	Y = net(torch.rand(4, 8)) Y.mean()

tensor(-9.3132e-09, grad_fn=<MeanBackward0>)

带参数的层

上我们知道了如何定义简单的层，下⾯我们继续定义具有参数的层，这些参数可以通过训练进⾏调整。我们可以使⽤内置函数来创建参数，这些函数提供⼀些基本的管理功能。⽐如管理访问、初始化、共享、保存和加载模型参数。这样做的好处之⼀是：我们不需要为每个⾃定义层编写⾃定义的序列化程序。

现在，让我们实现⾃定义版本的全连接层。回想⼀下，该层需要两个参数，⼀个⽤于表⽰权重，另⼀个⽤于表⽰偏置项。在此实现中，我们使⽤修正线性单元作为激活函数。该层需要输⼊参数：in_units和units，分别表⽰输⼊数和输出数。

class MyLinear(nn.Module):
    def __init__(self, in_units, units):
        super().__init__()
        self.weight = nn.Parameter(torch.randn(in_units, units))
        self.bias = nn.Parameter(torch.randn(units,))
    
    def forward(self, X):
        linear = torch.matmul(X, self.weight.data) + self.bias.data
        return F.relu(linear)

1 2	linear = MyLinear(5, 3) linear.weight

Parameter containing:
tensor([[ 1.0367,  0.7462,  2.7232],
        [ 0.1762,  2.0692, -0.8030],
        [ 2.1293, -0.1297,  0.3912],
        [-0.4883, -0.2507, -0.5120],
        [-0.5646,  0.6213,  1.0068]], requires_grad=True)

我们可以使用自定义层直接执行前向传播计算

1	linear(torch.rand(2, 5))

tensor([[0.0000, 1.9341, 2.1127],
        [0.0000, 1.4290, 0.2516]])

我们还可以使用自定义层构建模型，就像使用内置的全连接层一样使用自定义层

1 2	net = nn.Sequential(MyLinear(64, 8), MyLinear(8, 1)) net(torch.rand(2, 64))

tensor([[0.7789],
        [0.0000]])

读写文件

对于单个张量，我们可以直接调用load和save函数分别读写它们。

1
2
3

import torch
from torch import nn
import torch.nn.functional as F

1 2	x = torch.arange(4) torch.save(x, 'x-file')

我们现在可以将存储在文件中的数据读回内存

1 2	x2 = torch.load('x-file') x2

tensor([0, 1, 2, 3])

我们可以存储一个张量列表，然后把它们读回内存

1 2	y = torch.zeros(4) torch.save([x, y], 'x-files')

1 2	x2, y2 = torch.load('x-files') x2, y2

(tensor([0, 1, 2, 3]), tensor([0., 0., 0., 0.]))

我们甚至可以写入或读取从字符串映射到张量的字典。当我们要读取或写入模型中的所有权重时，这很方便

1 2	mydict = {'x': x, 'y': y} torch.save(mydict, 'mydict')

1 2	mydict2 = torch.load('mydict') mydict2

{'x': tensor([0, 1, 2, 3]), 'y': tensor([0., 0., 0., 0.])}

加载和保存模型参数

class MLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.hidden = nn.Linear(20, 256)
        self.output = nn.Linear(256, 10)
    
    def forward(self, x):
        return self.output(F.relu(self.hidden(x)))

1
2
3

net = MLP()
X = torch.randn(size=(2, 20))
Y = net(X)

1 2	# 保存模型参数 torch.save(net.state_dict(), 'mlp.params')

# 加载模型参数
clone = MLP()
clone.load_state_dict(torch.load('mlp.params'))
clone.eval()

MLP(
  (hidden): Linear(in_features=20, out_features=256, bias=True)
  (output): Linear(in_features=256, out_features=10, bias=True)
)

由于两个模型参数相同，所以得到的预测值应该一样，可以验证一下

1 2	Y_clone = clone(X) Y_clone == Y

tensor([[True, True, True, True, True, True, True, True, True, True],
        [True, True, True, True, True, True, True, True, True, True]])

发现预测结果确实全部都一样

GPU

1 2	# 查看显卡信息 !nvidia-smi

Tue Aug  9 15:27:18 2022       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 472.19       Driver Version: 472.19       CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA GeForce ... WDDM  | 00000000:01:00.0 Off |                  N/A |
| N/A   42C    P8    N/A /  N/A |    365MiB /  2048MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A      1544    C+G   ...2txyewy\TextInputHost.exe    N/A      |
|    0   N/A  N/A      2132    C+G   ...5n1h2txyewy\SearchApp.exe    N/A      |
|    0   N/A  N/A      6704    C+G   Insufficient Permissions        N/A      |
|    0   N/A  N/A      6844    C+G   ...d\runtime\WeChatAppEx.exe    N/A      |
|    0   N/A  N/A     12076    C+G   ...m Files\SDKDNS\SDKDNS.exe    N/A      |
|    0   N/A  N/A     16400    C+G   Insufficient Permissions        N/A      |
|    0   N/A  N/A     21108    C+G   ...kyb3d8bbwe\HxAccounts.exe    N/A      |
|    0   N/A  N/A     27024    C+G   Insufficient Permissions        N/A      |
|    0   N/A  N/A     28520    C+G   ...cw5n1h2txyewy\LockApp.exe    N/A      |
|    0   N/A  N/A     31328    C+G   ...tracted\WechatBrowser.exe    N/A      |
+-----------------------------------------------------------------------------+

在PyTorch中，每个数组都有一个设备（device），我们通常将其称为上下文（context）。默认情况下，所有变量和相关的计算都分配给CPU。有时上下文可能是GPU。当我们跨多个服务器部署作业时，事情会变得更加棘手。通过智能地将数组分配给上下文，我们可以最大限度地减少在设备之间传输数据的时间。例如，当在带有GPU的服务器上训练神经网络时，我们通常希望模型的参数在GPU上。

要运行此部分中的程序，至少需要俩个GPU。注意，对于大多数桌面计算机来说，这可能是奢侈的，但在云中很容易获得。

1 2	# 查看GPU是否可用 torch.cuda.is_available()

True

1 2	# 查看可用GPU数量 torch.cuda.device_count()

1	torch.device("cuda")

device(type='cuda')

我们可以查询张量所在的设备，默认情况下，张量存储在cpu中

1 2	x = torch.tensor([1, 2, 3]) x.device

device(type='cpu')

需要注意的是，⽆论何时我们要对多个项进⾏操作，它们都必须在同⼀个设备上。例如，如果我们对两个张量求和，我们需要确保两个张量都位于同⼀个设备上，否则框架将不知道在哪⾥存储结果，甚⾄不知道在哪⾥执⾏计算。

1
2
3

# 在GPU上创建tensor
X = torch.ones(2, 3, device='cuda')
X.device

device(type='cuda', index=0)

# 将cpu中的tensor复制到GPU中
# 方法一
print('转移前：', x.device)
z = x.to('cuda')
print('转移后：', z.device)

转移前： cpu
转移后： cuda:0

# 将cpu中的tensor复制到GPU中
# 方法二
print('转移前：', x.device)
z = x.cuda()
print('转移后：', z.device)

转移前： cpu
转移后： cuda:0

此方法也同样使用，当存在多张GPU时，如何在不同的GPU中进行数据的交互。

例如：将GPU0中的tensor转移到GPU1中。

Z = X.cuda(1)

tensor([1, 2, 3])

1 2	xx = X[0] xx

tensor([1., 1., 1.], device='cuda:0')

不同设备之间tensor是无法进行计算的

x + xx

---------------------------------------------------------------------------

RuntimeError                              Traceback (most recent call last)

~\AppData\Local\Temp\ipykernel_18704\1702998212.py in <module>
----> 1 x + xx


RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!

要使用模型进行数据的计算，也必须将模型放入GPU中，同时保证Tensor也必须在GPU中

1	net = nn.Sequential(nn.Linear(3, 1)) # 模型默认也在cpu中

1	net(x*1.0)

tensor([1.0507], grad_fn=<AddBackward0>)

1	net(xx*1.0) # cpu中的模型无法计算GPU中的张量

---------------------------------------------------------------------------

RuntimeError                              Traceback (most recent call last)

~\AppData\Local\Temp\ipykernel_18704\2159940700.py in <module>
----> 1 net(xx*1.0)


d:\users\python\anaconda3.8\envs\pytorch\lib\site-packages\torch\nn\modules\module.py in _call_impl(self, *input, **kwargs)
    887             result = self._slow_forward(*input, **kwargs)
    888         else:
--> 889             result = self.forward(*input, **kwargs)
    890         for hook in itertools.chain(
    891                 _global_forward_hooks.values(),


d:\users\python\anaconda3.8\envs\pytorch\lib\site-packages\torch\nn\modules\container.py in forward(self, input)
    117     def forward(self, input):
    118         for module in self:
--> 119             input = module(input)
    120         return input
    121 


d:\users\python\anaconda3.8\envs\pytorch\lib\site-packages\torch\nn\modules\module.py in _call_impl(self, *input, **kwargs)
    887             result = self._slow_forward(*input, **kwargs)
    888         else:
--> 889             result = self.forward(*input, **kwargs)
    890         for hook in itertools.chain(
    891                 _global_forward_hooks.values(),


d:\users\python\anaconda3.8\envs\pytorch\lib\site-packages\torch\nn\modules\linear.py in forward(self, input)
     92 
     93     def forward(self, input: Tensor) -> Tensor:
---> 94         return F.linear(input, self.weight, self.bias)
     95 
     96     def extra_repr(self) -> str:


d:\users\python\anaconda3.8\envs\pytorch\lib\site-packages\torch\nn\functional.py in linear(input, weight, bias)
   1751     if has_torch_function_variadic(input, weight):
   1752         return handle_torch_function(linear, (input, weight), input, weight, bias=bias)
-> 1753     return torch._C._nn.linear(input, weight, bias)
   1754 
   1755 


RuntimeError: Tensor for argument #3 'mat2' is on CPU, but expected it to be on GPU (while checking arguments for addmm)

1	net1 = net.to('cuda')

1	net1(xx) # 将模型转移到GPU中后即可开始计算

tensor([0.3924], device='cuda:0', grad_fn=<AddBackward0>)

Ming-Log's Blog

动手学深度学习【Pytorch】第5章_深度学习计算

层和块