找回密码
 立即注册
首页 业界区 业界 4-5权重衰减

4-5权重衰减

顶豌 2025-6-23 20:34:59
4-5权重衰减

1.高维线性回归
  1. %matplotlib inline
  2. import torch
  3. from torch import nn
  4. from d2l import torch as d2l
复制代码
代码解释


  • n_train, n_test, num_inputs, batch_size = 20, 100, 200, 5

    • 定义了一些超参数:

      • n_train:训练数据集的样本数量,这里为 20。
      • n_test:测试数据集的样本数量,这里为 100。
      • num_inputs:输入特征的数量,这里为 200。
      • batch_size:每个小批量的样本数量,这里为 5。


  • true_w, true_b = torch.ones((num_inputs, 1)) \* 0.01, 0.05

    • 定义了线性模型的真实权重和偏置:

      • true_w:真实权重是一个形状为 (num_inputs, 1) 的张量,所有元素初始化为 0.01。
      • true_b:真实偏置是一个标量,值为 0.05。


  • train_data = d2l.synthetic_data(true_w, true_b, n_train)

    • 使用 d2l.synthetic_data 函数生成训练数据集。

      • true_w 和 true_b 是线性模型的真实参数。
      • n_train 是训练数据集的样本数量。
      • 该函数会生成一个包含输入特征和对应目标值的数据集。


  • train_iter = d2l.load_array(train_data, batch_size)

    • 使用 d2l.load_array 函数将训练数据集转换为一个数据迭代器。

      • train_data 是训练数据集。
      • batch_size 是每个小批量的样本数量。
      • 数据迭代器会在每次迭代时返回一个包含 batch_size 个样本的小数据批量。


  • test_data = d2l.synthetic_data(true_w, true_b, n_test)

    • 使用 d2l.synthetic_data 函数生成测试数据集。

      • true_w 和 true_b 是线性模型的真实参数。
      • n_test 是测试数据集的样本数量。
      • 该函数会生成一个包含输入特征和对应目标值的数据集。


  • test_iter = d2l.load_array(test_data, batch_size, is_train=False)


  • 使用 d2l.load_array 函数将测试数据集转换为一个数据迭代器。

    • test_data 是测试数据集。
    • batch_size 是每个小批量的样本数量。
    • is_train=False 表示这是一个测试数据迭代器,通常用于评估模型性能。

  1. # 定义超参数
  2. # 训练样本数测试、样本数、输入特征数、小批量样本数
  3. n_train, n_test, num_inputs, batch_size = 20, 100, 200, 5
  4. # 定义线性模型的真实权重和偏置
  5. true_w, true_b = torch.ones((num_inputs, 1)) * 0.01, 0.05
  6. # 生成训练数据集
  7. train_data = d2l.synthetic_data(true_w, true_b, n_train)
  8. # 创建训练数据迭代器
  9. train_iter = d2l.load_array(train_data, batch_size)
  10. # 生成测试数据集
  11. test_data = d2l.synthetic_data(true_w, true_b, n_test)
  12. # 创建测试数据迭代器
  13. test_iter = d2l.load_array(test_data, batch_size, is_train=False)
复制代码
2.从0开始实现

2.1 初始化模型参数

代码解释


  • def init_params():

    • 定义了一个函数 init_params(),该函数用于初始化模型的参数。

  • w = torch.normal(0, 1, size=(num_inputs, 1), requires_grad=True)

    • 使用 torch.normal 函数初始化权重参数 w。

      • 0 和 1 分别是均值和标准差,表示权重参数从均值为 0、标准差为 1 的正态分布中随机采样。
      • size=(num_inputs, 1) 指定了权重参数的形状,即输入特征数为 num_inputs,输出为 1。
      • requires_grad=True 表示这个张量需要计算梯度,用于后续的反向传播。


  • b = torch.zeros(1, requires_grad = True)

    • 使用 torch.zeros 函数初始化偏置参数 b。

      • 1 指定了偏置参数的形状,即一个标量。
      • requires_grad=True 表示这个张量需要计算梯度,用于后续的反向传播。


  • return [w, b]

    • 返回初始化后的权重参数 w 和偏置参数 b,以列表的形式返回。

  1. def init_params():
  2.     # 初始化权重参数,从均值为0、标准差为1的正态分布中随机采样,形状为(num_inputs, 1),需要计算梯度
  3.     w = torch.normal(0, 1, size=(num_inputs, 1), requires_grad=True)
  4.     # 初始化偏置参数,为0,形状为1,需要计算梯度
  5.     b = torch.zeros(1, requires_grad = True)
  6.    
  7.     # 返回初始化后的权重和偏置参数
  8.     return [w, b]
复制代码
2.2 定义 L2 范数惩罚
  1. def l2_penalty(w):
  2.     return torch.sum(w.pow(2)) / 2
复制代码
2.3 定义训练代码实现

代码解释


  • def train(lambd):

    • 定义了一个函数 train(lambd),其中 lambd 是 L2 正则化的参数,用于控制正则项的强度。

  • w, b = init_params()

    • 调用 init_params() 函数初始化模型的权重 w 和偏置 b。

  • net, loss = lambda X: d2l.linreg(X, w, b), d2l.squared_loss

    • 定义了模型 net 和损失函数 loss。

      • net 是一个 lambda 函数,表示线性回归模型,输入 X,输出 d2l.linreg(X, w, b)。
      • loss 是平方损失函数,用于计算预测值和真实值之间的差异。


  • num_epochs, lr = 100, 0.003

    • 定义了训练的超参数:

      • num_epochs:训练的总轮数,这里为 100。
      • lr:学习率,这里为 0.003。


  • animator = d2l.Animator(xlabel = 'epochs', ylabel = 'loss', yscale = 'log', xlim = [5, num_epochs], legend = ['train', 'test'])

    • 创建了一个 d2l.Animator 对象,用于动态绘制训练过程中的损失曲线。

      • xlabel 和 ylabel 分别设置了 x 轴和 y 轴的标签。
      • yscale='log' 表示 y 轴使用对数刻度。
      • xlim=[5, num_epochs] 设置了 x 轴的范围。
      • legend=['train', 'test'] 设置了图例,分别表示训练集和测试集的损失。


  • for epoch in range(num_epochs):

    • 外层循环,表示训练的总轮数。

  • for x, y in train_iter:

    • 内层循环,遍历训练数据迭代器 train_iter,每次获取一个小批量的数据 x 和对应的标签 y。

  • l = loss(net(x), y) + lambd \* l2_penalty(w)

    • 计算损失值 l,包括平方损失和 L2 正则化项。

      • loss(net(x), y) 是平方损失。
      • lambd * l2_penalty(w) 是 L2 正则化项,l2_penalty(w) 是权重参数 w 的 L2 范数。


  • l.sum().backward()

    • 对损失值 l 求和后进行反向传播,计算梯度。

  • d2l.sgd([w, b], lr, batch_size)

    • 使用随机梯度下降(SGD)更新权重 w 和偏置 b。

  • if (epoch + 1) % 5 == 0:

    • 每隔 5 轮训练,记录一次训练集和测试集的损失,并绘制损失曲线。

  • animator.add(epoch+1, (d2l.evaluate_loss(net, train_iter, loss), d2l.evaluate_loss(net, test_iter, loss)))

    • 使用 d2l.evaluate_loss 函数计算训练集和测试集的损失,并将结果添加到 animator 中,用于绘制损失曲线。

  • print('w的L2范数是:',torch.norm(w).item())

    • 打印训练结束后权重参数 w 的 L2 范数。

  1. def train(lambd):
  2.     # 初始化模型参数
  3.     w, b = init_params()
  4.     # 定义模型和损失函数
  5.     net, loss = lambda X: d2l.linreg(X, w, b), d2l.squared_loss
  6.     # 定义训练的超参数
  7.     num_epochs, lr = 100, 0.003
  8.     # 创建动态绘制损失曲线的工具
  9.     animator = d2l.Animator(xlabel = 'epochs', ylabel = 'loss', yscale = 'log',
  10.                            xlim = [5, num_epochs], legend = ['train', 'test'])
  11.     # 训练模型
  12.     for epoch in range(num_epochs):
  13.         for x, y in train_iter:
  14.             # 增加了L2范数惩罚项
  15.             # 广播机制使 l2_penalty(w)成为一个长度为batch_size的向量
  16.             # 计算损失值,包括平方损失和L2正则化项
  17.             l = loss(net(x), y) + lambd * l2_penalty(w)
  18.             # 反向传播计算梯度
  19.             l.sum().backward()
  20.             # 使用随机梯度下降更新参数
  21.             d2l.sgd([w, b], lr, batch_size)
  22.         # 每隔5轮训练,记录一次训练集和测试集的损失
  23.         if (epoch + 1) % 5 == 0:
  24.             animator.add(epoch+1, (d2l.evaluate_loss(net, train_iter, loss),
  25.                                    d2l.evaluate_loss(net, test_iter, loss)))
  26.     # 打印训练结束后权重参数的L2范数
  27.     print('w的L2范数是:',torch.norm(w).item())
复制代码
2.4 忽视正则化直接训练
  1. train(lambd = 0)
复制代码
  1. w的L2范数是: 13.750493049621582
复制代码
1.jpg

2.5 使用权重衰减
  1. train(lambd = 3)
复制代码
  1. w的L2范数是: 0.37755826115608215
复制代码
2.jpg

3.简洁实现

代码解释


  • def train_concise(wd):

    • 定义了一个函数 train_concise(wd),其中 wd 是 L2 正则化的参数,用于控制正则项的强度。

  • net = nn.Sequential(nn.Linear(num_inputs, 1))

    • 使用 nn.Sequential 定义了一个简单的线性回归模型。

      • nn.Linear(num_inputs, 1) 表示一个线性层,输入特征数为 num_inputs,输出为 1。


  • for param in net.parameters():

    • 遍历模型的所有参数。

  • param.data.normal_()

    • 使用 normal_() 方法将每个参数初始化为均值为 0、标准差为 1 的正态分布。

  • loss = nn.MSELoss(reduction = 'none')

    • 定义了均方误差损失函数 MSELoss,reduction='none' 表示不对损失值进行任何聚合,返回每个样本的损失值。

  • num_epochs, lr = 100, 0.003

    • 定义了训练的超参数:

      • num_epochs:训练的总轮数,这里为 100。
      • lr:学习率,这里为 0.003。


  • trainer = torch.optim.SGD([{"params":net[0].weight, 'weight_decay':wd}, {"params":net[0].bias}], lr=lr)

    • 定义了优化器 SGD,用于更新模型的参数。

      • {"params":net[0].weight, 'weight_decay':wd}:对权重参数 net[0].weight 应用 L2 正则化,正则化强度为 wd。
      • {"params":net[0].bias}:偏置参数 net[0].bias 不应用 L2 正则化。
      • lr=lr:设置学习率为 lr。


  • animator = d2l.Animator(xlabel = 'epochs', ylabel = 'loss', yscale = 'log', xlim = [5, num_epochs], legend = ['train', 'test'])

    • 创建了一个 d2l.Animator 对象,用于动态绘制训练过程中的损失曲线。

      • xlabel 和 ylabel 分别设置了 x 轴和 y 轴的标签。
      • yscale='log' 表示 y 轴使用对数刻度。
      • xlim=[5, num_epochs] 设置了 x 轴的范围。
      • legend=['train', 'test'] 设置了图例,分别表示训练集和测试集的损失。


  • for epoch in range(num_epochs):

    • 外层循环,表示训练的总轮数。

  • for x, y in train_iter:

    • 内层循环,遍历训练数据迭代器 train_iter,每次获取一个小批量的数据 x 和对应的标签 y。

  • trainer.zero_grad()

    • 清除之前的梯度,避免梯度累积。

  • l = loss(net(x), y)

    • 计算损失值 l,这里使用了定义好的损失函数 loss。

  • l.mean().backward()

    • 对损失值 l 求均值后进行反向传播,计算梯度。

  • trainer.step()

    • 使用优化器 trainer 更新模型的参数。

  • if (epoch + 1) % 5 == 0:

    • 每隔 5 轮训练,记录一次训练集和测试集的损失,并绘制损失曲线。

  • animator.add(epoch+1, (d2l.evaluate_loss(net, train_iter, loss), d2l.evaluate_loss(net, test_iter, loss)))

    • 使用 d2l.evaluate_loss 函数计算训练集和测试集的损失,并将结果添加到 animator 中,用于绘制损失曲线。

  • print('w的L2范数:', net[0].weight.norm().item())

    • 打印训练结束后权重参数 net[0].weight 的 L2 范数。

  1. def train_concise(wd):
  2.     # 定义一个线性回归模型
  3.     net = nn.Sequential(nn.Linear(num_inputs, 1))
  4.     # 初始化模型参数
  5.     for param in net.parameters():
  6.         param.data.normal_()
  7.     # 定义损失函数
  8.     loss = nn.MSELoss(reduction = 'none')
  9.     # 定义训练的超参数
  10.     num_epochs, lr = 100, 0.003
  11.     # 偏置参数没有衰减
  12.     # 定义优化器,对权重参数应用L2正则化,偏置参数不应用
  13.     trainer = torch.optim.SGD([{"params":net[0].weight, 'weight_decay':wd},
  14.                               {"params":net[0].bias}], lr=lr)
  15.     # 创建动态绘制损失曲线的工具
  16.     animator = d2l.Animator(xlabel = 'epochs', ylabel = 'loss', yscale = 'log',
  17.                            xlim = [5, num_epochs], legend = ['train', 'test'])
  18.     # 训练模型
  19.     for epoch in range(num_epochs):
  20.         for x, y in train_iter:
  21.             # 清除之前的梯度
  22.             trainer.zero_grad()
  23.             # 计算损失值
  24.             l = loss(net(x), y)
  25.             # 对损失值求均值后进行反向传播
  26.             l.mean().backward()
  27.             # 更新模型参数
  28.             trainer.step()
  29.         # 每隔5轮训练,记录一次训练集和测试集的损失
  30.         if (epoch + 1) % 5 == 0:
  31.             animator.add(epoch+1, (d2l.evaluate_loss(net, train_iter, loss),
  32.                                   d2l.evaluate_loss(net, test_iter, loss)))
  33.     # 打印训练结束后权重参数的L2范数
  34.     print('w的L2范数:', net[0].weight.norm().item())
复制代码
  1. train_concise(0)
复制代码
  1. w的L2范数: 13.302008628845215
复制代码
3.jpg
  1. train_concise(3)
复制代码
  1. w的L2范数: 0.43226614594459534
复制代码
4.jpg


来源:豆瓜网用户自行投稿发布,如果侵权,请联系站长删除

相关推荐

您需要登录后才可以回帖 登录 | 立即注册