Pytorch-搭建网络框架(三)

Hello SYT 一、Optimizer 优化器

优化器：管理并更新模型中可学习参数的值（weight,bias等），使得模型输出更接近真实标签，即降低loss值

梯度：指向方向导数取得最大值方向的向量

二、Optimizer的基本属性

defaults：优化器超参数（学习率、momentum值）

state：存储参数的缓存，如momentum的缓存（前几次梯度的值）

param_groups：需要管理的参数组，即模型中需要迭代更新的参数（weight,bias等）

step_count：记录更新次数，学习率调整中会使用，如迭代一百次的时候下降学习率，迭代两百次的时候再下降学习率等。

三、Optimizer的基本方法

zero_grad()方法：
功能：清空所管理参数的梯度在
因为在pytorch中，张量的梯度不会自动清零，所以需要在使用完梯度之后或者在反向传播之前进行梯度清零。

step()方法：使用梯度下降的策略，执行一次参数更新过程。梯度下降策略：随机梯度下降法，momentum加动量的方法，自适应学习率的方法

add_param_group()：添加参数组，比如将CNN网络中特征提取部分和全连接层部分放到两组中，两组设置不同的学习率等

state_dict()：获取优化器当前的状态信息字典
load_state_dict()：加载之前的状态信息字典
state_dict和load_state_dict有利于保存模型训练进度，防止断电等意外中断训练后，出现丢失训练的参数，需要重新训练的情况。

四、Optimizer的结构与使用

#optimizer部分的准备工作
optimizer = optim.SGD(net.parameters(), lr=LR, momentum=0.9) #选择优化器
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=10, gama=0.1) # 设置学习率下降策略

#以下代码应该出现在迭代循环的代码模块中
outputs = net(inputs) # 调用网络获取输出

optimizer.zero_grad() # 梯度清零，反向传播之前进行

loss = criterion(outputs, labels) # 获取损失值
loss.backward() # 反向传播，得到梯度

optimizer.step() # 参数更新

五、基本方法的使用

add_param_group()

#在optimizer中再增加一组参数
#optimizer是一个已经构建好的优化器
w2 = torch.randn((3,3),requires_grad=True) # 构建参数
optimizer.add_param_group({"params":w2, 'lr':0.0001}) # 方法中放一个字典，字典的key设为params，value为构建的参数，也可以以键值对的形式设置其他超参

state_dict() 与 load_state_dict()

保存进度

#保存进度
optimizer = optim.SGD([weight], lr=0.1, momentum=0.9)
opt_state_dict = optimizer.state_dict()
for i in range(10):
	optimizer.step()
torch.save(optimizer.state_dict(), os.path.join(base_DIR, "optimizer_state_dict.pkl"))
#将状态保存到本地路径，并命名为optimizer_state_dict.pkl

加载进度

optimizer = optim.SGD([weight], lr=0.1, moment=0.9) # 构建一个优化器
state_dict = torch.load(os.path.join(base_DIR),"optimizer_state_dict.pkl") # 读取进度
optimizer.load_state_dict(state_dict) # 加载进度

六、torch.optim.SGD

optim.SGD(params, lr , momentum , dampening , weight_decay=0 , nesterov=False)
主要参数：
params：管理的参数组
lr：初始学习率
momentum：动量系数，贝塔
weight_decay：L2正则化系数
nesterov：布尔变量，控制是否采用NAG的梯度下降方法

学习率lr（learning rate）：控制参数更新时梯度下降的步伐，小于1，一般可以取0.01

当学习率越接近上帝的学习率的时候，就可以越快的将损失函数降到最低。
上帝的学习率：可以使从出发点一步到达底部（损失值最低）的地方的学习率
但没有方法可以知道，所以一般会将学习率取小，一般0.01，用增加迭代次数、计算时间的方式来避免梯度爆炸。

Momentum（动量）：结合当前梯度和上一次更新的信息，用于当前更新
指数加权平均：

举例：

距离当前时刻越近，其权重越大，距离当前时刻约远，其权重值会越小。即加强近邻时刻值的影响，弱化远时刻值的影响

超参：
Beta：控制记忆周期，Beta值越大，记忆的越远，Beta值越小，记忆的越近。
通常设置为0.9，使其更关注10天左右的数据

Beta就是Momentum这个系数

回到梯度更新公式中，用vi代替原先公式中的g(wi)即梯度。

七、其他优化器：

比较常用的是1.SGD和5.Adam，其中SGD可以解决90%以上的问题

optim.SGD：随机梯度下降法
optim.Adagrad：自适应学习率梯度下降法
optim.RMSprop： Adagrad的改进
optim.Adadelta： Adagrad的改进
optim.Adam：RMSprop结合Momentum
optim.Adamax：Adam增加学习率上限
optim.SparseAdam：稀疏版的Adam
optim.ASGD：随机平均梯度下降
optim.Rprop：弹性反向传播
optim.LBFGS：BFGS的改进

Bye SYT

Pytorch-搭建网络框架(三)

Python相关栏目本月热门文章