- 准备工作
import torch x = torch.arange(4.0) # 在计算y关于x的梯度前,需要一个地方来储存梯度 x.requires_grad_(True)
例子 1:y = 2 * dot(x, x)也可以直接在创建tensor的时候直接定义requires_grad
torch.arange(4.0, requires_grad=True)
- 构造一个函数
y = 2 * dot(x, x)
y = 2 * torch.dot(x,x) y
结果:tensor(28., grad_fn=
- 计算其梯度
y.backward() ## 计算梯度 x.grad ## 显示梯度
tensor([ 0., 4., 8., 12.])
- 判断是否是 4x (因为 y = 2 * dot(x,x) 的导数是 4x)
x.grad == 4 * x
结果:tensor([True, True, True, True])
例子2:x.sum():x.sum()的导数是 1
x.grad.zero_() ## PyTorch默认梯度累加,所以需要用这个将梯度数值清零 y = x.sum() y.backward() x.grad
结果:tensor([1., 1., 1., 1.])
例子3:y = x * x深度学习中,我们的目的不是计算微分矩阵,而是批量中每个样本单独计算的偏导数之和
x.grad.zero_() y = x * x # 等价于y.backward(torch.ones(len(x))) y.sum().backward() x.grad
结果: tensor([0., 2., 4., 6.])
注意:
这里求梯度需要用 y.sum()进行,因为:
grad can be implicitly created only for scalar outputs
# 将某些计算移动到记录的计算图之外 x.grad.zero_() y = x * x u = y.detach() # detach的意思是u不再是y的方程,只是值为y z = u * x z.sum().backward() x.grad == u
结果:tensor([True, True, True, True])



