- 张量
- 自动求导
- 梯度
- 并行计算
标量视为零阶张量,矢量可以视为一阶张量,矩阵就是二阶张量
- 3维=时间序列
- 4维=图像
- 5维=视频
张量像一个数据容器
torch.Tensor 是存储和变换数据的主要工具
与numpy类似
更多函数看文档(明天有时间打一下,今天实在没时间。)
PyTorch里神经网络能够训练就是靠autograd包。autograd 包提供了对张量的所有运算自动求导。它是一个在运行时定义 ( define-by-run )的框架,这意味着反向传播是根据代码如何运行来决定的,并且每次迭代可以是不同的。
如果设置它的属性 .requires_grad 为 True,那么它将会追踪对于该张量的所有操作。当完成计算后可以通过调用 .backward(),来自动计算所有的梯度。这个张量的所有梯度将会自动累加到.grad属性。
梯度数学上,若有向量函数 y ⃗ = f ( x ⃗ ) vec{y}=f(vec{x}) y =f(x ),那么 y ⃗ vec{y} y 关于 x ⃗ vec{x} x 的梯度就是一个雅可比矩阵:
J = ( ∂ y 1 ∂ x 1 ⋯ ∂ y 1 ∂ x n ⋮ ⋱ ⋮ ∂ y m ∂ x 1 ⋯ ∂ y m ∂ x n ) J=left(begin{array}{ccc}frac{partial y_{1}}{partial x_{1}} & cdots & frac{partial y_{1}}{partial x_{n}} vdots & ddots & vdots frac{partial y_{m}}{partial x_{1}} & cdots & frac{partial y_{m}}{partial x_{n}}end{array}right) J=(∂x1∂y1⋯∂xn∂y1 ⋮⋱⋮ ∂x1∂ym⋯∂xn∂ym) 而
torch.autograd 这个包就是用来计算一些雅可比矩阵的乘积的。例如,如果 v v v 是一个标量函数 l = g ( y ⃗ ) l = g(vec{y}) l=g(y )
的梯度: v = ( ∂ l ∂ y 1 ⋯ ∂ l ∂ y m ) v=left(begin{array}{lll}frac{partial l}{partial y_{1}} & cdots & frac{partial l}{partial y_{m}}end{array}right) v=(∂y1∂l⋯∂ym∂l)
由链式法则,我们可以得到: v J = ( ∂ l ∂ y 1 ⋯ ∂ l ∂ y m ) ( ∂ y 1 ∂ x 1 ⋯ ∂ y 1 ∂ x n ⋮ ⋱ ⋮ ∂ y m ∂ x 1 ⋯ ∂ y m ∂ x n ) = ( ∂ l ∂ x 1 ⋯ ∂ l ∂ x n ) v J=left(begin{array}{lll}frac{partial l}{partial y_{1}} & cdots & frac{partial l}{partial y_{m}}end{array}right)left(begin{array}{ccc}frac{partial y_{1}}{partial x_{1}} & cdots & frac{partial y_{1}}{partial x_{n}} vdots & ddots & vdots frac{partial y_{m}}{partial x_{1}} & cdots & frac{partial y_{m}}{partial x_{n}}end{array}right)=left(begin{array}{lll}frac{partial l}{partial x_{1}} & cdots & frac{partial l}{partial x_{n}}end{array}right) vJ=(∂y1∂l⋯∂ym∂l)(∂x1∂y1⋯∂xn∂y1 ⋮⋱⋮ ∂x1∂ym⋯∂xn∂ym)=(∂x1∂l⋯∂xn∂l)
一些求梯度的步骤
在PyTorch使用 CUDA表示要开始要求我们的模型或者数据开始使用GPU了。
在编写程序中,当我们使用了 cuda() 时,其功能是让我们的模型或者数据迁移到GPU当中,通过GPU开始计算。



