读论文——AlexNet

第一遍

标题：ImageNet Classification with Deep Convolutional Neural Networks
摘要：
- 问题（数据集）：ImageNet，1.2百万图片，1000类
- 方法：大的深度卷积模型,6千万参数，65万神经元
- 模型：5个卷积层、最大池化层、3层全连接和softmax层、dropout层
- 结果：top-1和top-5错误率为 37.5 % 37.5 % 37.5%和 17.0 % 17.0 % 17.0%
结论/讨论：
- 深层卷积神经网络，通过监督学习，可以完成很复杂的建模
- 网络的深度对最后的top-1精度影响很大
- 展望：
  - 希望在视频序列中使用深度卷积神经网络，时间结构提供了非常有用的信息
关注图表
- ReLU（Fig 1）
- 这是一个比tanh快约6倍的激活函数
- 网络结构图（Fig 2）
  - 双GPU训练
  - 前两层卷积层用到了（归一化和池化），最后一层卷积层也用到了池化
- 第一层卷积后的特征图（Fig 3）
- 结果对比
  - 比较ILSVRC-2010上的结果
  - 比较在ILSVRC-2012验证集和测试集上的错误率（表2）
- 结果量化
  - 左图显示top-5预测结果，图片下方表示正确结果，下面柱状图表示预测结果
  - 右图的第一列是五张训练集图片，剩余的六列是在测试集中的六张图片。它们通过卷积神经网络输出的特征向量在欧几里得空间中是最近的。
- 值不值得读？
  - 深度卷积神经网络开山之作
  - ReLU
  - Dropout

第二遍

精读每个图
- ReLU非线性
  - 饱和非线性和非饱和非线性区别：
    - 饱和相较于非饱和会将输入值压缩
  - ReLU： m a x ( 0 , x ) max(0,x) max(0,x)
  - sigmoid： 1 1 + e − x frac{1}{1+e^{-x}} 1+e−x1
  - tanh: e x − e − x e x + e − x frac{e^x-e^{-x}}{e^x+e^{-x}} ex+e−xex−e−x
- 网络结构图
- 卷积特征图
- 结果量化图
精读每个表
- 结果比较表
圈出相关文献
1. Rectified linear units improve restricted boltzmann machines
2. High-performance neural networks for visual object classification

第三遍

有问题欢迎留言讨论。