读书笔记《Deep Learning for Computer Vision with Python》- 第一卷

第一卷第五章图像分类数据集

在本章中，了解将在使用Python进行计算机视觉深度学习的其余部分中遇到的数据集。其中一些数据集被认为是“玩具”数据集，我们可以用来学习神经网络和深度学习的小图像集。由于历史原因，其他数据集很受欢迎，可作为评估新模型架构的极好基准。最后，ImageNet等数据集仍然是开放式研究主题，用于推进深度学习的最新技术。

翻译的目录

一、MNIST

MNIST数据集是一个简单的数据集，供早期深度学习从业者获得训练神经网络的“初体验”，而无需太多努力（很容易获得>97%的分类准确率）——训练神经网络模型在MNIST上非常类似于机器学习中的“Hello,World”。

二、Animals:Dogs,Cats,andPandas

该数据集的目的是将图像正确分类为包含狗、猫或熊猫。仅包含3,000张图像，动物数据集旨在成为另一个“介绍性”数据集，我们可以在我们的任一图像上快速训练深度学习模型CPU或GPU并获得合理的精度。

三、CIFAR-10

就像MNIST一样，CIFAR-10被认为是计算机视觉和机器学习文献中用于图像分类的另一个标准基准数据集。CIFAR-10由60,000个32×32×3(RGB)图像组成，特征向量维数为3072。

顾名思义，CIFAR-10包含10个类，包括：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、轮船和卡车。

虽然训练一个在MNIST上获得>97%分类准确率的模型很容易，但在CIFAR-10（它的大哥CIFAR-100）[50]中获得这样的模型要困难得多。

四、SMILES

顾名思义，SMILES数据集[51]由微笑或不微笑的人脸图像组成。数据集中总共有13,165张灰度图像，每张图像的大小为64×64。

五、Kaggle:Dogsvs.Cats

Dogsvs.Cats挑战赛是Kaggle竞赛的一部分，旨在设计一种学习算法，可以将图像正确分类为包含狗或猫。总共提供了25,000张图像来训练具有不同图像分辨率的算法。数据集示例如图所示。

六、Flowers-17

Flowers-17数据集是一个17类数据集，每类有80张图像，由Nilsback等人[52]策划。该数据集的目标是为给定的输入图像正确预测花的种类。

Flowers-17可以被认为是一个具有挑战性的数据集，因为它在规模、视点角度、背景杂乱、变化的光照条件和类内变化方面发生了巨大的变化。此外，每类只有80张图像，深度学习模型在不过度拟合的情况下学习每个类的表示变得具有挑战性。依据一般经验法则，在训练深度神经网络时，建议每类具有1,000-5,000个示例图像。

七、CALTECH-101

CALTECH-101数据集是一个流行的目标检测基准数据集。通常用于对象检测（即预测图像中特定对象的边界框的(x;y)坐标），我们也可以使用CALTECH-101来研究深度学习算法。包含8,677张图像的数据集包括101个类别，涵盖各种对象，包括大象、自行车、足球，甚至人脑，仅举几例。CALTECH-101数据集表现出严重的类别不平衡（意味着某些类别的示例图像多于其他类别），因此从类别不平衡的角度进行研究很有趣。

八、TinyImageNet200

斯坦福大学为学生们提供了一个类似于ImageNet挑战的图像分类挑战，但范围更小。该数据集中共有200个图像类别，每个类别有500张用于训练的图像、50张用于验证的图像和50张用于测试的图像。每张图像都经过预处理并裁剪为64×64×3像素，使学生更容易专注于深度学习技术而不是计算机视觉预处理功能。

九、Adience

Adience数据集，由Eidinger等人构建。2014，用于促进年龄和性别识别的研究。数据集中总共包含26,580张图像，年龄范围为0-60。该数据集的目标是正确预测图像中主体的年龄和性别。

十、ImageNet

ImageNet实际上是一个旨在基于一组定义的单词和短语将图像标记和分类为近22,000个类别的项目。在撰写本文时，ImageNet项目中有超过1400万张图像。为了组织如此大量的数据，ImageNet遵循WordNet层次结构。WordNet中每个有意义的词/短语都称为“同义词集”或简称“同义词集”。在ImageNet项目中，图像根据这些同义词集进行组织，目标是每个同义词集拥有1,000多个图像。

十一、Kaggle:面部表情识别挑战

Kaggle提出的另一个挑战，面部表情识别挑战(FER)的目标是仅从他们的面部图片中正确识别一个人正在经历的情绪。FER挑战中总共提供了35,888张图像，目的是将给定的面部表情标记为七个不同的类别：

1.生气；2.厌恶（有时由于类别不平衡而与“恐惧”归为一类）；3.恐惧；4.快乐；5.伤心

6.惊喜；7.中性

十二、IndoorCVPR

室内场景识别数据集，顾名思义，由许多室内场景组成，包括商店、房屋、休闲空间、工作区和公共空间。该数据集的目标是正确训练可以识别每个区域的模型。然而，我们不是将这个数据集用于其最初的预期目的，而是在ImageNet篇中使用它来自动检测和校正图像方向。

十三、StanfordCars

斯坦福大学整合的另一个数据集，汽车数据集由196类汽车的16,185张图像组成。您可以根据车辆制造商、型号甚至制造商年份以任何您希望的方式对这个数据集进行切片和切块。尽管每个类别的图像相对较少（类别严重不平衡），我将演示如何使用卷积神经网络在标记车辆的品牌和型号时获得>95%的分类准确率。

StanfordCars数据集包含16,185张图像和196个车辆品牌和型号类别。我们将学习如何在ImageNet篇内的这个数据集上获得>95%的分类准确率。

读书笔记《Deep Learning for Computer Vision with Python》- 第一卷 - 第5章图像分类数据集

Python相关栏目本月热门文章

读书笔记《Deep Learning for Computer Vision with Python》- 第一卷 - 第5章 图像分类数据集

Python相关栏目本月热门文章

读书笔记《Deep Learning for Computer Vision with Python》- 第一卷 - 第5章图像分类数据集