图像分类和检测 – 常用的数据集介绍(从简单到复杂)

MNIST

  MNIST是一个手写数字的数据集,包含一组60,000张图片的训练集和一个包含10,000张图片的测试集,图片一共有10类,分别对应阿拉伯数字0-9。

  在原始的MNIST数据集中,每张图片由28*28的矩阵表示,每个像素的取值范围在0~1之间。一般将它转成784维的向量作为输入。

MNIST

MNIST数据集下载

CIFAR-10

  CIFAR-10是由Hiton的学生整理的一个用于识别普适物体的小型数据集.它一共包含10个类别的RGB彩色图片:飞机、汽车、鸟类、猫、鹿、狗、蛙类、马、船和卡车。

  CIFAR-10数据集图片大小为32*32;数据集中一共有50000张训练图片和10000张测试图片。

  CIFAR-10默认并没有图片文件,而是保存成了pickle的格式,官网给出的读取方法如下:

  读取出来的结果是一个字典。包含"data""labels"键值,其中"data"是一个10000×3072numpy数组,每一行都是一幅32×32的图像。"labels"100000-9之间的标签。

CIFAR-10

CIFAR-10数据集下载

Pascal VOC数据集

  VOC是一个非常流行的数据集,用于构建和评估图像分类、对象检测和分割的算法。

  Pascal VOC challenge 的目标就是从存在于现实场景中的许多可视对象类别中识别出对象(即不预先分割的对象)。共有20个类别:

  Person: person
  Animal: bird, cat, cow, dog, horse, sheep
  Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
  Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

  在程序里的voc.names一般是这样的(按字母顺序)

  

VOC数据格式

  一个最小的仅支持检测的VOC数据集格式如下:

  其中Annotations存放边界框的标注信息,采用的是与图像文件名对应的xml格式;ImageSets里用txt格式划分了训练集和测试集的图像文件名;JPEGImages是训练集和测试集的所有图像。

VOC网址

VOC数据集算法的准确率排行榜

VOC-2012训练数据集下载(2G)

https://blog.csdn.net/zhangjunbob/article/details/52769381 [VOC数据集标记格式详解]

COCO

  Microsoft COCO数据集是微软团队获取的一个可以用来图像recognition(画方框)+segmentation(涂颜色)+captioning(看图说话) 数据集

该数据集主要有的特点如下:

  1. 对象分割
  2. 可在上下文(背景)中识别
  3. 每张图片有多个物体
  4. 30万张图片
  5. 200万个对象实例
  6. 80个对象种类(远远多于pascal voc的20个)
  7. 每张图片有5个字幕
  8. 有关键点的10万人

coco

COCO数据集下载 [官方]
https://www.aiuai.cn/aifarm931.html [国内源]

2017的数据集的下载
http://images.cocodataset.org/zips/train2017.zip
http://images.cocodataset.org/annotations/annotations_trainval2017.zip

http://images.cocodataset.org/zips/val2017.zip
http://images.cocodataset.org/annotations/stuff_annotations_trainval2017.zip

http://images.cocodataset.org/zips/test2017.zip
http://images.cocodataset.org/annotations/image_info_test2017.zip

ImageNet

  ImageNet 数据集最初由斯坦福大学李飞飞等人在 CVPR 2009 的一篇论文中推出,并被用于替代 PASCAL 数据集(后者在数据规模和多样性上都不如 ImageNet)和 LabelMe 数据集(在标准化上不如 ImageNet)。

  ImageNet是根据WordNet层次结构组织的图像数据集。WordNet包含大约10万个单词,ImageNet平均提供了大约1000个图像来说明每个单词。

  总图像是大约是150万,每个都有多个边界框和相应的类标签。

  从2010年起,ImageNet每年都会举办一场ImageNet大规模视觉识别竞赛。比赛中使用的数据集为ImageNet1k,也就是1000类的分类问题。在竞赛总表现突出的几个模型有AlexNetVGGNetGoogLeNetResNet

ImageNet

ImageNet数据集下载

参考链接

数据集大全:25个深度学习的开放数据集