图像分类和检测 – 常用的数据集介绍(从简单到复杂)

Contents

1 MNIST
2 CIFAR-10
3 Pascal VOC数据集
- 3.1 VOC数据格式
4 COCO
5 ImageNet
6 参考链接

MNIST

　　MNIST是一个手写数字的数据集，包含一组60,000张图片的训练集和一个包含10,000张图片的测试集，图片一共有10类，分别对应阿拉伯数字0-9。

　　在原始的MNIST数据集中，每张图片由28*28的矩阵表示，每个像素的取值范围在0~1之间。一般将它转成784维的向量作为输入。

MNIST数据集下载

CIFAR-10

　　CIFAR-10是由Hiton的学生整理的一个用于识别普适物体的小型数据集.它一共包含10个类别的RGB彩色图片：飞机、汽车、鸟类、猫、鹿、狗、蛙类、马、船和卡车。

　　CIFAR-10数据集图片大小为32*32；数据集中一共有50000张训练图片和10000张测试图片。

　　CIFAR-10默认并没有图片文件，而是保存成了pickle的格式，官网给出的读取方法如下：

def unpickle(file):
    import pickle
    with open(file, 'rb') as fo:
        dict = pickle.load(fo, encoding='bytes')
    return dict

def unpickle(file):

import pickle

with open(file, 'rb') as fo:

dict = pickle.load(fo, encoding='bytes')

return dict

　　读取出来的结果是一个字典。包含"data"、"labels"键值，其中"data"是一个10000×3072的numpy数组，每一行都是一幅32×32的图像。"labels"是10000个0-9之间的标签。

CIFAR-10数据集下载

Pascal VOC数据集

　　VOC是一个非常流行的数据集，用于构建和评估图像分类、对象检测和分割的算法。

　　Pascal VOC challenge 的目标就是从存在于现实场景中的许多可视对象类别中识别出对象（即不预先分割的对象）。共有20个类别：

　　Person: person
　　Animal: bird, cat, cow, dog, horse, sheep
　　Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
　　Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

　　在程序里的voc.names一般是这样的(按字母顺序)

 0 aeroplane
 1 bicycle
 2 bird
 3 boat
 4 bottle
 5 bus
 6 car
 7 cat
 8 chair
 9 cow
10 diningtable
11 dog
12 horse 
13 motorbike
14 person
15 pottedplant
16 sheep
17 sofa
18 train
19 tvmonitor

0 aeroplane

1 bicycle

2 bird

3 boat

4 bottle

5 bus

6 car

7 cat

8 chair

9 cow

10 diningtable

11 dog

12 horse

13 motorbike

14 person

15 pottedplant

16 sheep

17 sofa

18 train

19 tvmonitor

VOC数据格式

　　一个最小的仅支持检测的VOC数据集格式如下：

.
└── VOCdevkit     #根目录
    └── VOC2012   #不同年份的数据集，这里只下载了2012的，还有2007等其它年份的
        ├── Annotations        # 存放xml文件，与JPEGImages中的图片一一对应，解释图片的内容等等
        │     ├── 00001.xml 
        │     └── 00002.xml 
        ├── ImageSets          
        │   └── Main
        │     ├── train.txt    # txt文件中每一行包含一个图片的名称
        │     └── val.txt
        └── JPEGImages         # 存放源图片
              ├── 00001.jpg     
              └── 00002.jpg

└── VOCdevkit #根目录

└── VOC2012 #不同年份的数据集，这里只下载了2012的，还有2007等其它年份的

├── Annotations # 存放xml文件，与JPEGImages中的图片一一对应，解释图片的内容等等

│ ├── 00001.xml

│ └── 00002.xml

├── ImageSets

│ └── Main

│ ├── train.txt # txt文件中每一行包含一个图片的名称

│ └── val.txt

└── JPEGImages # 存放源图片

├── 00001.jpg

└── 00002.jpg

　　其中Annotations存放边界框的标注信息，采用的是与图像文件名对应的xml格式；ImageSets里用txt格式划分了训练集和测试集的图像文件名；JPEGImages是训练集和测试集的所有图像。

VOC网址

VOC数据集算法的准确率排行榜

VOC-2012训练数据集下载（2G）

https://blog.csdn.net/zhangjunbob/article/details/52769381 [VOC数据集标记格式详解]

COCO

　　Microsoft COCO数据集是微软团队获取的一个可以用来图像recognition(画方框)+segmentation(涂颜色)+captioning(看图说话) 数据集

该数据集主要有的特点如下：

对象分割
可在上下文（背景）中识别
每张图片有多个物体
30万张图片
200万个对象实例
80个对象种类(远远多于pascal voc的20个)
每张图片有5个字幕
有关键点的10万人

class_name = [
    '__background__', 'person', 'bicycle', 'car', 'motorcycle', 'airplane',
    'bus', 'train', 'truck', 'boat', 'traffic light', 'fire hydrant',
    'stop sign', 'parking meter', 'bench', 'bird', 'cat', 'dog', 'horse',
    'sheep', 'cow', 'elephant', 'bear', 'zebra', 'giraffe', 'backpack',
    'umbrella', 'handbag', 'tie', 'suitcase', 'frisbee', 'skis',
    'snowboard', 'sports ball', 'kite', 'baseball bat', 'baseball glove',
    'skateboard', 'surfboard', 'tennis racket', 'bottle', 'wine glass',
    'cup', 'fork', 'knife', 'spoon', 'bowl', 'banana', 'apple', 'sandwich',
    'orange', 'broccoli', 'carrot', 'hot dog', 'pizza', 'donut', 'cake',
    'chair', 'couch', 'potted plant', 'bed', 'dining table', 'toilet', 'tv',
    'laptop', 'mouse', 'remote', 'keyboard', 'cell phone', 'microwave',
    'oven', 'toaster', 'sink', 'refrigerator', 'book', 'clock', 'vase',
    'scissors', 'teddy bear', 'hair drier', 'toothbrush'
]