MNIST
MNIST是一个手写数字的数据集,包含一组60,000
张图片的训练集和一个包含10,000
张图片的测试集,图片一共有10类,分别对应阿拉伯数字0-9。
在原始的MNIST数据集中,每张图片由28*28
的矩阵表示,每个像素的取值范围在0~1
之间。一般将它转成784
维的向量作为输入。
CIFAR-10
CIFAR-10是由Hiton的学生整理的一个用于识别普适物体的小型数据集.它一共包含10个类别的RGB彩色图片:飞机、汽车、鸟类、猫、鹿、狗、蛙类、马、船和卡车。
CIFAR-10数据集图片大小为32*32
;数据集中一共有50000
张训练图片和10000
张测试图片。
CIFAR-10默认并没有图片文件,而是保存成了pickle
的格式,官网给出的读取方法如下:
1 2 3 4 5 6 |
def unpickle(file): import pickle with open(file, 'rb') as fo: dict = pickle.load(fo, encoding='bytes') return dict |
读取出来的结果是一个字典。包含"data"
、"labels"
键值,其中"data"
是一个10000
×3072
的numpy
数组,每一行都是一幅32
×32
的图像。"labels"
是10000
个0-9
之间的标签。
Pascal VOC数据集
VOC是一个非常流行的数据集,用于构建和评估图像分类、对象检测和分割的算法。
Pascal VOC challenge 的目标就是从存在于现实场景中的许多可视对象类别中识别出对象(即不预先分割的对象)。共有20
个类别:
Person
: person
Animal
: bird, cat, cow, dog, horse, sheep
Vehicle
: aeroplane, bicycle, boat, bus, car, motorbike, train
Indoor
: bottle, chair, dining table, potted plant, sofa, tv/monitor
在程序里的voc.names
一般是这样的(按字母顺序)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |
0 aeroplane 1 bicycle 2 bird 3 boat 4 bottle 5 bus 6 car 7 cat 8 chair 9 cow 10 diningtable 11 dog 12 horse 13 motorbike 14 person 15 pottedplant 16 sheep 17 sofa 18 train 19 tvmonitor |
VOC数据格式
一个最小的仅支持检测的VOC
数据集格式如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
. └── VOCdevkit #根目录 └── VOC2012 #不同年份的数据集,这里只下载了2012的,还有2007等其它年份的 ├── Annotations # 存放xml文件,与JPEGImages中的图片一一对应,解释图片的内容等等 │ ├── 00001.xml │ └── 00002.xml ├── ImageSets │ └── Main │ ├── train.txt # txt文件中每一行包含一个图片的名称 │ └── val.txt └── JPEGImages # 存放源图片 ├── 00001.jpg └── 00002.jpg |
其中Annotations
存放边界框的标注信息,采用的是与图像文件名对应的xml
格式;ImageSets
里用txt
格式划分了训练集和测试集的图像文件名;JPEGImages
是训练集和测试集的所有图像。
https://blog.csdn.net/zhangjunbob/article/details/52769381 [VOC数据集标记格式详解]
COCO
Microsoft COCO数据集是微软团队获取的一个可以用来图像recognition
(画方框)+segmentation
(涂颜色)+captioning
(看图说话) 数据集
该数据集主要有的特点如下:
- 对象分割
- 可在上下文(背景)中识别
- 每张图片有多个物体
- 30万张图片
- 200万个对象实例
80个
对象种类(远远多于pascal voc的20个)- 每张图片有5个字幕
- 有关键点的10万人
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
class_name = [ '__background__', 'person', 'bicycle', 'car', 'motorcycle', 'airplane', 'bus', 'train', 'truck', 'boat', 'traffic light', 'fire hydrant', 'stop sign', 'parking meter', 'bench', 'bird', 'cat', 'dog', 'horse', 'sheep', 'cow', 'elephant', 'bear', 'zebra', 'giraffe', 'backpack', 'umbrella', 'handbag', 'tie', 'suitcase', 'frisbee', 'skis', 'snowboard', 'sports ball', 'kite', 'baseball bat', 'baseball glove', 'skateboard', 'surfboard', 'tennis racket', 'bottle', 'wine glass', 'cup', 'fork', 'knife', 'spoon', 'bowl', 'banana', 'apple', 'sandwich', 'orange', 'broccoli', 'carrot', 'hot dog', 'pizza', 'donut', 'cake', 'chair', 'couch', 'potted plant', 'bed', 'dining table', 'toilet', 'tv', 'laptop', 'mouse', 'remote', 'keyboard', 'cell phone', 'microwave', 'oven', 'toaster', 'sink', 'refrigerator', 'book', 'clock', 'vase', 'scissors', 'teddy bear', 'hair drier', 'toothbrush' ] |
COCO数据集下载 [官方]
https://www.aiuai.cn/aifarm931.html [国内源]
2017的数据集的下载
http://images.cocodataset.org/zips/train2017.zip
http://images.cocodataset.org/annotations/annotations_trainval2017.zip
http://images.cocodataset.org/zips/val2017.zip
http://images.cocodataset.org/annotations/stuff_annotations_trainval2017.zip
http://images.cocodataset.org/zips/test2017.zip
http://images.cocodataset.org/annotations/image_info_test2017.zip
ImageNet
ImageNet 数据集最初由斯坦福大学李飞飞等人在 CVPR 2009 的一篇论文中推出,并被用于替代 PASCAL 数据集(后者在数据规模和多样性上都不如 ImageNet)和 LabelMe 数据集(在标准化上不如 ImageNet)。
ImageNet是根据WordNet层次结构组织的图像数据集。WordNet包含大约10万个单词,ImageNet平均提供了大约1000个图像来说明每个单词。
总图像是大约是150万,每个都有多个边界框和相应的类标签。
从2010年起,ImageNet每年都会举办一场ImageNet大规模视觉识别竞赛。比赛中使用的数据集为ImageNet1k
,也就是1000类
的分类问题。在竞赛总表现突出的几个模型有AlexNet
、VGGNet
、GoogLeNet
和ResNet
。