PyTorch内置数据集简介

创建日期：2025-03-11

更新日期：2025-03-12

示例代码

from torchvision import datasets, transforms

transform = transforms.Compose(
    [transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))]
)

train_dataset = datasets.MNIST(
    root="./data", train=True, transform=transform, download=True
)
test_dataset = datasets.MNIST(
    root="./data", train=False, transform=transform, download=True
)

print(train_dataset)
print(test_dataset)

torchvision数据集

图片分类

数据集	说明
Caltech101	包含101个类别物体的图片。每个类别大约有40到800张图片。大多数类别大约有50张图片。
Caltech256	包含256个对象类别、总计30607张图像的挑战性数据集。
CelebA	名人面部属性数据集，包含 200k+ 张人脸图像及 40 个属性（如眼镜、微笑等）。
CIFAR10	10 类彩色图像（如飞机、猫、狗等），图像大小 32×32。
CIFAR100	100 类彩色图像（如飞机、猫、狗等），图像大小 32×32。
Country211	The Country211 Data Set from OpenAI.
DTD	Describable Textures Dataset (DTD).
EMNIST	EMNIST Dataset.
EuroSAT	RGB version of the EuroSAT Dataset.
FakeData	A fake dataset that returns randomly generated images and returns them as PIL images
FashionMNIST	替代 MNIST 的时尚单品数据集，包含 10 类服装/鞋包（如 T恤、裙子等），图像大小为 28×28 灰度。
FER2013	FER2013 Dataset.
FGVCAircraft	FGVC Aircraft Dataset.
Flickr8k	Flickr8k Entities Dataset.
Flickr30k	Flickr30k Entities Dataset.
Flowers102	Oxford 102 Flower Dataset.
Food101	The Food-101 Data Set.
GTSRB	German Traffic Sign Recognition Benchmark (GTSRB) Dataset.
INaturalist	iNaturalist Dataset.
ImageNet	大规模图像分类数据集，包含 1000 个类别，图像分辨率不一。
Imagenette	Imagenette image classification dataset.
KMNIST	Kuzushiji-MNIST Dataset.
LFWPeople	LFW Dataset.
LSUN	LSUN dataset.
MNIST	手写数字数据集，包含 0-9 的灰度图像，图像大小为 28×28。
Omniglot	手写字符数据集，包含 50 种字母的 1,623 个字符，每个字符有 20 个手写样本。
OxfordIIITPet	Oxford-IIIT Pet Dataset.
Places365	Places365 classification dataset.
PCAM	PCAM Dataset.
QMNIST	QMNIST Dataset.
RenderedSST2	The Rendered SST2 Dataset.
SEMEION	SEMEION Dataset.
SBU	SBU Captioned Photo Dataset.
StanfordCars	Stanford Cars Dataset
STL10	图像分类数据集，10 个类别，图像大小 96×96，支持无监督学习（提供未标注数据）。
SUN397	The SUN397 Data Set.
SVHN	街景门牌号数据集，包含 0-9 的彩色数字图像，图像大小 32×32。
USPS	USPS Dataset.

图像检测和分割

数据集	说明
CocoDetection	大型通用数据集，包含目标检测、实例分割、关键点检测等标注，图像为自然场景。
CelebA	名人面部属性数据集，包含 200k+ 张人脸图像及 40 个属性（如眼镜、微笑等）。
Cityscapes	城市街景数据集，提供语义分割、实例分割标注。
Kitti	自动驾驶数据集，包含目标检测、光流、深度估计等多任务标注。
OxfordIIITPet	Oxford-IIIT Pet Dataset.
SBDataset	Semantic Boundaries Dataset
VOCSegmentation	Pascal VOC Segmentation Dataset.
VOCDetection	Pascal VOC Detection Dataset.
WIDERFace	WIDERFace Dataset.

光流

数据集	说明
FlyingChairs	FlyingChairs Dataset for optical flow.
FlyingThings3D	FlyingThings3D dataset for optical flow.
HD1K	HD1K dataset for optical flow.
KittiFlow	KITTI dataset for optical flow (2015).
Sintel	Sintel Dataset for optical flow.

立体匹配

数据集	说明
CarlaStereo	Carla simulator data linked in the CREStereo github repo.
Kitti2012Stereo	KITTI dataset from the 2012 stereo evaluation benchmark.
Kitti2015Stereo	KITTI dataset from the 2015 stereo evaluation benchmark.
CREStereo	Synthetic dataset used in training the CREStereo architecture.
FallingThingsStereo	FallingThings dataset.
SceneFlowStereo	Dataset interface for Scene Flow datasets.
SintelStereo	Sintel Stereo Dataset.
InStereo2k	InStereo2k dataset.
ETH3DStereo	ETH3D Low-Res Two-View dataset.
Middlebury2014Stereo	Publicly available scenes from the Middlebury dataset //2014 version//

图像对

数据集	说明
LFWPairs	LFW Dataset.
PhotoTour	Multi-view Stereo Correspondence Dataset.

图像描述

数据集	说明
CocoCaptions	MS Coco Captions Dataset.

视频分类

数据集	说明
HMDB51	HMDB51 dataset.
Kinetics	Generic Kinetics dataset.
UCF101	UCF101 dataset.

视频预测

数据集	说明
MovingMNIST	MovingMNIST Dataset.

torchtext数据集

文本分类

数据集	说明
AG_NEWS	新闻分类数据集，包含 4 个类别（世界、体育、商业、科技）。
AmazonReviewFull
AmazonReviewPolarity
CoLA	语言可接受性二分类数据集，判断句子是否符合语法。
DBpedia
IMDb	电影评论情感分析数据集，包含 50,000 条带有正面或负面标签的影评文本。
MNLI
MRPC
QNLI
QQP
RTE
SogouNews
SST2
STSB
WNLI
YahooAnswers
YelpReviewFull	Yelp 用户评论数据集：二分类（正面/负面评价）。
YelpReviewPolarity	Yelp 用户评论数据集：五分类（1-5 星评级）。

语言建模

数据集	说明
PennTreebank	经典语言建模数据集，包含经过标注的英文句子（已分词）。
WikiText-2	维基百科文章数据集，用于语言建模。较小规模，包含约 1,000 万词。
WikiText103	维基百科文章数据集，用于语言建模。大规模，包含约 1.03 亿词。

机器翻译

数据集	说明
IWSLT2016
IWSLT2017
Multi30k	多语言机器翻译数据集，包含英语、德语等语言的平行句对。

序列标注

数据集	说明
CoNLL2000Chunking
UDPOS

问题解答

数据集	说明
SQuAD 1.0	阅读理解数据集，包含问题、文本段落及其答案片段。
SQuAD 2.0	阅读理解数据集，包含问题、文本段落及其答案片段。

无监督学习

数据集	说明
CC100
EnWik9

torchaudio数据集

数据集	说明
CMUARCTIC	语音合成数据集，包含 4 种语音风格（如 bdl 男声、slt 女声）。
CMUDict	CMU Pronouncing Dictionary [Weide, 1998] (CMUDict) dataset.
COMMONVOICE	多语言开源语音数据集（如英语、中文），包含多样化的说话人录音及文本。
DR_VCTK	Device Recorded VCTK (Small subset version) [Sarfjoo and Yamagishi, 2018] dataset.
FluentSpeechCommands	Fluent Speech Commands [Lugosch et al., 2019] dataset
GTZAN	音乐流派分类数据集，包含 10 类音乐（如摇滚、爵士），每类 100 条 30 秒片段。
IEMOCAP	IEMOCAP [Busso et al., 2008] dataset.
LibriMix	LibriMix [Cosentino et al., 2020] dataset.
LIBRISPEECH	LibriSpeech [Panayotov et al., 2015] dataset.
LibriLightLimited	Subset of Libri-light [Kahn et al., 2020] dataset, which was used in HuBERT [Hsu et al., 2021] for supervised fine-tuning.
LIBRITTS	高质量语音合成数据集，基于 LibriSpeech 的文本生成自然语音。
LJSPEECH	LJSpeech-1.1 [Ito and Johnson, 2017] dataset.
MUSDB_HQ	MUSDB_HQ [Rafii et al., 2019] dataset.
QUESST14	语音检索数据集，用于跨语言关键词搜索任务。
Snips	Snips [Coucke et al., 2018] dataset.
SPEECHCOMMANDS	短语音指令数据集，包含 35 种英文单词（如 "yes", "no", "stop"），采样率 16kHz。
TEDLIUM	TED 演讲录音数据集，包含高质量英文演讲及转录文本。
VCTK_092	VCTK 0.92 [Yamagishi et al., 2019] dataset
VoxCeleb1Identification	大规模说话人识别数据集，包含名人采访视频的音频片段。
VoxCeleb1Verification	大规模说话人识别数据集，包含名人采访视频的音频片段。
YESNO	希伯来语 "yes" 和 "no" 的录音数据集，每个音频包含 8 个单词序列。

简介

一个来自三线小城市的程序员开发经验总结。

PyTorch内置数据集简介

示例代码

torchvision数据集

图片分类

图像检测和分割

光流

立体匹配

图像对

图像描述

视频分类

视频预测

torchtext数据集

文本分类

语言建模

机器翻译

序列标注

问题解答

无监督学习

torchaudio数据集

简介

最新修改

导航