PyTorch内置数据集简介

创建日期:2025-03-11
更新日期:2025-03-12

示例代码

from torchvision import datasets, transforms

transform = transforms.Compose(
    [transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))]
)

train_dataset = datasets.MNIST(
    root="./data", train=True, transform=transform, download=True
)
test_dataset = datasets.MNIST(
    root="./data", train=False, transform=transform, download=True
)

print(train_dataset)
print(test_dataset)

torchvision数据集

图片分类

数据集说明
Caltech101包含101个类别物体的图片。每个类别大约有40到800张图片。大多数类别大约有50张图片。
Caltech256包含256个对象类别、总计30607张图像的挑战性数据集。
CelebA名人面部属性数据集,包含 200k+ 张人脸图像及 40 个属性(如眼镜、微笑等)。
CIFAR1010 类彩色图像(如飞机、猫、狗等),图像大小 32×32。
CIFAR100100 类彩色图像(如飞机、猫、狗等),图像大小 32×32。
Country211The Country211 Data Set from OpenAI.
DTDDescribable Textures Dataset (DTD).
EMNISTEMNIST Dataset.
EuroSATRGB version of the EuroSAT Dataset.
FakeDataA fake dataset that returns randomly generated images and returns them as PIL images
FashionMNIST替代 MNIST 的时尚单品数据集,包含 10 类服装/鞋包(如 T恤、裙子等),图像大小为 28×28 灰度。
FER2013FER2013 Dataset.
FGVCAircraftFGVC Aircraft Dataset.
Flickr8kFlickr8k Entities Dataset.
Flickr30kFlickr30k Entities Dataset.
Flowers102Oxford 102 Flower Dataset.
Food101The Food-101 Data Set.
GTSRBGerman Traffic Sign Recognition Benchmark (GTSRB) Dataset.
INaturalistiNaturalist Dataset.
ImageNet大规模图像分类数据集,包含 1000 个类别,图像分辨率不一。
ImagenetteImagenette image classification dataset.
KMNISTKuzushiji-MNIST Dataset.
LFWPeopleLFW Dataset.
LSUNLSUN dataset.
MNIST手写数字数据集,包含 0-9 的灰度图像,图像大小为 28×28。
Omniglot手写字符数据集,包含 50 种字母的 1,623 个字符,每个字符有 20 个手写样本。
OxfordIIITPetOxford-IIIT Pet Dataset.
Places365Places365 classification dataset.
PCAMPCAM Dataset.
QMNISTQMNIST Dataset.
RenderedSST2The Rendered SST2 Dataset.
SEMEIONSEMEION Dataset.
SBUSBU Captioned Photo Dataset.
StanfordCarsStanford Cars Dataset
STL10图像分类数据集,10 个类别,图像大小 96×96,支持无监督学习(提供未标注数据)。
SUN397The SUN397 Data Set.
SVHN街景门牌号数据集,包含 0-9 的彩色数字图像,图像大小 32×32。
USPSUSPS Dataset.

图像检测和分割

数据集说明
CocoDetection大型通用数据集,包含目标检测、实例分割、关键点检测等标注,图像为自然场景。
CelebA名人面部属性数据集,包含 200k+ 张人脸图像及 40 个属性(如眼镜、微笑等)。
Cityscapes城市街景数据集,提供语义分割、实例分割标注。
Kitti自动驾驶数据集,包含目标检测、光流、深度估计等多任务标注。
OxfordIIITPetOxford-IIIT Pet Dataset.
SBDatasetSemantic Boundaries Dataset
VOCSegmentationPascal VOC Segmentation Dataset.
VOCDetectionPascal VOC Detection Dataset.
WIDERFaceWIDERFace Dataset.

光流

数据集说明
FlyingChairsFlyingChairs Dataset for optical flow.
FlyingThings3DFlyingThings3D dataset for optical flow.
HD1KHD1K dataset for optical flow.
KittiFlowKITTI dataset for optical flow (2015).
SintelSintel Dataset for optical flow.

立体匹配

数据集说明
CarlaStereoCarla simulator data linked in the CREStereo github repo.
Kitti2012StereoKITTI dataset from the 2012 stereo evaluation benchmark.
Kitti2015StereoKITTI dataset from the 2015 stereo evaluation benchmark.
CREStereoSynthetic dataset used in training the CREStereo architecture.
FallingThingsStereoFallingThings dataset.
SceneFlowStereoDataset interface for Scene Flow datasets.
SintelStereoSintel Stereo Dataset.
InStereo2kInStereo2k dataset.
ETH3DStereoETH3D Low-Res Two-View dataset.
Middlebury2014StereoPublicly available scenes from the Middlebury dataset //2014 version//

图像对

数据集说明
LFWPairsLFW Dataset.
PhotoTourMulti-view Stereo Correspondence Dataset.

图像描述

数据集说明
CocoCaptionsMS Coco Captions Dataset.

视频分类

数据集说明
HMDB51HMDB51 dataset.
KineticsGeneric Kinetics dataset.
UCF101UCF101 dataset.

视频预测

数据集说明
MovingMNISTMovingMNIST Dataset.

torchtext数据集

文本分类

数据集说明
AG_NEWS新闻分类数据集,包含 4 个类别(世界、体育、商业、科技)。
AmazonReviewFull
AmazonReviewPolarity
CoLA语言可接受性二分类数据集,判断句子是否符合语法。
DBpedia
IMDb电影评论情感分析数据集,包含 50,000 条带有正面或负面标签的影评文本。
MNLI
MRPC
QNLI
QQP
RTE
SogouNews
SST2
STSB
WNLI
YahooAnswers
YelpReviewFullYelp 用户评论数据集:二分类(正面/负面评价)。
YelpReviewPolarityYelp 用户评论数据集:五分类(1-5 星评级)。

语言建模

数据集说明
PennTreebank经典语言建模数据集,包含经过标注的英文句子(已分词)。
WikiText-2维基百科文章数据集,用于语言建模。较小规模,包含约 1,000 万词。
WikiText103维基百科文章数据集,用于语言建模。大规模,包含约 1.03 亿词。

机器翻译

数据集说明
IWSLT2016
IWSLT2017
Multi30k多语言机器翻译数据集,包含英语、德语等语言的平行句对。

序列标注

数据集说明
CoNLL2000Chunking
UDPOS

问题解答

数据集说明
SQuAD 1.0阅读理解数据集,包含问题、文本段落及其答案片段。
SQuAD 2.0阅读理解数据集,包含问题、文本段落及其答案片段。

无监督学习

数据集说明
CC100
EnWik9

torchaudio数据集

数据集说明
CMUARCTIC语音合成数据集,包含 4 种语音风格(如 bdl 男声、slt 女声)。
CMUDictCMU Pronouncing Dictionary [Weide, 1998] (CMUDict) dataset.
COMMONVOICE多语言开源语音数据集(如英语、中文),包含多样化的说话人录音及文本。
DR_VCTKDevice Recorded VCTK (Small subset version) [Sarfjoo and Yamagishi, 2018] dataset.
FluentSpeechCommandsFluent Speech Commands [Lugosch et al., 2019] dataset
GTZAN音乐流派分类数据集,包含 10 类音乐(如摇滚、爵士),每类 100 条 30 秒片段。
IEMOCAPIEMOCAP [Busso et al., 2008] dataset.
LibriMixLibriMix [Cosentino et al., 2020] dataset.
LIBRISPEECHLibriSpeech [Panayotov et al., 2015] dataset.
LibriLightLimitedSubset of Libri-light [Kahn et al., 2020] dataset, which was used in HuBERT [Hsu et al., 2021] for supervised fine-tuning.
LIBRITTS高质量语音合成数据集,基于 LibriSpeech 的文本生成自然语音。
LJSPEECHLJSpeech-1.1 [Ito and Johnson, 2017] dataset.
MUSDB_HQMUSDB_HQ [Rafii et al., 2019] dataset.
QUESST14语音检索数据集,用于跨语言关键词搜索任务。
SnipsSnips [Coucke et al., 2018] dataset.
SPEECHCOMMANDS短语音指令数据集,包含 35 种英文单词(如 "yes", "no", "stop"),采样率 16kHz。
TEDLIUMTED 演讲录音数据集,包含高质量英文演讲及转录文本。
VCTK_092VCTK 0.92 [Yamagishi et al., 2019] dataset
VoxCeleb1Identification大规模说话人识别数据集,包含名人采访视频的音频片段。
VoxCeleb1Verification大规模说话人识别数据集,包含名人采访视频的音频片段。
YESNO希伯来语 "yes" 和 "no" 的录音数据集,每个音频包含 8 个单词序列。