示例代码
from torchvision import datasets, transforms
transform = transforms.Compose(
[transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))]
)
train_dataset = datasets.MNIST(
root="./data", train=True, transform=transform, download=True
)
test_dataset = datasets.MNIST(
root="./data", train=False, transform=transform, download=True
)
print(train_dataset)
print(test_dataset)
torchvision数据集
图片分类
数据集 | 说明 |
Caltech101 | 包含101个类别物体的图片。每个类别大约有40到800张图片。大多数类别大约有50张图片。 |
Caltech256 | 包含256个对象类别、总计30607张图像的挑战性数据集。 |
CelebA | 名人面部属性数据集,包含 200k+ 张人脸图像及 40 个属性(如眼镜、微笑等)。 |
CIFAR10 | 10 类彩色图像(如飞机、猫、狗等),图像大小 32×32。 |
CIFAR100 | 100 类彩色图像(如飞机、猫、狗等),图像大小 32×32。 |
Country211 | The Country211 Data Set from OpenAI. |
DTD | Describable Textures Dataset (DTD). |
EMNIST | EMNIST Dataset. |
EuroSAT | RGB version of the EuroSAT Dataset. |
FakeData | A fake dataset that returns randomly generated images and returns them as PIL images |
FashionMNIST | 替代 MNIST 的时尚单品数据集,包含 10 类服装/鞋包(如 T恤、裙子等),图像大小为 28×28 灰度。 |
FER2013 | FER2013 Dataset. |
FGVCAircraft | FGVC Aircraft Dataset. |
Flickr8k | Flickr8k Entities Dataset. |
Flickr30k | Flickr30k Entities Dataset. |
Flowers102 | Oxford 102 Flower Dataset. |
Food101 | The Food-101 Data Set. |
GTSRB | German Traffic Sign Recognition Benchmark (GTSRB) Dataset. |
INaturalist | iNaturalist Dataset. |
ImageNet | 大规模图像分类数据集,包含 1000 个类别,图像分辨率不一。 |
Imagenette | Imagenette image classification dataset. |
KMNIST | Kuzushiji-MNIST Dataset. |
LFWPeople | LFW Dataset. |
LSUN | LSUN dataset. |
MNIST | 手写数字数据集,包含 0-9 的灰度图像,图像大小为 28×28。 |
Omniglot | 手写字符数据集,包含 50 种字母的 1,623 个字符,每个字符有 20 个手写样本。 |
OxfordIIITPet | Oxford-IIIT Pet Dataset. |
Places365 | Places365 classification dataset. |
PCAM | PCAM Dataset. |
QMNIST | QMNIST Dataset. |
RenderedSST2 | The Rendered SST2 Dataset. |
SEMEION | SEMEION Dataset. |
SBU | SBU Captioned Photo Dataset. |
StanfordCars | Stanford Cars Dataset |
STL10 | 图像分类数据集,10 个类别,图像大小 96×96,支持无监督学习(提供未标注数据)。 |
SUN397 | The SUN397 Data Set. |
SVHN | 街景门牌号数据集,包含 0-9 的彩色数字图像,图像大小 32×32。 |
USPS | USPS Dataset. |
图像检测和分割
数据集 | 说明 |
CocoDetection | 大型通用数据集,包含目标检测、实例分割、关键点检测等标注,图像为自然场景。 |
CelebA | 名人面部属性数据集,包含 200k+ 张人脸图像及 40 个属性(如眼镜、微笑等)。 |
Cityscapes | 城市街景数据集,提供语义分割、实例分割标注。 |
Kitti | 自动驾驶数据集,包含目标检测、光流、深度估计等多任务标注。 |
OxfordIIITPet | Oxford-IIIT Pet Dataset. |
SBDataset | Semantic Boundaries Dataset |
VOCSegmentation | Pascal VOC Segmentation Dataset. |
VOCDetection | Pascal VOC Detection Dataset. |
WIDERFace | WIDERFace Dataset. |
光流
数据集 | 说明 |
FlyingChairs | FlyingChairs Dataset for optical flow. |
FlyingThings3D | FlyingThings3D dataset for optical flow. |
HD1K | HD1K dataset for optical flow. |
KittiFlow | KITTI dataset for optical flow (2015). |
Sintel | Sintel Dataset for optical flow. |
立体匹配
数据集 | 说明 |
CarlaStereo | Carla simulator data linked in the CREStereo github repo. |
Kitti2012Stereo | KITTI dataset from the 2012 stereo evaluation benchmark. |
Kitti2015Stereo | KITTI dataset from the 2015 stereo evaluation benchmark. |
CREStereo | Synthetic dataset used in training the CREStereo architecture. |
FallingThingsStereo | FallingThings dataset. |
SceneFlowStereo | Dataset interface for Scene Flow datasets. |
SintelStereo | Sintel Stereo Dataset. |
InStereo2k | InStereo2k dataset. |
ETH3DStereo | ETH3D Low-Res Two-View dataset. |
Middlebury2014Stereo | Publicly available scenes from the Middlebury dataset //2014 version// |
图像对
数据集 | 说明 |
LFWPairs | LFW Dataset. |
PhotoTour | Multi-view Stereo Correspondence Dataset. |
图像描述
数据集 | 说明 |
CocoCaptions | MS Coco Captions Dataset. |
视频分类
数据集 | 说明 |
HMDB51 | HMDB51 dataset. |
Kinetics | Generic Kinetics dataset. |
UCF101 | UCF101 dataset. |
视频预测
数据集 | 说明 |
MovingMNIST | MovingMNIST Dataset. |
torchtext数据集
文本分类
数据集 | 说明 |
AG_NEWS | 新闻分类数据集,包含 4 个类别(世界、体育、商业、科技)。 |
AmazonReviewFull | |
AmazonReviewPolarity | |
CoLA | 语言可接受性二分类数据集,判断句子是否符合语法。 |
DBpedia | |
IMDb | 电影评论情感分析数据集,包含 50,000 条带有正面或负面标签的影评文本。 |
MNLI | |
MRPC | |
QNLI | |
QQP | |
RTE | |
SogouNews | |
SST2 | |
STSB | |
WNLI | |
YahooAnswers | |
YelpReviewFull | Yelp 用户评论数据集:二分类(正面/负面评价)。 |
YelpReviewPolarity | Yelp 用户评论数据集:五分类(1-5 星评级)。 |
语言建模
数据集 | 说明 |
PennTreebank | 经典语言建模数据集,包含经过标注的英文句子(已分词)。 |
WikiText-2 | 维基百科文章数据集,用于语言建模。较小规模,包含约 1,000 万词。 |
WikiText103 | 维基百科文章数据集,用于语言建模。大规模,包含约 1.03 亿词。 |
机器翻译
数据集 | 说明 |
IWSLT2016 | |
IWSLT2017 | |
Multi30k | 多语言机器翻译数据集,包含英语、德语等语言的平行句对。 |
序列标注
数据集 | 说明 |
CoNLL2000Chunking | |
UDPOS | |
问题解答
数据集 | 说明 |
SQuAD 1.0 | 阅读理解数据集,包含问题、文本段落及其答案片段。 |
SQuAD 2.0 | 阅读理解数据集,包含问题、文本段落及其答案片段。 |
无监督学习
torchaudio数据集
数据集 | 说明 |
CMUARCTIC | 语音合成数据集,包含 4 种语音风格(如 bdl 男声、slt 女声)。 |
CMUDict | CMU Pronouncing Dictionary [Weide, 1998] (CMUDict) dataset. |
COMMONVOICE | 多语言开源语音数据集(如英语、中文),包含多样化的说话人录音及文本。 |
DR_VCTK | Device Recorded VCTK (Small subset version) [Sarfjoo and Yamagishi, 2018] dataset. |
FluentSpeechCommands | Fluent Speech Commands [Lugosch et al., 2019] dataset |
GTZAN | 音乐流派分类数据集,包含 10 类音乐(如摇滚、爵士),每类 100 条 30 秒片段。 |
IEMOCAP | IEMOCAP [Busso et al., 2008] dataset. |
LibriMix | LibriMix [Cosentino et al., 2020] dataset. |
LIBRISPEECH | LibriSpeech [Panayotov et al., 2015] dataset. |
LibriLightLimited | Subset of Libri-light [Kahn et al., 2020] dataset, which was used in HuBERT [Hsu et al., 2021] for supervised fine-tuning. |
LIBRITTS | 高质量语音合成数据集,基于 LibriSpeech 的文本生成自然语音。 |
LJSPEECH | LJSpeech-1.1 [Ito and Johnson, 2017] dataset. |
MUSDB_HQ | MUSDB_HQ [Rafii et al., 2019] dataset. |
QUESST14 | 语音检索数据集,用于跨语言关键词搜索任务。 |
Snips | Snips [Coucke et al., 2018] dataset. |
SPEECHCOMMANDS | 短语音指令数据集,包含 35 种英文单词(如 "yes", "no", "stop"),采样率 16kHz。 |
TEDLIUM | TED 演讲录音数据集,包含高质量英文演讲及转录文本。 |
VCTK_092 | VCTK 0.92 [Yamagishi et al., 2019] dataset |
VoxCeleb1Identification | 大规模说话人识别数据集,包含名人采访视频的音频片段。 |
VoxCeleb1Verification | 大规模说话人识别数据集,包含名人采访视频的音频片段。 |
YESNO | 希伯来语 "yes" 和 "no" 的录音数据集,每个音频包含 8 个单词序列。 |