pytorch学习教程之自定义数据集--688IT编程网

pytorch学习教程之⾃定义数据集

⾃定义数据集

在训练深度学习模型之前，样本集的制作⾮常重要。在pytorch中，提供了⼀些接⼝和类，⽅便我们定义⾃⼰的数据集合，下⾯完整的试验⾃定义样本集的整个流程。

开发环境

Ubuntu 18.04

pytorch 1.0

pycharm

实验⽬的

1. 掌握pytorch中数据集相关的API接⼝和类

2. 熟悉数据集制作的整个流程

实验过程

1.收集图像样本

以简单的猫狗⼆分类为例，可以在⽹上下载⼀些猫狗图⽚。创建以下⽬录：

data-------------根⽬录

data/test-------测试集

data/train------训练集

data/val--------验证集

在test/train/val之下在校分别创建2个⽂件夹，dog, cat

cat, dog⽂件夹下分别存放2类图像：

标签

种类标签

cat0

dog1

之后写⼀个简单的python脚本，⽣成txt⽂件，⽤于指明每个图像和标签的对应关系。

格式: /cat/1.jpg 0 \n dog/1.jpg 1 \n .....

如图：

⾄此，样本集的收集以及简单归类完成，下⾯将开始采⽤pytorch的数据集相关API和类。

2. 使⽤pytorch相关类，API对数据集进⾏封装

2.1 pytorch中数据集相关的类，接⼝

pytorch中数据集相关的类位于torch.utils.data package中。

本次实验，主要使⽤以下类：

torch.utils.data.Dataset

torch.utils.data.DataLoader

Dataset类的使⽤：所有的类都应该是此类的⼦类(也就是说应该继承该类)。所有的⼦类都要重写(override) __len()__,

__getitem()__ 这两个⽅法。

⽅法作⽤

__len()__此⽅法应该提供数据集的⼤⼩(容量)

__getitem()__此⽅法应该提供⽀持下标索⽅式引访问数据集

这⾥和Java抽象类很相似，在抽象类abstract class中，⼀般会定义⼀些抽象⽅法abstract method，抽象⽅法：只有⽅法名没有⽅法的具体实现。如果⼀个⼦类继承于该抽象类，要重写(overrode)⽗类的抽象⽅法。

DataLoader类的使⽤：

2.2 实现

使⽤到的python package

python package⽬的

numpy矩阵操作，对图像进⾏转置

skimage图像处理，图像I/O，图像变换

matplotlib图像的显⽰，可视化

os⼀些⽂件查操作

torch pytorch

torvision pytorch

源码

导⼊python包

import numpy as np

from skimage import io

from skimage import transform

import matplotlib.pyplot as plt

import os

import torch

import torchvision

from torch.utils.data import Dataset, DataLoader

ansforms import transforms

from torchvision.utils import make_grid

第⼀步：

定义⼀个⼦类，继承Dataset类，重写 __len()__, __getitem()__ ⽅法。

细节：

1.数据集中⼀个⼀样的表⽰：采⽤字典的形式sample = {'image': image, 'label': label}。

2.图像的读取：采⽤skimage.io进⾏读取，读取之后的结果为numpy.ndarray形式。

3.图像变换：transform参数

# step1: 定义MyDataset类，继承Dataset, 重写抽象⽅法：__len()__, __getitem()__

class MyDataset(Dataset):

def __init__(self, root_dir, names_file, transform=None):

<_dir = root_dir

self.names_file = names_file

self.size = 0

self.names_list = []

if not os.path.isfile(self.names_file):

print(self.names_file + 'does not exist!')

file = open(self.names_file)

for f in file:

self.names_list.append(f)

self.size += 1

def __len__(self):

return self.size

def __getitem__(self, idx):

image_path = _dir + self.names_list[idx].split(' ')[0]

if not os.path.isfile(image_path):

print(image_path + 'does not exist!')

return None

image = io.imread(image_path) # use skitimage

label = int(self.names_list[idx].split(' ')[1])

sample = {'image': image, 'label': label}

ansform:

sample = ansform(sample)

return sample

第⼆步

实例化⼀个对象，并读取和显⽰数据集

train_dataset = MyDataset(root_dir='./data/train',

names_file='./data/',

transform=None)

plt.figure()

for (cnt,i) in enumerate(train_dataset):

image = i['image']

label = i['label']

ax = plt.subplot(4, 4, cnt+1)

ax.axis('off')

ax.imshow(image)

ax.set_title('label {}'.format(label))

plt.pause(0.001)

if cnt == 15:

break

只显⽰了部分数据，前部分全是cat

第三步(可选 optional)

对数据集进⾏变换：⼀般收集到的图像⼤⼩尺⼨，亮度等存在差异，变换的⽬的就是使得数据归⼀化。另⼀⽅⾯，可以通过变换进⾏数据增加data argument

关于pytorch中的变换transforms，请参考该系列之前的⽂章

由于数据集中样本采⽤字典dicts形式表⽰。因此不能直接调⽤ansofrms中的⽅法。

本实验只进⾏尺⼨归⼀化Resize, 数据类型变换ToTensor操作。

Resize

numpy官方教程# # 变换Resize

class Resize(object):

def __init__(self, output_size: tuple):

self.output_size = output_size

def __call__(self, sample):

# 图像

image = sample['image']

# 使⽤ansform对图像进⾏缩放

image_new = size(image, self.output_size)

return {'image': image_new, 'label': sample['label']}

ToTensor

# # 变换ToTensor

class ToTensor(object):

def __call__(self, sample):

image = sample['image']

image_new = np.transpose(image, (2, 0, 1))

return {'image': torch.from_numpy(image_new),

'label': sample['label']}

第四步: 对整个数据集应⽤变换

细节： transformers.Compose() 将不同的⼏个组合起来。先进⾏Resize, 再进⾏ToTensor

# 对原始的训练数据集进⾏变换

transformed_trainset = MyDataset(root_dir='./data/train',

names_file='./data/',

transform=transforms.Compose(

[Resize((224,224)),

ToTensor()]

))

第五步：使⽤DataLoader进⾏包装

为何要使⽤DataLoader?

①深度学习的输⼊是mini_batch形式

②样本加载时候可能需要随机打乱顺序，shuffle操作

③样本加载需要采⽤多线程

pytorch提供的DataLoader封装了上述的功能，这样使⽤起来更⽅便。

# 使⽤DataLoader可以利⽤多线程，batch,shuffle等

trainset_dataloader = DataLoader(dataset=transformed_trainset,

batch_size=4,

shuffle=True,

num_workers=4)

可视化：

def show_images_batch(sample_batched):

images_batch, labels_batch = \

sample_batched['image'], sample_batched['label']

grid = make_grid(images_batch)

plt.imshow(grid.numpy().transpose(1, 2, 0))

# sample_batch: Tensor , NxCxHxW

plt.figure()

for i_batch, sample_batch in enumerate(trainset_dataloader):

show_images_batch(sample_batch)

plt.axis('off')

plt.ioff()

plt.show()

通过DataLoader包装之后，样本以min_batch形式输出，⽽且进⾏了随机打乱顺序。

⾄此，⾃定义数据集的完整流程已实现，test, val集只需要改路径即可。

补充

更简单的⽅法

上述继承Dataset, 重写 __len()__, __getitem() 是通⽤的⽅法，过程相对繁琐。对于简单的分类数据集，pytorch中提供了更简便的⽅式——ImageFolder。

如果每种类别的样本放在各⾃的⽂件夹中，则可以直接使⽤ImageFolder。

仍然以cat, dog ⼆分类数据集为例：

⽂件结构：

Code

import torch

from torch.utils.data import DataLoader

from torchvision import transforms, datasets

import matplotlib.pyplot as plt

import numpy as np

# /tutorials/beginner/data_loading_tutorial.html

# data_transform = transforms.Compose([

# transforms.RandomResizedCrop(224),

# transforms.RandomHorizontalFlip(),

# transforms.ToTensor(),

# transforms.Normalize(mean=[0.485, 0.456, 0.406],

# std=[0.229, 0.224, 0.225])

# ])

data_transform = transforms.Compose([

transforms.Resize((224,224)),

transforms.RandomHorizontalFlip(),

transforms.ToTensor(),

])

train_dataset = datasets.ImageFolder(root='./data/train',transform=data_transform)

train_dataloader = DataLoader(dataset=train_dataset,

batch_size=4,

shuffle=True,

num_workers=4)

def show_batch_images(sample_batch):

labels_batch = sample_batch[1]

images_batch = sample_batch[0]

for i in range(4):

label_ = labels_batch[i].item()

image_ = np.transpose(images_batch[i], (1, 2, 0))

ax = plt.subplot(1, 4, i + 1)

ax.imshow(image_)

ax.set_title(str(label_))

ax.axis('off')

plt.pause(0.01)

plt.figure()

for i_batch, sample_batch in enumerate(train_dataloader):

show_batch_images(sample_batch)

plt.show()

由于 train ⽬录下只有2个⽂件夹，分别为cat, dog, 因此ImageFolder安装顺序对cat使⽤标签0, dog使⽤标签1。

End

参考：

到此这篇关于pytorch学习教程之⾃定义数据集的⽂章就介绍到这了，更多相关pytorch⾃定义数据集内容请搜索以前的⽂章或继续浏览下⾯的相关⽂章希望⼤家以后多多⽀持！

688IT编程网

pytorch学习教程之自定义数据集

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

pytorch学习教程之自定义数据集

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式