finetune代码实战讲解(李沐)
resized这⾥要做的是热狗识别:即识别出是否是热狗,我们给了两个类别(正类:热狗,负类:⾹蕉)
备注:resnet18是 imagenet 数据集的预训练模型
finetune的全过程:
import os
import torch
import torchvision
from torch import nn
from d2l import torch as d2l
# 解压下载的数据集,我们获得了两个⽂件夹hotdog/train和hotdog/test。这两个⽂件夹都有hotdog(有热狗)和not-hotdog(⽆热狗)两个⼦⽂件夹,⼦⽂件夹内都
# d2l.DATA_HUB['hotdog'] = (d2l.DATA_URL + 'hotdog.zip', 'fba480ffa8aa7e0febbb511d181409f899b9baa5')
# data_dir = d2l.download_extract('hotdog')
data_dir = './hotdog'
# 我们创建两个实例来分别读取训练和测试数据集中的所有图像⽂件。
train_imgs = torchvision.datasets.ImageFolder(os.path.join(data_dir, 'train'))
test_imgs = torchvision.datasets.ImageFolder(os.path.join(data_dir, 'test'))
# 下⾯显⽰了前8个正类样本图⽚和最后8张负类样本图⽚。正如你所看到的,[图像的⼤⼩和纵横⽐各有不同]。
hotdogs = [train_imgs[i][0] for i in range(8)]
not_hotdogs = [train_imgs[-i - 1][0] for i in range(8)]
d2l.show_images(hotdogs + not_hotdogs, 2, 8, scale=1.4)
d2l.plt.show()
# 在训练期间,我们⾸先从图像中裁切随机⼤⼩和随机长宽⽐的区域,然后将该区域缩放为 224×224 输⼊图像。
# 在测试过程中,我们将图像的⾼度和宽度都缩放到256像素,然后裁剪中央 224×224 区域作为输⼊。此外,对于RGB(红、绿和蓝)颜⾊通道,我们分别标准化每个# 具体⽽⾔,该通道的每个值减去该通道的平均值,然后将结果除以该通道的标准差。
# 使⽤RGB通道的均值和标准差,以标准化每个通道
normalize = ansforms.Normalize(
[0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
train_augs = ansforms.Compose([
normalize])
test_augs = ansforms.Compose([
normalize])
# [定义和初始化模型] 我们使⽤在ImageNet数据集上预训练的ResNet-18作为源模型。在这⾥,我们指定pretrained=True以⾃动下载预训练的模型参数。pretrained_net = snet18(pretrained=True)
# [定义需要finetune的模型]
finetune_net = snet18(pretrained=True)
# 因为我们要做的是⼀个⼆分类问题,所以只需要改变最后⼀层的输出分类为2,然后只初始化最后⼀层的weight
finetune_net.fc = nn.Linear(finetune_net.fc.in_features, 2)
nn.init.xavier_uniform_(finetune_net.fc.weight)
# [微调模型]
# ⾸先,我们定义了⼀个训练函数train_fine_tuning,该函数使⽤微调,因此可以多次调⽤
# 如果param_group=True,输出层中的模型参数将使⽤⼗倍的学习率
def train_fine_tuning(net, learning_rate, batch_size=128, num_epochs=5, param_group=True):
train_iter = torch.utils.data.DataLoader(torchvision.datasets.ImageFolder(os.path.join(data_dir, 'train'), transform=train_augs), batch_size=batch_size, shuffle= test_iter = torch.utils.data.DataLoader(torch
vision.datasets.ImageFolder(os.path.join(data_dir, 'test'), transform=test_augs), batch_size=batch_size)
devices = _all_gpus()
loss = nn.CrossEntropyLoss(reduction="none")
if param_group:
# 取出除了最后⼀层(fc)之外的全部层的参数:params_1x
params_1x = [param for name, param in net.named_parameters() if name not in ["fc.weight", "fc.bias"]]
# params_1x使⽤正常的学习率,但是fc的学习率为正常学习率的⼗倍
trainer = torch.optim.SGD([{'params': params_1x},
{'params': net.fc.parameters(),
'lr': learning_rate * 10}],
lr=learning_rate, weight_decay=0.001)
else:
trainer = torch.optim.SGD(net.parameters(), lr=learning_rate, weight_decay=0.001)
# 画出
d2l.plt.show()
# 我们[使⽤较⼩的学习率],通过微调预训练获得的模型参数。
train_fine_tuning(finetune_net, 5e-5)
没有进⾏finetune的结果:
# [为了进⾏⽐较,]我们定义了⼀个相同的模型,但是将其(所有模型参数初始化为随机值)。 由于整个模型需要从头开始训练,因此我们需
要使⽤更⼤的学习率。
scratch_net = snet18()
scratch_net.fc = nn.Linear(scratch_net.fc.in_features, 2)
train_fine_tuning(scratch_net, 5e-4, param_group=False)
结果:
可以看到,有finetune和没有finetune的结果总共差了10个百分点
⼩结
迁移学习将从源数据集中学到的知识“迁移”到⽬标数据集,微调是迁移学习的常见技巧。
除输出层外,⽬标模型从源模型中复制所有模型设计及其参数,并根据⽬标数据集对这些参数进⾏微调。但是,⽬标模型的输出层需要从头开始训练。
通常,微调参数使⽤较⼩的学习率,⽽从头开始训练输出层可以使⽤更⼤的学习率。
事实上,ImageNet数据集中有⼀个“热狗”类别。我们需要我们可以通过以下代码获取其输出层中的相应权重参数,但是我们怎样才能利⽤这个权重参数?
weight = pretrained_net.fc.weight
hotdog_w = torch.split(weight.data, 1, dim=0)[713]
hotdog_w.shape
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论