pytorchDataLoader的num_workers参数与设置大小详解--688IT编程网

pytorchDataLoader的num_workers参数与设置⼤⼩详解Q：在给Dataloader设置worker数量（num_worker）时，到底设置多少合适？这个worker到底怎么⼯作的？

train_loader = torch.utils.data.DataLoader(train_dataset,

batch_size=batch_size, shuffle=True,

num_workers=4)

参数详解：

1、每次dataloader加载数据时：dataloader⼀次性创建num_worker个worker，（也可以说dataloader⼀次性创建num_worker 个⼯作进程，worker也是普通的⼯作进程），并⽤batch_sampler将指定batch分配给指定worker，worker将它负责的batch加载进RAM。

然后，dataloader从RAM中本轮迭代要⽤的batch，如果到了，就使⽤。如果没到，就要num_worker个worker继续加载batch到内存，直到dataloader在RAM中到⽬标batch。⼀般情况下都是能到的，因为batch_sampler指定batch时当然优先指定本轮要⽤的batch。

2、num_worker设置得⼤，好处是寻batch速度快，因为下⼀轮迭代的batch很可能在上⼀轮/上上⼀轮...迭

代时已经加载好了。坏处是内存开销⼤，也加重了CPU负担（worker加载数据到RAM的进程是CPU复制的嘛）。num_workers的经验设置值是⾃⼰电脑/服务器的CPU核⼼数，如果CPU很强、RAM也很充⾜，就可以设置得更⼤些。

3、如果num_worker设为0，意味着每⼀轮迭代时，dataloader不再有⾃主加载数据到RAM这⼀步骤（因为没有worker了），⽽是在RAM中batch，不到时再加载相应的batch。缺点当然是速度更慢。

设置⼤⼩建议：

1、Dataloader的num_worker设置多少才合适，这个问题是很难有⼀个推荐的值。有以下⼏个建议：

2、num_workers=0表⽰只有主进程去加载batch数据，这个可能会是⼀个瓶颈。

3、num_workers = 1表⽰只有⼀个worker进程⽤来加载batch数据，⽽主进程是不参与数据加载的。这样速度也会很慢。num_workers>0 表⽰只有指定数量的worker进程去加载数据，主进程不参与。增加num_works也同时会增加cpu内存的消耗。所以num_workers的值依赖于 batch size和机器性能。

4、⼀般开始是将num_workers设置为等于计算机上的CPU数量

5、最好的办法是缓慢增加num_workers，直到训练速度不再提⾼，就停⽌增加num_workers的值。

补充：pytorch中Dataloader()中的num_workers设置问题

如果num_workers的值⼤于0，要在运⾏的部分放进__main__()函数⾥，才不会有错：

import numpy as np

import torch

from torch.autograd import Variable

functional

import matplotlib.pyplot as plt

import torch.utils.data as Data

BATCH_SIZE=5

x=torch.linspace(1,10,10)

y=torch.linspace(10,1,10)

torch_dataset=Data.TensorDataset(x,y)

loader=Data.DataLoader(

numpy库运行速度dataset=torch_dataset,

batch_size=BATCH_SIZE,

shuffle=True,

num_workers=2,

)

def main():

for epoch in range(3):

for step,(batch_x,batch_y) in enumerate(loader):

print('Epoch:',epoch,'| step:',step,'| batch x:',batch_x.numpy(),

'| batch y:',batch_y.numpy())

if __name__=="__main__":

main()

'''

# 下⾯这样直接运⾏会报错：

for epoch in range(3):

for step,(batch_x,batch_y) in enumerate(loader):

print('Epoch:',epoch,'| step:',step,'| batch x:',batch_x.numpy(),

'| batch y:',batch_y.numpy()

'''

以上为个⼈经验，希望能给⼤家⼀个参考，也希望⼤家多多⽀持。

688IT编程网

pytorchDataLoader的num_workers参数与设置大小详解

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

pytorchDataLoader的num_workers参数与设置大小详解

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式