当前位置：首页 >> 编程语言 >> 【PyTorch】模型训练过程优化分析,讯拓

【PyTorch】模型训练过程优化分析,讯拓

0evadmin 2025-12-10 16:00:02 编程语言 2

文件名：【PyTorch】模型训练过程优化分析,讯拓【PyTorch】模型训练过程优化分析

文章目录 1. 模型训练过程划分1.1. 定义过程1.1.1. 全局参数设置1.1.2. 模型定义 1.2. 数据集加载过程1.2.1. Dataset类：创建数据集1.2.2. Dataloader类：加载数据集 1.3. 训练循环 2. 模型训练过程优化的总体思路2.1. 提升数据从硬盘转移到CPU内存的效率2.2. 提升CPU的运算效率2.3. 提升数据从CPU转移到GPU的效率2.4. 提升GPU的运算效率 3. 模型训练过程优化分析3.1. 定义过程3.2. 数据集加载过程3.3. 训练循环3.3.1. 训练模型3.3.2. 评估模型

1. 模型训练过程划分主过程在__main__下。 if __name__ == '__main__':... 主过程分为定义过程、数据集配置过程和训练循环。 1.1. 定义过程 1.1.1. 全局参数设置参数名作用num_epochs指定在训练集上训练的轮数batch_size指定每批数据的样本数num_workers指定加载数据集的进程数prefetch_factor指定每个进程的预加载因子（要求num_workers>0）device指定模型训练使用的设备（CPU或GPU）lr学习率，控制模型参数的更新步长 1.1.2. 模型定义组件作用writer定义tensorboard的事件记录器net定义神经网络结构net.apply(init_weights)模型参数初始化criterion定义损失函数optimizer定义优化器 1.2. 数据集加载过程 1.2.1. Dataset类：创建数据集作用：定义数据集的结构和访问数据集中样本的方式。定义过程中通常需要读取数据文件，但这并不意味着将整个数据集加载到内存中。如何创建数据集继承Dataset抽象类自定义数据集TensorDataset类：通过包装张量创建数据集 1.2.2. Dataloader类：加载数据集作用：定义数据集的加载方式，但这并不意味着正在加载数据集。数据批量加载：将数据集分成多个批次（batches），并逐批次地加载数据。数据打乱（可选）：在每个训练周期（epoch）开始时，DataLoader会对数据集进行随机打乱，以确保在训练过程中每个样本被均匀地使用。主要参数参数作用dataset指定数据集batch_size指定每批数据的样本数shuffle=False指定是否在每个训练周期（epoch）开始时进行数据打乱sampler=None指定如何从数据集中选择样本，如果指定这个参数，那么shuffle必须设置为Falsebatch_sampler=None指定生成每个批次中应包含的样本数据的索引。与batch_size、shuffle 、sampler and drop_last参数不兼容num_workers=0指定进行数据加载的进程数collate_fn=None指定将一列表的样本合成mini-batch的方法，用于映射型数据集pin_memory=False是否将数据缓存在物理RAM中以提高GPU传输效率drop_last=False是否在批次结束时丢弃剩余的样本（当样本数量不是批次大小的整数倍时）timeout=0定义在每个批次上等待可用数据的最大秒数。如果超过这个时间还没有数据可用，则抛出一个异常。默认值为0，表示永不超时。worker_init_fn=None指定在每个工作进程启动时进行的初始化操作。可以用于设置共享的随机种子或其他全局状态。multiprocessing_context=None指定多进程数据加载的上下文环境，即多进程库generator=None指定一个生成器对象来生成数据批次prefetch_factor=2控制数据加载器预取数据的数量，默认预取比实际所需的批次数量多2倍的数据persistent_workers=False控制数据加载器的工作进程是否在数据加载完成后继续存在 1.3. 训练循环外层循环控制在训练集上训练的轮数 for epoch in trange(num_epochs):... 循环内部主要有以下模块：训练模型 for X, y in dataloader_train:X, y = X.to(device), y.to(device)loss = criterion(net(X), y)optimizer.zero_grad()loss.mean().backward()optimizer.step() 评估模型每轮训练后在数据集上损失每轮训练损失每轮测试损失 def evaluate_loss(dataloader):"""评估给定数据集上模型的损失"""metric = d2l.Accumulator(2) # 损失的总和, 样本数量with torch.no_grad():for X, y in dataloader:X, y = X.to(device), y.to(device)loss = criterion(net(X), y)metric.add(loss.sum(), loss.numel())return metric[0] / metric[1] 2. 模型训练过程优化的总体思路

注意：以下只区分变量、对象是在GPU还是在CPU内存中处理。实际处理过程使用的硬件是CPU、内存和GPU，其中CPU有缓存cache，GPU有显存。忽略具体的数据传输路径和数据处理设备。谈GPU包括GPU和显存，谈CPU内存包括CPU、缓存cache和内存。

主过程子过程追踪情况定义过程全局参数设置变量的定义都是由CPU完成的模型定义对象的定义都是由CPU完成的模型参数和梯度信息可以转移到GPU 数据集配置过程——对象的定义都是由CPU完成的训练循环训练模型每批数据的加载是由CPU完成的，先加载到CPU内存，然后可以转移到GPU数据的前向传播可以由GPU完成误差反向传播（包括梯度计算）可以由GPU完成的模型参数更新可以由GPU完成的评估模型每批数据的加载是由CPU完成的，先加载到CPU内存，然后可以转移到GPU数据的前向传播可以由GPU完成，此时可以禁用自动求导机制

由此，要提升硬件资源的利用率和训练效率，总体上有以下角度：

2.1. 提升数据从硬盘转移到CPU内存的效率如果数据集较小，可以一次性读入CPU内存，之后注意要将num_workers设置为0，由主进程加载数据集。否则会增加多余的过程（数据从CPU内存到CPU内存），而且随进程数num_workers增加而增加。如果数据集很大，可以采用多进程读取，num_workers设置为大于0的数，小于CPU内核数，加载数据集的效率随着进程数num_workers增加而增加；也随着预读取因子prefetch_factor的增加而增加，之后大致不变，因为预读取到了极限。如果数据集较小，但是需要逐元素的预处理，可以采用多进程读取，以稍微增加训练时间为代价降低操作的复杂度。 2.2. 提升CPU的运算效率 2.3. 提升数据从CPU转移到GPU的效率数据传输未准备好也传输（即非阻塞模式）：non_blocking=True将张量固定在CPU内存：pin_memory=True 2.4. 提升GPU的运算效率使用自动混合精度（AMP，要求pytorch>=1.6.0）：通过将模型和数据转换为低精度的形式（如FP16），可以显著减少GPU内存使用。 3. 模型训练过程优化分析 3.1. 定义过程特点：每次程序运行只需要进行一次。优化思路：将模型转移到GPU，同时non_blocking=True。 3.2. 数据集加载过程特点：只是定义数据加载的方式，并没有加载数据。优化思路：合理设置数据加载参数，如 batch_size：一般取能被训练集大小整除的值。过小，则每次参数更新时所用的样本数较少，模型无法充分地学习数据的特征和分布，同时参数更新频繁，模型收敛速度提高，CPU到GPU的数据传输次数增加，CPU内存的消耗总量增加；过大，则每次参数更新时所用的样本数较多，模型性能更稳定，对GPU、CPU内存的单次消耗增加，对硬件配置要求更高，同时参数更新缓慢，模型收敛速度下降。num_workers：取小于CPU内核数的合适值，比如先取CPU内核数的一半。过小，则数据加载进程少，数据加载缓慢；过大，则数据加载进程多，对CPU要求高，同时也影响效率。pin_memory：当设置为True时，它告诉DataLoader将加载的数据张量固定在CPU内存中，使数据传输到GPU的过程更快。prefetch_factor：决定每次从磁盘加载多少个batch的数据到内存中，预先加载batch越多，在处理数据时，不会因为数据加载的延迟而影响整体的训练速度，同时可以让GPU在处理数据时保持忙碌，从而提高GPU利用率；过大，则会导致CPU内存消耗增加。 3.3. 训练循环优化思路：训练和评估过程分离或者减少评估的次数：模型从训练到评估需要进行状态切换，模型评估过程开销很大。尽量使用非局部变量：减少变量、对象的创建和销毁过程 3.3.1. 训练模型特点：训练结构固定优化思路：将数据转移到GPU，同时non_blocking=True。优化训练结构：比如使用自动混合精度： from torch.cuda.amp import autocast, GradScalergrad_scaler = GradScaler()for epoch in range(num_epochs):start_time = time.perf_counter()for X, y in dataloader_train:X, y = X.to(device, non_blocking=True), y.to(device, non_blocking=True)with autocast():loss = criterion(net(X), y)optimizer.zero_grad()grad_scaler.scale(loss.mean()).backward()grad_scaler.step(optimizer)grad_scaler.update() 3.3.2. 评估模型特点：评估结构固定优化思路：将数据转移到GPU，同时non_blocking=True。减少不必要的运算：比如梯度计算，即： with torch.no_grad():...

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

【PyTorch】模型训练过程优化分析,讯拓

【PyTorch】模型的基本操作,光学鼠标

【PyTorch】模型选择、欠拟合和过拟合,麦博fc260

【PyQt5学习】——颜色面板使用（QcolorDialog）,索爱w610c

【PyQt】调整子控件的层级以调整绘制的先后顺序,国产精品手机网站（pyqt 控件）

【PyQt学习篇 · ⑨】：QWidget -控件交互,朗琴x300

【PyTorch 08】如果要手动安装对应的包,泡泡网

【PyTorch 卷积】实战自定义的图片归类,步步高vivo手机

【PyTorch】PyTorch、Cuda 的安装和使用,hd高清

【PyTorch】卷积神经网络,索尼wx100

【PyTorch】多项式回归,德拉吉

【PyTorch】权重衰减,佳能eos m