高效使用Pytorch的6个技巧分别是什么-快上网网站建设公司

高效使用Pytorch的6个技巧分别是什么

本篇文章给大家分享的是有关高效使用Pytorch的6个技巧分别是什么，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。

让客户满意是我们工作的目标，不断超越客户的期望值来自于我们对这个行业的热爱。我们立志把好的技术通过有效、简单的方式提供给客户，将通过不懈努力成为客户在信息化领域值得信任、有价值的长期合作伙伴，公司提供的服务项目有：域名与空间、网站空间、营销软件、网站建设、昭化网站维护、网站推广。

导读

只报告模型的Top-1准确率往往是不够的。

将train.py脚本转换为具有一些附加特性的强大pipeline

每一个深度学习项目的最终目标都是为产品带来价值。当然，我们想要最好的模型。什么是“最好的” —— 取决于特定的用例，我将把这个讨论放到这篇文章之外。我想谈谈如何从你的train.py脚本中得到最好的模型。

我们将介绍以下技巧：

建议1 — 利用PyTorch生态系统的高级训练框架

PyTorch在从头开始编写训练循环时提供了极佳的灵活性和自由度。理论上，这为编写任何训练逻辑提供了无限可能。在实践中，你很少会为训练CycleGAN、distilling BERT或3D物体检测从头开始实现编写训练循环。

从头编写一个完整的训练循环是学习PyTorch基本原理的一个很好的方法。不过，我强烈建议你在掌握了一些知识之后，转向高级框架。有很多选择：Catalyst， PyTorch-Lightning， Fast.AI， Ignite，以及其他。高级框架通过以下方式节省你的时间：

提供经过良好测试的训练循环
支持配置文件
支持多gpu和分布式训练
管理检查点/实验
自动记录训练进度

从这些高级库中获得最大效果需要一些时间。然而，这种一次性的投资从长期来看是有回报的。

优点

训练pipeline变得更小 —— 代码越少 —— 出错的机会就越少。
易于进行实验管理。
简化分布式和混合精度训练。

缺点

通常，当使用一个高级框架时，我们必须在框架特定的设计原则和范例中编写代码。
时间投资，学习额外的框架需要时间。

给我看指标

高效使用Pytorch的6个技巧分别是什么

建议2 —— 在训练期间查看其他指标

几乎每一个用于在MNIST或CIFAR甚至ImageNet中对图像进行分类的快速启动示例项目都有一个共同点 —— 它们在训练期间和训练之后都报告了一组最精简的度量标准。通常情况下，包括Top-1和Top-5准确度、错误率、训练/验证损失，仅此而已。虽然这些指标是必要的，但它只是冰山一角！

现代图像分类模型有数千万个参数。你想只使用一个标量值来计算它吗？

Top-1准确率最好的CNN分类模型在泛化方面可能不是最好的。根据你的领域和需求，你可能希望保存具有最 false-positive/false-negative的模型，或者具有最高平均精度的模型。

让我给你一些建议，在训练过程中你可以记录哪些数据：

Grad-CAM heat-map—— 看看图像的哪个部分对某一特定类的贡献最大。

高效使用Pytorch的6个技巧分别是什么

可视化Grad-CAM heat-maps有助于识别模型是否基于真实病理或图像伪影做出预测

Confusion Matrix— 显示了对你的模型来说哪两个类最具挑战性。

高效使用Pytorch的6个技巧分别是什么

混淆矩阵揭示了一个模型对特定类型进行不正确分类的频率

Distribution of predictions— 让你了解最优决策边界。

高效使用Pytorch的6个技巧分别是什么

该模型的negative和positive 预测的分布表明，有很大一部分数据模型无法确定地分类

Minimum/Average/Maximum跨所有层的梯度值，允许识别是否在模型中存在消失/爆炸的梯度或初始化不好的层。

使用面板工具来监控训练

建议3 — 使用TensorBoard或任何其他解决方案来监控训练进度

在训练模型时，你可能最不愿意做的事情就是查看控制台输出。通过一个功能强大的仪表板，你可以在其中一次看到所有的度量标准，这是检查训练结果的更有效的方法。

高效使用Pytorch的6个技巧分别是什么

Tensorboard可以快速的检查和比较你运行的训练

对于少量实验和非分布式环境，TensorBoard是一个黄金标准。自版本1.3以来，PyTorch就完全支持它，并提供了一组丰富的特性来管理试用版。还有一些更先进的基于云的解决方案，比如Weights&Biases、[Alchemy](https://github.com/catalyst team/alchemy)和TensorBoard.dev，这些解决方案使得在多台机器上监控和比较训练变得更容易。

当使用Tensorboard时，我通常记录这样一组指标：

学习率和其他可能改变的优化参数(动量，重量衰减，等等)
用于数据预处理和模型内部的时间
贯穿训练和验证的损失(每个batch和每个epoch的平均值)
跨训练和验证的度量
训练session的超参数最终值
混淆矩阵，Precision-Recall曲线，AUC(如果适用)
模型预测的可视化(如适用)

一图胜千言

直观地观察模型的预测是非常重要的。有时训练数据是有噪声的;有时，模型会过拟合图像的伪影。通过可视化最好的和最差的batch(基于损失或你感兴趣的度量)，你可以对模型执行良好和糟糕的情况进行有价值的洞察。

建议4 — 可视化每个epoch中最好和最坏的batch。它可能会给你宝贵的见解。

Catalyst用户提示：这里是使用可视化回调的示例：https://github.com/BloodAxe/Catalyst-Inria-Segmentation-Example/blob/master/fit_predict.py#L258

例如，在全球小麦检测挑战中，我们需要在图像上检测小麦头。通过可视化最佳batch的图片(基于mAP度量)，我们看到模型在寻找小物体方面做得近乎完美。

高效使用Pytorch的6个技巧分别是什么

最佳模型预测的可视化显示了模型在小物体上的良好表现

相反，当我们查看最差一批的第一个样本时，我们看到模型很难对大物体做出准确的预测。可视化分析为任何数据科学家都提供了宝贵的见解。

高效使用Pytorch的6个技巧分别是什么

最差模型预测的可视化揭示了模型在大物体上的性能很差

查看最差的batch也有助于发现数据标记中的错误。通常情况下，贴错标签的样本损失更大，因此会成为最差的batch。通过在每个epoch对最糟糕的batch做一个视觉检查，你可以消除这些错误：

高效使用Pytorch的6个技巧分别是什么

标记错误的例子。绿色像素表示true positives，红色像素表示false negative。在这个示例中，ground-truth掩模标在了它实际上不存在的位置上。

使用`Dict`作为Dataset和Model的返回值

建议5 — 如果你的模型返回一个以上的值，使用Dict来返回结果，不要使用tuple

在复杂的模型中，返回多个输出并不少见。例如，目标检测模型通常返回边界框及其标签，在图像分割CNN-s中，我们经常返回中间层的mask进行深度监督，多任务学习最近也很常用。

在许多开源实现中，我经常看到这样的东西：

# Bad practice, don't return tuple
class RetinaNet(nn.Module):
  ...

  def forward(self, image):
    x = self.encoder(image)
    x = self.decoder(x)
    bboxes, scores = self.head(x)
    return bboxes, scores

  ...

对于作者来说，我认为这是一种非常糟糕的从模型返回结果的方法。下面是我推荐的替代方法：

class RetinaNet(nn.Module):
  RETINA_NET_OUTPUT_BBOXES = "bboxes"
  RETINA_NET_OUTPUT_SCORES = "scores"

  ...

  def forward(self, image):
    x = self.encoder(image)
    x = self.decoder(x)
    bboxes, scores = self.head(x)
    return { RETINA_NET_OUTPUT_BBOXES: bboxes, 
             RETINA_NET_OUTPUT_SCORES: scores }

  ...

这个建议在某种程度上与“The Zen of Python”的设定产生了共鸣 —— “明确的比含蓄的更好”。遵循这一规则将使你的代码更清晰、更容易维护。

那么为什么我认为第二种选择更好呢？有几个原因：

返回值有一个显式的名称与它关联。你不需要记住元组中元素的确切顺序。
如果你需要访问返回的字典的一个特定元素，你可以通过它的名字来访问。
从模型中添加新的输出不会破坏代码。

使用Dict，你甚至可以更改模型的行为，以按需返回额外的输出。例如，这里有一个简短的片段，演示了如何返回多个“主”输出和两个“辅助”输出来进行度量学习：

# https://github.com/BloodAxe/Kaggle-2020-Alaska2/blob/master/alaska2/models/timm.py#L104

def forward(self, **kwargs):
  x = kwargs[self.input_key]
  x = self.rgb_bn(x)
  x = self.encoder.forward_features(x)
  embedding = self.pool(x)
  result = {
    OUTPUT_PRED_MODIFICATION_FLAG: self.flag_classifier(self.drop(embedding)),
    OUTPUT_PRED_MODIFICATION_TYPE: self.type_classifier(self.drop(embedding)),
  }
  if self.need_embedding:
    result[OUTPUT_PRED_EMBEDDING] = embedding
  if self.arc_margin is not None:
    result[OUTPUT_PRED_EMBEDDING_ARC_MARGIN] = self.arc_margin(embedding)

  return result

同样的建议也适用于Dataset类。对于Cifar-10玩具示例，可以将图像及其对应的标签作为元组返回。但当处理多任务或多输入模型，你想从数据集返回Dict类型的样本：

# https://github.com/BloodAxe/Kaggle-2020-Alaska2/blob/master/alaska2/dataset.py#L373
class TrainingValidationDataset(Dataset):
    def __init__(
        self,
        images: Union[List, np.ndarray],
        targets: Optional[Union[List, np.ndarray]],
        quality: Union[List, np.ndarray],
        bits: Optional[Union[List, np.ndarray]],
        transform: Union[A.Compose, A.BasicTransform],
        features: List[str],
    ):
        """
        :param obliterate - Augmentation that destroys embedding.
        """
        if targets is not None:
            if len(images) != len(targets):
                raise ValueError(f"Size of images and targets does not match: {len(images)} {len(targets)}")

        self.images = images
        self.targets = targets
        self.transform = transform
        self.features = features
        self.quality = quality
        self.bits = bits

    def __len__(self):
        return len(self.images)

    def __repr__(self):
        return f"TrainingValidationDataset(len={len(self)}, targets_hist={np.bincount(self.targets)}, qf={np.bincount(self.quality)}, features={self.features})"

    def __getitem__(self, index):
        image_fname = self.images[index]
        try:
            image = cv2.imread(image_fname)
            if image is None:
                raise FileNotFoundError(image_fname)
        except Exception as e:
            print("Cannot read image ", image_fname, "at index", index)
            print(e)

        qf = self.quality[index]
        data = {}
        data["image"] = image
        data.update(compute_features(image, image_fname, self.features))

        data = self.transform(**data)

        sample = {INPUT_IMAGE_ID_KEY: os.path.basename(self.images[index]), INPUT_IMAGE_QF_KEY: int(qf)}

        if self.bits is not None:
            # OK
            sample[INPUT_TRUE_PAYLOAD_BITS] = torch.tensor(self.bits[index], dtype=torch.float32)

        if self.targets is not None:
            target = int(self.targets[index])
            sample[INPUT_TRUE_MODIFICATION_TYPE] = target
            sample[INPUT_TRUE_MODIFICATION_FLAG] = torch.tensor([target > 0]).float()

        for key, value in data.items():
            if key in self.features:
                sample[key] = tensor_from_rgb_image(value)

        return sample

当你的代码中有Dictionaries时，你可以在任何地方使用名称常量引用输入/输出。遵循这条规则将使你的训练管道非常清晰和容易遵循：

# https://github.com/BloodAxe/Kaggle-2020-Alaska2

callbacks += [
  CriterionCallback(
    input_key=INPUT_TRUE_MODIFICATION_FLAG,
    output_key=OUTPUT_PRED_MODIFICATION_FLAG,
    criterion_key="bce"
  ),
  CriterionCallback(
    input_key=INPUT_TRUE_MODIFICATION_TYPE,
    output_key=OUTPUT_PRED_MODIFICATION_TYPE,
    criterion_key="ce"
  ),
  CompetitionMetricCallback(
    input_key=INPUT_TRUE_MODIFICATION_FLAG,
    output_key=OUTPUT_PRED_MODIFICATION_FLAG,
    prefix="auc",
    output_activation=binary_logits_to_probas,
    class_names=class_names,
  ),
  OutputDistributionCallback(
      input_key=INPUT_TRUE_MODIFICATION_FLAG,
      output_key=OUTPUT_PRED_MODIFICATION_FLAG,
      output_activation=binary_logits_to_probas,
      prefix="distribution/binary",
  ),
  BestMetricCheckpointCallback(
    target_metric="auc", 
    target_metric_minimize=False, 
    save_n_best=3),
]

在训练中检测异常

就像人类可以阅读含有许多错误的文本一样，深度学习模型也可以在训练过程中出现错误时学习“一些合理的东西”。作为一名开发人员，你要负责搜索异常并对其表现进行推理。

建议6 — 在训练期间使用torch.autograd.detect_anomaly()查找算术异常

如果你在训练过程中在损失/度量中看到NaNs或Inf，你的脑海中就会响起一个警报。它是你的管道中有问题的指示器。通常情况下，它可能由以下原因引起：

模型或特定层的初始化不好(你可以通过观察梯度大小来检查哪些层)
数学上不正确的运算(负数的 torch.sqrt() ，非正数的 torch.log() ，等等)
不当使用 torch.mean() 和 torch.sum() 的reduction(zero-sized张量上的均值会得到nan，大张量上的sum容易导致溢出)
在loss中使用 x.sigmoid() (如果你需要在loss函数中使用概率，更好的方法是 x.sigmoid().clamp(eps,1-eps )以防止梯度消失)
在Adam-like的优化器中的低epsilon值
在使用fp16的训练的时候没有使用动态损失缩放

为了找到你代码中第一次出现Nan/Inf的确切位置，PyTorch提供了一个简单易用的方法torch. autograde .detect_anomaly()：

import torch

def main():
    torch.autograd.detect_anomaly()
    ...
    # Rest of the training code
   

# OR
class MyNumericallyUnstableLoss(nn.Module):
  def forward(self, input, target):
    with torch.autograd.set_detect_anomaly(True):
       loss = input * target
       return loss

将其用于调试目的，否则就禁用它，异常检测会带来计算开销，并将训练速度降低10-15% 。

以上就是高效使用Pytorch的6个技巧分别是什么，小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注创新互联行业资讯频道。

本文名称：高效使用Pytorch的6个技巧分别是什么
文章出自：http://cdkjz.cn/article/jiojpj.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

高效使用Pytorch的6个技巧分别是什么

我们将介绍以下技巧：

给我看指标

使用面板工具来监控训练

一图胜千言

使用`Dict`作为Dataset和Model的返回值

在训练中检测异常

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

高效使用Pytorch的6个技巧分别是什么

我们将介绍以下技巧：

给我看指标

使用面板工具来监控训练

一图胜千言

使用Dict作为Dataset和Model的返回值

在训练中检测异常

相关资讯

c语言函数定义标准 c语言函数怎么定义

工厂模式java代码 java设计模式之工厂模式

c语言转换函数 c语言转换符大全

c语言visit函数定义 c语言visit函数头文件

java验证码识别代码 java 验证码的验证和失效

开发岗java代码图片 开发岗java代码图片高清

正则式c语言函数 c正则表达式语法大全

java文件源代码在哪 java源文件在哪找

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

使用`Dict`作为Dataset和Model的返回值

开发岗java代码图片开发岗java代码图片高清

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接