ViTMSN

概述

ViTMSN模型由Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas在Masked Siamese Networks for Label-Efficient Learning中提出。该论文提出了一种联合嵌入架构，用于将掩蔽补丁的原型与未掩蔽补丁的原型进行匹配。在这种设置下，他们的方法在低样本和极低样本情况下获得了出色的性能。

论文中的摘要如下：

我们提出了掩蔽孪生网络（MSN），这是一种自监督学习框架，用于学习图像表示。我们的方法将包含随机掩蔽补丁的图像视图的表示与原始未掩蔽图像的表示进行匹配。当应用于Vision Transformers时，这种自监督预训练策略尤其具有可伸缩性，因为网络只处理未掩蔽的补丁。结果，MSN提高了联合嵌入架构的可伸缩性，同时生成高语义级别的表示，在低样本图像分类上具有竞争力的性能。例如，在ImageNet-1K上，只有5000张标注图像时，我们的基本MSN模型达到了72.4%的top-1精度，当使用1%的ImageNet-1K标签时，我们达到了75.7%的top-1精度，这为自监督学习在这个基准测试中设立了新的技术水平。

提示：

MSN（掩蔽孪生网络）是自监督预训练Vision Transformers（ViTs）的方法。预训练目标是将未掩蔽视图的原型与相同图像的掩蔽视图的原型进行匹配。
作者只发布了骨干网络的预训练权重（ImageNet-1k预训练）。因此，要在自己的图像分类数据集上使用这个权重，使用[ViTMSNForImageClassification]类，该类是从[ViTMSNModel]初始化的。请参考此笔记本详细了解微调的教程。
MSN在低样本和极低样本情况下特别有用。值得注意的是，当进行微调时，它在只有1%的ImageNet-1K标签时达到了75.7%的top-1精度。

MSN架构。取自原始论文。

此模型由sayakpaul贡献。原始代码可以在此处找到。

资源

下面是官方Hugging Face和社区（通过🌎标识）的资源列表，可帮助你开始使用ViT MSN。

[ViTMSNForImageClassification]支持使用这个示例脚本和笔记本。
另请参阅：图像分类任务指南

如果你有兴趣提交要包含在此处的资源，请随时提出Pull Request，我们将进行审查！这个资源应该展示一些新的东西，而不是重复现有的资源。

ViTMSNConfig

[[autodoc]] ViTMSNConfig

ViTMSNModel

[[autodoc]] ViTMSNModel - 前向传播

ViTMSNForImageClassification

[[autodoc]] ViTMSNForImageClassification - 前向传播

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

vit_msn.md

vit_msn.md

ViTMSN

概述

资源

ViTMSNConfig

ViTMSNModel

ViTMSNForImageClassification

Files

vit_msn.md

Latest commit

History

vit_msn.md

File metadata and controls

ViTMSN

概述

资源

ViTMSNConfig

ViTMSNModel

ViTMSNForImageClassification