Skip to content

Latest commit

 

History

History
57 lines (32 loc) · 3.88 KB

vit_msn.md

File metadata and controls

57 lines (32 loc) · 3.88 KB

ViTMSN

概述

ViTMSN模型由Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas在Masked Siamese Networks for Label-Efficient Learning中提出。该论文提出了一种联合嵌入架构,用于将掩蔽补丁的原型与未掩蔽补丁的原型进行匹配。在这种设置下,他们的方法在低样本和极低样本情况下获得了出色的性能。

论文中的摘要如下:

我们提出了掩蔽孪生网络(MSN),这是一种自监督学习框架,用于学习图像表示。我们的方法将包含随机掩蔽补丁的图像视图的表示与原始未掩蔽图像的表示进行匹配。当应用于Vision Transformers时,这种自监督预训练策略尤其具有可伸缩性,因为网络只处理未掩蔽的补丁。结果,MSN提高了联合嵌入架构的可伸缩性,同时生成高语义级别的表示,在低样本图像分类上具有竞争力的性能。例如,在ImageNet-1K上,只有5000张标注图像时,我们的基本MSN模型达到了72.4%的top-1精度,当使用1%的ImageNet-1K标签时,我们达到了75.7%的top-1精度,这为自监督学习在这个基准测试中设立了新的技术水平。

提示:

  • MSN(掩蔽孪生网络)是自监督预训练Vision Transformers(ViTs)的方法。预训练目标是将未掩蔽视图的原型与相同图像的掩蔽视图的原型进行匹配。
  • 作者只发布了骨干网络的预训练权重(ImageNet-1k预训练)。因此,要在自己的图像分类数据集上使用这个权重,使用[ViTMSNForImageClassification]类,该类是从[ViTMSNModel]初始化的。请参考此笔记本详细了解微调的教程。
  • MSN在低样本和极低样本情况下特别有用。值得注意的是,当进行微调时,它在只有1%的ImageNet-1K标签时达到了75.7%的top-1精度。

drawing

MSN架构。取自原始论文。

此模型由sayakpaul贡献。原始代码可以在此处找到。

资源

下面是官方Hugging Face和社区(通过🌎标识)的资源列表,可帮助你开始使用ViT MSN。

如果你有兴趣提交要包含在此处的资源,请随时提出Pull Request,我们将进行审查!这个资源应该展示一些新的东西,而不是重复现有的资源。

ViTMSNConfig

[[autodoc]] ViTMSNConfig

ViTMSNModel

[[autodoc]] ViTMSNModel - 前向传播

ViTMSNForImageClassification

[[autodoc]] ViTMSNForImageClassification - 前向传播