前段时间,何恺明等人的一篇论文成为了计算机视觉圈的焦点这篇论文仅用简单的 idea就达到了非常理想的性能,让人们看到了 Transformer 扩展到 CV 大模型的光明前景,给该领域的研究者带来了很大的鼓舞
那么,MAE 就是大模型视觉模型预训练方法的巅峰了吗显然不是,一大波挑战者已经在路上了,比如字节跳动,约翰霍普金斯大学等机构组成的联合团队
在一篇最新的论文中,他们提出了适用于视觉任务的大规模预训练方法 iBOT,通过对图像使用在线 tokenizer 进行 BERT 式预训练让 CV 模型获得通用广泛的特征表达能力该方法在十几类任务和数据集上刷新了 SOTA 结果,在一些指标上甚至超过了 MAE
在 NLP 的大规模模型训练中,MLM是非常核心的训练目标,其思想是遮住文本的一部分并通过模型去预测这些遮住部分的语义信息,通过这一过程可以使模型学到泛化的特征NLP 中的经典方法 BERT 就是采用了 MLM 的预训练范式,通过 MLM 训练的模型已经被证明在大模型和大数据上具备极好的泛化能力,成为 NLP 任务的标配
实验结果
从 Linear probing及 k—NN 分类的结果上来看,iBOT 使用 ViT—B/16 达到 79.5% 线性分类准确度,超越了 DINO 的 78.2%,使用 Swin—T/14 达到 79.3% 准确度,超越了 EsViT 的 78.7%,使用 ViT—L/16 及 ImageNet—22K 作为预训练数据达到 81.6% 准确度,为目前 ImageNet—1K 线性分类基准上最高的结果。
从 Fine—tuning 的结果上来看,使用 ImageNet—1K 作为预训练数据及 ViT—B/16 时 iBOT 可达到 83.8% 准确率,高于 DINO,MAE 的 83.6%,使用 ImageNet—22K 作为预训练数据及 ViT—L/16 时 iBOT 可达到 86.3%,高于 BEiT 的 86.0%。
近期 masked autoencoding 的思路可谓在视觉领域大火,和近期一些工作对比,BEiT 使用了一个预训练好的 DALL—E encoder 作为 tokenizer,将每个 patch 标签离散化后的 one—hot 编码作为目标模型的标签。9月1日至30日,由北京智源人工智能研究院发起成立的2021年度“悟道科研基金”项目开启征集。。
而 MPP 及近期较火的 MAE 则可将 tokenizer 视为恒等变换,即直接在像素空间内进行回归而非分类。该项目旨在挖掘预训练模型的应用价值,推动预训练前沿技术的创新。
。