视觉编码器 – Qgenius® 官方学习平台

Meta AI 扔掉了视觉编码器，多模态直接读懂像素，这到底有多颠覆？

产品经理们，你们是不是总被多模态模型忽略截图小字、漏掉按钮细节气得够呛？Meta AI 联合高校放出一篇重磅论文 Tuna-2，直接扔掉所有视觉编码器和 VAE，让模型从原始像素自己学会‘看’。这意味着产品评估指标要从‘能看见’转向‘看得细