谷歌发布ScreenA

ScreenAI 是由 Google AI 开发的一种视觉语言模型(VLM),它能够理解用户界面(UI)和信息图表。 它能够执行图形问答、元素标注、摘要、导航以及 UI 特定的问答等任务。 它的工作原理类似于一个超级强大的 UI 解释器。

ScreenAI 使用两个阶段: 预训练阶段:应用自监督学习来自动生成数据标签。

微调阶段:使用人类评分员手动标记的数据。