综合

谷歌发布ScreenA

By新智元
On2024年4月8日
In综合

ScreenAI 是由 Google AI 开发的一种视觉语言模型（VLM），它能够理解用户界面（UI）和信息图表。它能够执行图形问答、元素标注、摘要、导航以及 UI 特定的问答等任务。它的工作原理类似于一个超级强大的 UI 解释器。

ScreenAI 使用两个阶段：预训练阶段：应用自监督学习来自动生成数据标签。

微调阶段：使用人类评分员手动标记的数据。