为什么 Midscene 的 UI Agent 非得看见屏幕?

做 Midscene 的过程中,我经常遇到一个问题:为什么 UI Agent 一定要看截图?为什么不能继续沿用 DOM、selector、XPath、accessibility tree 这些传统自动化里已经很成熟的东西?

这个问题非常合理。过去十几年,UI 自动化基本就是沿着“结构化界面信息”这条路发展起来的。但如果我们要做的不是一个更聪明的 Web 测试框架,而是一个能操作 Web、移动端、桌面端、Canvas、自定义设备的 UI Agent,那么默认信息来源就得换一下:先看见屏幕,再决定怎么操作。

UI Agent 应该先看见屏幕

阅读更多