桃子桃子 AI 快讯
返回首页
研究论文

HKUST 团队实测:AI 眼镜戴 GPT-5.2 期末考拿下 92.5 分

港科大团队用 Rokid 眼镜搭载 GPT-5.2 模型,在本科期末考试中取得 92.5 分,跻身全班前五,引发教育界对…

2026.06.29 · 周一4 分钟阅读评分 57
评分细项加权总分 57
重要性
50
新颖性
62
影响面
50
可信度
65
实质性
72

香港科技大学一支研究团队近期完成了一项引人注目的实验:他们让一副搭载 OpenAI 最新 GPT-5.2 模型的 Rokid AI 眼镜,参加了本校「计算机通信网络」本科课程的期末考试,最终取得 92.5 分,在 100 多人的班级中跻身全校前五,远超学生平均分 72。这一结果由 Jun Zhang 和 Zili Meng 教授团队主导,并已在 GitHub(hkust-spark/xg-glass-release)公开项目主页。

实验流程:眼镜拍照、远程推理、回传答案

整套作答流程分为三步:

  • 图像采集:学生低头看向试卷,Rokid 眼镜搭载的 1200 万像素摄像头快速拍摄。
  • 远程推理:照片经由「眼镜 → 手机 → 云端」链路传输至远端大模型。
  • 结果回传:远端模型推理出答案后,再经「云端 → 手机 → 眼镜」反向回传,显示在眼镜屏幕上供学生誊写。

之所以选择眼镜而非耳机,是因为显示能让答案停留更久,方便誊抄。

平台选型:12 款眼镜为何只选 Rokid

研究团队对市面 12 款主流智能眼镜进行了评估,发现多数产品要么缺摄像头,要么缺显示屏。最终同时满足「摄像头 + 显示屏 + 开放 SDK」三项硬性要求的只有 Brilliant Labs Frame 和 Rokid 两款。Frame 的摄像头画质不足,因此团队最终选定 Rokid Glasses 作为测试平台。

模型选型:GPT-5.2 胜在响应速度

团队也对主流大模型进行了准确率与响应速度的对比测试。综合表现相近的情况下,GPT-5.2 因响应明显更快而被选中。文中提到该模型由 OpenAI 于 12 月 11 日发布,并展示了在同一 Poe 平台中 GPT-5.2 比 Gemini 3 Pro 出答案更快的演示视频。

详细成绩:选择题、简答题几乎满分

按题型拆分的表现如下:

  • 选择题:29 / 29(满分)
  • 单页简答题:18 / 18(满分)
  • 跨页简答题:45.5 / 53
  • 总分:92.5 / 100

跨页简答题失分最多。这类题目把同一道大题拆分到多个页面,后面子题往往依赖前文关键信息,眼镜单次拍摄无法看到完整题干,难度显著上升。Rokid 即便在此类题型上仍拿下了大部分分值,扣分主要集中在需要较强推理链的子问题。

文中也展示了一道典型错例:模型给出的 IP 地址 111.123.15.254 在工程上完全正确,但与课程考试中使用的简化模型 111.123.15.255 不符,反映出模型的知识范围超出教学大纲的「知识错位」问题。

现有硬件瓶颈

尽管软件流程已被验证可行,研究团队也指出现有商用硬件的明显短板:

  • 画质瓶颈:摄像头清晰度直接决定模型能否准确读题。
  • 功耗压力:Rokid 开启 Wi-Fi 传输高分辨率照片后,30 分钟内电量从 100% 跌至 58%。
  • 连接稳定性:Frame 的蓝牙连接不稳定,低电量时 15 分钟内断连 4 次,需手动重连。

教育与监管层面的双重影响

研究团队在文末强调,AI 眼镜进入教育场景是一把双刃剑。

  • 潜在正向价值:可用于个性化学习、为有需要的学生提供即时辅导、缓解教育资源不均衡。
  • 现实风险:在考试场景中使用将对学术诚信造成严重冲击。

团队呼吁全球教育界正视这一趋势,尽快在技术应用与规范监管之间找到平衡点。

信源