HKUST 团队实测:AI 眼镜戴 GPT-5.2 期末考拿下 92.5 分
港科大团队用 Rokid 眼镜搭载 GPT-5.2 模型,在本科期末考试中取得 92.5 分,跻身全班前五,引发教育界对…
- 重要性
- 50
- 新颖性
- 62
- 影响面
- 50
- 可信度
- 65
- 实质性
- 72
香港科技大学一支研究团队近期完成了一项引人注目的实验:他们让一副搭载 OpenAI 最新 GPT-5.2 模型的 Rokid AI 眼镜,参加了本校「计算机通信网络」本科课程的期末考试,最终取得 92.5 分,在 100 多人的班级中跻身全校前五,远超学生平均分 72。这一结果由 Jun Zhang 和 Zili Meng 教授团队主导,并已在 GitHub(hkust-spark/xg-glass-release)公开项目主页。
实验流程:眼镜拍照、远程推理、回传答案
整套作答流程分为三步:
- 图像采集:学生低头看向试卷,Rokid 眼镜搭载的 1200 万像素摄像头快速拍摄。
- 远程推理:照片经由「眼镜 → 手机 → 云端」链路传输至远端大模型。
- 结果回传:远端模型推理出答案后,再经「云端 → 手机 → 眼镜」反向回传,显示在眼镜屏幕上供学生誊写。
之所以选择眼镜而非耳机,是因为显示能让答案停留更久,方便誊抄。
平台选型:12 款眼镜为何只选 Rokid
研究团队对市面 12 款主流智能眼镜进行了评估,发现多数产品要么缺摄像头,要么缺显示屏。最终同时满足「摄像头 + 显示屏 + 开放 SDK」三项硬性要求的只有 Brilliant Labs Frame 和 Rokid 两款。Frame 的摄像头画质不足,因此团队最终选定 Rokid Glasses 作为测试平台。
模型选型:GPT-5.2 胜在响应速度
团队也对主流大模型进行了准确率与响应速度的对比测试。综合表现相近的情况下,GPT-5.2 因响应明显更快而被选中。文中提到该模型由 OpenAI 于 12 月 11 日发布,并展示了在同一 Poe 平台中 GPT-5.2 比 Gemini 3 Pro 出答案更快的演示视频。
详细成绩:选择题、简答题几乎满分
按题型拆分的表现如下:
- 选择题:29 / 29(满分)
- 单页简答题:18 / 18(满分)
- 跨页简答题:45.5 / 53
- 总分:92.5 / 100
跨页简答题失分最多。这类题目把同一道大题拆分到多个页面,后面子题往往依赖前文关键信息,眼镜单次拍摄无法看到完整题干,难度显著上升。Rokid 即便在此类题型上仍拿下了大部分分值,扣分主要集中在需要较强推理链的子问题。
文中也展示了一道典型错例:模型给出的 IP 地址 111.123.15.254 在工程上完全正确,但与课程考试中使用的简化模型 111.123.15.255 不符,反映出模型的知识范围超出教学大纲的「知识错位」问题。
现有硬件瓶颈
尽管软件流程已被验证可行,研究团队也指出现有商用硬件的明显短板:
- 画质瓶颈:摄像头清晰度直接决定模型能否准确读题。
- 功耗压力:Rokid 开启 Wi-Fi 传输高分辨率照片后,30 分钟内电量从 100% 跌至 58%。
- 连接稳定性:Frame 的蓝牙连接不稳定,低电量时 15 分钟内断连 4 次,需手动重连。
教育与监管层面的双重影响
研究团队在文末强调,AI 眼镜进入教育场景是一把双刃剑。
- 潜在正向价值:可用于个性化学习、为有需要的学生提供即时辅导、缓解教育资源不均衡。
- 现实风险:在考试场景中使用将对学术诚信造成严重冲击。
团队呼吁全球教育界正视这一趋势,尽快在技术应用与规范监管之间找到平衡点。
