DysLexLens：用低资源 LLM 分析阅读障碍学习者在线讨论

一项发表于 arXiv 的研究提出了名为 DysLexLens 的低资源大语言模型框架，专门用于分析阅读障碍（Dyslexia）学习者在在线论坛中讨论 AI 工具使用体验的内容。该研究聚焦于一个长期被忽视的群体——他们在阅读、写作、组织和学习任务中越来越多地借助 AI 辅助，但相关的生活化经验缺乏系统性研究。

框架概览

DysLexLens 是一套端到端、可追溯证据的流水线式架构。它将嘈杂的社交媒体帖子转换为由词典驱动的语料库，再通过知识图谱（KG）进行问题推理，最终生成可验证的回答并支持定量与人工评估。整个流程针对「低资源论坛数据」做了专门优化。

核心设计要点

框架包含四项关键能力：

词典驱动过滤：构建聚焦于「阅读障碍 + AI」主题的 Reddit 语料，过滤噪声与弱相关帖子，提升低资源场景下的数据相关度。
LLM 语义分析 + 知识图谱推理：结合大模型的语义理解与 KG 查询，发掘论坛中的有意义模式。
定量评估指标：采用 RAGAS 与 Query Robustness 等指标衡量 LLM 生成回答的质量。
结构化定性验证：提供面向回答质量（尤其是幻觉与证据对齐）的定性校验指南。

初步验证

研究团队使用与阅读障碍相关的 Reddit 论坛数据，并配套 30 个问题对框架进行了验证。结果显示 DysLexLens 在该低资源场景下具备可用性，并具备向其他类似低资源论坛数据场景迁移的潜力。

可复现性

作者已将框架代码、样例数据、问题集与评估结果开源至 GitHub，便于其他研究者复现和扩展。整体而言，这是一项聚焦特定受众与方法论的探索性工作，对教育 AI 与可访问性研究领域有一定参考意义。