桃子桃子快讯
返回首页
研究论文

信息论视角:为什么 AI 写作听上去都一个味

一名工程师用 KL 散度与 RLHF 机制解释大模型写作风格为何高度同质,并称其本质是被对齐优化收敛到「评注者共识方言」…

2026.07.04 · 周六3 分钟阅读

近期一篇发表于 Hacker News 的长文《The Information Theory Behind Why AI Writing Sucks》引发讨论。作者同时是重度科幻读者与旗舰大模型的工程使用者,他注意到主流模型输出的文字在「腔调」上高度趋同,并用信息论与对齐机制尝试给出数学化的解释。文章未给出实验数据,多为可检验的假说,但框架本身对理解大模型生成行为具有一定参考价值。

核心观点:风格即概率分布

作者将每位作者特有的「文风」形式化为一个具体的概率分布 P_author,认为真正区分一位作者的不是文本整体是否可预测,而是其在低频高影响选择上的偏好——词汇、节奏、句法、意象的偏置,这些构成识别度最高的「长尾」特征。

基于此,他提出衡量一段文本有多「AI 味」的指标:模型输出分布 Q_model 与目标作者分布 P_author 之间的 KL 散度 D_KL(P_author || Q_model)。当该散度大且结构化时,读者就能「听见」一个独特的声音;当模型输出在 KL 意义上被压缩到接近单一中心分布时,听感就会变得单调。

RLHF 的「陷阱」:评注者共识方言

预训练阶段,模型在海量人类文本上学到一个极宽的基底分布 Q_base,其潜空间中其实保留着模拟多种 P_author 的能力。作者认为,真正让输出变得同质的是对齐阶段,特别是基于人类(或 AI)偏好的奖励信号优化,例如 RLHF:

  • 评注者在评估生成结果时,高度个人化的写作会带来评分的高方差;
  • 一种「稳妥、对称、充分对冲」的写法能在多位评注者处都拿到相近的中上分;
  • 优化目标为最大化期望奖励时,算法会主动坍缩方差,选择最「安全、平均可接受」的表述。

他将这一收敛目标称为「评注者共识方言」(Annotator Consensus Dialect),并预言若实测模型输出与不同语体语料(企业公文 vs. 文学小说)之间的 KL 散度,模型会显著偏向企业公文一侧。作者承认这一预测尚未被实证,但指出其背后的优化数学几乎必然导致该结果。

风格提示词的局限:只移动均值,不复现方差

针对「那用 prompt 逼模型模仿某作家不就行了」的常见反驳,作者给出了一个区分:

  • 提示词让模型移动的是分布的均值,让其词汇、句法中心靠近目标作者;
  • 但模型并未复现目标作者分布的方差结构——那些有意的句长突变、不规则动词、刻意打乱的节奏。

他借用计算风格学的工具说明问题:句长序列的 Hurst 指数可以揭示人类写作中常见的长程依赖,而大模型输出在该指标上往往缺失这种「结构化不规则性」。换言之,人类风格依赖的是「有节制的破格」,而对齐后的模型倾向于「无破格的工整」。

文章还披露,其在技术描述、结构与文笔润色环节使用了 AI 工具辅助编辑,并在结尾透明披露了这一事实。这篇文章本身亦被作者视作可被检测的样本——若上述假说成立,它将不可避免地带有「评注者共识方言」的痕迹。

信源