信息论视角：为什么 AI 写作听上去都一个味

近期一篇发表于 Hacker News 的长文《The Information Theory Behind Why AI Writing Sucks》引发讨论。作者同时是重度科幻读者与旗舰大模型的工程使用者，他注意到主流模型输出的文字在「腔调」上高度趋同，并用信息论与对齐机制尝试给出数学化的解释。文章未给出实验数据，多为可检验的假说，但框架本身对理解大模型生成行为具有一定参考价值。

核心观点：风格即概率分布

作者将每位作者特有的「文风」形式化为一个具体的概率分布 P_author，认为真正区分一位作者的不是文本整体是否可预测，而是其在低频高影响选择上的偏好——词汇、节奏、句法、意象的偏置，这些构成识别度最高的「长尾」特征。

基于此，他提出衡量一段文本有多「AI 味」的指标：模型输出分布 Q_model 与目标作者分布 P_author 之间的 KL 散度 D_KL(P_author || Q_model)。当该散度大且结构化时，读者就能「听见」一个独特的声音；当模型输出在 KL 意义上被压缩到接近单一中心分布时，听感就会变得单调。

RLHF 的「陷阱」：评注者共识方言

预训练阶段，模型在海量人类文本上学到一个极宽的基底分布 Q_base，其潜空间中其实保留着模拟多种 P_author 的能力。作者认为，真正让输出变得同质的是对齐阶段，特别是基于人类（或 AI）偏好的奖励信号优化，例如 RLHF：

评注者在评估生成结果时，高度个人化的写作会带来评分的高方差；
一种「稳妥、对称、充分对冲」的写法能在多位评注者处都拿到相近的中上分；
优化目标为最大化期望奖励时，算法会主动坍缩方差，选择最「安全、平均可接受」的表述。

他将这一收敛目标称为「评注者共识方言」（Annotator Consensus Dialect），并预言若实测模型输出与不同语体语料（企业公文 vs. 文学小说）之间的 KL 散度，模型会显著偏向企业公文一侧。作者承认这一预测尚未被实证，但指出其背后的优化数学几乎必然导致该结果。

风格提示词的局限：只移动均值，不复现方差

针对「那用 prompt 逼模型模仿某作家不就行了」的常见反驳，作者给出了一个区分：

提示词让模型移动的是分布的均值，让其词汇、句法中心靠近目标作者；
但模型并未复现目标作者分布的方差结构——那些有意的句长突变、不规则动词、刻意打乱的节奏。

他借用计算风格学的工具说明问题：句长序列的 Hurst 指数可以揭示人类写作中常见的长程依赖，而大模型输出在该指标上往往缺失这种「结构化不规则性」。换言之，人类风格依赖的是「有节制的破格」，而对齐后的模型倾向于「无破格的工整」。

文章还披露，其在技术描述、结构与文笔润色环节使用了 AI 工具辅助编辑，并在结尾透明披露了这一事实。这篇文章本身亦被作者视作可被检测的样本——若上述假说成立，它将不可避免地带有「评注者共识方言」的痕迹。