

既开源又免费的 Llama 2 一经发布颇有席卷之势,成了最火爆的开源 ChatGPT 替代,国内外不少开发者及企业都跟风进行模型的研究和商业开发,比如这几天 OpenAI 传奇科学家 Andrej Karpathy 就用纯 C 语言打造了一个轻量版的 Llama 2 模型。而反观被称为大模型天花板的 GPT-4 则很不如意,深陷智商下降漩涡。
ChatGPT 什么时候不聪明了?
自今年三月 GPT-4 发布后,已经有不少的开发者和用户在 OpenAI 论坛提到使用 ChatGPT 时会出现不连贯性、非自然语言、以及推理等问题。其核心症结众说纷纭,有学者怀疑是 OpenAI 的系统修改和升级导致,通过削弱运算性能从而实现降本增效。然而由于 ChatGPT 闭源的属性,我们很难确定其背后的真正原因。

OpenAI社区讨论GPT-4性能的帖子尤其热闹
围绕 GPT 智商下降的讨论在 “How is ChatGPTs Behavior Changing Over Time?” 论文的发布之下被推向了顶峰,来自斯坦福大学和加州大学伯克利分校的学者 Lingjiao Chen、Matei Zaharia 和 James Zou 对 3 月和 6 月不同版本的 GPT-3.5 和 GPT-4 进行了任务测试,结果发现不同版本的结果出现显著的表现差异(漂移 drifting)。
首先是程序员们最为关心的代码生成能力。即使在明确声明不要注释的前提下,新版 GPT-3.5 和 GPT-4 仍然添加了更多的非代码文本和注释,使回答变得繁杂冗长。同时,代码质量下降使得直接可执行代码生成的比例更低(GPT-4 从 3 月的 52%下降到 6 月的 10%)。这对于程序员们而言,可能在用 LeetCode 刷题时,自己答对的概率比 ChatGPT 还能高不少。






与此同时,OpenAI 也在集中改进被社区反馈的问题。例如,OpenAI 技术发言人 Logan Kilpatrick 刚刚宣布新版 ChatGPT 被提问时将不再一直以“作为一个由 OpenAI 训练的大语言模型,得到下面的结论…”为开头,这对于开发者们而言,能够更直接地获得反馈,同时对于 ChatGPT 来说,也从一定程度上减少了系统负担。

