深入了解人工智能机器人的语言思维逻辑模式，AI为何这么会编话-onlycore

在过去的几个月里，像ChatGPT这样的人工智能聊天机器人已经吸引了全世界的关注，因为它们能够以类似人类的方式就几乎任何主题进行交谈。但它们有一个严重的缺点：它们很容易提供令人信服的虚假信息，使它们成为不可靠的事实信息来源和潜在的诽谤来源。

为什么 AI 聊天机器人会编造东西，我们能否完全信任它们的输出？我们询问了几位专家并深入研究了这些 AI 模型的工作原理以找到答案。

“幻觉”——人工智能中的一个有内涵的术语

OpenAI 的 ChatGPT 等人工智能聊天机器人依靠一种称为“大型语言模型”(LLM) 的人工智能来生成它们的响应。LLM 是一种在数百万文本源上训练的计算机程序，可以读取和生成“自然语言”文本——人类自然会书写或交谈的语言。不幸的是，他们也会犯错误。

在学术文献中，人工智能研究人员经常将这些错误称为“幻觉”。但随着这个话题成为主流，这个标签越来越有争议，因为有些人认为它拟人化了 AI 模型（暗示它们具有类似人类的特征）或在不应暗示的情况下赋予它们代理权（暗示它们可以做出自己的选择）。商业 LLM 的创建者也可能以幻觉为借口，将错误的输出归咎于 AI 模型，而不是对输出本身负责。

不过，生成式 AI 太新了，我们需要借用现有思想的隐喻来向更广泛的公众解释这些高度技术化的概念。在这种情况下，我们觉得术语“虚构”虽然同样不完美，但比“幻觉”更好。在人类心理学中，当某人的记忆有空隙而大脑令人信服地填补其余部分而不打算欺骗他人时，就会发生“虚构”。ChatGPT不像人脑那样工作，但术语“虚构”可以说是一个更好的比喻，因为有一个创造性的填补空白的原则在起作用，正如我们将在下面探讨的那样。

虚构问题

当 AI 机器人生成可能误导、误导或诽谤的虚假信息时，这是一个大问题。最近，《华盛顿邮报》报道了一位法学教授，他发现 ChatGPT 将他列入了对某人进行过性骚扰的法律学者名单。但它从未发生过——ChatGPT 编造了它。同一天，Ars报道了一位澳大利亚市长，据称他发现 ChatGPT 声称他被判犯有受贿罪并被判入狱，这完全是捏造的。

ChatGPT 推出后不久，人们开始宣告搜索引擎的终结。但与此同时，许多 ChatGPT 虚构的例子开始在社交媒体上流传。AI 机器人发明了不存在的书籍和研究、教授未撰写的出版物、伪造的学术论文、虚假的法律引用、不存在的Linux 系统功能、虚幻的零售吉祥物以及毫无意义的技术细节.

然而，尽管 ChatGPT 偏爱随意撒谎，但与直觉相反，它对虚构的抵制正是我们今天谈论它的原因。一些专家指出，ChatGPT 在技术上是对普通 GPT-3（其前身模型）的改进，因为它可以拒绝回答某些问题，或者在答案可能不准确时让您知道。

“Chat 成功的一个主要因素是它成功地抑制了混淆，使其在许多常见问题上不被注意，”大型语言模型专家 Riley Goodside 说，他是 Scale AI 的员工提示工程师。“与其前身相比，ChatGPT 明显更不容易编造事情。”

如果用作集思广益的工具，ChatGPT 的逻辑跳跃和思考可能会带来创造性的突破。但当用作事实参考时，ChatGPT 可能会造成真正的伤害，OpenAI 知道这一点。

该模型发布后不久，OpenAI 首席执行官山姆奥特曼发推文说：“ChatGPT 的局限性令人难以置信，但在某些方面足以给人一种伟大的误导印象。现在依赖它来做任何重要的事情都是错误的。它是一个预览版进步；我们在稳健性和真实性方面还有很多工作要做。” 在后来的一条推文中，他写道，“我确实知道很多，但危险在于它有信心并且在很大一部分时间里是错误的。”

这里发生了什么？

ChatGPT 的工作原理

要了解像 ChatGPT 或 Bing Chat 这样的 GPT 模型是如何进行交流的，我们必须知道 GPT 模型是如何工作的。虽然 OpenAI 尚未发布 ChatGPT、Bing Chat甚至GPT-4的技术细节，但我们确实可以访问在 2020 年介绍其前身 GPT-3 的研究论文。

研究人员通过使用称为“无监督学习”的过程构建（训练）大型语言模型，如 GPT-3 和 GPT-4，这意味着他们用于训练模型的数据没有特别注释或标记。在此过程中，模型被输入大量文本（数百万本书、网站、文章、诗歌、抄本和其他来源），并反复尝试预测每个单词序列中的下一个单词。如果模型的预测接近实际的下一个单词，神经网络会更新其参数以强化导致该预测的模式。

相反，如果预测不正确，模型会调整其参数以提高其性能并再次尝试。这种反复试验的过程，虽然是一种称为“反向传播”的技术，但允许模型从错误中学习并在训练过程中逐渐改进其预测。

因此，GPT 学习了数据集中单词和相关概念之间的统计关联。有些人，比如 OpenAI 首席科学家 Ilya Sutskever，认为 GPT 模型比这更进一步，建立一种内部现实模型，这样他们就可以更准确地预测下一个最好的代币，但这个想法是有争议的。GPT 模型如何在其神经网络中产生下一个标记的确切细节仍不确定。

“足够好地预测下一个令牌是什么意思？……这意味着你了解导致创建该令牌的潜在现实” @ilyasut

的精彩解释，以及对关键问题的思考：这些可以走多远系统推断超越人类？pic.twitter.com/v8zFQWvxWY

– BioBootloader (@bio_bootloader) 2023 年 3 月 28 日

在当前的 GPT 模型浪潮中，这种核心训练（现在通常称为“预训练”）只发生一次。之后，人们可以在“推理模式”下使用经过训练的神经网络，让用户将输入输入经过训练的网络并获得结果。在推理过程中，GPT 模型的输入序列始终由人提供，称为“提示”。提示决定了模型的输出，即使稍微改变提示也会显着改变模型的输出。

例如，如果你用“Mary had a”提示 GPT-3，它通常会用“little lamb”来完成句子。那是因为 GPT-3 的训练数据集中可能有数千个“Mary had a little lamb”的例子，使其成为一个合理的补全。但是，如果您在提示中添加更多上下文，例如“在医院里，玛丽有一个”，结果将发生变化并返回“婴儿”或“一系列测试”等词。

这就是 ChatGPT 的有趣之处，因为它被设计为与代理的对话，而不仅仅是直接的文本完成工作。对于 ChatGPT，输入提示是您与 ChatGPT 进行的整个对话，从您的第一个问题或陈述开始，包括在模拟对话开始之前向 ChatGPT 提供的任何特定说明。在此过程中，ChatGPT 会对其和您所写的所有内容保持运行的短期记忆（称为“上下文窗口”），并且当它与您“交谈”时，它会尝试将对话的记录作为文本完成- 完成任务。

此外，ChatGPT 与 vanilla GPT-3 不同，因为它还接受了人类编写的对话记录的训练。OpenAI在其最初的 ChatGPT 发布页面中写道：“我们使用有监督的微调训练了一个初始模型：人类 AI 训练员提供了他们扮演双方角色的对话——用户和 AI 助手。” “我们让培训师可以访问模型编写的建议，以帮助他们撰写回复。”

ChatGPT 还使用一种称为“从人类反馈中强化学习”或 RLHF 的技术，对 ChatGPT 进行了比 GPT-3 更严格的调整，在这种技术中，人类评估员按偏好顺序对 ChatGPT 的响应进行排名，然后将该信息反馈回模型。通过 RLHF，OpenAI 能够在模型中灌输避免回答许多它无法可靠回答的问题的目标。这使得 ChatGPT 能够以比基本模型更少的混淆产生连贯的响应。但是不准确的地方仍然存在。

为什么 ChatGPT 会聊天

本质上，GPT 模型的原始数据集中没有任何东西可以区分事实和虚构。该指导来自 a) 数据集中准确内容的普遍性，b) 人类对结果中事实信息的识别，或 c) 强调某些事实反应的人类强化学习指导。

LLM 的行为仍然是一个活跃的研究领域。即使是创建这些 GPT 模型的研究人员仍在发现这项技术的惊人特性，这些特性在首次开发时没有人预料到。GPT 能够完成我们现在看到的许多有趣的事情，例如语言翻译、编程和下棋，一度让研究人员感到惊讶（如需早期体验，请查看 2019 年的 GPT-2 研究论文和搜索术语“令人惊讶”）。

因此，当我们问及为什么 ChatGPT 会混淆时，很难找到确切的技术答案。而且因为神经网络权重有一个“黑匣子”元素，所以很难（如果不是不可能的话）在给出复杂提示的情况下预测它们的确切输出。尽管如此，我们还是知道一些关于为什么虚构会发生的基本知识。

理解 ChatGPT 的混淆能力的关键是理解它作为预测机器的作用。当 ChatGPT 混淆时，它正在寻找其数据集中不存在的信息或分析，并用听起来似是而非的词语填充空白。ChatGPT 特别擅长编造东西，因为它必须处理超人的数据量，而且它收集单词上下文的能力非常好，有助于将错误信息无缝地放入周围的文本中。

“我认为思考混淆的最好方法是思考大型语言模型的本质：他们唯一知道如何做的就是根据训练集的统计概率选择下一个最好的词，”Simon Willison 说，一位经常就该主题撰写文章的软件开发人员。

在2021 年的一篇论文中，来自牛津大学和 OpenAI 的三位研究人员确定了像 ChatGPT 这样的 LLM 可能产生的两种主要类型的谎言。第一个来自其训练数据集中不准确的源材料，例如常见的误解（例如，“吃火鸡会让你昏昏欲睡”）。第二种是对训练材料（数据集）中没有的特定情况进行推断；这属于上述“幻觉”标签。

GPT 模型是否会胡乱猜测取决于 AI 研究人员称为“温度”的属性，该属性通常被描述为“创造力”设置。如果创造力设置得高，模型会胡乱猜测；如果设置低，它将根据其数据集确定性地吐出数据。

最近，从事 Bing Chat 工作的微软员工Mikhail Parakhin在推特上发布了关于 Bing Chat 产生幻觉的倾向以及产生幻觉的原因。“这就是我之前试图解释的：幻觉 = 创造力，”他写道。“它试图使用所有可用数据来生成字符串的最高概率延续。它通常是正确的。有时人们从未产生过这样的延续。”

Parakhin 说正是这些疯狂的创意飞跃让法学硕士变得有趣。“你可以抑制幻觉，这太无聊了，”他写道。“[它]一直回答‘我不知道’，或者只读取搜索结果中的内容（有时也是不正确的）。缺少的是语调：在这些情况下听起来不应该那么自信”

在微调 ChatGPT 等语言模型时，平衡创造力和准确性是一项挑战。一方面，提出创造性回应的能力使 ChatGPT 成为产生新想法或解除作家障碍的强大工具。它还使模型听起来更人性化。另一方面，在生成可靠信息和避免混淆时，源材料的准确性至关重要。在这两者之间找到正确的平衡是语言模型开发的持续挑战，但它是生产既有用又值得信赖的工具所必需的。

还有压缩的问题。在训练过程中，GPT-3 考虑了 PB 级的信息，但生成的神经网络的大小只是其中的一小部分。在一篇广为流传的纽约客文章中，作者 Ted Chiang 将其称为“网络的模糊 JPEG”。这意味着大部分事实训练数据都丢失了，但是 GPT-3 通过学习概念之间的关系来弥补它，以后可以使用这些关系来重新制定这些事实的新排列。就像一个记忆有缺陷的人根据某件事的工作原理进行工作一样，它有时会出错。当然，如果它不知道答案，它会给出最佳猜测。

我们不能忘记提示符在交谈中的作用。在某些方面，ChatGPT 是一面镜子：它把你喂给它的东西还给你。如果你向它提供谎言，它会倾向于同意你的观点并按照这些思路“思考”。这就是为什么在改变主题或遇到不想要的反应时以新的提示重新开始很重要。ChatGPT 是概率性的，这意味着它本质上是部分随机的。即使使用相同的提示，它输出的内容也会在会话之间发生变化。

所有这些都得出一个结论，OpenAI 也同意这个结论：ChatGPT 目前的设计并不是事实信息的可靠来源，因此不能被信任。人工智能公司 Hugging Face 的研究员兼首席伦理科学家玛格丽特米切尔博士说：“ChatGPT 在某些方面非常有用，例如解除作家的障碍或提出创意。” “它不是为了真实而建造的，因此也不会是真实的。就这么简单。”

撒谎可以解决吗？

盲目相信 AI 聊天机器人的世代是错误的，但随着底层技术的改进，这种情况可能会改变。自去年 11 月发布以来，ChatGPT 已经进行了多次升级，其中一些升级包括准确性的改进，以及拒绝回答不知道答案的问题的改进能力。

那么 OpenAI 打算如何让 ChatGPT 更加精准呢？在过去的几个月里，我们就这个问题多次联系了 OpenAI，但没有收到任何回复。但我们可以从 OpenAI 发布的文件和有关该公司试图引导 ChatGPT 与人类工作者结盟的新闻报道中提取线索。

如前所述，ChatGPT 如此成功的原因之一是使用 RLHF 进行了大量培训。正如 OpenAI 所解释的那样，“为了使我们的模型更安全、更有帮助和更一致，我们使用了一种称为从人类反馈中强化学习 (RLHF) 的现有技术。根据我们的客户向 API 提交的提示，我们的标签提供所需的演示模型行为并对我们模型的几个输出进行排名。然后我们使用这些数据来微调 GPT-3。”

OpenAI 的 Sutskever 认为通过 RLHF 的额外训练可以解决幻觉问题。Sutskever 在本月早些时候接受福布斯采访时说：“我非常希望，通过简单地从人类反馈步骤改进后续的强化学习，我们可以教会它不要产生幻觉。”

他继续：

我们今天做事的方式是，我们雇人来教我们的神经网络如何表现，教 ChatGPT 如何表现。你只是和它互动，它从你的反应中看到，它会推断，哦，那不是你想要的。您对其输出不满意。因此，输出不好，下次应该做些不同的事情。我认为这种方法很有可能能够完全解决幻觉问题。

其他人不同意。Meta 首席 AI 科学家 Yann LeCun认为，使用 GPT 架构的当前一代 LLM 无法解决幻觉问题。但是有一种快速出现的方法可以为当前架构的 LLM 带来更高的准确性。

“在 LLM 中增加真实性的最积极研究方法之一是检索增强——为模型提供外部文档以用作源和支持上下文，”Goodside 说。他解释说，通过这种技术，研究人员希望教模型使用谷歌等外部搜索引擎，“像人类研究人员一样在他们的答案中引用可靠的来源，并减少对模型训练期间学到的不可靠事实知识的依赖。”

Bing Chat和Google Bard已经通过网络搜索来做到这一点，很快，支持浏览器的 ChatGPT 版本也会这样做。此外，ChatGPT 插件旨在使用从外部来源（例如网络和专用数据库）检索的信息来补充 GPT-4 的训练数据。这种增强类似于拥有百科全书的人比没有百科全书的人在事实上更准确。

此外，还可以训练像 GPT-4 这样的模型，让它知道什么时候在编造东西，并相应地进行调整。米切尔说：“人们可以做更深层次的事情，让 ChatGPT 和类似的东西从一开始就更加真实，包括更复杂的数据管理和训练数据与‘信任’分数的链接，使用一种与 PageRank 类似的方法。 .. 当对响应不太自信时，也可以微调模型以进行对冲。”

因此，虽然 ChatGPT 目前因虚构问题陷入困境，但未来可能有出路，为了一个开始依赖这些工具作为基本助手（无论好坏）的世界，提高事实可靠性来不及了。

文章版权归作者所有，未经允许请勿转载。

THE END