大模型如何开始生成一个全新时代
2023-07-07 09:25:20 来源:京报网
会问问题比拥有知识更重要(摘自《大模型时代》)

ChatGPT是人类科技史上的里程碑事件,在短短几个月席卷全球,速度超过人类最狂野的想象。ChatGPT证明了通过一个具有高水平结构复杂性和大量参数的大模型(foundation model,又称为“基础模型”)可以实现深度学习。此后,大模型概念得到前所未有的关注和讨论。但是,关于“大模型”定义,各方对其内涵的理解和诠释却莫衷一是,“横看成岭侧成峰,远近高低各不同”。

尽管如此,并不妨碍人们形成了关于大模型的基本共识:大模型是大语言模型,也是多模态模型,或者是生成式预训练转换模型。GPT是大模型的一种形态,引发了人工智能生成内容技术的质变。大模型是人工智能赖以生存和发展的基础。现在,与其说人类开始进入人工智能时代,不如说人类进入的是大模型时代。我们不仅目睹,也身在其中,体验生成式大模型如何开始生成一个全新时代。


(资料图)

大模型可以定义为大语言模型,具有大规模参数和复杂网络结构的语言模型。与传统语言模型(如生成性模型、分析性模型、辨识性模型)不同,大语言模型通过在大规模语料库上进行训练来学习语言的统计规律,在训练时通常通过大量的文本数据进行自监督学习,从而能够自动学习到语法、句法、语义等多层次的语言规律。

大模型需要可持续的文本数据输入和“预训练”。大模型生成内容的前提是大规模的文本数据输入,并在海量通用数据上进行预训练。通过预训练不断调整和优化模型参数,使得模型的预测结果尽可能接近实际结果。预训练中使用的大量文本数据包括维基百科、网页文本、书籍、新闻文章等,用于训练模型的语言模型部分。

大模型已经形成“思维链”(Chain-of-Thought,CoT)。“思维链”是重要微调技术手段,其本质是一个多步推理的过程。通过大语言模型将一个问题拆解为多个步骤,一步一步分析,逐步得出正确答案。还可以这样理解,“思维链”相当于大模型当中的数据,AI以思维链为数据,然后再来做微调和反馈,从而形成AI能力。在计算机语言中,有一个第四范式(Fourth Normal Form,4NF)概念,其内涵是逐步消除数据依赖中不合适的部分,使关系数据库模式的各关系模式达到某种程度的“分离”,即“一事一地”的模式设计原则。第四范式的概念有助于理解思维链的功能,有助于大模型更加结构化和规范化,减少数据信息冗余和碎片化等弊病,提高大模型的效率。

虽然AI大模型所实现智能的途径和人类大脑并不一样,但最近约翰斯·霍普金斯大学的专家发现,GPT-4可以利用思维链推理和逐步思考,有效证明了其心智理论性能。在一些测试中,人类的水平大概是87%,而GPT-4已经达到100%。

AI大模型是人工智能历史的分水岭,甚至是工业革命以来人类文明史的分水岭。此前,人们更多关注和讨论的是人如何适应机器,探讨人与机器人的合作,实现“艾西莫夫定律”;而现在,人类则进入如何理解大模型、预知人工智能的重要节点,人工智能被恶意利用、彻底失控的威胁也隐隐出现。特别是由于AI幻象的存在,对人类决策和行为的误导也更容易发生。

现在,人类面临的AI大模型挑战,并且这一挑战不仅仅是职场动荡、失去工作、增加失业的问题。人类面对的是更为严酷的现实课题:人是否或早或晚成为大模型的工具人?不仅如此,如果AI出现推理能力,并在无人知道原因的情况下越过界限后,是否会对人类造成威胁?

(作者为经济学家、横琴数链数字金融研究院学术与技术委员会主席   朱嘉明。《大模型时代》,中译出版社出版)

(原标题:与其说人类进入智能时代,不如说进入的是大模型时代——大模型如何开始生成一个全新时代

来源:北京日报

流程编辑:U031

版权声明:文本版权归京报集团所有,未经许可,不得转载或改编。

相关新闻: