第27期解放书单 | 《大模型时代》：大语言模型的前世今生与技术奥秘

我的位置：文化 > 上书房 > 文章详情

分享至：

(11)

(0)

来源：上观新闻作者：陈晓东 2023-08-19 06:44

摘要：具有高水平结构复杂性和大量参数的大模型可以实现深度学习。

在人类发展史上，由于技术进步带来的全新产品与服务，不仅满足了既有的需求，还创造了新的需求。随着数字技术的广泛应用，以智能化为特征的第四次工业革命已经悄然出现在我们身边，ChatGPT就是其中一个代表性的成果，由于其具备了较为流畅的逻辑性对话和交互能力，所以一出现便备受市场关注。这种成果告诉我们，具有高水平结构复杂性和大量参数的大模型可以实现深度学习。

《大模型时代：ChatGPT开启通用人工智能浪潮》是国内首部全景式详解人工智能大语言模型前世今生及其技术奥秘的作品。

与传统语言模型不同，大语言模型通过在大规模语料库上进行训练来学习语言的统计规律，在训练时通常通过大量的文本数据进行自监督学习，从而能够自动学习语法、句法、语义等多层次的语言规律。人工智能模型与一般模型都是以数学和统计学为基础，可以用来描述一个系统或者一个数据集。人工智能的大语言模型参数有1亿多个，而且这一标准还在不断提高，GPT3的参数已经超过了1750亿个，目前确信有超过万亿参数以上的模型在运行。除此之外还有比大语言模型更大、更复杂的人工神经网络模型，通常拥有数万亿到数十万亿个参数。

一个模型的参数越多，通常意味着可以处理更加复杂、更加丰富的信息，其预测结果也就具有更高的准确性。理论上讲，如果一个模型的参数足够多到跟实际情况一样，那就可以再现已经发生过的事情或者模拟将要发生的情况。超大模型通常被用于解决自然语言处理（NLP）中的问答和机器翻译、计算机视觉中的目标检测和图像生成等更为复杂的任务。这些任务需要处理极其复杂的输入数据，还能从中提取更深层次的特征数据，提高模型的准确性。

如果从人工智能的生成角度来定义大语言模型，生成模型可以根据文本提示生成代码，还可以解释代码，甚至在某些情况下调试代码。这一过程不仅可以实现文本、图像、音频、视频的生成并构建多模态，还可以在更为广泛的领域生成新的设计、新的知识和思想，甚至实现广义的艺术和科学再创造。

值得一提的是，这本书揭示，大语言模型未来的表现可能会在细分的专业性上，虽然其与行业中顶级的专家相较而言可能还会有很大的差距。以大语言模型为代表的人工智能可以催生新模式，可以赋能产业数字化，还可以数字人、个人助理、搜索引擎等形式对数字经济新业态、新模式提供发展动能，它将深刻改变科技、教育等领域的生态。因此，大语言模型的训练和调整需要极其巨大的算力、算法、数据、技术以及超大规模的投入与协作。前三者作为人工智能的三要素，在产业数字化的智能升级进程中发挥着巨大作用。

作者龙志勇、黄雯，曾分别任职于阿里巴巴、百度、腾讯，是人工智能领域的资深从业者。他们通过技术篇、变革篇、应用篇、产业篇四大部分，生动阐释大模型背后的技术原理、对知识处理和社会变革产生的影响，详细介绍了大模型的三类应用（知识工作型、企业业务型、创意娱乐型），同时就相关产业的发展做了前瞻预测。

作为一名产业与企业竞争力领域的研究者，我在阅读这本书后，还收获了更多的思考，其中最重要的就是数字经济时代的新型生产力——算力。数据是生产资料，算法代表新生产关系，算力作为新生产力支撑着算法和数据，而算力水平直接决定数据处理能力。如何组合不同的算力类型，是降低成本并最终得到市场认可的关键。

随着“东数西算”工程与新型基础设施等政策出台，我国算力整体布局将从东部地区逐渐向中西部地区延伸，要鼓励有条件的地区因地制宜不断探索试点算力新领域。在加大算力作为经济发展重要底层支撑的同时，要着力培育并加快建立我国人工智能发展的完整生态。

发展我国大语言模型，还要建立一个统一的大语言模型平台和底层基础来对接国产算力公司，并做好接口，使得所有企业都可以使用，这样才能促进人工智能尤其是大语言模型的生态链建设，进而推动我国人工智能健康、稳定、快速地发展。（作者系中国社会科学院中国产业与企业竞争力研究中心副主任、工业经济研究所研究员）