作为引领新一轮科技革命和产业革命的战略性技术,人工智能正与各个领域深度融合,成为培育新质生产力的重要抓手。当下,人工智能范式正经历从“以模型为中心”向“以数据为中心”的转变。作为人工智能基础设施的“三驾马车”之一,数据是构建和优化AIGC模型的基石,也常被誉为人工智能领域的“燃料”。但与此同时,训练数据面临被耗尽、隐私保护限制等困境也正阻碍着人工智能领域的进一步发展。在传统数据面临诸多困境的背景下,合成数据为解决这些问题提供了新的途径。
合成数据为何得到重视?
虽然早在20世纪末,合成数据便被应用于统计调查、工业仿真或者科学研究等领域,但直到AIGC时代的来临,合成数据才真正得到重视。在ChatGPT、Sora等大模型软件还未出现或流行之前,AI数据生成便在2022年被《麻省理工科技评论》评为该年度“十大突破性技术”之一。随后,合成数据在人工智能领域出现的频率越来越高,仅2024年下半年,OpenAI、Meta、英伟达、苹果、腾讯等多家人工智能头部企业发布的大模型就公开宣称或被证明在预训练及对齐阶段大量使用合成数据,同时众多大模型本身也能够生成合成数据。作为真实数据的“替身”,合成数据指的是通过规则、机械变换、数学模型以及算法等方式生成的数据集,这些人造数据不直接来源于实际观察或测量,但能够反映真实世界的统计特征与运行规律。
一般而言,合成数据可分为完全合成、部分合成以及混合合成三大类。其中,完全合成数据即在没有任何真实数据的情况下,通过统计模型或机器学习算法等工具从零开始创建的数据。例如,在虚拟游戏中,角色的属性数据;部分合成数据是以真实数据为基础,在保留关键信息或结构的基础上,对不合适部分进行修改或替换。例如,在医疗数据中,在保留相关疾病特征、治疗过程后,对患者的隐私信息进行匿名化处理;混合合成数据则是将合成数据与真实数据混合使用的一类数据类型,通过从真实数据中随机抽取记录,并与接近的合成记录配对,来创建新的数据集。例如,英国国家统计局进行的合成数据试验,便是将民众的隐私数据通过合成数据技术,模拟真实数据的特征和分布,生成与真实数据相似但不包含个人信息的数据。
视觉中国
巨大价值潜力展现“人工智能+”的赋能作用
合成数据作为一种大模型训练的“可再生能源”,具备获取成本低、质量高以及避免隐私侵犯的优点。目前,合成数据正在AIGC时代展现出巨大的价值潜力,被广泛应用于人工智能领域的各行各业,展现“人工智能+”的赋能作用。
第一,缓解大模型训练数据匮乏与获取困难的现状。在刚刚结束的全球AI顶级会议“NeurIPS 2024”中,OpenAI前首席科学家伊尔亚·苏茨克维直言道:“我们所熟知的预训练即将终结。”他认为,未来人工智能将面临数据瓶颈,智能体(Agent)以及合成数据将是突破预训练瓶颈的关键。当下,AIGC的进一步发展正面临训练数据“不够用”以及“不能用”的限制。一方面,当前大模型训练数据的增长量远远赶不上数据的需求量。针对数据“不够用”的现状,人工智能领域的企业及科学家虽然正积极将未数字化的知识数字化,但依旧难以解决训练数据快速消耗的困境。对此,通过生成式对抗网络(GAN)或者变分自编码器(VAE)等技术可以快速生成海量合成数据,弥补真实数据获取速度慢、被穷尽等问题。另一方面,随着数据的价值不断得到体现,人工智能企业免费获取数据的难度正在变大。ChatGPT等大模型软件能够快速发展的原因之一是,AIGC发展初期的训练数据大部分可以通过各种网络爬虫软件免费爬取。但如今各大网站及新闻出版物纷纷开始阻止人工智能公司免费获取其数据,OpenAI、谷歌等公司需要支付巨额费用。相比传统数据,合成数据具有低成本的明显优势。例如,成立于2020年的人工智能公司Writer便宣称,其发布的几乎完全基于合成数据训练的模型Palmyra X 004开发成本仅为70万美元,而类似规模的OpenAI模型开发成本则高达460万美元。
第二,填补真实数据的潜在偏差以及扩展应用边界。传统的真实数据由于采集者的偏好、样本的不完整性以及数据本身缺陷等原因,往往存在潜在的偏差以及不平衡性。合成数据不仅可以用于补充思维链(CoT)的中间推理链路,同时作为一种数据增强技术,还可以提高模型的精准度以及性能。除此之外,合成数据的出现也为“人工智能+”行动的创新实践开辟了新的路径,凡是需要“大量数据出奇迹”的领域,都意味着合成数据能够发挥巨大作用。更为重要的是,合成数据能够被很好地用于真实数据极度缺乏的领域。例如,在自动驾驶领域中模拟暴雪、突发车祸等极端或罕见道路场景;在虚拟现实和增强现实领域中创建高度逼真的虚拟环境、角色或物品;在生物医药领域中模拟各种罕见疾病的数据。
第三,促进隐私保护以及推动数据平权。在当今数字化浪潮下,个人数据的隐私保护已经成为社会各界关注的焦点。对此,《中华人民共和国个人信息保护法》、欧盟《通用数据保护条例》等多部国内外法律法规对企业收集、使用和共享个人数据的行为进行了规范。但是,企业违规使用用户隐私数据训练模型的事件却屡禁不止。对此,特定的生成式人工智能算法可以在保留数据整体统计特性以及关系结构的基础上,将原始数据中的敏感信息进行模糊或替换处理,以此有效减少隐私侵犯风险。因此,英国国家统计局以及加拿大统计局开始尝试使用合成数据,并成为隐私增强技术典型使用案例进入2023年《联合国官方统计隐私增强技术指南》。除此之外,合成数据的使用还能够推动数据平权的出现。庞大的数据积累导致人工智能领域出现强者恒强的“马太效应”,头部企业由于掌握数据、算力等优势而处于垄断地位。合成数据价格便宜、容易获取的特性使得数据壁垒降低,进而有利于推动人工智能领域的创新发展。
防止合成数据技术出现“科林格里奇困境”
合成数据的出现虽然有利于降低训练数据的成本、解决多个领域数据短缺及获取困难等困境,但由于其生成机制以及技术特性的限制,其应用依旧存在一定的隐忧。
一方面,真实数据被稀释可能导致大模型本身准确性以及性能下降。首先,保真度与可信度问题。由于合成数据大多是通过机器学习的方式生成,这就导致生成过程通常是一个“黑盒”,不仅难以解释生成数据的具体原理与依据,同时也容易出现异常的“非自然数据”。除此之外,当下的合成数据还无法完全捕捉真实数据的复杂性和多样性,进而影响模型的训练效果与推理能力。其二,幻觉累积与偏见加剧问题。已有研究证明,像OpenAI的o1这样的模型由于本身会产生幻觉,因此其生成的数据也会包含更难察觉的幻觉。而经过几代训练的反馈循环,幻觉也会累计进而削弱后续几代模型的性能。同理,如果这些模型训练的数据本身存在偏见,其输出的合成数据也会受到相同的影响。其三,放大偏差与模型崩溃问题。合成数据通常由输入数据所生成,如果这些数据存在偏差,则生成的数据也会延续这种偏差,并通过每次迭代来放大偏差。更为重要的是,如果对合成数据不加筛选的使用,合成数据集和原始真实数据的差距会越来越大,进而导致模型崩溃。因此,在人工智能领域有学者提出“哈布斯堡AI”命题,即因近亲繁殖而导致自我毁灭。
另一方面,合成数据的错误使用可能引发社会风险与挑战。其一,“隐式隐私”泄露。虽然相比真实数据较为明显的负外部性,合成数据在保护个人或企业隐私方面具备明显优势。但高质量的合成数据需要以某些真实数据为训练原料,而已有研究证明了,通过合成数据能够反向推断出真实数据样本。这就导致“隐式隐私”泄露成为可能。其二,虚假信息传播。当下已经发生多起利用合成数据传播虚假信息的事件。合成数据可生成虚假的新闻、图片以及视频,这些虚假信息借助互联网的快速传播,很容易造成公众的误解与恐慌,进而干扰社会秩序。其三,深度合成犯罪。本质上,深度伪造属于合成数据的一种形式。深度伪造通过深度学习算法对图像、音频、视频等数据进行处理和合成,创造出看似真实但却虚假的数据。这种合成数据也正在金融诈骗等领域对社会乃至国家安全造成威胁。
合成数据在AIGC时代具有不可忽视的价值,它能够解决数据匮乏、隐私保护等人工智能发展必须面对的问题,也在“人工智能+”能够赋能的领域展现了广阔的应用前景。但与此同时,合成数据也正面临引发模型崩溃以及导致新的社会风险等方面的挑战。对此,需要从技术手段方面对合成数据进行检测以及修正偏差,同时还需从法律法规方面强化安全与合规管理,以防止该技术出现“科林格里奇困境”。
【注:科林格里奇困境即由英国技术哲学家大卫·科林格里奇所提出的技术控制的两难困境:一项技术如果因为担心不良后果而过早实施控制,那么技术很可能就难以爆发。反之,如果控制过晚,已经成为整个经济和社会结构的一部分,就可能走向失控,再来解决不良问题就会变得困难,甚至难以改变。】
(作者为中国浦东干部学院干部教育研究中心研究员)
栏目主编:杨逸淇
文字编辑:陈瑜
本文作者:张鹏