人工智能模型在生成式设计和知识工具中的崩溃

最后更新: 01/23/2026
作者: C 源跟踪
  • 当生成式人工智能反复使用自身的合成输出进行训练时,就会发生模型崩溃,从而削弱多样性和准确性。
  • 这种自我强化的循环威胁着设计、编码和咨询中使用的LLM,加剧了偏见,降低了少数群体和边缘案例的表现。
  • 缓解措施需要以人为中心的数据策略、溯源跟踪、水印以及谨慎使用合成数据和检索增强生成。
  • 监管和负责任的人类使用对于保持人工智能作为认知放大器的作用至关重要,而不是让模型和用户随着时间的推移而共同退化。

设计工具中的人工智能模型崩溃

生成式人工智能已成为编码、写作、设计和决策的首选助手,但研究界以外的几乎没有人真正考虑到一个日益增长的风险: 当这些系统越来越多地使用自身的合成输出而非新鲜的人类数据进行训练时,会发生什么?这种缓慢的自我强化循环被研究人员称为…… 模型崩溃而其后果远远超出聊天机器人中几个错误的回答。

当模型崩溃影响到大型语言模型(LLM)和内部使用的生成系统时 设计工具对于编码和知识工作工具而言,问题不仅在于准确性的下降,还在于这些模型表征现实的方式出现了结构性退化: 罕见事件消失,偏见加剧,创造力受限,整个数字生态系统开始反映出自身的扭曲。了解其运作机制、成因以及我们仍能采取哪些措施来预防,已成为人工智能提供商、监管机构以及任何将业务流程押注于人工智能驱动设计工具的公司都必须面对的战略问题。

研究人员所说的“模型崩溃”是什么意思?

机器学习领域长期以来一直流传着这样一种说法:人工智能系统的好坏取决于它所学习的数据的质量,而当数据不再反映真实世界,而是被人工智能生成的内容所主导时,就会发生模型崩溃。 由英国和加拿大的 Ilia Shumailov、Zakhar Shumaylov、Yiren Zhao 及其合作者领导的最新研究表明,对先前几代的输出进行反复微调的生成模型会产生不可逆转的缺陷,使其实际上无法使用。

该机制看似简单:每次使用真实数据和来自先前模型的合成数据混合训练新模型时,它不仅会继承有用的模式,还会继承它们的误差和偏差。然后,它又会在此基础上叠加自身的错误。一次又一次的迭代,这些偏差不断累积,最终导致学习到的分布偏离了源自人类和真实世界的原始数据分布。

研究人员在实验中观察到两个截然不同的阶段,他们称之为早期模型崩溃和晚期模型崩溃: 起初,该模型开始“忘记”分布的尾部——那些不寻常的、低频的情况——但对常见模式仍然表现良好;后来,随着合成数据占据主导地位,分布崩溃得如此厉害,以至于它完全不再类似于原始数据,模型的输出也退化成不连贯或毫无意义的内容。

对于基于开放网络数据训练的大型语言模型而言,这种动态尤其令人担忧: 目前,语言学习模型(LLM)主要使用从网站、论坛、代码库和出版物中抓取的人工撰写文本作为训练素材。但随着人工智能撰写的博客文章、文章、文档、代码片段、图像甚至研究论文充斥网络,未来的训练过程必然会吸收越来越多的合成的、机器生成的内容。

如果这种自我参照的趋势得不到有效控制,那么设计工具、编码助手或内容系统中使用的每一代新模型,从人类身上学习的东西就会越来越少,而从自身过去输出的不完美副本中学习的东西就会越来越多。 随着时间的推移,模​​型忠实地表示世界和处理极端情况的能力会逐渐减弱。

为什么合成数据会损害生成模型

生成模型不会逐字逐句地复制训练数据;它们将模式压缩成概率分布,这种压缩本质上会强调常见现象,并淡化罕见现象。 当此类模型生成新数据时,输出结果往往聚集在该分布的中心区域,而不是极端值附近,因此合成样本的多样性和丰富性不如模型学习的原始数据。

Shumailov 的团队将这种直觉形式化,并表明对合成数据进行重复训练会引入三层相互强化的误差: 统计近似误差,因为模型总是看到有限的现实样本;表达能力误差,因为架构无法完美地表示复杂的现实世界分布;学习误差,因为梯度下降等优化方法只能近似理想解。

在采用简单概率模型进行的受控实验中,作者证明了模型如何一代又一代地丢失有关低概率事件的信息,并收敛到退化的分布: 在离散分布中,模型会坍缩到一个过度代表的单一值(一种 delta 尖峰),而对于高斯分布,方差会缩小到零,从而消除变异性。

然后,他们通过在 Wikitext-2 上反复训练 OPT-125M 模型,将分析扩展到语言模型,其中每个新的训练集都包含先前迭代生成的文本: 性能逐渐下降,模型偏离了过于可能的通用序列,并开始发出奇怪的、统计上不太可能的片段——这是该理论预测的累积失真的症状。

从实际角度来看,这意味着即使训练数据中含有适量的合成内容,也会使模型在完全崩溃之前就出现偏差或不稳定的行为。 罕见的语言形式、少数民族方言、不寻常的主题或小众的技术模式最先消失,取而代之的是合成数据流中最常见的内容的过度代表。

对设计工具、编码助手和专业工作的影响

对模型崩溃的担忧不仅限于抽象的基准;它直接影响到设计工具、编程助手和专业服务的运作方式。 许多组织已经强制要求在每个迭代周期中至少有一些用户故事使用 AI,依靠 GitHub Copilot 或基于 Databricks 的助手等系统来编写代码、重构模块或绘制架构草图。

即时的生产力提升是实实在在的——开发人员通过学习数百万行人工编写的代码中的模式,节省了大量时间——但问题是,五年或十年后,当该代码库的很大一部分本身是由人工智能建议时,会发生什么? 如果未来的模型大量使用充斥着人工智能生成的代码片段、评论和样板代码的存储库进行训练,那么学习循环就会在行星尺度上变成“垃圾进,垃圾出”。

类似的模式正在内容和设计工作流程中出现: 企业博客、“专家”文章、产品描述、营销图片,甚至播客脚本现在都经常由 ChatGPT 等工具创建或大量辅助完成。 双子座车型 或者专门的设计人工智能。由于这些合成素材被发布到网上,随后被纳入训练集,模型会从已经过平滑、平均处理且偶尔存在错误的素材中学习。

研究人员和从业者经常将此描述为人工智能回音室,或者正如一位专家所说,一条蛇在吞噬自己的尾巴: 一旦模型主要消费人工智能生成的内容,每一代新的模型都会放大前一代引入的任何偏见和简化,系统就会失去对真实人类表达中混乱但又无比宝贵的多样性的把握。

在专业服务领域,这种反馈循环与另一个结构性转变相互作用:咨询、法律和审计公司几十年来一直依赖的经典杠杆金字塔的崩溃。 在 20 世纪的大部分时间里,大型战略和专业服务公司采用的商业模式是,大量的初级分析师处理数据、构建模型和撰写报告,而一小部分合伙人则攫取了大部分价值。

生成式人工智能如何打破咨询行业的“杠杆金字塔”

咨询金字塔的经济基础很简单:大量的劳动密集型分析工作使得组建庞大的初级咨询团队并按小时计费成为可能,而盈利能力则取决于客户支付的费用与这些初级咨询人员的成本之间的差距。 构建财务模型、编制市场概览、进行 SWOT 分析或起草客户演示文稿等任务都非常耗时、可重复且可扩展。

生成式人工智能和高级自动化正在打破这种逻辑,以极少的时间和成本吸收大量的认知工作。 麻省理工学院斯隆商学院和哈佛商学院的分析师们已经证明,生成式工具可以将结构化分析任务的时间缩短高达 80%,从根本上削弱了对庞大的底层团队的需求。

像乔·诺塞拉这样的评论员指出,过去需要整个团队花费数周甚至数月才能完成的任务,现在只需一位拥有强大人工智能助手的资深顾问几分钟就能完成,这促使许多大公司悄悄减少初级员工的招聘,或者开始裁减分析师岗位。 虽然并非所有入门级职位都会消失,但维持大量初级员工的经济合理性显然正在减弱。

与此同时,客户甚至政府都在努力摆脱按工时和材料计费的方式,转向以可衡量结果为中心的基于价值的合同。 随着人工智能提高生产力,当许多基础工作可以自动化时,就很难再为数千小时的人工收费,因此旧的杠杆公式开始失效。

最终结果是传统金字塔结构的逐渐瓦解,取而代之的是更精简的配置:小型专家工作室、结合资深专家判断和强大人工智能工具的微型团队, 人工智能代理团队以及能够独立交付高质量成果而无需庞大支持团队的高级专业人员。 在这种形势下,独特的价值不再是调动大量初级分析师的能力,而是提出正确的问题、设计干预措施以及驾驭复杂、充满限制的环境的能力。

偏见、少数族裔数据与崩溃的伦理

模型崩溃最令人担忧的方面之一是其影响不均衡:它往往会首先消除低频信号,这在实践中通常意味着少数群体、边缘案例和罕见场景。 由于生成模型是概率机器,倾向于“安全”的平均值,因此它们的合成输出会过度代表训练数据中常见的内容,而低估罕见但仍然重要的内容。

正如研究员艾米丽·温格所指出的那样,即使是像“画狗”这样简单的图像生成任务,也会逐渐倾向于训练集中最常见的品种,例如金毛寻回犬,而稀有品种则会在几代之后几乎消失。 从语言和社会数据的角度来看,这种动态可能会进一步边缘化本已代表性不足的群体。

LLM 的实验表明,在早期崩溃阶段,模型性能首先在少数或低频数据上下降,然后模型才完全崩溃。 这意味着,在最终用户明显察觉到崩溃之前,公平和包容性就已经面临风险,嵌入设计或决策流程中的工具可能会悄无声息地对特定人群失效。

在政策层面,欧盟的《人工智能法》通过强调数据质量、知识产权、隐私、个人数据保护和偏见缓解,将这些问题直接纳入监管框架。 该立法实际上承认,仅靠合成数据无法保证高质量的模型,并且将人工智能生成的内容随意混入训练语料库可能会违反伦理原则和法律义务。

此外,还存在文化和认知层面:如果人们依赖人工智能完全取代自己的写作、分析或创造性思维,那么双方都会退步。 模型越来越脱离人类的细微差别,人类也面临着丧失批判性地使用和监督这些系统所需技能的风险。如果运用得当,人工智能可以增强推理、创造力和问题解决能力;但如果滥用,则会加速二者的衰落。

数据稀缺、哈布斯堡人工智能和自噬网络

近期研究反复发现,高质量的人类文本、图像和代码并非无限资源。 一些预测表明,适合训练大型模型的干净、多样化、合法可用的人类撰写的文本的供应量可能在几年内就会被有效耗尽,这将迫使供应商更加依赖合成数据,除非他们能够获得优质资源的独家访问权限。

这也是人工智能公司与大型出版商、新闻机构和其他版权持有者之间达成大量内容授权协议的原因之一。 像西班牙公共资助的 ALIA 基金会模型家族这样的倡议明确认识到,如果想要避免使用受污染或低质量的材料,获取一流、精心整理的人类数据集是一项战略重点。

与此同时,互联网上正迅速充斥着人工智能生成的内容:企业博客、社交帖子、SEO 文章、素材图片,甚至还有由生成系统制作或代笔的看似学术的论文。 由于未来的 LLM 和生成工具不可避免地会抓取相同的网络,因此人类来源和合成来源之间的区别变得越来越模糊。

研究员 Jathan Sadowski 创造了“哈布斯堡人工智能”一词来描述这种因反复自我繁殖而变形的系统——就像一个因过度近亲繁殖而受苦的家谱——这一概念已成为专家圈中模型崩溃的简称。 悬而未决的问题是,合成数据多少才算过多,临界点在哪里;目前的证据表明,这很大程度上取决于模型的大小、架构、训练方法以及真实样本和合成样本的质量。

目前,人们的共识并非合成数据本身不好,而是未经筛选、大规模地将 AI 输出重新用于训练流程,而不进行来源跟踪、平衡和质量控制,这会导致长期性能下降。 合成样本如果使用得当,并与可靠的人类数据相结合,有时会有所帮助;但如果将其作为现实的廉价替代品,则会导致崩溃。

避免崩溃的技术和治理策略

研究人员和行业从业者正在积极探索缓解或延缓模型崩溃的方法,特别是对于深度嵌入设计工具和企业工作流程中的系统。 学术论文和工业实践中都涌现出几种互补的策略。

第一支柱是严格的数据溯源和内容水印: 谷歌、OpenAI 和 Meta 等大型服务提供商已经在生成模型的输出结果中添加或正在尝试添加水印,以便未来的训练流程能够识别和过滤合成内容。为了使这种方法在生态系统层面有效运作,这些水印(或至少是其检测方法)必须共享或标准化,以便其他模型训练器能够可靠地排除或降低合成材料的权重。

第二大支柱是保护和扩大对原始人类数据源的访问: 档案库、新闻编辑室、精选语料库、领域特定数据库和高质量代码库都需要维护、授权和定期更新。如果没有持续不断地输入多样化的人类数据,即使是出于好意的缓解措施也无法阻止合成数据主导世界的趋势。

第三,多项研究表明,仔细混合合成数据和原始数据可以减轻或推迟崩溃的破坏阶段,尽管它并不能完全消除风险。 其理念是选择性地使用合成数据——例如,平衡类别、探索罕见场景或增强代表性不足的结构——同时保持人类数据作为分布的锚点。

检索增强生成(RAG)通过尽可能地将模型参数与事实知识解耦,增加了一层强大的保护。 在 RAG 设置中,生成模型在推理时会咨询外部经过验证的知识库(文档、数据库、设计库、代码库),并将响应建立在检索到的证据之上,而不是仅仅依赖于训练期间记忆的内容。

亚马逊等云服务提供商将 RAG 描述为一种优化 LLM 输出的方法,它强制 LLM 在生成答案之前参考训练语料库之外的权威来源。 虽然 RAG 不能消除生成模型的不可预测性,但它可以通过将输出锚定在最新的人类知识中,显著减少幻觉并减轻崩溃表征的影响。

最后,一些专家提倡在训练流程中定期“重置”:与其无休止地在新合成的受污染混合物上进行微调,不如定期使用新收集的、主要是人类的数据集重新训练或更新核心模型。 这种方法成本更高,技术要求也更高,但它有助于抵消导致经济崩溃的累积性扭曲。

监管、责任与人机协作的未来

欧盟人工智能法案的发布以及类似的监管举措表明,模型崩溃不仅是一个技术挑战,也是一个治理和社会挑战。 立法者现在期望模型提供商记录数据来源、尊重知识产权、保护个人数据并积极解决偏见和公平性问题——如果训练集充斥着无法追踪的合成内容,这些要求就更难满足。

对于在设计、软件开发和专业服务领域采用人工智能的企业而言,这意味着供应商尽职调查必须超越模型质量指标,还包括有关数据治理、溯源跟踪和合成数据策略的问题。 盲目地认为“数据越多越好”可能会适得其反,因为额外的TB级数据大多是自身产生的噪声。

从个人角度来看,专业人士使用生成式人工智能的方式将影响模型的演进和他们自身的技能。 使用人工智能完全外包写作、分析或设计工作与将其作为思考伙伴来拓展创造力、测试想法和加快探索速度,同时保留人类对最终输出的判断,这两者之间存在着本质区别。

人工智能素养专家强调,如果我们一直让模型取代我们而不是增强我们,我们将面临双重退化的风险:系统会接受越来越合成、低投入内容的训练,而人类会失去深度推理、仔细阅读和深思熟虑的创造习惯。 如果我们希望人工智能保持其作用,而不是将我们拖入恶性循环,那么在批判性思维方面,保持人类“高于”工具至关重要。

最终,要避免模型崩溃——尤其是在嵌入设计工具和知识工作平台的 AI 引擎中——需要结合技术解决方案、监管压力以及我们在创建和消费数字内容的方式上的文化转变。 如果能够追踪数据来源,重视并保护人类生成的数据,谨慎使用合成数据,并且人工智能仍然是人类认知的倍增器而不是替代品,那么仍然有一条清晰的道路可以构建出保持相关性、公平性和准确性的模型,而不是陷入自我参照的无关状态。

语言模型依赖性的转变
相关文章:
法学硕士的依赖关系:限制、限制和限制
相关文章: