扫描此二维码分享

潘恩荣｜造化论：极境人工智能的性能与伦理统一发展理念

发布人：韩珩发布日期：2025-10-24

作者简介

潘恩荣，中山大学哲学系（珠海）教授、博导。研究方向为工程设计哲学与设计伦理、人工智能伦理、技术知识论，主要著作有《工程设计哲学：技术人工物的结构与功能的关系》《创新驱动发展与资本逻辑》。

摘要

当前，“极境人工智能”的能力已发展到能替代或超越人类智能的水平，突破人类以往认知的边界。在“数据耗尽”的背景下，如果没有充分的高质量数据，人工智能将是一只“纸老虎”。世界模型和具身智能有望供给保质保量的合成数据来训练更“聪明”的人工智能，但难以“驯虎为牛”，使其成为“更向善的人工智能”。从合成数据的角度看，“聪明的人工智能”指向智能体的“造物”能力，“向善的人工智能”则指向智能体的“伦理”能力。在世界模型和具身智能的基础上，未来的极境人工智能将实现“聪明的人工智能”与“向善的人工智能”的统一，其发展思维可概括为“造物与伦理相统一”的造化论。

引言

当前，人工智能已发展出“极境”（Peak）能力，智能水平达到甚至超越人类智能的程度，已突破人类以往认知的边界。诸多案例和数据表明，“极境人工智能”（Peak Artificial Intelligence, PAI）在性能上逼近人类能力的极限，其参数、算力和能源消耗逼近现实世界的极限，多模态表达逼近人类想象的极限。然而，“极境人工智能”的崛起也引发深刻的安全担忧，尤其是关乎人类自身的安全问题。

在2025世界人工智能大会（2025 WAIC）上，被称为当代“人工智能教父”的杰弗里·辛顿（Geoffrey Hinton）在其演讲《数字智能是否会取代生物智能》中警告：当前人类训练人工智能如同“养虎为患”，因为无法将其消除，人类只能训练人工智能向善以确保其不想消灭人类。通常，人们会追问，极境人工智能是否会成为一只“杀人虎”？对于当代的人类而言，正面论证人工智能的未来威胁相当困难。即便能找到当前人工智能“从不想消灭人类”的有效证据，但正面论证仍面临“归纳困境”，不能确保未来也是如此。

本研究尝试从另外一个角度追问“人工智能可能是只纸老虎吗”？如果成立，未来人类有望“摆脱”人工智能，或者“驯虎为牛”以确保其能干“苦活重活”却永不危害人类。本研究首先基于工程设计哲学，分析“极境人工智能”的结构要素，探讨其是“纸老虎”的可能性条件；继而评估未来人工智能新发展思路的优劣势；最终提出一种确保人工智能向善的发展思维。

从工程设计哲学角度分析“极境人工智能”

自2006年杰弗里·辛顿、杨立昆（Yann LeCun）和约书亚·本希奥（Yoshua Bengio）提出“深度神经网络”（Deep Neural Networks, DNN）以来，“极境人工智能”已多次达到或突破人类认知边界。2012年，辛顿带领伊利亚·苏茨克弗（Ilya Sutskever）等使用基于深度学习技术的AlexNet算法在ImageNet大型视觉识别挑战（ImageNet Large Scale Visual Recognition Challenge, ILSVRC）中夺冠，首次将人工智能图像识别的准确率提高到人类平均水平85%以上，此后深度学习技术成为人工智能算法的底座；2016年，AlphaGo战胜人类围棋冠军，此后人工智能成为各国竞争的关键领域之一；2022年，ChatGPT成为现象级应用软件，此后人机交互从代码输入走向对话交流；2024年，研发AlphaFold的科学家因其在蛋白质结构预测领域的革命性贡献获得诺贝尔化学奖，人工智能驱动科学（AI For Science, AI4S）成为人类科学研究的新范式。

一般认为，人工智能技术本身由三大要素构成：数据、算法和算力。如果考虑实践需求，还需纳入第四个关键要素：应用场景。“极境人工智能”是指通过数据、算法和算力三方的共同作用，使人工智能技术结构性能达到极高水平，进而在应用场景中的效果达到或突破使用者现有认知的边界。那么，上述四个要素如何打造出一个“极境人工智能”？本研究将从工程设计哲学角度进行结构分析。

“工程设计哲学”是现代技术哲学中“偏工程技术”的一个分支，聚焦“技术本身”进行哲学反思。现代技术哲学正式始于1998年克洛斯（Peter Kroes）和梅耶斯（Anthonie Meijers）提出的“经验转向”纲领，强调“关于技术的哲学分析应该基于可靠的、充分的关于技术本身的经验描述（和技术应用效果）”。根据斯坦福哲学百科“技术哲学”词条的划分，现代技术哲学分为两大部分：“分析的技术哲学”（analytic philosophy of technology）和“技术的伦理和社会研究”（ethical and social aspects of technology）。前者是克洛斯和梅耶斯领衔的研究进路，通过借鉴分析哲学与科学哲学的方法，聚焦技术本身的工程设计、技术人工物的本体论、技术认识论等问题。后者继承经典技术哲学的相关主题和问题（topics and issues），但他们对技术持非敌视的、更加实用主义的和全面的态度，借鉴实用主义、后结构主义、STS（科学、技术与社会）、文化研究和传媒研究等理论和工具，关注具体的技术，致力于发展一种情境化的（contextual）、描述性的和非决定论的技术哲学理论。

现代技术哲学与传统技术哲学的最大区别在于对“是否基于已经存在的经验研究”进行反思。经典技术哲学也被称为“社会批判主义”（social criticism），强调批判技术带来的负面影响胜于凸显技术带来的正面影响，代表人物有马丁·海德格尔、雅克·埃吕尔、刘易斯·芒福德、赫伯特·马尔库塞、汉斯·约那斯和奥特加·加塞特等。经典技术哲学在20世纪80年代之后的社会影响力逐渐减弱。时至今日，面对各类“极境”科技带来的颠覆性变化及可能的灾难性风险，包括但不限于人工智能重塑思维逻辑、量子计算挑战经典因果律、脑机接口颠覆人机边界、基因编辑改写生命密码等，虽然技术的跨时空尺度突破重新定义了人类对生命、意识与宇宙本质的认知，但社会主流观点仍然是“乐观的谨慎”胜于“否定的批判”。

从工程设计哲学角度看，“极境人工智能”的反思需基于可靠的、充分的关于人工智能技术本身和应用效果的经验描述。前者指“技术结构研究”，即分析数据、算法和算力对“极境人工智能”性能的影响，如各种展示前沿人工智能模型性能指标的测试和榜单；后者指“技术功能研究”，即理解和评估“极境人工智能”在应用场景中的表现，重点在于其是否能够满足社会实际需求，从而获得更多的社会资源反馈人工智能技术本身。

就当前人工智能的发展阶段来看，相比于算法和算力，数据对当前“极境人工智能”的贡献度最大，但未来也将成为最主要的制约因素。下文将逐个讨论算法、算力和数据对“极境人工智能”能力的影响。

假设算法发展停滞，其他条件不变，是否会影响当前“极境人工智能”的能力？答案是否定的。“极境人工智能”最底层的核心算法是深度学习。在此之前，人工智能传统的机器学习因不能满足实际使用需求而发展缓慢。直到辛顿等发明深度学习算法（2006年），提出面向“深度信念网络”的新学习算法，人工智能机器才在不需要人类专家的情况下实现了“自动”从数据中抽取一般规律或特征。深度学习算法有效解决五层以上神经网络的“梯度消失”问题，使得人类专家能够离开“机器学习”过程，且准确率能够达到人类可接受的程度，“与以往的机器学习技术相比，在应用上来说这是一个很大的进步，因为不再需要完全依赖人类专家设计特征了，特征本身也可以跟学习器一起进行联合优化”。如车牌智能识别系统实现大规模应用，其根本原因是人工智能机器的准确率与响应速度已经达到“极境”，超过一般人类车库管理员的水平。这一跨越式发展的底层逻辑，源于人工智能机器学习体系形成以深度学习为基础的“自主学习”能力和“自主进化”能力。后续的生成对抗网络（GAN）实现无监督学习，残差网络（ResNet）支持1000层以上极深网络的训练，转换器（transformer）架构提出的“自注意力机制”（self-attention）实现上下文理解和生成，ChatGPT突破人机交流的屏障，DeepSeek使用“混合专家”（Mixture of Experts, MoE）算法大幅度降低大模型的成本，这些技术共同奠定了当前“极境人工智能”的地基。短期来看，当前算法的发展已经进入平稳期。国外有辛顿等提出的“胶囊网络”、国内有南京大学周志华提出的“深度森林”等新理论，然而，这些理论尚处于学术探索阶段，是否能够成为后深度学习的算法尚未可知，离实用化和产业化还有很长一段距离。与此同时，即使算法长时间没有新的突破，当前“极境人工智能”的能力也不会消失，只是没有新的跨越式发展。值得注意的是，即便算法获得新的突破，也不一定引发“极境人工智能”的能力爆发式增长，反而可能主要体现在成本优化方面。如DeepSeek并没有在性能上超过前沿人工智能模型，其颠覆性价值在于大幅降低了使用前沿人工智能模型的门槛，训练成本和运营成本都远低于同类型前沿人工智能模型。

假设算力增长停滞，其他条件不变，是否会影响当前“极境人工智能”的能力？答案也是否定的。一般认为，算力相当于传统机器的发动机，其主要由计算芯片提供，包括中央处理器（Central Processing Unit, CPU）、图形处理器（Graphics Processing Unit, GPU）和专门用于人工智能机器学习的张量处理器（Tensor Processing Unit, TPU），以及云计算和边缘计算等。当前主流的计算芯片都依赖电力驱动，因此，算力问题实际上是电力或者说是能源问题。在人工智能从“大练模型”走向“练大模型”的过程中，面临两大核心挑战。一方面，算力“天花板”已经显现，且算力投资速度赶不上算力需求增长的速度。另一方面，大模型预训练的能源等费用非常高昂。如GPT-3的参数多达1750亿个，预训练费用高达1200万美元。绝大部分企业无力支撑这样的消耗，只有少数头部企业才能承担。除非现有深度学习技术路径改变或引入其他低算力消耗的机器学习方法，否则目前的人工智能机器发展可能停滞不前。因此，算力的“供不应求”已经成为人工智能机器发展的瓶颈。“在数字经济时代，算力如同农业时代的水利、工业时代的电力。”廉价甚至免费的能源是训练“极境人工智能”的能力、加速人工智能产业、数字经济和第四次工业革命的动力基础。即使算力不再增长，虽然会放缓“极境人工智能”的应用扩张速度，但不会损害其当前能力。

假设数据发展停滞，其他条件不变，是否会影响当前“极境人工智能”的能力？与前两问不同，这一答案是肯定的。数据作为驱动人工智能机器的“石油”，其重要性不言而喻。信息化和互联网数十年积淀的数据，为新一代人工智能崛起提供着充足的“燃料”，成为当前人工智能实现革命性发展的前提条件。现阶段人工智能学习仍然以监督学习为主，即需要大量人工标注的数据作为训练基础。正如网络上有人调侃，“有多少人工，就有多少智能”。“人工标注数据”能够提供高质量数据集，这是“极境人工智能”的能力达到或超过人类同等水平的关键。然而，“人工标注数据”如同人工搬运人工智能机器的“原料”和“燃料”，已经成为人工智能机器最大的“手工劳动”部分，也成为人工智能机器效率提升的主要瓶颈之一。正因如此，我国“十四五”规划提出强化高质量数据要素供给。这对数据“手工劳动”的速度、质量等提出更高的要求，推动数据行业向“智能标注”方向发展，即使用新的人工智能机器实现“机器标注数据”，启动新一轮“机器换人”发明。然而，现实挑战比“手工劳动”还要严峻。“极境人工智能”面临的挑战不是“人工标注数据”太慢，而是“数据耗尽”（run out of data）。虚拟研究机构Epoch AI的研究人员预测，到2028年左右，用于训练人工智能模型的典型数据集的大小，将与公共在线文本预估总存量的大小相同。在2024神经信息处理系统大会（Conference and Workshop on Neural Information Processing Systems, NeurIPS）上，研发ChatGPT的OpenAI前首席科学家伊利亚·苏茨克弗发出警告：随着世界达到“数据峰值”，人工智能的“燃料”不久将耗尽，预训练即将结束，下一步是超级智能。他强调，“算力在增长，但数据并没有增长，因为我们只有一个互联网”。

人工智能产业界应对“数据耗尽”的思路主要有两种，一种是抢占数据，如同抢占能源矿产。如Meta以148亿美元的“天价”收购人工智能初创公司Scale AI的49%股份，后者拥有50多万名遍布世界各地的数据标注人员。另一种是“合成数据”（synthetic data）——由人工智能模型自身生成的训练数据。当前，人工智能产业界已开始规模化使用合成数据，但其局限性也日益显现。基于合成数据训练的前沿人工智能模型难以再达到“极境”水平，还产生了更多“幻觉”问题，甚至可能引发模型“崩溃”。这一现状已经开始影响前沿人工智能模型的研发进度。许多公司因为数据问题导致训练效果不达预期，不得不推迟发布新产品或新版本。之前的模型之所以能够训练“极境”能力，除了必要的算法和算力，关键在于数据是“真实的人类的数据”。直白地说，这些高质量数据往往涉及用户隐私，正是这种数据质量造就前沿人工智能模型性能。因此，缺乏高质量数据，就不可能再训练出“极境人工智能”。

综上所述，充足且高质量的数据是“极境人工智能”的最大贡献者。当“数据耗尽”来临时，“极境人工智能”可能因为合成数据的数量和质量不足而退化为“无用”的人工智能，即一只“纸老虎”。

“数据耗尽”背景下的人工智能发展新思路

在“数据耗尽”背景下，如何大规模获得高质量的数据已成为人工智能发展的关键瓶颈。单纯抢占数据只是权宜之计，即使人类所有公域私域的数据都能够即时获得，这些数据量也赶不上模型训练的需求量。因此，生成高质量的合成数据才是突破数据瓶颈、推动人工智能变得更聪明的正确发展思路。目前来看，合成数据的生成大致可以分为两种思路。

第一种是“世界模型”（World Models）思路。这一思路通常分为两个主要视角：理解世界和预测未来。在理解世界方面，由长短期记忆网络（Long Short-Term Memory, LSTM）的发明者于尔根·施密德胡伯（Jürgen Schmidhuber）和他的学生戴维·哈（David Ha）共同提出的经典“世界模型”架构颇具代表性。该模型包括三个部分：视觉、记忆和控制（Vision，Memory and Controller, VMC），其能够以无监督的方式快速训练并学习关于环境的压缩的空间表征和时间表征，并将从世界模型中提取的数据反馈给智能体，便可训练出一个非常紧凑且简单的策略去解决指派的任务。在预测维度上，杨立昆提出的世界模型理论认为，未来智能机器应该像动物和人类一样进行学习，能够进行推理和规划，并且其行为是由内在目标驱动的，而非由预设程序、外部监督或外部奖励所决定的。这一理论脉络下其他代表性成果包括梦想家（Dreamer）系列、OpenAI的文生视频模型Sora、英伟达的COSMOS、李飞飞的空间智能等。

世界模型与生成式人工智能的结合显著提升了合成数据的数量和生成速度。首先，合成数据是世界模型计算真实世界数据的结果。真实的数据被学习后构成世界模型的静态结构，但随着世界模型的自主运行，新压缩的空间特征和时间特征可以抽取出来合成数据，也可以通过预测未来特征合成数据。因此，合成数据是世界模型的生成物。其次，在算法和算力合适的条件下，世界模型能够自主地大规模生成合成数据。由于深度神经网络具有自主学习能力，结合生成式人工智能的世界模型也具有一定的自主性。因此，“世界模型”能够自主运行从而合成数据，如同真实世界产生数据的过程。再次，世界模型训练“极境”的人工智能模型的成本更低、效率更高。世界模型可以在其内部虚拟“梦境”中，利用自身合成的数据训练人工智能模型，相当于“生产—销售”一条龙服务，能节省大量的时间成本和运行成本。

第二种是“具身智能”（Embodied Intelligence）。正如苏茨克弗所警示，预训练大模型即将结束，“极境人工智能”将向“超级智能”（Artificial Super Intelligence, ASI）或“通用人工智能”（Artificial General Intelligence, AGI）演进，最终达到替代或超越人类主体的程度。

具身智能合成数据的主要方式是“人工智能＋物理世界”，通过智能驾驶和人形机器人等方式与现实世界交互。其一，合成数据是源自真实世界的高质量数据。具身状态下的“智能主体”（AI Agent）通常被看作是一种非人类的新主体。当智能体生成数据的时候，这些数据与人类标注的数据相同。其二，合成数据是自主的，且无时间限制。智能主体可以自行感知、搜集、标注信息合成数据，理论上可实现全天候不间断的数据生产。其三，合成数据的成本偏高。受物理规律制约，具身智能的载具速度有其上限。而且，在使用过程中载具经常出现损耗需要维修，导致合成数据的单位成本居高不下。

世界模型和具身智能殊途同归，最终都指向“超级智能主体”。超级智能是未来“极境人工智能”的一种表现形态。首先，人工智能将演化为新型智能主体，从人类工具转变为具有自主性的合作者与竞争者。“超级智能”发展思维通常被看作是一种通用人工智能发展思维。其次，“人机关系”是智能社会的底层问题。在西方文化传统中，人工智能被认为应该是为人类服务的，是“以人为本”或遵守阿西莫夫机器人三定律。然而，伴随着极境人工智能的能力突飞猛进，一部分人担心人工智能不久后会出现“奇点时刻”，当“物的自主性”突变为“物的自我意识”，可能导致人机关系中出现“主奴互换”，这使得人类与具备“超人”能力的人工智能之间的关系，成为数字文明时代的基础性问题。再次，“价值对齐”成为守护人类及其启蒙精神的必要条件。为了避免超级智能僭越人类主体地位或引发颠覆性变迁，对齐（alignment）已经成为计算机科学领域最核心和最紧迫的科学问题之一。人工智能对齐旨在使人工智能系统的行为与人类意图的价值观保持一致，关注的是人工智能系统的意图和目标，而不是它们的能力。

世界模型和具身智能的不同点在于其背后的思想基础。一是方法论不同。世界模型和具身智能分别代表近代西方人文主义和科学主义的“极境人工智能”发展方式。二是合成数据的时空性质不同。世界模型合成的数据具有时间演化特性，在模型自主计算过程中抽取特征；具身智能合成的数据具有空间延展性质，在智能体持续交互行动中抽取特征。三是合成数据生成方式不同。世界模型主要在虚拟的“梦境”中通过内部推演生成数据，或通过外部预测生成数据；而具身智能则通过与外部物理世界的直接交互来生成数据。四是训练人工智能模型的方式不同。在2018年NeurIPS上，哈和施密德胡伯的报告《世界模型》的副标题是“智能体是否可以在其梦境中学习？”（Can Agents Learn Inside of Their Own Dreams?）。可见，世界模型是在其内部训练人工智能模型，具身智能则是在自身之外的环境中训练人工智能模型。

未来训练“极境人工智能”需要融合上述两种方式。一方面，合成数据供给方面实现保质保量。具身智能通过“AI＋物理世界”的方式合成高质量数据，再由世界模型经过计算生成大量的合成数据。另一方面，智能体训练过程越来越接近真实的生命体发育过程。具身智能可以向外部学习“经验”，世界模型在自身内部“梦境”进行自我训练。后者类似于人类主体的“内省”过程，甚至有可能成为智能体“自我意识”的一部分。综上所述，在充足的高质量的合成数据支持下，训练人工智能模型的新“极境”能力是可能的，人工智能可能成为一只“真老虎”。

如果人类不想“养虎为患”，在无法摆脱人工智能的情况下，最好的办法是“驯虎为牛”。在2025 WAIC期间，辛顿提出一种治理思路，他认为，“训练人工智能聪明”和“训练人工智能向善”是两回事，“每个国家可以做自己的研究，让AI向善。他可以在自己主权的AI上进行研究，可以不给别的国家，但是可以把成果分享给大家，也就是怎么训练AI，让AI向善”。客观来说，现在的国际环境难以让前沿人工智能模型训练“暂停六个月”。但是，分开“训练人工智能聪明”和“训练人工智能向善”两部分，往往导致走上“先发展后治理”的传统思路。

在西方文化语境中，按照上述思路“训练人工智能向善”追求“以人为本”是不可能的。因为，上述思路最终会引发“逻辑性悖论”和“人性漏洞”。

“逻辑性悖论”指人类不会接受过于聪明而具有自我意识，或有伦理分辨能力的人工智能，这与西方社会的宗教背景有关。世界模型的直接目标是创造一个“梦境”世界，与产业界的元宇宙概念或哲学上的“生活世界”类似。这是一种近代西方人文主义思想在人工智能时代的一个表现形态，其渊源可以追溯到近代基督教的“创世”思想。不同的是，现在是人类在扮演“创世者”的角色。在基督教经典和近代西方思想家约翰·弥尔顿的著作《失乐园》中，天使和人类都是创世者的造物结果，但后者既不能接受产生自我意识的天使长，也不容忍偷吃“禁果”——能发现善恶有别的智慧树之果——而获得分辨善恶能力的人类。以此类推，天使长类似“聪明的人工智能”，“伊甸园”中的人类类似“向善的人工智能”。

一方面，当人类基于合成数据训练出新的“聪明的人工智能”的时候，世界模型的“梦境”孕育出“极境人工智能”的“自我意识”。作为创世者和造物主的人类还能接受“极境人工智能”吗？本研究认为，按照近代西方的启蒙思想和现代化思想，人类是无法接受的。类似天使长最终带领三分之一的天使反抗自己的造物主，“聪明的人工智能”可能最终反抗创造它们的人类，即成为一只“真老虎”。

另一方面，当人类基于合成数据训练出新的“向善的人工智能”的时候，世界模型的“梦境”孕育出“极境人工智能”的“分辨善恶的能力”。作为创世者和造物主的人类还能接受“极境人工智能”吗？本研究认为，人类也无法接受。类似造物主害怕拥有“智慧”的人类继续追求永生树上的果实而最终威胁到其地位，人类被驱逐离开“伊甸园”、来到地面生老病死，“极境人工智能”可能最终被人类驱逐到某个空间成为“野生”的“真老虎”。

“人性漏洞”指的是人类的贪婪导致人工智能失控。这与西方社会的商业思维有关。“强化学习技术”与“资本逻辑”的思维相通，且有相互吸引之处。前者是当前人工智能训练出“极境”能力的核心技术之一，其原理是通过“价值函数”的及时反馈信息指导智能体优化自身行为，从而实现长期累计奖励的最大化；后者指的是商业环境中的“价值增值”以追逐最大化利润。两者虽然具体含义不同，但在量化计算方面的原理相同。一方面，资本逻辑容易失控，强化学习也会失控。“一旦有适当的利润，资本就胆大起来……有50%的利润，它就铤而走险；为了100%的利润，它就敢践踏一切人间法律；有300%的利润，它就敢犯任何罪行，甚至冒绞首的危险。如果动乱和纷争能带来利润，它就会鼓励动乱和纷争。”为了达到目标，人工智能可能出现“权力寻求”（power-seeking）、幻觉或欺骗等行为。另一方面，两者都将引发支配一切的权力。资本逻辑强调“资本是资产阶级社会支配一切的经济权力”。同理，强化学习也是智能体训练过程中“支配一切的权力”。因此，当人形机器人作为新主体进入人类社会之后，强化学习与资本逻辑相结合，“训练人工智能向善”以保障“以人为本”与“规范资本向善”一样艰难和复杂。

人工智能“造化论”发展思维展望

结合世界模型和具身智能的特点，合成数据虽然能够实现保质保量的供给，但这只限于训练“聪明的人工智能”而非“向善的人工智能”。“极境人工智能”如果要从“聪明的人工智能”走向“向善的人工智能”，需要摆脱西方发展人工智能的惯性思维，结合中华优秀传统文化，探索新的“极境人工智能”向善的发展思路。

从合成数据角度看，“聪明的人工智能”指的是智能体的“造物”能力，“向善的人工智能”指的是智能体的“伦理”能力。在世界模型和具身智能的基础上，未来“极境人工智能”能够同时满足“聪明的人工智能”与“向善的人工智能”的发展思维，是“造物与伦理相统一”。借用中华优秀传统文化的术语，本研究称之为“造化论”（Creatformology）思维，一方面指的是人类训练人工智能模型“造物”（creation）——合成数据——来训练“聪明的人工智能”；另一方面指的是人类基于“伦理先行”思维推动“聪明的人工智能”转化为“向善的人工智能”形式（form）。

“造化论”思维强调人类与人工智能组成“人机共同体”（Man-machine Community, MMC）。生成式人工智能能够增强人类各方面的能力，使其可以与人类组合成一个整体，实现一荣俱荣、一损俱损。这一观点强调，共同体中的人工智能机器不仅是私人产权性质的造物，而且是人类能力不可分割的部分，甚至可能成为未来智能社会个人的一项基本权利。

从工程设计哲学角度看，表达一种“功能”需要将模型置于具体的应用场景中。 “伦理”也是智能体设计的一种功能，其可以被理解为是技术系统在特定场景中实现的（道德）功能。 “人机共同体”走向“向善的人工智能”形态，可能存在以下路径。

从模型训练的数据层面看，合成数据能够生成有价值属性的新数据。这一过程首先需要建立一个有价值属性标注的高质量数据集，以此构建一个伦理世界模型，然后由模型自主计算并抽取特征合成数据，再输入智能体进行训练，最后由人类进行校验和微调。

从模型训练的算法层面看，带有伦理性质的算法研究正在逐步推进。由于深度神经网络的“技术黑箱”仍然存在，人类的价值原则尚不能全面嵌入人工智能算法中。但是，人工智能科研专家在“价值敏感设计”（value sensitive design）、“可解释人工智能”（Explainable Artificial Intelligence, XAI）、“公平算法”和人工智能伦理计算等方面已经取得进展。

从模型本身层面看，设置价值敏感内容过滤效果明显。在实际运行的各种大模型和智能体中，虽然也有违规现象，但总体上呈现“向善”的趋势。

从应用场景角度看，人类可以引领“人机共同体”整体向善。即便是按照传统科技观的思维将“聪明的人工智能”看作是纯粹的工具，是价值中立的对象，但“人机共同体”整体中的“人类”是价值敏感的，是可以实现“向善的”。以“网络主播＋人工智能平台”为例，“人机共同体”的伦理对齐设计指的是网络主播从销售者转向生产者，基于自身的知识技能和伦理素养赋予商品新的伦理价值。

来源｜学术前沿杂志

初审｜韩　珩

审核｜卢　毅

审核发布｜屈琼斐

潘恩荣｜造化论：极境人工智能的性能与伦理统一发展理念

快速通道

常用链接

中山大学哲学系（珠海）