达摩院首席科学家赵德丽在其文章《2025 AI展望:Scaling Law新叙事加速AI变革》中,对当前AI的发展逻辑进行了深入梳理,并对未来趋势进行了展望。本文刊载赵德丽老师的文章,以期为读者呈现AI发展的全貌。
我们正站在一场技术革命的起点,以ChatGPT为标志的AI浪潮无疑是人类科技史上的重要转折点。它不仅是算法和软件领域的重大变革,更是开启了以智能为核心的第四次工业革命。这场变革的核心驱动力是基于Scaling Law的基础模型,其技术逻辑贯穿了AI发展的脉络。
进入2025年,Scaling Law依然有效,但单纯依靠堆砌算力和扩大模型规模的路径已被打破。基础模型的迭代逐渐趋于阶段性收敛,Transformer-like架构逐渐成为底层架构的统一选择。与此同时,生成模型的潜力尚未完全释放,其在科学研究等多个领域的应用前景广阔,有望在未来大放异彩。
本文以“DAMO开发者矩阵”2025开篇为契机,探讨当前AI的发展逻辑,展望2025年的趋势,并初步勾勒未来的图景。限于篇幅,本文仅对部分方向进行讨论。
一、通用人工智能(AGI)的四种路径
要理解当下AI的发展,需从宏观视角审视其未来目标——实现通用人工智能(AGI,包含超级人工智能)。AGI旨在通过AI算法达到甚至超越人类智能水平。以下从四条路径展开探讨:
(一)大模型:逼近人类智能的隐函数
大模型通过复杂的深度神经网络对知识进行压缩,以逼近人类智能的隐函数,并通过思维推理挖掘智能本质。基于基础模型的自学习算法和模型自迭代进化,是大模型实现AGI的核心。2024年,大模型的AGI迭代才刚刚起步,但发展迅猛。与之相对的,是传统算法在智能逼近上的局限性,大模型凭借其复杂性和深度,展现出更强的潜力。
(二)智能机器人:交互式学习的范例
人类和动物的智能是在开放环境中通过与环境及其他智能体的交互反馈学习而来的。智能机器人,尤其是与人交互的机器人,是这种学习模式的最佳模拟。消费级机器人的落地,将成为开启这种AGI模式的关键,其自我学习和迭代算法是核心所在。与大模型的“知识压缩”路径不同,智能机器人更侧重于在真实环境中获取和应用智能。
(三)脑机接口:直接读取人类思维
脑机接口通过读取大脑信号,直接获取人类思维模式,是实现AGI的另一重要路径。尽管目前仍处于早期阶段,但其作为人机协同的重要方式,未来潜力巨大。与大模型和智能机器人相比,脑机接口更接近人类智能的本质,但也面临着技术突破的挑战。
(四)数字生命:从微观到宏观的仿真
通过算法仿真生命过程的机理,有望解锁智能的奥秘,创造出真正的超级智能。这一方向目前还处于萌芽阶段,但其从微观到宏观的全面仿真思路,为理解智能提供了全新的视角。
二、2024年的四个关键进展
回顾2024年,AI领域几乎每个月都有热点新闻,从长文本到多模态、具身智能等,技术进展迅猛。与2023年集中在大语言模型不同,2024年呈现出百花齐放的态势。以下是四项值得关注的进展:
(一)视频生成:从学术研究到工业应用的跨越
Sora的出现是视频生成领域的关键转折点。此前,视频生成研究多停留在学术层面,效果有限。Sora通过DiT可扩展架构展示了其有效性,推动视频生成从学术研究迈向工业级应用。国内也涌现出诸多优秀模型,如可灵、海螺等。视频生成的突破不仅变革了内容生产方式,还展现了生成模型在视觉方向的巨大潜力。与大语言模型类似,视频生成模型也是通往AGI的重要组成部分。随着性能提升和开源模型的丰富,视觉任务将围绕生成式基础模型重构,传统视觉仿真也将与之深度融合,重塑新一代仿真链路。
(二)智能体(Agent)和系统:人机交互的变革
2024年,基于大模型的Agent应用落地初现端倪。例如,Anthropic发布的Computer use让AI控制电脑操作,智谱发布的AutoGLM重塑手机应用交互方式。Agent依托思维推理和自我改进机制,可实现复杂任务的自动化。Anthropic发布的MCP协议和阿里巴巴通义大模型的基础设施,为构建以大模型为核心、Agent为应用的生态系统奠定了基础。Agent的重要性在于其对人机交互方式和系统架构的根本性变革。从历史角度看,每一次人机交互方式的变化都引发了系统级的变革,如键盘鼠标之于PC互联网、触屏之于移动互联网。如今,AI带来的多模态交互变革,将成为自个人电脑和智能手机视窗系统诞生以来最大的一次实质性变革。
(三)编程助手:自然语言成为编程语言
AI大模型带来了基于语言输入的全新交互方式,自然语言成为大模型时代的编程语言。这一突破使软件从专业技能转变为大众化工具,人人都可成为“高级程序员”。过去一年,编程助手发展迅速,如Github Copilot、阿里巴巴的通义灵码等。可以预见,编程助手将在新的一年取得实质性进展,并成为最快商业化的AI产品之一。
(四)具身智能:迈向人机协作新时代
具身智能可视为机器人智能的AI技术,多模态大模型是机器人的知识技能,而具身智能大模型则是操作和移动技能。AI驱动的机器人不仅决定了生产力水平,还直接影响社会生产效率。人形机器人更是拓展了社会运作模式,其商业化的不确定性与技术成熟度密切相关。与固定工业场景机器人不同,消费级人形机器人将成为AI时代最重要的智能体。其数据采集端口、应用服务入口以及AGI路径等特点,使其在AI发展中占据关键地位。
三、AI突破的三个底层逻辑
回顾2024年AI进展,其发展离不开三个基本逻辑:Scaling Law、Transformer架构和生成模型。这三者相互交织,共同推动了AI的发展。
(一)Scaling Law迈向纵深
Scaling Law是大语言模型快速发展的底层逻辑,其核心是通过更多数据、算力和更大的模型来实现更好的效果。2024年,这一逻辑在视频生成模型(如Sora)和具身智能大模型上得到验证。尽管关于Scaling Law是否遇到天花板的讨论不断,但目前全球仅有少数公司具备足够资源和数据去探索其极限。数据方面,除了互联网数据,合成数据的质量和生成能力也至关重要。因此,Scaling Law仍将是通往AGI的可靠路径之一。
(二)Scaling Law固定路径被打破
2024年,Scaling Law的发展路径被打破,进入2.0阶段。例如,DeepSeek-V3通过仅用十分之一的算力达到SOTA性能,标志着基于Scaling Law的固定迭代路径的终结。这一突破性成果结合了模型架构和工程优化,预示着未来模型架构与芯片架构深度融合的方向。与此同时,OpenAI的o1开启了Test/inference-time Scaling Law阶段,推动了思维推理从一维单链路向多维推理的演化。这些进展表明,Scaling Law在数据、模型尺寸和算力维度上已进入精细化发展阶段,追求更有效的数据利用、更合理的架构设计和更极致的工程优化。
(三)底层架构趋向统一
Transformer架构因其对Scaling Law的优良适配性,正在成为多种算法的统一底层架构。无论是自然语言处理中的自回归模型,还是视觉任务中的扩散模型,甚至AI for Science中的图神经网络,都呈现出向Transformer架构收敛的趋势。例如,Sora的出现推动了视觉方向底层架构的变革,DiT(Diffusion Transformer)成为业界公认的基础架构。这种架构统一的意义在于,它不仅增强了AI系统的互操作性,还提升了研发和部署效率,加速了AI的普惠化。然而,尽管Transformer架构在当前占据主导地位,但其并非终极答案,未来仍需探索新的突破性架构。
(四)生成模型:AI算法的第一性原理
生成模型解决了高维数据分布拟合这一概率论中的古老问题,是AI算法的核心。它通过拟合数据分布,实现数据生成,突破了数据稀缺的困境。例如,在NLP领域,生成数据已成为解决数据困境的有效途径;在自动驾驶领域,生成模型用于解决corner case问题。生成模型不仅推动了AI在各领域的应用,还为构建智能提供了关键支持。未来,基于生成模型的思维推理将从低维度向高维度体系化演化,推动AGI时代的到来。
四、AI产业进入百花齐放阶段
技术的突破为AI产业带来了深远影响。以下从硬件、教育、医疗和数字仿真四个领域展开讨论。
(一)智能硬件:多模态交互的推动
2024年,多模态基础模型在视觉理解能力上取得显著进步,为智能硬件的发展奠定了基础。多模态交互是人机交互的关键,语言和语音作为重要模态,智能耳机等设备将成为人机交互的重要入口。此外,机器人领域的技术突破也为产业落地提供了可能。与传统工业机器人和家庭玩具不同,结合AI的低自由度、结构简单稳定的机器人,有望在2025年形成可持续的商业生态。
(二)医疗2.0时代:基础模型驱动的变革
AI在医疗领域的应用已从单病种技术时代迈向基础模型驱动的2.0时代。2024年,Nature等期刊发表了多项医疗基础模型研究成果,如CHIEF、MUSK等,标志着医疗技术的重大变革。生成模型在解决医疗数据稀缺问题上展现出巨大潜力。达摩院在医疗AI方向也取得了显著成果,如DAMO PANDA算法为胰腺癌筛查开辟了新路径。未来,多病种统一算法架构和医疗多模态基础模型的研究将进一步推动医疗领域的进步。
(三)AI驱动的教育:普惠化与智能化
教育领域一直是人类社会的重要组成部分。AI的出现有望打破传统教育模式的局限,实现教育的普惠化和智能化。多模态大模型的应用将使虚拟教师的水平超过大多数真实教师,为全球用户提供高质量教育资源。然而,教育的物理互动过程仍不可替代,未来将出现适应AI时代的智能硬件,以满足教育的多样化需求。
(四)数字仿真2.0:从微观到宏观的映射
数字仿真将成为AI落地的重要基础设施。英伟达的Isaac、Omniverse等平台正在重塑工业研发链路,而数字仿真在生命科学领域的应用也展现出巨大潜力。例如,DeepMind和哈佛大学的虚拟老鼠模型以及智源研究院的BAAIWorm天宝,为生命科学研究提供了全新的范式。未来,从微观到宏观的数字仿真将涵盖核聚变研究、细胞活动模拟等多个领域,为人类认知世界提供新的工具。
五、结语
这轮AI浪潮将引领人类社会进入全新的智能时代,极大地提升人类认知和改造世界的能力。三十年后,我们或许将身处一个与当下截然不同的世界。作为AI从业者,我们有幸参与这一历史进程。