观点速读
2025年,大模型产业的发展理论上应该会出现新的转折点,DeepSeek就是其中之一。每当一项新技术发展7年左右,业界就需要一个新概念来升级、分岔或取代。现在,预训练大语言模型已经发展大约7年后抵达“天花板”。产业需要寻找新的突破方向,例如推理、Agent、开源、低成本等,从而迈入深度学习3.0时代或者大模型2.0时代或者大模型的下半场。
“七年之痒”的说法,是个人对技术发展规律的一项总结:每当一项新技术发展7年左右,业界就需要一个新概念来升级、分岔或取代。7年是一个心理周期,因为媒体、资本市场、人才培养和工程界都对这项新技术进入了审美疲劳期。
这波AI浪潮也不例外,可以大致按照6到7年一个周期分为三个阶段。
第一个阶段从2012年到2018年,以深度学习的基础技术突破为主。由于依赖监督学习,模型规模相对较小,典型案例如视觉领域的AlexNet(2012年)、游戏领域的AlphaGo(2016年)。该阶段是深度学习1.0时代,最典型特征就是垂直应用。
第二个阶段从2018年到2025年,预训练大模型成为主流,例如BERT、GPT系列、T5等均在该阶段兴起。应用场景包括自然语言理解、文本生成、图像生成、跨模态任务(文本到图像、图像到文本等)。该阶段是深度学习2.0时代,最典型特征是通用性更强,以生成式人工智能应用为主。
第三个阶段从2025年开始,大模型产业的发展理论上应该会出现新的转折点。这是因为预训练大语言模型已经发展大约7年(“七年之痒”),抵达发展的“天花板”了,能力提升明显放缓。产业需要寻找新的突破方向,例如推理、Agent、开源、低成本等,从而迈入深度学习3.0时代或者大模型2.0时代或者大模型的下半场。横空出世的DeepSeek,凭借着高性能、低成本和开源的优势,已经成为大模型产业发展所需的转折点之一。
追溯到2018年前后,当时业界共识是深度学习已经遇到了新瓶颈。业界分歧集中在接下来第二阶段的深度学习应该怎么走,因为前方涌现出很多个值得探索的新方向。
现今,总结过去几年AI产业的发展,关键词就会变得很清晰——大语言模型、预训练、生成式、Scaling law……基本概括出大模型上半场的特点。
2025年初,同样的循环又启动了。业界共识是深度学习2.0/大模型又遇到了新瓶颈,业界分歧依然是接下来新一阶段的大模型应该怎么走,因为前方又涌现出很多个值得探索的新方向,至少有10个岔路口。
1.从规模竞赛到效率优先。模型参数量增长放缓,转向模型架构优化(如稀疏激活)、训练成本控制(混合精度训练)与推理加速(量化部署)等。
2.从单一模态到多模态融合。由语言文本主导转向多/跨模态统一建模(如CLIP的图文对比学习),支持图像、音频、视频协同理解。
3.从通用模型到垂直深耕。从模型通用能力转向领域专业化(生物医学、金融代码),通过知识图谱注入与微调适配行业需求。
4.从黑盒模型到透明决策。从不可解释的“黑箱”转向可解释性工具(LIME、SHAP)与决策路径可视化,满足高风险领域合规需求。
5.从集中训练到分布式协作。从数据集中化转向联邦学习(Meta的Federated Learning Studio)与隐私计算(安全多方计算),打破数据孤岛。
6.从被动生成到主动执行。从内容生成转向智能体(Agent)框架(AutoGPT),支持工具调用(API)、任务规划与动态交互,实现智能体崛起。
7.从技术驱动到伦理并重。从技术突破主导转向伦理对齐(如RLHF)与法规约束(如欧盟《人工智能法案》),确保算法公平性与安全性。
8.从生成能力到风险治理。生成式AI爆发,深度伪造检测(Meta Deepfake检测工具)与数字水印(SynthID)兴起。
9.从云端部署到边缘赋能。从依赖云端集中式转向边缘推理(TinyML、TensorRT),实现低延迟、低成本终端部署。
10.从盲目扩张到价值验证。从资本狂热转向商业化落地验证(ROI分析),失败案例倒逼行业理性发展。
未来数年,大模型将实现从“技术神话”到“社会工具”的转型,技术方面从堆参数转向精细化创新(多模态、可解释性),应用方面从实验室指标转向垂直场景(医疗、金融),治理方面从野蛮生长转向伦理与安全约束(法规、内容治理),最终将像算力和电力一样成为新一代数字基础设施。建设AI基础设施的目标,就是实现“智力在线”。
来源:中国工信新闻网 人民邮电报