AI Engineer Summit 2025 的深度解读研究

引言 (Introduction)

人工智能(AI)技术正以前所未有的速度融入各行各业,从自动驾驶、智能客服到内容生成,无处不在。然而,将AI模型从实验室原型推向大规模应用,并非仅靠算法本身就能成功。这中间涉及数据处理、模型部署、系统架构、DevOps运维、持续评估改进以及伦理风险控制等一系列工程实践。这催生了一个新兴且快速发展的专业领域——AI工程(AI Engineering)。AI工程师作为这一领域的核心角色,越来越受到产业重视,被视为未来十年最炙手可热的技术岗位之一 (The Rise of the AI Engineer - Latent.Space) (The Rise of the AI Engineer - Latent.Space)。正如前 OpenAI 与特斯拉高级研究员 Andrei Karpathy 所指出:“未来AI工程师的数量可能会显著超过机器学习工程师。即使从不亲自训练新模型,你也可以在这一角色上取得成功” (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。这反映出AI应用开发范式的转变:利用现有强大的预训练模型,通过工程手段将其融入产品,比从零训练模型更为常见。AI工程正在成为软件工程的新支柱。

AI Engineer Summit 2025(AI工程师峰会2025)作为全球AI工程领域最重要的大会之一,汇集了该领域顶尖的从业者、技术领袖和研究专家,共同探讨这一年的AI工程实践经验和未来趋势 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。本次峰会于2025年2月在纽约时代中心举办,以“Agents at Work”(智能代理实践)为主题,特别关注大模型驱动的智能Agent在企业生产环境中的应用 (AI Engineer Summit: Agents at Work!)。来自OpenAI、DeepMind、Anthropic、Meta、Google等前沿实验室以及金融、科技领域知名企业(如BlackRock、Jane Street、LinkedIn、Bloomberg等)的资深专家齐聚一堂,通过主题演讲、案例分享和互动研讨等形式,深入交流如何在2025年构建高效可靠的AI技术团队和AI应用系统 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。会议为期数日,涵盖了管理者视角的战略探讨、工程师视角的实战经验以及针对开发者的技术工作坊,可谓当前AI工程领域的一次“群英会”。有业内人士评价该峰会是“信噪比最高”的技术大会之一,内容前沿而实用 (AI Engineer Summit: Agents at Work!)。通过对本次峰会的深度解读,我们可以全面了解AI工程这一领域的发展现状、核心话题、实践难点与未来走向

本报告旨在梳理AI Engineer Summit 2025的核心内容和洞见,并结合权威资料与专家观点进行分析。首先,我们将介绍AI工程领域的背景,包括近年来AI工程师角色的演变及对行业的影响,以及目前的发展趋势。接下来,报告将深入解析本次峰会探讨的五大核心主题:AI工程实践方法论、自动化DevOps、模型优化与架构、生成式AI与智能Agent、AI伦理与治理。随后,我们将盘点本届峰会的主要演讲嘉宾及其贡献,提炼他们带来的重要观点和案例。之后,报告将聚焦本次大会展示的技术亮点,例如新发布的AI工程工具、开源项目和创新的架构方案等。同时,我们也会讨论AI工程在企业落地过程中面临的挑战,以及从业者分享的最佳实践经验。最后,基于大会内容与当前趋势,对AI工程未来的发展方向及其可能对行业产生的长期影响进行展望。报告中引用了大量业内权威数据和资料,并辅以丰富的案例研究和表格,以确保解读深入翔实、脉络清晰。希望通过本报告,读者能对AI Engineer Summit 2025以及整个AI工程领域有全面而深入的认识。


AI工程领域的背景:角色演变与趋势

AI工程师角色的兴起与演变

过去十年间,AI相关岗位经历了明显的演变。早期企业主要依赖数据科学家机器学习研究员来开发模型,但随着模型部署和维护变得愈发重要,机器学习工程师(ML Engineer)这一角色应运而生,专注于将模型从实验室带入生产环境,包括数据管道、模型集成和性能优化等工作。而近两年,大型预训练模型(如GPT系列)的崛起让“即插即用”的AI应用成为可能,海量开源模型和现成AI API使得许多软件工程师也开始构建AI驱动的应用。在此背景下,业界逐渐形成了“AI工程师(AI Engineer)”这一新角色概念,指拥有传统软件工程技能,同时掌握AI模型应用技巧的复合型工程师 (The Rise of the AI Engineer - Latent.Space) (The Rise of the AI Engineer - Latent.Space)。这些AI工程师不一定从零训练模型,而是擅长调用现有模型、精调(open)或组合工具链来实现业务需求。这一角色的兴起标志着AI开发正从研究范畴走向工程实践,AI技术融入产品的门槛大大降低。有人形象地将AI工程师定位为“软件3.0时代”的工程师,相比传统开发者需要多一把AI工具之“剑” (The Rise of the AI Engineer - Latent.Space) (The Rise of the AI Engineer - Latent.Space)。随着生成式AI的热潮,越来越多企业组建专门的AI工程团队。Amplitude、Replit、Notion等公司已率先设置了“AI工程”岗位或团队,将原本松散讨论AI应用的程序员社群转变为正式的组织职能 (The Rise of the AI Engineer - Latent.Space) (The Rise of the AI Engineer - Latent.Space)。可以预见,未来AI工程师将成为各大技术公司需求最旺盛的职位之一 (The Rise of the AI Engineer - Latent.Space)。Indeed求职平台的数据也表明,与AI相关的工程岗位需求近年大幅增长,其中AI工程师位列前三 (Is There a Future for Software Engineers? The Impact of AI [2024])。Karpathy进一步预言,这可能会是“本年代需求最高的工程职位” (The Rise of the AI Engineer - Latent.Space)。由此可见,AI工程师角色的兴起反映了行业对将AI落地到实际产品的强烈需求和对相应技能组合的认可。

这一角色的职责也在不断拓展和细化。表1总结了数据科学家、机器学习工程师和AI工程师三者在职责与技能上的差异:

角色 主要职责 典型技能与工具 演变趋势
数据科学家 探索性数据分析、建模验证、算法研究。 统计分析、机器学习算法、Python/R、Jupyter Notebook等。 趋向于与工程团队协作,将模型交付给工程师实现。
机器学习工程师 模型部署与集成、性能调优、构建ML管道、保障模型在生产环境稳定运行。 软件工程、分布式系统、云服务(如TensorFlow Serving、Docker、Kubernetes)、MLOps工具。 与数据科学家协作,将原型模型变为可用服务。
AI工程师 利用预训练模型和现有AI服务构建应用、开发AI功能的产品原型、集成多模型或工具形成解决方案,关注产品级的AI体验。 软件工程技能 + Prompt编写、API调用(如OpenAI API)、模型精调、向量数据库、Agent框架(如LangChain)等。 新兴角色,将AI能力作为通用组件融入各种应用;强调快速交付和持续迭代。

表1:AI相关角色职责与技能对比(资料来源:Latent Space博客 (The Rise of the AI Engineer - Latent.Space) (The Rise of the AI Engineer - Latent.Space))

可以看到,AI工程师兼具了一定的机器学习背景和强大的软件交付能力,处于“研究”和“工程”之间的桥梁位置。他们关注如何高效应用AI,而非纯粹研发新算法。正如AI工程社区领军人物Ben Firshman所言:“目前软件工程师的数量比机器学习工程师高两个数量级。通过打造良好的工具,我们认为AI工程师能够像使用普通软件一样运用机器学习” (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。这句话凸显了AI工程领域的一个愿景:借助愈发成熟的工具链,大量传统开发者将具备调用AI的能力,使得AI无处不在且平易近人。

AI工程领域的发展现状

截至2025年,AI工程领域呈现出如下几大发展现状和趋势:

  • 生成式AI爆发带动广泛应用:2022年底以来,生成式AI(尤其是大语言模型GPT系列)的突破引发了全球范围的关注。大量企业在办公协作、客服、内容创作等业务中尝试引入生成式AI工具。据麦肯锡2023年AI现状调查,有约**55%**的受访企业已在至少一个业务功能中采用了AI技术,而在使用AI的公司中有三分之一已经在常规工作中运用生成式AI (The state of AI in 2023: Generative AI’s breakout year | McKinsey)。这股热潮使得AI工程师肩负将强大的生成模型融入具体产品的任务。例如,本次峰会上LinkedIn分享了如何在主要由Java驱动的现有业务中,无缝集成生成式AI平台 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。可以说,生成式AI的崛起极大拓宽了AI工程的应用舞台,从而提升了对AI工程实践方法的需求。

  • 模型即服务与开源生态:如今许多AI能力可以通过API或开源模型获取,这使AI工程师更多地扮演“模型集成者”而非“模型研发者”的角色 (The Rise of the AI Engineer - Latent.Space) (The Rise of the AI Engineer - Latent.Space)。像OpenAI的GPT-4 API、Cohere和Anthropic的模型服务,使开发者只需编写提示(prompt)或调用接口即可利用最先进的模型能力。这降低了AI应用开发的门槛。但与此同时,海量的开源模型(如Hugging Face上的各类Transformer模型、Meta发布的LLaMA模型系列等)也为AI工程师提供了自行部署定制的可能 (The Rise of the AI Engineer - Latent.Space)。因此现阶段AI工程实践往往涉及权衡**“调用外部服务 vs. 部署开源模型”。大会上Writer公司CTO Waseem Alshikh**就强调,在高风险金融领域,与其完全依赖通用大型模型,不如训练定制的领域模型,可以取得更佳效果 (AI Engineer Summit: Agents at Work!)。他介绍了他们为金融场景打造专用LLM并制定评估基准,以在复杂业务压力下实现可靠性能 (AI Engineer Summit: Agents at Work!)。总的来看,模型提供方式的多样化促使AI工程师需要熟练掌握API调用、开源模型调优以及相关基础设施的部署。

  • MLOps工具链成熟与标准化:为了支持AI模型的持续集成和交付,一个蓬勃发展的MLOps(机器学习运维)生态已然形成,从数据版本管理、模型监控到自动化评估都有相应工具。例如,本次峰会的多场演讲涉及了评估框架和调试工具:Datadog分享了如何对AI Agent进行单元测试般的微评估(micro-eval) (AI Engineer Summit: Agents at Work!);初创公司Galileo展示了其自动检测幻觉和错误的评测平台 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!);Arize AI联合创始人Aparna Dhinakaran探讨了面向高管视角的大规模AI代理评估框架 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。这些实践表明,AI工程正日益讲求系统性的质量管理,而行业也在逐步建立衡量AI系统可靠性的指标和流程 (The Rise of the AI Engineer - Latent.Space) (The Rise of the AI Engineer - Latent.Space)。此外,模型上下文协议MCP(Model Context Protocol)等新兴标准的出现 (Anthropic Publishes Model Context Protocol Specification for LLM …)意味着不同工具和组件之间的集成将更顺畅。这一切推动AI工程走向类似传统软件工程那样规范化的流程。

  • 跨学科协作与组织转型:AI工程涉及数据、模型和应用的端到端打通,需要跨职能团队的通力合作。许多企业开始重组内部团队来适应这一点。大会的Leadership专场中,来自SignalFire的Heath Black通过人才数据指出,在AI热潮下人才争夺激烈、薪资飞涨,因此组建一支优秀AI工程团队更需讲究招聘时机、甄选策略和叙事包装,以吸引顶尖人才 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。此外,一些企业选择让软件工程、数据工程和AI专家形成交叉团队,共同负责AI项目的全生命周期。例如OpenAI的技术成功团队(Technical Success)在会上分享了他们如何与客户协作,从需求对接到风险缓解,全流程保障AI方案落地 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。可以看到,为了发挥AI技术价值,企业在组织架构和协作模式上都在做出调整,传统的研发—业务边界正被打破,AI工程师往往需要直接与业务利益相关者互动。这也对AI工程师提出了软技能要求,如对行业场景的理解、与非技术同事沟通的能力等,以确保AI解决方案真正解决实际问题。

  • AI伦理与治理成为刚需:随着AI应用扩展到敏感领域,对公平性、安全性、可解释性的要求愈发凸显。许多领先企业已经制定了AI伦理原则和内部审核机制,将责任AI(Responsible AI)融入开发流程。例如Google早在2018年就发布了AI原则并每年发布负责AI进展报告,建立治理架构来衡量和管理AI开发中的风险 (Responsible AI: Our 2024 report and ongoing work) (Responsible AI: Our 2024 report and ongoing work)。可靠性和安全已经被视为AI系统的重要衡量标准 (5 Principles for Responsible AI | SS&C Blue Prism)。本次峰会上也多次提及模型可靠性评估、透明度和人类监督。Anthropic团队详述了提升大模型可解释性的长期路线图,从理解内部机理到实现因果追踪 (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context) (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context)。演讲者们普遍认为,在关乎企业声誉和合规性的场景下,宁可牺牲一点模型精度也要保证结果可控、可解释。例如Anthropic提出通过阶段化方法提高模型可解释性:近期目标是检测不良行为和偏差,中期引入人工干预控制输出,远期努力实现真正的因果可解释 (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context) (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context)。这一系列举措表明,AI伦理已经从理论讨论转变为工程实践中的具体要求。对于AI工程师来说,了解并遵循负责任AI的最佳实践(如公平性测试、隐私保护、决策透明度等)已成为必备能力。这不仅是社会责任使然,也是产品顺利落地和获得用户信任的前提 (5 Principles for Responsible AI | SS&C Blue Prism)。各国监管趋严也推动企业更加重视AI治理,例如欧盟《AI法案》即将落地,将对高风险AI系统提出强制合规要求。这些都要求AI工程团队在设计和部署系统时将伦理风险和合规要求纳入考量。

综上,AI工程领域目前呈现蓬勃发展的态势:一方面,生成式AI等技术突破提供了丰富的机会,工具链与社区生态日益完善;另一方面,工程落地所面临的挑战(如数据、人才、伦理)也更加现实地摆在从业者面前。在这种机遇与挑战并存的环境下,像AI Engineer Summit这样的行业盛会恰逢其时地提供了交流平台,使得业界精英可以分享经验、共商对策,从而推动整个领域朝着更加成熟、负责任的方向演进。


峰会综述:AI Engineer Summit 2025 的定位与影响

AI Engineer Summit是专为AI工程从业者打造的年度旗舰大会,自2023年以来已连续举办三届。在全球AI生态中,它扮演着独特而重要的角色。与偏重学术前沿的AI学术会议(如NeurIPS、ICML)或聚焦商业产品的AI产业展会不同,AI Engineer Summit定位于AI技术的工程化应用,旨在汇聚“AI工程师”社群的智慧,推进实践经验的分享与最佳范式的形成 (AI Engineer Summit: Agents at Work!)。主办方Software 3.0团队(由知名AI播客Latent Space的成员发起)致力于将其打造成AI工程领域的顶级交流平台。从2023年的首次峰会、2024年的“AI Engineer World’s Fair”,再到2025年的这次会议,规模和影响力逐年提升。2025年峰会举办地选择在纽约曼哈顿中心地带的Times Center剧院,汇集了来自世界各地的与会者。值得一提的是,本届大会采用了邀请制报名,现场规模控制在数百人以内,以保证与会者的高质量和交流的深度 (AI Engineer Summit: Agents at Work!)。能获邀参会的多是各公司的AI技术负责人、资深工程师和创业公司创始人等,由此可见其在业内的号召力。

峰会的价值体现在以下几个方面:

  • 引领AI工程实践方向:每年峰会设定一个紧扣时代脉搏的主题,2025年是“Agents at Work”,聚焦当下炙手可热的智能代理(Agent)技术在实际业务中的应用与挑战 (AI Engineer Summit: Agents at Work!)。这一主题之下,涵盖了企业AI战略、DevOps自动化、模型部署优化、生成式AI应用、AI伦理等子话题,基本勾勒出AI工程当前面临的主要课题。通过对这些议题的深入探讨,峰会为行业发展提供了风向标。很多参会者表示,从中捕捉到了未来一年的技术趋势。例如,有嘉宾在会后评价:“大会的内容前沿且高含金量,堪称行业风向标” (AI Engineer Summit: Agents at Work!)。可以说,峰会上呈现的观点和经验,将指导众多团队在未来的AI项目中作出技术决策。

  • 搭建跨界交流平台:AI工程涉及学术研究、软件开发、行业应用等多个圈层。峰会将这些原本相对割裂的圈层链接起来,让产业界、学术界、创业圈的专业人士围绕共同关注的问题交换想法。例如,本届大会上既有来自顶级科技公司的工程实践分享,也有学术研究者对AI可靠性的冷静分析(如普林斯顿大学博士生Sayash Kapoor从学术角度探讨当前Agent的局限 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)),还有初创公司的产品经验(如Superdial公司讲述如何用AI代理帮用户拨打电话与保险公司交涉 (Dispatch from the AI Engineer Summit Day 2: More agent definitions, sidestepping model costs, and dialing agents) (Dispatch from the AI Engineer Summit Day 2: More agent definitions, sidestepping model costs, and dialing agents))。这使得与会者能从多维度获取知识。产业从业者能够了解最新研究成果如何影响实践,研究人员也能听到业界实际需求和痛点,从而寻找有意义的研究方向。对于创业者而言,更是难得的机会直接向潜在客户和合作伙伴展示成果、获得反馈。由此,峰会在学研与产业之间、大公司与初创之间架起了沟通的桥梁,加速了AI工程生态的融合。

  • 推动行业社群建设:AI工程师作为新兴群体,需要一个认同和发声的平台。AI Engineer Summit的出现恰好满足了这一需求,使得AI工程师有了自己的“节日”。通过主题演讲、工作坊、黑客松和社交活动,参会者形成了紧密的社群网络。大会期间在纽约还围绕主题举办了十余场卫星活动和聚会,从AI Agent开发者工具研讨到LangChain黑客之夜,丰富了交流形式 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。这些活动不仅分享知识,更让AI工程师群体增强了身份认同感。峰会官网上展示的与会者评价也反映出这种社区氛围:有人将其比作Twitter早年开发者大会“Chirp”,预示着一个创新时代的开启 (AI Engineer Summit: Agents at Work!);也有人称赞“这是我参加过的最棒的大会” (AI Engineer Summit: Agents at Work!)。可见峰会激发了社区的热情和凝聚力。长期来看,这种社群将成为AI工程领域持续发展的动力,引导行业自发地沉淀经验、制定规范。

  • 加速最佳实践传播:许多企业在推进AI落地时往往各自摸索,走了不少弯路。而峰会提供了一个分享踩坑经验和成功模式的平台,可以减少“重复发明轮子”的现象。例如,大会中Method Financial和OpenPipe的联合演讲提出了一种应对大模型成本和延迟的全新方案:先用昂贵的前沿大模型探索验证需求,并收集数据,随后训练一个小规模的开源模型来接替,从而大幅降低推理成本和提高响应速度 (Dispatch from the AI Engineer Summit Day 2: More agent definitions, sidestepping model costs, and dialing agents) (Dispatch from the AI Engineer Summit Day 2: More agent definitions, sidestepping model costs, and dialing agents)。这一策略被演讲嘉宾誉为“新兴最佳实践”,为许多资金或算力有限的团队提供了思路。再如LinkedIn分享了如何在Java技术栈中构建生成式AI平台时,介绍了他们开发的集中式技能注册表多Agent架构等方案 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。这些宝贵实践一经传播,其他企业可借鉴实施,推动整个行业水准的提升。在峰会上,我们还能看到一些标准化的工程方案逐渐成形,如LangChain等被反复提及的Agent开发框架、Weights & Biases等用于监控评估的工具,这些都体现了社区在收敛出一套共同认可的方法论和工具链。可以说,峰会起到了行业知识库的作用,将分散各处的经验教训汇聚、提炼并扩散开来。

总之,AI Engineer Summit已不仅是一场会议,更是AI工程领域的一个缩影和助推器。它在全球AI生态中的地位举足轻重:既引领了话题方向,又连接了人脉资源,还加速了知识共享。从长远看,这样的行业盛会将帮助AI工程领域更加成熟,让企业更高效地释放AI技术的价值。


核心主题解析

本届AI Engineer Summit 2025围绕“AI工程实践、自动化DevOps、模型优化、生成式AI、AI伦理”等关键词展开了丰富的讨论。以下我们分别就这些核心主题进行解析,并引用大会内容和相关资料加以说明。

1. AI工程实践方法论与组织经验

AI工程实践涵盖从策略制定到开发流程的一系列方法论。本次峰会上,多位嘉宾从团队管理、项目策略和评估体系等角度分享了经验。

  • AI战略与团队建设:Parlance Labs顾问Hamel Husain和SpecStory创始人Greg Ceccarelli进行了风趣的反向主题演讲——《如何制定一个注定失败的AI战略》。他们用反面案例来强调常见误区,如让决策层与一线实现团队脱节就是失败的秘诀之一 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。这一幽默的表述实则敲响警钟:成功的AI项目要求高层战略与执行细节紧密对齐,不能各吹各的号。同时,SignalFire的Heath Black结合数据指出,在当前AI人才炙手可热的市场中,招聘和组建AI团队需要更科学的方法。例如,他建议使用客观的指标筛选候选人,并把握时机迅速出手,以免优秀人才被高薪抢走 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。他还提到讲好团队愿景故事的重要性,用有吸引力的叙事留住并激励人才 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。这些观点为企业搭建AI工程团队提供了指导:既要战略清晰统一,又要注重人才和文化。正如Rand公司的研究报告所指出的,许多AI项目失败源于对项目目的和领域背景缺乏共同理解 (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND) (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND)——峰会嘉宾的经验之谈可看作对此问题的实践解决方案:通过沟通对齐愿景、招募合适的人并营造学习创新的团队氛围,才能避免“战略与实施两张皮”。

  • 评估与迭代流程:AI工程不同于传统软件工程的一大挑战在于,AI系统的输出具有不确定性,需要持续评估和改进。对此,Arize联合创始人Aparna Dhinakaran在《确保AI代理有效:可扩展评估框架》演讲中提出,构建健全的评估框架是AI项目成功的关键 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。她从高管视角强调,应制定清晰的指标来衡量AI代理是否真的产生业务价值,并通过持续监控和反馈来驱动改进 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。这种观点与工业界的实践不谋而合——Google等公司已建立起AI系统的分级评估机制,涵盖准确率、公平性、安全性等多个维度,以便在上线后密切观察模型行为 (Responsible AI: Our 2024 report and ongoing work) (Responsible AI: Our 2024 report and ongoing work)。在工程实践中,越来越多团队采用类似DevOps中的CI/CD(持续集成/持续部署)方法来不断训练、测试、部署AI模型,被称为持续学习系统。Datadog公司的Evan Fossier和Joey Pinhas也分享了他们在《如何知道你的Agent有效?》演讲中的做法:引入**“微测评”(micro-evaluations)理念,把Agent的表现分解成若干小任务进行针对性测试,就像软件单元测试那样,以发现并纠正细微的问题 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。这样的精细化评估让AI工程更具可控性和可靠性。概括来说,峰会嘉宾们一致倡导在AI开发中引入“以数据和指标为依据的迭代流程”**:通过持续评测-反馈-改进的闭环,逐步提高AI系统性能,避免“一次性交付”的陷阱。正如一位嘉宾所言:“要让AI代理真正解决客户需求,就必须像传统软件那样进行严谨测试” (AI Engineer Summit: Agents at Work!)。可以预见,EvalOps(Evaluation Operations,即评测运维)将成为AI工程实践的重要组成部分,与MLOps紧密结合。

  • 跨职能协作:多个案例强调了AI工程需要打破部门墙,实现多角色协作。OpenAI的Prashant Mital和Toki Sherbakov以服务企业客户的经验,介绍了OpenAI的技术成功团队如何与客户的业务团队共同组建项目小组,确保AI解决方案贴合实际需求 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。他们把这种模式总结为“Hands-on collaboration + Engagement framework”(深度协作加系统化参与),通过联合开发、知识转移和定期交流,帮助客户团队自己也成长为AI工程团队 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。这一经验表明,AI工程师不仅需要写代码,更需要与领域专家、产品经理紧密合作,快速理解业务痛点并提供定制方案。LinkedIn的工程经理Xiaofeng Wang也分享了类似心得:在构建LinkedIn生成式AI平台的过程中,他们让AI工程师与负责基础架构的团队、产品团队形成一个矩阵式组织,一起攻克将AI融入主营业务的难题 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。例如,为了在LinkedIn主要的Java生态中实现LLM功能,AI工程师与平台团队合作开发了中间层来衔接Python的AI组件和现有系统,并制定了统一的内部API规范供各应用调用 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。这种做法打通了技术栈之间的隔阂,使AI能力得以在大型工程体系中落地。总结来说,成功的AI工程实践往往是多工种合奏:数据工程师确保数据管道畅通,ML研究员提供模型支持,AI工程师整合模型并开发应用,DevOps工程师保障部署伸缩,产品经理则提供方向和反馈。缺一不可。正因如此,很多组织开始在架构上采用**“AI平台团队”**模式,即由一支跨职能团队提供公司内部AI能力的平台支持其他业务部门。本次峰会的案例无疑为这种组织转型提供了有益参考。

2. 自动化DevOps与AIOps

随着AI系统越来越复杂,对基础设施运维的要求也水涨船高。如何利用AI技术反过来提升运维效率、实现自动化DevOps(有时也称为AIOps),是本次大会的一个亮点话题。在传统软件领域,DevOps实践追求的是持续部署、高可靠性和快速响应问题,AI工程同样面临这些挑战,甚至因为模型的不确定性而更复杂。一些领先企业已经开始探索用AI代理来协助运维任务,从而减轻工程师负担。

  • 无人值守的智能运维:云监控公司Datadog的工程师Diamond Bishop带来了引人注目的演讲《永不休息的DevOps工程师》,介绍了他们内部开发的AI代理如何模拟值班工程师处理警报和事故 (AI Engineer Summit: Agents at Work!)。他说道:“难道不能有一个不需要睡觉的值班工程师,随时准备替你处理问题,让你晚上可以安心睡觉吗?” (AI Engineer Summit: Agents at Work!)这个看似异想天开的目标正在通过AI成为现实。他们构建的代理系统可以24/7监控Datadog自身的服务,当侦测到异常时,代理会自动调用诊断工具、执行初步排障,甚至能够根据运行手册采取措施 (AI Engineer Summit: Agents at Work!)。例如,如果某服务宕机,代理会重启服务、通知相关团队,并在需要时升级警报给人类。通过这种方式,许多夜间警报可以由AI先行处理,大幅减少了人工on-call的频率 (AI Engineer Summit: Agents at Work!)。Datadog将这套Agent融入其内部运维流程,并不断训练其在各种场景下的决策能力。值得注意的是,这一AI代理并非完全自主,它遵循预设的策略和安全边界,只处理特定类型的事务,超出范围的仍由人工介入 (AI Engineer Summit: Agents at Work!)。这种**“有人监督下的自治运维”**为DevOps自动化提供了新的范例。在场很多运维工程师对此深感兴趣,因为这意味着未来他们可以摆脱重复的夜间紧急响应,把精力投入更有创造性的工作中。可以预见,随着技术成熟,AIOps将承担越来越多监测和初步响应的职责。市场上也已经出现一些AIOps工具,利用机器学习分析日志和指标来提前预测故障。Datadog的实践案例无疑是这一趋势的先行者,证明了AI可以成为运维团队的有力“队友”。

  • 基础架构即代码与AI:另一个维度的DevOps优化体现在基础设施规划上。例如Arista Networks的Paul Gilbert在峰会中探讨了《如何构建2025年的AI数据中心》 (AI Engineer Summit: Agents at Work!)。他提到,相比传统数据中心,为了承载大规模AI训练和推理,需要在供电、散热、网络带宽等方面做出特殊设计 (AI Engineer Summit: Agents at Work!)。而AI工程师在部署自有基础设施时,也可以利用AI辅助规划。他设想未来AI代理可以根据工作负载需求自动调整云资源组合,甚至根据应用特点推荐最佳硬件架构(如GPU类型、存储方案等) (AI Engineer Summit: Agents at Work!)。这其实是基础设施即代码(IaC)理念的延伸:运维人员用代码定义所需资源,AI代理根据这些声明智能地在底层执行配置并优化。例如,在多云环境下,AI代理可动态决策将部分任务转移到成本更低的闲置算力上,或者在发现网络瓶颈时重新路由流量。虽然这些想法在大会上属于前瞻性讨论,但已经有初步迹象,如一些云厂商推出AI驱动的自动扩缩容功能,可以根据历史负载模式预测伸缩需求。对AI工程团队而言,善用此类功能意味着更高的效率和可靠性。尤其当AI应用本身要大规模部署时(如要服务亿万用户的模型推理服务),自动化的基础设施管理几乎是唯一可行的路径。因而我们看到,不仅是在DevOps流程中引入AI,在底层架构运维中AI也开始扮演角色——从帮助写配置、做优化,到未来可能自主管理整个集群。正如Datadog和Arista分享的,AI在DevOps领域的应用还处于早期,但前景广阔。

  • 连续集成与部署(CI/CD)的AI增强:几位嘉宾提到了将AI融入代码生命周期管理的话题。Sourcegraph联合创始人Beyang Liu的演讲《让AI代理加速软件开发生命周期(SDLC)》分享了他们如何使用代理自动化代码迁移、代码审查和bug分类等开发流程 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。例如,在大型代码库从Python2迁移到Python3时,一个AI代理可以遍历代码自动修改不兼容语法,然后提交通知开发者审查 (AI Engineer Summit: Agents at Work!)。又如在Pull Request阶段,引入AI助手辅助审查,提高问题发现率和速度 (AI Engineer Summit: Agents at Work!)。这些实践表明,AI不仅能处理运行时的运维任务,也能渗透到开发阶段,使整个软件工程流水线受益。特别是对于包含AI模块的复杂应用,CI/CD过程本身也需要特殊考虑,比如模型版本的更新如何与应用代码部署协调,新的模型是否引入性能回退等。Datadog的团队在Agent评估环节就借鉴了很多软件测试的方法论 (AI Engineer Summit: Agents at Work!)。可以预见,未来将出现专门面向AI系统CI/CD的工具,自动执行模型的验证部署。这将极大释放AI工程团队的生产力,让他们更放心地频繁迭代模型和代码,而不用担心每次上线未知的风险。

综上,**自动化DevOps(AIOps)在AI工程领域开始崭露头角。从维护企业自身系统的角度看,AI可以帮忙解决运维痛点,实现7x24小时监控与初步恢复;从交付AI应用的角度看,自动化基础设施和流水线能确保模型的高效部署与持续更新。这些都离不开AI工程师的巧思:既要开发这样的AI助手,也要设计流程让人机协同最大化发挥效力。正如峰会主题所暗示的那样,“Agents at Work”**不仅指AI代理为终端用户工作,也意味着AI代理正在为工程师工作。随着技术成熟,我们有理由相信,未来DevOps团队中将常驻“数字同事”——一系列智能Agent负责繁琐重复的运维事务,而人类工程师更多承担监督和决策角色。这将使得大型AI驱动系统的运维复杂度得到控制,为更宏大的AI应用提供稳健基石。

3. 模型优化与架构优化

在AI工程实践中,模型优化系统架构优化是确保AI应用高效可靠的关键。模型优化不仅指提升模型精度,也包括提高推理速度、降低资源消耗等;架构优化则涉及如何在整体系统层面设计数据流、模块交互和硬件选型,以支持AI工作负载。峰会上多位嘉宾分享了在这方面的宝贵经验和新思路。

综上,在模型和架构优化方面,AI工程师需要兼具微观(模型层面的精雕细琢)和宏观(系统层面的统筹设计)两种视角。一方面,通过巧妙利用大模型与小模型的组合、模型压缩和并行计算等技术,可以显著提升性能、降低成本;另一方面,通过合理的架构分层和模块划分,可以确保系统具备弹性和扩展能力。这两者相辅相成:好的架构为模型优化提供空间,模型的改进又进一步促进架构发挥价值。正如峰会一再强调的,AI工程成功的秘诀不只是最先进的模型,还有成熟的工程。只有将模型算法与工程优化融为一体,才能打造真正落地的AI应用。

4. 生成式AI与Agent实战

生成式人工智能(Generative AI)无疑是近年AI领域最火热的方向,从文本、代码到图像、语音,各种生成模型层出不穷。而在工程应用中,如何充分利用生成式AI的强大能力,并与具体业务场景结合,成为AI工程师关注的焦点。在本次峰会上,“Agent”(智能代理)成为贯穿全场的核心主题,几乎每一位讲者都提到了Agent的概念。这里的Agent通常指基于大模型的、自主执行任务的智能体,可以看作是生成式AI应用的封装形式。例如,一个客户服务Agent可以基于LLM理解用户问句并查询知识库后生成回答。大会主题“Agents at Work”表明,2025年大家关心的不仅是让模型生成内容,更要让它完成有用的工作。以下,我们结合大会内容,来看生成式AI和Agent方面的讨论亮点。

综上,生成式AI和Agent是当前AI工程实践中最活跃的领域之一。在AI Engineer Summit 2025上,我们看到了大量Agent在真实业务中的精彩应用,从金融投资到软件开发再到日常琐事处理,覆盖面非常广。这证明生成式AI已经开始实用化,不再只是实验室里的语言模型,而是通过Agent这个载体融入各行各业。同时,我们也认识到,要让Agent真正“Work”(发挥作用),需要工程师们在定义、架构、评估上下功夫。正如大会主题所暗示的,2025年可能成为“Agent元年”,各种AI Agent将在幕后为人类社会运行提供帮助。但要实现这一愿景,我们必须不断完善技术、理清思路,既要仰望星空也要脚踏实地。AI工程师将扮演关键角色,把强大的生成式模型塑造成一个个“能干会做事”的Agent,让AI创造的价值得以真正落地。

5. AI伦理与治理

随着AI技术影响力的扩大,伦理与治理已成为AI工程中不可或缺的一环。在AI Engineer Summit 2025上,虽然没有专门的伦理主题演讲,但几乎每个议题都隐含或直接涉及到了AI系统的可信、安全、合规等方面。这说明,AI伦理不再是独立的讨论,而是融合进AI工程实践的方方面面。下面我们结合峰会内容和业内资料,来看AI伦理在工程落地中的几个关键关注点:

  • 可靠性与安全:对于企业级AI应用,可靠性是首要的伦理要求——系统必须按预期工作,不能做出危险或错误的行为。例如,Anthropic公司在大会上分享了他们为提高大型语言模型可解释性和可控性所做的努力 (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context) (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context)。他们提出一个渐进的路线:当前阶段先致力于理解模型决策的基本构成(如辨别模型使用了哪些特征) (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context);近期期望能检测模型何时出现幻觉、偏见等不良行为并做出提示或限制 (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context);中期目标是给予用户对模型行为的影响权,比如通过可调节的参数抑制某些不想要的输出 (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context);远期则追求真正的因果可解释性,让模型能解释自己为何产生某个结论 (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context) (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context)。这一“应用可解释性阶段论”表明了顶尖AI公司对模型可靠性的重视和理性预期:虽然短期内很难彻底解释黑箱,但可以逐步提升对模型行为的掌控,让其输出更加可预测、安全 (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context) (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context)。对AI工程师来说,这意味着在开发Agent或AI应用时,要尽量使用已验证稳定的模型版本,对其可能的错误模式有了解,并在系统中加入监测机制。例如Datadog在Agent旁设立了微评估流程 (AI Engineer Summit: Agents at Work!),就是为了及时捕获Agent异常行为从而干预,避免对客户造成影响。这种**“保险丝”设计应成为AI系统可靠性工程的一部分。此外,OpenAI团队分享他们与企业客户合作时,非常注重部署风险缓解** (AI Engineer Summit: Agents at Work!)——包括为模型输出错误预留人工纠错流程、限定Agent权限避免越权行为等。这些都是保证安全可靠的具体措施。可以说,让AI可控、减少意外已经成为AI工程的默认任务之一,而非事后弥补。

  • 公平与偏见:AI伦理另一大焦点是AI决策的公平性,避免对特定群体的不公。这在一些公共服务或人力决策支持场景尤为重要。虽然峰会中未直接讨论偏见问题,但我们可以推断,在企业落地AI时,这已是隐含的要求。例如,LinkedIn在开发生成式职位推荐和内容推荐Agent时,必然考虑了算法对不同求职者、内容创作者的公正对待。他们的平台需要确保AI不会因为性别、种族等敏感属性对用户区别对待。这通常通过两方面实现:一是数据层面的平衡(确保训练数据多样且不过度代表某一类群体),二是算法层面的约束(引入公平指标约束优化过程)。有资料显示,许多公司已将公平测试纳入模型发布流程,如Facebook会在模型上线前用模拟用户数据测偏差 (5 Principles for Responsible AI | SS&C Blue Prism)。在AI工程实践中,工具层面也有帮助,比如IBM开发的AI Fairness 360、Microsoft的Fairlearn等开源包,能评估模型输出在不同群体上的差异 (5 Principles for Responsible AI | SS&C Blue Prism)。AI工程师应该熟悉并运用这些工具,在模型上线前进行“平权校验(fairness check)”。大会所倡导的评估框架也应涵盖公平性指标,这是负责任AI的重要组成部分。

  • 隐私与数据治理:当AI应用需要处理用户数据或公司敏感数据时,隐私保护就成为工程必要考量。这包括数据的匿名化、最小化收集、存储安全,以及在模型使用过程中防止意外暴露信息。峰会上,OpenAI团队提到与客户合作会有多种部署模式 (AI Engineer Summit: Agents at Work!)——包括通过API云服务、在客户私有云中部署模型副本、或者提供本地化解决方案,以满足不同隐私要求 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。这表明顶尖AI提供商都意识到隐私的重要性,灵活提供方案。例如金融和医疗客户通常要求模型在内网运行,以免将数据发到外部服务器。本次大会的案例如BlackRock、Jane Street都涉及高度敏感的数据,他们的AI代理系统都是构建在封闭环境中,经过严格的访问控制和加密措施的 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。AI工程师在实现类似系统时,必须与安全团队合作进行威胁建模,确保不会因接入AI而增加攻击面。值得关注的是,新兴的大模型往往是在海量互联网数据训练得到,可能暗含一些隐私信息。因此,当把预训练模型应用到企业领域时,需要考虑训练数据的合规性输出筛查。一些公司已经对大模型输出增加过滤步骤,避免生成个人敏感信息。如果模型可访问数据库或联网,还需对Agent加入权限管理——例如Anthropic的Claude允许为其配置所谓“宪法”来约束它不违反隐私规则 (Responsible AI: Our 2024 report and ongoing work)。总之,在AI工程中落实隐私原则,需要技术和制度并举:既在系统设计上遵循“隐私最小化”“安全默认”等准则,也在组织管理上制定AI使用规范、员工培训和问责机制。Summit虽未细讲,但企业在落地AI时往往已经有这些配套措施,比如建立内部AI伦理委员会审核高风险项目。

  • 法规合规:各国监管正在迅速跟进AI发展,这对AI工程提出了新的要求。欧盟的AI法案(AI Act)预计将把部分AI应用列为高风险,要求满足透明度、解释性等义务;美国FTC也多次警告不得在未经充分测试的情况下部署AI,以免对消费者造成损害 (RAISE 2024: The Future of Responsible AI & AI Governance …)。在峰会的领导力讨论环节,有嘉宾提到“2024年是充满试验和调整的一年,各种供应商和方案在企业内部博弈,2025年则需要清醒认识到该改变的地方” (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。这或许暗示了合规的重要性——2024年的无序尝试之后,2025年企业将在政策指导下收拾“战场”、巩固合规运营。AI工程师需要与法务团队紧密合作,了解目标市场的法规要求,将相应功能和限制融入产品设计。例如,如果法规要求告知用户AI参与决策,那么界面上就要明确标识“AI生成内容”。又如某些敏感领域要求可解释,那么就必须开发日志记录和结果说明模块。峰会上OpenAI分享的与客户合作框架中,也明确包括了风险合规环节 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。可以预见,未来很多AI工程职位将列出“熟悉AI相关法律法规”作为优先条件。AI伦理和合规将不再仅仅是伦理学家的事情,而是每个AI工程师的职责。正如Atlassian在其Responsible AI指南中总结的:“负责任AI的核心原则包括公平、隐私、透明、问责以及可靠安全” (5 Principles for Responsible AI | SS&C Blue Prism)——这些原则需要转化为具体的工程实践和文档流程,才能真正落地。

综上,AI伦理已经深度融入AI工程生命周期。从数据获取、模型训练、系统设计到部署运行,每一步都涉及伦理决策。本次AI Engineer Summit通过各个话题的探讨,充分体现了这一点:谈评估,就是在确保AI输出可靠;谈架构,就是在考虑安全与隐私;谈应用案例,无不强调可解释和人机协同,以便保持人类对AI的掌控。可以说,AI工程师正站在技术与伦理的交汇处。他们既要掌握硬核的开发技能,也要具备伦理风险意识。在实际工作中,AI工程师应主动提出伦理方面的检查,如在方案评审时加入“会不会造成偏见?”“数据是否经过用户授权?”等问题。在交付产品时,也要准备好应对用户和监管关于AI行为的质询。这是AI技术成熟的重要标志之一:我们不再陶醉于功能炫酷,而更加关心AI带来的影响和责任。正如Google负责AI的高级副总裁James Manyika所言:“大胆推进AI的同时,也必须从一开始就将责任放在首位” (Responsible AI: Our 2024 report and ongoing work) (Responsible AI: Our 2024 report and ongoing work)。AI Engineer Summit传递出的信息也是如此——未来的AI工程成功,不仅以技术指标衡量,更以其是否遵循人类价值为准绳。


主要演讲嘉宾及贡献

AI Engineer Summit 2025聚集了诸多来自产业和学术界的重磅嘉宾。他们在各自领域的洞见共同勾勒出AI工程的全景图。下表列出了本次峰会部分主要演讲嘉宾、主题及其贡献要点:

嘉宾(身份) 演讲主题 主要观点/贡献
Grace Isford(Lux Capital合伙人,投资人) Beyond the Consensus: Navigating AI’s Frontier in 2025
(超越共识:驶向2025年的AI前沿)
从投资视角提出2025年AI前沿的10大预测,强调**复杂Agent任务中的“小错误积累”**将成关键挑战 (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context) (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context);提醒技术领袖关注LLM对人类行为的二阶影响,如注意力和决策方式改变 (AI Engineer Summit: Agents at Work!)。
Hamel Husain(Parlance Labs顾问,前GitHub工程主管)
Greg Ceccarelli(SpecStory创始人)
How To Build an AI Strategy That Fails
(如何打造一个失败的AI战略)
以反面教材形式总结AI战略常见误区:如让执行团队与决策层脱节、只为炫技不解决实际问题等 (AI Engineer Summit: Agents at Work!);幽默地警示企业避免这些“失败策略”,强调战略需与一线紧密联动 (AI Engineer Summit: Agents at Work!)。
Waseem Alshikh(Writer公司CTO & 联合创始人) Domain-Specific LLMs in Finance
(金融领域的专用LLM)
挑战“大模型通吃”思维,主张通过领域专属模型取得更佳效果 (AI Engineer Summit: Agents at Work!);发布针对金融文本的AI性能基准,展示专用模型在金融复杂场景下实现SOTA性能,同时更高ROI (AI Engineer Summit: Agents at Work!)。
Prashant Mital / Toki Sherbakov(OpenAI技术成功团队负责人) OpenAI for VPs of AI
(面向AI副总裁的OpenAI实践)
介绍OpenAI与企业协作的成功路线图:从识别用例、风险评估到交付部署的全流程框架 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!);分享多个真实案例,强调深度协作+定制对加速AI落地的作用。
Aparna Dhinakaran(Arize AI联合创始人) Ensure AI Agents Work: Evaluation Frameworks for Scaling Success
(确保AI代理有效:可扩展成功的评估框架)
提出高层视角的AI评估方法:构建系统化评估流程来度量代理绩效 (AI Engineer Summit: Agents at Work!);强调持续监控和反馈闭环,让AI代理在可控范围内不断优化 (AI Engineer Summit: Agents at Work!)。
Diamond Bishop(Datadog工程经理) The DevOps Engineer Who Never Sleeps
(永不休息的DevOps工程师)
分享Datadog利用AI代理自动处理运维警报的实践:开发“不睡觉”的Agent替代夜班值守 (AI Engineer Summit: Agents at Work!);介绍代理如何像人一样调用工具解决常见故障,让工程师摆脱繁琐报警 (AI Engineer Summit: Agents at Work!)。
Alexander Bricken / Joe Bayley(Anthropic应用AI团队) Anthropic for VPs of AI
(面向AI副总裁的Anthropic实践)
解析企业AI落地的常见失败原因(过度工程、数据不善等) (AI Engineer Summit: Agents at Work!);介绍Anthropic通过API、私有部署等多模式交付Claude模型,并辅以安全措施,帮助企业构建有效AI路线图 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。提出跨职能协作、评估框架和buy-vs-build决策的方法论。
Xiaofeng Wang(LinkedIn资深工程经理) Lessons from Building LinkedIn’s GenAI Platform
(构建LinkedIn生成式AI平台的经验)
首次公开LinkedIn内部GenAI平台架构:通过多Agent系统提供内容创作等功能 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!);介绍集中式技能注册表、上下文记忆等创新,解决在Java主环境中集成AI的难题 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!);强调协作文化和持续学习在团队建设中的作用 (AI Engineer Summit: Agents at Work!)。
Douwe Kiela(Contextual AI联合创始人,前Meta AI研究员) Specialized RAG Agents: Lessons from deploying complex AI systems in production
(专用RAG代理:生产部署复杂AI系统的教训)
强调企业AI价值取决于对深度上下文的利用:提出“三层AI价值”模型,从基础效率到顶层业务变革 (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context);分享在大型企业部署RAG(检索增强生成)系统的经验,提醒不要忽视“垃圾进垃圾出”原则 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)(数据质量决定效果)。
Zack Reneau-Wedeen(Sierra创始人 & CEO) Sierra’s Agent Development Life Cycle
(Sierra的Agent开发生命周期)
介绍为消费品牌构建海量用户Agent的实战:Sierra代理帮助数百万用户执行设备设置等复杂任务 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!);分享独特方法学:通过规模数据让Agent自我改进,引入可靠性测试和持续迭代,使Agent变得可测试、可可靠 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。
Mustafa Ali(Method Financial联合创始人)
Kyle Corbitt(OpenPipe联合创始人)
How we scaled 500m AI agents in production with 2 engineers
(我们如何以2位工程师让5亿AI代理上线)
揭示低人力实现大规模AI服务的秘诀:采用“大模型+小模型”双阶段策略 (Dispatch from the AI Engineer Summit Day 2: More agent definitions, sidestepping model costs, and dialing agents) (Dispatch from the AI Engineer Summit Day 2: More agent definitions, sidestepping model costs, and dialing agents);先用GPT-4验证并了解需求,再以开源模型微调应对主要流量,实现低成本扩展 (Dispatch from the AI Engineer Summit Day 2: More agent definitions, sidestepping model costs, and dialing agents) (Dispatch from the AI Engineer Summit Day 2: More agent definitions, sidestepping model costs, and dialing agents)。此经验被誉为大会“含金量最高”的洞见之一。
Soumith Chintala(Meta资深研究员,PyTorch之父) Building a personal, local, private AI Agent that augments you
(打造个人的本地私有AI代理)
探讨在本地设备运行AI代理的可行性:强调数据隐私与自主控制的重要 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!);提出挑战:如何在有限算力下实现接近云端模型的体验,同时保证用户最私密数据也由AI安全处理 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。
Sayash Kapoor(普林斯顿大学博士生,《AI Snake Oil》作者之一) Building and evaluating AI Agents That Matter
(构建有价值的AI代理及其评估)
冷静审视Agent热潮:指出许多当前Agent在现实任务中效果不佳,远未达到宣传性能 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!);呼吁建立严格的Agent评测标准,避免被过度炒作蒙蔽 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!);提出改进Agent实用性的建议,如加强长期规划能力、引入人类反馈等。

表2:AI Engineer Summit 2025 部分嘉宾及演讲贡献摘要(按出场顺序,不完全列举)

以上嘉宾阵容展示了产业界与学术界在AI工程领域思想的碰撞。可以看到,产业领袖(如OpenAI、LinkedIn)提供了大量在一线摸爬滚打得来的实践诀窍,创业公司(如Sierra、Superdial等)带来了创新而灵活的解决方案,投资界(如Grace Isford)则提供全局视野判断趋势,而学术研究者(如Sayash Kapoor)为行业注入了理性和反思。多元背景的嘉宾共同丰富了大会内容,使与会者能从不同角度理解AI工程的机遇与挑战。特别值得一提的是,一些资深技术专家如Soumith Chintala等的加入,让工程实践与底层技术前沿建立了联系。例如Soumith探讨本地AI的演讲,把隐私、安全这些工程关切和模型压缩、优化等研究热点联系起来,启发大家思考未来产品形态。

总的来说,本届峰会嘉宾的贡献可以归纳为三类:经验传授(如LinkedIn、Datadog分享现有系统经验教训)、新方案发布(如Method/OpenPipe提出全新优化策略、Anthropic公布解释性路线图等)和趋势洞察(如投资人的宏观预测、学者的方向拷问)。这些内容交织在一起,使大会成为一堂全面的“AI工程大师课”。与会者不仅收获了实操层面的指导,还获取了战略层面的指引。这正体现了AI Engineer Summit的价值:集合业界头脑风暴,推动整个AI工程群体的知识升级。

值得注意的是,在如此密集的信息交流中,嘉宾们也不约而同强调了一些共同理念,例如“评估至上”“从业务问题出发而非技术出发”“人机协同而非取代”“逐步提升模型可控性”等。这些共识性的观点很可能会在会后进一步发酵,成为行业标准的雏形。由此可见,峰会嘉宾的思想影响并不会止步于会场,而是将通过媒体、社区在更大范围传播,对AI工程实践产生长期正面影响。


技术亮点与创新工具

AI Engineer Summit不仅是思想的盛宴,也是新技术、新工具的展示舞台。本届大会涌现出许多值得关注的技术亮点,从全新发布的框架标准到开源工具,再到创新的架构方案,涵盖了AI工程技术栈的各个层面。下面我们归纳几个最具代表性的技术亮点:

1. Model Context Protocol (MCP)开放的模型上下文协议:这是由Anthropic推动的一项新标准,在峰会的工作坊中由Anthropic工程师Mahesh Murag详细介绍 (AI Engineer Summit: Agents at Work!)。MCP旨在规范LLM应用如何与外部数据源和工具交互,被比喻为“AI世界的USB-C接口” (Introducing the Model Context Protocol - Anthropic) (Anthropic Publishes Model Context Protocol Specification for LLM …)。简单来说,MCP定义了一套统一的接口,让开发者可以为模型提供上下文信息(如数据库查询结果、用户资料)以及接入工具(如搜索引擎、计算器),而不必为不同模型/框架分别定制。Anthropic已将MCP开源并提供参考实现 (Model Context Protocol - GitHub)。在大会的相关工作坊中,开发者学习了如何使用MCP编写自己的Agent客户端并连接到多Agent系统(如使用LangGraph框架) (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。MCP的意义在于为当前百花齐放的Agent框架提供一个标准化沟通层,降低集成复杂度。例如,一个遵循MCP标准的Agent可以方便地与另一个遵循标准的工具对接,而不用关系内部协议差异。可以预见,随着Anthropic和社区推动,MCP有望被更多AI平台采纳,促进行业生态互通。如果说过去几年REST API标准化促进了SaaS繁荣,那么MCP有可能成为Agent生态繁荣的基石。对AI工程师而言,尽早掌握和拥抱这一标准将有助于构建更兼容、可移植的AI应用架构。

2. GraphRAG图数据库结合RAG的新检索范式:来自Neo4j的Alison Cossette在大会工作坊上发布了GraphRAG方案 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。RAG(Retrieval-Augmented Generation)是指利用外部知识检索增强生成式AI回答,而GraphRAG顾名思义就是将传统RAG的检索存储由“文本文档库”升级为“图数据库”。Alison指出,以往RAG多以向量数据库+全文搜索为主,对结构化关系的利用不足,导致当问答需要关联多步推理时容易碎片化和产生幻觉 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。GraphRAG利用Neo4j图数据库,将知识表示为节点和关系,使Agent在检索时可以沿着关系路径找到更深入和关联性的答案 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。例如,在企业知识问答中,不仅检索某员工的文档,还能通过组织关系图发现其主管、团队,从而综合回答。工作坊演示了GraphRAG的实际效果,显示在准确性、可解释性上都有提升 (AI Engineer Summit: Agents at Work!)。GraphRAG还强调易用性:无需深厚图数据库背景,开发者可以用类似查询自然语言的方式操作Neo4j,让RAG开发门槛不增反降 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。这一创新对RAG类应用是重大利好。当前许多企业FAQ Bot或知识助手都在尝试RAG,GraphRAG提供了一个更强大的实现途径。更广泛地,它提示AI工程师关注融合更多数据结构(如Knowledge Graph)的机会,而不仅限于embedding向量+文本。GraphRAG的开源实现和教程也已发布 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!),方便开发者上手。这是将知识图谱与生成式AI相结合的前沿探索,符合行业对高准确率AI助手的追求。可以预见未来类GraphRAG的思路会涌现更多,比如结合SQL数据库的“KGRAG”(结构化知识检索增强生成)等,都是AI工程值得关注的新方向。

3. PromptQLAgentic Query Language 提升RAG可靠性:Hasura公司的工程师Praveen Durairaju在大会Expo环节做了一个题为“Towards 100% Accurate & Repeatable Data Agents for AI”的快速展示,介绍了他们开发的PromptQL工具 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。PromptQL是一种用于Agent的结构化任务规划语言,类似于把复杂的Agent流程用一种脚本描述,使其行为更确定、可验证。Praveen指出,大多数RAG Agent失败的原因在于目标漂移、推理链断裂,导致无法保证结果完全准确 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。PromptQL通过一种DSL(领域特定语言)让开发者清晰地定义Agent每一步该做什么查询、期待什么结果,对异常情况如何处理,都以类似SQL的结构表达 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。这样Agent的行为就从黑箱变成白箱,可控且可测试。他现场演示了一个多步问答任务,用PromptQL成功实现了100%准确率,而普通基于Prompt的Agent往往做不到 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。此外,PromptQL还能自动生成测试用例,对Agent逻辑进行回归测试,真正实现Agent逻辑的“持续集成”。这个工具引起了许多工程师兴趣,因为它提供了一种工程化管理Prompt的手段。过去Prompt写在代码里难以复用和测试,而PromptQL作为抽象层,不同任务可以模块化组合,且有工具链支持验证(Hasura提供了Benchmarks对比PromptQL和传统方法的结果 (AI Engineer Summit: Agents at Work!))。总体而言,PromptQL代表了一种“用更高层代码控制AI行为”的趋势,有点类似早期机器学习加入规则引擎以提高确定性。虽然大模型擅长生成,但为了可预期结果,在关键任务上引入规则/脚本并非倒退,而是负责任的做法。对于AI工程师来说,学习使用PromptQL或类似框架,可以极大提升Agent交付的确定性和可维护性。当前PromptQL已在Hasura社区试用,未来若成熟,可能成为设计AI Agent流程的主流方式之一。

4. LangChain + ClayAgent测试的新范式:LangChain作为近年火爆的Agent开发框架,在大会上自然也有所体现。其中LangChain负责人之一的Nick Huang与Clay公司工程师Ratch Sujithan共同主持了一个工作坊,展示了如何对Agent进行端到端测试 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。Clay是一款为AI应用做持续评测的工具,他们与LangChain集成后,可以对用LangChain构建的Agent执行自动化测试。Nick首先讲解了Agent评估的概念,包括用对话Replay预期结果比对等方法检查Agent表现 (AI Engineer Summit: Agents at Work!)。随后Clay团队展示了他们的测试框架Claygent如何针对不同Prompt类别运行提示级评测:比如给定Agent若干任务输入,看它输出是否与标注的正确答案匹配 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。这样可以量化Agent对某类问题的成功率。工作坊还讨论了LLM-as-a-judge(LLM自评)技术在Agent测试中的应用,以及如何处理Agent的不确定性结果。这个LangChain+Clay组合代表了Agent进入DevOps测试阶段的努力。正如软件开发在成熟后都会建立单元测试、集成测试,Agent也需要类似基础设施。Claygent提供了图形化界面来管理测试集和结果,LangChain则为Agent行为注入测试钩子。一些参与者认为这将大大加速Agent迭代,因为测试驱动开发可以用于AI Agent了。不久前OpenAI也推出了一个"Eval"平台用于Crowdsource评估AI模型 (AI Engineer Summit: Agents at Work!),可见行业对评测的重视。LangChain和Clay的合作使评测更易用,这可能催生AgentOps的新概念,即Agent开发-测试-部署一体化流程。对于AI工程师来说,掌握这类工具将是必须的技能,以确保自己构建的Agent达到商业发布的质量要求。

5. Letta & MemGPT持续记忆型Agent框架:Letta是一家致力于Agent持久化的创业公司,他们的工程师Charles Packer在工作坊中分享了Agent Memory and the LLM OS(Agent记忆与LLM操作系统) (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。Letta提出的核心是**“Stateful Agents”概念,即让Agent拥有长期生存和学习的状态,而非每次重启都从零开始。为此,他们开发了一个框架和笔记本环境ADE(Agent Development Environment),以及论文MemGPT (AI Engineer Summit: Agents at Work!)。在演示中,Charles展示了如何让Agent将交互过程中的新知识存入长时记忆**,并在后续对话或任务中加以利用 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。例如,一个客服Agent在多轮对话中可以“记住”用户的个人偏好或早前提供的信息,哪怕对话中断后一段时间再继续仍能保有上下文。而传统无记忆的Agent通常只能记住短期上下文窗口。一旦窗口滑出,早先信息就丢失了。Letta的框架通过将重要交互内容嵌入存储,并对Agent做架构改造,使其能够不断更新自身“内存单元”。这类似于给LLM加上一个数据库脑。当然,困难在于如何选择存储什么以及何时调用。MemGPT论文中提出了一些策略,例如对每次对话内容进行embedding,如发现与当前话题相关度高则检索调入。这有点像对话版的RAG。Letta进一步提供了工具支持,方便开发者调试Agent的记忆模块(比如可视化Agent何时存取了记忆)。这个技术亮点代表了解决Agent遗忘症的前沿进展。对于金融顾问、长期助理这类Agent,持续的上下文积累是提升质量的关键。正如Charles所说,人类智能的一大标志就是会从经验中学习,Agent也应如此 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。Stateful Agent如果成熟,将开启更复杂的应用场景,比如持续陪伴型AI、企业长期知识管理AI等。AI工程师可以关注Letta开源的教程和框架 (AI Engineer Summit: Agents at Work!)。掌握如何给Agent接入持久化存储和记忆检索,将成为构建高级Agent的必备技能之一。

以上五个技术亮点只是大会众多创新中的一部分。此外还有诸如Vercel的AI SDK(方便前端开发者嵌入AI功能) (AI Engineer Summit: Agents at Work!)、AWS的Nova工具(多模态RAG流水线) (AI Engineer Summit: Agents at Work!)、Solana的AI支付集成(让LLM直接在链上执行交易) (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)等新颖主题,限于篇幅不一一详述。这些亮点共同折射出AI工程技术生态的活力与丰富性:

首先,开源力量依然强劲,许多工具(MCP标准、GraphRAG实现、LangChain、MemGPT等)都开放给社区,大公司如Anthropic、Meta也积极开源规范和论文 (Model Context Protocol - GitHub) (AI Engineer Summit: Agents at Work!)。这意味着AI工程师拥有前所未有的多样化工具选择,可以站在巨人肩膀上进行创造。开源也加速了技术的迭代,社区贡献使这些工具愈发成熟。

其次,工程思维在AI领域扎根更深。无论PromptQL还是Agent测试框架,背后都是软件工程的方法在AI上的再应用。过去AI开发更多是科研范式,现在这些技术亮点表明AI开发正“归化”到工程范式上来——讲究规范、测试、持续集成和标准化接口。这有助于更大范围开发者参与AI应用构建,不需要每个人都钻研模型底层,只要善用工具也能做出好产品。

最后,新工具也拓展了AI应用边界。比如MCP降低了Agent与现实世界互通的门槛,GraphRAG提升了问答Agent深度,Stateful框架延长了Agent生命周期。这些进步将直接导致可以实现过去难以想象的应用场景。如持久对话医护助手、复杂业务流程自动化等。可以预见,随着这些技术在会后推广落地,我们将看到一批基于它们的新产品涌现。

对于AI工程师而言,这些亮点值得深入学习和尝试。在团队内部引入合适的新工具,往往能起到事半功倍的效果。例如,将LangChain+评测框架纳入开发流程,可以极大提升效率和质量控制;采用GraphRAG或PromptQL,可以显著改善AI服务的可靠性。如果把AI工程比作盖房子,那么这些技术亮点就是新的优质建材和电动工具,让工程师以更快更好的方式盖出坚固漂亮的大楼。

综上,AI Engineer Summit不仅带来了理念上的交流,更实实在在提供了一批“武器装备”。这些新技术的推广有望提升整个行业的生产力水平,也预示着AI工程正迈向更高阶段——在这一阶段,巧用先进工具将成为衡量工程师能力的重要方面。今后的AI产品竞争中,得工具链者得天下或许并非夸张。


企业落地的挑战与最佳实践

尽管AI技术日新月异,但将其成功应用于企业业务依然充满挑战。事实上,据Rand公司2024年的研究调查,超过80%的AI项目最终未能产生预期效果 (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND);这一失败率是传统IT项目的两倍之多,表明将AI转化为现实生产力比普通软件更具难度 (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND)。在AI Engineer Summit的讨论中,众多嘉宾也分享了各自在AI落地过程中遇到的坑与应对之道。可以说,“如何避免AI项目失败”是大会隐含的一条主线。从这些经验中,我们可以提炼出AI工程在企业落地时的几大主要挑战,以及相应的最佳实践建议。

落地挑战1:需求对接与问题选择

挑战:AI项目常常一开始就站在不稳固的地基上——选错了要解决的问题。Rand报告总结的首要失败原因就是利益相关者对要用AI解决的问题认识不一致或沟通不清 (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND) (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND)。业务部门想要A,技术团队理解成B;或者高管要求跟风上AI,但并没有明确业务痛点。这会导致项目从一开始就偏离方向。此外,很多组织会倾向于把AI用在一些炫目的场景,而非能带来实际价值的地方,即所谓“用最新最酷技术而不聚焦真正用户痛点” (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND)。这样的项目即使完成了demo,也难以真正落地产生效益。

最佳实践:首先,强化跨团队沟通。Hamel Husain等人在演讲中反复强调,一线工程团队必须深入理解业务目标,决策层也要聆听技术限制 (AI Engineer Summit: Agents at Work!)。一种可行的方法是在项目初期就组织联合头脑风暴和需求梳理会议,让业务专家、产品经理、AI工程师坐在一起明确AI项目的KPI和成功判据。OpenAI的企业合作框架就是让技术成功团队充当中介,帮助双方翻译需求 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。其次,问题选择要务实。最好选那些有可衡量ROI且相对“持久”的问题作为AI切入点 (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND) (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND)。Rand报告建议领导者应挑选“恒久性问题”——即即使实现周期较长也依然值得解决的难题 (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND) (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND)。Avoid那种昙花一现的噱头需求。一个典型例子:与其让AI画报表里的花哨图形,不如用AI优化供应链调度,这样前者很酷但对决策帮助不大,后者则能直接节省成本。再有,小步试错。Andrew Ng提倡的“从小成功开始(start small succeed)”在会上也得到呼应。不少嘉宾建议采用PoC(概念验证)→Pilot(试点)→Production(生产)的分阶段模式,在小范围验证AI价值后再推广。这避免了一上来就投入巨资全公司推行,结果发现问题没选对的悲剧。总之,一句话:让需求驱动技术,而非技术寻需求。每当有新AI技术出现,问自己:这能解决我哪些现存的业务难题?如果答案牵强,那就不要为用AI而用AI。

落地挑战2:数据与基础设施

挑战:AI系统的效能高度依赖数据质量和基础设施。然而,很多企业在这两方面准备不足。Gartner调查指出,数据问题导致了85%的AI项目失败 (Council Post: Why 85% Of Your AI Models May Fail - Forbes)。常见情况有:数据不足、不准确或有偏,而且数据孤岛林立,很难打通供模型使用。即使模型性能优秀,如果没有良好的MLOps管道与基础设施支撑,也会出现部署困难、响应慢、难以扩展等问题。Rand报告的第四大失败原因正是基础设施不足以管理数据和部署模型 (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND) (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND)。许多传统企业的IT环境并未针对AI高算力、高并发需求优化,导致模型难以产品化。

最佳实践:针对数据,需建立全面的数据策略。Aparna Dhinakaran在演讲中提到,要评估AI代理,先要确保有高质量的训练和评测数据 (AI Engineer Summit: Agents at Work!)。企业应在AI项目启动前就投入时间进行数据盘点和准备,包括数据清洗、标注,以及必要时的数据收集。采用数据中台理念将不同部门的数据整合也是基础工作之一。一些领先企业开始在数据管道中引入数据版本控制数据质量监控工具(如Delta Lake,Great Expectations等)来保证喂给模型的数据可追踪且可靠。如果内部数据确实不足,可以考虑引入迁移学习增强数据(data augmentation)的技术,用少量数据微调预训练模型,或合成一些训练样本。峰会上Waseem提到,他们为金融专用LLM的训练,投入了一个专门的数据收集和合成工作流,以弥补行业数据的稀缺 (AI Engineer Summit: Agents at Work!)。在基础设施方面,建议采用云服务和容器化来快速搭建所需环境。许多企业选择先在云上跑通模型,然后再考虑是否需要自建算力。Paul Gilbert的演讲提醒我们,在规划AI基础设施时别忽略了供电、网络等硬件瓶颈 (AI Engineer Summit: Agents at Work!)。在软硬件尚未充分准备前,避免一上来就搞大一统、大规模。可以先用云上的GPU/TPU服务试运行,把MLOps流程跑顺。Datadog案例显示,他们用现有的DevOps平台结合新开发的Agent工具,成功应对了监控告警需求 (AI Engineer Summit: Agents at Work!)。这表明利用已有平台扩展AI功能是条捷径。类似地,很多云厂商推出的AutoML平台、MLOps流水线(如AWS SageMaker、GCP Vertex AI)也可以直接使用,省去自建的麻烦。此外,要重视基础设施团队与AI团队的协作。LinkedIn在集成GenAI时,就是基础架构工程师与AI工程师联合解决了Java和AI环境打通的问题 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。总体而言,要让AI飞起来,必须先铺好数据跑道和基建电力。AI工程师应与IT部门紧密合作,争取所需资源,并在方案设计时充分考虑基础设施现状。这也是为什么峰会上多位嘉宾强调**“不要闭门造车”**——AI项目不应在数据孤岛或无支持环境下推进,而要融入公司整体的IT战略。

落地挑战3:模型与结果可信度

挑战:企业决策者和用户通常对AI系统的一个核心顾虑是:**结果可靠么?能解释么?**如果AI给出错误甚至荒谬的结果,会对业务造成损失;如果结果无法解释,监管和客户也难以接受。这导致许多AI项目卡在“信任鸿沟”上:技术上可行,但管理层不放心,不敢真正用。McKinsey报告指出,有不到一半的企业采取措施在管理AI带来的风险 (The state of AI in 2023: Generative AI’s breakout year | McKinsey)。而无论是生成式AI存在幻觉,还是机器学习模型的偏差,都可能引发信任危机。这个挑战在峰会上的另一种表述是:如何将AI从demo走向生产。demo阶段容忍出错、偶尔出彩就好,但生产系统要求高可靠、一致性、可追溯,这是AI模型本身的弱项。

最佳实践:首先,采用渐进增量部署。OpenAI团队分享道,他们经常建议客户先在低风险环境使用AI,比如内部辅助工具、A/B测试对照组 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。一旦验证够可靠,再逐步扩大应用范围。比如银行在客服场景引入AI,可能先让AI给人工坐席提供建议(不直接面向客户),待建议准确率高了,再放开让AI直接回答部分咨询。其次,人类反馈闭环不可少。Anthropic提到跨职能协作、评估框架等都是为了确保发现问题时能及时有人工介入 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。一种常用做法是设计Human-in-the-loop模式:AI先输出,由人工审核或接管关键决策点。Datadog的Agent遇到未知情况也会自动通知人工值守 (AI Engineer Summit: Agents at Work!)。长远看,这种人工反馈会进一步训练模型改进性能。再者,加强可解释性手段。虽然完全解释深度学习很难,但可以采用局部可解释方法和日志记录。BlackRock构建Aladdin Copilot时,就加入了每步Agent决策的日志和说明 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。很多NLP应用也使用提示词挖掘注意力可视化来让开发者审查模型关注点。若涉及决策性AI,则可以考虑使用规则-模型混合系统:将一些严肃约束交给规则系统,模型提供建议。例如信贷审批中,用模型评分+规则审核,保证不违反监管红线。Summit多位嘉宾也暗示,不应迷信模型“端到端”解决,必要时引入规则和人类判断是成熟表现。最后,沟通透明。当AI上线后,要向用户/业务方坦诚AI能力边界和错误处理机制。如果AI出错,能否快速fallback到人工?结果带置信度区间吗?这些都是要预先设计并告知的。只有用户清楚AI不是百分百正确,才会容忍偶发错误而不会全面否定。微软Tay聊天机器人事件(AI被用户诱导发表不当言论)就是经典教训:缺少安全机制和透明沟通导致公关灾难。因此,现在Responsible AI原则要求对用户披露AI身份可能局限 (5 Principles for Responsible AI | SS&C Blue Prism)。工程上可通过UI提示、用户培训等实现。总之,让企业客户和终端用户对AI建立信任,需要技术+流程双管齐下。既要提升模型本身的可靠度,也要在体系上提供兜底保障,并在心理上做好预期管理。峰会的经验表明,有了这些措施,哪怕AI还不完美,也能逐步赢得信任,被投入关键应用中。

落地挑战4:人才与团队能力

挑战:AI工程是新兴领域,各组织的人才储备可能跟不上项目需要。常见问题包括:现有开发团队缺乏AI背景,数据科学团队与工程团队配合不畅,或者公司没有合适的AI产品经理来桥梁技术和业务。与此同时,招募有经验的AI工程师竞争激烈、成本高昂。SignalFire分享的数据称,AI相关工程师薪资溢价显著 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。此外,AI技术更新快,对从业者的持续学习提出高要求。如果团队知识结构不能及时更新,就会陷入“本领恐慌”,从而拖慢AI项目进展。

最佳实践:对于人才缺口,短期可以通过外部合作培训同时进行。一方面,像OpenAI技术成功团队这样的外部支持或者咨询顾问,可以在项目初期提供帮助 (AI Engineer Summit: Agents at Work!)。许多SI(系统集成商)现在也扩展了AI咨询服务,企业可暂时借力。另一方面,应制定内部培养计划:选拔具备潜力和兴趣的现有工程师进行AI训练营或进修课程(Andrew Ng的DeepLearning.AI、微软等都有企业培训项目)。提升内部人员AI技能通常比招聘新人更可持续,因为内部人熟悉业务。正如Grace Isford指出的,LLM的广泛可用会使软件工程师大规模转型为AI工程师 (The Rise of the AI Engineer - Latent.Space)。企业应顺势而为,把部分IT人员转型培养成AI角色。此外,营造知识共享氛围很重要。Amplitude、Notion等公司建立了内部#ai讨论频道 (The Rise of the AI Engineer - Latent.Space) (The Rise of the AI Engineer - Latent.Space)并演化为正式团队。这给员工提供了互相学习、试验的空间。举办内部黑客松、读书会等也有助于激发创新。峰会上有嘉宾提到,他们每周组织paper club讨论最新AI论文,以跟进行业动态 (The 2025 AI Engineering Reading List - Latent.Space) (The 2025 AI Engineering Reading List - Latent.Space)。这些做法都可以被企业借鉴。团队合作方面,要尽早明确角色分工:谁负责模型开发、谁负责数据平台、谁做评估运维等。Arize的Aparna就建议高管在组建AI团队时,注意平衡技能组合,不要只招建模高手,也需要工程专家、系统专家 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。一个成功AI项目通常是多角色配合的成果。若内部难以协调,也可考虑成立独立AI部门,直辖于CTO或业务高层,以获得跨部门资源调度权(不少大企业如银行、电信正在这么做)。最后,对人才激励也需调整。AI工程师普遍期望开放的研究环境和快速试错文化。公司可提供一些资源允许他们参加会议(例如每年送几人参加AI Engineer Summit这样行业大会以开拓眼界),以及给予一定创新时间(Google 20%时间理念),让他们探索业务外的新AI点子。这些投入能带来更高的员工满意度和创新成果。总之,人是AI落地最核心的因素。正如Heath Black引用的数据那样,在AI人才争夺战中,策略得当的公司才能招到并留住顶尖人材 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)。企业应在组织架构、培训机制和文化上全面发力,使自己的团队具备迎接AI机遇的能力。

以上分析的挑战和对策可以汇总为下表:

挑战 表现 应对最佳实践
需求对接不精准 目标不清或偏离、选错应用场景,技术与业务脱节。 跨部门深度沟通对齐目标;从小处试点验证ROI;问题选择聚焦长期价值而非短期噱头 ([The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI
数据与基础设施不足 数据质量差、孤岛多;缺乏MLOps管道,部署困难或效率低下。 提前投入数据清洗整合及标注;利用AutoML/MLOps工具和云资源快速构建环境;基础设施团队与AI团队紧密协作调整现有架构 (AI Engineer Summit: Agents at Work!)。
模型结果不可信 模型易出错或不可解释,业务方/用户不敢用,难以大规模部署。 增加人类反馈和监督机制(HITL);引入规则约束关键决策;建立日志和解释模块 (AI Engineer Summit: Agents at Work!);小范围逐步上线以建立信心。
人才与技能缺口 缺乏复合型AI工程师,团队难以驾驭AI项目;招聘困难且成本高。 内部培养现有工程师的AI技能(培训、读书会);引入外部顾问短期支持;重组团队形成多技能配备;营造创新学习氛围吸引并留住人才 (AI Engineer Summit: Agents at Work!)。

表3:AI工程在企业落地的主要挑战及对应最佳实践

通过峰会上嘉宾分享的经验可见,尽管挑战多多,但并非无解。归根结底,成功案例和失败教训都在增加行业集体智慧。以往80%项目失败的现状正在改善,因为走过弯路的团队把他们的经验贡献出来,帮助后来者避开陷阱。正如AI Engineer Summit本身的宗旨——汇聚顶尖AI工程人才共同**“发现、讨论并解决硬问题”** (AI Engineer Summit: Agents at Work!)。在大会这种社区氛围的推动下,AI工程的最佳实践会不断被提炼和传播。

一个明显的趋势是,AI项目管理正在与传统IT项目接轨,但又有所强化。接轨之处在于,同样需要清晰需求、项目计划、质量保证,只不过AI部分需要更灵活迭代;强化之处在于,AI项目涉及更多不确定性因素,因此需要更频繁的评估和跨团队沟通,更关注数据环节和伦理风险。峰会上来自各领域的现身说法为企业提供了“他山之石”。如果能充分吸收这些经验,并根据自身情况灵活调整策略,那么跨越AI落地“最后一公里”将指日可待。就像Rand报告最后的建议:“学他人之经验,可少走弯路” (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND) (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND)。AI Engineer Summit恰恰提供了这样的学习机会,使整个行业朝着更高的成功率迈进。


未来展望:AI工程的演进方向及长期影响

透过AI Engineer Summit 2025的讨论,我们既看到了当前AI工程领域的蓬勃发展,也隐约感受到未来演进的脉络。展望未来若干年,AI工程有望在以下几个方向取得突破,并对行业生态产生深远影响:

1. AI工程师将成为主流岗位:正如Andrej Karpathy预测的那样,AI工程师数量将在未来几年呈爆炸式增长 (The Rise of the AI Engineer - Latent.Space) (The Rise of the AI Engineer - Latent.Space)。随着生成式AI工具的普及,越来越多传统软件工程师将掌握AI开发技能,转型为AI工程师或在原岗位上承担AI相关任务。例如,前端工程师可能需要调用LLM接口实现智能交互,数据工程师要维护特征库供模型训练。AI能力将像Web能力一样成为软件人的基础技能。这意味着,在组织结构上,AI工程师不再是小众专家,而会融入各产品团队。团队内部会出现“AI使能者”角色,每个项目组都有人懂得把AI用起来。企业也会更重视AI技能培训,使全员具备一定AI素养。长期看,AI工程师可能不再是单独头衔,而是每个工程师职能中默认包含的部分。正如Summit站点引用的话:“通过打造好工具,AI工程师能像使用普通软件一样使用机器学习” (AI Engineer Summit: Agents at Work!)——当工具到位时,大批软件人即可变身AI工程师。社会层面,这将催生庞大的AI工程教育需求,从高校课程到在线训练营,培养AI工程复合型人才。同时,由于AI工程师在提升生产力方面效果显著,他们的行业地位和薪酬也可能继续走高。在场嘉宾SignalFire提供的数据就显示,顶尖AI工程人才的竞争非常激烈 (AI Engineer Summit: Agents at Work!)。未来几年,这种供不应求局面或稍缓解但不会消失,因为需求增速实在太快。企业若想在AI时代立于不败,就必须投入资源打造大规模的AI工程队伍。

2. 工具链与标准加速成熟:大会展示的各类新工具(MCP、PromptQL、评测框架等)预示着AI工程将更标准化、自动化。可以想见,不远的将来会出现类似“AI工程师工作台”的综合平台,集合数据准备、Prompt编排、模型调优、代理部署、监控反馈等一站式功能。正如DevOps有Jenkins、Docker等工具集成,MLOps有Kubeflow、Airflow一样,AI工程Ops工具链也会形成。例如,或许会有专门的AgentOps平台,让开发者像编排微服务一样编排多个Agent协作,并内置版本管理和A/B测试。标准方面,MCP若被广泛采用,将有助于不同AI产品间互操作。互操作性将是关键:未来AI应用不会孤立,每个用户可能有多个AI助手协同(工作助理、生活助理等),企业内部亦是多个AI系统并行(客服AI、推荐AI等)。标准协议让它们能交换信息、共同完成任务,为AI编排打下基础。想象一下,一个用户发出复杂请求,工作助理AI调动公司内知识库Agent处理专业部分,私人助理AI提供个人日程信息,两者配合给出综合回答——只有协议统一才能做到。Summit让我们看到这方向的萌芽。还有,开源生态会继续繁荣并影响标准。例如Facebook的LLaMA模型开源引发小模型井喷,那么类似的行业开源协作也可能出现在工具层面(社区推动统一评测基准,开放Agent组件库等)。由此推断,未来AI工程将更像搭积木,抽象封装好的模块越来越多,工程师可以专注业务逻辑而非从零做底层架构。这会极大降低AI应用开发门槛,进一步加速AI融入各行业。

3. 人工智能与人类协作模式深化:几乎所有峰会嘉宾都认同一个理念:AI不是来取代人,而是增强人。未来的AI工程成果会使人人都有“AI拍档”。办公场景下,每个知识工作者都配备AI助手协助写方案、做分析;工业场景,每位技工都有AR眼镜里的AI提示下一步操作;创意场景,设计师有AI生成初稿供灵感激发……这种人机共创(co-creation)模式将极大提高效率和创新性。Karina Nguyen在演讲中描绘的愿景即是AI从工具变成协作者 (AI Engineer Summit: Agents at Work!)。这对行业的长期影响是,工作流程重塑。许多岗位的工作方式会改变,重复事务将更多交给AI,人类专注更高层决策或情感交互部分。McKinsey调查也显示,管理者预期因为AI会调整人员配置和进行大规模技能再培训 (The state of AI in 2023: Generative AI’s breakout year | McKinsey)。AI工程师在其中扮演打造“AI同事”的角色,要确保AI既强大又听话,好协助人类。这样的转变也许在短期内引发对就业的担忧,但历史经验表明新技术最终会创造更多新职业。Summit上Stefania Druga谈到当代孩子将拥有AI伙伴的成长经历 (Dispatch from the AI Engineer Summit Day 2: More agent definitions, sidestepping model costs, and dialing agents)。可以预料,当这代人步入职场,人机协作对他们来说如鱼得水,生产力将前所未有地释放。因此,从长远看,AI工程对社会经济的影响将类似工业革命后的机器普及,人类劳动方式质变,效率跃升,催生新产业新市场。例如,AI内容生产的降低成本可能彻底改变娱乐传媒业态;AI客服和AI顾问的普及将改变服务行业的规模和模式。身处其中的AI工程师将见证并推动这一系列变革,同时也需要承担管理AI社会影响的责任,确保技术造福而非伤害。

4. 更通用、更智能的AI系统出现:技术本身的发展方向也不容忽视。未来几年,大模型将继续进化,可能出现具备更强推理和自主学习能力的AI。OpenAI、DeepMind等都在研发更通用的智能体。Summit上也有讨论说当前Agent缺自主性,但不代表以后不会突破 (Dispatch from the AI Engineer Summit Day 2: More agent definitions, sidestepping model costs, and dialing agents)。或许在2030年前后,我们会拥有能够执行长程复杂任务且懂得自我纠错学习的高度智能Agent。那将真正像虚拟员工一样可靠。这对AI工程的意义在于,系统设计范式可能改变。如果AI足够智能,工程师不再需要手把手教每一步(PromptQL这类工具可能反而没那么必要),而是给定高层目标由AI自策划步骤。AI工程师的工作届时可能转为更多监督者和治理者角色:设定AI边界、确保安全伦理,而不干预具体实现。这类似管理一个极其聪明但古怪的员工,需要提供框架而非微观指导。从技术视角,自监督和持续学习体系将更完善,AI能在线适应环境新变化,不用频繁人工干预。Summit透露的Stateful Agent趋势正是朝这方向努力 (AI Engineer Summit: Agents at Work!)。当然,实现通用智能(AGI)尚有不确定性,但可以预见逐步逼近。在这个过程中,AI工程师要不断更新自己的技能树,从掌握新模型API到理解新智能体的行为调控,终身学习是必然要求。不过,也正因为AI越来越强,对工程师个人的依赖程度会降低——正如计算器的出现降低了心算的重要性一样。届时,AI工程的重点将不再是技术攻关,而是社会融合。也就是确保AI系统符合伦理法规,融入各领域时造福而非扰乱。我们已经看到苗头:各国政府积极制定AI法规,各企业设立伦理委员会。这方面AI工程师需要参与,例如贡献技术见解给政策制定,或研发合规检测工具。

5. AI对行业结构的重塑:长期影响上,AI工程大规模应用将重塑许多行业结构。举例来说,在医疗行业,如果临床诊断AI成熟,将极大缓解医生资源紧张并降低误诊率,医疗服务模式会变为人机协同问诊、AI辅助分析、医生决策的流程,医院IT部门将需要大量AI工程师来维护训练医疗AI模型 (Responsible AI: Our 2024 report and ongoing work)。又如在软件行业,AI辅助编程可能使中低复杂度的软件外包需求减少,因为自动化工具就能完成大部分编码工作,而人力更多投入定制化、高端开发,这会改变外包产业格局,推动软件企业转型。再如金融领域,算法交易和风控AI会让市场运行更高效但也更瞬息万变,金融机构将更依赖技术优势而非传统人海战术。可以预见,每个行业的领先者都将是善用AI者,落后者可能被淘汰或被迫转型。AI工程师将在各行各业都扮演关键角色,不再集中于科技公司。甚至在农业、制造这些看似传统的领域,AI工程也有用武之地(农业AI监测土壤、制造AI优化流程)。因此行业边界会更加模糊,科技与传统行业深度融合,所有大公司都部分变成科技公司。这个趋势已经开始,例如沃尔玛这样的零售巨头也建立了AI研发中心。对于整个经济,这意味着生产率提升新增长点。国际机构预测AI将对全球GDP有显著贡献,麦肯锡曾估算2030年前AI每年带来13万亿美元增值。Summit上的乐观论调也支持这一点——Grace Isford就强调AI前沿突破将带来新机会 (AI Engineer Summit: Agents at Work!)。当然,变化也伴生阵痛,需要社会政策来缓冲就业结构调整、收入分配等问题。然而,从历史看,每次技术革命最终都推动了社会进步和繁荣,AI大概率也将如此。AI工程作为驱动革命的引擎之一,其重要性不言而喻。

最后,用Summit开场的一句话来总结未来:“无论使用何种模型,这只占最终成功的20-30%,剩下70-80%在于你构建的系统” (Dispatch from the AI Engineer Summit Day 2: More agent definitions, sidestepping model costs, and dialing agents) (Dispatch from the AI Engineer Summit Day 2: More agent definitions, sidestepping model costs, and dialing agents)。这句话蕴含两层含义:其一,再强大的AI技术也要有完善的工程体系支撑才能释放价值;其二,人的作用依然举足轻重,系统怎么建由人决定。这提醒我们,对未来的AI发展的憧憬要建立在理性工程管理之上。AI工程的未来,不仅是技术突破的未来,更是人类智慧与机器智能协奏的未来。在可以预见的时间里,AI不会取代工程师,反而会赋能工程师去创造更美好的世界。取代那些枯燥工作的可能正是AI,但工程师将因为有AI助手而变得更加强大。Summit上各位领袖的观点与案例,让我们有理由相信这一点:AI工程将持续引领创新,而我们正站在一个新时代的起点。展望前路,充满挑战但更充满机遇。只要坚守以人为本、负责任创新的原则,AI工程注定会在未来岁月中留下浓墨重彩的一笔,为整个行业乃至整个人类社会带来深远而积极的影响。


参考资料:

  1. AI Engineer Summit 2025 官网 – Program Overview 等页面 (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!) (AI Engineer Summit: Agents at Work!)
  2. Steampunk AI 博客 – AI Engineer Summit Day 1 & Day 2 dispatch(会场报道) (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context) (Dispatch from the AI Engineer Summit Day 2: More agent definitions, sidestepping model costs, and dialing agents)
  3. Latent Space 博客 – The Rise of the AI Engineer (The Rise of the AI Engineer - Latent.Space) (The Rise of the AI Engineer - Latent.Space)
  4. Latent Space 博客 – The 2025 AI Engineer Reading List (The 2025 AI Engineering Reading List - Latent.Space) (The 2025 AI Engineering Reading List - Latent.Space)
  5. Rand Corporation – AI项目失败根源研究报告 (2024) (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND) (The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI | RAND)
  6. McKinsey – The state of AI in 2023 调查报告 (The state of AI in 2023: Generative AI’s breakout year | McKinsey) (The state of AI in 2023: Generative AI’s breakout year | McKinsey)
  7. Gartner via Forbes – 85% AI项目失败数据 (Council Post: Why 85% Of Your AI Models May Fail - Forbes)
  8. Atlassian – Responsible AI Key Principles (5 Principles for Responsible AI | SS&C Blue Prism)
  9. OpenAI Blog – Model Context Protocol介绍 (Introducing the Model Context Protocol - Anthropic) (Anthropic Publishes Model Context Protocol Specification for LLM …)
  10. 会议演讲摘录 – Datadog (AI Engineer Summit: Agents at Work!)、OpenAI (AI Engineer Summit: Agents at Work!)、LinkedIn (AI Engineer Summit: Agents at Work!)、Anthropic (Dispatch from the AI Engineer Summit Day 1: Small errors, self-replication, and context)等。

最后修改于 2025-02-26