Salesforce首席科学家Silvio Savarese提出了AI agents的一个新名词LAM(Large Action Models),对应着LLM。 岔个题外话,Silvio Savarese的另一个身份更为中国朋友所知,他是李飞飞的老公。

  • Savarese认为最近几个月正在出现一种强大的新趋势,LLM正在被增强为“Agents”(我翻译为智能体),它是一种可以独立执行任务的软件实体,最终可以为目标服务,而不是仅供人类作查询使用;
  • 这是将LLM与独立完成任务、决策做结合,AIGC正在从一个被动的工具变成为一个实时的可主动完成工作的伙伴;
  • Savarese称之为LAM,正如LLM使得文本的生成变得自动化,LAM很快将使得整个过程自动化成为可能,因为LAM拥有流利的语言系统,可以与世界、人类做更智能的互动,甚至还可以与其他LAM互动;
  • LAM应专注于从事重复性任务和其他繁忙的工作,让人类从他们不想从事的工作中解脱出来;
  • Savarese举了很多的例子,LAM如何分解任务,并自动化完成工作,描述的蓝图很美好,感兴趣的可以自己去看,这里不再赘述;
  • 构造LAM的核心挑战在于:世界在不变变化,任何与之互动的智能体都必须足够灵活,可以不断适应环境;
  • LAM跟人类的交互也非常重要,过于频繁的提醒会令人反感,如果提醒过少,又会增加风险,例如LAM把你一封重要邮件删除了但是没有告诉你;
  • 要使得LAM的行为恰当,需要让LAM多与人类一起工作,通过人类的反馈来完善他们的行为,LAM的工作不仅是将目标转化为一系列步骤,而是理解步骤之间的逻辑、连接关系,并指导该在什么时候改变计划以适应环境的变化;
  • LAM的一致性也是大问题,LLM的输出结果都不稳定,并不能完全采信,LAM无疑是更大的挑战,Savarese认为人类不能做甩手掌柜,必须在loop中,要将其视为一种工具,一种人类可以控制的工具(编注:有没有那么点像L2+ 自动驾驶);
  • LAM拥有极大潜力,可以将生产力带入一个新的时代,Salesforce是追求这一愿景的最好地方。 文章内容介绍完毕,简单说下我的想法。 最近,Andrej Karpathy在一场AI Agents线下黑客马拉松活动上说,在OpenAI内部如果看到了大语言模型的论文,基本上都属于他们玩剩下的,但是看到新的AI Agents论文会非常兴奋。 LLM只是第一步,国外这帮极客们在非常积极地给LLM配上规划、思考、反思的能力,让LLM变得像一个可以自动执行任务的数字实体,然后发展成为AGI。 一定程度上,OpenAI为代表的这些公司是在通往数字Agents的道路上越走越远,如果非要类比的话,自动驾驶也相当于一个Agents,只是这个Agents是物理的,上述AI Agents的某些能力和自动驾驶的模块还是挺像的,要预测、要决策、还要与人、与世界交互。 最后再说句唠叨话:不要再片面的看LLM或者AIGC,还是要认识到接下来的核心在于更多的自动化,更多的替代人类能力。 在AGI实现之前,大家要珍惜现在的“人机共驾”时刻,AI不会一直坐在你的副驾驶的,它迟早要自己开。