绿洲:我们看到您的研究方向是博弈论与 AI 的结合,能给我们介绍一下目前最新的研究么?这波 AI 革命对您研究领域是否有启发或者助力呢?
方教授:我目前的研究基本围绕多智能体交互(Multi-agent Interaction)展开,具体有三个分支:
第一是计算博弈论。我们的研究考虑多智能体之间的博弈,比如计算均衡策略;学习智能体在博弈过程中的反推,学习多智能体之间未知的内容,比如每个智能体的效用函数。
第二是多智能体学习(Multi-agent Learning)。包括多智能体强化学习,以及如何提升多智能体强化学习的效率和提升策略的可解释性的工作。
第三是 AI 助益(AI for Social Good)。主要解决的是多个决策者之间互动协作的问题。比如动物保护,食品安全和交通相关的工作。
这三个方向都属于 AI,包括博弈论和 AI 的结合。可能很多人觉得博弈论并非是 AI 的一部分,但实际整个多智能体系统都算是 AI 的一部分,只是 CV 和自然语言处理更为大众所熟知。计算博弈论的顶会有 AAAI,IJCAI,AAMAS,还有一些工作会投 EC。
计算博弈论与 CV 或者 NLP 这类普遍认为的 AI 结合,其实很常见。LLM 起来后基于文本的游戏,就是博弈。例如这两年有个关于外交游戏的论文(https://www.science.org/doi/10.1126/science.ade9097),结合强化学习和自然语言处理做的外交游戏,依靠语言策略,在国与国之间实现合纵连横。其中有很多自然语言的交互,多智能体、多决策者之间的博弈游戏,是受到大模型影响出现的新工作。
绿洲:最近比较火的斯坦福的 Smallville 的论文,如果假设 25 个人是 25 个国家,他们之间的谈判是否涉及博弈论才能升级运作起来?
方教授:他们会自然有一些博弈。实际求解的时候,我们在方法开发上未必需要直接算纳什均衡。在一个小镇里,只要模拟每一个智能体就可以了。在简单的情况下,只需要让每个智能体作为一个学习智能体,因为它们各自的学习以及效用函数不一样,自然而然会产生策略性互动。比如我设计一个学习智能体,这个智能体的观测空间里涉及了其他智能体的位置、身份、当前状态等等,出现利益冲突时,就会产生策略行为,不需要直接地去建模成博弈算均衡。
算法设计只是去设计每个智能体怎么学,怎么去更新自己的策略。但我们去分析的时候要问如果每个人都用这样的学法,最后能不能收敛到均衡?这是我们在多智能体学习研究中常做的工作。
绿洲:就多智能体而言,强化学习真正能落地的场景在哪里呢?游戏么?
方教授:举例而言,斗地主,你会上 AI 托管。问题在于如果用多智能体强化学习,AI 能力就会很强,但并非所有的游戏都需要一个强托管 AI 或者强 NPC。我们有些时候倾向于将智能体做得更“类人”,而非必胜。类似这方面的工作我们也在做,可以认为是落地的一种方式。
最有可能直接在实际场景落地中的,我了解的可能是为在线广告竞标做机制设计和一些交通相关的场景共享出行平台派单,滴滴有个工作就是用多智能体学习进行派单。
绿洲:看来多智能体需要寻找均衡的情况下,就需要您的研究了。这和基于 Transformer 的模型,Diffusion 的文生图之间存在矛盾么?
方教授:我们的领域里也有很多基于 Transformer 的模型在做博弈论、机制设计或者多智能体学习的。用法挺不一样。邓小铁老师组里做过基于 Transformer 的机制设计,比如很多人来竞价,东西分配给谁?收多少钱?
大家可能听说过 Decision Transformer,用 Transformer 模型做 offline 强化学习。
还有前面提到的外交游戏论文,其中也用很多 LLM 嵌入文本数据。智能体之间商量策略用的都是自然语言,所以要用 LLM 学习这部分的模型。
绿洲:这里的 offline 是指什么?
方教授:指之前智能体与环境互动时收集的数据,只用以前的数据,不再产生新的和环境互动的数据。
绿洲:您觉得多智能体学习研究的下一个突破点在哪里呢?
方教授:上一个我觉得是外交策略的论文,下一个就很难预测,大家关注的方向不同。譬如我们关注的是可解释性。我们之前就发现实际问题中还是需要可解释能力的。譬如 AI 助益和 NGO 合作,对方没有计算机科学专业背景,又要对方落地,就必须充分解释我们的工作有什么问题,怎么做,做完之后有什么影响。
我们想用多智能体强化学习去解决实际问题。譬如交通中有安全问题,就需要可解释性。我们组暂时还没用到大模型,但我知道有其他组在用大模型来做可解释性的相关工作。
绿洲:您做社会公益的契机是什么?落地的情况如何呢?
方教授:这是个很有意思的问题。一开始读博的时候我做的是安全博弈论,我们的工作就用博弈论设计轮渡巡逻路线。工作发表之后,我参加了一些会议,吸引了其他领域的人。在交流过程中,我们发现轮渡巡逻路线的设计似乎和森林里的巡逻很类似,都是设计巡护路线,都需要人走,设计的目标是最大化保护轮渡,或者在森林里最大化减少盗猎,减少非法采伐。
我们一开始想法特别简单:既然问题一样,把老算法部署到新问题上就好了。做完发现,不同领域中存在的挑战截然不同,无法直接套用。之后我们就开始和动物保护组织合作,不断修改算法,实现落地。目前有好几个国家的保护区和国家公园都在用我们的算法。这就是我进入社会公益领域的契机。
在这个过程中,我发现建立联系,建立信任相当不容易。大约花了两三年的时间,对方才愿意尝试运用你的算法。因为和动物保护组织建立了联系,我们就一直思考如何利用 AI 为他们提供更多支持。最近两年,我们的工作是每周自动收集和整理环境保护新闻。印度 WWF (世界自然基金会)新闻采集的工作原本是两个全职实习生做的,现在用 AI 代替了,实习生可以空出时间做更高级的分析和整理工作。目前这个研究成果已经成功整合到印度和泥泊尔的系统中去了。
如果要做出特别完美的方案,可能还需要一个软件工程师的团队,学校没有足够的人力资源。我们食品救助合作的平台本身配有软件工程师。我们派去的学生只要到对方后台直接改代码,用了半年左右,就把算法整合到对方系统中去了。对方软件工程师只要和我们保持定期沟通,就可以完成后续维护。
大家可能觉得居然需要半年,速度很慢啊。社会公益的落地和商业应用落地相比,就是会慢很多。和商业化软件的方案相比,我们的落地也显得很简陋(笑)。
绿洲:有没有一些更贴近普通大众的应用呢?
方教授:我们重点关注的是为服务不足的社区提供应用。轮渡安全问题实际对大众是有影响的,只是大家没有直观感受。我认为未来更多涉及到每个人的生活工作的落地,可能是交通和在线广告竞价,这些都需要多智能体学习和博弈论的工作。
我们出过一篇论文,关于共享出行平台的竞价策略。我们去建模,怎样的定价策略才能使所有司机都愿意接受平台派单,接受派单就是纳什均衡。我们提出了时空定价 (Spatio-Temporal Pricing):指需要根据时间地点做定价,而不是只看供需缺口。
我们的定价机制很美丽,可以均衡,但实际落地还是不同。从研究的角度,我们关心的是使所有人都愿意遵从定价策略,都愿意接受派单。我们也受邀去 Lyft 和 Uber 讲解背后的原理,公司方面不会先求解均衡再去部署定价,还存在其他考虑,最后的结果是将我们的研究融合到他们自己的方法中去,而不是直接使用。
我们也想做一些可以直接使用的为交通服务的多智能体学习,很有挑战性。交通层面的落地还牵涉合规、隐私和安全等诸多方面的高要求。我们在努力同步推进方法和落地合作。
绿洲:未来如果 Robotaxi 普及,你们在交通方向的研究是否就可以直接应用去调度 Robotaxi 了?
方教授:这中间需要考虑的是一个公司控制所有的 Robotaxi,还是多个公司分别控制。如果是一个公司,因为有控制中心,原本是单一智能体的问题,但由于很难优化,可能需要拆分成多智能体帮助求解。这种情况下对博弈论的需求不大,更多还是依靠多智能体学习。
如果是多个公司的车在运行,公司之间还有竞争,那就要考虑几大公司之间存在的博弈。公司需要上更多的车?还是改进算法?还是让车辆和交通灯的协调性提升,使得车辆卖得更好,车主享受更多便利?这些都是博弈论。
绿洲:和 Uber、Lyft 的合作结果也反映出研究和商业落地之间还存在距离,研究结果即使很完美,商业落地也未必是完美解,对么?
方教授:是的。我们在做 AI 助益的落地过程中,也深深体会到各种错综复杂。只要有落地,就一定会存在距离。举个例子,AI 会议需要指派论文审稿人,审稿人的委派就用了我们的算法。我们考虑的只有两点:一是大会论文的总体质量,二是随机性。我们关注的是“随机委派”,加了随机性之后,可以降低审稿人利用制度漏洞让论文中选的可能性。但实际部署的时候,发现主办方考虑的问题远远超出这个范围,譬如审稿人所属地域的多元性,同一篇论文的审稿人资历背景需要均衡。最后的结果是,主办方将我们的算法融合到他们的限制条件中,做出一个整体的算法。
绿洲:您怎么去发现社会公益上的痛点和问题呢?
方教授:动物保护是由轮渡路线规划为契机的。食品救助是机缘巧合遇到了匹斯堡平台的 CEO,自己也做了几次志愿者,就发现有改进的空间。对于新的方向,我们找问题的渠道就是去观察社会问题,比如流浪群体,我们会去查找是否有 NGO 甚至政府部门做相关工作,然后去探讨 AI 是否能与现有工作相结合并起到帮助。
绿洲:AI 助益和 AI 价值观对齐的工作有相关性么?
方教授:有相关。譬如食品救助方面涉及平台和志愿者,涉及到人,就会有需要协调,每个人的想法不同,需求推送多了,有人嫌烦,推送少了,有人觉得自己不受重视。我们现在能做的是直接把所有可以找到的东西都当作特征,扔进机器学习,训练模型,譬如这个志愿者之前完成过多少次任务,在平台上待了多久。更进一步个性化的设计我们暂时还没启动。
绿洲:能具体介绍一下野生动物保护方面的工作是怎么做的么?
方教授:一是设计巡护员的巡护路线。各地情况不同,比如中国东北省林业局的工作人员带领团队作保护区巡逻,这种情况下,动物保护组织 WWF 相当于和林业局合作,提供我们用 AI 做出的盗猎风险预测图和建议巡逻路线,让林业局参考执行。另一部分是给管理人员,比如动物保护和环境保护做新闻搜集整理。为什么要做?举例来说,新闻搜索到某个地方要建设大坝,可能对当地生态造成很大影响,WWF 的人员就会根据我们提供的信息,去看是否需要和当地政府或者承建单位游说沟通,说服对方做好环境评估,去做更全面的环保。
绿洲:除了 WWF 中国办公室,您的工作目前还和其他国内的组织有合作么?
方教授:暂时还没有,如果今天和绿洲的对话可以帮助我们找到更多的合作者,我们也很想去看看有哪些工作可以开展。
绿洲:为什么和公益组织、 NGO 等合作时,会需要甚至两三年的时间去建立信任呢?
方教授:因为双方的关注点不同,光签署数据共享协议就可能耗费半年的时间。和公司不同,如果我的算法是用来赚钱的,公司就有很强的动力去推进度。公益组织想要新闻信息么?想。但是他们有太多工作优先于新闻采集整理,与我们的合作就会向后推。进度慢,沟通频次减少,加上人员流动,磨合期就会拉得很长。从接触 NGO 开始到落地,花上两三年是很正常的。
绿洲:在没有商业利益驱动,需求优先级也不高的情况下,是什么长期驱动您坚持在这条道路上走下去呢?
方教授:目前匹斯堡的食物救助平台,后台用的就是我们的算法,在平台和志愿者之间做协调,直接影响几千、几万个志愿者,间接影响食品的救助分发。我们的论文里有具体的数据,说明这个平台服务了多少志愿者和社区,每年有多少吨食物的运送,这些都是我们的算法在背后助力。这项工作能够落地,产生影响,就是我们成就感和驱动力的来源。
绿洲:的确您的研究相对 NLP、CV 而言,更特殊一些。
方教授:看我们每年投的论文就比这两个领域的要少很多(笑)。其实多智能体学习部分的论文其实还蛮多的。
绿洲:就如同 Transformer 出现之后打开了大家的思路,LLM 的出现也实现了某些突破。因此短时间内论文也高产了?
方教授:对。我们最开始做这个方向,就是因为 2015 年深度强化学习火了。大家都开始思考,能否将深度强化学习用在多智能体上。多智能体学习方向的论文是受到了单智能体的深度强化学习算法推动的,比如 PPO(强化学习近端策略优化)到处都在用。吴翼老师组把 PPO 扩展到多智能体的 MAPPO(多智能体近端策略优化)就很好用,求解很多以前需要复杂博弈论才能解答的博弈。
绿洲:您的研究方向和 NLP 方向相比,受到 LLM 和工业界的冲击是不是相对比较小?
方教授:的确。博弈论和 AI 助益没有受到什么冲击,还能利用 LLM 让更多公益类的应用落地,我们可以做的内容反而更多了。
多智能体学习多少都和工业界处于竞争,工业界的资源又比较多,所以学术界相对处于弱势。
可解释性的研究还好一点,因为需要的不是资源,而是和人类的解释,如何让大家搞明白,让大家接受。
绿洲:国内一提到强化学习,就不免提到具身智能。和您聊到现在,都没有提到这点。是因为多智能体学习和机器人相关性不高么?还是有其他的原因?
方教授:相关性是有的。但我们组暂时没有做那么复杂的具身机器人交互,因为很难,也还没有特别需要的应用。比如仓库管理,涉及多智能体的问题,可能只是去解决机器人路线冲突的部分,本质也就是交通问题,不涉及具身智能。单一智能体和人交互已经很困难,有协同问题就更困难。还要把多智能体的每一个智能体都做成所有地方都能动的机器人,这当中的挑战无疑是巨大的。
顺带一说,解决多机器人路线冲突的问题,是“多智能体路线查找”问题,截至目前强化学习的部分还没有做到非强化学习的传统方法的高度。
绿洲:所以可以说传统方法在工业界落地反而更优?既然如此,在强化学习方向继续努力的原因是什么呢?
方教授:小规模场景传统方法效果很好,但是大场景用传统方法可能就失效了,需要寻求可以突破局限的新方法。同时新的学习方法可能取得突破,超越传统方法。从研究的角度来说,还是需要不断探索边界。
绿洲:国内学术界普遍对买卡的问题比较头痛,您的研究工作对算力的需求大么?
方教授:纯计算博弈论需要计算量,但不需要那么多 A100。我们的工作更多是通过设计算法提升计算效率,而不是依靠多卡。我们有一些工作是研究用什么方式去学习每个智能体的效用函数,也是侧重方法,而非计算量。我们组只有 5 块卡,可以支撑计算博弈论方面的工作,但是做多智能体学习就比较紧张。不同的研究方向需要的资源不同。AI 助益中越来越多应用涉及文本数据,也需要计算,可以用到 LLM。
我们研究工作部署的实际应用,很多是和 NGO 合作,比如食品安全、食品救助的平台,不可能有那么多卡,不能要求对方提供资源。因此如果有计算量的要求,我们就要负责做好,然后做轻巧的部署。
