广东会科学论坛(156)|清华大学电子工程系博士后于超作报告
2025/09/01
【时间】2025年9月4日(星期四)10:30
【地点】广东会院526报告厅
【主持】胡孟军副研究员 广东会操作系统软件研发团队
【题目】强化学习驱动的决策智能
【摘要】如何让智能体像人类一样,甚至是超越人类进行复杂决策并与世界交互,是通用人工智能的核心目标之一。随着模仿学习路线逐渐触碰到scaling-law的数据和算力极限,强化学习成为进一步提高智能决策水平的重要手段。本报告分享团队在数字世界和物理世界中开展的系列决策智能体研究。在数字世界中,聚焦多智能体和人机交互两个方向,在一系列专用和通用任务上开展算法研究,研究涉及合作、对抗和混合多种博弈场景。在物理世界中,开展具身智能相关研究,聚焦于如何用强化学习来提升视觉-语言-动作大模型(VLA)中动作专家在精细操作任务中的的效率和性能。同时,团队还面向四旋翼无人机这一高速敏捷飞行平台开展了系列研究。从平台、决策算法和sim2real部署三个层面解决了高精度控制、打排球等传统决策难以解决的问题。
【报告人简介】于超,博士毕业于清华大学电子工程系,导师为电子工程系汪玉教授。研究方向为决策智能,最近的研究集中于大模型驱动的博弈智能体、具身智能、大规模强化学习训练系统、无人机集群决策等。迄今为止,以一作/通讯作者身份在高水平国际会议和期刊发表论文40余篇。累计谷歌学术引用4000余次,以第一作者身份在NeurIPS 2022发表的论文多智能体强化学习算法MAPPO,目前谷歌学术引用2k余次。曾获得清华大学优秀博士毕业生,清华大学优秀博士论文,清华大学优秀硕士论文,2024年度中国智能体与多智能体系统优秀博士论文提名奖,国家奖学金等荣誉。博后入选清华大学“水木学者”计划,电子系“传信未来学者”计划;获得张克潜冠名博后资助、博后国资计划;主持国家自然科学基金青年项目、博士后基金特别资助项目和博士后基金面上项目。
English
OA
Email
 
				