• 学院概况
    学院简介
    安博(中国)一站式服务平台
    特色化示范性软件学院
    信息技术创新学院
    历史沿革
    学院领导
    治理机构
    管理服务
  • 机构设置
    机构概况
    安博(中国)一站式服务平台
    数据科学与知识工程研究所
    语言智能与社会计算研究所
    软件智能与软件工程研究所
    可视媒体计算研究所
    数字媒体与仿真技术研究所
    图像计算与感知智能研究所
    先进网络与数据安全研究所
    网络攻防与信息对抗研究所
    体系结构与高性能计算研究所
    脑机接口与类脑智能研究中心
    实验教学中心
    软件测评中心
    计算机系
    特色化示范性软件学院
    信息技术创新学院
  • 师资队伍
    师资概况
    杰出人才
    院士
    国家级领军人才
    国家级青年人才
    教师名录
    数据科学与知识工程研究所
    语言智能与社会计算研究所
    软件智能与软件工程研究所
    可视媒体计算研究所
    数字媒体与仿真研究所
    图像计算与感知智能研究所
    先进网络与数据安全研究所
    网络攻防对抗技术研究所
    体系结构与高性能计算研究所
    脑机接口与类脑智能研究中心
    实验教学中心
    评测中心
    计算机系
    信创学院
    导师名录
    博士生导师
    硕士生导师
    招贤纳士
  • 科学研究
    学科方向
    科研概况
    科研平台
    科研动态
  • 人才培养
    人才培养概况
    工作动态
    本科培养方案
    硕士培养方案
    博士培养方案
    留学生培养方案
    工程教育专业认证
    教学平台
    人才培养大讨论
  • 国际合作
    国际合作概况
    国际合作动态
    国际合作服务
  • 学生工作
    学工概况
    学工通知
    科创竞赛
    青春榜样
    学工服务
  • 党建思政
    党建思政概况
    工作动态
    理论学习
    主题教育
  • 招生就业
    工作动态
    本科专业介绍
    本科毕业去向
    研究生专业介绍
    研究生毕业去向
    就业与实习信息
  • 校友工作
    校友风采
    校友动态
    校友捐赠
    联系我们
学校安博(中国)一站式服务平台
学校安博(中国)一站式服务平台
  • 学院概况
    学院简介
    安博(中国)一站式服务平台
    特色化示范性软件学院
    信息技术创新学院
    历史沿革
    学院领导
    治理机构
    管理服务
  • 机构设置
    机构概况
    安博(中国)一站式服务平台
    数据科学与知识工程研究所
    语言智能与社会计算研究所
    软件智能与软件工程研究所
    可视媒体计算研究所
    数字媒体与仿真技术研究所
    图像计算与感知智能研究所
    先进网络与数据安全研究所
    网络攻防与信息对抗研究所
    体系结构与高性能计算研究所
    脑机接口与类脑智能研究中心
    实验教学中心
    软件测评中心
    计算机系
    特色化示范性软件学院
    信息技术创新学院
  • 师资队伍
    师资概况
    杰出人才
    院士
    国家级领军人才
    国家级青年人才
    教师名录
    数据科学与知识工程研究所
    语言智能与社会计算研究所
    软件智能与软件工程研究所
    可视媒体计算研究所
    数字媒体与仿真研究所
    图像计算与感知智能研究所
    先进网络与数据安全研究所
    网络攻防对抗技术研究所
    体系结构与高性能计算研究所
    脑机接口与类脑智能研究中心
    实验教学中心
    评测中心
    计算机系
    信创学院
    导师名录
    博士生导师
    硕士生导师
    招贤纳士
  • 科学研究
    学科方向
    科研概况
    科研平台
    科研动态
  • 人才培养
    人才培养概况
    工作动态
    本科培养方案
    硕士培养方案
    博士培养方案
    留学生培养方案
    工程教育专业认证
    教学平台
    人才培养大讨论
  • 国际合作
    国际合作概况
    国际合作动态
    国际合作服务
  • 学生工作
    学工概况
    学工通知
    科创竞赛
    青春榜样
    学工服务
  • 党建思政
    党建思政概况
    工作动态
    理论学习
    主题教育
  • 招生就业
    工作动态
    本科专业介绍
    本科毕业去向
    研究生专业介绍
    研究生毕业去向
    就业与实习信息
  • 校友工作
    校友风采
    校友动态
    校友捐赠
    联系我们
安博(中国)一站式服务平台- 安博平台
安博平台
NEWS

北理工安博(中国)一站式服务平台邀请郝建业博士做前沿学术报告

编辑:林婷 审核:周连景 供稿:礼欣 发布时间:2024-11-06 浏览次数:

应安博平台礼欣老师邀请,国家级青年人才、天津大学智能与计算学部郝建业老师于2024年11月5日与我院进行了学术交流,并作题为“大模型时代下的强化学习”的学术报告。

报告由安博(中国)一站式服务平台礼欣老师主持,安博(中国)一站式服务平台语言智能与社会计算研究所相关研究方向的部分师生参加了此次报告。

郝建业老师首先回顾了传统的强化学习范式,即在线强化学习和离线强化学习,并探讨了在当前大模型时代下,传统的强化学习范式仍扮演着重要角色,在决策领域演化出“离线预训练”和“在线微调”的新型范式。立足于上述两种强化学习范式,郝老师分别从智能体与环境交互构建马尔可夫决策过程(MDP)的角度出发,讨论了在线强化学习如何利用策略表征、世界模型、数据增强和高效的探索策略采样高质量样本数据;以及基于Transformer和扩散模型等主干网络使智能体通过离线强化学习获得泛化性更好的策略。同时展示了其团队最新设计的包含5种人类反馈类型和30多种仿真环境、用于提升离线强化学习效率的通用平台——Uni-RLHF。此外,郝建业老师还探讨了如何将离线和在线强化学习技术结合,应用于具身智能、自动驾驶和芯片设计等实际工业场景,并分享了其团队成果在现实环境下的多个应用,例如部署在会议室中用于物品布置的机器人、部署在智能驾驶车辆中用于变道决策的多智能体、以及部署在芯片设计中用于元器件布局的优化工程。最后,郝老师总结了本次报告的内容,并结合切身体会向大家传授了在科研路途上的一些经验,在引发全场强烈共鸣的同时给予了大家深远的启示。

报告中,多位老师和同学从理论推理、实验表征及应用场景等多个角度与郝老师展开互动,郝老师认真细致地回答了提出的问题,并进一步对相关方面进行了拓展与延伸。

通过本次学术报告,师生们对大模型时代下的强化学习技术有了更加深入的理解,同时,师生们也表示,期待郝老师在不久的将来再次开展报告,与我校师生分享研究成果与研究经验。

报告人简介:

郝建业,博士,国家级青年人才,华为诺亚决策推理实验室主任,天津大学智算学部副教授。主要研究方向为深度强化学习、多智能体系统。发表人工智能领域CCF-A类国际会议和期刊论文100余篇,专著2部。获得国家科技部2030人工智能重大课题、基金委人工智能重大培育等项目资助10余项,研究成果荣获国际会议最佳论文奖3次,NeurIPS20-22大会竞赛冠军4次。相关成果在国产工业基础软件智能化、自动驾驶、游戏 AI、广告及推荐、5G优化、物流调度等领域落地应用。

转发

安博平台 版权所有  京ICP备10019879号   京公网安备110402430044号

地址:北京海淀区中关村南大街5号

邮编:100081

安博网页版-安博(中国)官方 | 开云手机官方网站入口_开云(中国) | 开云手机在线登入-开云(中国) | 开云手机入口-开云(中国) | 九州体育-九州体育(中国) | b体育·(sports)官方网站 | 完美体育-完美体育集团有限官网 | B体育·(sports)官方网站 | 开云手机官方网站-开云(中国) |