Talk预告 | 港中文(深圳)李子牛:针对大语言模型的强化学习,如何考虑探索与利用?

本期为TechBeat人工智能社区第747期线上Talk。

北京时间2月26(周四) 20:00,香港中文大学(深圳)博士生李子牛的Talk将准时在TechBeat人工智能社区开播!

他与大家分享的主题是:针对大语言模型的强化学习,如何考虑探索与利用?介时他将从初始化、利用与探索三个核心问题出发,系统介绍三项工作:GEM 通过保持输出多样性实现高效冷启动;ReMax 基于文本生成的确定性结构实现高效、稳定且简洁的策略优化;Knapsack RL 通过自适应算力分配机制提升数据效率与模型性能。

Talk·信息

主题:针对大语言模型的强化学习,如何考虑探索与利用?

嘉宾:香港中文大学(深圳) · 博士生 - 李子牛

时间:北京时间 2月26日(周四) 20:00

地点:TechBeat人工智能社区

http://www.techbeat.net/

Talk·介绍

强化学习是实现大模型对齐的关键技术,但其在实际应用中面临着计算成本高昂和训练过程不稳定等挑战。本报告将从初始化、利用与探索三个核心问题出发,系统介绍三项工作:GEM 通过保持输出多样性实现高效的冷启动训练;ReMax 利用文本生成的确定性结构,消除价值网络,实现高效、稳定、简洁的策略优化;Knapsack RL 通过自适应算力分配机制,提升数据收集效率和模型性能。

Talk大纲

1. 背景介绍

2. GEM:考虑多样性的监督微调

3. ReMax:没有值网络的强化学习算法

4. Knapsack RL:自适应的探索算力分配框架

Talk·预习资料

论文链接:

https://arxiv.org/abs/2310.10505

论文链接:

https://arxiv.org/abs/2408.16673

论文链接:

https://arxiv.org/abs/2509.25849

Talk·提问交流

在Talk界面下的 【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

李子牛

香港中文大学(深圳) · 博士生

‍‍‍李子牛是香港中文大学(深圳)的博士,师从罗智泉教授。他的研究方向包括强化学习算法的设计与理论,及其在大模型后训练中的应用。他在ICML、NeurIPS、ICLR等顶级会议以及TPAMI、TSP、JASA等权威期刊发表论文十余篇。其中,他的成果率先将REINFORCE系列算法在"LLM+RL"领域进行大规模应用探索,相关研究曾获得NeurIPS FITML Workshop Best Paper Runner-up、NeurIPS Spotlight、UAI Oral等荣誉。此外,他曾在腾讯AI实验室和字节跳动Seed团队从事工业界研究实习。

个人主页:

https://www.techbeat.net/grzytrkj?id=18378

长按识别二维码,一键预约TALK!

-The End-

如果你也想成为讲者

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择!

推荐讲者成功也有奖励哦~

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>

展开阅读全文

更新时间:2026-02-26

标签:科技   李子   深圳   中文   预告   模型   语言   高效   人工智能   多样性   香港中文   博士生   社区   算法

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top