切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
斯里兰卡资讯
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
X上63万人围观的Traning-Free GRPO:把GRPO搬进上下文空 ...
菲龙网编辑部7
有 744 人收听 TA
156482
主题
156499
回复
182997
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/132
才播8集,热度破8000,终于有让我熬夜狂追的古装武侠剧了
0/146
《水龙吟》定档,罗云熙领衔踏入恩怨江湖
0/138
咪咕《枕红妆》入选“跟着微短剧游浙江”精品战略赋能短剧+文旅
0/128
关注丨《托孤》长春开机 打造贴近现实的精品短剧
0/141
当49岁曾黎遇上54岁于和伟,我才终于明白,为何说CP感是门玄学
0/157
边看边买?红果内测“搜同款”,加速短剧电商变现
0/123
凭什么她的直播美出圈?《许我耀眼》许妍同款直播间来了
0/155
《暗河传》为何质量差?《赴山海》又高级在何处?打的内核很重要
0/185
《余生有涯》直到叶思北被下药玷污的真相曝光,才懂秦南离婚原因
查看TA的全部帖子>>
X上63万人围观的Traning-Free GRPO:把GRPO搬进上下文空间学习
时间:2025-10-23 09:39
0
176
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成了最常见的 RL 算法。
GRPO 的核心思路很简单却强大:
对同一个问题,同时生成多条解答路径(rollout)给这些路径打分,比较组内优劣再根据优势信号来更新模型参数,让模型越来越偏好高质量解法
这种「多路径并行 + 组内优势」的机制,虽然比传统 PPO 等方法更加简洁,但仍然需要优化模型参数, 太贵了!
在 32B 量级的模型上训练一次 RL,就可能要花掉上万美元如果是 600B 级别的超大模型,成本和工程难度更是上天
这让 GRPO 虽然强大,却几乎只能由巨头来玩,中小团队和个人开发者根本「玩不起」。
能不能不改模型参数,也来跑一遍 GRPO?
腾讯优图的一篇最新论文就提出了一个非常有意思的答案:既然更新参数这么贵,那就不更新参数,直接把 GRPO 的「学习过程」搬进上下文空间!
论文标题:Training-Free Group Relative Policy OptimizationarXiv 链接:https://arxiv.org/abs/2510.08191GitHub 地址:
https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO
Training-Free GRPO 是把 GRPO 训练的整个范式迁移到了上下文学习之中:
训练集上多轮迭代学习,然后在独立的测试集上验证每轮中,对同一道题目并行生成多条解答(Rollout)对比组内不同解法的差异,提取文本型组内优势(Semantic Group Advantage),对齐 GRPO 里的数值型组内优势根据这些文本优势优化一个文本型 LoRA,对齐 GRPO 里的参数型 LoRA
举个例子,对于训练集里这道数学几何题,模型会生成多个不同的解答路径(Rollout),可能会出现不同的解题路径,有的做对了有的做错了。
随后,模型总结不同解法的过程与正确性,从而比较同一组内的不同解答。这个过程自然提炼出文本型组内优势:总结出有的做法为什么对,有的做法为什么错。比如例子里:
错误的解法不仅设错方向,还没有做条件约束检查成功的解法则正确了设定坐标方向,也系统化验证了所有条件
在一个迭代里,得到每道题的文本型组内优势后,模型就把当前批次的优势都更新文本型 LoRA 里,也就是对经验库进行增删改,沉淀学习到的经验。
实验效果
在数学推理上,仅用100 个训练样本,花费约 8-18 美元,就能在已经足够强大的 671B 模型上继续提升性能。
无论是否采用代码工具(CI,code interpreter)帮助解题,在 AIME 榜单上的 Mean@32 指标都能实现提升。
令人惊喜的是,在三个轮次中,训练集和测试集的平均工具调用次数均有所减少。这表明 Training-Free GRPO 不仅能够鼓励正确的推理和行动,还能教会代理找捷径,更高效明智地使用工具。
而在网页搜索场景中,Training-Free GRPO 同样无需更新模型参数,即可在 DeepSeek-V3.1-Terminus 强悍水平之上,实现了 4.6% 的 Pass@1 显著提升。
为什么需要 Training-Free GRPO?
保留 GRPO 的强化学习优势
多路径探索、group advantage、多轮迭代、完全独立的训练与测试集……这些 GRPO 的精华一项不少,全部在上下文层面重现了出来。
成本暴降
不用训练模型参数,仅需少量数据,并且全程只靠 API 随用随付!
只需 8~18 美元以及 100 条训练数据,就能在 671B LLM 上跑完多轮的强化学习训练!远远低于 32B 模型的训练成本。
泛化更好
与 Self-Refine 这类就地改写不同,Training-Free GRPO 是在独立数据集上多轮迭代训练的,对测试集里的 Out-of-Domain (OOD) 数据都有显著提升。
并且,参数微调后的 32B 级别模型往往只能胜任特定窄域任务,可能需要多个专用模型来覆盖完整业务需求,显著增加了系统复杂度和维护成本。而 Training-Free GRPO 只需要一个统一的模型和 API 就可以泛化到不同的场景!
小结:RL 不一定非得有梯度
过去我们默认,强化学习就意味着参数更新。虽然前期有一些上下文空间优化的探索如 Self-Refine、Reflexion、TextGrad 等,但 Training-Free GRPO 与他们不同,完全对齐了参数空间 RL 训练的流程和细节:
把 GRPO 的「独立训练集 + 多轮迭代 + 并行 Rollout + 组内优势」这套 RL 训练范式,整体迁移到上下文空间,在不训练模型的情况下,也能获得强化学习效果。这让超大模型的 RL 优化变得廉价、灵活、可持续,也给每个开发者的小业务提供了用得起的新方案。
本文方法已开源,欢迎 Star 和试用!
预告:Training-Free GRPO 将作为一个新功能集成到 Youtu-Agent 框架中,帮助开发者们进一步提升各种自定义场景的效果。
注:成本计算基于 DeepSeek API 官方定价,实际可能因使用情况而有所波动。
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
菲律宾新闻
华人世界
国际新闻
中国新闻
娱乐新闻
汇率l历史
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部