爱可可-爱生活
82.4万 粉丝
752 关注
140461 微博
  • 昵称: 爱可可-爱生活
  • 简介: 北邮PRIS模式识别实验室陈老师 商务合作 QQ:1289468869 Email:[email protected]
  • 保存微博:0
本站在持续运行中,《免费无广告》
长期提供查看半年可见微博,请大家帮忙宣传转发!
今日推介(第1439期):用于增强RLH和高效混合LLM分析和推理能力的"从粗到细"Actor、RLHF中奖励模型与策略模型的无缝性、流映射匹配、用强化反馈防止大规模合成数据迭代训练造成的模型坍缩、将值迭代网络扩展至5000层实现极长程规划 公·众·号:爱可可爱生活 网页链接 #机器学习##人工智能# ... 展开
11
8
0
[LG] Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters
网页链接
通过设计高效的dReLU激活函数实现了大模型稀疏化,使典型模型的推理加速2-5倍而性能不降低或有提升。
9
15
0
[CL] MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models
网页链接
通过数据影响模型动态适应主模型的数据偏好实现模型感知的数据选择,显著提升了语言模型预训练的效率和效果。
9
12
0
通过动态迁移核和自适应高速公路损失等方法EXTENSIONS,使得值迭代网络可以扩展到5000层,实现复杂导航任务需要的上千步长程规划。
[LG]《Scaling Value Iteration Networks to 5000 Layers for Extreme Long-Term Planning》Y Wang, Q Wu, W Li, D R. Ashley... [KAUST & The University of Liverpool & National University of Singapore] (2024) 网页链接 #机器学习##人工智能##论文#
11小时前 来自 微博网页版
2
5
0
[LG]《Scaling Value Iteration Networks to 5000 Layers for Extreme Long-Term Planning》Y Wang, Q Wu, W Li, D R. Ashley... [KAUST & The University of Liverpool & National University of Singapore] (2024) 网页链接 #机器学习##人工智能##论文#
5
8
0
通过理论分析和实证研究表明,在合成数据上训练时,引入反馈选择机制是防止模型坍缩、提升性能的有效途径。
[LG]《Beyond Model Collapse: Scaling Up with Synthesized Data Requires Reinforcement》Y Feng, E Dohmatob, P Yang, F Charton, J Kempe [Meta FAIR & New York University] (2024) 网页链接 #机器学习##人工智能##论文#
11小时前 来自 微博网页版
9
12
1
[LG]《Beyond Model Collapse: Scaling Up with Synthesized Data Requires Reinforcement》Y Feng, E Dohmatob, P Yang, F Charton, J Kempe [Meta FAIR & New York University] (2024) 网页链接 #机器学习##人工智能##论文#
2
18
1
提出流映射匹配框架,可高效生成高质量样本,步数可调节,统一了多种一致性和蒸馏方法。
[LG]《Flow Map Matching》N M. Boffi, M S. Albergo, E Vanden-Eijnden [New York University] (2024) 网页链接 #机器学习##人工智能##论文#
11小时前 来自 微博网页版
4
5
0
[LG]《Flow Map Matching》N M. Boffi, M S. Albergo, E Vanden-Eijnden [New York University] (2024) 网页链接 #机器学习##人工智能##论文#
2
11
1
通过无缝性的概念指出策略模型和奖励模型之间的差异,设计SEAM指标进行量化,并证明其可以用于数据筛选和模型增强从而提升强化学习性能。
[CL]《It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF》T Lu, L Shen, X Yang, W Tan… [JHU & Bytedance & CMU] (2024) 网页链接 #机器学习##人工智能##论文#
11小时前 来自 微博网页版
0
2
0
最近更新
有点锦鲤体质
潜伏娱乐圈,合作,爆料请私信。
Ridiculeisnormalcy
Be a lady. Be independent. 微博上发言谨代表个人观点,与本人就职公司无关。
明星夫妻那些事
来看看有没有你喜欢的爱豆吧
娱乐星闻不N机
明星艺人的相关火爆视频等你来看
乔凯文
原ID@黑客凯文 ,私信都会看。
我发现了bot
每天一个小发现
爱豆日记本
追星所_【接投稿 🈲引战 会删评 侵私】
时鱻
非互关别艾特我转发抽奖类。粉丝提醒已关/私聊看见会回。裙号看我微博背景图,感谢关注❤️
百变明星档
娱乐明星综合
Prada普拉达
Prada创立于1913年,首间精品店坐落于米兰Galleria Vittorio Emanuele II,产品类别包括男女皮具、成衣、配饰和鞋履,此外也活跃于眼镜和香氛领域。创新是Prada的核心,艺术、建筑、电影和哲学共同构建了品牌视野。
他只是个孩子啊
祖国的花朵还是仙人掌? 这是个问题! (欢迎投稿)
夏姿陈SHIATZYCHEN
夏姿•陈(SHIATZYCHEN)由品牌创始人王陈彩霞女士在1978年创立于台北,涵义[华夏新姿。多年来,夏姿•陈深耕中国文化,坚持不随波逐流的信念,坚信“时尚不仅是时尚,而是人文生活的反观”。产品包括高级成衣和家居用品。
喜气洋羊子
double click!sixsixsix!
安然同学哭了
好看的都在粉丝群 群公告
仙女的外卖
爱美食,爱生活!每天为你带来不一样的美食体验,请关注我吧!❤
吃货少女番茄菌
只爱干饭,追求美食独特品味的的番茄菌~爱分享美食的小吃货一枚呀~商务➕v:hfwhrz666
迷妹来吐槽
接投稿,认真安利,他们值得~
养桃晴雨表
🔍🍑
爱尔关怀
郑雅譞AHYEON_Cameo
AHYEON Bar|ALL FOR AHYEON|长期招新