@爱可可-爱生活的微博备份桃子圈-微博全数据

爱可可-爱生活

82.4万

粉丝

752

关注

140461

微博

昵称：爱可可-爱生活
简介：北邮PRIS模式识别实验室陈老师商务合作 QQ:1289468869 Email:[email protected]
保存微博：0

本站在持续运行中，《免费无广告》
长期提供查看半年可见微博，请大家帮忙宣传转发！

爱可可-爱生活

Mon Jun 17 06:25:05 +0800 2024 来自 Mac客户端

今日推介(第1439期)：用于增强RLH和高效混合LLM分析和推理能力的"从粗到细"Actor、RLHF中奖励模型与策略模型的无缝性、流映射匹配、用强化反馈防止大规模合成数据迭代训练造成的模型坍缩、将值迭代网络扩展至5000层实现极长程规划公·众·号：爱可可爱生活网页链接 #机器学习##人工智能# ... 展开

爱可可-爱生活

Mon Jun 17 06:10:12 +0800 2024 来自微博网页版

[LG] Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters
网页链接
通过设计高效的dReLU激活函数实现了大模型稀疏化，使典型模型的推理加速2-5倍而性能不降低或有提升。

爱可可-爱生活

Mon Jun 17 06:04:19 +0800 2024 来自微博网页版

[CL] MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models
网页链接
通过数据影响模型动态适应主模型的数据偏好实现模型感知的数据选择，显著提升了语言模型预训练的效率和效果。

爱可可-爱生活

Mon Jun 17 05:53:22 +0800 2024 来自微博网页版

通过动态迁移核和自适应高速公路损失等方法EXTENSIONS，使得值迭代网络可以扩展到5000层，实现复杂导航任务需要的上千步长程规划。

@爱可可-爱生活

[LG]《Scaling Value Iteration Networks to 5000 Layers for Extreme Long-Term Planning》Y Wang, Q Wu, W Li, D R. Ashley... [KAUST & The University of Liverpool & National University of Singapore] (2024) 网页链接 #机器学习##人工智能##论文#

11小时前来自微博网页版

爱可可-爱生活

Mon Jun 17 05:53:16 +0800 2024 来自微博网页版

爱可可-爱生活

Mon Jun 17 05:42:27 +0800 2024 来自微博网页版

通过理论分析和实证研究表明，在合成数据上训练时，引入反馈选择机制是防止模型坍缩、提升性能的有效途径。

@爱可可-爱生活

[LG]《Beyond Model Collapse: Scaling Up with Synthesized Data Requires Reinforcement》Y Feng, E Dohmatob, P Yang, F Charton, J Kempe [Meta FAIR & New York University] (2024) 网页链接 #机器学习##人工智能##论文#

11小时前来自微博网页版

爱可可-爱生活

Mon Jun 17 05:42:17 +0800 2024 来自微博网页版

爱可可-爱生活

Mon Jun 17 05:25:13 +0800 2024 来自微博网页版

提出流映射匹配框架，可高效生成高质量样本，步数可调节，统一了多种一致性和蒸馏方法。

@爱可可-爱生活

[LG]《Flow Map Matching》N M. Boffi, M S. Albergo, E Vanden-Eijnden [New York University] (2024) 网页链接 #机器学习##人工智能##论文#

11小时前来自微博网页版

爱可可-爱生活

Mon Jun 17 05:24:53 +0800 2024 来自微博网页版

[LG]《Flow Map Matching》N M. Boffi, M S. Albergo, E Vanden-Eijnden [New York University] (2024) 网页链接 #机器学习##人工智能##论文#

爱可可-爱生活

Mon Jun 17 05:23:11 +0800 2024 来自微博网页版

通过无缝性的概念指出策略模型和奖励模型之间的差异，设计SEAM指标进行量化，并证明其可以用于数据筛选和模型增强从而提升强化学习性能。

@爱可可-爱生活

[CL]《It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF》T Lu, L Shen, X Yang, W Tan… [JHU & Bytedance & CMU] (2024) 网页链接 #机器学习##人工智能##论文#