
GitHub - TideDra/lmm-r1: Extend OpenRLHF to support LMM RL …
Feb 13, 2025 · LMM-R1 is a fork of OpenRLHF, aimed at providing high-performance LMM Reinforcement Learning infrastructure for enhancing multimodal reasoning capabilities. We currently …
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities …
Mar 10, 2025 · Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges from the complex interplay between visual perception and logical reasoning, particularly in compact 3B …
蚂蚁保联合东南大学等开源发布LMM-R1框架,两阶段训练 ...
Mar 31, 2025 · 这是来自东南大学、香港中文大学、蚂蚁集团等研究人员的,两阶段多模态基于规则强化学习的框架LMM-R1,实现多模态大模型的推理性能飞跃。 针对多模态领域长期存在的”高训练成本 …
LMM-R1: LMM-R1 是为多模态任务打造的高性能强化学习 ...
LMM-R1 is a fork of OpenRLHF, aimed at providing high-performance LMM Reinforcement Learning infrastructure for enhancing multimodal reasoning capabilities. We currently support …
东南大学PALM实验室全球率先开源面向视觉语言多模态大 ...
Apr 15, 2025 · 自2025年2月开源以来,LMM-R1框架迅速获得同行广泛关注,相关技术方案已被多个知名开源项目采纳为基准架构。 目前,该项目已在GitHub平台建立独立技术生态,累计获得超过600+星 …
LMM-R1 LMM-R1 LMM-R1 是 OpenRLHF 项目的一个分支 ...
Apr 2, 2025 · LMM-R1是一个开源高性能增强学习框架,专注于多模态任务的深度学习。 LMM-R1 是 OpenRLHF 项目的一个分支,旨在为多模态任务提供高性能的 LMM 强化学习基础设施,以便能够重 …
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities
Mar 13, 2025 · To address these challenges, we propose LMM-R1, a two-stage rule-based RL framework that first strengthens foundational reasoning abilities using text-only data before …
LMM-R1 项目使用与启动教程 - CSDN博客
Apr 3, 2025 · LMM-R1 项目使用与启动教程 【免费下载链接】lmm-r1 Extend OpenRLHF to support LMM RL training for reproduction of DeepSeek-R1 on multimodal tasks.
LMM-R1 | 强化学习增强多模态LLM的推理能力 - 知乎
Mar 12, 2025 · LMM-R1 将Rule-based强化学习 (RL) 引入到多模态LLM领域,显著提升了多模态LLM的推理能力。 作为一个RL小白,能够跟他们讨论交流让我学习了不少RL的知识,尤其是在 DeepSeek …
lmm-r1/README_zh.md at main · TideDra/lmm-r1 · GitHub
LMM-R1是 OpenRLHF 的一个分支,旨在提供高性能的LMM强化学习基础设施,以增强多模态推理能力。 我们目前支持LMM的PPO/REINFORCE++/RLOO训练,并且与 R1-V (GRPO)相比,实现了4.7倍 …