manfromearth1 님의 블로그

Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning

강화학습 논문을 읽을 때는 단순히 objective나 update rule만 따라가는 것으로는 부족하다. 특히 어떤 문제를 해결하려고 등장했는지, 다시 말해 motivation 을 이해하는 것이 중요하다. AWR(Advantage-Weighted Regression) 역시 마찬가지다. 이 논문은 단순히 새로운 actor-critic 변형을 제안하는 것이 아니라,좋은 행동 데이터가 이미 존재할 때, policy가 data distribution을 벗어나지 않는 선에서 얼마나 공격적으로 업데이트해야 하는가?라는 질문에서 출발한다. 기존의 강화학습 알고리즘들은 exploration을 통해 더 나은 행동을 찾는 데 강점을 가진다. 하지만 실제 환경에서는 무작정 새로운 행동을 시도하는 것이 위험하거나 비용이 클 ..

논문 리뷰/RL 2026.05.25

PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning

전통적인 강화학습에서는 연속 행동 공간(continuous action domain)에서 확률적 정책(stochastic policy)을 학습할 때, 정책의 parameterization을 보통 Gaussian distribution으로 둔다. 예를 들어 상태 s가 주어졌을 때 정책은 $$a \sim \mathcal N(\mu_\theta(s), \Sigma_\theta(s))$$와 같이 표현되며, policy gradient나 PPO/TRPO 계열 알고리즘은 이 Gaussian likelihood를 기반으로 정책을 업데이트한다. 이러한 parameterization은 계산이 안정적이고 likelihood 및 entropy를 쉽게 계산할 수 있다는 장점이 있다. 특히 reparameterization t..

논문 리뷰/RL 2026.05.25

One-step Diffusion with Distribution Matching Distillation 논문 리뷰

Offline RL에서 One-step distillation을 이용한 policy optimization을 2026 Neurips에 제출하며 꽤 성공적으로 마친 후, Generative Modeling 분야에도 내 아이디어를 적용할 수 있지 않을까 하면서 최근 Distillation으로 one-step generative model을 만드는 방법들을 찾고 있다. 바로 논문의 핵심 아이디어를 확인해보자. N-step Diffusion 모델을 바탕으로 1-step generative model을 만드는 방법으로, 본 논문에서는 Distribution Matching과 Pointwise Regression을 둔다.Distribution Matching여기서 $p_{\text{fake}}$는 one-step ..

논문 리뷰/CV 2026.05.16

Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning 논문 리뷰

Flow Q-learning(FQL) 논문의 후속 연구들 중 하나이다. 내가 하고 있는 연구에서 적당히 잘 참고할 것이 있는 것 같아 논문을 가져오게 되었다. 우선 FQL이 어떤 형태인지부터 알아보자:Flow Q Learning다음의 actor loss만 이해하는 것만으로도 어느 정도는 충분하다:Actor-constrained offline RL이다. 다만 그 constraint를 이전에는 dataset action과의 divergence(L2, KL 등)으로 두면서 동시에 Q를 최적화하는 문제였다면, FQL은 dataset action이 아닌 N-step flow policy의 action과 one-step flow target policy의 L2 loss를 제약으로 두면서 Q를 maximize하는 문..

논문 리뷰/RL 2026.03.30

Offline Reinforcement Learning with Implicit Q-Learning 논문 리뷰

SummaryIQL(Implicit Q-Learning)은 dataset support 위에서의 Bellman optimality를 근사하면서, OOD(Out-of-Distribution) action을 직접적으로 평가하지 않도록 만드는 Q-learning 방법이다.IQL이 다른 Offline RL과 어떻게 다른지에 대해서 알아보기 위해, 우선 다른 대표적인 offline RL 방법론의 연구들을 살펴보고 IQL이 어떻게 문제를 풀고자 했는지 알아보도록 하자.PreliminariesOffline Reinforcement LearningOffline RL은 Online RL과 달리 환경과 상호작용할 수 없기 때문에, 이미 주어진 데이터셋만을 이용해 정책을 학습해야 한다. 이때 중요한 능력 중 하나는 stit..

논문 리뷰/RL 2026.03.23

ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING 논문 리뷰

SummaryTransformer 기반 모델에서 위치 정보(position encoding)는 필수적이지만, 기존 방법들은 중요한 한계를 가진다. Absolute position embedding은 단순히 위치 벡터를 더하는 방식으로, 토큰 간 상대적 관계(relative position)를 충분히 반영하지 못한다. 반면, 기존 relative position 방법들은 attention 구조를 수정하거나 여러 항을 추가해야 하므로 구조가 복잡해지고 일반성이 떨어지는 문제가 있다. 본 논문은 이러한 한계를 해결하기 위해 Rotary Position Embedding (RoPE)을 제안한다. RoPE는 위치 정보를 벡터에 더하는 대신, 위치에 따라 embedding을 회전시키는 방식을 사용한다. 이를 통해 ..

논문 리뷰/NLP 2026.03.23

Revisiting the Minimalist Approach to Offline Reinforcement Learning 논문 리뷰

아이디어 자체가 복잡하거나 새로운 알고리즘적 기여가 큰 논문은 아니다.대신, offline RL의 실패 원인을 꽤 깔끔한 관점으로 분해해서 보여준다는 점에서 가져올 만한 가치가 있다고 생각했다. 따라서 여기서는 논문의 전체 summary보다는, 이 논문이 어떤 문제를 지적하고 그것을 어떻게 바라보는지에 초점을 맞추어 정리하겠다.PreliminariesOffline RL의 핵심 문제는 결국 dataset support 바깥에 있는 action에 있다. 학습 과정에서 policy가 데이터셋에 충분히 존재하지 않는 행동을 선택하게 되면, 그 행동에 대한 Q-value는 실제보다 부정확하게 추정될 수 있다. 이는 본질적으로 extrapolation error, 즉 관측되지 않은 영역에서의 잘못된 일반화 문제이다..

논문 리뷰/RL 2026.03.23

Why DPO is a Misspecified Estimator and How to Fix It 논문 리뷰

SummaryDPO(Direct Preference Optimization)은 전통적인 two-stage RLHF에서 선호 데이터를 이용하여 보상모델을 학습하고, 그 보상을 최대화하도록 정책을 업데이트하는 방식과 다르게 선호쌍을 분류하는 형태의 supervised loss로 정책을 바로 업데이트한다. 구현이 매우 단순하며 보상 모델에 의존적이지 않고, 특히 LLM에서 그 효과를 인정받아 널리 쓰이는 방법론이다. 그러나 본 논문은 DPO는 LLM처럼 parameterized된 정책 클래스에서는 실제 보상을 타깃하여 훈련되지만 정책이 표현 가능한 보상 공간으로 사영(project)할 뿐임을 보이며, 이로 인해 선호 순서가 뒤집히거나 정책의 trajectory가 만들어내는 평균적인 보상이 감소하는 결과가 일어..

논문 리뷰/NLP 2026.02.22

OpenVLA:An Open-Source Vision-Language-Action Model 논문 리뷰

SummaryOpenVLA는 로봇 제어를 거창하게 새로 정의하기보다, 언어모델이 이미 잘 하는 일(다음 토큰 예측)로 최대한 끌고 온 접근이다. 입력은 “관측 이미지 + 자연어 지시”이고, 출력은 “로봇 행동(action)들의 문자열(토큰 시퀀스)”이다. 여기서 핵심 트릭은 로봇 행동이 본래 연속값(예: 이동/회전/그리퍼)인데, 이를 이산 토큰으로 바꿔서 LLM의 출력 공간에 얹는다는 점이다. 그러면 학습은 다시 익숙한 형태로 돌아간다. 행동 토큰에 대해서만 cross-entropy를 걸고, 표준 next-token prediction으로 훈련하면 된다. 재미있는 건, 이 설계가 “로봇 제어를 언어모델로 풀었다”기보다 “언어모델의 학습/인프라/스케일링을 로봇 제어에 가져오기 쉬운 형태로 바꿨다”는 데 더..

논문 리뷰/RL 2026.02.21

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation 논문 리뷰

Summary본 논문은 flow-based policy의 학습 및 추론 과정에서 기존의 instantaneous velocity 기반 flow matching이나 CNF 대신, mean velocity field를 직접 모델링하는 Mean Flow Policy (MFP)를 제안한다. 이를 통해 기존 flow policy가 갖는 다단계 적분(NFE 증가), BPTT 비용, 그리고 실시간 제어에서의 샘플링 병목 문제를 구조적으로 제거한다. 단순히 Mean Flow를 RL에 차용한 것이 아니라, RL 환경에서 Mean Flow를 적용할 때 발생하는 학습의 ill-posedness(해의 비유일성) 문제를 이론적으로 분석하고, 이를 해결하기 위해 Instantaneous Velocity Constraint (IV..

논문 리뷰/RL 2026.02.19

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

manfromearth1 님의 블로그

전체 글 106

티스토리툴바