
강화학습 포트폴리오는 왜 돈을 잃을까? — 마이opic 최적화의 역습
"AI가 포트폴리오를 관리하면 사람보다 잘할 수 있을까?" 많은 투자자와 퀀트 연구자가 품는 이 질문에, 2025년에 발표된 한 논문이 놀라운 답을 내놓았습니다: "강화학습(RL)은 포트폴리오에서 돈을 잃는다. 단순히 '눈앞의 최적'을 고르는 게 더 낫다."
들어가며: AI 포트폴리오의 약속과 현실
최근 몇 년간 금융 업계에서 가장 뜨거운 주제 중 하나는 강화학습(Reinforcement Learning, RL)을 이용한 자산운용입니다. RL은 게임을 이기고, 로봇을 움직이고, 자율주행차를 만드는 데 성공했으니, 포트폴리오 관리도 잘할 수 있지 않을까요?
많은 학술 논문과 스타트업이 이 가설을 시험해 왔습니다. 시뮬레이션에서는 화려한 성과를 보이는 경우도 많았습니다. 하지만 실제 시장에 적용하면 결과는 신통치 않은 경우가 많았습니다.
왜일까요? Yuming Ma가 2025년 9월 arXiv에 공개한 논문 "Myopic Optimality: why reinforcement learning portfolio management strategies lose money"는 이 질문에 수학적으로 정확한 답을 제공합니다.
무엇이 문제인가: 비용을 무시한 환상의 수익
RL 포트폴리오의 구조적 함정
RL 포트폴리오 전략은 대략 이렇게 작동합니다:
- 과거 데이터로 시장 환경을 학습한다
- 미래 수익률을 예측한다
- 예측을 바탕으로 최적의 포트폴리오 비중을 결정한다
문제는 이 과정에서 현실의 비용이 빠진다는 것입니다.
주식을 사고팔면 거래 비용이 발생합니다. 포트폴리오를 정리(청산)할 때도 시장 충격 비용이 발생합니다. 그리고 매일 포트폴리오 가치를 평가(마크투마켓)할 때마다 변동성이 수익률에 반영됩니다.
이 논문은 바로 이 세 가지 비용 — 실행 마찰(execution frictions), 청산 마찰(liquidation frictions), 마크투마켓 회계(mark-to-market accounting) — 을 모두 포함한 이론틀을 제시합니다.
핵심 발견: RL은 "팬텀 프로핏"을 만들어낸다
논문의 가장 충격적인 발견은 이것입니다: RL 포트폴리오가 보여주는 성과 상당 부분이 팬텀 프로핏(phantom profit) — 실현 불가능한 환상의 수익 — 이라는 것입니다.
RL은 복잡한 정책을 학습하면서 시장에서 "이론적으로 가능한" 수익을 찾아냅니다. 하지만 이 수익을 실제로 실현하려고 하면 거래 비용과 시장 충격이 발생해 오히려 손실로 바뀝니다.
핵심 아이디어: 수학이 증명한 마이opic 우위
마이opic 최적화(MO)란?
마이opic 최적화는 "미래를 멀리 내다보지 않고, 당장 눈앞의 최선만 고르는" 전략입니다. RL이 "미래의 누적 보상"을 최적화하려는 것과 대조적입니다.
직관적으로는 RL이 더 똑똑해 보입니다. 하지만 논문은 정반대를 증명합니다.
이론적 프레임워크
이 논문은 Malliavin 미적분이라는 고급 수학 도구를 활용합니다. 구체적으로 Clark-Ocone 공식을 통해 정책 그래디언트(policy gradient)와 리스크 섀도우 가격(risk shadow price)을 유도합니다.
이 과정에서 두 가지 핵심 수학적 결과가 나옵니다:
1. HJB-KKT 통일: RL의 최적성 조건인 Hamilton-Jacobi-Bellman(HJB) 방정식과 수학적 프로그래밍의 Karush-Kuhn-Tucker(KKT) 조건을 하나로 통일합니다.
2. 듀얼 갭(Dual Gap): MO와 RL 사이의 성능 차이를 정확히 계산하는 "듀얼 갭"을 도출합니다. 이 갭은 항상 MO에 유리합니다.

CAD 프리미엄: RL이 지불해야 할 대가
논문은 CAD(Control-Affects-Dynamics) 프리미엄이라는 새로운 개념을 정의합니다. RL 정책이 시장에 영향을 미칠 때 발생하는 비용으로, "통제가 역학을 바꾸는" 현상에서 비롯됩니다.
쉬운 비유를 들어보겠습니다. 작은 연못에서 큰 돌을 던지면 파장이 전체 수면을 뒤흔듭니다. 마찬가지로 RL이 대규모 포트폴리오 리밸런싱을 실행하면 그 행위 자체가 시장 가격에 영향을 미쳐, 당초 예상과 다른 결과가 나옵니다.
결과: 숫자가 말해주는 것
논문의 주요 수치적 결과를 정리하면 다음과 같습니다:
| 항목 | RL | 마이opic 최적화 (MO) |
|---|---|---|
| 수익률 | 낮거나 음수 | 안정적 |
| 분산 | 높음 | 낮음 |
| 실행 비용 | 큼 | 작음 |
| CVaR (꼬리 리스크) | 무거움 | 가벼움 |
| 수익성 | 낮음 | 높음 |
| 모델 리스크 | 큼 | 작음 |
MO가 모든 지표에서 RL을 압도합니다. 이는 시뮬레이션이 아니라 이론적으로 증명된 결과입니다.
한계와 주의점
이 논문에도 한계가 있습니다:
-
거래 비용 모델의 단순화: 현실의 시장 충격은 훨씬 복잡합니다. 논문은 마찰(friction)을 수학적으로 깔끔한 형태로 모델링했지만, 실제 시장의 비선형성은 더 큽니다.
-
MO의 적용 범위: 모든 상황에서 MO가 최적인 것은 아닙니다. 논문은 특정 비용 구조 하에서의 결과를 제시하며, 비용이 매우 낮거나 특수한 시장 환경에서는 RL이 유리할 수도 있습니다.
-
장기 투자와 단기 트레이딩의 차이: 논문의 분석은 단기~중기 포트폴리오에 초점을 맞추고 있습니다. 장기 자산배분에서는 RL의 장점이 발현될 여지가 있습니다.
-
구현 복잡도: MO도 현실의 제약(거래 빈도 제한, 세금, 유동성 등)을 완벽히 반영하기 어렵습니다.
투자자에게 주는 시사점
이 논문이 실무에 주는 교훈을 정리하면:
1. RL 전략을 도입하기 전에 비용 구조를 정확히 파악하세요. 실행 비용, 청산 비용, 마크투마켓 효과를 무시한 RL 성과는 과대평가된 것입니다.
2. 목적함수 설계가 핵심입니다. 단순히 "미래 수익률 최적화"가 아니라, 비용과 리스크를 포함한 실현 가능한 수익을 최적화해야 합니다.
3. 복잡한 모델이 항상 좋은 것은 아닙니다. 때로는 "눈앞의 최선"을 고르는 단순한 전략이 장기적으로 더 안정적입니다.
4. 리스크 관리를 우선하세요. RL이 만들어내는 포트폴리오는 종종 꼬리 리스크(CVaR)가 무겁습니다. 리스크 제약 없는 최적화는 위험합니다.
함께하기
최신 금융 AI 연구를 매일 큐레이팅합니다.
- 📬 뉴스레터 구독: ohselab.com
- 💬 상담 문의: ohselab.com
- 🐦 팔로우: ohselab.com
더 알아보기
- 📄 원문 논문: arXiv:2509.12764
- 📊 5차원 점수: novelty 78 / applicability 84 / rigor 86 / reproducibility 42 / insight 88 (composite 77.3, A 티어)
- 🏷️ 분과: 강화학습 포트폴리오 관리 (C2)
- 📚 관련 논문:
python3 scripts/kb.py related 2509.12764
관련 글

2026년 6월 AI 트레이딩 연구 한눈에 보기: 이론과 실무를 꿰매는 달
2026년 6월 arXiv에서 발굴한 AI 트레이딩·퀀트 투자 논문 151편을 5개 연구 테마로 정리. AMM 수수료 최적 제어, 신경망 옵션 가격의 오차 상계, LLM 자산 편향 감사, 기관 포트폴리오 GPU 가속, 강화학습의 경제적 해석까지.

2026년 5월 AI 트레이딩 연구 동향 — 검증 가능한 증거의 시대
2026년 5월 arXiv에 올라온 AI·퀀트 트레이딩 연구를 5개 테마로 정리합니다. 실거래 거절 이벤트 벤치마크, LLM 에이전트의 내부 표현 감사, 마켓메이킹의 신호 적응 최적집행, 크립토 펌프·덤프 실시간 탐지, 포트폴리오 예측 팽창 진단까지.

AI가 미래를 이미 알고 있다면? 백테스트의 다섯 가지 거짓말 — 2026년 3월 금융 AI 연구 하이라이트
2026년 3월 금융 AI 연구를 관통하는 하나의 질문: '내 백테스트 숫자가 진짜일까?' 엔진 구현 차이, LLM의 시점 누수, 포트폴리오 추정오차, MEV 경매 설계, RL 인프라까지 — 다섯 갈래 현실 괴리를 파헤친다.