
거래소 사이의 그림자, 밤에만 오르는 주식, 그리고 로봇 투자자 — 2025년 7월 AI 트레이딩 연구 리뷰
매달 수백 편의 논문이 쏟아지는 AI 트레이딩 분야에서, 실전에 가까운 연구만 골라 쉽게 풀어드립니다.
들어가며: 주식시장의 숨겨진 리듬
주식시장에는 보통 사람들이 모르는 리듬이 있습니다. 미국 주식시장의 경우, 지난 30년간 거의 모든 수익이 밤 사이에 발생했다는 사실을 알고 계셨나요? 장이 열리는 동안에는 오히려 돈을 잃거나 제자리걸음이었고, 문을 닫은 뒤에 수익이 쌓였습니다.
이게 무슨 뚱딴지같은 소리냐고요? 실제로 일어나는 일입니다. 그리고 2025년 7월에 발표된 최신 연구들은 이 현상의 원인을 밝혀냄과 동시에, 암호화폐 거래소 사이에서 벌어지는 2억 3,380만 달러짜리 그림자 게임, 주식 포트폴리오의 숨은 편향, 그리고 거래비용까지 고려한 투자 이론까지 다루고 있습니다.
이번 달에는 4가지 연구 테마를 살펴보겠습니다.
테마 1: 거래소 사이의 그림자 게임 — 2억 3,380만 달러의 MEV
문제의식: 두 거래소 사이에서 벌어지는 일
비트코인이나 이더리움 같은 암호화폐는 두 종류의 거래소에서 동시에 거래됩니다. 하나는 바이낸스처럼 회사가 운영하는 중앙화 거래소(CEX), 다른 하나는 유니스왑처럼 블록체인 위에서 자동으로 돌아가는 탈중앙화 거래소(DEX)입니다.
문제는 이 두 거래소의 가격이 항상 같은 것은 아니라는 점입니다. DEX는 블록체인 위에서 돌아가기 때문에 가격 업데이트에 수 초에서 수 분의 지연이 발생합니다. 이 틈을 노려 가격이 싼 곳에서 사서 비싼 곳에서 파는 차익거래가 벌어지는데, 이것이 바로 "CEX-DEX 차익거래"입니다.
무엇을 알아냈나: 19개월간의 대규모 실증
이더리움에서 2023년 8월부터 2025년 3월까지 19개월간 진행된 이 차익거래를 추적한 연구가 나왔습니다. 연구팀은 온체인 데이터에서 720만 건 이상의 차익거래를 식별하고, 거래자들이 CEX에서 실제로 얼마를 벌었는지 추정하는 새로운 방법을 개발했습니다.
핵심 숫자를 정리하면:
- 총 추출 가치: 2억 3,380만 달러 (약 3,040억 원)
- 주요 차익거래자 19개가 대부분의 거래를 수행
- 3개 거래자가 볼륨과 수익의 4분의 3을 점유 — 극도의 집중화
- 차익거래는 블록 공간의 2% 미만을 차지하지만, 블록 가치의 15% 이상을 기여

왜 중요한가: 이더리움의 집중화 위험
이 숫자들이 왜 중요할까요? 이더리움은 "누구나 참여할 수 있는 탈중앙화 네트워크"를 표방합니다. 하지만 차익거래의 대부분을 3개 업체가 독식하고, 이들 중 일부는 블록을 만드는 빌더(builder)와 수직통합되어 있습니다. 마치 대형 마트가 물류센터까지 소유해서 중소 상인이 경쟁할 수 없는 것과 비슷한 구조입니다.
이 연구는 "MEV 다크 포레스트의 가장 어두운 구석"을 처음으로 밝혀낸 것입니다.
논문: Measuring CEX-DEX Extracted Value and Searcher Profitability (A 티어, composite 70.9)
테마 2: 밤에만 오르는 주식 — 뉴스가 말해주는 비밀
문제의식: 30년간의 수수께끼
앞서 말씀드린 것처럼, 미국 주식시장에서는 30년간 거의 모든 수익이 장 마감과 장 개시 사이에 발생했습니다. 이 차이는 하루 평균 2.75bp(0.0275%), 연간으로 환산하면 약 7.2%에 달합니다. 2000년 이후 S&P 500의 누적 수익을 장중과 오버나이트로 나누면, 오버나이트 선이 압도적으로 위에 있습니다.
왜 이런 일이 벌어질까요? 기존 연구들은 개인 투자자, 기관 투자자, 금융 중개기관의 거래 패턴을 원인으로 지목했습니다. 하지만 2025년 7월의 이 연구는 뉴스 자체에 주목합니다.
핵심 아이디어: 뉴스 토픽이 수익을 설명한다
연구팀은 1996년부터 2022년까지 240만 건의 뉴스 기사 전문을 분석했습니다. 단순히 "좋은 뉴스/나쁜 뉴스"로 나누는 것이 아니라, 어떤 주제의 뉴스가 시장 수익과 가장 관련이 있는지를 자동으로 찾아내는 "지도학습 토픽 분석" 기법을 사용했습니다.
쉽게 말하면, 뉴스를 읽고 "이 회사에 이런 종류의 뉴스가 나오면 주가가 어떻게 움직이는지"를 컴퓨터가 학습한 것입니다. 그리고 이 패턴이 장중과 오버나이트에서 다르게 나타난다는 것을 발견했습니다.

결과: 뉴스로 밤에 잘 오를 종목을 예측할 수 있다
연구팀은 4년간의 뉴스 데이터를 바탕으로 1년 뒤의 수익을 예측하는 모델을 만들었습니다. 놀랍게도:
- 오버나이트 수익이 높을 것으로 예측된 종목(상위 25개)은 실제로 오버나이트에서 시장 평균을 크게 초과
- 장중 수익이 낮을 것으로 예측된 종목(하위 25개)은 실제로 장중에서 시장 평균보다 훨씬 못 미침
- 이 예측 종목들을 제거하면, 장중과 오버나이트의 수익 차이가 통계적으로 유의하지 않게 됨
다시 말해, 뉴스 흐름이 오버나이트 프리미엄의 상당 부분을 설명한다는 뜻입니다.
실전 시사점: 투자자에게 의미하는 것
이 연구는 "밤에 주식을 사서 아침에 팔면 돈을 번다"는 단순한 전략 이상의 것을 시사합니다. 특정 종목이 어떤 종류의 뉴스에 노출되었는지에 따라, 오버나이트와 장중의 성과가 달라진다는 것입니다. 예를 들어, 특정 산업이나 주제에 관한 뉴스가 밤에 집중적으로 나오는 패턴이 있고, 그 뉴스에 대한 시장의 반응이 장중과 오버나이트에서 반대 방향으로 나타날 수 있습니다.
논문: Does Overnight News Explain Overnight Returns? (A 티어, composite 70.5)
테마 3: 주식 데이터의 숨은 오염원 — 중국 시장이 발견한 교훈
문제의식: 가격제한이 만드는 착시
중국 주식시장에는 일일 가격제한이라는 규칙이 있습니다. 메인보드 주식은 하루에 ±10%, STAR/ChiNext 주식은 ±20%까지만 가격이 움직일 수 있습니다. 주가가 10% 올랐다면 그 이상은 오르지 못하고 "상한가"에 묶입니다.
이 규칙이 투자 분석에 어떤 영향을 줄까요? 연구팀은 이를 "상류 오염(upstream contamination)"이라고 명명했습니다. 쉽게 설명하면 이렇습니다:
- 어떤 주식이 상한가에 도달했다고 합시다
- 이 주식의 "종가"는 실제 시장에서 거래된 가격이 아닙니다 — 더 높은 가격에 사려는 사람이 있어도 거래가 안 됐으니까요
- 하지만 대부분의 투자 분석 시스템은 이 종가를 그대로 사용합니다
- 이 오염된 가격이 이동평균, 상관관계, 순위 계산에 조용히 전파됩니다
마치 측정기가 고장 난 온도계로 기후 데이터를 분석하는 것과 같습니다.
핵심 아이디어: 편향 보정으로 진짜 신호를 잡아라
이 논문은 중국 A주 시장에서 500-1,000개의 투자 팩터를 생성하고, 이 오염 문제를 교정하는 절차를 제안합니다. PyTorch 기반의 빠른 계산 프레임워크와 함께, 기하 브라운 운동을 이용한 데이터 증강, 크로스섹션 중립화 전략을 적용합니다.
결과: 연 20% 수익률, Sharpe 2.0
편향 보정을 적용한 전략은 2010-2020년 데이터로 훈련하고, 2021-2024년에 검증한 결과:
- 연환산 수익률 약 20%
- Sharpe 비율 2.0 초과
- 전통적 접근법을 크게 상회
코드는 공개되어 있어 누구나 확인할 수 있습니다: github.com/initial-d/ml-quant-trading
한계와 주의점
이 연구는 중국 A주 시장의 가격제한이라는 특수한 구조에 기반합니다. 한국이나 미국 시장에는 직접 적용하기 어렵지만, 데이터 파이프라인의 숨은 편향을 점검하는 것 자체는 모든 시장에서 중요한 교훈입니다.
논문: ML Enhanced Multi-Factor Quantitative Trading: Bias Correction (A 티어, composite 70.1)
테마 4: 거래비용을 고려한 포트폴리오 — 이론이 현실을 만나다
문제의식: 왜 이론대로 안 될까?
투자 이론책을 보면 "최적 포트폴리오"를 계산하는 공식이 나옵니다. 하지만 실제로 이 공식대로 투자하면 예상만큼 수익이 나오지 않는 경우가 많습니다. 그 이유 중 하나가 거래비용입니다.
주식을 사고팔 때마다 수수료가 나가고, 대량으로 거래하면 시장 가격에 영향을 줘서 예상보다 비싸게 사거나 싸게 팔아야 합니다. 이론에서는 이런 비용을 무시하거나 상수로 가정하지만, 현실에서는 시장 상황에 따라 비용이 크게 변동합니다. 유동성이 부족한 위기 상황에서는 거래비용이 급증합니다.
핵심 아이디어: 비용이 변동하는 세상에서의 투자
이 논문은 포트폴리오 이론의 고전인 확률적 포트폴리오 이론(SPT)을 확률적 거래비용이 있는 현실로 확장합니다. 거래비용을 일정한 숫자가 아니라 시장 상황에 따라 움직이는 확률 변수로 모델링한 것입니다.
쉽게 비유하면, 기존 이론은 "항상 택배비가 3,000원"이라고 가정한 반면, 이 연구는 "택배비가 교통체증에 따라 1,000원에서 10,000원까지 변한다"고 보는 것입니다.

결과: 30년 백테스트에서 여전히 이긴다
CRSP 스몰캡 데이터로 1994년부터 2024년까지 30년간 백테스트한 결과:
- 다양성가중 포트폴리오: 가치가중 벤치마크를 연 3.6%p 초과
- 엔트로피가중 포트폴리오: 연 2.9%p 초과
- 2008년 금융위기와 2020년 코로나 위기에서는 더 큰 하락을 경험했지만, 전체 기간에서는 여전히 초과성과 유지
이 숫자는 현실적인 스프레드와 턴오버 비용을 모두 공제한 후의 수치입니다.
실전 시사점
거래비용이 유동성 스트레스에 따라 변하는 현실을 반영한 포트폴리오 설계는, 자기자본 운용에서 리밸런싱 빈도와 턴오버를 조절하는 데 직접 참고할 수 있습니다. 위기 상황에서 리밸런싱을 줄이고, 평상시에 늘리는 적응형 리밸런싱 전략의 이론적 근거가 됩니다.
논문: Functionally Generated Portfolios Under Stochastic Transaction Costs (A 티어, composite 69.7)
함께 보면 좋은 연구들
이번 달에는 위 4가지 테마 외에도 주목할 만한 연구들이 많았습니다:
팩터 투자와 CTA:
- 베이지안 그래픽 모델로 CTA(Commodity Trading Advisor) 수익을 단기·중기·장기 추세 요인으로 분해한 연구가 나왔습니다. 멀티호라이즌 추세 신호의 가중치 조정에 유용합니다 (논문 링크)
- 전문가 팩터를 이용해 강화학습의 보상을 개선하는 방법으로, 알파 팩터 탐색의 학습 안정성을 높입니다 (논문 링크)
LLM 기반 트레이딩:
- 주문장(order book)까지 모사하는 LLM 트레이딩 에이전트 평가 시뮬레이터 StockSim이 공개되었습니다 (논문 링크)
- LLM 에이전트가 금융 시계열의 확률미분방정식을 탐색해 "거래할까 말까"를 판단하는 프레임워크도 나왔습니다 (논문 링크)
- 뉴스 감성을 LLM의 선호 최적화(preference optimization)로 학습해 기존 SFT 대비 과적합을 줄이는 FinDPO (논문 링크)
포트폴리오 최적화:
- "인과적 예측변수만 유효하다"는 통념을 깨고, 포트폴리오 효율성의 핵심이 예측 신호의 기하학적 정렬에 있다는 연구 (논문 링크)
- Kelly 기준을 직렬의존성까지 일반화한 온라인 포트폴리오 학습 (논문 링크)
월 전체 Big Picture: 현실의 마찰을 정면으로 다루는 연구만이 살아남는다
2025년 7월의 시스템 트레이딩 연구를 관통하는 하나의 메시지가 있습니다: 현실의 마찰·편향·제도를 정면으로 다루는 연구만이 실전에서 살아남는다.
- 포트폴리오 최적화에서는 확률적 거래비용이 무마찰 가정을 탈피하고
- 시장 미시구조에서는 19개월간의 실증 데이터가 MEV 생태계의 집중화를 계량화하고
- 팩터 투자에서는 가격제한이라는 시장 제도적 특성이 파이프라인을 오염시키는 구조적 편향이 명명되고
- LLM·NLP 분야에서는 감성 분석을 넘어 주문장 시뮬레이션과 SDE 탐색으로 에이전트의 역할이 확장됩니다
이론이 아름답기만 해서는 충분하지 않습니다. 현실의 거래비용, 시장 제도, 데이터의 편향까지 함께 고려해야 비로소 투자에 쓸 수 있는 연구가 됩니다.
더 알아보기
이 글에서 다룬 논문들의 상세한 5차원 점수와 분석은 백필 리포트에서 확인하실 수 있습니다.
- 백필 리포트:
analysis/reports/backfill/2507.md - arXiv 원문 링크: 각 테마 섹션의 "논문" 링크 참조
관련 글

2026년 6월 AI 트레이딩 연구 요약: 더 정교한 모델보다 더 정직한 실행
2026년 6월에 나온 AI·퀀트 트레이딩 논문 198편을 분석했습니다. AMM 수수료 최적화, LLM 트레이딩 에이전트 감사, 기관 포트폴리오 가속, 옵션 가격 신경망 등 4개 테마로 정리하고, '실행 현실주의'라는 관통 메시지를 소개합니다.

더 좋은 모델보다, 더 믿을 수 있는 파이프라인 — 2026년 3월 AI 트레이딩 연구 리뷰
2026년 3월 AI·퀀트 트레이딩 연구에서 주목할 논문 5편을 테마별로 살펴봅니다. LLM의 시간 바이어스, 백테스트 엔진 오차, 포트폴리오 최적화, RL 트레이딩 시스템, MEV 경매 설계까지.

월간 종합 블로그: 2025년 9월 — RL 포트폴리오의 이론적 한계와 새로운 수학적 도구의 등장
2025년 9월 arXiv에 공개된 AI 금융 연구를 5가지 테마로 정리합니다. 강화학습 포트폴리오의 이론적 한계, GFlowNet 기반 알파 마이닝, SABR 메타러닝 IVS 복원, 확산모델 포트폴리오 최적화, LLM 트레이딩 에이전트까지 — 전통 수리금융과 생성 AI가 결합하는 새로운 흐름을 살펴봅니다.