RAG 성능 평가 완벽 가이드: 독립 평가 vs 종단간 평가

고성능 RAG(검색 증강 생성) 파이프라인을 구축하는 것만큼 중요한 것은,
"이 시스템이 실제로 얼마나 잘 동작하는가"를 객관적으로 측정하는 일입니다.

RAG는 크게 검색(Retrieval)과 생성(Generation)으로 구성되며,
평가도 이 두 축을 어떻게 분리·통합해서 볼지에 따라 성격이 달라집니다.

1. RAG 평가의 핵심 축: RAG Triad

RAGAS, TruLens 등에서 널리 쓰이는 기본 프레임은 다음 3요소입니다.

1.1 Context Precision (검색 정밀도)

검색된 문서가 질문과 실제로 관련 있는지 평가
검색기 자체의 품질을 반영

1.2 Faithfulness (신뢰성)

답변이 검색 컨텍스트에 근거했는지 평가
근거 없는 생성(할루시네이션) 탐지 핵심 지표

1.3 Answer Relevance (답변 관련성)

최종 답변이 사용자 질문의 의도에 맞는지 평가
생성기의 실질적 유용성 판단

2. 독립 평가 vs 종단간 평가

RAG 평가는 크게 두 전략으로 나뉩니다.

2.1 독립 평가 (Component-level)

검색기와 생성기를 분리해 각각 평가하는 방식입니다.

검색기 독립 평가

목적: 정답 근거 문서를 잘 가져오는지 확인
대표 지표:
- Hit Rate@K: 상위 K개 내 정답 포함 여부
- MRR: 정답 문서 순위 품질
- nDCG: 관련도 기반 순위 품질

생성기 독립 평가

목적: 주어진 컨텍스트로 답변을 정확·일관되게 생성하는지 확인
대표 지표:
- Faithfulness
- 문장 품질(가독성/형식/어조)

장점:

문제 원인 분해가 쉬움 (검색 문제인지 생성 문제인지 명확)
개발·튜닝 단계에서 빠른 실험 가능

단점:

실제 사용자 경험(전체 파이프라인 결과)과 1:1로 일치하지 않을 수 있음

2.2 종단간 평가 (End-to-End)

질문 입력부터 최종 답변까지 전체 시스템을 한 번에 평가합니다.

방법: 질문 → 모델 답변을 Golden Answer와 비교
대표 지표:
- Answer Correctness
- Semantic Similarity

장점:

실제 서비스 품질과 가장 직접적으로 연결

단점:

성능 저하 시 병목 위치 파악이 어려움 (검색/생성 분리 난이도)

3. 자동화 평가 방법론: LLM-as-a-Judge

최근에는 사람이 매번 수작업 채점하지 않고, 강한 모델이 평가자로 참여하는 방식이 널리 사용됩니다.

G-Eval

평가 기준(루브릭)을 프롬프트로 정의
LLM이 점수/판정을 수행
빠르고 유연하지만, 평가 모델 편향 관리 필요

RAGAS

질문-컨텍스트-답변 간 정합성을 구조적으로 측정
RAG 전용 자동 평가 파이프라인에 최적화

BertScore

정답과 답변의 임베딩 유사도 기반 평가
표면 문장 차이가 있어도 의미 유사성 반영에 강점

4. 실무 선택 전략

정답은 둘 중 하나가 아니라 결합 운영입니다.

개발/튜닝 단계

독립 평가 중심
예: Chunking, Hybrid Search, Re-ranker 변경 효과를 정밀 비교

배포 전/운영 단계

종단간 평가 중심
실제 사용자 관점 품질 검증

권장 루프

독립 평가로 병목 식별
개선안 적용
종단간 평가로 최종 사용자 품질 확인
회귀 테스트 세트로 재검증

5. 핵심 결론: Golden Dataset이 승부를 가른다

지표와 도구도 중요하지만, 평가 품질의 본질은 데이터셋입니다.

도메인 특화 질문
정답 근거 문서
기준 답변(Golden Answer)
실패 사례(엣지 케이스)

가 체계적으로 축적된 Golden Dataset이 있어야, 자동화 평가 결과가 실제 품질 개선으로 이어집니다.

한 줄 요약: RAG 평가는 지표 선택보다, 좋은 평가셋을 지속적으로 운영하는 역량이 핵심입니다.