RAG 성능 평가 완벽 가이드: 독립 평가 vs 종단간 평가
고성능 RAG(검색 증강 생성) 파이프라인을 구축하는 것만큼 중요한 것은,
"이 시스템이 실제로 얼마나 잘 동작하는가"를 객관적으로 측정하는 일입니다.
RAG는 크게 검색(Retrieval)과 생성(Generation)으로 구성되며,
평가도 이 두 축을 어떻게 분리·통합해서 볼지에 따라 성격이 달라집니다.
1. RAG 평가의 핵심 축: RAG Triad
RAGAS, TruLens 등에서 널리 쓰이는 기본 프레임은 다음 3요소입니다.
1.1 Context Precision (검색 정밀도)
- 검색된 문서가 질문과 실제로 관련 있는지 평가
- 검색기 자체의 품질을 반영
1.2 Faithfulness (신뢰성)
- 답변이 검색 컨텍스트에 근거했는지 평가
- 근거 없는 생성(할루시네이션) 탐지 핵심 지표
1.3 Answer Relevance (답변 관련성)
- 최종 답변이 사용자 질문의 의도에 맞는지 평가
- 생성기의 실질적 유용성 판단
2. 독립 평가 vs 종단간 평가
RAG 평가는 크게 두 전략으로 나뉩니다.
2.1 독립 평가 (Component-level)
검색기와 생성기를 분리해 각각 평가하는 방식입니다.
검색기 독립 평가
- 목적: 정답 근거 문서를 잘 가져오는지 확인
- 대표 지표:
- Hit Rate@K: 상위 K개 내 정답 포함 여부
- MRR: 정답 문서 순위 품질
- nDCG: 관련도 기반 순위 품질
생성기 독립 평가
- 목적: 주어진 컨텍스트로 답변을 정확·일관되게 생성하는지 확인
- 대표 지표:
- Faithfulness
- 문장 품질(가독성/형식/어조)
장점:
- 문제 원인 분해가 쉬움 (검색 문제인지 생성 문제인지 명확)
- 개발·튜닝 단계에서 빠른 실험 가능
단점:
- 실제 사용자 경험(전체 파이프라인 결과)과 1:1로 일치하지 않을 수 있음
2.2 종단간 평가 (End-to-End)
질문 입력부터 최종 답변까지 전체 시스템을 한 번에 평가합니다.
- 방법:
질문 → 모델 답변을Golden Answer와 비교 - 대표 지표:
- Answer Correctness
- Semantic Similarity
장점:
- 실제 서비스 품질과 가장 직접적으로 연결
단점:
- 성능 저하 시 병목 위치 파악이 어려움 (검색/생성 분리 난이도)
3. 자동화 평가 방법론: LLM-as-a-Judge
최근에는 사람이 매번 수작업 채점하지 않고, 강한 모델이 평가자로 참여하는 방식이 널리 사용됩니다.
G-Eval
- 평가 기준(루브릭)을 프롬프트로 정의
- LLM이 점수/판정을 수행
- 빠르고 유연하지만, 평가 모델 편향 관리 필요
RAGAS
- 질문-컨텍스트-답변 간 정합성을 구조적으로 측정
- RAG 전용 자동 평가 파이프라인에 최적화
BertScore
- 정답과 답변의 임베딩 유사도 기반 평가
- 표면 문장 차이가 있어도 의미 유사성 반영에 강점
4. 실무 선택 전략
정답은 둘 중 하나가 아니라 결합 운영입니다.
개발/튜닝 단계
- 독립 평가 중심
- 예: Chunking, Hybrid Search, Re-ranker 변경 효과를 정밀 비교
배포 전/운영 단계
- 종단간 평가 중심
- 실제 사용자 관점 품질 검증
권장 루프
- 독립 평가로 병목 식별
- 개선안 적용
- 종단간 평가로 최종 사용자 품질 확인
- 회귀 테스트 세트로 재검증
5. 핵심 결론: Golden Dataset이 승부를 가른다
지표와 도구도 중요하지만, 평가 품질의 본질은 데이터셋입니다.
- 도메인 특화 질문
- 정답 근거 문서
- 기준 답변(Golden Answer)
- 실패 사례(엣지 케이스)
가 체계적으로 축적된 Golden Dataset이 있어야, 자동화 평가 결과가 실제 품질 개선으로 이어집니다.
한 줄 요약: RAG 평가는 지표 선택보다, 좋은 평가셋을 지속적으로 운영하는 역량이 핵심입니다.