고성능 RAG(검색 증강 생성) 파이프라인을 구축하는 것만큼 중요한 것은,
"이 시스템이 실제로 얼마나 잘 동작하는가"를 객관적으로 측정하는 일입니다.

RAG는 크게 검색(Retrieval)생성(Generation)으로 구성되며,
평가도 이 두 축을 어떻게 분리·통합해서 볼지에 따라 성격이 달라집니다.

1. RAG 평가의 핵심 축: RAG Triad

RAGAS, TruLens 등에서 널리 쓰이는 기본 프레임은 다음 3요소입니다.

1.1 Context Precision (검색 정밀도)

  • 검색된 문서가 질문과 실제로 관련 있는지 평가
  • 검색기 자체의 품질을 반영

1.2 Faithfulness (신뢰성)

  • 답변이 검색 컨텍스트에 근거했는지 평가
  • 근거 없는 생성(할루시네이션) 탐지 핵심 지표

1.3 Answer Relevance (답변 관련성)

  • 최종 답변이 사용자 질문의 의도에 맞는지 평가
  • 생성기의 실질적 유용성 판단

2. 독립 평가 vs 종단간 평가

RAG 평가는 크게 두 전략으로 나뉩니다.

2.1 독립 평가 (Component-level)

검색기와 생성기를 분리해 각각 평가하는 방식입니다.

검색기 독립 평가

  • 목적: 정답 근거 문서를 잘 가져오는지 확인
  • 대표 지표:
    • Hit Rate@K: 상위 K개 내 정답 포함 여부
    • MRR: 정답 문서 순위 품질
    • nDCG: 관련도 기반 순위 품질

생성기 독립 평가

  • 목적: 주어진 컨텍스트로 답변을 정확·일관되게 생성하는지 확인
  • 대표 지표:
    • Faithfulness
    • 문장 품질(가독성/형식/어조)

장점:

  • 문제 원인 분해가 쉬움 (검색 문제인지 생성 문제인지 명확)
  • 개발·튜닝 단계에서 빠른 실험 가능

단점:

  • 실제 사용자 경험(전체 파이프라인 결과)과 1:1로 일치하지 않을 수 있음

2.2 종단간 평가 (End-to-End)

질문 입력부터 최종 답변까지 전체 시스템을 한 번에 평가합니다.

  • 방법: 질문 → 모델 답변Golden Answer와 비교
  • 대표 지표:
    • Answer Correctness
    • Semantic Similarity

장점:

  • 실제 서비스 품질과 가장 직접적으로 연결

단점:

  • 성능 저하 시 병목 위치 파악이 어려움 (검색/생성 분리 난이도)

3. 자동화 평가 방법론: LLM-as-a-Judge

최근에는 사람이 매번 수작업 채점하지 않고, 강한 모델이 평가자로 참여하는 방식이 널리 사용됩니다.

G-Eval

  • 평가 기준(루브릭)을 프롬프트로 정의
  • LLM이 점수/판정을 수행
  • 빠르고 유연하지만, 평가 모델 편향 관리 필요

RAGAS

  • 질문-컨텍스트-답변 간 정합성을 구조적으로 측정
  • RAG 전용 자동 평가 파이프라인에 최적화

BertScore

  • 정답과 답변의 임베딩 유사도 기반 평가
  • 표면 문장 차이가 있어도 의미 유사성 반영에 강점

4. 실무 선택 전략

정답은 둘 중 하나가 아니라 결합 운영입니다.

개발/튜닝 단계

  • 독립 평가 중심
  • 예: Chunking, Hybrid Search, Re-ranker 변경 효과를 정밀 비교

배포 전/운영 단계

  • 종단간 평가 중심
  • 실제 사용자 관점 품질 검증

권장 루프

  1. 독립 평가로 병목 식별
  2. 개선안 적용
  3. 종단간 평가로 최종 사용자 품질 확인
  4. 회귀 테스트 세트로 재검증

5. 핵심 결론: Golden Dataset이 승부를 가른다

지표와 도구도 중요하지만, 평가 품질의 본질은 데이터셋입니다.

  • 도메인 특화 질문
  • 정답 근거 문서
  • 기준 답변(Golden Answer)
  • 실패 사례(엣지 케이스)

가 체계적으로 축적된 Golden Dataset이 있어야, 자동화 평가 결과가 실제 품질 개선으로 이어집니다.

한 줄 요약: RAG 평가는 지표 선택보다, 좋은 평가셋을 지속적으로 운영하는 역량이 핵심입니다.