본문 바로가기
카테고리 없음

[LLM 논문 리뷰] Microsoft GraphRAG: 전역 요약을 위한 그래프 기반 RAG 접근법

by JustJunsu 2025. 4. 14.
반응형

From Local to Global: A GraphRAG Approach to Query-Focused Summarization

1. Introduction

전통적인 RAG(Retrieval-Augmented Generation)는 대용량 문서에서 일부 관련 정보를 검색해 LLM이 응답하도록 하는 방식입니다. 하지만 이런 vector 기반 RAG는 "데이터셋에서 핵심 주제는 무엇인가?" 같은 전반적인 통찰(global sensemaking) 질문에는 적합하지 않습니다.

이를 해결하기 위해 Microsoft는 GraphRAG를 제안합니다. 이 방식은 LLM을 이용해 지식 그래프를 생성하고, 그래프 기반 커뮤니티 요약을 통해 전역적인 응답을 생성합니다. Map-Reduce 방식으로 부분 응답을 결합해 최종 응답을 생성함으로써, 대규모 데이터셋에서도 글로벌 질문에 효과적으로 대응할 수 있습니다. 이 방식은 기존 RAG가 놓치기 쉬운 전역적 요약 능력을 향상시켜, 복잡한 데이터셋에서도 통찰력 있는 응답을 생성할 수 있습니다.

2. Related Works

  • 기존 RAG 한계: 기존 RAG는 개별 fact 검색에는 강하지만, 데이터 전체를 이해하는 데는 취약.
  • QFS(Query-Focused Summarization) 기법은 전역 요약에는 적합하지만 대규모 데이터에선 확장성 부족.
  • Graph 기반 접근: 최근에는 LLM을 활용한 knowledge graph 추출, 하이어라키 기반 요약 기법, community detection 등이 연구되고 있음.
  • GraphRAG의 차별성: 기존 그래프 기반 RAG보다 모듈화와 계층적 커뮤니티 요약 구조에 중점.

GraphRAG는 특히 구조화된 전처리와 계층적 요약을 통해 확장성과 의미 기반 응답을 동시에 달성할 수 있는 방식입니다.

3. Method

GraphRAG는 다음 단계로 구성됩니다

Indexing 단계 (오프라인)

  1. Text Chunking: 문서를 토큰 수 기준으로 분할 (예: 600 tokens).
  2. Entity & Relationship 추출: LLM으로 핵심 엔티티 및 관계 추출, 요약 생성.
  3. Knowledge Graph 생성: 추출된 엔티티와 관계로 그래프 구성.
  4. Community Detection: Leiden 알고리즘으로 그래프를 계층적으로 커뮤니티화.
  5. Community Summarization: 하위 커뮤니티 요약을 상위 요약에 반영해 전역 요약 생성.

Querying 단계 (온라인)

  1. 사용자의 질문에 대해 community summaries를 map 단계에서 부분 응답으로 생성.
  2. 도움 정도(0~100점)를 평가하여 도움이 되는 응답만 선택.
  3. reduce 단계에서 전체 응답 생성.

이러한 구조는 전역적인 질문을 빠르고 정밀하게 처리하도록 최적화되어 있습니다.

4. Experiments

실험 1: 사람 평가 기반 비교

  • 데이터셋:
    • Podcast transcripts (Behind the Tech)
    • News Articles (10년간 뉴스 요약)
  • 비교 조건:
    • GraphRAG (C0~C3: 커뮤니티 레벨별)
    • TS: 원문 기반 map-reduce summarization
    • SS: 기존 vector RAG 방식
  • 평가지표 (LLM-as-a-judge):
    • Comprehensiveness (포괄성)
    • Diversity (다양성)
    • Empowerment (이해력 향상도)
    • Directness (정확한 질문 대응력)
  • 결과 요약:
    • GraphRAG가 vector RAG보다 포괄성과 다양성 면에서 72~83% 승률 기록
    • 특히 C1~ C3(중간~하위 커뮤니티 요약)이 가장 좋은 성능을 보임
    • Root 수준 요약(C0)은 속도 및 토큰 효율에서 매우 우수함
방식 포괄성(Comprehensiveness) 다양성(Diversity) 효율성(Token)
GraphRAG (C1~C3) 최고 성능 최고 성능 중간
GraphRAG (C0) 준수 좋음 가장 효율적
Vector RAG 낮음 낮음 중간
TS (원문 요약) 좋음 좋음 비효율적

실험 2: Factual Claim 기반 평가

  • Claimify로 생성된 응답에서 사실 주장 개수와 클러스터 수 측정
  • 결과:
    • GraphRAG가 vector RAG보다 더 많은 사실 주장 및 주제 다양성 확보
    • 특히 Podcast 데이터셋에서 효과 극대화

5. Conclusion

GraphRAG는 기존 RAG 시스템의 한계를 극복하기 위해 지식 그래프 생성 + 계층적 요약 + 질의 초점 요약을 통합한 새로운 방식입니다. 특히 다음과 같은 상황에서 강점을 가집니다:

  • 전역적 통찰이 필요한 질문 처리
  • 반복적인 요약 질의
  • 토큰 효율성이 중요한 환경

GraphRAG는 단순한 검색을 넘어서, 데이터의 의미 구조를 반영한 지식 요약 시스템으로 나아가는 기반이 됩니다.

Reference

https://arxiv.org/abs/2404.16130

반응형