ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Generation‑Augmented Retrieval (GAR)이란?
    데이터/AI 2025. 7. 24. 22:02

    Generation‑Augmented Retrieval (GAR)이란?

    GAR (Generation‑Augmented Retrieval)은 LLM(대규모 언어 모델)을 활용해 검색 쿼리를 강화한 뒤, 이를 기반으로 실제 웹/문서 검색을 수행하고, 최종적으로 확실하고 정확한 답변을 생성하는 최신 기술입니다. RAG가 ‘검색 → 생성’ 순이라면, GAR는 “생성 → 검색 → 생성”의 흐름을 갖습니다.

     

     

    GAR의 작동 구조

    1. 초기 생성 (Query Generation)
      • LLM이 사용자의 질의를 이해하고, 하위 질문이나 키워드를 생성
      • 예: ‘WHO COVID‑19 guidelines’ → ‘WHO COVID‑19 transmission report 2021’ 
    2. 강화된 검색 (Augmented Retrieval)
      • LLM 생성 쿼리로 문서를 검색, 복수의 유사 문서 확보
    3. 문서 통합 및 최종 생성
      • 검색 결과를 다시 LLM 입력에 통합하여 응답 생성
    4. 피드백 루프 (선택적)
      • 1차 출력 요약 후 추가적인 검색 반복 가능 

     

    이 구조로, 모호한 질문도 의미론적으로 확장되고, 다양한 표현을 통해 다각적 정보 확보가 가능해집니다  .

     

     

    GAR의 장점과 단점

    장점,단점

    장점 단점
    ❇️ 질의 정제 → 검색 정확도 향상 ⏱️ 생성 단계 + 검색 단계의 이중 오버헤드
    🧠 LLM의 reasoning 활용으로 깊이 있는 검색 가능 📥 LLM context 길이 제한에 영향
    🔄 반복을 통해 응답 정밀도 향상 가능  

    예: RAG보다 응답 정밀도 향상 및 적합도 우수 

     

     

    RAG vs GAR 비교

    • RAG (Retrieval‑Augmented Generation):
      • 검색 → 생성. 검색 결과를 생성 단계에 포함.
    • GAR (Generation‑Augmented Retrieval):
      • 생성 → 검색 → 생성. LLM으로 쿼리를 다듬고, 검색 결과를 바탕으로 최종 출력 

     

    GAR는 LLM의 사고(reasoning) 능력을 검색 단계 전반에 활용할 수 있죠.

     

     

    기술적 배경 (논문)

    2020년 ACL 논문 Generation‑Augmented Retrieval for Open‑Domain QA는 다음을 제안했습니다  :

    • LLM이 생성한 컨텍스트를 쿼리에 추가해 검색
    • BM25 기반 sparse 검색에서도 DPR 기반 dense 검색과 비슷하거나 더 나은 성능 기록
    • 다양한 생성 쿼리를 융합해 검색 정확도 상승
    • 자연질문(Natural Questions), TriviaQA 등의 베타 성능 향상 확인

    또한, sparse BM25 + 생성 컨텍스트 조합이 간단하면서도 고성능임을 증명했습니다  .

     

     

    요약

    • GAR = 생성 → 검색 → 생성 순의 순환 구조
    • 키포인트: LLM을 검색 쿼리의 전처리기로 활용
    • 특징 ✔️
      • 질의 모호성 해소
      • 검색 recall 향상
      • 응답 정밀도 ↑
    • RAG와 병행 가능

     

     

    응용 분야 및 전망

    • 도메인 검색 엔진: 의료, 법률, 금융 등 고정밀 정보 검색
    • 기업용 챗봇: 고객 질의에 대해 고도화된 응답 생성
    • 연구/자료 요약: 복합 주제 콘텐츠 정리 및 비교

     

    미래 가능성:

    • Chain‑of‑Thought 기반 reasoning 강화
    • LLM context 확장 → 반복 구조 활성화
    • 대형 언어 모델 성능 향상에 따라 GAR 활용도 증가 예상 

     

    마무리

    GAR는 LLM의 사고력을 검색 단계에 적극 활용하여 단순 검색-생성의 한계를 넘는 접근입니다.

    도메인 성격에 맞게 응답 정밀도와 신뢰도를 끌어올릴 수 있어 특히 고정밀 정보 서비스에서 주목받고 있습니다.

     

     

     

     

    댓글

Designed by Tistory.