생성형 인공지능 모델의 정확성과 신뢰성은 외부 소스에서 얻은 사실을 통해 향상될 수 있으며, 이러한 사실을 가져오는 데 사용되는 기술을 검색 증강 생성(RAG)이라고 합니다.
쉽게 설명하자면, 훌륭한 대규모 언어 모델(LLM)은 광범위한 인간 질문에 답할 수 있습니다. 하지만 신뢰할 수 있는 답변을 위해서는 출처가 명시되어야 하고, 이를 위해서는 모델이 조사를 수행해야 하므로 보조 도구가 필요합니다. 이러한 보조 과정을 편의상 검색 증강 생성(RAG)이라고 부릅니다.
검색 증강 생성(RAG) 이해하기
RAG를 더 자세히 이해하려면, LLM 연구에서 이미 존재하는 공백을 메워준다는 점을 알아야 합니다. LLM의 품질 또는 성능은 매개변수의 개수로 측정됩니다. 매개변수는 기본적으로 인간이 단어를 사용하여 문장을 만드는 일반적인 패턴을 의미합니다. LLM은 제공하는 답변에서 일관성이 없을 수 있습니다.
LLM은 때때로 사용자가 필요로 하는 정확한 정보를 제공하기도 하지만, 학습에 포함된 데이터 세트에서 무작위로 사실과 수치를 쏟아내기도 합니다. LLM이 마치 자신이 무슨 말을 하는지 모르는 것처럼 모호한 답변을 하는 경우가 있는데, 이는 실제로 LLM이 자신이 말하는 내용을 제대로 이해하지 못하기 때문입니다. 앞서 매개변수에 대해 언급했듯이, LLM은 단어들을 통계적으로 연관시킬 수는 있지만 그 의미를 알지는 못합니다.
LLM 기반 채팅 시스템에 RAG를 통합하면 두 가지 주요 이점이 있습니다. 첫째, 모델이 최신의 신뢰할 수 있는 사실에 접근할 수 있도록 보장하고, 둘째, 사용자가 모델의 출처에 접근하여 모델의 주장이 신뢰할 만한지 검증할 수 있도록 보장합니다.
IBM 연구소의 언어 기술 담당 이사인 루이스 라스트라스는 다음과 같이 말했습니다
"모델의 답변이 어떤 근거에 기반하여 나왔는지 확인하려면 모델의 답변과 원본 콘텐츠를 상호 참조해야 합니다."
출처: IBM .
RAG는 외부 소스를 기반으로 지식을 습득할 수 있으므로 학습에 사용된 데이터에만 의존할 필요가 없어 오류 발생 가능성과 데이터 유출 위험을 줄여주는 등 여러 가지 이점을 제공합니다. 또한 새로운 데이터 학습 필요성이 줄어들기 때문에 챗봇 운영에 필요한 재정적 및 계산적 비용을 절감할 수 있습니다.
RAG의 장점
기존의 디지털 대화 모델은 수동적인 대화 방식을 사용했습니다. 사용자의 의도를 파악한 후, 그에 기반하여 정보를 추출하고 프로그래머가 미리 defi해 둔 일반적인 스크립트를 통해 답변을 제공했습니다. 이러한 시스템은 간단하고 명확한 질문에는 답변할 수 있었지만, 한계가 있었습니다.
고객이 제기할 수 있는 모든 질문에 답변을 제공하는 것은 시간이 많이 소요되는 작업이었고, 사용자가 단계를 놓치는 경우 챗봇은 상황을 처리하고 즉흥적으로 대응할 능력이 부족했습니다. 그러나 오늘날의 기술 덕분에 챗봇은 사람이 새로운 스크립트를 작성할 필요 없이 사용자에게 맞춤형 답변을 제공할 수 있게 되었으며, RAG는 모델을 최신 콘텐츠로 유지하고 학습 필요성을 줄임으로써 한 단계 더 나아갑니다. 라스트라스가 말했듯이,
"이 모델을 사실 확인도 없이 성급하게 대답하는 열정적인 신입 사원에 비유해 보세요. 경험을 통해 우리는 모르는 것이 있을 때는 멈추고 모른다고 말해야 한다는 것을 배우죠. 하지만 LLM(Learning Leadership Model)은 자신이 답할 수 없는 질문을 인지하도록 명시적인 훈련을 받아야 합니다."
출처: IBM.
아시다시피, 사용자의 질문은 항상 직관적이지 않고 복잡하고 모호하며 장황할 수 있고, 모델이 부족하거나 쉽게 분석할 수 없는 정보를 요구할 수도 있습니다. 이러한 상황에서 LLM은 오작동을 일으킬 수 있습니다. 미세 조정을 통해 이러한 문제를 방지할 수 있으며, LLM이 이러한 상황에 직면했을 때 멈추도록 훈련시킬 수도 있습니다. 하지만 이를 위해서는 수천 개의 이러한 질문 예시를 학습시켜야 합니다.
RAG는 현재 가장 최신의 검증 가능한 데이터를 기반으로 LLM을 구축하는 데 사용할 수 있는 최고의 모델이며, 학습 시간도 단축시켜 줍니다. 하지만 RAG는 시간이 지남에 따라 계속 발전하고 있으며, 아직 미비점을 보완하기 위한 추가 연구가 필요합니다.

