AI 2

Vector Database

답변을 생성할 때 필요한 데이터는 사용자가 원하는 정보이다.- 사용자의 질문과 관련있는 데이터여야한다. 관련이 있다는것을 어떻게 판단할까?관련성 파악을 위해 vector를 활용한다.- 단어 또는 문장의 유사도를 파악해서 관련성을 측정한다.  벡터를 어떻게 생성하는가?Embedding 모델을 활용해서 vector를 생성한다.임베딩 모델은 문장에서 비슷한 단어가 자주 붙어있는 것을 학습한다. ex) 왕은 왕자의 아버지다 / 여왕은 왕자의 어머니다=> "왕자의" 라는 단어 앞에 등장하는 "왕"과 "여왕"은 유사할 가능성이 높다벡터 데이터베이스란1. Embedding 모델을 활용해 생성된 vector를 저장- 단순히 vector만 저장하면 안되고 metadata도 같이 저장해야한다 **이 부분이 상당히 중요하다..

RAG란?

1. Retrieval- 데이터를 가져오는것2. Augmented- Retrieval된 데이터를 LLM에 전달하며 마치 정보를 아는것처럼 3. Generation- 답변을 생성 고민할 부분1. 답변 생성은 LLM 역할2. 나는 데이터를 잘 가져와서3. LLM에 잘 전달해야함 데이터를 잘 가져오려면1. 잘 저장해야함2. 잘 저장하는게 어려움 - 제일 중요한 부분임 잘 전달하려면?1. 프롬프트를 잘 활용해야함2. 문맥을 어떻게 제공할 것인가 ***