본문 바로가기

llm11

[LLM 논문 리뷰] Microsoft GraphRAG: 전역 요약을 위한 그래프 기반 RAG 접근법 From Local to Global: A GraphRAG Approach to Query-Focused Summarization1. Introduction전통적인 RAG(Retrieval-Augmented Generation)는 대용량 문서에서 일부 관련 정보를 검색해 LLM이 응답하도록 하는 방식입니다. 하지만 이런 vector 기반 RAG는 "데이터셋에서 핵심 주제는 무엇인가?" 같은 전반적인 통찰(global sensemaking) 질문에는 적합하지 않습니다.이를 해결하기 위해 Microsoft는 GraphRAG를 제안합니다. 이 방식은 LLM을 이용해 지식 그래프를 생성하고, 그래프 기반 커뮤니티 요약을 통해 전역적인 응답을 생성합니다. Map-Reduce 방식으로 부분 응답을 결합해 최종 응답.. 2025. 4. 14.

LangChain을 활용한 LongTextReorder 사용법 LangChain은 LLM(Large Language Models)을 기반으로 한 다양한 작업을 수행할 수 있는 강력한 프레임워크입니다. 특히, 긴 텍스트를 정리하거나 재배열하는 데 매우 유용한 도구 중 하나가 LongTextReorder입니다. 이 글에서는 LongTextReorder를 사용하는 방법과 그 활용 사례를 소개합니다. 1. LongTextReorder란 무엇인가?LongTextReorder는 긴 텍스트를 보다 논리적이고 체계적인 방식으로 재구성하는 데 사용됩니다. 예를 들어, 긴 문서가 섹션 간의 논리적 연결이 부족하거나 내용의 순서가 혼란스러운 경우, 이 도구를 활용하면 간결하고 구조화된 문서로 변환할 수 있습니다. 2. LongTextReorder 사용법필수 라이브러리 설치먼저 Lang.. 2024. 11. 26.

[LLM] LangChain으로 OpenAI Batch 처리 간단히 구현하기 OpenAI API를 사용할 때 다량의 데이터를 처리해야 하는 경우, Batch 실행 방식은 효율적인 선택입니다. LangChain 라이브러리는 이를 간단하고 직관적으로 지원하는 도구입니다. 이 글에서는 LangChain의 ChatOpenAI와 batch() 메서드를 활용해 OpenAI Batch 처리를 간단히 구현하는 방법을 소개합니다. 1. LangChain과 Batch 처리란?LangChain은 OpenAI와 같은 LLM을 효과적으로 활용하기 위한 고급 Python 라이브러리입니다. Batch 처리는 여러 프롬프트를 한 번에 묶어 처리하는 방식으로, 대량의 데이터를 효율적으로 관리할 수 있습니다.LangChain Batch 처리의 장점간결한 코드: 몇 줄의 코드로 여러 요청을 처리할 수 있습니다... 2024. 11. 25.

[LLM] Long-Context LLMs Meet RAG: 긴글 처리와 RAG를 위한 최적화 전략 Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG 1. IntroductionRAG시스템은 대규모 언어 모델이 외부 정보를 활용하여 생성 품질을 높일 수 있도록 설계되었습니다. 특히, 긴 문맥을 처리할 수 있는 LLM이 발전하면서 더 많은 검색 결과를 활용하여 지능형 답변을 생성할 수 있는 가능성이 열렸습니다. 하지만 연구에 따르면 검색 결과가 많아질수록 성능이 초기에는 향상되다가, 이후에는 불필요하거나 부정확한 정보(Hard Negatives)로 인해 성능이 저하되는 문제가 발생합니다.이 글에서는 논문 "Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs i.. 2024. 11. 21.

[LLM] RAPTOR: 긴글(Long Context)을 위한 최적의 RAG 검색 전략 긴 문서를 효율적으로 처리하고, Long Context 문제를 해결하는 새로운 RAG 시스템, RAPTOR를 소개합니다. 본 글에서는 RAPTOR의 개념, 작동 방식, 그리고 이를 활용한 검색 및 요약 성능 향상에 대해 자세히 설명드리겠습니다. 특히, 긴글과 Long Context 문제를 해결하기 위한 트리 기반 요약 및 검색 시스템의 강점을 중점적으로 다룹니다. 1. Introduction긴글과 Long Context의 과제RAG(Retrieval-Augmented Generation) 시스템은 긴 문서 또는 복잡한 Long Context를 처리하는 데 한계를 가지고 있습니다.문제점:대형 언어 모델(LLM)의 입력 길이 제한.긴 문서에서 효율적으로 정보를 검색하기 어려움.계산 비용 증가와 성능 저하... 2024. 11. 20.

[LLM] HuggingFace SentenceTransformer에서 Tokenizer에 새 단어 추가하고 의미 학습하기 HuggingFace의 SentenceTransformer를 사용할 때 기존 tokenizer에 없는 새로운 단어를 추가하고, 그 단어의 의미를 학습시키는 과정이 필요할 때가 있습니다. 이때 라벨이 포함된 학습 데이터를 사용하면 모델이 새 단어가 포함된 문맥을 더 잘 이해할 수 있게 됩니다. 이 포스팅에서는 새 단어를 추가하고 라벨이 있는 데이터를 활용해 학습하는 방법을 단계별로 설명하겠습니다. Step 1. 기존 Tokenizer 불러오기먼저, 사용할 SentenceTransformer 모델을 선택하고, 이 모델의 tokenizer를 가져옵니다.from transformers import AutoTokenizermodel_name = "sentence-transformers/all-mpnet-base-.. 2024. 11. 4.

이전 1 2 다음

티스토리툴바