728x90

sentence-transformers 2

[LLM] HuggingFace SentenceTransformer에서 Tokenizer에 새 단어 추가하고 의미 학습하기

HuggingFace의 SentenceTransformer를 사용할 때 기존 tokenizer에 없는 새로운 단어를 추가하고, 그 단어의 의미를 학습시키는 과정이 필요할 때가 있습니다. 이때 라벨이 포함된 학습 데이터를 사용하면 모델이 새 단어가 포함된 문맥을 더 잘 이해할 수 있게 됩니다. 이 포스팅에서는 새 단어를 추가하고 라벨이 있는 데이터를 활용해 학습하는 방법을 단계별로 설명하겠습니다. Step 1. 기존 Tokenizer 불러오기먼저, 사용할 SentenceTransformer 모델을 선택하고, 이 모델의 tokenizer를 가져옵니다.from transformers import AutoTokenizermodel_name = "sentence-transformers/all-mpnet-base-..

LLM 2024.11.04

[LLM] Sentence_transformers를 이용해 커스텀 EmbeddingSimilarityEvaluator 만들기

1. 개요문장 임베딩을 사용한 유사도 분석에서 다양한 평가 지표들이 활용됩니다. 이 포스팅에서는 sentence_transformers 라이브러리와 sklearn의 평가 지표를 활용하여, 문장 간 유사도를 평가하는 커스텀 EmbeddingSimilarityEvaluator 클래스를 구현하는 방법을 소개합니다. 문장 임베딩의 유사도 분석은 여러 NLP 작업에 필수적이며, 특히 문장 간 의미적 유사성을 측정하는 것이 중요합니다. 이를 보다 심도 있게 평가하기 위해 다양한 평가 지표를 활용하여 정확도를 높이고, 분석의 결과를 다각적으로 살펴볼 수 있습니다.2. 사용한 라이브러리 및 환경 설정pip install sentence-transformers sklearn scipy pandas다음은 이 프로젝트에서 ..

LLM 2024.10.16
728x90