본문 바로가기

2024/11/041

[LLM] HuggingFace SentenceTransformer에서 Tokenizer에 새 단어 추가하고 의미 학습하기 HuggingFace의 SentenceTransformer를 사용할 때 기존 tokenizer에 없는 새로운 단어를 추가하고, 그 단어의 의미를 학습시키는 과정이 필요할 때가 있습니다. 이때 라벨이 포함된 학습 데이터를 사용하면 모델이 새 단어가 포함된 문맥을 더 잘 이해할 수 있게 됩니다. 이 포스팅에서는 새 단어를 추가하고 라벨이 있는 데이터를 활용해 학습하는 방법을 단계별로 설명하겠습니다. Step 1. 기존 Tokenizer 불러오기먼저, 사용할 SentenceTransformer 모델을 선택하고, 이 모델의 tokenizer를 가져옵니다.from transformers import AutoTokenizermodel_name = "sentence-transformers/all-mpnet-base-.. 2024. 11. 4.

이전 1 다음

티스토리툴바