728x90

NLP 2

[LLM] PAWS-X 한국어 데이터셋을 이용한 HuggingFace Embedding 모델 Finetuning

이번 포스팅에서는 HuggingFace Embedding 모델을 활용하여 문장 쌍의 유사도를 계산하고, 모델의 성능을 평가하는 과정을 다룹니다. PAWS 한국어 데이터셋을 사용하여 모델을 Finetuning하고, 각 모델을 평가하며, 모델 성능을 확인해보겠습니다. 데이터셋 설명PAWS(Paraphrase Adversaries from Word Scrambling) 데이터셋은 문장 쌍이 의미적으로 같은지 여부를 나타내는 데이터셋입니다. 이 데이터셋을 통해 우리는 문장 임베딩의 유사도를 평가할 수 있습니다. 훈련, 테스트, 검증 데이터셋으로 나누어져 있으며, 각 데이터셋은 학습 과정과 평가에 사용됩니다. 특히, PAWS는 유사한 문장의 순서가 바뀌었을 때 모델이 그 차이를 얼마나 잘 구별하는지를 평가할 수 ..

LLM 2024.10.08

자연어 처리(NLP)에서 자주 사용되는 문장 유사도 및 의미 관계 평가 데이터셋 정리

자연어 처리(NLP)는 컴퓨터가 인간의 언어를 이해하고 처리하는 기술로, 문장 간의 유사도 평가와 의미적 관계를 분석하는 데 많은 연구가 진행되고 있습니다. 이러한 연구에서 중요한 역할을 하는 데이터셋들이 있으며, 이번 포스팅에서는 NLP에서 자주 사용되는 문장 유사도 및 의미 관계 평가 데이터셋을 정리해보겠습니다.1. STS-B (Semantic Textual Similarity Benchmark)용도: 두 문장 사이의 semantic similarity (의미적 유사도)의 정도를 평가언어: 영어데이터셋 규모: 8,628쌍평가 방식: (0~5)링크: https://paperswithcode.com/dataset/sts-benchmarkSTS-B는 두 문장의 의미적 유사도를 수치적으로 평가할 수 있는 데..

LLM 2024.09.27
728x90