자연어 처리(NLP)는 컴퓨터가 인간의 언어를 이해하고 처리하는 기술로, 문장 간의 유사도 평가와 의미적 관계를 분석하는 데 많은 연구가 진행되고 있습니다. 이러한 연구에서 중요한 역할을 하는 데이터셋들이 있으며, 이번 포스팅에서는 NLP에서 자주 사용되는 문장 유사도 및 의미 관계 평가 데이터셋을 정리해보겠습니다.1. STS-B (Semantic Textual Similarity Benchmark)용도: 두 문장 사이의 semantic similarity (의미적 유사도)의 정도를 평가언어: 영어데이터셋 규모: 8,628쌍평가 방식: (0~5)링크: https://paperswithcode.com/dataset/sts-benchmarkSTS-B는 두 문장의 의미적 유사도를 수치적으로 평가할 수 있는 데..