자연어 처리(NLP)는 컴퓨터가 인간의 언어를 이해하고 처리하는 기술로, 문장 간의 유사도 평가와 의미적 관계를 분석하는 데 많은 연구가 진행되고 있습니다. 이러한 연구에서 중요한 역할을 하는 데이터셋들이 있으며, 이번 포스팅에서는 NLP에서 자주 사용되는 문장 유사도 및 의미 관계 평가 데이터셋을 정리해보겠습니다.
1. STS-B (Semantic Textual Similarity Benchmark)
- 용도: 두 문장 사이의 semantic similarity (의미적 유사도)의 정도를 평가
- 언어: 영어
- 데이터셋 규모: 8,628쌍
- 평가 방식: (0~5)
- 링크: https://paperswithcode.com/dataset/sts-benchmark
STS-B는 두 문장의 의미적 유사도를 수치적으로 평가할 수 있는 데이터셋으로, 여러 NLP 연구에서 많이 활용되고 있습니다.
2. KorSTS (Korean Semantic Textual Similarity)
- 용도: 두 한국어 문장 사이의 semantic similarity (의미적 유사도)의 정도를 평가
- 언어: 한국어
- 데이터셋 규모: 8,628쌍
- 평가 방식: (0~5)
- 링크: https://github.com/kakaobrain/kor-nlu-datasets/tree/master/KorSTS 데이터셋
KorSTS는 한국어 문장의 의미적 유사도를 평가할 수 있는 대표적인 데이터셋입니다.
3. SICK (Sentences Involving Compositional Knowledge)
- 용도: 두 문장 사이의 semantic similarity (의미적 유사도)를 평가하며 중립, 모순, 함축 포함
- 언어: 영어
- 데이터셋 규모: 10,000쌍
- 평가 방식: (0~5), (contradiction, neutral, entailment)
- 링크: https://marcobaroni.org/composes/sick.html
SICK 데이터셋은 문장 간 유사도뿐 아니라 중립, 모순, 함축이라는 개념을 포함한 평가 방식으로 구성되어 있어 의미 분석에 많은 도움을 줍니다.
4. Quora Question Pairs
- 용도: 두 질문 사이의 Paraphrasing 여부 평가
- 언어: 영어
- 데이터셋 규모: 400,000쌍
- 평가 방식: [0,1]
- 링크: https://paperswithcode.com/dataset/quora-question-pairs
이 데이터셋은 같은 질문을 다르게 표현했는지 여부를 판단하는 데 많이 사용됩니다.
5. MRPC (Microsoft Research Paraphrase Corpus)
- 용도: 두 문장이 같은 의미인지 평가
- 언어: 영어
- 데이터셋 규모: 5,800쌍
- 평가 방식: [0,1]
- 링크: https://www.microsoft.com/en-us/download/details.aspx?id=52398
Microsoft에서 제공하는 MRPC는 문장의 의미적 유사성을 평가하는 데 자주 활용되는 데이터셋 중 하나입니다.
6. SNLI (Stanford Natural Language Inference)
- 용도: 두 문장 사이의 의미적 관계를 평가 (중립, 모순, 함축)
- 언어: 영어
- 데이터셋 규모: 570,000쌍
- 평가 방식: (contradiction, neutral, entailment)
- 링크: https://nlp.stanford.edu/projects/snli/
SNLI는 자연어 추론 작업에 많이 활용되는 데이터셋으로, 두 문장 간의 논리적 관계를 평가합니다.
7. MultiNLI (Multi-Genre Natural Language Inference)
- 용도: 다양한 장르에서 두 문장 사이의 의미적 관계를 평가 (중립, 모순, 함축)
- 언어: 영어
- 데이터셋 규모: 433,000쌍
- 평가 방식: (contradiction, neutral, entailment)
- 링크: https://cims.nyu.edu/~sbowman/multinli/
MultiNLI는 여러 장르의 텍스트에서 문장 간의 의미적 관계를 평가하는 데이터셋입니다.
8. PAWS (Paraphrase Adversaries from Word Scrambling)
- 용도: 문장 구조는 유사하지만 의미가 다른 경우와 같은 경우를 평가 (Paraphrasing 여부 평가)
- 언어: 영어
- 데이터셋 규모: 109,000쌍
- 평가 방식: [0,1]
- 링크: https://github.com/google-research-datasets/paws
PAWS는 문장 구조는 비슷하지만 의미는 다른 경우를 구분하는 데 중점을 둔 데이터셋입니다.
9. PAWS-X (Cross-lingual PAWS)
- 용도: 다양한 언어의 문장 구조는 유사하지만 의미가 다른 경우와 같은 경우를 평가
- 언어: 프랑스어, 스페인어, 독일어, 중국어, 일본어, 한국어
- 데이터셋 규모: 53,338쌍
- 평가 방식: [0,1]
- 링크: https://github.com/google-research-datasets/paws/tree/master/pawsx 데이터셋
PAWS-X는 다국어 데이터를 통해 Paraphrasing 여부를 평가하는 데이터셋입니다.
10. KoNLI (Korean Natural Language Inference)
- 용도: SNLI와 MNLI와 같이 한국어로 된 두 문장 사이의 의미적 관계를 평가
- 언어: 한국어
- 데이터셋 규모: 950,000쌍
- 평가 방식: (contradiction, neutral, entailment)
- 링크: https://github.com/kakaobrain/kor-nlu-datasets/tree/master/KorNLI
KoNLI는 한국어로 자연어 추론을 할 수 있는 대규모 데이터셋으로, 다양한 한국어 문장 간의 논리적 관계를 평가하는 데 사용됩니다.
11. 한국어 사용 데이터셋 요약
데이터셋 종류 | 용도 | 언어 종류 | 데이터 규모(쌍) | 평가 방식 | 링크 |
KoNLI | SNLI와 MNLI와 같이 한국어로 된 두 문장 사이의 의미적 관계를 평가 | 한국어 | 950,000 | (contradiction, neutral, entailment) | https://github.com/kakaobrain/kor-nlu-datasets/tree/master/KorNLI |
KorSTS | 두 한국어 문장 사이의 semantic similarity(의미적 유사도)의 정도를 평가 | 한국어 | 8,628 | (0~5) | https://github.com/kakaobrain/kor-nlu-datasets/tree/master/KorSTS |
PAWS-X | 다양한 언어의 문장 구조는 유사하지만 의미가 다른 경우와 같은 경우를 평가 | 프랑스어, 스페인어, 독일어, 중국어, 일본어, 한국어 | 53338 | [0, 1] | https://github.com/google-research-datasets/paws/tree/master/pawsx |
한국어를 활용한 자연어 처리 연구를 위해 위 데이터셋들을 참고하시고, 필요에 맞는 연구에 활용해 보세요.
'LLM' 카테고리의 다른 글
[LLM] STS(Sentence Textual Similarity) 계산 방법 정리 (0) | 2024.10.11 |
---|---|
[LLM] PAWS-X 한국어 데이터셋을 이용한 HuggingFace Embedding 모델 Finetuning (4) | 2024.10.08 |
랭체인(Langchain)을 이용한 RAG 시스템 만들기 (0) | 2024.04.20 |
랭스미스(Lang Smith)란? (0) | 2024.04.06 |
랭체인(Langchain)을 이용한 RAG(Retrieval Augmented Generation) 시스템이란? (0) | 2024.04.05 |