LLM

자연어 처리(NLP)에서 자주 사용되는 문장 유사도 및 의미 관계 평가 데이터셋 정리

JustJunsu 2024. 9. 27. 16:49
728x90

자연어 처리(NLP)는 컴퓨터가 인간의 언어를 이해하고 처리하는 기술로, 문장 간의 유사도 평가와 의미적 관계를 분석하는 데 많은 연구가 진행되고 있습니다. 이러한 연구에서 중요한 역할을 하는 데이터셋들이 있으며, 이번 포스팅에서는 NLP에서 자주 사용되는 문장 유사도 및 의미 관계 평가 데이터셋을 정리해보겠습니다.

1. STS-B (Semantic Textual Similarity Benchmark)

STS-B는 두 문장의 의미적 유사도를 수치적으로 평가할 수 있는 데이터셋으로, 여러 NLP 연구에서 많이 활용되고 있습니다.

2. KorSTS (Korean Semantic Textual Similarity)

KorSTS는 한국어 문장의 의미적 유사도를 평가할 수 있는 대표적인 데이터셋입니다.

 

3. SICK (Sentences Involving Compositional Knowledge)

  • 용도: 두 문장 사이의 semantic similarity (의미적 유사도)를 평가하며 중립, 모순, 함축 포함
  • 언어: 영어
  • 데이터셋 규모: 10,000쌍
  • 평가 방식: (0~5), (contradiction, neutral, entailment)
  • 링크: https://marcobaroni.org/composes/sick.html

SICK 데이터셋은 문장 간 유사도뿐 아니라 중립, 모순, 함축이라는 개념을 포함한 평가 방식으로 구성되어 있어 의미 분석에 많은 도움을 줍니다.

4. Quora Question Pairs

이 데이터셋은 같은 질문을 다르게 표현했는지 여부를 판단하는 데 많이 사용됩니다.

5. MRPC (Microsoft Research Paraphrase Corpus)

Microsoft에서 제공하는 MRPC는 문장의 의미적 유사성을 평가하는 데 자주 활용되는 데이터셋 중 하나입니다.

6. SNLI (Stanford Natural Language Inference)

  • 용도: 두 문장 사이의 의미적 관계를 평가 (중립, 모순, 함축)
  • 언어: 영어
  • 데이터셋 규모: 570,000쌍
  • 평가 방식: (contradiction, neutral, entailment)
  • 링크: https://nlp.stanford.edu/projects/snli/

SNLI는 자연어 추론 작업에 많이 활용되는 데이터셋으로, 두 문장 간의 논리적 관계를 평가합니다.

7. MultiNLI (Multi-Genre Natural Language Inference)

  • 용도: 다양한 장르에서 두 문장 사이의 의미적 관계를 평가 (중립, 모순, 함축)
  • 언어: 영어
  • 데이터셋 규모: 433,000쌍
  • 평가 방식: (contradiction, neutral, entailment)
  • 링크: https://cims.nyu.edu/~sbowman/multinli/

MultiNLI는 여러 장르의 텍스트에서 문장 간의 의미적 관계를 평가하는 데이터셋입니다.

8. PAWS (Paraphrase Adversaries from Word Scrambling)

  • 용도: 문장 구조는 유사하지만 의미가 다른 경우와 같은 경우를 평가 (Paraphrasing 여부 평가)
  • 언어: 영어
  • 데이터셋 규모: 109,000쌍
  • 평가 방식: [0,1]
  • 링크: https://github.com/google-research-datasets/paws

PAWS는 문장 구조는 비슷하지만 의미는 다른 경우를 구분하는 데 중점을 둔 데이터셋입니다.

9. PAWS-X (Cross-lingual PAWS)

PAWS-X는 다국어 데이터를 통해 Paraphrasing 여부를 평가하는 데이터셋입니다.

10. KoNLI (Korean Natural Language Inference)

KoNLI는 한국어로 자연어 추론을 할 수 있는 대규모 데이터셋으로, 다양한 한국어 문장 간의 논리적 관계를 평가하는 데 사용됩니다.

 

11. 한국어 사용 데이터셋 요약

데이터셋 종류 용도 언어 종류 데이터 규모(쌍) 평가 방식 링크
KoNLI SNLI와 MNLI와 같이 한국어로 된 두 문장 사이의 의미적 관계를 평가 한국어 950,000 (contradiction, neutral, entailment) https://github.com/kakaobrain/kor-nlu-datasets/tree/master/KorNLI
KorSTS 두 한국어 문장 사이의 semantic similarity(의미적 유사도)의 정도를 평가 한국어 8,628 (0~5) https://github.com/kakaobrain/kor-nlu-datasets/tree/master/KorSTS
PAWS-X 다양한 언어의 문장 구조는 유사하지만 의미가 다른 경우와 같은 경우를 평가 프랑스어, 스페인어, 독일어, 중국어, 일본어, 한국어 53338 [0, 1] https://github.com/google-research-datasets/paws/tree/master/pawsx

 

한국어를 활용한 자연어 처리 연구를 위해 위 데이터셋들을 참고하시고, 필요에 맞는 연구에 활용해 보세요.

728x90