본문 바로가기
반응형

전체 글59

[LLM] PAWS-X 한국어 데이터셋을 이용한 HuggingFace Embedding 모델 Finetuning 이번 포스팅에서는 HuggingFace Embedding 모델을 활용하여 문장 쌍의 유사도를 계산하고, 모델의 성능을 평가하는 과정을 다룹니다. PAWS 한국어 데이터셋을 사용하여 모델을 Finetuning하고, 각 모델을 평가하며, 모델 성능을 확인해보겠습니다. 데이터셋 설명PAWS(Paraphrase Adversaries from Word Scrambling) 데이터셋은 문장 쌍이 의미적으로 같은지 여부를 나타내는 데이터셋입니다. 이 데이터셋을 통해 우리는 문장 임베딩의 유사도를 평가할 수 있습니다. 훈련, 테스트, 검증 데이터셋으로 나누어져 있으며, 각 데이터셋은 학습 과정과 평가에 사용됩니다. 특히, PAWS는 유사한 문장의 순서가 바뀌었을 때 모델이 그 차이를 얼마나 잘 구별하는지를 평가할 수 .. 2024. 10. 8.
[Snowflake] Snowflake에서 RBAC 및 DAC 권한 부여 실습하기 이번 포스팅에서는 Snowflake에서 Role-based access control (RBAC)와 Discretionary Access Control (DAC)를 기반으로 역할 및 권한 관리하는 방법에 대해 다뤄보겠습니다. Snowflake 환경에서 진행되며, 기본적인 역할 정의 및 권한 부여, 사용자 생성과 같은 내용을 포함하고 있습니다. 1. RBAC 및 DAC 개념Role-based Access Control (RBAC)RBAC는 사용자에게 할당된 역할(Role)을 기반으로 시스템 리소스에 대한 액세스를 제어하는 방식입니다. 즉, 역할에 따라 특정 리소스에 대한 권한을 부여하고, 사용자는 할당된 역할에 따라 리소스에 접근할 수 있습니다.Discretionary Access Control (DAC).. 2024. 10. 6.
[Docker] Docker와 PostgreSQL을 이용한 데이터 생성 시스템 구축하기 안녕하세요! 이번 포스팅에서는 Docker를 이용하여 PostgreSQL 데이터베이스와 데이터 생성기를 연동하는 방법에 대해 설명하겠습니다. 이 과정을 통해, 컨테이너 기반 환경에서 데이터베이스와 데이터를 자동으로 생성하여 PostgreSQL로 삽입하는 데이터 생성기를 구축해볼 수 있습니다.0. 시스테 구조 구조1.docker-compose.yaml 파일 만들기이 파일은 PostgreSQL 서버와 data_generator라는 컨테이너를 정의하고, 두 컨테이너 간의 의존성을 설정합니다.services: postgres-server: image: postgres:14.0 container_name: postgres-server ports: - 5432:5432 environ.. 2024. 10. 6.
[GCP] GCP SSH 접속 가이드: Public Key 생성부터 접속까지 GCP(Google Cloud Platform)에서 SSH 접속을 설정하는 것은 클라우드 서버 관리의 필수 단계 중 하나입니다. 이번 글에서는 Public Key를 생성하고 GCP에 추가하는 방법과 VS Code를 통해 원격 서버에 접속하는 방법을 단계별로 설명드리겠습니다. 1. SSH 접속용 Public Key 생성먼저 로컬 환경에서 원격 서버로 안전하게 접속할 수 있도록 SSH 키를 생성해 보겠습니다. SSH 키는 Public Key와 Private Key로 구성되며, 이를 통해 인증 과정을 진행합니다.ssh-keygen -t rsa -f [저장경로/파일명] -C [gcp id] -b 2048 위 명령어를 입력하면, SSH 키가 생성됩니다.-t rsa: RSA 방식으로 키를 생성-f [저장경로/파일명.. 2024. 10. 6.
자연어 처리(NLP)에서 자주 사용되는 문장 유사도 및 의미 관계 평가 데이터셋 정리 자연어 처리(NLP)는 컴퓨터가 인간의 언어를 이해하고 처리하는 기술로, 문장 간의 유사도 평가와 의미적 관계를 분석하는 데 많은 연구가 진행되고 있습니다. 이러한 연구에서 중요한 역할을 하는 데이터셋들이 있으며, 이번 포스팅에서는 NLP에서 자주 사용되는 문장 유사도 및 의미 관계 평가 데이터셋을 정리해보겠습니다.1. STS-B (Semantic Textual Similarity Benchmark)용도: 두 문장 사이의 semantic similarity (의미적 유사도)의 정도를 평가언어: 영어데이터셋 규모: 8,628쌍평가 방식: (0~5)링크: https://paperswithcode.com/dataset/sts-benchmarkSTS-B는 두 문장의 의미적 유사도를 수치적으로 평가할 수 있는 데.. 2024. 9. 27.
[PostgreSQL] Python으로 CSV 파일을 PostgreSQL에 테이블로 업로드하기 1. 테이블 존재 여부 확인 (check_table 함수)먼저, CSV 파일로 테이블을 생성하기 전에 해당 테이블이 이미 존재하는지 확인하는 과정이 필요합니다. 이를 위해 check_table 함수를 사용합니다.def check_table(db_connect,table_name): check_table_query = f""" SELECT EXISTS ( SELECT FROM pg_tables WHERE tablename = '{table_name}' ); """ with db_connect.cursor() as cur: cur.execute(check_table_query) result = cur.fetchone()[0] .. 2024. 9. 26.
반응형