본문 바로가기
반응형

전체 글58

[Snowflake] Snowflake 마이크로 파티션 및 데이터 클러스터링이란? Snowflake의 마이크로 파티션 및 데이터 클러스터링Snowflake 데이터 플랫폼은 마이크로 파티셔닝이라는 독특한 기술을 통해 테이블 데이터를 작은 단위로 자동 분할하여 기존 데이터 웨어하우스와 차별화된 성능을 제공합니다. 이 포스팅에서는 마이크로 파티션이 무엇인지, 그리고 Snowflake의 데이터 클러스터링이 어떻게 성능을 최적화하는지에 대해 알아보겠습니다. 1. 마이크로 파티션(Micro-partitions)이란?마이크로 파티션은 Snowflake 테이블의 모든 데이터를 자동으로 분할하여 저장하는 작은 단위입니다. 하나의 마이크로 파티션은 압축되지 않은 데이터 기준으로 약 50 MB에서 500 MB까지 저장할 수 있습니다. 테이블 데이터는 열 방식으로 저장되어 각 마이크로 파티션은 특정 열에 .. 2024. 10. 12.
[Snowflake] Snowflake Multi-Cluster Warehouses란? Snowflake 멀티 클러스터 웨어하우스란?멀티 클러스터 웨어하우스는 가상 웨어하우스에서 여러 클러스터를 추가하여 컴퓨팅 리소스를 확장하고 사용자 동시성 요구를 효율적으로 처리할 수 있도록 합니다. 단일 클러스터 웨어하우스와 동일한 속성을 가지면서도 클러스터를 추가로 할당하여 리소스를 동적으로 관리할 수 있습니다. 1. 멀티 클러스터 웨어하우스의 주요 기능최대 클러스터 수 설정: 최대 10개까지 설정 가능.자동 크기 조정: 클러스터 수를 동적으로 관리하여 워크로드에 따라 자동으로 클러스터를 시작/종료.정적 제어 모드(최대): 고정된 클러스터 수를 설정해 리소스를 정적으로 관리.2. 크기 조정 정책멀티 클러스터 웨어하우스는 자동 크기 조정 모드에서 두 가지 크기 조정 정책을 제공합니다Standard(기본.. 2024. 10. 12.
[LLM] STS(Sentence Textual Similarity) 계산 방법 정리 1. STS(Sentence Textual Similarity) 이란?STS는 두 문장의 의미적 유사성을 평가하는 방법입니다. 문장 벡터 간의 유사도를 계산한 후, 그 값을 실제 라벨과 비교하여 성능을 평가합니다. 라벨은 0~5 사이의 연속적인 값으로 주어질 수 있고, 0 또는 1로 이진화된 경우도 있습니다. 이에 따라 평가 방법도 달라집니다.1.1 Cosine Similarity코사인 유사도는 두 벡터 간의 각도를 이용하여 문장 간 유사도를 계산합니다. 두 벡터가 이루는 각도가 작을수록 유사하다고 평가합니다.계산식:$$ Cosine Similarity = \frac{A \cdot B}{\|A\| \|B\|} $$여기서:$ A \cdot B $ 두 벡터의 내적입니다.$ \| A \| 와 \| B \| $.. 2024. 10. 11.
[Snowflake] Snowflake에서 Virtual Warehouse 관리 실습하기 이번 포스팅에서는 Snowflake의 Virtual Warehouse를 생성하고 관리하는 방법에 대해 알아보겠습니다. Virtual Warehouse는 Snowflake에서 데이터를 처리하는 컴퓨팅 자원으로, 워크로드에 맞게 유연하게 관리할 수 있습니다. 이번 실습에서는 Virtual Warehouse를 생성하고, 크기 및 상태 관리, 동작 설정 등을 다루겠습니다. 1. Virtual Warehouse 생성Virtual Warehouse를 생성하고 기본 설정을 지정합니다.USE ROLE SYSADMIN;CREATE WAREHOUSE DATA_ANALYSIS_WAREHOUSE WAREHOUSE_SIZE = 'SMALL' -- Small 사이즈로 설정AUTO_SUSPEND = 600 -- 10.. 2024. 10. 10.
[Snowflake] Snowflake에서 Masking & Row Access Policy 관리 실습하기 이번 포스팅에서는 Snowflake에서 Masking Policy와 Row Access Policy를 관리하는 방법에 대해 알아보겠습니다. Snowflake에서 데이터베이스와 권한을 어떻게 관리하는지 확인할 수 있습니다.1. 데이터베이스 및 테이블 생성먼저 실습을 위한 데이터베이스와 테이블을 생성합니다.USE ROLE SYSADMIN;CREATE DATABASE SALES_DB;CREATE SCHEMA SALES_SCHEMA;CREATE TABLE CUSTOMERS ( ID NUMBER, NAME STRING, EMAIL STRING, COUNTRY_CODE STRING);INSERT INTO CUSTOMERS VALUES (138763, 'ABC','ABC@gmail.com' ,'IN'), (.. 2024. 10. 9.
[LLM] PAWS-X 한국어 데이터셋을 이용한 HuggingFace Embedding 모델 Finetuning 이번 포스팅에서는 HuggingFace Embedding 모델을 활용하여 문장 쌍의 유사도를 계산하고, 모델의 성능을 평가하는 과정을 다룹니다. PAWS 한국어 데이터셋을 사용하여 모델을 Finetuning하고, 각 모델을 평가하며, 모델 성능을 확인해보겠습니다. 데이터셋 설명PAWS(Paraphrase Adversaries from Word Scrambling) 데이터셋은 문장 쌍이 의미적으로 같은지 여부를 나타내는 데이터셋입니다. 이 데이터셋을 통해 우리는 문장 임베딩의 유사도를 평가할 수 있습니다. 훈련, 테스트, 검증 데이터셋으로 나누어져 있으며, 각 데이터셋은 학습 과정과 평가에 사용됩니다. 특히, PAWS는 유사한 문장의 순서가 바뀌었을 때 모델이 그 차이를 얼마나 잘 구별하는지를 평가할 수 .. 2024. 10. 8.
반응형