data4 Apache Airflow란? 데이터 파이프라인 자동화부터 기본 예제까지 Airflow란 무엇인가?Apache Airflow는 데이터 파이프라인(workflows)을 관리하고 자동화하기 위한 오픈소스 플랫폼입니다. 데이터 파이프라인을 시각적으로 설계하고, 스케줄링 및 모니터링할 수 있는 강력한 도구로, 데이터 엔지니어들이 작업의 흐름을 효율적으로 관리할 수 있도록 돕습니다.Airflow는 파이썬 코드로 워크플로우를 정의하고, DAG(Directed Acyclic Graph) 형태로 작업의 흐름을 설정하여 각 단계의 의존성을 체계적으로 관리합니다.왜 Apache Airflow가 필요한가?데이터 파이프라인의 자동화는 현대 데이터 엔지니어링에서 필수적입니다. 특히 대규모 데이터의 ETL(추출, 변환, 로드) 작업을 반복적으로 수행하거나, 여러 작업 간의 복잡한 의존 관계를 다룰 때.. 2024. 11. 14. [Spark] 아파치 스파크(Apache Spark)란? 1. Apache Spark란?Apache Spark는 대규모 데이터를 빠르게 처리할 수 있는 오픈소스 분산 처리 프레임워크입니다. Spark는 대량의 데이터를 여러 서버(노드)에 분산하여 병렬로 처리할 수 있으며, 메모리 기반 처리를 통해 빠른 속도로 데이터를 분석합니다. 특히 데이터 분석, 머신러닝, 실시간 스트리밍, 그래프 처리를 지원해 다양한 데이터 분석 환경에서 널리 사용되고 있습니다.Spark는 Hadoop MapReduce보다 성능이 뛰어난 것으로 잘 알려져 있으며, 여러 데이터 소스와 통합이 쉽고, 다양한 데이터 처리 요구에 맞는 모듈을 제공해 활용도가 높습니다. 2. Spark가 필요한 이유Apache Spark는 다음과 같은 이유로 많은 빅데이터 프로젝트에서 필요합니다:2-1. 대규모 .. 2024. 11. 11. [Snowflake] Snowflake SnowPro Core 시험 Cheat Sheet 6 (데이터 보호 및 데이터 공유) 6. 데이터 보호 및 데이터 공유6.1 Snowflake를 통한 지속적 데이터 보호1) Time Travel 개념: Time Travel은 특정 시점의 데이터를 복구할 수 있는 기능입니다. 실수로 데이터를 삭제하거나 잘못 변경했을 때 과거 상태로 되돌릴 수 있습니다.설정 가능 기간: 기본적으로 1일로 설정되며, Enterprise 플랜 이상에서는 최대 90일까지 설정 가능합니다.복구 방법:SELECT ... AT 절을 사용하여 특정 시간의 데이터를 조회할 수 있습니다.UNDROP 명령어를 사용해 삭제된 테이블을 복구할 수 있습니다.예시: SELECT * FROM table_name AT (TIMESTAMP => '2024-01-01T00:00:00'); 2) Fail-Safe 개념: Time Travel.. 2024. 11. 2. [Snowflake] SnowPro Core 시험 Cheat Sheet 4(데이터 로드 및 언로드) 4. 데이터 로드 및 언로드Snowflake의 데이터 로드 및 언로드 작업은 데이터를 효율적으로 Snowflake에 저장하거나 외부로 전송하는 데 필수적인 과정입니다. 여기에는 다양한 기능과 명령어를 통해 데이터 로드 및 언로드 성능을 최적화하는 방법이 포함됩니다.4.1 데이터 로드 시 고려해야 할 개념과 수행해야 할 모범 사례 정의하기Snowflake에 데이터를 로드할 때는 스테이지, 파일 크기와 형식, 폴더 구조, 로드 방식 및 Snowpipe 설정 등을 고려하여 데이터를 효율적으로 관리해야 합니다.1) 스테이지 및 스테이지 유형Snowflake에서 데이터를 로드하기 위한 임시 스토리지인 스테이지에는 내부 스테이지와 외부 스테이지가 있으며, 각 유형에 따라 로드 방식이 달라집니다. 내부 스테이지 생성.. 2024. 10. 29. 이전 1 다음