본문 바로가기
반응형

오블완21

Docker를 이용한 ChromaDB와 데이터 생성 컨테이너 연동하기 이번 포스팅에서는 Docker를 이용하여 ChromaDB와 데이터 생성 컨테이너를 띄우고 연동하는 방법을 설명합니다. 데이터베이스와 데이터 생성 서비스를 각각 독립된 컨테이너로 관리하면서 효율적으로 연동하는 과정을 단계별로 살펴보겠습니다. 1. Docker 환경 설정우선, Docker가 설치되어 있어야 합니다. Docker를 설치하는 방법은 이전 포스팅을 참고하세요.https://only-advance.tistory.com/4 [Docker] Ubuntu 22.04 환경에서 도커 설치하기실행환경Ubuntu 22.041. apt repository set up# Add Docker's official GPG key:sudo apt-get updatesudo apt-get install ca-certific.. 2024. 11. 15.
Apache Airflow란? 데이터 파이프라인 자동화부터 기본 예제까지 Airflow란 무엇인가?Apache Airflow는 데이터 파이프라인(workflows)을 관리하고 자동화하기 위한 오픈소스 플랫폼입니다. 데이터 파이프라인을 시각적으로 설계하고, 스케줄링 및 모니터링할 수 있는 강력한 도구로, 데이터 엔지니어들이 작업의 흐름을 효율적으로 관리할 수 있도록 돕습니다.Airflow는 파이썬 코드로 워크플로우를 정의하고, DAG(Directed Acyclic Graph) 형태로 작업의 흐름을 설정하여 각 단계의 의존성을 체계적으로 관리합니다.왜 Apache Airflow가 필요한가?데이터 파이프라인의 자동화는 현대 데이터 엔지니어링에서 필수적입니다. 특히 대규모 데이터의 ETL(추출, 변환, 로드) 작업을 반복적으로 수행하거나, 여러 작업 간의 복잡한 의존 관계를 다룰 때.. 2024. 11. 14.
OpenAI API 스트리밍 구현: await, yield, invoke, ainvoke, stream 및 astream 개념 완벽 이해하기 OpenAI API를 활용해 실시간 스트리밍 응답을 생성하는 것은 사용자 경험을 높이는 중요한 요소입니다. 특히 await, yield, invoke, ainvoke, stream, astream 같은 비동기 스트리밍 개념을 잘 활용하면 응답 속도를 높이고, 서버 자원을 효율적으로 관리할 수 있습니다. 이번 포스팅에서는 OpenAI 스트리밍을 처리하기 위해 알아야 할 주요 개념을 예제 코드와 함께 설명합니다.1. 비동기 스트리밍의 기본 개념 이해하기비동기 처리 방식에서는 요청과 응답이 동시에 처리되어 서버 성능을 최적화할 수 있습니다. Python의 async, await, yield를 사용해 비동기적인 데이터 처리를 구현하며, OpenAI API 응답을 스트리밍 방식으로 제공합니다.async와 awai.. 2024. 11. 13.
[Python] Python에서 특정 GPU 지정하여 사용하기 - CUDA 설정 가이드 딥러닝, 데이터 과학 프로젝트나 복잡한 연산 작업을 할 때, GPU를 효율적으로 사용해야 하는 상황이 자주 발생합니다. 특히 여러 개의 GPU가 있는 환경에서는 자원 관리를 위해 특정 GPU를 지정하여 사용하는 것이 중요한데요. 이 글에서는 Python 환경에서 특정 GPU를 지정하는 방법을 설명합니다. PyTorch에서의 설정 방법, CUDA_VISIBLE_DEVICES 환경 변수를 이용한 방법 등을 다루어보겠습니다. 1. CUDA_VISIBLE_DEVICES 환경 변수로 GPU 지정하기가장 쉽고 직관적인 방법은 CUDA_VISIBLE_DEVICES 환경 변수를 설정하여 GPU를 선택하는 것입니다. 이 환경 변수는 CUDA가 어떤 GPU만 사용하도록 제어할 수 있게 해주며, 파이썬 프로그램을 실행할 때.. 2024. 11. 12.
[Spark] 아파치 스파크(Apache Spark)란? 1. Apache Spark란?Apache Spark는 대규모 데이터를 빠르게 처리할 수 있는 오픈소스 분산 처리 프레임워크입니다. Spark는 대량의 데이터를 여러 서버(노드)에 분산하여 병렬로 처리할 수 있으며, 메모리 기반 처리를 통해 빠른 속도로 데이터를 분석합니다. 특히 데이터 분석, 머신러닝, 실시간 스트리밍, 그래프 처리를 지원해 다양한 데이터 분석 환경에서 널리 사용되고 있습니다.Spark는 Hadoop MapReduce보다 성능이 뛰어난 것으로 잘 알려져 있으며, 여러 데이터 소스와 통합이 쉽고, 다양한 데이터 처리 요구에 맞는 모듈을 제공해 활용도가 높습니다. 2. Spark가 필요한 이유Apache Spark는 다음과 같은 이유로 많은 빅데이터 프로젝트에서 필요합니다:2-1. 대규모 .. 2024. 11. 11.
[Docker] Zookeeper와 Kafka 설치 및 연동 가이드: Docker Compose로 간편하게 설정하기 Apache Kafka는 대용량 데이터 스트림을 안정적으로 처리하는 메시지 브로커로, 다양한 서비스에서 실시간 데이터 처리에 널리 사용됩니다. Kafka가 안정적으로 작동하기 위해서는 Zookeeper와의 연동이 필수입니다. Zookeeper는 Kafka 클러스터의 상태와 각 브로커를 관리하여 장애에 대비하고 효율적인 분산 처리를 지원합니다. 이 포스팅에서는 Docker Compose를 사용하여 Zookeeper와 Kafka를 설치하고 연동하는 방법을 단계별로 설명하겠습니다.1. Zookeeper와 Kafka란?Zookeeper는 Kafka 클러스터의 상태를 모니터링하고, 장애 발생 시 빠르게 리더 브로커를 재할당하는 등 클러스터의 안정성을 유지해주는 역할을 합니다.Kafka는 대용량 데이터의 송수신을 .. 2024. 11. 10.
반응형