분류 전체보기58 [Spark] 아파치 스파크(Apache Spark)란? 1. Apache Spark란?Apache Spark는 대규모 데이터를 빠르게 처리할 수 있는 오픈소스 분산 처리 프레임워크입니다. Spark는 대량의 데이터를 여러 서버(노드)에 분산하여 병렬로 처리할 수 있으며, 메모리 기반 처리를 통해 빠른 속도로 데이터를 분석합니다. 특히 데이터 분석, 머신러닝, 실시간 스트리밍, 그래프 처리를 지원해 다양한 데이터 분석 환경에서 널리 사용되고 있습니다.Spark는 Hadoop MapReduce보다 성능이 뛰어난 것으로 잘 알려져 있으며, 여러 데이터 소스와 통합이 쉽고, 다양한 데이터 처리 요구에 맞는 모듈을 제공해 활용도가 높습니다. 2. Spark가 필요한 이유Apache Spark는 다음과 같은 이유로 많은 빅데이터 프로젝트에서 필요합니다:2-1. 대규모 .. 2024. 11. 11. [Docker] Zookeeper와 Kafka 설치 및 연동 가이드: Docker Compose로 간편하게 설정하기 Apache Kafka는 대용량 데이터 스트림을 안정적으로 처리하는 메시지 브로커로, 다양한 서비스에서 실시간 데이터 처리에 널리 사용됩니다. Kafka가 안정적으로 작동하기 위해서는 Zookeeper와의 연동이 필수입니다. Zookeeper는 Kafka 클러스터의 상태와 각 브로커를 관리하여 장애에 대비하고 효율적인 분산 처리를 지원합니다. 이 포스팅에서는 Docker Compose를 사용하여 Zookeeper와 Kafka를 설치하고 연동하는 방법을 단계별로 설명하겠습니다.1. Zookeeper와 Kafka란?Zookeeper는 Kafka 클러스터의 상태를 모니터링하고, 장애 발생 시 빠르게 리더 브로커를 재할당하는 등 클러스터의 안정성을 유지해주는 역할을 합니다.Kafka는 대용량 데이터의 송수신을 .. 2024. 11. 10. [Kafka] Kafka를 이용한 실시간 데이터 스트리밍 및 데이터베이스 연동 실습 Kafka는 실시간 데이터 스트리밍을 처리하는 강력한 메시징 시스템으로, 대규모 분산 시스템에서 데이터 전송 및 처리에 널리 사용됩니다. 이번 포스팅에서는 Kafka의 기본 개념과 파이썬을 사용한 Kafka 실습을 다룬 후, Iris 데이터셋을 Kafka를 통해 전송하고, Consumer가 이를 데이터베이스에 저장하는 고급 예제를 포함하여 설명합니다.Kafka란?Kafka는 오픈소스로 개발된 분산 스트리밍 플랫폼으로, 대용량 데이터 처리와 실시간 스트리밍에 사용됩니다. Kafka는 주로 실시간 데이터 처리와 메시징 서비스로 활용되며, IoT, 로그 수집, 실시간 데이터 분석 등 다양한 분야에서 사용됩니다.Kafka를 사용하는 이유?1. 데이터 흐름의 실시간성일반적인 데이터 저장:데이터를 직접 데이터베이스.. 2024. 11. 9. [Server] Unicorn, Gunicorn, 그리고 FastAPI: 고성능 웹 서버 구성하기 웹 애플리케이션을 운영할 때 서버의 안정성과 성능을 높이는 것은 필수입니다. FastAPI와 같은 고성능 파이썬 프레임워크를 배포할 때 Gunicorn이 널리 사용되는데요, 이와 관련된 Unicorn이란 개념도 함께 자주 언급됩니다. 이번 포스팅에서는 Unicorn과 Gunicorn이 무엇인지, 둘의 관계, 그리고 왜 Gunicorn을 선택해 FastAPI와 함께 사용하는지를 알아보겠습니다.1. Unicorn이란?Unicorn은 Ruby 생태계의 애플리케이션 서버입니다. Unicorn은 Ruby on Rails와 같은 Ruby 기반 웹 애플리케이션을 서버에서 고성능으로 실행할 수 있게 돕습니다. Unicorn은 프리포킹 방식을 사용하여 서버 시작 시 여러 워커 프로세스를 미리 준비해 두고 요청이 들어오면.. 2024. 11. 8. [GCP] GCP 인스턴스 종료 없이 디스크 용량 확장 및 파티션 확장하기 이번 포스팅에서는 GCP 인스턴스를 종료하지 않고 디스크 용량을 확장하는 방법과, 추가된 용량을 리눅스 운영체제에서 인식하고 적용하는 방법을 설명드리겠습니다. GCP 서버를 운영 중일 때, 서버 중단 없이 용량을 늘려야 하는 경우 이 방법을 활용할 수 있습니다.GCP 인스턴스 디스크 용량 확장이란?GCP에서는 클라우드 서버를 재시작하지 않고도 디스크 용량을 유연하게 확장할 수 있습니다. 이러한 GCP 디스크 확장 기능을 활용하면 서비스 중단을 최소화하면서 스토리지를 필요에 따라 빠르게 추가할 수 있습니다. 이 글에서는 GCP 인스턴스 디스크 용량 확장 과정과 Linux 파티션 확장 방법을 하나씩 설명합니다.1. GCP 인스턴스 디스크 용량 확장하기먼저 GCP Console에서 인스턴스의 디스크 용량을 확.. 2024. 11. 7. [LLM] HuggingFace SentenceTransformer에서 Tokenizer에 새 단어 추가하고 의미 학습하기 HuggingFace의 SentenceTransformer를 사용할 때 기존 tokenizer에 없는 새로운 단어를 추가하고, 그 단어의 의미를 학습시키는 과정이 필요할 때가 있습니다. 이때 라벨이 포함된 학습 데이터를 사용하면 모델이 새 단어가 포함된 문맥을 더 잘 이해할 수 있게 됩니다. 이 포스팅에서는 새 단어를 추가하고 라벨이 있는 데이터를 활용해 학습하는 방법을 단계별로 설명하겠습니다. Step 1. 기존 Tokenizer 불러오기먼저, 사용할 SentenceTransformer 모델을 선택하고, 이 모델의 tokenizer를 가져옵니다.from transformers import AutoTokenizermodel_name = "sentence-transformers/all-mpnet-base-.. 2024. 11. 4. 이전 1 2 3 4 5 6 7 ··· 10 다음