Cloud Composer만의 관리 기능과 Apache Airflow 호환성 덕분에 리소스를 프로비저닝하기보다 워크플로 작성, 예약, 모니터링에 집중할 수 있습니다.
Google Cloud 제품과 통합
BigQuery, Dataflow, Dataproc, Datastore, Cloud Storage, Pub/Sub, AI Platform 등의 Google Cloud 제품과 엔드 투 엔드 통합을 통해 사용자는 자유롭게 파이프라인을 완전히 조정할 수 있습니다.
하이브리드 및 멀티 클라우드 지원
파이프라인이 온프레미스, 여러 클라우드, Google Cloud 내부 등 어디에 위치하든 관계없이 단일 조정 도구를 통해 워크플로를 작성, 예약, 모니터링합니다.
주요 특징
하이브리드 및 멀티 클라우드
온프레미스와 퍼블릭 클라우드를 넘나드는 워크플로를 조정하여 클라우드로의 이전 과정을 간소화하거나 하이브리드 데이터 환경을 유지합니다. 여러 클라우드에 걸쳐 데이터, 처리, 서비스를 연결하는 워크플로를 만들어 통합된 데이터 환경을 제공합니다.
오픈소스
Cloud Composer는Apache Airflow를 기반으로 빌드되어 사용자에게 특정 서비스에 종속되지 않을 자유와 이동성을 선사합니다. Google에서도 참여하고 있는 이 오픈소스 프로젝트는 광범위한 플랫폼과 통합되는 것은 물론 고객에게 특정 서비스에 종속되지 않을 자유를 줍니다. 지원 플랫폼의 수는 Airflow 커뮤니티의 성장에 따라 계속 늘어날 전망입니다.
간편한 조정
Cloud Composer 파이프라인은 Python을 사용한 DAG(Directed Acyclic Graph)로 구성되어 있어 모든 사용자가 쉽게 사용할 수 있습니다. 클릭 한 번으로 배포하여 실제 워크플로의 다양한 커넥터와 여러 그래픽 표현이 들어 있는 라이브러리에 즉시 액세스할 수 있으므로 문제 해결 과정을 간소화할 수 있습니다. DAG(Directed Acyclic Graph)의 자동 동기화 기능 덕분에 일정에 맞춰 업무를 처리할 수 있습니다.
신규 고객에게는 처음 90일 동안 Dataflow 또는 기타 Google Cloud 제품에 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
완전 관리형 데이터 처리 서비스
처리 리소스의 프로비저닝 및 관리 자동화
작업자 리소스가 수평식으로 자동 확장되어 리소스 활용률 극대화
Apache Beam SDK를 통한 OSS 커뮤니티 기반의 혁신
안정적이고 일관성 있는 단 한 번의 처리
이점
신속한 스트리밍 데이터 분석
Dataflow를 사용하면 데이터 지연 시간을 줄이면서 스트리밍 데이터 파이프라인을 빠르고 간편하게 개발할 수 있습니다.
운영 및 관리 간소화
Dataflow는 서버리스 방식으로 데이터 엔지니어링 워크로드에서 운영 오버헤드를 제거하므로 팀이 서버 클러스터를 관리하는 대신 프로그래밍에 집중할 수 있습니다.
총 소유 비용 절감
Dataflow는 리소스 자동 확장과 비용 최적화된 일괄 처리 기능의 결합으로 무제한에 가까운 용량을 제공하므로 시기에 따라 변동하거나 급증하는 워크로드도 과다한 지출 없이 관리할 수 있습니다.
주요 특징
리소스 자동 확장 및 동적 작업 재균등화
데이터 인식 리소스 자동 확장을 통해 파이프라인 지연 시간을 최소화하고 리소스 사용률을 극대화하며 데이터 레코드당 처리 비용을 줄입니다. 데이터 입력은 작업자 리소스 사용률을 균등화하기 위해 자동으로 파티션이 나누어지며 지속적으로 다시 분산되고, '핫 키'가 파이프라인 성능에 미치는 영향을 줄입니다.
일괄 처리 시 유연한 예약 및 가격 책정
심야 작업과 같이 작업 예약 시간을 유연하게 처리해야 하는 경우 유연한 리소스 예약(FlexRS)으로 일괄 처리 비용을 낮춰줍니다. 이러한 유연한 작업은 6시간 안에 실행 대상으로 검색되도록 보장되어 큐에 배치됩니다.
즉시 사용할 수 있는 실시간 AI 패턴
즉시 사용 가능한 패턴을 통해 사용 설정된 Dataflow의 실시간 AI 기능은 인간에 가까운 지능으로 방대한 이벤트에 대해 실시간 대응을 지원합니다. 고객은 예측 분석 및 이상 감지부터 실시간 맞춤설정 및 기타 고급 분석 사용 사례에 이르는 지능형 솔루션을 빌드할 수 있습니다.
요점:Pub/Sub란 무엇이며, 비즈니스에 Pub/Sub가 필요한 이유, 비슷한 기술에 비해 Pub/Sub의 장점, 검색어 주제, 게시자, 구독자를 포함한 핵심 Pub/Sub 개념에 대해 이해합니다.
Pub/Sub를 통해 서비스는 비동기적으로 100밀리초의 지연 시간으로 통신할 수 있습니다.
Pub/Sub는 데이터를 수집하고 배포하는 스트리밍 분석 및 데이터 통합 파이프라인에 사용됩니다. 이는 서비스 통합을 위한 메시징 중심 미들웨어 또는 태스크 병렬화를 위한 큐로도 효과적입니다.
Pub/Sub를 사용하면게시자및구독자라는 이벤트 제작자 및 소비자 시스템을 만들 수 있습니다. 게시자는 동기식 리모트 프로시져 콜(RPC)이 아니라 이벤트를 브로드캐스트하여 구독자와 비동기적으로 통신합니다.
게시자는 이러한 이벤트가 처리되는 방식이나 시기에 관계없이 Pub/Sub 서비스에 이벤트를 보냅니다. 그런 다음 Pub/Sub는 이벤트에 응답해야 하는 모든 서비스에 이벤트를 전달합니다. 게시자가 데이터를 수신하기를 기다려야 하는 RPC를 통해 통신하는 시스템과 비교하면 이러한 비동기식 통합은 전반적인 시스템의 유연성과 견고성을 높입니다.
사용자 상호작용 및 서버 이벤트 수집.최종 사용자 앱의 사용자 상호작용 이벤트 또는 시스템의 서버 이벤트를 사용하려면 이를 Pub/Sub로 전달한 다음 Dataflow와 같은 스트림 처리 도구를 사용하여 BigQuery, Bigtable, Cloud Storage, 기타 데이터베이스에 전달합니다. Pub/Sub를 사용하면 여러 클라이언트의 이벤트를 동시에 수집할 수 있습니다.
실시간 이벤트 배포.원시 또는 처리된 이벤트를 팀과 조직 전체의 여러 애플리케이션에서 실시간으로 처리할 수 있습니다. 이는 '엔터프라이즈 이벤트 버스' 및 이벤트 기반 애플리케이션 설계 패턴을 지원합니다. Pub/Sub를 사용하면 이벤트를 Pub/Sub로 내보내는 여러 Google 시스템과 통합할 수 있습니다.
데이터베이스 간 데이터 복제.Pub/Sub는 일반적으로 데이터베이스의 변경 이벤트를 배포하는 데 사용됩니다. 이러한 이벤트는 BigQuery 및 다른 데이터 스토리지 시스템에서 데이터베이스 상태 및 상태 기록의 뷰를 구성하는 데 사용될 수 있습니다.
병렬 처리 및 워크플로.Pub/Sub 메시지를 사용하여 Cloud Functions에 연결하면 텍스트 파일 압축, 이메일 알림 전송, AI 모델 평가, 이미지 형식 재지정과 같은 다수의 작업을 여러 작업자 간에 효율적으로 배포할 수 있습니다.
엔터프라이즈 이벤트 버스.전사적 실시간 데이터 공유 버스를 만들어 비즈니스 이벤트, 데이터베이스 업데이트, 분석 이벤트를 조직 전체에 배포할 수 있습니다.
애플리케이션, 서비스, IoT 기기에서 데이터 스트리밍.예를 들어 SaaS 애플리케이션은 이벤트의 실시간 피드를 게시할 수 있으며 가정용 센서는 Dataflow를 통해 데이터를 다른 Google Cloud 제품에서 사용할 수 있도록 Pub/Sub로 데이터를 스트리밍할 수 있습니다.
분산 캐시 갱신.예: 애플리케이션이 무효화 이벤트를 게시해, 변경된 객체의 ID를 업데이트합니다.
안정성을 위한 부하 분산.예: 서비스 인스턴스가 여러 영역에 있는 Compute Engine에 배포되어도 공통 주제를 구독할 수 있습니다. 영역에 장애가 발생하면 나머지가 자동으로 부하를 선택합니다.
Pub/Sub 서비스 유형
Pub/Sub는 두 가지 서비스로 구성됩니다.
Pub/Sub 서비스.이 메시지 서비스는 대부분의 사용자와 애플리케이션에서 기본적으로 사용되는 옵션입니다. 자동 용량 관리와 함께 가장 높은 안정성과 가장 큰 통합 기능을 제공합니다. Pub/Sub는 최소한 두 개 이상의 영역에 모든 데이터의 동기식 복제를 보장하고 세 번째 추가 영역에 최선의 복제를 보장합니다.
Pub/Sub 라이트 서비스.저비용을 목적으로 하는 유사한 별개의 메시지 서비스입니다. Pub/Sub에 비해 안정성이 낮습니다. 영역별 또는 리전별 주제 스토리지를 제공합니다. 영역 라이트 주제는 하나의 영역에만 저장됩니다. 리전 라이트 주제는 데이터를 두 번째 영역에 비동기식으로 복제합니다. 또한 Pub/Sub 라이트를 사용하려면 스토리지 및 처리량 용량을 사전 프로비저닝하고 관리해야 합니다. Pub/Sub 라이트는 매우 저렴한 비용을 달성하는 것이 추가 운영 작업과 낮은 안정성을 상쇄하는 애플리케이션에만 적용됩니다.
Pub/Sub와 다른 메시징 기술 비교
Pub/Sub는Apache Kafka및Pulsar의 수평적 확장성을 Apache ActiveMQ 및 RabbitMQ와 같은 기존 메시징 미들웨어의 기능(데드 레터 큐와 필터링 등)과 결합합니다.
메시징 미들웨어에서 사용하는 또 다른 기능은 파티션 기반이 아닌메시지당 동시 로드입니다. Pub/Sub는 개별 메시지를 구독자 클라이언트에 '임대'한 다음 지정된 메시지가 성공적으로 처리되었는지 주기적으로 확인합니다.
반대로 다른 수평 확장형 메시지 시스템은 수평 확장에 파티션을 사용합니다. 이렇게 하면 구독자가 각 파티션에서 메시지를 순서대로 처리해야 하며 동시 클라이언트 수가 파티션 수로 제한됩니다. 메시지당 처리는 구독자 애플리케이션의 동시 로드를 극대화하고 게시자/구독자의 독립성을 보장하는 데 도움이 됩니다.
참고:파티션 기반 동시 로드는 Pub/Sub 라이트에서 사용되지만 Pub/Sub에서는 사용되지 않습니다.
서비스 간 통신 및 서비스와 클라이언트 간 통신
Pub/Sub의 용도는 최종 사용자 또는 IoT 클라이언트와의 통신이 아닌 서비스 간 통신입니다. 다른 제품에서는 다른 패턴이 더 잘 지원됩니다.
Pub/Sub는 다른 Google Cloud 제품과 많이 통합되어 모든 기능을 갖춘 메시징 시스템을 만듭니다.
스트림 처리 및 데이터 통합.Dataflow템플릿및SQL을 포함한Dataflow에서 지원되며 이를 통해 데이터를 처리하고 Cloud Storage에서 BigQuery 및 데이터 레이크에 데이터를 통합할 수 있습니다. Pub/Sub에서 Cloud Storage, BigQuery, 기타 제품으로 데이터를 이동하는 Dataflow 템플릿은 Cloud Console의 Pub/Sub 및 Dataflow UI에서 사용할 수 있습니다. 특히Dataproc으로 관리되는 경우Apache Spark와의 통합도 사용할 수 있습니다. Spark + Dataproc에서 실행되는 통합 및 처리 파이프라인의 시각적 구성은Datafusion을 사용하여 수행할 수 있습니다.
모니터링, 알림, 로깅.Monitoring 및 Logging 제품에서 지원됩니다.
인증 및 IAM.Pub/Sub는 다른 Google Cloud 제품에서 사용하는 표준 OAuth 인증을 사용하며 세분화된 IAM을 지원하여 개별 리소스에 대한 액세스 제어를 지원합니다.