본문 바로가기
쪼랩 성장기/깡깡이 노트

Dataproc

by ssyeon 2023. 3. 30.

 

Google cloud Dataproc  

-> 구글 클라우드 플랫폼에서 제공하는 매니지드 클러스터 서비스로 사용자가 쉽게 hadoop 혹은 spark 클러스터를 구성할 수 있는 서비스

 

규모에 상관없이 클러스터 구성을 빠른 속도로 구성할 수 있다.

이를 활용해서 사용자는 데이터 처리 또는 분석을 위해 작업에서 빠른 연산이 가능

BigQuery, Cloud Storage, Cloud Bigtable, Stackdriver Logging, Monitoring, 등과의 함께 통합된 서비스로 제공되기 때문에

더욱 유연한 사용이 가능

 

저렴한 비용 

— Dataproc은 사용 중인 다른 Cloud Platform 리소스 외에 시간당 클러스터의 가상 CPU당 1센트의 비용으로 가격이 책정됩니다. 이 저렴한 가격 외에도 Dataproc 클러스터에는 컴퓨팅 가격이 더 낮은 선점형 인스턴스를 포함하여 비용을 더 줄

일 수 있습니다. 사용량을 가장 가까운 시간으로 반올림하는 대신 Dataproc에서는 초당 사용량 결제와 최저 1분 결제 기간

을 사용하여 실제 사용량에 대해서만 비용을 청구합니다.

 

매우 빠 

— Dataproc을 사용하지 않으면 사내에 또는 IaaS 제공업체를 통해 Spark 및 Hadoop 클러스터를 만드는 데 5분에서 30분

까지 소요될 수 있습니다. 반대로 Dataproc 클러스터는 빠르게 시작하고 확장하며 종료할 수 있습니다. 각각의 작업을 수

행하는 데는 평균 90초도 채 걸리지 않습니다. 따라서 클러스터를 기다리는 시간을 줄이고 대신 데이터 작업에 더 많은 시

간을 할애할 수 있습니다.

통합 

- Dataproc은 BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging, Cloud Monitoring과 같은 다른 Google Cloud Platform 서비스와 기본적으로 통합되어 있으므로 Spark 또는 Hadoop 클러스터 이상의 완벽한 데이터 플랫폼을 사용할 수 있습니다. 예를 들어 Dataproc을 사용하면 비즈니스 보고서용 BigQuery에 직접 테라바이트 단위의 원시 로그 데이터를 손쉽게 ETL할 수 있습니다.

 

관리형

— 관리자의 지원을 받거나 특별한 소프트웨어를 사용하지 않고도 Spark 및 Hadoop 클러스터를 사용할 수 있습니다. Google Cloud Console, Cloud SDK, Dataproc REST API를 통해 클러스터 및 Spark 또는 Hadoop 작업과 쉽게 상호작용할 수 있습니다. 클러스터 사용이 끝나고 클러스터를 사용 중지하면 유휴 클러스터에 비용을 지출하지 않습니다. Dataproc은 Cloud Storage, BigQuery, Cloud Bigtable과 통합되므로 데이터 손실에 대해 걱정할 필요가 없습니다.

 

간단하고 친숙함 

- Dataproc을 사용하기 위해 새로운 도구나 API를 배울 필요가 없으므로 재개발하지 않고 기존 프로젝트를 Dataproc으로 쉽게 이동할 수 있습니다. Spark, Hadoop, Pig, Hive는 자주 업데이트되므로 보다 신속하게 생산성을 높일 수 있습니다.

 

 


 

 

Apache hadoop

분산처리를 구현하는 오픈소스 소프트웨어 

1대의 마스터 서버와 마스터 서버가 제어하는 여러개의 노예 서버로 구성

마스터 서버 - 제어 / 노예서버 - 연산처리

연산처리 능력은 노예 서버가 많으면 빠르게 처리된다



Apache spark

분산처리를 구현하는 오픈소스 소프트웨어 

메모리 안에서 대용량 데이터의 병렬 분산 처리를 실행

메모리 안에서 실행하기 때문에 반복처리 중에서 디스크에 데이터를 빈번하게 읽고 쓰는 hadoop과 비교해서 속도가 매우 빠름 

테라바이트급 이상의 데이터 처리하기에는 부적합

 

Apache hadoop 응답속도 빠름 대용량 일괄처리 적합
Apache spark 처리가능 양이 많음 고급데이터 분석을 빠르게

 

 

 

반응형

'쪼랩 성장기 > 깡깡이 노트' 카테고리의 다른 글

ssh 연결하기 (Putty / MobaXterm 연결)  (0) 2023.04.26
Airflow 정리  (0) 2023.04.03
HAR  (0) 2023.02.23
아카이브 파일  (0) 2023.02.23

댓글