Hadoop
-
하둡을 클라우드로 마이그레이션: 저장 용량 2배 증가 및 운영 비용 감소
Yimian는 디지털 상거래 데이터를 전문으로 하는 선도적인 AI 기반 데이터 분석 제공업체입니다. 비즈니스 전략, 제품 개발 및 디지털 상거래 운영에 대한 실시간 인사이트를 제공합니다. 많은 고객은 프로크터 앤드 갬블, 유니리버, 마스 등 미용, 메이크업, F&B, 애완동물, 자동차 분야의 산업 리더들입니다. 초기 기술 아키텍처는 온프레미스 데이터 센터에서 CDH(Cloudera Distributed Hadoop)를 사용하여 구축된 빅데이터 클러스터였습니다. 비즈니스가 성장함에 따라 데이터 양이 급격히 증가했습니다. 확장 주기가 길고, 컴퓨팅 및 스토리지 리소스가 맞지 않으며, 유지 관리 비용이 높은 등의 문제를 해결하기 위해 데이터 아키텍처를 변환하고…
-
Apache Kafka와 ScyllaDB를 사용한 변경 데이터 캡처 사용 방법
이 ScyllaDB University의 실습 실험실에서는 ScyllaDB CDC 소스 커넥터를 사용하여 ScyllaDB 클러스터의 테이블에서 발생하는 행 수준 변경 이벤트를 Kafka 서버로 푸시하는 방법을 배우게 됩니다. ScyllaDB CDC란? 요약하자면, Change Data Capture(CDC)는 데이터베이스 테이블의 현재 상태를 쿼리할 수 있을 뿐만 아니라 테이블에 이루어진 모든 변경 이력을 쿼리할 수 있는 기능입니다. CDC는 ScyllaDB Enterprise 2021.1.1 및 ScyllaDB Open Source 4.3부터 생산 준비가 완료되었습니다(GA). ScyllaDB에서 CDC는 옵션이며 테이블 단위로 설정됩니다. CDC가 활성화된 테이블에 대한 변경 이력은 별도의 관련 테이블에 저장됩니다. 다음과 같이 CDC 옵션을…
-
하둡에서 클라우드로: 빅데이터 플랫폼에서 스토리지와 컴퓨팅을 분리하는 이유와 방법
아파치 하둡 분산 파일 시스템(HDFS)의 등장은 기업의 데이터 저장, 처리 및 분석에 혁신을 가져왔으며, 빅데이터의 성장을 가속화하고 산업에 변혁적인 변화를 가져왔습니다. 초기에 하둡은 저장과 계산을 통합했지만, 클라우드 컴퓨팅의 출현으로 이 구성 요소들이 분리되었습니다. 객체 저장은 HDFS의 대안으로 등장했지만 한계가 있었습니다. 이러한 한계를 보완하기 위해 JuiceFS, 오픈 소스, 고성능 분산 파일 시스템은 계산, 분석, 훈련과 같은 데이터 집약적 시나리오에 대한 비용 효율적인 솔루션을 제공합니다. 저장-계산 분리를 채택하는 결정은 확장성, 성능, 비용, 호환성과 같은 요소에 따라 달라집니다. 이 기사에서는 하둡 아키텍처를 검토하고,…
-
전통 산업을 위한 데이터 웨어하우스 구축
이것은 부동산 거물의 디지털 전환의 일부입니다. 기밀성을 위해 어떤 비즈니스 데이터도 공개하지 않겠지만, 우리의 데이터 웨어하우스와 최적화 전략에 대한 상세한 뷰를 얻게 될 것입니다. 이제 시작하겠습니다. 아키텍처 논리적으로 우리의 데이터 아키텍처는 네 부분으로 나눌 수 있습니다. 데이터 통합: 이는 Flink CDC, DataX 및 Apache Doris의 Multi-Catalog 기능으로 지원됩니다. 데이터 관리: 스크립트 수명 주기 관리, 다중 테넌시 관리의 권한 및 데이터 품질 모니터링을 위해 Apache Dolphinscheduler를 사용합니다. 알림: Grafana, Prometheus 및 Loki를 사용하여 구성 요소 리소스 및 로그를 모니터링합니다. 데이터 서비스:…
-
트리노와 알루시오로 5분 안에 시작하기
Trino는 오픈 소스 분산 시스템 SQL 쿼리 엔진으로, 하나 이상의 이질적인 데이터 소스에 분산된 대량의 데이터 세트를 쿼리하도록 설계되었습니다. Trino는 많은 양의 데이터를 처리하고 보고서를 생성하여 데이터 货파우함, ETL, 대화형 분석을 수행하도록 설계되었습니다. Alluxio는 대규모 분석 및 AI를 위한 오픈 소스 데이터 오케스트레이션 플랫폼입니다. Alluxio는 Trino 및 Apache Spark와 같은 계산 프레임워크와 Amazon S3, Google Cloud Storage, HDFS, MinIO와 같은 다양한 스토리지 시스템 사이에 위치합니다. 이것은 Trino용 Iceberg 커넥터를 사용하여 Alluxio를 캐싱 계층으로 배포하는 방법에 대한 튜토리얼입니다. Trino에 캐싱이 왜…
-
멤피스와 아파치 스파크를 활용한 상태저장 스트림 처리
Amazon Simple Storage Service (S3)는 Amazon Web Services (AWS)에서 제공하는 고도로 확장 가능하고 내구성이 뛰어나며 안전한 객체 스토리지 서비스입니다. S3을 통해 기업들은 웹상의 어디서든 어떤 양의 데이터이든 저장하고 검색할 수 있으며, 기업용 서비스를 활용합니다. S3은 매우 상호 운용성이 높아 다른 Amazon Web Services (AWS) 및 타사 도구와 기술과 원활하게 통합되어 아마존 S3에 저장된 데이터를 처리합니다. 그 중 하나가 아마존 EMR (Elastic MapReduce)로, Spark와 같은 오픈 소스 도구를 사용하여 많은 양의 데이터를 처리할 수 있습니다. Apache Spark는 대규모 데이터 처리를 위한…