Hadoop

Migrando Hadoop nel Cloud: Raddoppia la Capacità di Archiviazione e Riduci i Costi di Manutenzione

Yimian è un fornitore leader di analisi dei dati basato su AI, specializzato in dati di commercio digitale. Offriamo intuizioni in tempo reale sulla strategia aziendale, sviluppo di prodotti e operazioni di commercio digitale. Molti dei nostri clienti sono leader nel settore della cura personale, trucco, F&B, animali domestici e auto, come Procter and Gamble, Unilever e Mars. La nostra architettura tecnologica originale era un cluster di big data costruito utilizzando CDH (Cloudera Distributed Hadoop) in un data center on-premises.…

July 14, 2024

Tutorial
Come Utilizzare Change Data Capture con Apache Kafka e ScyllaDB

In questo laboratorio pratico da ScyllaDB University, imparerai come utilizzare il connettore sorgente ScyllaDB CDC per inviare gli eventi di modifica a livello di riga nelle tabelle di un cluster ScyllaDB a un server Kafka. Che cos’è ScyllaDB CDC? Per ricapitolare, Change Data Capture (CDC) è una funzionalità che ti permette non solo di interrogare lo stato attuale di una tabella del database, ma anche di interrogare la storia di tutte le modifiche apportate alla tabella. CDC è pronta per…

July 14, 2024

Tutorial
Da Hadoop alla Cloud: Perché e Come Decouplere Memoria e Calcolo nei Piani Big Data

L’avvento del sistema di file distribuito Apache Hadoop (HDFS) ha rivoluzionato la memorizzazione, il trattamento e l’analisi dei dati per le aziende, accelerando la crescita dei big data e portando cambiamenti trasformativi nel settore. Inizialmente, Hadoop integrò memorizzazione e calcolo, ma l’emergere della cloud computing portò alla separazione di questi componenti. La memorizzazione di oggetti emerse come alternativa all’HDFS ma presentava limitazioni. Per colmare queste limitazioni, JuiceFS, un sistema di file distribuito open-source ad alto rendimento, offre soluzioni convenienti per…

July 12, 2024

Tutorial
Costruire un Data Warehouse per l’Industria Tradizionale

Questa è una parte della trasformazione digitale di un colosso immobiliare. Per motivi di riservatezza, non suggerirò alcun dato aziendale, ma otterrete una visione dettagliata del nostro data warehouse e delle nostre strategie di ottimizzazione. Iniziamo. Architettura Logicamente, la nostra architettura dei dati può essere divisa in quattro parti. Integrazione dati: Questa è supportata da Flink CDC, DataX e dalla funzione Multi-Catalog di Apache Doris. Gestione dati: Utilizziamo Apache Dolphinscheduler per la gestione del ciclo di vita dei script, i…

July 11, 2024

Tutorial
Iniziare con Trino e Alluxio in Cinque Minuti

Trino è un motore di query SQL distribuito open-source progettato per interrogare grandi set di dati distribuiti su uno o più sistemi di origine dati eterogenei. Trino è stato progettato per gestire data warehousing, ETL e analisi interattiva da grandi quantità di dati e produrre report. Alluxio è una piattaforma open-source di orchestrazione dei dati per analisi su larga scala e AI. Alluxio si trova tra i framework di calcolo come Trino e Apache Spark e vari sistemi di archiviazione…

July 11, 2024

Tutorial
Elaborazione di Flussi Stateful con Memphis e Apache Spark

Il servizio Amazon Simple Storage Service (S3) è un servizio di archiviazione di oggetti altamente scalabile, duraturo e sicuro offerto da Amazon Web Services (AWS). S3 consente alle aziende di memorizzare e recuperare qualsiasi quantità di dati da qualsiasi punto su Internet utilizzando i suoi servizi di livello aziendale. S3 è progettato per essere altamente interoperabile e si integra perfettamente con altri servizi Amazon Web Services (AWS) e strumenti e tecnologie di terze parti per elaborare i dati archiviati in…

June 30, 2024

Tutorial