Hadoop

Hadoop-Migration in die Cloud: 2-fache Speicherkapazität und geringere Betriebskosten

Yimian ist ein führender Anbieter von datengetriebenen Analysen, der auf künstliche Intelligenz spezialisiert ist und sich auf digitale Handelsdaten konzentriert. Wir bieten Echtzeit-Einblicke in Geschäftsstrategie, Produktentwicklung und digitale Handelsprozesse. Viele unserer Kunden sind Branchenführer in den Bereichen Körperpflege, Make-up, Lebensmittel und Getränke, Tierbedarf und Automobil, wie Procter and Gamble, Unilever und Mars. Unser ursprüngliches Technologie-Architektur war ein Big-Data-Cluster, der mit CDH (Cloudera Distributed Hadoop) in einem eigenen Rechenzentrum aufgebaut wurde. Mit wachsendem Geschäft stieg das Datenvolumen stark an. Um Herausforderungen…

July 14, 2024

Tutorials
So nutzen Sie Change Data Capture mit Apache Kafka und ScyllaDB

In diesem praktischen Labor von ScyllaDB University erfahren Sie, wie Sie den ScyllaDB CDC Source Connector verwenden, um die zeilenbezogenen Änderungsereignisse in den Tabellen eines ScyllaDB-Clusters auf einen Kafka-Server zu pushen. Was ist ScyllaDB CDC? Zusammenfassend ist Change Data Capture (CDC) eine Funktion, die Ihnen nicht nur die Möglichkeit gibt, den aktuellen Zustand einer Datenbanktabelle abzufragen, sondern auch die Historie aller Änderungen an der Tabelle abzufragen. CDC ist ab ScyllaDB Enterprise 2021.1.1 und ScyllaDB Open Source 4.3 produktionsbereit (GA). In…

July 14, 2024

Tutorials
Von Hadoop zur Cloud: Warum und wie man Speicher und Berechnung in Big-Data-Plattformen entkoppelt

Die Einführung des Apache Hadoop Distributed File System (HDFS) hat die Speicherung, Verarbeitung und Analyse von Daten für Unternehmen revolutioniert, die Entwicklung von Big Data beschleunigt und tiefgreifende Veränderungen in der Branche hervorgerufen. Ursprünglich waren bei Hadoop Speicher und Berechnung integriert, doch die Entstehung von Cloud Computing führte zu einer Trennung dieser Komponenten. Objektspeicher entstand als Alternative zu HDFS, hatte jedoch Einschränkungen. Um diese Einschränkungen zu ergänzen, bietet JuiceFS, eine quelloffene, leistungsstarke verteilte Dateisystem, kosteneffiziente Lösungen für datenintensive Szenarien wie…

July 12, 2024

Tutorials
Aufbau eines Datenlagers für traditionelle Industrie

Dies ist ein Teil der digitalen Transformation eines Immobilienriesen. Aus Gründen der Vertraulichkeit werde ich keine Geschäftszahlen preisgeben, aber Sie erhalten einen detaillierten Einblick in unser Datenlager und unsere Optimierungsstrategien. Fangen wir an. Architektur Logischerweise lässt sich unsere Datenarchitektur in vier Teile unterteilen. Datenintegration: Dies wird durch Flink CDC, DataX und die Multi-Catalog-Funktion von Apache Doris unterstützt. Datenmanagement: Wir verwenden Apache Dolphinscheduler für die Lebenszyklusverwaltung von Skripten, Berechtigungen in der Multi-Tenancy-Verwaltung und Datenqualitätsüberwachung. Warnungen: Wir verwenden Grafana, Prometheus und Loki…

July 11, 2024

Tutorials
Trino und Alluxio in fünf Minuten starten

Trino ist eine Open-Source verteilte SQL-Abfrage-Engine, die entwickelt wurde, um große Datenmengen zu analysieren, die über eine oder mehrere heterogene Datenquellen verteilt sind. Trino wurde entwickelt, um Datenbank- und ETL-Anwendungen sowie interaktive Analysen für große Datenmengen und Berichtserstellung zu handhaben. Alluxio ist eine Open-Source Datenorchestrierungsplattform für groß angelegte Analysen und KI. Alluxio befindet sich zwischen Berechnungsframeworks wie Trino und Apache Spark und verschiedenen Speichersystemen wie Amazon S3, Google Cloud Storage, HDFS und MinIO. Dies ist ein Tutorial zur Bereitstellung von…

July 11, 2024

Tutorials
Zustandsbehaftete Streamverarbeitung mit Memphis und Apache Spark

Amazon Simple Storage Service (S3) ist eine hoch skalierbare, dauerhafte und sichere Objektspeicherdienst von Amazon Web Services (AWS). S3 ermöglicht Unternehmen, beliebige Datenmengen von überall im Web zu speichern und abzurufen, indem es die Unternehmensklassen-Dienste nutzt. S3 ist so konzipiert, dass es hoch interoperabel ist und nahtlos mit anderen Amazon Web Services (AWS) und Drittanbieter-Tools und -Technologien integriert wird, um Daten, die in Amazon S3 gespeichert sind, zu verarbeiten. Eines davon ist Amazon EMR (Elastic MapReduce), das es Ihnen ermöglicht,…

June 30, 2024

Tutorials