Hadoop

Migration de Hadoop vers le Cloud : Double de capacité de stockage et moins de coûts opérationnels

Yimian est un fournisseur de services d’analyse de données alimenté par l’IA, spécialisé dans les données du commerce numérique. Nous offrons des informations en temps réel sur la stratégie commerciale, le développement de produits et les opérations de commerce numérique. Nombre de nos clients sont des leaders industriels dans les secteurs de la soins personnels, maquillage, F&B, animaux de compagnie et automobile, tels que Procter and Gamble, Unilever et Mars. Notre architecture de technologie d’origine était un cluster big data…

July 14, 2024

Tutoriels
Comment utiliser la capture de données modifiées avec Apache Kafka et ScyllaDB

Dans ce laboratoire pratique de l’Université ScyllaDB, vous apprendrez à utiliser le connecteur source CDC ScyllaDB pour envoyer les événements de changements au niveau des lignes dans les tables d’un cluster ScyllaDB vers un serveur Kafka. Qu’est-ce que le CDC ScyllaDB? Pour résumer, la Capture des Données de Changements (CDC) est une fonctionnalité qui vous permet non seulement de consulter l’état actuel d’une table de base de données, mais aussi de consulter l’historique de tous les changements effectués sur la…

July 14, 2024

Tutoriels
De Hadoop à Cloud : Pourquoi et comment découpler le stockage et le calcul dans les plateformes Big Data

L’avènement du système de fichiers distribués Apache Hadoop (HDFS) a révolutionné le stockage, le traitement et l’analyse des données pour les entreprises, accélérant la croissance des big data et apportant des changements transformateurs à l’industrie. Initialement, Hadoop intégrait le stockage et le calcul, mais l’émergence du cloud computing a conduit à la séparation de ces composants. Le stockage d’objets est apparu comme une alternative à HDFS mais présentait des limitations. Pour compléter ces limitations, JuiceFS, un système de fichiers distribués…

July 12, 2024

Tutoriels
Création d’un entrepôt de données pour l’industrie traditionnelle

Ceci fait partie de la transformation numérique d’un géant de l’immobilier. Au nom de la confidentialité, je ne vais pas révéler de données commerciales, mais vous aurez une vue détaillée de notre entrepôt de données et de nos stratégies d’optimisation. Commençons. Architecture Logiquement, notre architecture de données peut être divisée en quatre parties. Intégration des données: Cela est soutenu par Flink CDC, DataX et la fonctionnalité Multi-Catalog d’Apache Doris. Gestion des données: Nous utilisons Apache Dolphinscheduler pour la gestion du…

July 11, 2024

Tutoriels
Démarrer avec Trino et Alluxio en cinq minutes

Trino est un moteur de requête SQL distribué open source conçu pour interroger de grands ensembles de données répartis sur une ou plusieurs sources de données hétérogènes. Trino a été conçu pour gérer l’entreposage de données, l’ETL et l’analyse interactive par de grandes quantités de données et produire des rapports. Alluxio est une plateforme d’orchestration de données open source pour l’analyse à grande échelle et l’IA. Alluxio se situe entre les frameworks de calcul tels que Trino et Apache Spark…

July 11, 2024

Tutoriels
Traitement de flux étatique avec Memphis et Apache Spark

Amazon Simple Storage Service (S3) est un service d’objets de stockage hautement évolutif, durable et sécurisé proposé par Amazon Web Services (AWS). S3 permet aux entreprises de stocker et de récupérer n’importe quelle quantité de données à partir de n’importe où sur le web en utilisant ses services de niveau entreprise. S3 est conçu pour être hautement interopérable et s’intègre parfaitement avec d’autres services Amazon Web Services (AWS) et des outils et technologies tierces pour traiter les données stockées dans…

June 30, 2024

Tutoriels