Hadoop

Migración de Hadoop a la Nube: 2X de Capacidad de Almacenamiento y Menos Costos de Operaciones

Yimian es un proveedor líder de análisis de datos impulsado por IA especializado en datos de comercio digital. Ofrecemos información en tiempo real sobre estrategia comercial, desarrollo de productos y operaciones de comercio digital. Muchos de nuestros clientes son líderes en el sector de cuidado personal, maquillaje, F&B, mascotas y automóviles, como Procter and Gamble, Unilever y Mars. Nuestra arquitectura de tecnología original era un clúster de big data construido con CDH (Cloudera Distributed Hadoop) en un centro de datos…

July 14, 2024

Tutoriales
Cómo utilizar Change Data Capture con Apache Kafka y ScyllaDB

En este laboratorio práctico de la Universidad de ScyllaDB, aprenderás a utilizar el conector de origen de CDC de ScyllaDB para enviar los eventos de cambios a nivel de fila en las tablas de un clúster de ScyllaDB a un servidor de Kafka. ¿Qué es ScyllaDB CDC? Para recapitular, Change Data Capture (CDC) es una característica que te permite no solo consultar el estado actual de una tabla de base de datos, sino también consultar el historial de todos los…

July 14, 2024

Tutoriales
De Hadoop a la Nube: Por qué y cómo desacoplar el almacenamiento y el cómputo en plataformas de big data

El advenimiento del Sistema de Archivos Distribuido Apache Hadoop (HDFS) revolucionó el almacenamiento, procesamiento y análisis de datos para las empresas, acelerando el crecimiento de los big data y provocando cambios transformadores en la industria. Inicialmente, Hadoop integró el almacenamiento y el cómputo, pero la aparición de la computación en la nube llevó a una separación de estos componentes. El almacenamiento de objetos surgió como una alternativa al HDFS pero tenía limitaciones. Para complementar estas limitaciones, JuiceFS, un sistema de…

July 12, 2024

Tutoriales
Construcción de un Almacén de Datos para la Industria Tradicional

Esto es parte de la transformación digital de un gigante inmobiliario. Por razones de confidencialidad, no revelaré ningún dato comercial, pero obtendrás una visión detallada de nuestro almacén de datos y nuestras estrategias de optimización. Ahora comencemos. Arquitectura Lógicamente, nuestra arquitectura de datos se puede dividir en cuatro partes. Integración de datos: Esto está respaldado por Flink CDC, DataX y la función de Multi-Catalog de Apache Doris. Gestión de datos: Utilizamos Apache Dolphinscheduler para la gestión del ciclo de vida…

July 11, 2024

Tutoriales
Empezar con Trino y Alluxio en cinco minutos

Trino es un motor de consultas SQL distribuido de código abierto diseñado para consultar grandes conjuntos de datos distribuidos sobre uno o más orígenes de datos heterogéneos. Trino fue diseñado para manejar el almacenamiento de datos, ETL y análisis interactivos por grandes cantidades de datos y produciendo informes. Alluxio es una plataforma de orquestación de datos de código abierto para análisis a gran escala y AI. Alluxio se encuentra entre los frameworks de cómputo como Trino y Apache Spark y…

July 11, 2024

Tutoriales
Procesamiento de Flujo Estadístico con Memphis y Apache Spark

Amazon Simple Storage Service (S3) es un servicio de almacenamiento de objetos altamente escalable, duradero y seguro ofrecido por Amazon Web Services (AWS). S3 permite a las empresas almacenar y recuperar cualquier cantidad de datos desde cualquier lugar en la web mediante el uso de sus servicios de nivel empresarial. S3 está diseñado para ser altamente interoperable e integra de manera fluida con otros servicios de Amazon Web Services (AWS) y herramientas y tecnologías de terceros para procesar datos almacenados…

June 30, 2024

Tutoriales