Hadoop

Migrando o Hadoop para a Nuvem: Capacidade de Armazenamento 2X e Menos Custos de Operações

Yimian é um fornecedor líder de análise de dados impulsionada por IA, especializado em dados de comércio digital. Oferecemos insights em tempo real sobre estratégia de negócios, desenvolvimento de produtos e operações de comércio digital. Muitos de nossos clientes são líderes em indústrias como cuidados pessoais, maquiagem, F&B, animais de estimação e automotivo, como Procter and Gamble, Unilever e Mars. Nossa arquitetura de tecnologia original era um cluster de big data construído com o CDH (Cloudera Distributed Hadoop) em um…

July 14, 2024

Tutoriais
Como Utilizar Captura de Dados Alterados com Apache Kafka e ScyllaDB

Neste laboratório prático da Universidade ScyllaDB, você aprenderá a usar o ScyllaDB CDC source connector para enviar eventos de alterações de linha nas tabelas de um cluster ScyllaDB para um servidor Kafka. O que é o ScyllaDB CDC? Para recapitular, a Captura de Dados de Alteração (CDC) é um recurso que permite não apenas consultar o estado atual de uma tabela de banco de dados, mas também consultar a história de todas as alterações feitas na tabela. O CDC está…

July 14, 2024

Tutoriais
De Hadoop para a Nuvem: Por que e como desacoplar armazenamento e computação em plataformas de big data

A chegada do Apache Hadoop Distributed File System (HDFS) revolucionou o armazenamento, processamento e análise de dados para empresas, acelerando o crescimento de big data e trazendo mudanças transformadoras para a indústria. Inicialmente, o Hadoop integrou armazenamento e computação, mas a emergência da computação em nuvem levou à separação desses componentes. O armazenamento de objetos surgiu como uma alternativa ao HDFS, mas tinha limitações. Para complementar essas limitações, JuiceFS, um sistema de arquivos distribuído de alto desempenho e de código…

July 12, 2024

Tutoriais
Construção de um Armazém de Dados para Indústria Tradicional

Este é parte da transformação digital de uma gigante do mercado imobiliário. Por motivos de confidencialidade, não vou revelar nenhum dado de negócios, mas você terá uma visão detalhada do nosso data warehouse e das nossas estratégias de otimização. Agora, vamos começar. Arquitetura Lógicamente, a nossa arquitetura de dados pode ser dividida em quatro partes. Integração de dados: Isso é suportado por Flink CDC, DataX e o recurso Multi-Catalog do Apache Doris. Gestão de dados: Utilizamos o Apache Dolphinscheduler para…

July 11, 2024

Tutoriais
Comece com Trino e Alluxio em Cinco Minutos

Trino é um mecanismo de consulta SQL distribuído de código aberto projetado para consultar grandes conjuntos de dados distribuídos em um ou mais repositórios de dados heterogêneos. Trino foi projetado para lidar com data warehousing, ETL e análise interativa por meio de grandes quantidades de dados e produzindo relatórios. Alluxio é uma plataforma de orquestração de dados de código aberto para análise em larga escala e AI. Alluxio está entre os frameworks de computação, como Trino e Apache Spark, e…

July 11, 2024

Tutoriais
Processamento de Fluxo Estático com Memphis e Apache Spark

Amazon Simple Storage Service (S3) é um serviço de armazenamento de objetos altamente escalável, durável e seguro oferecido pela Amazon Web Services (AWS). O S3 permite que as empresas armazem e acessem qualquer quantidade de dados de qualquer lugar na web, aproveitando seus serviços de nível empresarial. O S3 é projetado para ser altamente interoperável e se integra perfeitamente com outros serviços da Amazon Web Services (AWS) e ferramentas e tecnologias de terceiros para processar dados armazenados no Amazon S3.…

June 30, 2024

Tutoriais