Hadoop
-
Перенос Hadoop в облако: удвоенная емкость хранения и меньшие затраты на операции
Yimian — ведущий поставщик аналитики данных с использованием искусственного интеллекта, специализирующийся на данных цифровой коммерции. Мы предлагаем реальные временные сведения для стратегии бизнеса, разработки продуктов и операций в области цифровой коммерции. Многие наши клиенты являются лидерами отрасли в сферах личной гигиены, макияжа, продуктов питания и напитков, товаров для животных и автомобильной индустрии, такие как Procter and Gamble, Unilever и Mars. Изначальная архитектура нашей технологии представляла собой кластер больших данных, построенный с использованием CDH (Cloudera Distributed Hadoop) в собственном центре данных.…
-
Как использовать Change Data Capture с Apache Kafka и ScyllaDB
В этой практической лаборатории от ScyllaDB University вы научитесь использовать ScyllaDB CDC source connector для отправки событий изменений на уровне строк в таблицах кластера ScyllaDB на сервер Kafka. Что такое ScyllaDB CDC? Подводя итог, Change Data Capture (CDC) — это функция, которая позволяет не только запрашивать текущее состояние таблицы базы данных, но и запрашивать историю всех изменений, внесенных в таблицу. CDC является готовым к производству (GA) начиная с ScyllaDB Enterprise 2021.1.1 и ScyllaDB Open Source 4.3. В ScyllaDB CDC является…
-
От Hadoop до облака: почему и как разделить хранилище и вычисления в платформах для работы с большими данными
Наступление Apache Hadoop Distributed File System (HDFS) революционизировало хранение, обработку и анализ данных для предприятий, ускоряя рост больших данных и приводя к трансформационным изменениям в отрасли. Первоначально Hadoop интегрировал хранилище и вычисления, но появление облачных вычислений привело к разделению этих компонентов. Объектное хранилище возникло как альтернатива HDFS, но имело ограничения. Для дополнения этих ограничений, JuiceFS, открытый исходный код, высокопроизводительная распределенная файловая система, предлагает экономически эффективные решения для данных, интенсивных сценариев, таких как вычисление, анализ и обучение. Решение о принятии разделения…
-
Создание хранилища данных для традиционной промышленности
Это часть цифровой трансформации гиганта в сфере недвижимости. В целях конфиденциальности я не буду раскрывать никаких коммерческих данных, но вы получите подробное представление о нашем хранилище данных и наших стратегиях оптимизации. Теперь давайте начнем. Архитектура Логически наша архитектура данных может быть разделена на четыре части. Интеграция данных: Это обеспечивается с помощью Flink CDC, DataX и функции Multi-Catalog в Apache Doris. Управление данными: Мы используем Apache Dolphinscheduler для управления жизненным циклом скриптов, привилегиями в управлении мультитенантностью и мониторингом качества данных. Оповещения:…
-
Начни работу с Trino и Alluxio за пять минут
Trino — это открытый исходный распределенный движок запросов SQL, предназначенный для запроса больших наборов данных, распределенных по одному или нескольким гетерогенным источникам данных. Trino был разработан для обработки хранилищ данных, ETL и интерактивного анализа больших объемов данных и создания отчетов. Alluxio — это открытый источник оркестрации данных для масштабного анализа и ИИ. Alluxio находится между вычислительными фреймворками, такими как Trino и Apache Spark, и различными системами хранения данных, такими как Amazon S3, Google Cloud Storage, HDFS и MinIO. Это учебник…
-
Статическое потоковое обработкой с использованием Memphis и Apache Spark
Amazon Simple Storage Service (S3) — это высокомасштабируемая, надежная и безопасная служба объектного хранилища, предлагаемая Amazon Web Services (AWS). S3 позволяет компаниям хранить и извлекать любой объем данных из любой точки веб-пространства, используя сервисы класса “Enterprise”. S3 разработан для высокой совместимости и интегрируется гладко с другими Amazon Web Services (AWS), а также с инструментами и технологиями сторонних разработчиков для обработки данных, хранящихся в Amazon S3. Одним из таких инструментов является Amazon EMR (Elastic MapReduce), который позволяет обрабатывать большие объемы данных…