Hadoop
-
نقل Hadoop إلى السحابة: ضعف السعة التخزينية وتكاليف العمليات الأقل
ييميان هي مزود للتحليلات القائمة على الذكاء الاصطناعي والمتخصصة في بيانات التجارة الرقمية. نقدم رؤى في الوقت الفعلي حول استراتيجية الأعمال وتطوير المنتجات وعمليات التجارة الرقمية. العديد من عملائنا هم قادة الصناعة في مجالات العناية الشخصية والماكياج والمشروبات والطعام وحيوان الكلب والسيارات، مثل بروكتر وغامبل وانيلفر ومارس. كانت مبنى التكنولوجيا الأصلي لدينا مجموعة ضخمة من البيانات باستخدام CDH (كلوديرا ديستريبيوتد هادوب) في مركز بيانات داخلي. مع نمو أعمالنا، ازداد حجم البيانات بشكل كبير. للتعامل مع تحديات مثل دورات توسع طويلة…
-
كيفية استخدام تغيير البيانات التتبع مع أباتشي كافكا وسكيلا دي بي
في هذا المختبر العملي من جامعة ScyllaDB، ستتعلم كيفية استخدام مولد الاتصال ScyllaDB CDC source connector لدفع أحداث التغييرات على مستوى الصف في جداول المجموعة ScyllaDB إلى خادم Kafka. ما هو ScyllaDB CDC؟ لتلخيص، تم استخدام تتبع البيانات المتغيرة (CDC) كميزة تسمح لك ليس فقط بالاستعلام عن الحالة الحالية لجدول قاعدة البيانات ولكن أيضًا الاستعلام عن تاريخ جميع التغييرات التي تم إجراؤها على الجدول. تم إصدار CDC للإنتاج (GA) بدءًا من ScyllaDB Enterprise 2021.1.1 و ScyllaDB Open Source 4.3. في…
-
من Hadoop إلى السحابة: لماذا وكيفية فصل التخزين والحوسبة في منصات البيانات الضخمة
ظهور نظام الملفات الموزع Apache Hadoop (HDFS) أحدث ثورة في تخزين ومعالجة وتحليل البيانات لدى الشركات، مما سرع النمو في مجال البيانات الضخمة وأحدث تغييرات تحولية في الصناعة. في البداية، كان يحتوي Hadoop على تكامل التخزين والحوسبة، لكن ظهور الحوسبة السحابية أدى إلى فصل هذه المكونات. ظهر التخزين الكائني كبديل لـ HDFS ولكنه كان يعاني من قيود. لاستكمال هذه القيود، JuiceFS، وهو نظام ملفات موزع عالي الأداء مفتوح المصدر، يقدم حلولاً مكلفة التكلفة للسيناريوهات المعقدة بالبيانات مثل الحوسبة والتحليل والتدريب.…
-
إنشاء مستودع بيانات للصناعة التقليدية
هذا جزء من التحول الرقمي لشركة عقارية كبرى. من أجل السرية، لن أكشف عن أي بيانات تجارية، لكنك ستحصل على نظرة مفصلة عن مستودع بياناتنا واستراتيجيات التحسين لدينا. هيا بنا نبدأ. الهيكل المعماري من الناحية المنطقية، يمكن تقسيم هيكل بياناتنا إلى أربعة أجزاء. تكامل البيانات: يتم دعم هذا بواسطة Flink CDC، DataX، وميزة Multi-Catalog في Apache Doris. إدارة البيانات: نستخدم Apache Dolphinscheduler لإدارة دورة الحياة للسكريبتات، الأذونات في إدارة العدد الكبير من المستخدمين، ومراقبة جودة البيانات. التنبيه: نستخدم Grafana، Prometheus،…
-
بدء العمل مع Trino و Alluxio في خمس دقائق
ترينو هو محرك استعلام SQL موزع مفتوح المصدر مصمم لإجراء استعلامات على مجموعات كبيرة من البيانات الموزعة على واحد أو أكثر من المصادر المعقدة. تم تصميم ترينو للتعامل مع تخزين البيانات، ETL، والتحليلات التفاعلية بكميات كبيرة من البيانات وإنتاج تقارير. Alluxio هو منصة تنظيم البيانات مفتوحة المصدر للتحليلات والذكاء الاصطناعي على نطاق واسع. Alluxio يقع بين إطارات الحساب مثل ترينو وأباتشي سبارك وأنظمة تخزين متعددة مثل أمازون S3، جوجل كلاود ستوريج، HDFS، ومينيو. هذا درس تعليمي لنشر Alluxio كطبقة تخزين…
-
المعالجة التيرانية الحالية مع ميمفيس وأباتشي سبارك
خدمة Amazon Simple Storage Service (S3) هي خدمة تخزين الكائنات عالية القابلية للتوسع والدعم والأمان التي تقدمها Amazon Web Services (AWS). تسمح S3 للشركات بتخزين واسترداد أي كمية من البيانات من أي مكان على شبكة الويب عن طريق استخدام خدماتها عالية المستوى. تم تصميم S3 لتكون عالية التوافق وتتماشى بسلاسة مع الأدوات والتقنيات الأخرى من Amazon Web Services (AWS) ومن جهات ثالثة لمعالجة البيانات المخزنة في Amazon S3. ومن ضمنها Amazon EMR (Elastic MapReduce) الذي يتيح لك معالجة كميات كبيرة…