بقلم:

Farah AlNujaidi | فرح النجيدي

FarahN_IS@

البيانات الضخمة وتحليلها | Big Data and it’s analytics

 ما هي البيانات الضخمة؟

هذا سؤال رائع, يبدو أن هناك العديد من التعاريف للبيانات الضخمة كما هو الحال مع الشركات والمنظمات غير الربحية والوكالات الحكومية والأفراد الذين يرغبون في الاستفادة منها.

اذا ماهي البيانات الضخمة بالعالم التقني؟

بدايةً

data is the new oil

Clive Humby

يشير أحد التفسيرات الشائعة للبيانات الضخمة إلى مجموعات بيانات كبيرة للغاية. عرف تقرير المعهد الوطني للمعايير والتكنولوجيا -National Institute of Standards and Technology report- البيانات الضخمة بأنها تتكون من "مجموعات بيانات واسعة النطاق - في المقام الأول في خصائص الحجم والسرعة و / أو التباين - التي تتطلب بنية قابلة للتطوير للتخزين الفعال والتلاعب والتحليل". وقد عرف البعض البيانات الضخمة بأنها كمية من البيانات تتجاوز البيتابايت - مليون غيغابايت.


ما هي البيانات الضخمة بالضبط؟ يمكن تعريفها على أنها مجموعات بيانات يتجاوز حجمها أو نوعها قدرة قواعد البيانات العلائقية التقليدية على التقاط البيانات وإدارتها ومعالجتها بزمن انتقال منخفض. تشمل خصائص البيانات الضخمة الحجم الكبير والسرعة العالية والتنوع العالي. أصبحت مصادر البيانات أكثر تعقيدا من تلك الخاصة بالبيانات التقليدية لأنها مدفوعة بالذكاء الاصطناعي (الذكاء الاصطناعي) والأجهزة المحمولة ووسائل التواصل الاجتماعي وإنترنت الأشياء (IoT).

تعريف آخر للبيانات الضخمة هو الزيادة الهائلة وتوافر البيانات في عالمنا.

تأتي هذه البيانات من مصادر لا تعد ولا تحصى: الهواتف الذكية ومنشورات وسائل التواصل الاجتماعي. أجهزة الاستشعار ، مثل إشارات المرور وعدادات المرافق ؛ محطات نقاط البيع؛ الأجهزة القابلة للارتداء للمستهلكين مثل عدادات الملاءمة؛ السجلات الصحية الإلكترونية ؛..إلى اخره.


وتكمن في أعماق هذه البيانات فرص هائلة للمؤسسات التي لديها الموهبة والتكنولوجيا لتحويل مخزوناتها الواسعة من البيانات إلى رؤية قابلة للتنفيذ، وتحسين عملية صنع القرار، والميزة التنافسية.


من خلال تسخير قوة البيانات الضخمة، يمكن لأنظمة الرعاية الصحية تحديد المرضى المعرضين للخطر والتدخل في وقت أقرب. يمكن لإدارات الشرطة التنبؤ بالجريمة وإيقافها قبل أن تبدأ. يمكن لتجار التجزئة التنبؤ بالمخزون بشكل أفضل لتحسين كفاءة سلسلة التوريد. الاحتمالات لا حصر لها.


ولكن للوفاء بهذا الوعد، تحتاج المؤسسات إلى مهنيين مؤهلين يتمتعون بالمهارات اللازمة لاستخراج المعنى من جبال البيانات، وعلماء البيانات المراوغين هؤلاء غير متوفرين.

اكتسب مفهوم البيانات الضخمة ضجة علمية في أوائل عام 2000 عندما أوضح المحلل الصناعي دوج لاني Doug Laney التعريف السائد الآن للبيانات الضخمة على أنها ثلاثة V:


  • الحجم Volume:

    تجمع المؤسسات البيانات من مجموعة متنوعة من المصادر، بما في ذلك المعاملات والأجهزة الذكية (IoT) والمعدات الصناعية ومقاطع الفيديو والصور والصوت ووسائل التواصل الاجتماعي والمزيد. في الماضي، كان تخزين كل هذه البيانات مكلفا للغاية - لكن التخزين الأرخص باستخدام بحيرات البيانات و Hadoop والسحابة قد خفف من العبء.

  • السرعه Velocity: 

    مع النمو في إنترنت الأشياء، تتدفق البيانات إلى الشركات بسرعة غير مسبوقة ويجب التعامل معها في الوقت المناسب. علامات RFID وأجهزة الاستشعار والعدادات الذكية تقود الحاجة إلى التعامل مع هذه السيول من البيانات في الوقت الفعلي تقريبا.


  • النوع Variety:

    تأتي البيانات في جميع أنواع التنسيقات - من البيانات الرقمية المنظمة في قواعد البيانات التقليدية إلى المستندات النصية غير المهيكلة ورسائل البريد الإلكتروني ومقاطع الفيديو والتسجيلات الصوتية وبيانات مؤشر الأسهم والمعاملات المالية.

بعد الدراسات العميقة عن البيانات الضخمة؛ تم إضافة اثنان من الخصائص عليها وهي:

  • التقلبات Variability: 

    بالإضافة إلى السرعات المتزايدة وأنواع البيانات، لا يمكن التنبؤ بتدفقات البيانات - تتغير في كثير من الأحيان وتختلف اختلافا كبيرا. إنه أمر صعب، لكن الشركات تحتاج إلى معرفة متى يتجه شيء ما في وسائل التواصل الاجتماعي ، وكيفية إدارة أحمال البيانات اليومية والموسمية والناجمة عن الأحداث.

  • صحة البيانات Veracity:

    تشير الصدق إلى جودة البيانات. نظرا لأن البيانات تأتي من العديد من المصادر المختلفة ، فمن الصعب ربط البيانات ومطابقتها وتطهيرها وتحويلها عبر الأنظمة. تحتاج الشركات إلى ربط وربط العلاقات والتسلسلات الهرمية وروابط البيانات المتعددة. خلاف ذلك ، يمكن أن تخرج بياناتهم بسرعة عن نطاق السيطرة.

تحليل البيانات الضخمة

تحليل البيانات الضخمة هي استخدام تقنيات تحليلية متقدمة ضد مجموعات كبيرة جدا ومتنوعة من البيانات الضخمة التي تشمل بيانات منظمة وشبه منظمة وغير منظمة، من مصادر مختلفة، وبأحجام مختلفة من تيرابايت إلى زيتابايت.


باستخدام تحليل البيانات الضخمة، يمكنك في النهاية تعزيز عملية صنع القرار والنمذجة والتنبؤ بالنتائج المستقبلية بشكل أفضل وأسرع وتعزيز ذكاء الأعمال. أثناء إنشاء حل البيانات الضخمة الخاص بك، فكر في البرامج مفتوحة المصدر مثل Apache Hadoop و Apache Spark والنظام البيئي Hadoop بأكمله كأدوات معالجة وتخزين مرنة وفعالة من حيث التكلفة مصممة للتعامل مع حجم البيانات التي يتم إنشاؤها اليوم.

فوائد تحليلات البيانات الضخمة

  • اتخاذ قرارات بشكل أسرع وأفضل:

    يمكن للشركات الوصول إلى كمية كبيرة من البيانات وتحليل مجموعة كبيرة ومتنوعة من مصادر البيانات للحصول على رؤى جديدة واتخاذ إجراءات. ابدأ على نطاق صغير للتعامل مع البيانات من السجلات التاريخية وفي الوقت الفعلي.

  • خفض التكاليف والكفاءة التشغيلية:

    يمكن أن تساعد أدوات معالجة البيانات وتخزينها المرنة المؤسسات على توفير التكاليف في تخزين وتحليل كميات كبيرة من البيانات. اكتشف الأنماط والرؤى التي تساعدك على تحديد ممارسة الأعمال التجارية بشكل أكثر كفاءة.

  • تحسين البيانات للانتشار في السوق المستهدف:

    إن تحليل البيانات من أجهزة الاستشعار والأجهزة والفيديو والسجلات وتطبيقات المعاملات والويب ووسائل التواصل الاجتماعي يمكن المؤسسة من الاعتماد على البيانات. قياس احتياجات العملاء والمخاطر المحتملة وإنشاء منتجات وخدمات جديدة.

أخيراً

بغض النظر عن عدد مقابل ما تفضله في بياناتك الضخمة، هناك شيء واحد مؤكد: البيانات الضخمة موجودة هنا، وهي تكبر فقط. تحتاج كل مؤسسة إلى فهم ما تعنيه البيانات الضخمة بالنسبة لهم وما يمكن أن تساعدهم على القيام به. الاحتمالات حقا لا حصر لها.


أتمنى أن التدوينة أفادتكم ولو بنسبة قليلة..

إلى اللقاء.

Join