هل تجيد عجن البيانات؟
Jay Alammar جهاد العمار

هل تجيد عجن البيانات؟

كان يقال قبل سنين أن كل شركة هي شركة تقنية. بمعنى ان تقنية المعلومات اصبحت ضرورية في كل القطاعات الاقتصادية، وان لم تقم بالاستفادة منها، فسيتسفيد منها منافسوك للاستحواذ على حصتك من السوق (حتى في المجالات غير التقنية - امازون في التجارة، Airbnb في السكن والفندقة، Uber في المواصلات، Tesla في صناعة السيارات).


تتداول الآن فكرة مشابهة تعتبر امتداداً لتلك المقولة:

كل الشركات في طريقها لأن تكون شركات بيانات

بمعنى أن تقنيات البيانات بدأت بإتاحة فرص كبيرة لتحسين كافة الجوانب التشغيلية، مما يجعل انتشارها يتوسع اكثر فأكثر في مختلف الصناعات.


فلنأخذ التسويق كمثال، تجربتي في الاستثمار مع موبايلي فنشرز أتاحت لي رؤية مئات خطط العمل لشركات تقنية وتطبيقات في المنطقة. قد يفاجئك الفرق الشاسع بين بعض الشركات والبعض الآخر من ناحية درجة نضوج فكرهم التسويقي من ناحية استخدام البيانات للتأكد أن كل ريال يصرفونه في التسويق يعود بعائد جيد للشركة.


أفضل الشركات التي قابلت تستطيع ان تقول لك أن كل ريال يصرفونه في التسويق يعود عليهم بثلاثة، او أربعة ريالات من الدخل (أو أقل او اكثر، المهم هو القدرة على القياس). هذه الدقة في القياس لا تأتي فقط من مراقبة اجمالي الصرف على التسويق وحجم المبيعات. بل من متابعة الصرف على كل حملة اعلانية والعائد عليها من ناحية المبيعات. أي قياس أثر كل ضغطة ضغطها عميل على إعلان للشركة (وهو شيء ربما لا يتيحه لك الا الإعلان على الانترنت) وتفعيل خدمات مثل Google Analytics او Mixpanel أو Firebase Analytics أو غيرها من وسائل تتبع استخدام تطبيقك او موقعك.


رغم أنك ستجد عدداً من الأدوات التي تتيح لك فهم بيانات منتجك وشركتك، إلا أنك في كثير من الأحيان ستحتاج إلى أداة لـ”عجن” البيانات، وتنظيفها، ودمجها مع مجموعات بيانية أخرى، واستكشافها لفهم ما تخفيه من أسرار.


هذا الدور كان يقوم به سابقاً برنامج الإكسل، والذي لا يزال له مكان مهم في عصر الإقتصاد الجديد. ولكن اذا اردت أن يكون لك ميزة تنافسية في الاقتصاد الجديد، فالآن هو أفضل وقت لتستثمر في الأدوات الحديثة لاستكشاف البيانات وفلترتها و “عجنها”.


Power Bi

اذا كنت تجيد الإكسل، فهذا البرنامج من مايكروسوفت هو الامتداد الطبيعي للإكسل ويتمتع بسهولته ووجود نسخة مجانية منه.



Tableau (تابلو)

تابلو هو متصدر التطبيقات التي تسمى بالـ Business Intelligence. ووجوده منتشر عند التنفيذيين في كثير من الشركات الكبيرة في المملكة. قضاء بعض الوقت في تعلمه سيفيدك في التعامل مع البيانات وبناء لوحات بيانية (dashboards) تمكنك وفريقك من تتبع مختلف الأرقام المهمة للفريق.


القسم الثاني من الأدوات هو مخصص للمبرمجين او من يريدون تعلم البرمجة. هناك اثنتين من لغات البرمجة تحديداً تصدراً مجال تحليل البيانات. أنصح اي مبرمج بتفريغ القليل من الوقت لتعلم أحداهما واستخدامها لاستكشاف مجموعة بيانية واحدة على الأقل.

لغة البرمجة R

لغة R شائعة بين الباحثين في مجال الإحصاء، وسبقت الكثير من لغات البرمجة الأخرى في الحصول على مكتبات احصائية تساعد في “نمذجة” البيانات. هي اللغة التي يعتمد عليها تخصص علوم البيانات من جامعة جونز هوبكنز.


لغة R ومكتباتها أشهرت طريقة للتعامل مع البيانات اسمها “dataframe”. يمكن للمبرمجين التفكير في الـ dataframe بكونه data type عبارة عن مصفوفة ثنائية الأبعاد (2-dimensional array) كل عمود وصف فيها له عنوان (index). فكرة الـ dataframe تسهل كثيراً التعامل مع جداول البيانات، فتستطيع مثلاً قراءة ملف CSV (او excel sheet) وسيتم تخزين كل محتوياتها في dataframe واحد تستطيع تشريحه بأي طريقة تريد.


لغة البرمجة Python

سارع مجتمع لغة Python بتبني بعض الأفكار التي اشهرتها R وقام بصناعة مكتبات رائعة تجعل اللغة في الصف الأول للغات تحليل البيانات. مكتبة Pandas جلبت فكرة الـ dataframe إلى بايثون ودعمتها بشكل رائع.


استفدت كثيراً من هذا الدرس على يوتوب لفهم بعض مبادئ pandas الأساسية.

خيارات شخصية

عني انا شخصياً، استخدم عدة أدوات على حسب نوع المهمة و حجم البيانات:


  • اكسل او Google Sheets هما الخيار الأول لأغلب المهمات

  • Python و Pandas و Jupyter للبحث العميق في مجموعات بيانية اكبر من حجم معين، خصوصاً اذا كنت سأحتاج إلى “أتمتة” عمليات معينة على المجموعة البيانية (مثل تقرير شهري يحتج إلي المعالجة بنفس الطريقة كل شهر، او بيانات ستغذي موقع انترنت كـ “أنبوب معالجة بيانات” (Data pipeline)). 

    Anaconda هي منصة رائعة تجمع اغلب هذه الأدوات.
     

  • Google BigQuery اذا كان حجم البيانات اكبر من 8 جيجا.

    Pandas تحتاج إلى وضع بياناتك في ذاكرة الجهاز (RAM) لذلك ستحتاج إلى وسيلة أخرى اذا كان حجم المجموعة البيانية أكبر من الـ RAM على الحاسب الذي تستخدمه. يمكنك استخدام قاعدة بيانات مثل (Postgres او MySQL) في مثل هذه الحالات. كما يمكن تحليل البيانات على جهاز بـ RAM كبير تستأجره من اي خدمات الحوسبة السحابية (Amazon AWS, Google Cloud Platform, Microsoft Azure). لكن لأنني مهتم بتعلم “سحابة” جوجل، فـ BigQuery هي خيار احاول استخدامه في اي فرصة استطيع. بعد تحميل البيانات على الخدمة، تستخدم اوامر SQL لجلب وتشريح البيانات التي تحتاج.

ShareCopy link
Join