تحليل عنقودي
التحليل العنقودي (بالإنجليزية: Cluster analysis) هو عبارة عن نوع من الأساليب الإحصائية التي يمكن تطبيقها على البيانات.[1][2][3] يتولى التحليل العنقودي إفراز البيانات الأولية وتجميعها في مجموعات عنقودية (clusters). العنقود عبارة عن مجموعة من الحالات أو الملاحظات المتجانسة نسبيًا. تتميز العناصر المكونة للعنقود الواحد بأنها متشابهة مع بعضها، بينما تكون عناصر العناقيد المختلفة أقل تجانساً.
التحليل العنقودي، مثل تحليل العوامل والقياس متعدد الأبعاد، هو أسلوب تكافلي: حيث إنه لا يفرق بين المتغيرات التابعة والمستقلة. يتم فحص مجموعة العلاقات المترابطة تبادليًا. ويتشابه التحليل العنقودي مع القياس متعدد الأبعاد في أن كلاً منهما يبحث في التشابه بين العناصر وبعضها عن طريق فحص المجموعة الكاملة من العلاقات المترابطة. ويتمثل الاختلاف في أن القياس متعدد الأبعاد يحدد الأبعاد الأساسية، بينما التحليل العنقودي يحدد المجموعات. التحليل العنقودي هو الوجه المقابل لتحليل العوامل. في حين أن تحليل العوامل يقلل عدد المتغيرات عن طريق تجميعهم في مجموعة عوامل أصغر، يقلل التحليل العنقودي عدد الملاحظات أو الحالات عن طريق تجميعها في مجموعة مجموعات عنقودية أصغر.
الإجراءات الأساسية
- قم بصياغة المشكلة - حدد المتغيرات التي ترغب في تطبيق أسلوب التجميع عليها
- حدد قياس المسافة - طرق مختلفة لحساب المسافة:
- المسافة الإقليدية المربعة - مجموع الفروق المربعة في القيمة لكل متغير
- مسافة مانهاتن - مجموع الفروق المطلقة في القيمة لأي متغير
- مسافة تشيبيشيف - أقصى حد للفرق المطلق في القيم لأي متغير
- مهالانوبيس (أو مسافة العلاقة) - عبارة عن مقياس يستخدم معاملات الارتباط بين الملاحظات وتستخدم على أنها أداة لتجميعها. وهو مقياس مهم جدًا حيث إنه يعد وحدة ثابتة (يمكنه المقارنة مجازيًا بين التفاح والبرتقال)
- حدد إجراء تجميع (انظر أدناه)
- قرر عدد المجموعات العنقودية
- قم بتخطيط المجموعات وتأويلها - استخلص الاستنتاجات - تعد الأساليب التوضيحية مثل خرائط الإدراك الحسي والقطع الجليدية وديندروجرام تعد مفيدة للغاية في هذا الشأن
- قم بتقييم الموثوقية والصلاحية - بطرق مختلفة:
- كرر التحليل ولكن باستخدام مقياس مسافة مختلف
- كرر التحليل ولكن باستخدام أسلوب تجميع مختلف
- قسم البيانات بصورة عشوائية إلى نصفين وحلل كل جزء على حدة
- كرر التحليل عدة مرات، بحيث تحذف متغيرًا واحدًا كل مرة
- كرر التحليل عدة مرات، باستخدام ترتيب مختلف في كل مرة
إجراءات التجميع
هناك عدة أنواع من أساليب التجميع:
- التجميع غير الهرمي (ويسمى أيضًا تجميع الوسائل بالطريقة كيه)
- أولاً حدد مركز المجموعة، ثم قم بتجميع جميع العناصر الموجودة على مسافة محددة
- أمثلة:
- طريقة الحد المتسلسل - أولاً حدد مركز المجموعة، ثم قم بتجميع جميع العناصر التي تقع ضمن الحد المحدد سلفًا من المركز - يتم إنشاء مجموعة عنقودية واحدة في كل مرة
- طريقة الحد المتوازي - يتم تحديد عدة مراكز للمجموعة في الوقت نفسه، ثم يتم تجميع العناصر التي تقع ضمن الحد المحدد سلفًا من المراكز
- طريقة تحسين التقسيم - أولاً يتم تنفيذ إجراء غير هرمي، ثم يتم إعادة تعيين المكونات لتحسين المعيار بصورة عامة.
- التجميع الهرمي
- يتم تنظيم المكونات في بنية هرمية كجزء من الإجراءات
- أمثلة:
- التجميع التقسيمي - ابدأ عن طريق معالجة جميع العناصر كما لو أنها جزء من مجموعة واحدة كبيرة، ثم قم بتقسيم المجموعة إلى مجموعات أصغر وأصغر
- التجميع التراكمي - ابدأ بمعالجة كل عنصر على أنه مجموعة منفصلة، ثم قم بتجميعها في مجموعات أكبر وأكبر
- أمثلة:
- الطرق المركزية - تقوم المجموعات الناشئة بتعظيم المسافة بين مراكز المجموعات (المركزية هي القيمة المتوسطة لجميع العناصر في المجموعة)
- طرق الاختلاف - تقوم المجموعات الناشئة بتقليل أوجه الاختلاف بين المجموعات
- مثال:
- إجراء وارد - تقوم المجموعات الناشئة بتقليل المسافة الإقليدية المربعة لمتوسط المركز
- مثال:
- طرق الربط - تعتمد مكونات المجموعة على المسافة بينها
- أمثلة:
- طريقة الربط الفردية - تعتمد مكونات المجموعة على الحد الأدنى للمسافة بينها (وتسمى أيضًا قاعدة أقرب الجيران)
- طريقة الربط الكاملة - تعتمد مكونات المجموعة على الحد الأقصى للمسافة بينها (وتسمى أيضًا قاعدة أبعد الجيران)
- قاعدة الربط المتوسطة - تعتمد مكونات المجموعة على المسافة المتوسطة بين جميع أزواج الكائنات (يجب أن يأتي أحد الزوجين من مجموعة مختلفة)
- أمثلة:
- أمثلة:
انظر أيضًا
المراجع
- "معلومات عن تحليل عنقودي على موقع aleph.nkp.cz"، aleph.nkp.cz، مؤرشف من الأصل في 14 ديسمبر 2019.
- "معلومات عن تحليل عنقودي على موقع vocab.getty.edu"، vocab.getty.edu، مؤرشف من الأصل في 14 ديسمبر 2019.
- "معلومات عن تحليل عنقودي على موقع thes.bncf.firenze.sbn.it"، thes.bncf.firenze.sbn.it، مؤرشف من الأصل في 14 ديسمبر 2019.
- Sheppard, A. G. (1996). The sequence of factor analysis and cluster analysis: Differences in segmentation and dimensionality through the use of raw and factor scores. Tourism Analysis, 1(Inaugural Volume), 49-57.
- بوابة إحصاء
- بوابة علم الحاسوب