تداخل خطي (إحصاء)
التداخل الخطي (بالإنجليزية: Collinearity) وتعرف أيضا بالتداخل الخطي المتعدد (Multicollinearity) في الإحصاء والنمذجة الإحصائية (خصوصا في نماذج الانحدار) هي خاصية تكون فيها متغيرات مستقلة قابلة للكتابة، عبر توليفة خطية، بدلالة متغيرات مستقلة أخرى.
يعتبر التداخل الخطي حالة غير مرغوب فيها بالنسبة للمتغيرات المفسرة بحكم أنه يشكل نوعا من تكرار المعلومة[1] مما يعني أن المتغيرات المتداخلة خطيا تفسر نفس الظاهرة ويستحسن تقليل عددها بسحب متغيرات من قائمة المتغيرات المفسرة.[2] بعبارة أخرى، تكون المتغيرات المتداخلة تؤثر سلبيا على بعضها البعض (أي تزعج بعضها البعض إحصائيا)، داخل النموذج مما يستوجب تبني إستراتيجية لإقصاء بعضها من النموذج.[3]
التداخل الخطي هو خاصية أو ظاهرة مرتبطة بالبيانات والمتغيرات وليس بالنموذج الإحصائي في حد ذاته.
العلاقة بين الارتباط والتداخل الخطي
- التداخل الخطي بين متغيرين أو مجموعة من المتغيرات يعني بالضرورة أنها مرتبطة إحصائيا.
- بالمقابل، الارتباط الإحصائي لا يعني بالضرورة وجود تداخل خطي.
تأثير التداخل الخطي على النماذج الإحصائية
في نماذج الانحدار الخطي، يؤدي وجود التداخل الخطي بين المتغيرات المفسرة إلى تقويض نجاعة النمذجة، خصوصا على المستويات التالية:
- تكبير تباينات معاملات النموذج، مما يعسر التصديق على قيمها ومغزاها الإحصائي.[2]
- إمكانية ظهور مغزى إحصائي ضعيف للمعاملات (بقيم احتمالية p-value ضعيفة مما يؤكد فرضية انعدام معاملات الانحدار) رغم وجود علاقة ارتباط بين المتغير المستقل والمتغير التابع، وهو ما قد يدفع الباحث إلى إقصاء متغير غير ذي مغزى ظاهريا عن طريق الخطأ.[2][3]
- صعوبة تأويل المعاملات والتأثير الهامشي لتغير المتغير المستقل على قيمة المتغير التابع،[2] إضافة إلى ظهور إشارات غير منطقية لبعض المعاملات تخالف المعارف المتوفرة في مجال الدراسة.
- عدم استقرار النموذج وحساسيته المفرطة تجاه إضافة أو حذف أفراد إحصائيين من العينة المدروسة.
تكمن خطورة التداخل الخطي في كونه يشكل عامل ضعف كامن للنموذج الإحصائي، فهو لا يؤثر على مؤشرات جودة أخرى (معامل التحديد أو نسبة خطأ التوقعات مثلا).[4]
تعريف
توجد العديد من التعريفات النظرية لمفهوم التداخل الخطي. أبسط تعريف، وهو الأكثر استخداما على المستوى العملي، ينص على اعتبار عتبة مقبولة لمعامل الارتباط بين متغيرين مستقلين (مثلا 0.8 أو 0.7)، ويتم الحسم في الإبقاء على المتغيرات أو حذفها عبر تحليل مصفوفة الارتباط من منظور هاته العتبة. هذه التقنية قد تؤدي إلى قرارات خاطئة بحكم أن ارتباطا مرتفعا بين متغيرين مفسرين لا يعني بالضرورة وجود تداخل خطي، مما يفرض تبني تعريفات وتقنيات للكشف أكثر رصانة من المنظور الإحصائي.[3]
باعتبار نموذج انحدار لكتابة متغير تابع بدلالة متغير مستقل : ، انطلاقا من عينة مكونة من فرد إحصائي.
- مصفوفة لقيم الملاحظة.
- منقولة متجهة قيم الملاحظة.
- و، على التوالي، منقولتا متجهتي المعاملات المقدرة والأخطاء الهامشية للنموذج.
للتبسيط، يفترض أن المتغيرات موسطة ومختزلة، حتى تكون مصفوفة التغاير مطابقة لمصفوفة الارتباط.[5]
نعتبر منقولة متجهة معاملات الارتباط بين و.
التداخل الخطي التام
طريقة المربعات الصغرى في تقدير المعاملات تفترض أن مصفوفة الارتباط (مصفوفة معاملات الارتباط ) قابلة للعكس، أي أن رتبتها تساوي (أي لها قيمة ذاتية موجبة قطعا):
.
حالة التداخل الخطي التام هي التي تكون فيها غير قابلة للعكس أي: أو قيمة واحدة أو أكثر من قيمها الذاتية منعدمة.[4]
التداخل الخطي الحاد
حالة التداخل الخطي الحاد تكون إذا كان محدد مصفوفة التغاير قريبا من وهو ما يعني بأن معكوسة مصفوفة التغاير تضم قيما جد مرتفعة، ونفس الأمر بالنسبة لمصفوفة تغاير القيم المقدرة لمعاملات النموذج . بالتالي تتخذ إحصائية اختبار ستيودنت لاختبار المغزى الإحصائي للمعاملات قيما ضعيفة مما يدفع إلى إقصاء المتغير الموافق من النموذج.[3]
طرق الكشف عن التداخل الخطي
الطرق التالية تفترض القيام بتطبيق أولي لنموذج انحدار خطي، ويمكن أن تؤدي إلى تطبيق تكراري للنمذجة إلى غاية تحييد التداخلات الخطية.
قاعدة كلاين
وهي قاعدة اعتباطية (ليست باختبار إحصائي) تقضي بوجود تداخل خطي لمتغيرين و إذا كان مربع معامل ارتباطهما أكبر من معامل تحديد النموذج .[6]
عامل تضخم التباين
قاعدة كلاين تسمح فقط بترشيح المتغيرات التي يمكن أن تكون مفسرة للتداخل الخطي بشكل ثنائي. من أجل تقييم عام للتداخل الخطي، من الضروري نمذجة كل متغير مستقل بدلالة ال () متغيرات الأخرى واعتبار معامل التحديد الموافق .
يعرف عامل تضخم التباين بالصيغة التالية: وترجع تسميته بمعامل التضخم لأن قيمته تدخل في حساب الانحراف المعياري لمقدرات معاملات النموذج: وبالتالي كلما كبرت قيمة ، تزايد عدم استقرار مقدر المعامل مما يقلل حظوظه في أن ينجح في اختبار المغزى الإحصائي لعدم مساواته 0.
المقدار يعرف بمستوى تحمل التداخل الخطي (Tolerance).
يتم تعريف عتبة للإقرار بمسؤولية في التسبب في حالة تداخل خطي، العتبات المتعارف عليها يمكن أن تساوي بالنسبة لعامل التضخم 4 أو 5 أو 10 (عامل تضخم 4 يوافق مستوى تحمل 0.25).[7]
عمليا، حساب نموذج انحدار خطي لكل متغير مستقل بدلالة المتغيرات المفسرة الأخرى قد يكون مرهقا. يمكن البرهنة على أن المصفوفة العكسية لمصفوفة الارتباط يكون قطرها مشكلا من القيم : .
اختبار تجانس الإشارات
يمكن الكشف عن التداخل الخطي عبر مقارنة إشارة معامل ارتباط والتابع (بعد التأكد من مغزاها الإحصائي) مع إشارة معامل النموذج المقدر .
إذا كانت فذلك يعني أن المتغير يقدم «تفسيرا» متناقضا للمتغير التابع وهو ما يرشحه بقوة لكي يكون مسؤولا عن تداخل خطي.
اختبار فارار وغلاوبر
اختبار فارار وغلاوبر (Farrar & Glauber)، الذي نشر سنة 1967، يمكن من اختبار وجود التداخل الخطي بطريقة شاملة، ويفترض أن يتم تطبيقه كشكل من التصديق النهائي على «سلامة» النموذج بعد استيفاء الاختبارات السابقة. الفرضية المنعدمة المختبرة هي:
- : استقلالية المتغيرات المفسرة (أو تعامدها بالمعنى الجبري).
إحصائية الاختبار هي: وهي موزعة وفق توزيع مربع خي ذي درجات حرية: .[8]
مراجع
- "La multicolinéarité et son diagnostic"، مؤرشف من الأصل في 27 ديسمبر 2019.
- "Multicolinéarité dans la régression"، مؤرشف من الأصل في 8 يونيو 2019.
- "La régression dans la pratique" (PDF)، مؤرشف من الأصل (PDF) في 16 مايو 2018.
- "COLINÉARITÉ ET RÉGRESSION LINÉAIRE"، مؤرشف من الأصل في 27 ديسمبر 2019.
- "Covariance et matrice de variances-covariances"، مؤرشف من الأصل في 11 فبراير 2019.
- "Colinéarité et Sélection de Variables" (PDF)، مؤرشف من الأصل (PDF) في 23 نوفمبر 2018.
- Ricco Rakotomalala، "Pratique de la Régression Linéaire Multiple - Diagnostic et Sélection de variables" (PDF)، مؤرشف من الأصل (PDF) في 16 مايو 2018.
- "Test d'indépendance des variables explicatives"، مؤرشف من الأصل في 29 ديسمبر 2019.
- بوابة إحصاء