تعلم مراقب
التعلم بالإشراف أو التعلم الاستقرائي هو منهج في تعلم الآلة يقوم باستنتاج تابع من مجموعة بيانات تدريبية موسومة labeled training data.[1] تتكون بيانات التدريب من مجموعة من الأمثلة الواقعية (مثل بيانات مريض في المستشفى، قيمة الأسهم في البورصة إلخ). في التعلم تحت إشراف كل عينة تمثل شيء على أرض الواقع وتتكون زوج بيانات دخل وخرج تكون مدخلات (عادة متجه) والمطلوب التنبوء بقيمة الخرج (يسمى أيضا العلامة الإشرافية).خوارزمية التعلم بالاشراف تحلل بيانات التدريب وو ينتج تابع الاستدلال الذي يستخدم في تعيين الأمثلة الجديدة. السيناريو الأمثل تسمح خوارزمية لتحديد فئات العينات الغير مرئية (الجديدة تماما والتي لم تستخدم في مرحلة التدريب) بشكل صحيح. وهذا يتطلب تعميم خوارزمية التعلم باستخدام بيانات التدريب على العينات الجديدة حالات بطريقة «مقبولة» (انظر الاستقرائي التحيز).
ذكاء اصطناعي |
تقليدي |
---|
بحث فضاء الحالة |
تخطيط مؤتمت |
بحث توافقي |
أنظمة خبيرة |
تمثيل المعرفة |
أنظمة معرفية الأساس |
طرق حديثة |
شبكات عصبونية |
ذكاء اصطناعي موزع |
برمجة جينية |
خوارزميات جينية |
ذكاء الأسراب |
كائنات اصطناعية |
شبكات بايزية |
تعلم الآلة |
تمييز الأنماط |
منطق ضبابي |
الكترونيات ضبابية |
فلسفة |
ذكاء اصطناعي قوي |
وعي اصطناعي |
اختبار تورنغ |
الوظيفة الموازية في علم نفس الإنسان والحيوان غالبا ما يشار إليها بمفهوم التعلم.
نظرة عامة
لحل مشكلة معينة من التعلم تحت الاإشراف يجب إتباع الخطوات التالية:
- تحديد نوع أمثلة التدريب. قبل القيام بأي شيء آخر، يجب على المستخدم أن يقرر ما هو نوع من البيانات المستخدمة في مجموعة التدريب. في حالة تحليل خط اليد، على سبيل المثال، قد تكون حرف واحد مكتوب بخط اليد أو كلمة كاملة مكتوبة يدويا.
- جمع مجموعة التدريب. مجموعة التدريب يجب أن تكون ممثلة في العالم الحقيقي باستخدام تابع. وهكذا مجموعة من المدخلات الكائنات التي تم جمعها والتي تتناظر مع مخرجات (فئات، أو وسوم) التي أيضا يتم جمعها سواء بالاستعانة بالخبراء أو عن طريق القياسات المخبرية.
- تحديد طريقة تمثيل خصائص (قسمات) المدخلات لتابع التعلم. دقة التابع المُعلّم يعتمد بشدة على كيفية تمثيل الكائن المدخل. عادة يتم تحويل الكائن المدخل تتحول إلى متجه (متجه رياضي) من الخصائص، وهي عبارة عن مقادير عددية أو سلاسل حرفية محددة توصف الكائن المدخل، عدد الخصائص يجب أن لا يكون كبير جدا، وهذا ما يصطلح بتسميته لعنة الأبعاد، ولكن يجب أن تحتوي على ما يكفي من المعلومات للتنبؤ بدقة بقيم الخرج.
- تحديد نوع وبنية خوارزمية التعلم. على سبيل المثال، قد يقوم المهندس باختيار طرق التعلم باستخدام شعاع الدعم الآلي أو أشجار القرار.
- إكمال التصميم. تشغيل خوارزمية التعلم على مجموعة التدريب. بعض خوارزميات التعلم تحت إشراف تتطلب من المستخدم تحديد بعض معاملات (بارامترات) التحکم. هذه المعامالات يمكن تعديلها عن طريق تشغیل خورزمیات تحسین الأداء على مجموعة فرعية (تسمى مجموعه التحقق من الصحة) من مجموعة التدريب، أو عبر عبر التحقق من صحة.
- تقييم دقة تابع التعلم. بعد التعديل والتعليم للمعاملات (البارامترات)، قبل البدء بعملية التدريب يتم فصل مجموعة التدريب إلى مجموعتين الأولى تسمى مجموعة التعليم والأخرى مجموعة الفحص يتم اختبار أداء تابع التعلم باستخدام مجموعة الفحص. هناك طرق كثير لفصل مجموعة الفحص عن مجموعة التعليم، أهمها التصديق المتقطع، التصديق بالفصل، التصديق ترك واحد خارجا.
مجموعة واسعة من خوارزميات التعلم تحت إشراف متوفرة، مع كل نقاط القوة والضعف فيها. لا يوجد خوارزمية تعلم واحدة تعمل بشكل أفضل من الخوارزميات الأخرى على جميع مسائل التعلم بالأشراف انظر لا يوجد غداء مجاني نظرية).
هناك أربع قضايا رئيسية تأخذ بعين الاعتبار في التعلم تحت الإشراف:
انحياز-الانحراف المقايض
أول مسألة هي إيجاى مصالحة بين الانحياز والانحراف .[2] تخيل أنه تتوفر لدينا عدد من بيانات التدريب المختلفة ولكن بنفس الجودة. تنحاز خوارزمية التعلم لمدخل معين إذا تدربت باستخدام مجموعات البيانات بشكل خاطئ بحيث تتنبأ بقيمة الخرج للمدخل بشكل صحيح ولكن الأسلوب خاطئ (يقصد بهذه المشكلة الحفظ المباشر لبيانات الدخل وما يقابلها من الخرج بدون أي تعميم). يكون لخوارزمية التعلم انحراف معال مرتفع معين الإدخال إذا كانت تتنبأ بقيم خرج مختلفة عند استخدام بيانات تدريب مختلفة. خطأ التنبؤ للمصنف المدرب هو وثيق الصلة بمجموع الانحياز والانحراف لخوارزمية التعلم.[3] عموما، هناك علاقة تبادلية بين الانحياز والانحراف. خوارزمية التعلم ذات انحياز منخفض ويجب أن تكون «مرنة» بحيث تناسب البيانات المدخلة. ولكن إذا كانت خوارزمية التعلم أيضا مرنة تناسب كل مجموعات بيانات التدريب المختلفة، تكون عالية التباين. التوجه الرئيسي في طرق التعليم بالاشراق هو أن تكون قادرة على ضبط هذه المقايضة بين الانحياز والانحراف (إما تلقائيا أو من خلال توفير كمية متغيرة-بارامتر- يمكّن المستخدم من ضبط الانحياز/ الانحراف)
تابع التعقيد وكمية بيانات التدريب
المسألة الثانية هي كمية بيانات التدريب المتاحة بالنسبة إلى تعقيد التابع «الصحيح» (المصنف أو تابع الانحدار - المقصود بالتابع الصحيح أن بعد تشغيل خوارزمية التدريب لمرات عديد يتم اختيار أنسب تابع تعلم ويكون صاحب الدقة الأكبر ويطلق عليه التابع الصحيح). إذا كان التابع الصحيح بسيطا، عندها سوف نكون بحاجة إلى خوارزمية تعلم «غير مرنة» فيها انحياز مرتفع وانخفاض في الانحراف وسنكون قادرين على تحقيق ذلك باستخدام كمية صغيرة من البيانات. ولكن إذا كان التابع الصحيح معقد للغاية (على سبيل المثال، لأنه يعتمد على التفاعلات المعقدة بين العديد من المدخلات والخصائص المختلفة ويتصرف بطريقة مختلفة وفقا لكل فضاء فرعي من فضاء المدخلات)، عندها سنكون بحاجة إلى كمية كبيرة من بيانات التدريب وخوارزمية تدريب تتمتع «بمرونة» عالية مع انخفاض في التحيز واختلاف كبير في الانحراف.
أبعاد فضاء المدخلات
المسألة الثالثة هي أبعاد فضاء المدخلات. إذا كان عدد خصائص متجه الدخل كبير جدا تصبح مسألة التعلم صعبة الحل جدا حتى لو أن تابع التعلم الصحيح يعتمد على عدد قليل من تلك المدخلات. وذلك لأن العديد من الأبعاد «إضافية» يمكن أن تشوش خوارزمية التعلم وتؤدي إلى انحراف عالي في أداء الخوارزمية. من هنا ارتفاع أبعاد المدخلات عادة ما يتطلب ضبط المصنف ليتمكن من الوصول انحراف منخفض وانحياز عالي. في الواقع، إذا كان هناك مهندس يستطيع إزالة الخصائص عديمة الصلة من فضاء الدخل يدويا، ومن المرجح أن تؤدي هذه الإزالة إلى تحسين دقة التابع المكتسب بالتعلم. وبالإضافة إلى ذلك، هناك العديد من خوارزميات اختيار الميزات التي تسعى إلى تحديد الخصائص (الميزات) ذات الصلة والتخلص من الميزات عديمة الصلة. بشكل مبسط تسعى إستراتيجية تخفيض الأبعاد إلى تبديل (إسقاط هندسي) فضاء البيانات المدخلة إلى فضاء أقل أبعاد قبل تشغيل خوارزمية التعلم بالإشراف.
الضجيج في قيم الخرج
والمسألة الرابعة هي درجه الضوضاء في قیم الخرج المطلوبة (مقاىير تابع الهدف الإشرافية). إذا كانت مجموعة التدريب تحتوي قيم غير صحيحة في خانة الخرج (بسبب الخطأ البشري أو الأخطاء في أجهزة القياس)، في هذه الحالة تقوم خوارزمية التعلم باكتساب تابع يعطي قيم لا تتطابق مع أمثلة التدريب الواقعية. السعي إلى تكييف البيانات بشكل دقيق جدا يؤدي إلى الإفراط في التناسب. بالإمكان الوصول إلى الإفراط في التناسب حتى عندما لا يكون هناك أخطاء في القياس (الضوضاء العشوائية) إذا كنت تحاول تعلم تابع (دالة) معقدة جدا بالنسبة نموذج التعلم. في مثل هذه الحالة ذلك الجزء من تابع الهدف لا يستطيع تمثيل بيانات التدريب «المعطوبة» وتدعى هذه الظاهرة باسم الضوضاء القطعية. عندما يكون أي نوع من الضوضاء في مجموعة بياناتك الحالية، فمن الأفضل المضي باستخدام مخمن لأعلى أنحياز وأقل مقدار انحراف.
في الواقع، هناك عدة طرق للتخفيف من حدة الضوضاء في قيم الخرج مثل التوقف المبكر لمنع الإفراط في لتناسب وكذلك الكشف عن وإزالة أمثلة التدريب المشابة بالضوضاء قبل تشغيل خوارزمية التعلم بالاشراف. هناك العديد من الخوارزميات التي تحدد وتزيل الأمثلة التدريبية التي يشتبه بأنها مشوشة بالضجيج قبل البدء بالتدريب وهذا يؤدي إلى انخفاض خطأ التعميم مع دلالة إحصائية.[4] [5]
العوامل الأخرى التي تؤخذ بعين الاعتبار
عوامل أخرى في الاعتبار عند اختيار وتطبيق خوارزمية التعلم ما يلي:
- عدم تجانس البيانات. إذا كان متجه الخصائص تتضمن أنواع مختلفة من الخصائص (متقطعة، متقطعة مرتبة، عددي، قيم مستمرة)، بعض الخوارزميات هي أسهل لتطبيق أكثر من غيرها. العديد من الخوارزميات، بما في ذلك شعاع الدعم الآلي، الانحدار الخطي، الانحدار اللوجستي، الشبكات العصبية و خوارزمية الجار الأقرب تطلب إدخال خصائص بمقادير عددية وفي مقاييس بنطاقات متشابهة (على سبيل المثال، الفاصلة بين [-1,1]). الطرق التي تستخدم دوال الفاصلة، مثل خوارزمية الجار الأقرب وشعاع الدعم الآلي مع نواة جاوس، تتطلب وجود البيانات متجانسة وبمقاييس عددية متناسبة. بالمقابل ميزة طريقة أشجار القرار هو أنها تتعامل بسهولة مع البيانات غير المتجانسة.
- الإطناب (التكرار) في البيانات. إذا كان خصائص الدخل تحتوي على معلومات زائدة عن الحاجة (على سبيل المثال، خصائص بينها ترابط إلى حد كبير- تواجد مجموعة مقادير بالإضافة إلى المتوسط الحاسبي لها في فضاء الإدخال) بعض خوارزميات التعلم (مثل الانحدار الخطي، الانحدار اللوجستيو المسافة على أساس أساليب) تعمل بشكل سيئ عند وجود عدم الاستقرار العددي في بيانات الدخل (مثلا خصيصة الطول تتراوح بين 1.2 و 2.1 متر، في حين خصيصة الوزن تتراوح بين 30 و 110 كيلو جرام). هذه المشاكل يمكن حلها في كثير من الأحيان من خلال استخدام بعض أشكال التنظيم الرياضي.
- وجود تفاعلات ولاخطية في قيم خصائص الدخل. إذا كان كل من الميزات يساهم بشكل مستقل في قيم الخرج، عندها تقوم الخوارزميات الخطية (مثل الانحدار الخطي، الانحدار اللوجستي، دعم آلات ناقلات، ساذجة Bayes) ودوال المسافة (على سبيل المثال، خوارزمية الجار الأقرب، شعاع الدعم الآلي مع نواة جاوس) بأداء جيد عموما. ولكن، إذا كان هناك تفاعلات معقدة بين خصائص الدخل، عندها تقوم خوارزميات من قبيل أشجار القرار والشبكات العصبية بالعمل بشكل أفضل لأنها مصممة خصيصا لاكتشاف هذه التفاعلات. يمكن تطبيق الطرق الخطية في هذه الحالة أيضا، ولكن يجب أن يقوم المهندس بتحديد التفاعلات يدويا عند استخدامها.
كيف تعمل خوارزميات التعلم تحت إشراف
لنفترض أنه لدينا مجموعة أمثلة تدريبة تشمل N عنصر تتوزع بالشکل التالي حيث أن هو متجه الخصائص للمثال التدريبي رقم i والمتغير هو الوسم المقابل له (أي التصنيف أو قيمة الخرج المطلوبة). خوارزمية التعليم تبحث عن تابع (علاقة رياضية) حيث أن X هو فضاء الدخل و Y هو فضاء الخرج. التابع g هو عنصر من مجموعة التوابع الممكنة G الممكن وجودها بين فضائي الدخل والخرج. هذه المجموعة تسمى بالغالب فضاء الفرضية. في بعض الأحيان يكون من المناسب إعادة تبيان التابع g باستخدام تابع إحراز النقاط بشكل مشابه للتابع g بحيث أنه عوضا عن مقدار الوسم يقوم بارجاع مقدار y الذي يملك أكبر مقدار من النقاط. دعنا نستخدم F لترميز فضاء النقاط.
على الرغم من أن و يمكن أن يكون أي فضاء من التوابع. إلا أن العديد من خوارزميات التعلم تعتمد النماذج الاحتمالية حيث يأخذ شكل نموذج الاحتمال الشرطي أو يأخذ شكل نموذج الاحتمالات المشتركة . على سبيل المثال، بايز البسيط وتحليل التمايز الخطي نماذج تعتمد الاحتمالات المشتركة، بينما الانحدار اللوجستي هو نموذج يعتمد الاحتمال الشرطي.
هناك نهجين أساسيين اختيار أو : تقليل المخاطر التجريبية و تقليل المخاطر الهيكلية.[6] يقوم نهج تقليل المخاطر التجريبية بالبحث عن التابع الذي يناسب بيانات التدريب بشكل أفضل. في حين أن تقليل المخاطر الهيكلية تتضمن تابع ضريبة التي تتحكم بشكل مقايض (متوازن) الانحياز/الانحراف.
في كلتا الحالتين، فمن المفترض أن تتكون مجموعة التدريب من عينة مستقلة و مثالية التوزيع، . من أجل قياس مدى تناسب التابع مع بيانات التدريب، يتم تعريف تابع الخسارة . للتدريب على سبيل المثال قيمة الخسارة الناتجة من التنبؤ بالمقدار هو .
الخطر للتابع ويعرف بالخسارة المتوقعة ل . هذا يمكن أن يتم تقديره من بيانات التدريب كما في العلاقة التالية
- .
تقليل المخاطر التجريبية
في تقليل المخاطر التجريبية، تقوم خوارزمية التعلم بالإشراف بالبحث عن تابع بحيث يقلل من . وبالتالي فإن خوارزمية التعلم بالإشراف يمكن بناؤها من خلال تطبيق خوارزميات الاستمثال للعثور على .
عندما يكون بالاعتماد احتمال ذو توزيع شرطي وتابع الخسارة سالب لوغاريتم تقدير الاحتمال: عندها تقليل المخاطر التجريبية هو ما يعادل أقصى تقدير الاحتمالات.
عندما يحتوي على العديد من التوابع المرشحة أو مجموعة تدريب غير كبيرة بما فيه الكفاية، يؤدي تقليل المخاطر التجريبية إلى ارتفاع في الانحراف (المعياري) وضعف في التعميم. خوارزمية التعلم تقوم بحفظ الأمثلة التدريبية دون تعميم. وهذا ما يسمى أيضا الافراط في التناسب.
تقليل المخاطر الهيكلية
يهدف تقليل المخاطر الهيكلية إلى منع الافراط في التناسب عن طريق دمج تنظيم الضريبة في التحسين. تنظيم الضريبة يمكن أن يعرض على أنه تنفيذ شكل من أشكال أوكام الذي يفضل استخدام توابع بسيطة على الأكثر تعقيدا.
مجموعة واسعة من الضرائب وظفت بشكل يتوافق مع تعريفات مختلفة للتعقيد. على سبيل المثال في الحالة التي يكون فيها وظيفة هو دالة خطية من شكل
- .
هو تابع تنظيم عقوبة شائع الذي يطلق عليه أيضا القاعدة الإقليدية المربعة من الأوزان المعروفة أيضا باسم المبدأ . المبادئئ الأخرى تشمل المبدأ ، ، المبدأ ، حيت أن عدد غير-صفري. تابع العقوبة يمثل عادة ب .
مشكلة تحسين (تمثيل) التعليم بالإشراف هي العثور على تابع يقلل من
يضبط المقايضة (التوازع) الانحياز-الانحراف . عندما هذا يؤدي إلى تقليل المخاطر التجريبية مع انخفاض التحيز وارتفاع الاتحراف. عندما يكون مقدار كبير، سوف يكون خوارزمية التعلم ارتفاع الانحياز وانخفاض الانحراف. قيمة يمكن اختيار تجريبيا عبر التصديق المتقطع.
لدى تعقيد الضريبة تفسير بيزياني, في هذه الحالة هو الاحتمال اللاحق للتابع .
التدريب التّوالدي
أساليب التدريب المذكورة أعلاه هي أساليب تدريبية تمييزية لأنها تسعى إلى إيجاد تابع لكي يميز جيدا بين قيم الإخراج المختلفة (انظر النموذج التمييزي). لأجل حالة خاصة حيث هو توزيع احتمالي مشترك وتابع الخسارة هو سالب لغواريتم تقدير الاحتمال خوارزمية تقليل الأخطار تقوم بالتدريب التوالدي ، لأن التابع يمكن اعتباره نموذج توالدي يقوم بتفسير كيف تم إنشاء بيانات التدريب. خوارزميات التدريب توالدي غالبا ما تكون أبسط وأكثر كفاءة حسابيا من خوارزميات التدريب التمييزية . في بعض الحالات يمكن أن يكون الحل حسابها في شكل قريب من حلول خوارزميات بايز البسيط وتحليل التمايز الخطي.
تعميم التعلم تحت الإشراف
هناك العديد من طرق تساعد على تعميم مشكلة التعلم تحت الإشراف:
- التعلم بالإشراف النصفي: في هذا الإطار قيم الخرج متوفرة فقط في مجموعة فرعية من بيانات التدريب. باقي البيانات غير موسومة (ليس لديها مقادير خرج مقابلة).
- التعلم النشط: بدلا من افتراض أن كل أمثلة التدريب موجودة في بداية التعلم، تقوم خوارزميات التعلم النشط بجمع أمثلة جديدة بشكل تفاعلي، عادة عن طريق طلب استعلامات من الإنسان المستخدم. في كثير من الأحيان، الاستعلامات تعتمد على البيانات غير المسماة، وهو السيناريو الذي يجمع بين التعلم بالإشراف النصفي والتعلم النشط.
- التنبؤ البنيوي: عندما يكون التنبوء المطلوب عبارة عن كائن معقد مثل شجرة التحليل أو رسم البياني مسمى، عندها سنكون بحاجة إلى توسيع أساليب التعلم القياسية.
- تعلم الترتيب: عندما يكون الدخل مجموعة من الكائنات والخرج المطلوب هو ترتيب هذه الكائنات، عندها سنكون بحاجة أيضا لتطوير الأساليب القياسية للتعامل مع هذه المسألة.
المناهج والخوارزميات
- Analytical learning
- شبكة عصبونية اصطناعية
- انتشار خلفي
- Boosting (meta-algorithm)
- Bayesian statistics
- المنطق المعتمد على الحالة
- Decision tree learning
- Inductive logic programming
- Gaussian process regression
- Group method of data handling
- Kernel estimators
- Learning Automata
- Learning Classifier Systems
- Minimum message length (شجرة القرار، decision graphs, etc.)
- Multilinear subspace learning
- Naive bayes classifier
- Maximum entropy classifier
- Conditional random field
- Nearest Neighbor Algorithm
- Probably approximately correct learning (PAC) learning
- Ripple down rules, a knowledge acquisition methodology
- Symbolic machine learning algorithms
- Subsymbolic machine learning algorithms
- شعاع الدعم الآلي
- Minimum Complexity Machines (MCM)
- Random Forests
- Ensembles of Classifiers
- مستويات القياس
- Data Pre-processing
- Handling imbalanced datasets
- Statistical relational learning
- Proaftn, a multicriteria classification algorithm
التطبيقات
المشاكل العامة
- نظرية التعلم المحوسبة
- الانحياز التحريضي
- الافراط في التناسب (تعلم الآلة)
- (لم تتم معايرتها) احتمالات عضوية الفئات
- التعلم بدون المراقبة
- النسخ المتعدد لفضاءات التعلم
المراجع
- Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar (2012) Foundations of Machine Learning, The MIT Press ISBN 9780262018258. نسخة محفوظة 23 مارس 2019 على موقع واي باك مشين.
- S. Geman, E. Bienenstock, and R. Doursat (1992).
- G. James (2003) Variance and Bias for General Loss Functions, Machine Learning 51, 115-135. (http://www-bcf.usc.edu/~gareth/research/bv.pdf) نسخة محفوظة 8 ديسمبر 2020 على موقع واي باك مشين.
- C.E. Brodely and M.A. Friedl (1999). Identifying and Eliminating Mislabeled Training Instances, Journal of Artificial Intelligence Research 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf) نسخة محفوظة 4 أغسطس 2016 على موقع واي باك مشين.
- Smith, M. R., & Martinez, T. (2011, July). Improving classification accuracy by identifying and removing instances that should be misclassified. In Neural Networks (IJCNN), The 2011 International Joint Conference on (pp. 2690-2697). IEEE.
- Vapnik, V. N. The Nature of Statistical Learning Theory (2nd Ed.), Springer Verlag, 2000.
وصلات خارجية
- بوابة علم الحاسوب
- بوابة تقنية المعلومات
- بوابة إحصاء
- بوابة تعلم الآلة