لعنه الأبعاد

تشير لعنة الأبعاد إلى العديد من الظواهر التي تنشأ عند تحليل وتنظيم البيانات في مسافات عالية الأبعاد لا تحدث في إعدادات منخفضة الأبعاد مثل المساحة المادية ثلاثية الأبعاد للتجربة اليومية.

تحدث الظواهر الملعونة في مجالات مثل التحليل العددي، أخذ العينات، التوافقية، التعلم الآلي، استخراج البيانات وقواعد البيانات. السمة الشائعة لهذه المشكلات هي أنه عندما تزداد البعد، يزداد حجم المساحة بسرعة كبيرة بحيث تصبح البيانات المتاحة قليلة. هذا التفرقة يمثل مشكلة بالنسبة لأي طريقة تتطلب دلالة إحصائية. من أجل الحصول على نتيجة إحصائية سليمة وموثوق بها، فإن كمية البيانات اللازمة لدعم النتيجة غالبا ما تنمو باطراد مع البعد. أيضًا، يعتمد تنظيم البيانات والبحث عنها غالبًا على اكتشاف المناطق التي تشكل فيها الكائنات مجموعات لها نفس الخصائص؛ في البيانات عالية الأبعاد، ومع ذلك، يبدو أن جميع الكائنات متناثرة ومختلفة في نواح كثيرة، مما يمنع استراتيجيات تنظيم البيانات المشتركة من أن تكون فعالة.

المجالات

التوافقية

في بعض المشكلات، يمكن أن يأخذ كل متغير واحدة من عدة قيم منفصلة، أو يتم تقسيم مجموعة القيم المحتملة لإعطاء عدد محدود من الاحتمالات. عند أخذ المتغيرات معًا، يجب مراعاة عدد كبير من مجموعات القيم. يُعرف هذا التأثير أيضًا باسم الانفجار التوافقي. حتى في أبسط الحالات المتغيرات الثنائية، وعدد المجموعات الممكنة بالفعل ، الأسي في البعد. بسذاجة، يضاعف كل بُعد إضافي الجهد اللازم لتجربة كل المجموعات.

أخذ العينات

هناك زيادة هائلة في حجم المرتبطة مع إضافة المزيد من الأبعاد إلى الفضاء الرياضي. على سبيل المثال، 102=100 متباعدة بشكل متساو عينة نقاط ويكفي أن عينة وحدة الفاصل الزمني («1-الأبعاد مكعب») مع أكثر من 10−2=0.01 المسافة بين نقطة، أي ما يعادل أخذ العينات من 10-الأبعاد وحدة المكعب الزائدي مع مجموعة شعرية له تباعد من 10−2=0.01 بين نقطتين متجاورتين يتطلب 1020=[(102)10] نقاط العينة. في عام، مع تباعد المسافة من 10−n 10-الأبعاد المكعب الزائدي يبدو أن عامل 10ن (10-1)=[(10ن)10/(10ن)] «أكبر» من 1-الأبعاد المكعب الزائدي الذي هو وحدة الفاصلة. في المثال أعلاه n=2: عند استخدام العينات بعد 0.01 10-الأبعاد المكعب الزائدي يبدو أن 1018 «أكبر» من وحدة الفاصلة. هذا التأثير هو مزيج من المشاكل التوافقيه المذكورة أعلاه والمسافة وظيفة المشاكل هو موضح أدناه.

الاقوي

عند حل مشاكل التحسين الديناميكي عن طريق الحث الرقمي الخلفي، يجب حساب الوظيفة الموضوعية لكل مجموعة من القيم. هذه عقبة كبيرة عندما يكون بُعد «متغير الحالة» كبيرًا.

التعلم الالي

في مشاكل التعلم الآلي التي تتضمن تعلم «حالة طبيعية» من عدد محدود من عينات البيانات في مساحة ميزة عالية الأبعاد مع كل ميزة لها مجموعة من القيم المحتملة، عادة ما تكون هناك حاجة إلى كمية هائلة من بيانات التدريب لضمان أن هناك عدة عينات مع كل مجموعة من القيم. هناك قاعدة نموذجية تتمثل في أنه ينبغي أن يكون هناك 5 أمثلة تدريبية على الأقل لكل بُعد في التمثيل. مع وجود عدد ثابت من عينات التدريب، تزداد القوة التنبؤية لأحد المصنفين أو التراجع أولاً مع زيادة عدد الأبعاد / الميزات المستخدمة ولكن بعد ذلك تتناقص، والتي تعرف باسم ظاهرة هيوز أو الظواهر القصوى.

وظائف المسافة

عندما يتم تحديد مقياس مثل المسافة الإقليدية باستخدام العديد من الإحداثيات، هناك اختلاف بسيط في المسافات بين أزواج مختلفة من العينات.

تتمثل إحدى الطرق لتوضيح «اتساع» مساحة الإقليدية عالية الأبعاد في مقارنة نسبة منطقة فرط الغلاف المدرج بنصف القطر r والبعد d إلى نسبة فائق السرعة ذي الحواف الطولية 2r. حجم مثل هذا المجال هو, أين توجد وظيفة جاما، في حين أن حجم المكعب هو مع زيادة البعد من الفضاء، يصبح الفضاء الفائق حجمًا ضئيلًا بالنسبة إلى حجم المكعب الزائد. يمكن رؤية ذلك بوضوح من خلال مقارنة النسب حيث أن البعد يذهب إلى ما لا نهاية:

مثل .

وعلاوة على ذلك فإن المسافة بين المركز والزوايا هو الذي يزيد من دون متجهة ثابتة r. في هذا المعنى، تقريبا كل من عالية الأبعاد الفضاء «بعيدا» من المركز. لوضع الأمر بطريقة أخرى، عالية الأبعاد وحدة المكعب الزائدي يمكن القول أن تتكون بالكامل تقريبا من «زوايا» المكعب الزائدي، مع ما يقرب من أي «الأوسط».

هذا يساعد أيضًا على فهم التوزيع التربيعي. في الواقع، يكون التوزيع التربيعي (غير المركزي) المرتبط بنقطة عشوائية في الفاصل الزمني [-1، 1] هو نفس توزيع الطول التربيعي لنقطة عشوائية في المكعب d. بموجب قانون الأعداد الكبيرة، يركز هذا التوزيع في نطاق ضيق حول d أضعاف الانحراف المعياري (σ2) للاشتقاق الأصلي. هذا ينير التوزيع التربيعي ويوضح أيضًا أن معظم حجم المكعب d يتركز بالقرب من سطح دائرة نصف قطرها

.

وهناك تطور آخر لهذه الظاهرة على النحو التالي. أي توزيع ثابت على يحفز توزيع المنتج على النقاط في d . للحصول على أي الثابتة ن، تبين أن الحد الأدنى والحد الأقصى للمسافة بين Q نقطة مرجعية عشوائي وقائمة ن عشوائية نقاط البيانات P 1. . . ف ن تصبح غير قابلة للفهم بالمقارنة مع الحد الأدنى للمسافة:[1]

.

غالبًا ما يتم الاستشهاد بهذا كوظائف عن بُعد تفقد فائدتها (بالنسبة لمعيار الجوار الأقرب في خوارزميات مقارنة الميزات، على سبيل المثال) بأبعاد عالية. ومع ذلك، فقد أظهرت الأبحاث الحديثة أن هذا لا يتم إلا في السيناريو المصطنع عندما تكون التوزيعات أحادية البعد ℝ مستقلة و موزعة بشكل متطابق. عندما تكون السمات مرتبطة، يمكن أن تصبح البيانات أسهل وتوفر تباينًا أعلى للمسافة، ووجد أن نسبة الإشارة إلى الضوضاء تلعب دورًا مهمًا، وبالتالي يجب استخدام اختيار الميزة.

أقرب بحث جار

يعمل التأثير على تعقيد أقرب بحث جار في مساحة عالية الأبعاد. لا يمكن رفض المرشحين بسرعة عن طريق استخدام الفرق في إحداثي واحد كحد أدنى لمسافة تستند إلى جميع الأبعاد.[2][3]

ومع ذلك، فقد لوحظ مؤخرًا أن مجرد عدد الأبعاد لا يؤدي بالضرورة إلى صعوبات، نظرًا لأن الأبعاد الإضافية ذات الصلة يمكن أن تزيد أيضًا من التباين. بالإضافة إلى ذلك، بالنسبة للترتيب الناتج، يظل من المفيد تمييز الجيران القريبين والبعيدين. ومع ذلك، فإن الأبعاد غير ذات الصلة («الضوضاء») تقلل من التباين بالطريقة الموضحة أعلاه. في تحليل السلاسل الزمنية، حيث تكون البيانات عالية الأبعاد بطبيعتها، تعمل وظائف المسافة أيضًا بشكل موثوق طالما كانت نسبة الإشارة إلى الضوضاء مرتفعة بدرجة كافية.

ك أقرب تصنيف الجار

تأثير آخر من الأبعاد عالية على مسافة وظائف المخاوف k-أقرب جار (ك-ن ن) الرسوم البيانية التي شيدت من مجموعة البيانات باستخدام المسافة وظيفة. كما البعد يزيد، توزيع شكل ك-ن ن يصبح منحرفا مع الذروة على الحق بسبب ظهور عدد غير متناسب من المحاور ، وهذا هو، نقاط البيانات التي تظهر في العديد من ك-ن ن قوائم البيانات الأخرى نقاط من المتوسط. هذه الظاهرة يمكن أن يكون لها أثر كبير على مختلف تقنيات التصنيف (بما في ذلك <i id="mwmA">ك</i>-ن ن المصنف), شبه إشراف التعلمو المجموعات،[4] كما أنه يؤثر على استرجاع المعلومات.

إكتشاف عيب خلقي

في دراسة حديثة، Zimek et al. تحديد المشاكل التالية عند البحث عن الشذوذ في بيانات عالية الأبعاد:[5]

  1. تركيز النقاط والمسافات: تصبح القيم المشتقة مثل المسافات متشابهة عدديًا
  2. سمات غير ذات صلة: في البيانات عالية الأبعاد، قد يكون عدد كبير من السمات غير ذي صلة
  3. تعريف مجموعات المراجع: بالنسبة للطرق المحلية، غالبًا ما تكون مجموعات المراجع قائمة على الجوار
  4. درجات لا تضاهى للأبعاد المختلفة: تنتج المساحات الفرعية المختلفة درجات لا تضاهى
  5. قابلية تفسير النتائج: في الغالب، لم تعد النتائج تنقل معنى دلاليًا
  6. مساحة البحث الأسية: لم يعد من الممكن مسح مساحة البحث بشكل منهجي
  7. تحسس البيانات المتطفل: بالنظر إلى مساحة البحث الكبيرة، يمكن العثور على فرضية لكل دلالة مطلوبة
  8. محور نيس: كائنات معينة تحدث بشكل متكرر في قوائم الجوار أكثر من غيرها.

تعالج العديد من الطرق المتخصصة التي تم تحليلها مشكلة أو أخرى من هذه المشكلات، ولكن لا يزال هناك العديد من الأسئلة البحثية المفتوحة.

المراجع

  1. Beyer, K.؛ Goldstein, J.؛ Ramakrishnan, R.؛ Shaft, U. (1999)، When is "Nearest Neighbor" Meaningful?، Proc. 7th International Conference on Database Theory - ICDT'99، LNCS، ج. 1540، ص. 217–235، doi:10.1007/3-540-49257-7_15، ISBN 978-3-540-65452-0، مؤرشف من الأصل في 28 ديسمبر 2019.
  2. Marimont, R.B.؛ Shapiro, M.B. (1979)، "Nearest Neighbour Searches and the Curse of Dimensionality"، IMA J Appl Math، 24 (1): 59–70، doi:10.1093/imamat/24.1.59، مؤرشف من الأصل في 12 فبراير 2014.
  3. Chávez, Edgar؛ Navarro, Gonzalo؛ Baeza-Yates, Ricardo؛ Marroquín, José Luis (2001)، "Searching in Metric Spaces"، ACM Computing Surveys، 33 (3): 273–321، doi:10.1145/502807.502808.
  4. Radovanović, Miloš؛ Nanopoulos, Alexandros؛ Ivanović, Mirjana (2010)، "Hubs in space: Popular nearest neighbors in high-dimensional data" (PDF)، Journal of Machine Learning Research، 11: 2487–2531، مؤرشف من الأصل (PDF) في 17 يوليو 2019.
  5. Zimek, A.؛ Schubert, E.؛ Kriegel, H.-P. (2012)، "A survey on unsupervised outlier detection in high-dimensional numerical data"، Statistical Analysis and Data Mining، 5 (5): 363–387، doi:10.1002/sam.11161.
  • بوابة إحصاء
  • بوابة علم الحاسوب
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.