تنقيب في البيانات

التنقيب في البيانات (بالإنجليزية: data mining)‏ هي عملية بحث محوسب ويدوي عن معرفة من البيانات دون فرضيات مسبقة عما يمكن أن تكون هذه المعرفة.[1][2][3] كما ويعرف التنقيب في البيانات على أنه عملية تحليل كمية بيانات (عادة ما تكون كمية كبيرة)، لإيجاد علاقة منطقية تلخص البيانات بطريقة جديدة تكون مفهومة ومفيدة لصاحب البيانات. يطلق اسم «نماذج» models على العلاقات والبيانات الملخصة التي يتم الحصول عليها من التنقيب في البيانات. يتعامل تنقيب البيانات عادة مع بيانات يكون قد تم الحصول عليها بغرض غير غرض التنقيب في البيانات (مثلاً قاعدة بيانات التعاملات في مصرف ما) مما يعني أن طريقة التنقيب في البيانات لاتؤثر مطلقاً على طريقة تجميع البيانات ذاتها. هذه هي أحد النواحي التي يختلف فيها التنقيب في البيانات عن الإحصاء، ولهذا يشار إلى عملية التنقيب في البيانات على أنها عملية إحصائية ثانوية. يشير التعريف أيضاً إلى أن كمية البيانات تكون عادة كبيرة، أما في حال كون كمية البيانات صغيرة فيفضل استخدام الطرق الإحصائية العادية في تحليلها.

عند التعامل مع حجم كبير من البيانات تظهر مسائل جديدة مثل كيفية تحديد النقاط المميزة في البيانات، وكيفية تحليل البيانات في فترة زمنية معقولة وكيفية قرار ما إذا كانت أي علاقة ظاهرية تعكس حقيقة في طبيعة البيانات. عادة يتم التنقيب في بيانات تكون جزءاً من كامل البيانات حيث يكون الغرض عادة تعميم النتائج على كامل البيانات (مثلاً تحليل البيانات الحالية لمستهلكي منتج ما بغرض توقع طلبات المستهلكين المستقبلية). من أحد أهداف تنقيب البيانات أيضاً هو اختزال كميات البيانات الكبيرة أو ضغطها بحيث تعبر بشكل بسيط عن كامل البيانات بدون تعميم.

أنواع التنقيب

هناك نوعان أساسيان للتنقيب في البيانات هما: التنقيب الاستشرافي والتنقيب الوصفي.

التنقيب الاستشرافي ينتج عنه نموذج عن النظام الذي تصفه البيانات المستخدمة في التنقيب. أما التنقيب الوصفي فينتج عنه معلومات جديدة بناء على المعلومات الموجودة داخل البيانات المستخدمة في عملية التنقيب.

الكيفية

في الحقيقة ان تنقيب البيانات هو مرحلة واحدة ضمن ما يدعى «اكتشاف المعرفة في قواعد البيانات» وهو المصطلح الادق حيث يتظمن مخطوات منهجية متسلسلة ودقيقة وهي :

اولا :معالجة البيانات وهذة المرحلة تهتم جمع البيانات من عدة قواعد بيانات وفحصها للتأكد من خلوها من الاخطاء أو النقص أو التعارض ومن ثم إعادة معالجتها وتشفيرها وتجميعها

ثانيا : تخزين البيانات في مستودع للبيانات

ثالثا: أخذ عينة من البيانات

رابعا :اختيار نوع التنقيب وصفي أو تنبئي واختيار الخوارزمية المناسبة لعمل التنقيب

خامسا :تنفيذ التنقيب لاستخراج المعارف والانماط

سادسا: تقييم المعارف المستخرجة وتحديد اين منها يعتبر مفيدا ومن ثم الاستفادة من هذه المعارف

أهداف التنقيب

هناك ثلاثة أهداف للتنقيب في البيانات:

1) من أجل تعليل بعض الظواهر المرئية. مثال:

2) من أجل التثبت من نظرية ما. مثال: التثبت من النظرية التي تقول بأن الأسر الكبيرة تهتم بالضمان الصحي أكثر من الأسر الصغيرة عددا.

3) من أجل تحليل البيانات للحصول على علاقات جديدة وغير متوقعة. مثال: كيف سيكون الانفاق العام إن كان ملازما لعمليات خداع واسعة من قبل البطاقات الائتمانية.

وسائل التنقيب في البيانات

هناك عدة وسائل مختلفة من أجل التنقيب في البيانات. اختيار الوسيلة المناسبة يعتمد على طبيعة البيانات تحت الدراسة وعلى حجمها. يمكن إجراء عملية التنقيب في البيانات بالمقارنة مع سوق البيانات ومخزن البيانات.

بعض من هذه الوسائل هي: (يتبعها وظيفة كل وسيلة)

- الاستدلال المبني على حالات سابقة Case-Based reasoning: التفكير واستخلاص النتائج والقوانين من أمثلة حية وقضايا تم حلها سابقا.

- الكشف عن قانون Rule Discovery: البحث عن منوال معين أو علاقة معينة في جزئية كبيرة من البيانات.

- معالجة الإشارات Signal Processing: ايجاد الظواهر المتشابه مع بعضها البعض

- شبكات عصبونية Neural Nets: تطوير نماذج قابلة لتنبؤ النتائج. هذه النماذج تم تطويرها بناء على أسس تم استنباطها من عقل الإنسان.

- منحنيات غير ثابتة Fractals: تصغير البيانات الكبيرة من دون ضياع المعلومات

تطبيقات التنقيب في البيانات

وسائل التنقيب في البيانات تُستعمل وبنجاح في الكثير من التطبيقات الحقيقة حول العالم.

التطبيقات التالية تشمل بعضا من الأمثلة: (يتبعها مثال لكل تطبيق)

- كتابة تقرير مختصر عن فئة معينة Profiling Populations: تطوير وإنشاء تقارير موجزة عن الزبائن المهمين وعن بطاقات الائتمان.

- تحليل النزعة التجارية Analysis of Business Trend: ايجاد الأسواق ذات قدرات النمو القوية أو الضعيفة.

- التسويق لفئة معينة Target Marketing: ايجاد الزبائن من أجل منح التخفيضات لهم لسبب معين.

- تحليل الاستعمال Usage Analysis: ايجاد منوال معين لاستعمال الخدمات والسلع

- فعالية الحملة Campaign Effectiveness: مقارنة استراتيجيات الحملات مع بعضها البعض من أجل ايجاد أكثرها فعالية وتأثيرا.

- جاذبية السلعة: ايجاد السلع التي تباع مع بعضها البعض.

تطبيقات التنقيب في البيانات بدأت تنمو بصورة كبيرة للأسباب التالية:

1) كمية البيانات الموجودة في مخزن البيانات وسوق البيانات تنمو بصورة أسية (exponential).

ومن أجل ذلك، فإن المستخدم يحتاج إلى أدوات متطورة من مثل التنقيب في البيانات من اجل استخلاص الفائدة والمعرفة من هذه البيانات.

2) الكثير من أدوات التنقيب عن البيانات بدأت تظهر مؤخرا، وكل أداة أفضل من الأخرى.

3) المنافسة الشديدة الموجودة في السوق تدفع الشركات إلى الاستفادة القصوى من البيانات التي بيدها. عمليات التنقيب في البيانات تفعل ذلك تماما.

انظر أيضاً

المراجع

  1. OKAIRP 2005 Fall Conference, Arizona State University نسخة محفوظة 9 يوليو 2020 على موقع واي باك مشين.About.com: Datamining نسخة محفوظة 01 يناير 2017 على موقع واي باك مشين.
  2. Mikut, Ralf؛ Reischl, Markus (سبتمبر–أكتوبر 2011)، "Data Mining Tools"، Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery، 1 (5): 431–445، doi:10.1002/widm.24، مؤرشف من الأصل في 17 يناير 2018، اطلع عليه بتاريخ 21 أكتوبر 2011.
  3. Hastie, Trevor؛ Tibshirani, Robert؛ Friedman, Jerome (2009)، "The Elements of Statistical Learning: Data Mining, Inference, and Prediction"، مؤرشف من الأصل في 27 أكتوبر 2013، اطلع عليه بتاريخ 07 أغسطس 2012.
  • بوابة قاعدة بيانات
  • بوابة إحصاء
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.