العمارة العامة لهندسة النصوص

العمارة العامة لهندسة النصوص أو GATE هي مجموعة أدوات جافا تم تطويرها في جامعة شيفيلد بداية من عام 1995 م لـمعالجة اللغات الطبيعية، وتستخدم الآن من قبل مجتمع واسع من العلماء، الشركات، المعلمين والطلاب للقيام بالعديد من مهام معالجة اللغات الطبيعية، بما في ذلك استخراج المعلومات بلغات متعددة. [1]

GATE
GATE Developer v5 main window
معلومات عامة
نوع
نظام التشغيل
المنصة
النموذج المصدري
متوفر بلغات
الإنجليزية
المطورون
موقع الويب
معلومات تقنية
لغة البرمجة
الإصدار الأول
1995 (1995)
الإصدار الأخير
المستودع
الرخصة

تمت مقارنة GATE بـ NLTK ،R و RapidMiner . [2] بالإضافة إلى استخدامه على نطاق واسع، يشكل GATE أساس لمنصة KIM الدلالية. [3]

شارك مجتمع GATE في العديد من المشاريع البحثية الأوروبية بما في ذلك TAO ،SEKT ،NeOn ،Media-Campaign ،Musing ، Service-Finder ،LIRICS ،KnowledgeWeb، بالإضافة إلى العديد من المشاريع الأخرى.

في 28 مايو 2011 ، بلغ عدد الأشخاص على القائمة البريدية لمستخدمي gate ما يقارب 881 شخصًا، وتم تسجيل 111,932 تنزيلًا من SourceForge منذ نقل المشروع إليه في 2005. [4] تلقت الورقة البحثية GATE: A framework and graphical development environment for robust NLP tools and applications" [5] أكثر من 2000 استشهاد منذ نشرها (وفقًا لـ Google Scholar). تشمل الكتب التي تغطي استخدام GATE ، بالإضافة إلى دليل مستخدم GATE ، [6] "Building Search Applications: Lucene, LingPipe, and Gate" بقلم Manu Konchady [7] و "Introduction to Linguistic Annotation and Text Analytics" ، بواسطة Graham Wilcock. [8]

المميزات

يتضمن GATE نظامًا لاستخراج المعلومات يسمى ANNIE (نظام استخراج المعلومات الجديد تقريبًا) وهو عبارة عن مجموعة من الوحدات التي تشتمل على محلل الرموز، ومعجم، ومقسم جمل، ومصنف لأجزاء النص، ومميز الكيانات، ومكتشف العلامات المرجعية. يمكن استخدام ANNIE كما هو لـاستخراج المعلومات الأساسية أو لتوفير نقطة انطلاق لمهام أكثر تحديدًا.

تشمل اللغات التي يمكن معالجتها من خلال GATE الإنجليزية ، الصينية، العربية، البلغارية، الفرنسية، الألمانية، الهندية، الإيطالية، السيبيونو، الرومانية، الروسية، الدنماركية.

ويشمل GATE على إضافات لـ تعلم الآلة مثل WEKA ، RASP، MAXENT، SVM Light ، فضلا عن LIBSVM. كما يشمل إضافات لإدارة الانتولوجي مثل وردنت، لاستعلام محركات البحث مثل جوجل أو ياهو، لـتصنيف أقسام الكلام مثل Brill أو TreeTagger، وغير ذلك الكثير. تتوفر أيضًا العديد من الإضافات الخارجية للتعامل مع التغريدات على سبيل المثال. [9]

يقبل GATE المدخلات بإمتدادات مختلفة، مثل TXT و HTML و XML و Doc و PDF و Java Serial و PostgreSQL و Lucene وقواعد بيانات Oracle بمساعدة تخزين RDBMS عبر JDBC .

تستخدم قواعد JAPE داخل GATE لمعالجة التعليقات على النصوص. طريقة استخدام هذه القواعد موضحة في دليل مستخدم GATE. [10] كما تمت كتابة دروس بواسطة Press Association Images. [11]

مطورو GATE

النافذة الرئيسية لـ GATE 5

تُظهر لقطة الشاشة عارض المستندات المستخدم لعرض مستند والتعليقات عليه. القائمة اليمنى هي قائمة مجموعات التعليقات، والجدول السفلي هو قائمة التعليقات. في الوسط نجذ نافذة محرر التعليقات. تظهر التعليقات التوضيحية المختارة من القائمة اليمنى باللون الوردي على المستند.

GATE Mímir

يولد GATE كميات هائلة من المعلومات تشمل على: نصوص باللغات الطبيعية، تعليقات دلالية ومعلومات أنتولوجية. في بعض الأحيان، تكون البيانات هي المنتج النهائي للتطبيق ولكن غالبًا ما تكون المعلومات أكثر فائدة إذا أمكن البحث عنها بكفاءة. يوفر GATE Mimir الدعم للفهرسة والبحث عن المعلومات اللغوية والدلالية التي تم إنشاؤها بواسطة تطبيقات GATE. كما يدعم الاستعلام عن المعلومات باستخدام النص، المعلومات الهيكلية وإستعلامات سباركل .

انظر أيضًا

  • هندسة إدارة المعلومات غير المهيكلة (UIMA)
  • OpenNLP
  • Pheme ، مشروع كبير في الاتحاد الأوروبي تديره مجموعة GATE للكشف المبكر عن المعلومات الخاطئة في وسائل التواصل الاجتماعي

المراجع

  1. Languages mentioned on http://gate.ac.uk/gate/plugins/ include Arabic, Bulgarian, Cebuano, Chinese, French, German, Hindi, Italian, Romanian and Russian. نسخة محفوظة 15 ديسمبر 2020 على موقع واي باك مشين.
  2. "Open Source Text Analytics by Seth Grimes - BeyeNETWORK"، مؤرشف من الأصل في 25 يونيو 2018، اطلع عليه بتاريخ 17 ديسمبر 2016.
  3. Popov, Borislav؛ Kiryakov, Atanas؛ Ognyanoff, Damyan؛ Manov, Dimitar؛ Kirilov, Angel (01 سبتمبر 2004)، "KIM – a semantic platform for information extraction and retrieval"، Natural Language Engineering، 10 (3–4): 375–392، doi:10.1017/S135132490400347X، مؤرشف من الأصل في 20 ديسمبر 2016، اطلع عليه بتاريخ 17 ديسمبر 2016.
  4. "GATE"، مؤرشف من الأصل في 18 سبتمبر 2019، اطلع عليه بتاريخ 17 ديسمبر 2016.
  5. "GATE: A framework and graphical development environment for robust NLP tools and applications", by Cunningham H., Maynard D., Bontcheva K. and Tablan V. (In proc. of the 40th Anniversary Meeting of the Association for Computational Linguistics, 2002) نسخة محفوظة 15 ديسمبر 2020 على موقع واي باك مشين.
  6. "GATE.ac.uk - sale/tao/split.html"، مؤرشف من الأصل في 3 يناير 2021، اطلع عليه بتاريخ 17 ديسمبر 2016.
  7. Konchady, Manu.
  8. Wilcock, Graham (01 يناير 2009)، Introduction to Linguistic Annotation and Text Analytics، Morgan & Claypool Publishers، ISBN 9781598297386، مؤرشف من الأصل في 15 ديسمبر 2020، اطلع عليه بتاريخ 17 ديسمبر 2016.
  9. "GATE.ac.uk - wiki/twitie.html"، مؤرشف من الأصل في 12 مايو 2020، اطلع عليه بتاريخ 17 ديسمبر 2016.
  10. "GATE.ac.uk - sale/tao/splitch8.html"، مؤرشف من الأصل في 15 ديسمبر 2020، اطلع عليه بتاريخ 17 ديسمبر 2016.
  11. Thakker, Dhavalkumar (17 يوليو 2009)، "Realizing Semantic Web: JAPE grammar tutorial"، مؤرشف من الأصل في 25 أكتوبر 2020، اطلع عليه بتاريخ 17 ديسمبر 2016.

روابط خارجية

  • بوابة برمجيات حرة
  • بوابة علم الحاسوب
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.