نص بسيط
في الحوسبة، النص البسيط أو العادي هو البيانات (على سبيل المثال، محتويات الملف) التي لا تمثل سوى أحرف من المواد التي يمكن قراءتها، وليس تمثيلها الجرافيكي ولا الكائنات الأخرى (الصور، وما إلى ذلك). وقد يتضمن أيضًا عددًا محدودًا من الأحرف التي تتحكم في الترتيب البسيط للنص، مثل فواصل الأسطر أو أحرف الجدولة. يختلف النص العادي عن النص المنسق ، حيث يتم تضمين معلومات النمط، ومن «الملفات الثنائية» حيث يجب تفسير بعض الأجزاء على أنها كائنات ثنائية (الأعداد الصحيحة المشفرة، والأرقام الحقيقية، والصور، وما إلى ذلك). كان الترميز تقليديًا إما أسكي، وفي بعض الأحيان ابسدك. تستبدل الترميزات المستندة إلى يونيكود مثل صيغة التحويل الموحد-8 و صيغة التحويل الموحد-16 تدريجياً المشتقات القديمة أسكي التي تقتصر على شفرات 7 أو 8 بت.
تعتبر الملفات التي تحتوي على ترميز أو بيانات وصفية أخرى بشكل عام نصًا عاديًا، طالما أن النموذج بأكمله يظل في شكل يمكن قراءته بشكل مباشر (كما هو الحال في HTML و XML وما إلى ذلك) (كما يقول Coombs و Renear و DeRose [1]، علامات الترقيم هي بحد ذاتها ترميز). إن استخدام النص العادي بدلاً من تدفقات البتات للتعبير عن العلامات، يمكّن من بقاء الملفات على قيد الحياة أفضل بكثير في «الحياة البرية»، وذلك جزئياً بجعلها محصنة إلى حد كبير من عدم توافق بنية الكمبيوتر.
وفقا لمعيار يونيكود،
- «النص العادي عبارة عن تسلسل محض من رموز الأحرف؛ ولذلك فإن النص المرمز بوضوح UE هو سلسلة من رموز رموز Unicode.»
- النص المنسق، والمعروف أيضًا بالنص المنسق، هو أي تمثيل نصي يحتوي على نص عادي مكتمل بمعلومات مثل معرف اللغة وحجم الخط واللون ووصلات النص التشعبي. [2]
على سبيل المثال، يعتمد النص المنسق مثل SGML و RTF و HTML و XML و wiki markup و TeX على نص عادي.
وفقًا لمعيار Unicode ، يحتوي النص العادي على خاصيتين رئيسيتين فيما يتعلق بالنص المنسق:
- «النص العادي هو مصدر المحتوى الأساسي الذي يمكن تطبيق التنسيق عليه.»
- «النص العادي عام وموحد وقابل للقراءة عالميًا.»
نص عادي ونص منسق
تعتبر الملفات التي تحتوي على ترميز أو بيانات وصفية أخرى بشكل عام نصًا عاديًا، طالما أن النموذج بأكمله يظل في شكل يمكن قراءته بشكل مباشر (كما هو الحال في HTML و XML وما إلى ذلك) (كما يقول Coombs و Renear و [3]DeRose ، فإن علامات الترقيم هي إن استخدام النص العادي بدلاً من تدفقات البتات للتعبير عن العلامات، يمكّن من بقاء الملفات على قيد الحياة أفضل بكثير في «الحياة البرية»، وذلك جزئياً بجعلها محصنة إلى حد كبير من عدم توافق بنية الكمبيوتر.
وفقا لمعيار يونيكود،
- «النص العادي عبارة عن تسلسل محض من رموز الأحرف؛ ولذلك فإن النص المرمز بوضوح UE هو سلسلة من رموز رموز Unicode.»
- النص المنسق، والمعروف أيضًا بالنص المنسق، هو أي تمثيل نصي يحتوي على نص عادي يتم إكماله بواسطة معلومات مثل معرف اللغة وحجم الخط واللون وارتباطات النص التشعبي.
وفقًا لمعيار Unicode ، يحتوي النص العادي على خاصيتين رئيسيتين فيما يتعلق بالنص المنسق:
- «النص العادي هو مصدر المحتوى الأساسي الذي يمكن تطبيق التنسيق عليه.»
- «النص العادي عام وموحد وقابل للقراءة عالميًا».
استعمال
إن الغرض من استخدام النص العادي اليوم هو في المقام الأول الاستقلال عن البرامج التي تتطلب ترميز خاص أو تنسيق خاص أو ملف خاص بها. يمكن فتح ملفات النص العادي وقراءتها وتحريرها باستخدام عدد لا حصر له من برامج تحرير النصوص والأدوات المساعدة.
تسمح واجهة سطر الأوامر للأشخاص بإعطاء الأوامر بنص عادي والحصول على استجابة، أيضًا بنص عادي.
كما أن العديد من برامج الكمبيوتر الأخرى قادرة على معالجة أو إنشاء نص عادي، مثل البرامج التي لا تعد ولا تحصى في DOS ، و Windows ، و Mac OS الكلاسيكي، و Unix وأقربائها؛ بالإضافة إلى متصفحات الويب (بعض المتصفحات مثل Lynx و Line Mode Browser تنتج نصًا عاديًا للعرض فقط) وقارئات نصية أخرى.
ملفات النص العادي تكاد تكون شاملة في البرمجة؛ ملف التعليمات البرمجية المصدر الذي يحتوي على إرشادات في لغة برمجة دائمًا ما يكون ملفًا نصيًا عاديًا. يُستخدم النص العادي أيضًا بشكل شائع لملفات التكوين، والتي تتم قراءتها للإعدادات المحفوظة عند بدء تشغيل أحد البرامج.
يستخدم النص العادي لكثير من البريد الإلكتروني.
عادةً ما يحتوي التعليق أو ملف ".txt" أو سجل TXT على نص عادي فقط (بدون تنسيق) مخصص للقراءة لدى البشر.
أفضل تنسيق لتخزين المعرفة هو نص عادي، بدلاً من تنسيق ثنائي. [4]
التشفير
ترميزات الحروف
قبل أوائل الستينيات، كانت الحواسيب تُستخدم أساسًا لطحن الأرقام بدلاً من النص، وكانت الذاكرة مكلفة للغاية. غالبًا ما تخصص أجهزة الكمبيوتر 6 بتات فقط لكل حرف، مع السماح بـ 64 حرفًا فقط - حيث يؤدي تعيين رموز A-Z و a-z و 0-9 إلى ترك رمزين فقط: لا يوجد مكان قريب من ذلك. اختارت معظم أجهزة الكمبيوتر عدم دعم الأحرف الصغيرة. وهكذا، اضطرت مشاريع نصية مبكرة مثل مؤشر روبرتو بوسا توماس توميستيكاس، براون كوربوس، وغيرهم إلى اللجوء إلى اتفاقيات مثل وضع علامة نجمية على الحروف التي كانت تهدف في الواقع إلى أن تكون في الحالة العليا.
جادل فريد بروكس من شركة آي بي إم بقوة للذهاب إلى وحدات البايت 8 بت، لأن الأشخاص في يوم من الأيام قد يرغبون في معالجة النص. وفاز. على الرغم من أن IBM تستخدم EBCDIC ، فإن معظم النصوص التي تم تشفيرها في ASCII ، باستخدام قيم من 0 إلى 31 لأحرف التحكم (غير المطبوعة)، والقيم من 32 إلى 127 للأحرف البيانية مثل الحروف والأرقام وعلامات الترقيم. تخزن معظم الآلات الأحرف في 8 بتات بدلاً من 7، متجاهلة البتة المتبقية أو تستخدمها كمجموع تدقيقي.
كان قرب شبه كامل من ASCII مساعدة كبيرة، لكنه فشل في معالجة المخاوف الدولية واللغوية. لم تكن علامة الدولار ("$") مفيدة جدًا في إنجلترا، وكانت الأحرف المحركة المستخدمة في الإسبانية والفرنسية والألمانية والعديد من اللغات الأخرى غير متوفرة تمامًا في ASCII (ناهيك عن الأحرف المستخدمة باللغة اليونانية والروسية ومعظم لغات شرقية). عرّف العديد من الأفراد والشركات والبلدان رموزًا إضافية حسب الحاجة - غالبًا ما يعيدون تعيين أحرف التحكم أو يستخدمون قيمة في النطاق من 128 إلى 255. استخدام قيم فوق 128 تعارضًا باستخدام الباقة الثامنة كمجموع، لكن استخدام المجموع الاختباري توفي تدريجياً.
انظر أيضا
مراجع
- Coombs؛ Renear؛ DeRose (نوفمبر 1987)، "Markup systems and the future of scholarly text processing"، Communications of the ACM، ACM، 30 (11): 933–947، doi:10.1145/32206.32209، مؤرشف من الأصل في 12 مايو 2019.
- Unicode 6.1.0 نسخة محفوظة 06 سبتمبر 2018 على موقع واي باك مشين.
- Markup Systems and the Future of Scholarly Text Processing نسخة محفوظة 14 مارس 2018 على موقع واي باك مشين.
- The Pragmatic Programmer: From Journeyman to Master - Andrew Hunt, David Thomas - Google Books نسخة محفوظة 15 فبراير 2017 على موقع واي باك مشين.
- بوابة تقنية المعلومات
- بوابة علم الحاسوب
- بوابة كتابة