تقييم تربوي

صنف فرعي من	تحليل — تقييم
جزء من	مصطلحات علم النفس — تعليم — تقييم — Education assessment and evaluation (en)

التقييم التربوي أو التقييم التعليمي [1] هو تطبيق منهجي لتوثيق واستخدام البيانات التجريبية حول المعرفة والمهارة والمواقف والمعتقدات لتحسين البرامج وتحسين تعلم الطلاب.[2] يمكن الحصول على بيانات التقييم من الفحوصات المباشرة لعمل الطلاب لضمان تحقيق نتائج التعلم أو يمكن أن تستند إلى البيانات التي يمكن للأشخاص استخلاص استنتاجات حول التعلم من خلالها.[3] غالبًا ما يستخدم التقييم بشكل متبادل مع الاختبار، ولكن لا يقتصر على الاختبارات فقط.[4] يمكن أن يركز التقييم على المتعلم الفردي، أو بيئة التعلم (الفصل، أو ورشة العمل، أو مجموعة منظمة أخرى من المتعلمين)، أو دورة، أو برنامج أكاديمي، أو المؤسسة، أو النظام التعليمي ككل (المعروف أيضًا باسم التقسيمات). تم استخدام كلمة «تقييم» في سياق تعليمي بعد الحرب العالمية الثانية.[5]

كتطبيق مستمرة، يُنشئ التقييم نتائج تعلم الطلاب واضحة وقابلة للقياس وللتعلم، وتوفير كمية كافية من فرص التعلم لتحقيق هذه النتائج، وتنفيذ طريقة منهجية لجمع وتحليل وتفسير الأدلة لتحديد مدى توافق تعلم الطلاب مع التوقعات، واستخدام المعلومات التي تم جمعها لإخبارالطلاب التحسن في تعلمهم [6]

يعتمد الغرض النهائي لممارسات التقييم في التعليم على الإطار النظري للممارسين والباحثين، وافتراضاتهم ومعتقداتهم حول طبيعة العقل البشري، وأصل المعرفة، وعملية التعلم.

الأنواع

يستخدم مصطلح التقييم بشكل عام للإشارة إلى جميع الأنشطة التي يستخدمها المعلمون لمساعدة الطلاب على التعلم وقياس تقدم جميع الطلاب.[7] يمكن تقسيم التقييم من أجل التسهيل والراحة باستخدام التصنيفات التالية:

التقييم والتوظيف والتلخيص والتشخيص
موضوعي وشخصي
المراجع (المرجعية المعيارية، المرجعية المعيارية، والتعبيرية (الاختيار القسري))
رسمية وغير رسمية
داخلي وخارجي

التـكـويـن والتـوظـيـف والـتـلـخـيـص والـتـشـخـيـص

ينقسم التقييم في كثير من الأحيان إلى فئات أولية وتكوينية وملخصة لغرض النظر في الأهداف المختلفة لممارسات التقييم.

تقييم المستوى - يستخدم تقييم المستوى لوضع الطلاب وفقًا للإنجاز السابق أو المميزات الشخصية، في أنسب نقطة في تسلسل تعليمي، أو في إستراتيجية تعليمية فريدة، أو مع مدرس مناسب [8] يطبق من خلال اختبار تحديد المستوى، أي الاختبارات التي تستخدمها الكليات والجامعات لتقييم جاهزية الكلية ووضع الطلاب في فصولهم الأولية. يتم تقييم المستوى، المشار إليه أيضًا باسم التقييم المسبق أو التقييم الأولي، قبل التدريس أو التدخل لتحديد خط الأساس الذي يمكن من خلاله قياس نمو الطالب الفردي. يستخدم هذا النوع من التقييم لمعرفة مستوى مهارة الطالب حول الموضوع. يساعد المعلم على شرح المواد بشكل أكثر كفاءة. لا يتم تصنيف هذه التقييمات.[9]
التقييم التكويني - يتم إجراء التقييم التكويني بشكل عام طوال الدورة أو المشروع. يستخدم التقييم التكويني، الذي يشار إليه أيضًا باسم «التقييم التربوي»، للمساعدة في التعلم في بيئة تعليمية، قد يكون التقييم التكويني معلمًا (أو نظيرًا) أو متعلمًا، يقدم ملاحظات حول عمل الطالب ولن يتم استخدامه بالضرورة لأغراض الدرجات. يمكن أن تأخذ التقييمات التكوينية شكل اختبارات تشخيصية أو اختبارات قياسية أو اختبارات قصيرة أو سؤال شفهي أو مسودة العمل. يتم إجراء التقييمات التكوينية بالتزامن مع التعليمات. وقد تحسب النتيجة. تهدف التقييمات التكوينية إلى معرفة ما إذا كان الطلاب يفهمون التعليمات قبل إجراء تقييم تلخيصي.
التقييم التلخيصي - يتم إجراء التقييم التلخيصي بشكل عام في نهاية الدورة التدريبية أو المشروع. في البيئة التعليمية، تُستخدم التقييمات التلخيصية عادةً لتعيين الطلاب في مقرر دراسي. التقييمات تلخيصية. يتم إجراء تقييمات تلخيصية لتلخيص ما تعلمه الطلاب، لتحديد ما إذا كانوا يفهمون الموضوع جيدًا. عادةً ما يتم تقييم هذا النوع من التقييم (مثل النجاح / الفشل، 0-100) ويمكن أن يتخذ شكل اختبارات أو اختبارات أو مشروعات. غالبًا ما تُستخدم التقييمات التلخيصية لتحديد ما إذا كان الطالب قد اجتاز الفصل أو أخفق فيه. أحد الانتقادات للتقييمات التلخيصية هو أنها اختزالية، ويكتشف المتعلمون مدى اكتسابهم للمعرفة جيدًا بعد فوات الأوان بحيث لا تكون مفيدة.
التقييم التشخيصي - يتعامل التقييم التشخيصي مع جميع الصعوبات في النهاية التي تحدث أثناء عملية التعلم.

اقترح جاي ماكتيغي وكين أوكونور 7 ممارسات للتعلم الفعال. [9] احدها حول إظهار معايير التقييم قبل الاختبار. الآخر هو حول أهمية التقييم المسبق لمعرفة مستويات المهارات لدى الطالب قبل إعطائه التعليمات. إعطاء الكثير من ردود الفعل والتشجيع هي ممارسات أخرى.

غالبًا ما يُشار إلى التقييم التجميعي والتكويني في سياق التعلم كتقييم للتعلم وللتعلم المتتالي. يعد تقييم التعلم بشكل عام ملخصًا بطبيعته ويهدف إلى قياس نتائج التعلم وإبلاغ هذه النتائج إلى الطلاب وأولياء الأمور والإداريين. يحدث تقييم التعلم بشكل عام في ختام الفصل أو الدورة أو الفصل الدراسي أو العام الدراسي. يكون التقييم للتعلم عمومًا ذو طبيعة تشكيلية ويستخدمه المعلمون للنظر في مناهج التدريس والخطوات التالية للمتعلمين الأفراد والصف.[10]

التقييم التشخيصي هو صورة عامة للتقييم التكويني. يقيس التقييم التشخيصي معرفة الطالب ومهاراته الحالية بغرض تحديد برنامج مناسب للتعلم. التقييم الذاتي هو شكل من أشكال التقييم التشخيصي الذي يتضمن على تقييم الطلاب لأنفسهم. يطلب التقييم التطلعي من الذين يتم تقييمهم اعتبار أنفسهم في مواقف مستقبلية افتراضية.[11]

يشبه التقييم القائم على الأداء التقييم التلخيصي، حيث يركز على الإنجاز. وغالبا ما تتماشى مع إصلاح التعليم القائم على المعايير وحركة التعليم القائمة على النتائج. على الرغم من أنها مثالية اختلافًا كبيرًا عن اختبار الاختيار من متعدد التقليدي، إلا أنها غالبًا ما ترتبط بالتقييم القائم على المعايير والذي يستخدم ردودًا حرة الشكل على الأسئلة القياسية التي سجلها الهدافون البشريون على مقياس قائم على المعايير، أو يجتمعون، أو يقعون تحت أو يتجاوز معيار الأداء بدلاً من أن يتم ترتيبه على منحنى. يتم تحديد مهمة محددة جيدًا ويطلب من الطلاب إنشاء أو إنتاج أو القيام بشيء ما، غالبًا في إعدادات تتضمن تطبيقًا حقيقيًا للمعرفة والمهارات. يتم إثبات الكفاءة من خلال توفير استجابة موسعة. يتم تمييز تنسيقات الأداء بشكل أكبر في المنتجات والأداء. قد يؤدي الأداء إلى إنتاج، مثل الرسم أو ملفات أو الورق أو المعرض، أو قد يتكون من افعال، مثل الكلام أو المهارة الرياضية أو الحفلة الموسيقية أو القراءة.

موضوعي وشخصي

غالبًا ما يتم تصنيف التقييم (إما تلخيصي أو تكويني) إما على أنه موضوعي أو غير موضوعي. التقييم الموضوعي هو شكل من أشكال الاستجواب له إجابة واحدة صحيحة. التقييم الذاتي هو شكل من أشكال الاستجواب الذي قد يحتوي على أكثر من إجابة صحيحة (أو أكثر من طريقة للتعبير عن الإجابة الصحيحة). هناك أنواع مختلفة من الأسئلة الموضوعية والذاتية. تتضمن أنواع الأسئلة الموضوعية إجابات صحيحة / خاطئة، خيارات متعددة، أسئلة متعددة الإجابات وأسئلة مطابقة. تتضمن الأسئلة الذاتية أسئلة ومقالات ذات إجابات ممتدة. التقييم الموضوعي مناسب تمامًا لتنسيق التقييم المحوسب أو عبر الإنترنت الذي يزداد شيوعًا.

هنالك بعض الجدال على أن التمييز بين التقييمات الموضوعية والذاتية ليس مفيدًا ولا دقيقًا لأنه في الواقع لا يوجد شيء مثل التقييم «الموضوعي». في الواقع، يتم إنشاء جميع التقييمات مع التحيزات المتأصلة المضمنة في القرارات المتعلقة بالموضوع والمحتوى ذي الصلة، بالإضافة إلى التحيزات الثقافية (الطبقية والعرقية والجنس).[12]

أساس المقارنة

يمكن مقارنة نتائج الاختبار بمعيار محدد، أو مقابل أداء الطلاب الآخرين، أو مقابل الأداء السابق:

يتم التقييم المرجعي للمعيار، عادةً باستخدام اختبار مرجعي للمعيار، كما يوحي الاسم، عندما يتم قياس المرشحين وفقًا لمعايير محددة (وموضوعية). غالبًا ما يتم استخدام التقييم المرجعي ولكن ليس دائمًا، لتحديد كفاءة الشخص (سواء كان يمكنه / يمكنها القيام بشيء ما). أفضل مثال معروف على التقييم المعياري للمعيار هو اختبار القيادة، عندما يتم قياس سائقي المتعلمين مقابل مجموعة من المعايير الصريحة (مثل «عدم تعريض مستخدمي الطريق الآخرين للخطر»).
التقييم المعيياري (المعروف شعبيا باسم «الدرجات على المنحنى»)، وعادة ما تستخدم ل اختبار مرجعي للمعيار، لا يقاس وفقا لمعايير محددة. هذا النوع من التقييم متعلق بالجسم الطلابي الذي يقوم بالتقييم. إنها طريقة فعالة لمقارنة الطلاب. اختبار الذكاء هو أفضل مثال معروف على التقييم المعياري. العديد من اختبارات القبول (للمدارس أو الجامعات المرموقة) مرجعية، مما يسمح لنسبة ثابتة من الطلاب بالمرور («اجتياز» في هذا السياق يعني قبولهم في المدرسة أو الجامعة بدلاً من مستوى متوقع من القدرة). وهذا يعني أن المعايير قد تختلف من سنة إلى أخرى، اعتمادًا على جودة المتقدمين؛ لا يختلف التقييم المرجعي المعياري من سنة إلى أخرى (ما لم تتغير المعايير).[13]
التقييم التكراري هو مقارنة ذاتية إما في نفس المجال بمرور الوقت، أو مقارن بمجالات أخرى داخل نفس الطالب.

رسمية وغير رسمية

يمكن أن يكون التقييم إما رسميًا أو غير رسمي . يتضمن التقييم الرسمي عادةً مستندًا مكتوبًا، مثل اختبار أو اختبار قصير أو ورقة. يتم منح التقييم الرسمي معدل أو درجة رقمية بناءً على أداء الطالب، بينما لا يساهم التقييم غير الرسمي في الدرجة النهائية للطالب. عادةً ما يتم إجراء التقييم غير الرسمي بطريقة أكثر عرضية وقد يشمل الملاحظة وقوائم الجرد وقوائم المراجعة ومقاييس التقييم ونماذج التقييم وتقييمات الأداء والمحافظة والمشاركة وتقييم نظائره والتقييم الذاتي والمناقشة.[14]

داخلي وخارجي

يتم تعيين التقييم الداخلي وتمييزه من قبل المدرسة (أي المعلمين). يحصل الطلاب على العلامة والملاحظات المتعلقة بالتقييم. يتم تحديد التقييم الخارجي من قبل الهيئة الحاكمة، ويتميز بموظفين غير منحازين. تعطي بعض التقييمات الخارجية ملاحظات محدودة أكثر بكثير في علاماتها. ومع ذلك، في اختبارات مثل برنامج التقييم الوطني الأسترالي، يتم إعطاء المعيار الذي تناوله الطلاب ملاحظات مفصلة من أجل أن يقوم المعلمون بمعالجة ومقارنة الإنجازات التعليمية للطالب وكذلك التخطيط للمستقبل.

معايير الجودة

بشكل عام، تعتبر التقييمات عالية الجودة هي تلك التي تتمتع بمستوى عال من الدقة والصلاحية . ومع ذلك، تختلف مقاربات الدقة والصلاحية.

الدقة

تتعلق الدقة باتساق التقييم. التقييم الدقيق هو التقييم الذي يحقق باستمرار نفس النتائج مع نفس المجموعة (أو ما شابه) من الطلاب. تؤثر العوامل المختلفة على الدقة - بما في ذلك الأسئلة الغامضة، والعديد من الخيارات في ورقة الأسئلة، وتعليمات وضع العلامات الغامضة، وعلامات سيئة التدريب. تقليديا، تعتمد دقة التقييم على ما يلي:

الاستقرار الزمني: يمكن مقارنة الأداء في الاختبار في مناسبتين منفصلتين أو أكثر.
معادلة الشكل: الأداء بين الممتحنين يعادل في أشكال مختلفة من الاختبار على أساس نفس المحتوى.
الاتطابق الداخلي: الإجابات على الاختبار متطابقة عبر الأسئلة. على سبيل المثال: في استطلاع يطالب المجيبين بتقييم المواقف تجاه التكنولوجيا، من المتوقع التطابق في الردود على الأسئلة التالية:
- «أشعر بالسلبية تجاه أجهزة الكمبيوتر بشكل عام.»
- «أنا أستمتع باستخدام أجهزة الكمبيوتر.» [15]

يمكن أيضًا تحديد دقة قياس x كميًا على النحو التالي: $R_{\text{x}}=V_{\text{t}}/V_{\text{x}}$ أين $R_{\text{x}}$ هي الدقة في درجة (الاختبار) المرصودة، س؛ $V_{\text{t}}$ و $V_{\text{x}}$ هي التباين في «حقيقي» (أي الأداء الفطري للمرشح) ونتائج الاختبار المقيسة على التوالي. $R_{\text{x}}$ يمكن أن تتراوح من 0 (غير موثوقة تمامًا)، إلى 1 (موثوقة تمامًا).

الصلاحية

التقييم الصحيح هو الذي يقيس ما ينوى قياسه. على سبيل المثال، لن يكون من الصحيح تقييم مهارات القيادة من خلال اختبار كتابي وحده. يمكن أن تكون الطريقة الأكثر صحة لتقييم مهارات القيادة من خلال مجموعة من الاختبارات التي تساعد في تحديد ما يعرفه السائق، مثل من خلال اختبار مكتوب لمعرفة القيادة، وما الذي يمكن للسائق القيام به، مثل من خلال تقييم الأداء الفعلي القيادة. يتذمر المعلمون في كثير من الأحيان من أن بعض الامتحانات لا تقيم بشكل صحيح المنهج الذي يستند إليه الاختبار؛ هم بشكل فعال، يشككون في صحة الامتحان.

يتم قياس صحة التقييم بشكل عام من خلال فحص الأدلة في الفئات التالية:

المحتوى - هل يقيس محتوى الاختبار الأهداف المحددة؟
المعيار - هل ترتبط الدرجات بمرجع خارجي؟ (مثال: هل تتنبأ درجات عالية في اختبار القراءة للصف الرابع بدقة بمهارة القراءة في الصفوف المستقبلية؟)
البناء - هل يتوافق التقييم مع المتغيرات الهامة الأخرى؟ (مثال: هل أداء طلاب اللغة الإنجليزية كلغة ثانية بشكل مختلف في امتحان الكتابة يختلف عن أداء الناطقين باللغة الإنجليزية؟) [16]

إن التقييم الجيد له صلاحية ودقة، بالإضافة إلى ميزات الجودة الأخرى المذكورة أعلاه لسياق وغرض معينين. عمليًا، نادرًا ما يكون التقييم صالحًا تمامًا أو موثوقًا تمامًا. المسطرة التي تم تصنيعها بشكل خاطئ ستعطي دائمًا نفس القياسات (الخاطئة). أنها دقيقة للغاية، ولكنها ليست صالحة للغاية. أحيانًا ما يُطلب من الأفراد العشوائيين معرفة الوقت دون النظر إلى الساعة كمثال لتقييم صحيح ولكنه غير موثوق به. تختلف الإجابات بين الأفراد، ولكن ربما يكون متوسط الإجابة قريبًا من الوقت الفعلي. في العديد من المجالات، مثل البحث الطبي والاختبارات التعليمية وعلم النفس، غالبًا ما يكون هناك مفاضلة بين الدقة والصلاحية. سيحتوي اختبار التاريخ المكتوب من أجل صلاحية عالية على العديد من المقالات وأسئلة ملء الفراغ. سيكون مقياسًا جيدًا لإتقان الموضوع، ولكن من الصعب تسجيله بدقة كاملة. اختبار التاريخ المكتوب من أجل الدقة العالية سيكون اختيارًا متعددًا تمامًا. إنها ليست جيدة في قياس المعرفة بالتاريخ، ولكن يمكن بسهولة تسجيلها بدقة كبيرة. يجوز لنا التعميم عليه. كلما كان تقديرنا أكثر موثوقية لما نهدف إلى قياسه، قل التأكد من أننا في الواقع نقيس هذا الجانب من التحصيل.

من الجيد التفريق بين صلاحية «الموضوع» والصلاحية «التنبؤية». الأول، المستخدم على نطاق واسع في التعليم، يتوقع النتيجة التي سيحصل عليها الطالب في اختبار مماثل ولكن مع أسئلة مختلفة. الثاني، الذي يستخدم على نطاق واسع في مكان العمل، يتنبأ بالأداء. وبالتالي، من المناسب إجراء اختبار صحيح لموضوع معرفة قواعد القيادة، في حين أن اختبارًا صالحًا بشكل تنبئي سيقيم ما إذا كان السائق المحتمل يمكنه اتباع هذه القواعد.

معايير التقييم

في مجال التقييم، وخاصة التقييم التربوي، نشرت اللجنة المشتركة لمعايير التقييم التربوي ثلاث مجموعات من المعايير للتقييمات. تم نشر معايير تقييم الموظفين في عام 1988، [17] ونشرت معايير تقييم البرنامج (الطبعة الثانية) في عام 1994، [18] ونشرت معايير تقييم الطلاب في عام 2003.[19]

يقدم كل منشور ويشرح مجموعة من المعايير للاستخدام في مجموعة متنوعة من البيئات التعليمية. توفر المعايير إرشادات لتصميم وتنفيذ وتقييم وتحسين الشكل المحدد للتقييم. تم وضع كل من المعايير في واحدة من أربع فئات أساسية لتعزيز التقييمات التعليمية المناسبة والمفيدة والمجدية والدقيقة. في هذه المجموعات من المعايير، يتم تناول اعتبارات الصلاحية والدقة تحت صحة الموضوع . على سبيل المثال، تساعد معايير دقة الطالب على التأكد من أن تقييمات الطلاب ستوفر معلومات سليمة ودقيقة وذات مصداقية حول تعلم الطلاب وأدائهم.

في المملكة المتحدة، هناك جائزة في التدريب والتقييم وضمان الجودة (TAQA) متاحة لمساعدة الموظفين على تعلم وتطوير الممارسات الجيدة فيما يتعلق بالتقييم التعليمي في سياقات التدريب والتعليم والتعليم والتدريب المهني.[20]

جدول ملخص للاطارات النظرية الرئيسية

يلخص الجدول التالي الاطارات النظرية الرئيسية وراء جميع الأعمال النظرية والبحثية تقريبًا ، والممارسات التعليمية في التعليم (أحدها ، بالطبع ، ممارسة التقييم). أدت هذه الأطر المختلفة إلى نقاشات مثيرة للاهتمام بين العلماء.

المواضيع	التجريبية	العقلانية	علم الاجتماع الاجتماعي
التوجه الفلسفي	هيوم: التجريبية البريطانية	كانط، ديكارت: العقلانية القارية	هيغل، ماركس: جدلية ثقافية
التوجه الاستعاري	ميكانيكي / تشغيل آلة أو كمبيوتر	عضوي / نمو النبات	السياقية / فحص حدث تاريخي
رواد المنظرين	BF Skinner (السلوكية) / Herb Simon ، John Anderson ، Robert Gagné : (cognitivism)	قضية جان بياجيه / روبي	ليف فيجوتسكي، لوريا، برونر / آلان كولينز ، جيم غرينو ، آن براون، جون برانسفورد
طبيعة العقل	في البداية جهاز فارغ يكتشف الأنماط في العالم ويعمل عليها. متطابقة نوعيا مع الحيوانات الدنيا ، ولكنها متفوقة من الناحية الكمية.	الجهاز الذي تطور لاكتساب المعرفة من خلال فهم العالم. إنسان فريد ، يختلف نوعيا عن الحيوانات الدنيا.	فريد بين الأنواع لتطوير اللغة والأدوات والتعليم.
طبيعة المعرفة (نظرية المعرفة)	جمعيات منظمة هرميًا تقدم تمثيلًا دقيقًا ولكن غير مكتمل للعالم. يفترض أن مجموع مكونات المعرفة هو نفسه ككل. لأنه يتم تمثيل المعرفة بدقة من خلال المكونات ، يُفترض أن الشخص الذي يوضح تلك المكونات يعرف	الهياكل المعرفية والمفاهيمية العامة و / أو المحددة ، التي شيدها العقل ووفقًا للمعايير العقلانية. بشكل أساسي ، هذه هي الهياكل عالية المستوى التي تم إنشاؤها لاستيعاب المعلومات الجديدة للبنية القائمة ، حيث تستوعب الهياكل المزيد من المعلومات الجديدة. تتمثل المعرفة في القدرة على حل المشكلات الجديدة.	موزعة عبر الناس والمجتمعات والبيئة المادية. يمثل ثقافة المجتمع التي تستمر في إنشائها. معرفة الوسائل للتوافق مع قيود وأنظمة الأنظمة التي يحدث فيها النشاط. تتمثل المعرفة في انتظام النشاطات الناجحة.
طبيعة التعلم (العملية التي يتم من خلالها زيادة المعرفة أو تعديلها)	تشكيل وتقوية الجمعيات المعرفية أو SR. توليد المعرفة من خلال (1) التعرض للنمط ، (2) التعرف بكفاءة والاستجابة للنمط (3) التعرف على الأنماط في سياقات أخرى.	الانخراط في عملية نشطة لفهم ("ترشيد") البيئة. تمانع في تطبيق الهيكل الحالي على تجربة جديدة لترشيده. أنت لا تتعلم المكونات حقًا ، فقط الهياكل اللازمة للتعامل مع هذه المكونات لاحقًا.	زيادة القدرة على المشاركة في مجتمع ممارسة معين. الانطلاق في حياة المجموعة ، تعزيز القدرة على المشاركة من خلال التواؤم مع القيود والميزانيات.
ميزات التقييم الأصيل	تقييم مكونات المعرفة. ركز على إتقان العديد من المكونات والطلاقة. استخدام القياسات النفسية لتوحيد.	تقييم الأداء الموسع على المشاكل الجديدة. أصناف التميز الائتمانية.	تقييم المشاركة في الاستقصاء والممارسات الاجتماعية للتعلم (مثل الحقائب والملاحظات) يجب على الطلاب المشاركة في عملية التقييم. يجب دمج التقييمات في بيئة أكبر.

الجدل

تركزت المخاوف بشأن أفضل طريقة لتطبيق ممارسات التقييم عبر أنظمة المدارس العامة إلى حد كبير على الأسئلة المتعلقة باستخدام الاختبارات عالية المخاطر والاختبارات الموحدة ، والتي غالبًا ما تستخدم لقياس تقدم الطلاب ، وجودة المعلم ، والنجاح التعليمي في المدرسة أو المقاطعة أو الولاية .

عدم تخلف أي طفل عن الركب

بالنسبة لمعظم الباحثين والممارسين ، ليس السؤال هو ما إذا كان ينبغي إجراء الاختبارات على الجميع - هناك إجماع عام على أنه عند إجرائها بطرق مفيدة ، يمكن أن تقدم الاختبارات معلومات مفيدة حول تقدم الطلاب وتنفيذ المناهج الدراسية ، بالإضافة إلى تقديم استخدامات تكوينية لـ المتعلمين.[21] المشكلة الحقيقية إذن هي ما إذا كانت ممارسات الاختبار كما يتم تنفيذها حاليًا يمكن أن توفر هذه الخدمات للمعلمين والطلاب.

وقع الرئيس بوش قانون عدم تخلف أي طفل عن الركب (NCLB) في 8 يناير 2002. أعاد قانون NCLB تفويض قانون التعليم الابتدائي والثانوي (ESEA) لعام 1965. وقع الرئيس جونسون على ESEA للمساعدة في محاربة الحرب على الفقر وساعد في تمويل المدارس الابتدائية والثانوية. كان هدف الرئيس جونسون هو التأكيد على المساواة في الحصول على التعليم ووضع معايير عالية. قانون NCLB يتطلب الدول لتطوير تقييمات في المهارات الأساسية. لتلقي تمويل المدارس الفيدرالية ، كان على الولايات إعطاء هذه التقييمات لجميع الطلاب في مستوى الصف المحدد.

في الولايات المتحدة، يفرض قانون «عدم تخلف أي طفل عن الركب» اختبارًا موحدًا على الصعيد الوطني. تتماشى هذه الاختبارات مع المناهج الدراسية للولاية وتربط مساءلة المعلم والطالب والمنطقة والدولة بنتائج هذه الاختبارات. يجادل أنصار NCLB في أنه يوفر طريقة ملموسة لقياس النجاح التعليمي ، ومساءلة المعلمين والمدارس عن فشل الدرجات ، وسد فجوة الإنجاز عبر الفصل والعرق.[22]

يتجادل معارضو الاختبار الموحد في هذه الادعاءات ، بحجة أن محاسبة المعلمين على نتائج الاختبار يؤدي إلى ممارسة «التدريس للاختبار». بالإضافة إلى ذلك ، يتجادل الكثيرون حول أن التركيز على الاختبار المعياري يشجع المعلمين على تزويد الطلاب بمجموعة ضيقة من المهارات التي تعزز أداء الاختبار دون تعزيز فهم أعمق للموضوع أو المبادئ الرئيسية داخل مجال المعرفة.[23]

اختبار عالي المخاطر

التقييمات التي تسببت في أكثر الجدل في الولايات المتحدة هي استخدام امتحانات التخرج من المدرسة الثانوية ، والتي يتم استخدامها لرفض منح الشهادات للطلاب الذين التحقوا بالمدرسة الثانوية لمدة أربع سنوات ، ولكن لا يمكنهم إثبات أنهم تعلموا المادة المطلوبة عند كتابة الامتحانات . يقول المعارضون أنه لا يجوز حرمان أي طالب تخصص أربع سنوات من وقت الحصول على شهادة الثانوية العامة لمجرد الفشل المتكرر في الاختبار ، أو حتى لعدم معرفته بالمواد المطلوبة.[24]

تم إلقاء اللوم على الاختبارات عالية المخاطر لأنها تسبب المرض وقلق الاختبار لدى الطلاب والمعلمين ، وللمعلمين الذين يختارون تضييق المنهج نحو ما يعتقد المعلم أنه سيتم اختباره. ونشرت صحيفة واشنطن سبوكين صورة لوحش يتغذى على الخوف في تمرين يهدف إلى جعل الأطفال يشعرون بالراحة تجاه الاختبار.[25] يزعم أن الصورة المنشورة هي استجابة للطالب الذي طُلب منه رسم صورة لما فكرت في تقييم الدولة.

يشكك نقاد آخرون ، مثل دون أورليتش من جامعة ولاية واشنطن ، في استخدام عناصر الاختبار إلى ما هو أبعد من المستويات المعرفية القياسية لأعمار الطلاب.[26]

مقارنة بتقييمات الملفات ، تعد الاختبارات البسيطة متعددة الخيارات أقل تكلفة بكثير وأقل عرضة للخلاف بين الهدافين ، ويمكن تسجيلها بسرعة كافية لإعادتها قبل نهاية العام الدراسي. الاختبارات المعيارية (يخضع جميع الطلاب لنفس الاختبار في ظل نفس الظروف) غالبًا ما يستخدمون اختبارات الاختيار من متعدد لهذه الأسباب. ينتقد أورليتش استخدام اختبارات باهظة الثمن ومتدرجة كليًا ، بدلاً من «اختبارات الفقاقيع» غير المكلفة متعددة الخيارات ، لقياس جودة كل من النظام والأفراد لأعداد كبيرة جدًا من الطلاب. [26] ومن النقاد البارزين الآخرين للاختبارات عالية المخاطرألفي كون.

تم حظر استخدام اختبارات الذكاء في بعض الولايات لاتخاذ قرارات تعليمية ، وتم انتقاد الاختبارات المعيارية التي تصنف الطلاب من «الأفضل» إلى «الأسوأ» بسبب التحيز ضد الأقليات. يدعم معظم مسؤولي التعليم الاختبارات المرجعية (تعتمد درجة كل طالب على ما إذا كان قد أجاب على الأسئلة بشكل صحيح ، بغض النظر عما إذا كان جيرانه أفضل أم أسوأ) لاتخاذ قرارات عالية المخاطر.

تقييم القرن الحادي والعشرين

وقد لوحظ على نطاق واسع أنه مع ظهور وسائل التواصل الاجتماعي وتقنيات الويب 2.0 وعقلياته ، يصبح التعلم تعاونيًا بشكل متزايد ويتم توزيع المعرفة بشكل متزايد عبر العديد من أعضاء مجتمع التعلم. ومع ذلك ، فإن ممارسات التقييم التقليدية تركز إلى حد كبير على الفرد ولا تفسر بناء المعرفة والتعلم في السياق. بينما ينظر الباحثون في مجال التقييم في التحولات الثقافية التي تنشأ من ظهور ثقافة تشاركية أكثر ، سوف يحتاجون إلى إيجاد طرق جديدة لتطبيق التقييمات على المتعلمين.[27]

تقييم التعلم على نطاق واسع

المقال الرئيسي: تقييم التعلم على نطاق واسع

تقييمات التعلم واسعة النطاق هي تقييمات على مستوى النظام توفر فرصة لإنجاز التعلم لمجموعة من المتعلمين في عام معين ، وفي عدد محدود من المجالات. غالبًا ما يتم تصنيفها على أنها تقييمات وطنية أو عبر وطنية وتلفت الانتباه إلى القضايا المتعلقة بمستويات التعلم ومحددات التعلم ، بما في ذلك تأهيل المعلمين؛ جودة البيئات المدرسية؛ دعم وتوجيه الوالدين؛ والصحة الاجتماعية والعاطفية داخل وخارج المدارس.[28]

التقييم في مدرسة ديمقراطية

نموذج سودبيري لمدارس التربية الديمقراطية لا يقدم تقييمات أو تقييمات أو نصوص أو توصيات. يؤكدون أنهم لا يقيمون الناس ، وأن المدرسة ليست قاضية ؛ إن مقارنة الطلاب ببعضهم البعض ، أو ببعض المعايير التي تم وضعها يعد انتهاكًا لحق الطالب في الخصوصية وتقرير المصير. ويزعم الطلاب أن يقرروا بأنفسهم كيفية قياس تقدمهم كمتعلمين مبدئيًا كعملية للتقييم الذاتي: التعلم مدى الحياة الحقيقي والتقييم التعليمي المناسب للقرن الحادي والعشرين.[29]

وفقًا لمدارس سودبيري، لا تتسبب هذه السياسة في إلحاق الضرر بطلابها أثناء انتقالهم إلى الحياة خارج المدرسة. ومع ذلك ، فإنهم يعترفون بأن ذلك يجعل العملية أكثر صعوبة، لكن هذه المشقة هي جزء من الطلاب الذين يتعلمون كيفية جعل طريقهم الخاص، وضع المعايير الخاصة بهم وتحقيق أهدافهم الخاصة.

تساعد سياسة عدم الدرجات وعدم التقييم على خلق جو خالٍ من المنافسة بين الطلاب أو الشجار للحصول على موافقة الكبار، وتشجع على وجود بيئة تعاونية إيجابية بين الجسم الطلابي.[30]

المرحلة النهائية من تعليم سودبيري ، إذا اختار الطالب أن يأخذها ، هي أطروحة التخرج. يكتب كل طالب في موضوع كيف أعدوا أنفسهم لمرحلة البلوغ ودخول المجتمع ككل. تقدم هذه الرسالة إلى الجمعية التي تقوم بمراجعتها. المرحلة الأخيرة من عملية الأطروحة هي الدفاع الشفوي الذي قدمه الطالب حيث فتحوا الباب للأسئلة والتحديات والتعليقات من جميع أعضاء الجمعية. وفي النهاية ، تصوت الجمعية عن طريق القرعة السرية على منح أو عدم منح الدبلوم.[31]

تقييم طلاب ELL

من الاهتمامات الرئيسية باستخدام التقييمات التعليمية هي الصلاحية العامة والدقة والإنصاف عندما يتعلق الأمر بتقييم متعلمي اللغة الإنجليزية (ELL). غالبية التقييمات داخل الولايات المتحدة لديها معايير معيارية تعتمد على الثقافة الناطقة باللغة الإنجليزية ، والتي لا تمثل بشكل كاف مجموعات ELL.[32] وبالتالي ، سيكون من غير المناسب وغير المناسب في كثير من الحالات استخلاص استنتاجات من الدرجات المعيارية لطلاب ELL. تظهر الأبحاث أن غالبية المدارس لا تعدل التقييمات بشكل مناسب من أجل استيعاب الطلاب من الخلفيات الثقافية الفريدة. وقد أدى ذلك إلى الإفراط في تحويل طلاب ELL إلى التعليم الخاص ، مما تسبب في تمثيلهم بشكل غير متناسب في برامج التعليم الخاص. على الرغم من أن البعض قد يعتبر هذا الموضع غير المناسب في التعليم الخاص داعمًا ومساعدًا ، فقد أظهرت الأبحاث أن الطلاب الذين وضعوا بشكل غير لائق تراجعوا بالفعل في التقدم.

غالبًا ما يكون من الضروري الاستفادة من خدمات المترجم لإدارة التقييم بلغة الطالب الأصلية في اللغة الإنجليزية. ومع ذلك ، هناك العديد من القضايا عند ترجمة بنود التقييم. إحدى المشكلات هي أن الترجمات يمكن أن تشير بشكل متكرر إلى رد صحيح أو متوقع ، مما يغير صعوبة عنصر التقييم.[33] بالإضافة إلى ذلك ، يمكن أن تؤدي ترجمة عناصر التقييم في بعض الأحيان إلى تشويه المعنى الأصلي للعنصر. أخيرًا ، العديد من المترجمين ليسوا مؤهلين أو مدربين بشكل صحيح للعمل مع طلاب ELL في حالة التقييم. [32] كل هذه العوامل تضر بصحة وعدالة التقييمات ، مما يجعل النتائج غير موثوقة. أظهرت التقييمات غير اللفظية أنها أقل تمييزًا لطلاب اللغة الإنجليزية كلغة ثانية ، ومع ذلك ، لا يزال بعض التحيزات الثقافية موجودة في عناصر التقييم.

عند النظر في طالب ELL للتعليم الخاص ، يجب على فريق التقييم دمج وتفسير جميع المعلومات التي تم جمعها من أجل ضمان استنتاج غير متحيز. [33] يجب أن يستند القرار إلى مصادر متعددة الأبعاد للبيانات بما في ذلك مقابلات المعلمين وأولياء الأمور ، بالإضافة إلى الملاحظات الصفية. يجب أن تأخذ القرارات الطلاب الخلفيات الثقافية واللغوية والتجريبية الفريدة في الاعتبار ، ولا يجب أن تستند بشكل صارم إلى نتائج التقييم.

الفحص الشامل

يمكن أن يرتبط التقييم بالتفاوت عندما يتم استبعاد الطلاب من المجموعات الممثلة تمثيلًا ناقصًا تقليديًا من الاختبار المطلوب للوصول إلى برامج أو فرص معينة ، كما هو الحال بالنسبة لبرامج الموهوبين. إحدى طرق مكافحة هذا التفاوت هي الفحص الشامل ، والذي ينطوي على اختبار جميع الطلاب (مثل الموهبة) بدلاً من اختبار بعض الطلاب فقط بناءً على توصيات المعلمين أو أولياء الأمور. يؤدي الفحص الشامل إلى زيادات كبيرة في المجموعات المحرومة تقليديًا (مثل السود واللاتينيين والفقراء والأنثى و ELLs) المحددة للبرامج الموهوبة ، دون تعديل معايير تحديد الهوية بأي شكل من الأشكال.[34]

المراجع

Some educators and education theorists use the terms assessment and evaluation to refer to the different concepts of testing during a learning process to improve it (for which the equally unambiguous terms تقويم تكويني or formative evaluation are preferable) and of testing after completion of a learning process (for which the equally unambiguous terms تقييم تحصيلي or summative evaluation are preferable), but they are in fact synonyms and do not intrinsically mean different things. Most dictionaries not only say that these terms are synonyms but also use them to define each other. If the terms are used for different concepts, careful editing requires both the explanation that they are normally synonyms and the clarification that they are used to refer to different concepts in the current text.
Allen, M.J. (2004)، Assessing Academic Programs in Higher Education، San Francisco: Jossey-Bass.
Kuh, G.D.؛ Jankowski, N.؛ Ikenberry, S.O. (2014)، Knowing What Students Know and Can Do: The Current State of Learning Outcomes Assessment in U.S. Colleges and Universities (PDF)، Urbana: University of Illinois and Indiana University, National Institute for Learning Outcomes Assessment، مؤرشف من الأصل (PDF) في 23 نوفمبر 2018.
National council on Measurement in Education http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorA نسخة محفوظة 2017-07-22 على موقع واي باك مشين.
Nelson, Robert؛ Dawson, Phillip (2014)، "A contribution to the history of assessment: how a conversation simulator redeems Socratic method"، Assessment & Evaluation in Higher Education، 39 (2): 195–204، doi:10.1080/02602938.2013.798394.
Suskie, Linda (2004)، Assessing Student Learning، Bolton, MA: Anker.{{استشهاد بكتاب}}: صيانة CS1: التاريخ والسنة (link)
Black, Paul, & William, Dylan (October 1998). "Inside the Black Box: Raising Standards Through Classroom Assessment."Phi Beta Kappan. Available at http://www.pdkmembers.org/members_online/members/orders.asp?action=results&t=A&desc=Inside+the+Black+Box%3A+Raising+Standards+Through+Classroom+Assessment&text=&lname_1=&fname_1=&lname_2=&fname_2=&kw_1=&kw_2=&kw_3=&kw_4=&mn1=&yr1=&mn2=&yr2=&c1=%5Bوصلة+مكسورة%5D PDKintl.org]. Retrieved January 28, 2009. {{Webarchive|url=https://web.archive.org/web/20220614170337/http://www.pdkmembers.org/members_online/members/orders.asp?action=results&t=A&desc=Inside+the+Black+Box:+Raising+Standards+Through+Classroom+Assessment&text=&lname_1=&fname_1=&lname_2=&fname_2=&kw_1=&kw_2=&kw_3=&kw_4=&mn1=&yr1=&mn2=&yr2=&c1=قالب:وصلة
Madaus, George F.؛ Airasian, Peter W. (30 نوفمبر 1969)، "Placement, Formative, Diagnostic, and Summative Evaluation of Classroom Learning"، مؤرشف من الأصل في 25 نوفمبر 2016. {{استشهاد بدورية محكمة}}: Cite journal requires |journal= (مساعدة)
Mctighe, Jay؛ O'Connor, Ken (نوفمبر 2005)، "Seven practices for effective learning"، Educational Leadership، 63 (3): 10–17، مؤرشف من الأصل في 6 أكتوبر 2019، اطلع عليه بتاريخ 03 مارس 2017.
Earl, Lorna (2003). Assessment as Learning: Using Classroom Assessment to Maximise Student Learning. Thousand Oaks, CA, Corwin Press. (ردمك 0-7619-4626-8)
Reed, Daniel. "Diagnostic Assessment in Language Teaching and Learning." Center for Language Education and Research, available at Google.com نسخة محفوظة 2011-09-14 على موقع واي باك مشين.. Retrieved January 28, 2009. ^{[وصلة مكسورة]}
Joint Information Systems Committee (JISC). "What Do We Mean by e-Assessment?" JISC InfoNet. Retrieved January 29, 2009 from http://tools.jiscinfonet.ac.uk/downloads/vle/eassessment-printable.pdf نسخة محفوظة 2017-01-16 على موقع واي باك مشين.
Educational Technologies at Virginia Tech. "Assessment Purposes." VirginiaTech DesignShop: Lessons in Effective Teaching, available at Edtech.vt.edu نسخة محفوظة 2009-02-26 على موقع واي باك مشين.. Retrieved January 29, 2009.
Valencia, Sheila W. "What Are the Different Forms of Authentic Assessment?" Understanding Authentic Classroom-Based Literacy Assessment (1997), available at Eduplace.com. Retrieved January 29, 2009. نسخة محفوظة 28 أكتوبر 2019 على موقع واي باك مشين.
Yu, Chong Ho (2005). "Reliability and Validity." Educational Assessment. Available at Creative-wisdom.com. Retrieved January 29, 2009. نسخة محفوظة 13 سبتمبر 2019 على موقع واي باك مشين.
Moskal, Barbara M., & Leydens, Jon A (2000). "Scoring Rubric Development: Validity and Reliability." Practical Assessment, Research & Evaluation, 7(10). Retrieved January 30, 2009.
Joint Committee on Standards for Educational Evaluation. (1988). "The Personnel Evaluation Standards: How to Assess Systems for Evaluating Educators". Newbury Park, CA: Sage Publications
Joint Committee on Standards for Educational Evaluation. (1994).The Program Evaluation Standards, 2nd Edition. Newbury Park, CA: Sage Publications
Committee on Standards for Educational Evaluation. (2003). The Student Evaluation Standards: How to Improve Evaluations of Students. Newbury Park, CA: Corwin Press
City & Guilds, Understanding the Principles and Practice of Assessment: Qualification Factsheet, accessed 26 February 2020 نسخة محفوظة 26 فبراير 2020 على موقع واي باك مشين.
American Psychological Association. "Appropriate Use of High-Stakes Testing in Our Nation's Schools." APA Online, available at APA.org, Retrieved January 24, 2010 نسخة محفوظة 23 أكتوبر 2018 على موقع واي باك مشين.
(nd) Reauthorization of NCLB. Department of Education. Retrieved 1/29/09. نسخة محفوظة 17 أبريل 2020 على موقع واي باك مشين.
(nd) What's Wrong With Standardized Testing? FairTest.org. Retrieved January 29, 2009. نسخة محفوظة 18 أكتوبر 2019 على موقع واي باك مشين.
Weinkopf, Chris (2002)، "Blame the test: LAUSD denies responsibility for low scores"، Daily News، مؤرشف من الأصل في 2 فبراير 2017، اطلع عليه بتاريخ أكتوبر 2020، The blame belongs to 'high-stakes tests' like the Stanford 9 and California's High School Exit Exam. Reliance on such tests, the board grumbles, 'unfairly penalizes students that have not been provided with the academic tools to perform to their highest potential on these tests'. {{استشهاد بخبر}}: تحقق من التاريخ في: |تاريخ الوصول= (مساعدة)
"ASD.wednet.edu"، مؤرشف من الأصل في 25 فبراير 2007، اطلع عليه بتاريخ 22 سبتمبر 2006.
Bach, Deborah, & Blanchard, Jessica (April 19, 2005). "WASL worries stress kids, schools." Seattle Post-Intelligencer. Retrieved January 30, 2009 from Seattlepi.nwsource.com. نسخة محفوظة 2020-07-03 على موقع واي باك مشين.
Fadel, Charles, Honey, Margaret, & Pasnik, Shelley (May 18, 2007). "Assessment in the Age of Innovation." Education Week. Retrieved January 29, 2009 from http://www.edweek.org/ew/articles/2007/05/23/38fadel.h26.html نسخة محفوظة 2019-08-31 على موقع واي باك مشين.
UNESCO (2019)، The promise of large-scale learning assessments: acknowledging limits to unlock opportunities، UNESCO، ISBN 978-92-3-100333-2، مؤرشف من الأصل في 20 فبراير 2020.
Greenberg, D. (2000). 21st Century Schools, edited transcript of a talk delivered at the April 2000 International Conference on Learning in the 21st Century. "نسخة مؤرشفة"، مؤرشف من الأصل في 3 مارس 2016، اطلع عليه بتاريخ 3 مايو 2020.{{استشهاد ويب}}: صيانة CS1: BOT: original-url status unknown (link)
Greenberg, D. (1987). Chapter 20,Evaluation, Free at Last — The Sudbury Valley School.
Graduation Thesis Procedure, Mountain Laurel Sudbury School. نسخة محفوظة 4 مايو 2020 على موقع واي باك مشين.
http://ehis.ebscohost.com.libdata.lib.ua.edu/eds/pdfviewer/pdfviewer?sid=221ae7c6-6895-4b02-bc69-759936218fba%40sessionmgr104&vid=12&hid=20%5Bوصلة+مكسورة%5D
"Archived copy" (PDF)، مؤرشف من الأصل (PDF) في 29 مايو 2012، اطلع عليه بتاريخ 11 أبريل 2012.{{استشهاد ويب}}: صيانة CS1: الأرشيف كعنوان (link)
Card, D., & Giuliano, L. (2015). Can universal screening increase the representation of low income and minority students in gifted education? (Working Paper No. 21519). Cambridge, MA: National Bureau of Economic Research. Retrieved from www.nber.org/papers/w21519

بوابة علم النفس
بوابة تربية وتعليم

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Some educators and education theorists use the terms assessment and evaluation to refer to the different concepts of testing during a learning process to improve it (for which the equally unambiguous terms تقويم تكويني or formative evaluation are preferable) and of testing after completion of a learning process (for which the equally unambiguous terms تقييم تحصيلي or summative evaluation are preferable), but they are in fact synonyms and do not intrinsically mean different things. Most dictionaries not only say that these terms are synonyms but also use them to define each other. If the terms are used for different concepts, careful editing requires both the explanation that they are normally synonyms and the clarification that they are used to refer to different concepts in the current text.

[2] Allen, M.J. (2004)، Assessing Academic Programs in Higher Education، San Francisco: Jossey-Bass.

[3] Kuh, G.D.؛ Jankowski, N.؛ Ikenberry, S.O. (2014)، Knowing What Students Know and Can Do: The Current State of Learning Outcomes Assessment in U.S. Colleges and Universities (PDF)، Urbana: University of Illinois and Indiana University, National Institute for Learning Outcomes Assessment، مؤرشف من الأصل (PDF) في 23 نوفمبر 2018.

[4] National council on Measurement in Education http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorA نسخة محفوظة 2017-07-22 على موقع واي باك مشين.

[5] Nelson, Robert؛ Dawson, Phillip (2014)، "A contribution to the history of assessment: how a conversation simulator redeems Socratic method"، Assessment & Evaluation in Higher Education، 39 (2): 195–204، doi:10.1080/02602938.2013.798394.

[6] Suskie, Linda (2004)، Assessing Student Learning، Bolton, MA: Anker.{{استشهاد بكتاب}}: صيانة CS1: التاريخ والسنة (link)

[Black_Box-7] Black, Paul, & William, Dylan (October 1998). "Inside the Black Box: Raising Standards Through Classroom Assessment."Phi Beta Kappan. Available at http://www.pdkmembers.org/members_online/members/orders.asp?action=results&t=A&desc=Inside+the+Black+Box%3A+Raising+Standards+Through+Classroom+Assessment&text=&lname_1=&fname_1=&lname_2=&fname_2=&kw_1=&kw_2=&kw_3=&kw_4=&mn1=&yr1=&mn2=&yr2=&c1=%5Bوصلة+مكسورة%5D PDKintl.org]. Retrieved January 28, 2009. {{Webarchive|url=https://web.archive.org/web/20220614170337/http://www.pdkmembers.org/members_online/members/orders.asp?action=results&t=A&desc=Inside+the+Black+Box:+Raising+Standards+Through+Classroom+Assessment&text=&lname_1=&fname_1=&lname_2=&fname_2=&kw_1=&kw_2=&kw_3=&kw_4=&mn1=&yr1=&mn2=&yr2=&c1=قالب:وصلة

[8] Madaus, George F.؛ Airasian, Peter W. (30 نوفمبر 1969)، "Placement, Formative, Diagnostic, and Summative Evaluation of Classroom Learning"، مؤرشف من الأصل في 25 نوفمبر 2016. {{استشهاد بدورية محكمة}}: Cite journal requires |journal= (مساعدة)

[ReferenceA-9] Mctighe, Jay؛ O'Connor, Ken (نوفمبر 2005)، "Seven practices for effective learning"، Educational Leadership، 63 (3): 10–17، مؤرشف من الأصل في 6 أكتوبر 2019، اطلع عليه بتاريخ 03 مارس 2017.

[Earl,_Lorna-10] Earl, Lorna (2003). Assessment as Learning: Using Classroom Assessment to Maximise Student Learning. Thousand Oaks, CA, Corwin Press. (ردمك 0-7619-4626-8)

[Diagnostic_assessment-11] Reed, Daniel. "Diagnostic Assessment in Language Teaching and Learning." Center for Language Education and Research, available at Google.com نسخة محفوظة 2011-09-14 على موقع واي باك مشين.. Retrieved January 28, 2009. ^{[وصلة مكسورة]}

[Joint_Information_Systems_Committee_(JISC)-12] Joint Information Systems Committee (JISC). "What Do We Mean by e-Assessment?" JISC InfoNet. Retrieved January 29, 2009 from http://tools.jiscinfonet.ac.uk/downloads/vle/eassessment-printable.pdf نسخة محفوظة 2017-01-16 على موقع واي باك مشين.

[VirginiaTech-13] Educational Technologies at Virginia Tech. "Assessment Purposes." VirginiaTech DesignShop: Lessons in Effective Teaching, available at Edtech.vt.edu نسخة محفوظة 2009-02-26 على موقع واي باك مشين.. Retrieved January 29, 2009.

[Valencia,_Sheila_W-14] Valencia, Sheila W. "What Are the Different Forms of Authentic Assessment?" Understanding Authentic Classroom-Based Literacy Assessment (1997), available at Eduplace.com. Retrieved January 29, 2009. نسخة محفوظة 28 أكتوبر 2019 على موقع واي باك مشين.

[Yu,_Chong_Ho-15] Yu, Chong Ho (2005). "Reliability and Validity." Educational Assessment. Available at Creative-wisdom.com. Retrieved January 29, 2009. نسخة محفوظة 13 سبتمبر 2019 على موقع واي باك مشين.

[Moskal,_Barbara_M.,_&_Leydens,_Jon_A-16] Moskal, Barbara M., & Leydens, Jon A (2000). "Scoring Rubric Development: Validity and Reliability." Practical Assessment, Research & Evaluation, 7(10). Retrieved January 30, 2009.

[17] Joint Committee on Standards for Educational Evaluation. (1988). "The Personnel Evaluation Standards: How to Assess Systems for Evaluating Educators". Newbury Park, CA: Sage Publications

[18] Joint Committee on Standards for Educational Evaluation. (1994).The Program Evaluation Standards, 2nd Edition. Newbury Park, CA: Sage Publications

[19] Committee on Standards for Educational Evaluation. (2003). The Student Evaluation Standards: How to Improve Evaluations of Students. Newbury Park, CA: Corwin Press

[20] City & Guilds, Understanding the Principles and Practice of Assessment: Qualification Factsheet, accessed 26 February 2020 نسخة محفوظة 26 فبراير 2020 على موقع واي باك مشين.

[APA-21] American Psychological Association. "Appropriate Use of High-Stakes Testing in Our Nation's Schools." APA Online, available at APA.org, Retrieved January 24, 2010 نسخة محفوظة 23 أكتوبر 2018 على موقع واي باك مشين.

[22] (nd) Reauthorization of NCLB. Department of Education. Retrieved 1/29/09. نسخة محفوظة 17 أبريل 2020 على موقع واي باك مشين.

[23] (nd) What's Wrong With Standardized Testing? FairTest.org. Retrieved January 29, 2009. نسخة محفوظة 18 أكتوبر 2019 على موقع واي باك مشين.

[24] Weinkopf, Chris (2002)، "Blame the test: LAUSD denies responsibility for low scores"، Daily News، مؤرشف من الأصل في 2 فبراير 2017، اطلع عليه بتاريخ أكتوبر 2020، The blame belongs to 'high-stakes tests' like the Stanford 9 and California's High School Exit Exam. Reliance on such tests, the board grumbles, 'unfairly penalizes students that have not been provided with the academic tools to perform to their highest potential on these tests'. {{استشهاد بخبر}}: تحقق من التاريخ في: |تاريخ الوصول= (مساعدة)

[25] "ASD.wednet.edu"، مؤرشف من الأصل في 25 فبراير 2007، اطلع عليه بتاريخ 22 سبتمبر 2006.

[Bach,_Deborah,_&_Blanchard,_Jessica-26] Bach, Deborah, & Blanchard, Jessica (April 19, 2005). "WASL worries stress kids, schools." Seattle Post-Intelligencer. Retrieved January 30, 2009 from Seattlepi.nwsource.com. نسخة محفوظة 2020-07-03 على موقع واي باك مشين.

[Fadel,_Charles,_Honey,_Margaret,_&_Pasnik,_Shelley-27] Fadel, Charles, Honey, Margaret, & Pasnik, Shelley (May 18, 2007). "Assessment in the Age of Innovation." Education Week. Retrieved January 29, 2009 from http://www.edweek.org/ew/articles/2007/05/23/38fadel.h26.html نسخة محفوظة 2019-08-31 على موقع واي باك مشين.

[:0-28] UNESCO (2019)، The promise of large-scale learning assessments: acknowledging limits to unlock opportunities، UNESCO، ISBN 978-92-3-100333-2، مؤرشف من الأصل في 20 فبراير 2020.

[29] Greenberg, D. (2000). 21st Century Schools, edited transcript of a talk delivered at the April 2000 International Conference on Learning in the 21st Century. "نسخة مؤرشفة"، مؤرشف من الأصل في 3 مارس 2016، اطلع عليه بتاريخ 3 مايو 2020.{{استشهاد ويب}}: صيانة CS1: BOT: original-url status unknown (link)

[30] Greenberg, D. (1987). Chapter 20,Evaluation, Free at Last — The Sudbury Valley School.

[31] Graduation Thesis Procedure, Mountain Laurel Sudbury School. نسخة محفوظة 4 مايو 2020 على موقع واي باك مشين.

[ehis.ebscohost.com.libdata.lib.ua.edu-32] ttp://ehis.ebscohost.com.libdata.lib.ua.edu/eds/pdfviewer/pdfviewer?sid=221ae7c6-6895-4b02-bc69-759936218fba%40sessionmgr104&vid=12&hid=20%5Bوصلة+مكسورة%5D

[nasponline.org-33] "Archived copy" (PDF)، مؤرشف من الأصل (PDF) في 29 مايو 2012، اطلع عليه بتاريخ 11 أبريل 2012.{{استشهاد ويب}}: صيانة CS1: الأرشيف كعنوان (link)

[34] Card, D., & Giuliano, L. (2015). Can universal screening increase the representation of low income and minority students in gifted education? (Working Paper No. 21519). Cambridge, MA: National Bureau of Economic Research. Retrieved from www.nber.org/papers/w21519