كلمات كليدي : آزمون، آزمون سازي، اعتبار، روايي، هنجار، روان سنجي
نویسنده : روح الله منصوري
قبل از وارد شدن به موضوع آزمونسازی، بهتر است با عباراتی مثل اندازهگیری[1]، ارزشیابی[2] و سنجش[3] که ممکن است مترادف با آزمون بهکار روند، بهطور خلاصه آشنا شویم. اندازهگیری، عبارت است از اختصاص دادن اعداد به افراد به شیوهای منظم و برای نشان دادن ویژگیهای آنها، اما آزمون عبارت است از، اندازهای عینی و استاندارد از چگونگی یک رفتار. همانطور که از این تعاریف استنباط میشود مفهوم اندازهگیری اعم از آزمون است. آزمون، فقط نمونهای از رفتار را اندازه میگیرد. هر آزمون از چند سؤال تشکیل شده است که جایگاه آزمودنی را در صفت مورد اندازهگیری تعیین میکند. ارزشیابی از نظر کرونباخ[4] به عنوان گردآوری و کاربرد اطلاعات به منظور اخذ تصمیم درباره برنامه آموزشی تعریف میشود و بوبای[5]، آن را فرایند نظامدار گردآوری و تفسیر شواهدی میداند که منجر به داوری ارزشی میشود و در نهایت به عمل میانجامد.[6] از طرف دیگر سنجش به نوعی اندازهگیری اطلاق میشود که در آن به جای آزمون یا علاوه بر آزمون وسایل دیگری نیز بهکار رود. به عبارت دیگر سنجش نوعی تحلیل بالینی و پیشبینی عملکرد فرد است.[7]
اگرچه فعالیت در زمینه آزمونهای روانی بهصورت علمی از اواخر قرن نوزدهم میلادی آغاز شده است، اما اندیشه شناخت انسانها برای نیل به اهداف مختلف از زمانهای قدیم وجود داشته است. به عنوان مثال در امپراطوری چین قدیم کارکنان سازمانهای کشوری هر سه سال یکبار با استفاده از امتحانات شفاهی مورد آزمون قرار میگرفتند و نتایج این امتحانات به عنوان ملاکی برای ارزشیابی عملکرد و ارتقای آنان مورد استفاده قرار میگرفت. اولین آزمون روانی به معنی واقعی کلمه، مقیاس هوشی بینه – سیمون است که در سال 1905 جهت اندازهگیری هوش کودکان ساخته شد. به همین دلیل بینه را پدر آزمونهای روانی قلمداد کردهاند. البته پیدایش آزمونهای روانی مدیون تلاشها و فعالیتهای علمی دانشمندان زیادی از جمله فخنر، وونت، کتل، گالتون و ... است.[8]
موارد کاربرد آزمونها
تا قبل از توسعه و کاربرد آزمونهای روانی، انتقادها و سرزنشهای زیادی به ذهنی بودن روانشناسی وارد میشد. روانشناسی پیش از پیدایش آزمونها در زمینه فلسفه قرار داده میشد و در طبقهبندی علوم، جای مشخصی نداشت. اما ورود آزمونها ماهیتی تجربی به روانشناسی داد و آن را جزء یکی از علوم مهم و مطرح روز قرار داد. آزمونهای روانی برای اندازهگیری تفاوتهای بینفردی یا تفاوتهای یک فرد در زمانهای مختلف، برای شناسایی عقبماندههای ذهنی، افراد دارای اختلالات عاطفی و ... بهکار میروند. از مهمترین زمینههای کاربرد آزمونها میتوان به موارد زیر اشاره کرد:
· کلینیکهای روانشناسی و روانپزشکی
· پیشبینی تواناییها و سایر ویژگیهای فردی
· گزینش افراد در سازمانهای مختلف
· طبقهبندی افراد
· ارزشیابی برنامهها و روشها.[9]
انواع آزمونها
آزمونها برحسب ملاکهای مختلفی قابل طبقهبندی هستند که ذیلا برخی از آنها ذکر میشود:
· از نظر شکلی: آزمونها به مداد – کاغذی و عملکردی تقسیم میشوند که در نوع اول آزمودنیها به سؤالات کتبی پاسخ میدهند و در نوع دوم عملکرد آنها در تکالیفی که ارائه میشود مشاهده میشود.
· از نظر شیوه اجرا: آزمونها به فردی و گروهی تقسیم میشوند.
· از نظر موضوعی: آزمونها به آزمونهای توانایی، مهارت و پیشرفت، شخصیت، رغبت، نگرش و ... قابل تقسیم هستند.
· از نظر هدف: آزمونها به آزمونهای پیشبینی و تشخیصی تقسیم میشوند.
· از نظر محتوایی: آزمونها به انواع آزمونهای هوش، استعداد، بالینی، عینی، فرافکن و ... تقسیم میشوند.[10]
روش تهیه سؤالهای آزمون
برای ساخت یک آزمون این مراحل باید انجام گیرد:
الف. در ابتدا ویژگی یا رفتاری که قرار است آزمون برای اندازهگیری آن ساخته شود مشخص شده و به صورت عملیاتی تعریف میشود.
ب. اجزاء سازنده و حیطههای جزئی هر یک از حوزههایی که در تعریف عملیاتی آمده است مشخص میشود. به عنوان مثال اگر در تعریف عملیاتی اضطراب به نشانگان جسمانی و روانی آن اشاره شده است، علایم جسمانی و روانی آن تعیین میشود. این عمل نوعی تعیین روایی محتوایی منطقی است.
ج. برای هر یک از نشانگان یا حیطههایی که تعیین شده است سؤال طرح میشود. بدین منظور معمولا چندین سؤال کلی از موضوع مورد نظر طرح شده و در اختیار تعداد محدودی از جامعه هدف قرار داده میشود. پاسخها جمعآوری شده و عناصر مشترک آنها استخراج میشود و سپس افراد متخصص در موضوع مربوطه سؤالات یا گویههای مختلفی را برای هر یک از این عناصر طرح میکنند. تعداد سؤالها در این مرحله باید بیشتر از تعداد سؤالهایی باشد که قرار است در آزمون نهایی گنجانده شوند.
د. پس از تهیه سؤالات آزمون و تدوین پرسشنامه مقدماتی، آزمون بر روی نمونه کوچکی(حداقل 50 نفر) اجرا میشود. این نمونه باید به صورت تصادفی از جامعهای که آزمون نهایی بر روی آنها اجرا خواهد شد انتخاب شود.
ه. پاسخهای آزمودنیها به هر یک از سؤالات آزمون مورد تجزیه و تحلیل قرار میگیرد و سؤالات نامناسب حذف یا در آنها تجدید نظر به عمل میآید. اگر تعداد سؤالات باقیمانده کمتر از سؤالات مورد نیاز باشد به مرحله سه و چهار بازگشته و پس از تدوین سؤالات جدید دوباره آنها بر روی گروه نمونه اجرا میشود.
و. در مرحله پایانی، یعنی هنجاریابی و تهیه نرمهای مورد نیاز، پرسشنامه نهایی روی نمونه بزرگتری که معرف جامعه هدف است اجرا شده و هنجارهای آزمون تهیه میشود تا بین دستورالعملهای اجرایی، شیوه نمرهگذاری و تفسیر نتایج، هماهنگی ایجاد شود.[11]
تجزیه و تحلیل سؤالات آزمون
سؤالات آزمون را از طرق مختلفی میتوان تجزیه و تحلیل کرد که به اختصار به برخی از آنها اشاره میشود:
یک. محاسبه ضریب تمییز: این شاخص قدرت سؤال را در تمایزگذاری یا تشخیص آزمودنیهای قوی و ضعیف نشان میدهد. اگر ضریب تمییز سؤالی مثبت باشد نشانگر آن است که آن سؤال قدرت تمییز بین گروه قوی و ضعیف را دارد و هر چه این ضریب بزرگتر باشد قدرت تمییز بیشتر است. ضریب تمییز صفر نشان میدهد که آن سؤال نمیتواند بین گروه قوی و ضعیف تمایزی قائل شود. اگر ضریب تمییز سؤالی منفی باشد بیانگر آن است که در آن سؤال عملکرد گروه ضعیف بهتر از گروه قوی است! دلیل این امر میتواند اشکال فنی در سؤال، آموزش غلط یا عدم آموزش گروه قوی باشد. این سؤالات باید حذف شوند یا تجدید نظر اساسی در آنها صورت گیرد.
دو. محاسبه همبستگی سؤال با کل آزمون: یکی دیگر از راههای تحلیل سؤالهای یک آزمون محاسبه ضریب همبستگی بین نمره آزمونشوندگان در آن سؤال و نمرات آنان در کل آزمون است. این ضریب همبستگی که معمولا به صورت همبستگی دو رشتهای نقطهای محاسبه میشود، در واقع ضریب توافق سؤال با کل آزمون است. اگر آزمودنیهایی که در کل آزمون نمره بالایی دارند در سؤال خاصی نمره بالا بگیرند و بر عکس اگر کسانی که در کل آزمون نمره پایینی دارند در آن سؤال نمره پایینی بگیرند(یعنی همبستگی زیادی با هم داشته باشند)، این سؤال با کل آزمون همخوانی دارد.
سه. تحلیل سؤال از طریق حذف هر سؤال و محاسبه همبستگی بقیه سؤالها: در این روش ابتدا همبستگی کل سؤالها محاسبه میشود و سپس با حذف یک یک سؤالات، همبستگی بقیه سؤالها محاسبه میگردد. اگر ضریب همبستگی به دست آمده پس از حذف سؤال از ضریب همبستگی اولیه که ضریب همبستگی کل سؤالها است کمتر باشد بیانگر آن است که آن سؤال، سؤال خوبی است. ولی اگر ضریب به دست آمده از همبستگی کل بیشتر باشد نشانگر آن است که آن سؤال سؤال ضعیفی است و بهتر است از آزمون حذف شود.
چهار. تحلیل سؤالات با استفاده از تحلیل عامل: هدف اصلی تحلیل عامل، ساده کردن توصیف دادهها از طریق تقلیل تعداد متغیرها یا ابعاد مورد مطالعه است. مثلا اگر آزمونی چهل سؤال داشته باشد که از پنج عامل تشکیل شده است، به جای ارائه چهل نمره میتوان پنج نمره را جانشین نمره اصلی کرد. همچنین ممکن است هنگام ساختن آزمون تعدادی سؤال نامربوط و ناهمگن از تحلیل عامل استفاده میشود.[12]
اعتبار و روایی Reliability & Validity
از ویژگیهایی که هر آزمونی باید دارا باشد تا آزمونی استاندارد به حساب آید اعتبار و روایی است. منظور از اعتبار، میزان اعتمادی است که میتوان به نتایج یک آزمون داشت. یعنی اگر آزمونی بهطور متوالی و با فاصله زمانی کوتاه بر روی تعدادی از افراد اجرا شود، نتایج به دست آمده باید از یک ثبات نسبی برخوردار باشد. به عبارت دیگر اعتبار یک آزمون به دقت آن اشاره دارد. اگر آزمونی در هر بار اجرا روی یک گروه خاص، نتایج متفاوتی به بار آورد آن آزمون یک آزمون معتبر نیست. از روشهای تعیین اعتبار میتوان به روش بازآزمایی، فرمهای همارز، همسانی درونی، دو نیمه کردن آزمون و محاسبه ضریب آلفا اشاره کرد.
روایی، عبارت است از توافق بین نمره آزمون با صفت و خصیصهای که آزمون برای اندازهگیری آن ساخته شده است. مهمترین عاملی که در ارزشیابی تست باید بدان توجه شود روایی آزمون است که مقصود از آن مناسب بودن، با معنا بودن و مفید بودن استنباطهای خاصی است که از روی نمرات آزمون به عمل میآید. برای تأیید اینگونه استنباطها لازم است شواهدی جمعآوری شود که در فرهنگ روانسنجی رواسازی آزمون گفته میشود. از انواع مختلف روایی، میتوان به روایی محتوایی، منطقی، ملاکی، سازه، همزمان، پیشبین، عاملی، صوری و ... اشاره کرد.[13]
هنجار یا نُرم Norm
نرم، عبارت است از حد متوسط حالات، معلومات یا خصیصه افرادی که در یک آزمون شرکت داشتهاند و تعداد حالات، معلومات یا خصایص افراد دیگر را میتوان با آن سنجید تا مشخص شود که فرد در مقایسه با افراد متجانس و مشابه خود در چه وضعیتی قرار دارد. به عبارت سادهتر میانگین نمرات گروه مرجع را نرم میگویند. آزمودنیای که قرار است نمره او با نرم گروه مرجع تفسیر شود باید شبیه به آزمودنیهای آن گروه باشد. به عنوان مثال اگر آزمون روی کودکان هفت تا ده ساله هنجار شده است، نمیتوان نمره یک نوجوان پانزدهساله یا یک بزرگسال را با آن مقایسه کرد.[14]
نرمها، دارای انواع متعددی هستند که معروفترین آنها عبارتند از نرم سنی، کلاسی، درصدی و نمرههای معیار یا ترازشده. البته نرمهای کلاسی و سنی را تحت عنوان "نرمهای تحولی" و نرمهای درصد و ترازشده را تحت عنوان "نرمهای درونگروهی" نیز معرفی کردهاند.[15]