كلمات كليدي : داده، داده پردازي، دادهآمايي، كنترل داده ها، كدگذاري دادها
نویسنده : مصطفي همداني
دادهپردازی از مراحل مسلّم در پژوهش علمی است که متأسفانه در بسیاری از منابع مورد توجه قرار نگرفته است، به عنوان مثال بسیاری از محققان (ازجمله، گال، گال و بورگ (Gall M.D, Gall J.P & Borg W.R)، 1996؛ و کرسول (Creswell)، 2002) شش گام اساسی در فرایند پژوهش را به شرح زیر ارائه میکنند:
1. بیان مسئله؛
2. مطالعه پیشینه پژوهش؛
3. مشخص کردن هدف، فرضیات و سوالات تحقیق؛
4. جمعآوری اطلاعات؛
5. تحلیل و تفسیر اطلاعات؛
6. گزارش و ارزشیابی تحقیق.[1]
همانطور که دیده میشود، در این سلسله مراحل، جایی برای مرحله مهم "دادهپردازی" که بین دو مرحله جمعآوری اطلاعات و تحلیل و تفسیر اطلاعات است قرار داده نشده است؛ اما در منابع اصیل و معتبر معمولاً به این تفکیک توجه کافی مبذول شده است.[2]
هدف از دادهپردازی
هدف اصلی از پردازش، پالایش دادههاست. در اینجا تلاش میشود دادهها مورد بازبینی و کنترل قرار گیرند. در مرحله گردآوری دادهها ممکن است دادههای نامناسب نیز آشکار شوند. شناسایی و حذف این نوع دادهها در این مرحله انجام میشود.[3]
مراحل دادهپردازی
فرآیند دادهپردازی دارای مراحل زیر است که جز مرحله ویرایش و کدگذاری، بقیه کارها را میتوان با نرمافزار SPSS انجام داد:[4]
1. کنترل؛ منظور از کنترل آن است که محقق صحت و دقت دادههای گردآوری شده را با هدف کشف و حذف خطاهای مشاهده مورد ارزیابی قرار میدهد و طی آن احتمالاً تعدادی از دادههای خام را دور میریزد و دوباره اقدام به گردآوری دادههای تجربی مورد نیاز میکند. کنترل و کسب اطمینان از صحت دادههای گردآوری شده از طریق هر نوع روشی ضروری است.[5] این مرحله را غربال کردن دادهها (Data Screening)هم نامگذاری کردهاند.[6]
برخی محققین، پس از مرحله کنترل، مرحله زیر نیز را ذکر کردهاند:
ایجاد یک پایگاه دادهها؛ وقتی دادهها غربال شدند و تمام اصلاحات انجام گیرد، باید به پایگاه دادههایی با ساختار خوب وارد شوند. موقع طرحریزی هر مطالعه، محقق باید با دقت ساختار پایگاه دادهها و چگونگی استفاده از آن را در نظر بگیرد.[7] پایگاه داده عبارت است از ساختاری که متغیرها و دادهها را بشود برحسب نیاز در آن وارد نمود. این نیازها در نرمافزار به طور پیشفرض وجود دارد.
2. کدگذاری (Coding)؛ در پژوهشهایی مثل پیمایش اجتماعی پس از تکمیل و جمعآوری پرسشنامهها و کنترل پاسخها مرحله کدگذاری آغاز میشود. کدگذاری روشی است که بهوسیله آن پاسخهای سوالات ابزار جمعآوری اطلاعات، مثل پرسشنامه، به صورت عدد درمیآیند. در اینجا معنی پاسخها به زبان عدد بیان میشود. معنی اعداد نسبت داده شده به پاسخها برحسب سطوح سنجش آنها متفاوت است. اعداد یا کدهای نسبت داده شده به پاسخهای مربوط به متغیرهای اسمی، فقط بیانگر نام یا علامت مقوله هستند و قابلیت پذیرش عملیات ریاضی را ندارند؛ برای مثال جنسیت: 1) مرد؛ 2) زن. معنی اعداد یا کدهای نسبت داده شده به متغیرهای ترتیبی بیانگر جایگاه اشیاء یا افراد در پیوستاری از کم تا زیاد است. مثال: نگرش سیاسی: 4) کاملاً موافق؛ 3) موافق؛ 2) مخالف؛ 1) کاملاً مخالف؛ 0) بینظر.
متغیرهای فاصلهای به کدگذاری نیاز ندارند. در این نوع متغیرها تعداد واحدهای اندازهگیری با مقدار صفت افراد یا اشیاء و فاصله بین اعداد (واحدها) باهم برابر است؛ برای مثال فاصله 16 و 17 برابر فاصله 12 و 13 است. البته برحسب ضرورت میتوان متغیرهای فاصلهای را از طریق گروهبندی به متغیر ترتیبی یا رتبهای تبدیل کرد.[8] در پیمایش، معمولاً پردازش در حد همین کدگذاری جوابها و انتقال آنها به رایانه است.[9] در انواع تحلیل محتوا، متغیرهای کیفی در این مرحله به کمی تبدیل میشوند؛ به این معنی که «محتوای آشکار پیامهای ارتباطی بهصورت کمّی طبقهبندی میشود و واحدهای تحلیل بهصورت عدد درمیآید.»[10] و در انواعی از پیمایشها نیز ممکن است متغیرهای کمی به کیفی تبدیل شوند.
لازم است قبل از کدگذاری، "کتاب کد دادهها" (Data Codebook) تهیه شود و اکنون هم که مرحله پیاده کردن کدگذاری است، بر اساس همان دفترچه عمل شود و در پایان دادهپردازی که به مرحله بازبینی میرسیم و نیز در آینده هم که نیاز به بررسیهای دیگر شود، همین دفترچه بسیار ضروری است.
کتاب دادهها یک فهرست ارائه شده نوشتاری یا کامپیوتری است که شامل توصیف جامع و واضحی از متغیرهای پایگاه دادهها است.
کتاب کد دادهها باید شامل اجزای زیر برای هر متغیر باشد:
- نام متغیر
- توصیف متغیر
- قابل متغیر (شماره، دادهها، متن)
- ابزار یا روش گردآوری
- مطالعهشونده یا گروه
- محل متغیر (در پایگاه دادهها)
- یادداشت[11]
باید توجه کرد که نیاز به یک کتابچه کد با ورود دادهها به فایل کامپیوتر رفع نمیشود. کتابچه کد مانند پروندهای است که چگونگی ساخته شدن دادهها را نشان میدهد. هر زمان ممکن است این سؤال پیش آید که یک متغیر چگونه ساخته شده است یا چگونه میتوان از آن در تحلیل استفاده کرد؛ محقق میتواند با مراجعه به کتابچه کد از آن کمک بگیرد.[12]
3. وارد کردن دادهها؛ پس از آنکه دادهها به منظور درستی و جامعیت آنها، غربال شدند و محقق یک پایگاه دادهها با ساختاربندی خوب و یک کتاب کد مفصل ایجاد نمود، وارد کردن دادهها باید کاملاً سرراست باشد. یک راه برای اطمینانیابی از وارد کردن صحیح دادهها دوشناسهای (Double-Entry) است. در شیوه دوشناسهای، دادهها در پایگاه دادهها دو بار وارد میشوند و سپس برای تعیین اینکه آیا بین آنها اختلافی هست یا نه، مقایسه میشوند.[13]
4. تعریف ارزشهای گمشده؛ وجود مقادیر مفقودی در تمام پایگاههای دادهها و اکثر متغیرها غیرقابل اجتناب است. این مسأله میتواند بهعلت ضعف افراد تحت مطالعه در پاسخگویی به سؤالات، مشاهدههای از قلم افتاده، یا دادههای نادرستی که از پایگاههای دادهها پس زده شدهاند، باشد.
حقیقتاً تمام پایگاههای دادهها، برخی مقادیر مفقودی دارند. متأسفانه تحلیل آماری مجموعه دادهها، با مقادیر مفقودی، میتواند باعث تورّش[14] نتایج و تأثیرات نادرست شود. اگرچه برای اسناد مقادیر مفقودی فنون زیادی پیشنهاد شده، اما بحث بر سر مناسبترین فنون در آمار معاصر است. رایجترین فنون اسناد عبارتاند از:
الف) اسناد دسته داغ (دست اول): در این فن اسناد، محقق افراد تحت مطالعه را برای شناسایی نهایی، بر روی مقادیر خاصی همتا میکند. سپس مقادیر مفقودی، با استفاده از مقادیری که از مطالعهشوندگان همتا شده بهدست آمدهاند، (یعنی مطالعهشوندگانی که در مجموعهای از عوامل مرتبط همتا شدهاند) جایگزین میشوند.
ب) اسناد میانگین پیشبینی شده: مقادیر اسنادی با استفاده از رویههای آماری خاصی پیشبینی میشوند (یعنی رگرسیون خطی برای دادههای پیوسته و عملکرد افتراقی برای دادههای دو ارزشی یا دو حالتی).
ج) حمل آخرین مقدار به جلو: مقادیر اسنادی بر اساس مقادیر مشاهده شده قبلی است. از این روش تنها برای متغیرهای طولی استفاده میشود که مقادیر آنها به ازای هر پاسخ دهنده از نقاط گردآوری دادههای قبلی مشخص است.
د) میانگین گروه: مقادیر اسنادی از طریق محاسبه گروه متغیر (یا نما، در مورد دادههای مقولهای) تعیین میشود.[15]
5. اصلاح دادهها؛ صرفنظر از میزان دقت هنگام ورود دادهها، احتمال خطا همواره وجود دارد؛ بنابراین بازبینی دادهها یک ضرورت است. مواردی چون خالی گذاشتن یک سطر یا ستون، جابجایی یک متغیر، وارد کردن یک کاراکتر الفبایی بهجای کاراکتر عددی و بالعکس، از موارد اشتباه است که چهبسا در مرحله تجزیه و تحلیل سبب خطاهای اساسی شود.[16]
6. تبدیل کردن دادهها؛ پس از اینکه دادهها وارد و برای اشتباهات کنترل شدند، محقق یا کارکنان ورود دادهها بدون تردید ملزم خواهند شد که قبل از تحلیل دادهها، تبدیلهای خاصی را اعمال کنند. این تبدیلها نوعاً با موارد زیر سروکار دارد:
الف) محاسبه مجموع و متغیرهای جدید: در مواردی خاص، محقق میخواهد متغیرهای جدید را بر اساس مقادیری از سایر متغیرها بنا گذارد. برای مثال، فرض کنید که محقق دادههایی بر اساس مجموع تعداد دفعات حضور مشتریان در درمان خودشان، (دو درمان متفاوت در هر ماه) دارد. محقق مجموعی از چهار متغیر خواهد داشت، که هر کدام تعداد جلسات حضور هفتگی آنها را در اولین ماه درمان نشان میدهد. اگر آنها را q4، q3، q2، q1 بنامیم در صورتی که محقق بخواهد حضور مشتریان خود را با درمانهای متفاوت تحلیل کند، مجبور است یک متغیر جدید را محاسبه کند. این عمل با انتقال زیر انجام میشود:
مجموع= q4+q3+q2+q1
با وجود این، دلیل دیگری برای تبدیل متغیرها هست و آن اینکه امکان دارد متغیرها بهطور نرمال توزیع نشده باشند.[17] زیرا «تجزیه و تحلیل متغیرهایی که به صورت نرمال تویع نشدهاند میتواند به زیادهبینی (خطای نوع اول) یا کمبینی (خطای نوع دوم) منجر شود.
اگرچه فرض بیشتر رویههای آماری این است که متغیرهای تحت تجزیه و تحلیل به صورت نرمال توزیع شدهاند. اما متأسفانه، بسیاری از متغیرها در علوم اجتماعی و در جامعه نمونه خاصی از توزیع نرمال برخوردار نیستند. بنابراین غالباً محققان برای اثبات احتمالی بهنجاری (نرمالیته) متغیرهای بهخصوص، به یکی از تبدیلها متکی هستند. پراستفادهترین تبدیلها عبارتاند از: تبدیل ریشه دوم، تبدیل لگاریتم، و تبدیل وارون.
ب) معکوس کردن اجزای مقیاس: بسیاری از ابزار و مقیاسها برای کاهش احتمال تنزل افراد تحت مطالعه که از آنها بهعنوان "مجموعه پاسخ" یاد میشود از معکوس کردن اجزای مقیاس استفاده میکنند. در اینجا مثالی از چگونگی معکوس عمل کردن اجزای مقیاس ارائه میشود: فرض میکنیم که در یک بررسی از افراد تحت مطالعه عباراتی را برای نشان دادن سطوح موافقت خود بر اساس 1 تا 5 سؤال میشود. در این بررسی، 1 مطابق با "کاملاً مخالف" و 5 مطابق با "کاملاً موافق" است. با وجود این، ممکن است محققی برای معکوس کردن اجزای مقیاس در بررسی تصمیم بگیرد که 1 مطابق با "کاملاً موافق" و 5 "مطابق مخالف" باشد. ممکن است این امر احتمال گرفتار شدن مطالعهشوندگان را در یک مجموعه پاسخ، کاهش دهد. قبل از اینکه دادهها بتوانند تجزیه و تحلیل شوند لازم است تمام اجزای معکوس ثبت شوند آن چنانکه پاسخها در یک جهت منظم شوند.
ج) ثبت متغیرها: ممکن است برخی متغیرها در صورتی که به صورت دستهبندی ثبت شده باشند برای تجزیه و تحلیل آسانتر باشند. بهطور مثال، یک محقق ممکن است مایل به در هم پاشیدگی تخمین درآمدی یا سنی در دامنهای بهخصوص باشد. این مثالی از برگشت یک متغیر پیوسته در متغیر مقولهای است. اگرچه امکان دارد نهایتاً متغیرهای پیوسته مقولهبندی شده خصوصیات خود را کاهش دهند، اما در برخی موارد ممکن است برای سادگی تحلیل و تعبیر دادهها، این امر مجاز باشد. در سایر موارد، شاید دستهبندی مجدد یا ثبت متغیرهای مقولهای از طریق تلفیق آنها در دستههای کوچک، لازم باشد. این مورد اغلب وقتی است که متغیرها دارای دستههای زیادی هستند و بهطور پراکنده در دستههای خاص قرار گرفتهاند. به طوری که ممکن است از فرضیههای تحلیل آماری خاصی تجاوز کنند. برای برطرف کردن این مسئله محقق شاید تلفیق یا فروپاشیدگی دستههای خاصی را گزینش کند.[18]
7. استخراج توزیع دادهها؛ برخی روششناسان، استخراج توزیع دادهها بهصورت جداول فراوانی را مرحله قبل از تجزیه و تحلیل میدانند[19] که نوعی دادهآمایی بهحساب میآید؛ و برخی برای این دستهبندی، استدلال میکنند که چون تحقیق در این مقطع (استخراج توزیع و جداول) به پایان نمیرسد بلکه در مرحله تجزیه و تحلیل است که فرآیند تحقیق پایان میپذیرد.[20] اما برخی آن را قدم اول مرحله تجزیه و تحلیل میدانند.[21] به نظر میرسد (فارغ از اینکه این تشتتها از چه ناشی میشود) جمع بین این دو نظریه به این است که در روشهای کمی که ارائه جداول توزیع و نمودارها خود نوعی تجزیه و تحلیل توصیفی است، این مرحله جزء تجزیه و تحلیل بهحساب میآید اما در روشهای کیفی و تأویلی و تفسیری که دادههای کمی را برای تفسیر بهکار میبرند، این مرحله مقدمه برای تجزیه و تحلیل است و لذا دادهآمایی بهحساب میآید.
دادهآمایی با نرمافزار SPSS
ویرایش دادهها در نرمافزار SPSS ابعاد مختلفی دارد که برخی از این قابلیتها در منوی "Edit" وجود دارد (مانند کم و اضافه کردن یک سطر یا ستون یا متغیر جدید و یا تغییر دادههای موجود در سطر یا ستونها[22]) و برخی در منوی "Transform" قرار دارند (مانند دستور بازسازی دادهها -Recoding- که با ترکیب دادههای موجود یک متغیر جدید میسازد؛ مثلاً متغیر درآمد به سه طبقه کم، متوسط و بالا طبقهبندی میشود[23]و یا ادغام مقولهها که در تحلیل محتوا کاربرد زیادی دارد، صورت میگیرد.[24]) و برخی در منوی "Data" قرار دارند. (مانند دستور "Sort Cases" که برای مرتب کردن دادهها به کار می رود.[25])
با مشاهده جداول فراوانی دادهها نیز میتوان به اصلاح آنها بهتر موفق شد. این جداول را با بررسی فرمان "Frequency"، از تمامی متغیرها جدول توزیع فراوانی گرفته میشود. این جداول را با فرمان "Print" بر روی صفحاتی منتشر میکنیم که در اصطلاح لیستینگ نامیده میشود.[26]