داده پردازی Data Processing

كلمات كليدي : داده، داده پردازي، دادهآمايي، كنترل داده ها، كدگذاري دادها

نویسنده : مصطفي همداني

داده‌پردازی از مراحل مسلّم در پژوهش علمی است که متأسفانه در بسیاری از منابع مورد توجه قرار نگرفته است، به عنوان مثال بسیاری از محققان (ازجمله، گال، گال و بورگ (Gall M.D, Gall J.P & Borg W.R)، 1996؛ و کرسول (Creswell)، 2002) شش گام اساسی در فرایند پژوهش را به شرح زیر ارائه می‌کنند:

1. بیان مسئله؛

2. مطالعه پیشینه‌ پژوهش؛

3. مشخص کردن هدف، فرضیات و سوالات تحقیق؛

4. جمع‌آوری اطلاعات؛

5. تحلیل و تفسیر اطلاعات؛

6. گزارش و ارزشیابی تحقیق.^{^[1]}

همانطور که دیده می‌شود، در این سلسله مراحل، جایی برای مرحله مهم "داده‌پردازی" که بین دو مرحله‌ جمع‌آوری اطلاعات و تحلیل و تفسیر اطلاعات است قرار داده نشده است؛ اما در منابع اصیل و معتبر معمولاً به این تفکیک توجه کافی مبذول شده است.[2]

هدف از داده‌پردازی

هدف اصلی از پردازش، پالایش داده‌هاست. در اینجا تلاش می‌شود داده‌ها مورد بازبینی و کنترل قرار گیرند. در مرحله گردآوری داده‌ها ممکن است داده‌های نامناسب نیز آشکار شوند. شناسایی و حذف این نوع داده‌ها در این مرحله انجام می‌شود.[3]

مراحل داده‌پردازی

فرآیند داده‌پردازی دارای مراحل زیر است که جز مرحله ویرایش و کدگذاری،‌ بقیه کارها را می‌توان با نرم‌افزار SPSS انجام داد:[4]

1. کنترل؛ منظور از کنترل آن است که محقق صحت و دقت داده‌های گردآوری شده را با هدف کشف و حذف خطاهای مشاهده مورد ارزیابی قرار می‌دهد و طی آن احتمالاً تعدادی از داده‌های خام را دور می‌ریزد و دوباره اقدام به گردآوری داده‌های تجربی مورد نیاز می‌کند. کنترل و کسب اطمینان از صحت داده‌های گردآوری شده از طریق هر نوع روشی ضروری است.[5] این مرحله را غربال کردن داده‌ها (Data Screening)هم نامگذاری کرده‌اند.[6]

برخی محققین، ‌پس از مرحله کنترل، مرحله زیر نیز را ذکر کرده‌اند:

ایجاد یک پایگاه داده‌ها؛ وقتی داده‌ها غربال شدند و تمام اصلاحات انجام گیرد، باید به پایگاه داده‌هایی با ساختار خوب وارد شوند. موقع طرح‌ریزی هر مطالعه،‌ محقق باید با دقت ساختار پایگاه داده‌ها و چگونگی استفاده از آن را در نظر بگیرد.[7] پایگاه داده عبارت است از ساختاری که متغیرها و داده‌ها را بشود برحسب نیاز در آن وارد نمود. این نیازها در نرم‌افزار به طور پیش‌فرض وجود دارد.

2. کدگذاری (Coding)؛ در پژوهش‌هایی مثل پیمایش اجتماعی پس از تکمیل و جمع‌آوری پرسش‌نامه‌ها و کنترل پاسخ‌ها مرحله کدگذاری آغاز می‌شود. کدگذاری روشی است که به‌وسیله آن پاسخ‌های سوالات ابزار جمع‌آوری اطلاعات، ‌مثل پرسش‌نامه، ‌به صورت عدد درمی‌آیند. در اینجا معنی پاسخ‌ها به زبان عدد بیان می‌شود. معنی اعداد نسبت داده شده به پاسخ‌ها برحسب سطوح سنجش آن‌ها متفاوت است. اعداد یا کدهای نسبت داده شده به پاسخ‌های مربوط به متغیرهای اسمی،‌ فقط بیانگر نام یا علامت مقوله هستند و قابلیت پذیرش عملیات ریاضی را ندارند؛‌ برای مثال جنسیت: 1) مرد؛ ‌2) زن. معنی اعداد یا کدهای نسبت داده شده به متغیرهای ترتیبی بیانگر جایگاه اشیاء یا افراد در پیوستاری از کم تا زیاد است. مثال:‌ نگرش سیاسی: 4) کاملاً موافق؛ 3) موافق؛ 2) مخالف؛ 1) کاملاً مخالف؛ 0) بی‌‌نظر.

متغیرهای فاصله‌ای به کدگذاری نیاز ندارند. در این نوع متغیرها تعداد واحدهای اندازه‌گیری با مقدار صفت افراد یا اشیاء و فاصله بین اعداد (واحدها) ‌باهم برابر است؛‌ برای مثال فاصله 16 و 17 برابر فاصله 12 و 13 است. البته برحسب ضرورت می‌توان متغیرهای فاصله‌ای را از طریق گروه‌بندی به متغیر ترتیبی یا رتبه‌ای تبدیل کرد.[8] در پیمایش، معمولاً پردازش در حد همین کدگذاری جواب‌ها و انتقال آن‌ها به رایانه است.[9] در انواع تحلیل محتوا، متغیرهای کیفی در این مرحله به کمی تبدیل می‌شوند؛ به این معنی که «محتوای آشکار پیام‌های ارتباطی به‌صورت کمّی طبقه‌بندی می‌شود و واحدهای تحلیل به‌صورت عدد درمی‌آید.»[10] و در انواعی از پیمایش‌ها نیز ممکن است متغیرهای کمی به کیفی تبدیل شوند.

لازم است قبل از کدگذاری،‌ "کتاب کد داده‌ها" (Data Codebook) تهیه شود و اکنون هم که مرحله پیاده کردن کدگذاری است،‌ بر اساس همان دفترچه عمل شود و در پایان داده‌پردازی که به مرحله بازبینی می‌رسیم و نیز در آینده هم که نیاز به بررسی‌های دیگر شود، همین دفترچه بسیار ضروری است.

کتاب داده‌ها یک فهرست ارائه شده نوشتاری یا کامپیوتری است که شامل توصیف جامع و واضحی از متغیرهای پایگاه داده‌ها است.

کتاب کد داده‌ها باید شامل اجزای زیر برای هر متغیر باشد:

- نام متغیر

- توصیف متغیر

- قابل متغیر (شماره، داده‌ها، متن)

- ابزار یا روش گردآوری

- مطالعه‌شونده یا گروه

- محل متغیر (در پایگاه داده‌ها)

- یادداشت[11]

باید توجه کرد که نیاز به یک کتابچه کد با ورود داده‌ها به فایل کامپیوتر رفع نمی‌شود. کتابچه کد مانند پرونده‌‌ای است که چگونگی ساخته شدن داده‌ها را نشان می‌دهد. هر زمان ممکن است این سؤال پیش آید که یک متغیر چگونه ساخته شده است یا چگونه می‌توان از آن در تحلیل استفاده کرد؛ محقق می‌تواند با مراجعه به کتابچه کد از آن کمک بگیرد.[12]

3. وارد کردن داده‌ها؛ پس از آنکه داده‌ها به منظور درستی و جامعیت آن‌ها، غربال شدند و محقق یک پایگاه داده‌ها با ساختاربندی خوب و یک کتاب کد مفصل ایجاد نمود، وارد کردن داده‌ها باید کاملاً سرراست باشد. یک راه برای اطمینان‌یابی از وارد کردن صحیح داده‌ها دو‌شناسه‌ای (Double-Entry) است. در شیوه دوشناسه‌ای، داده‌ها در پایگاه داده‌ها دو بار وارد می‌شوند و سپس برای تعیین اینکه آیا بین ‌آن‌ها اختلافی هست یا نه، مقایسه می‌شوند.[13]

4. تعریف ارزش‌های گمشده؛ وجود مقادیر مفقودی در تمام پایگاه‌های داده‌ها و اکثر متغیرها غیرقابل اجتناب است. این مسأله می‌تواند به‌علت ضعف افراد تحت مطالعه در پاسخگویی به سؤالات، مشاهده‌های از قلم افتاده، یا داده‌های نادرستی که از پایگاه‌های داده‌ها پس زده شده‌اند، باشد.

حقیقتاً تمام پایگاه‌های داده‌‌ها، برخی مقادیر مفقودی دارند. متأسفانه تحلیل آماری مجموعه داده‌ها، با مقادیر مفقودی، می‌تواند باعث تورّش^{^[14]} نتایج و تأثیرات نادرست شود. اگر‌چه برای اسناد مقادیر مفقودی فنون زیادی پیشنهاد شده، اما بحث بر سر مناسب‌ترین فنون در آمار معاصر است. رایج‌ترین فنون اسناد عبارت‌اند از:

الف) اسناد دسته داغ (دست اول): در این فن اسناد،‌ محقق افراد تحت مطالعه را برای شناسایی نهایی، بر روی مقادیر خاصی همتا می‌کند. سپس مقادیر مفقودی، با استفاده از مقادیری که از مطالعه‌شوندگان همتا شده به‌دست آمده‌اند، (یعنی مطالعه‌شوندگانی که در مجموعه‌ای از عوامل مرتبط همتا شده‌اند) جایگزین می‌شوند.

ب) اسناد میانگین پیش‌بینی شده: مقادیر اسنادی با استفاده از رویه‌های آماری خاصی پیش‌بینی می‌شوند (یعنی رگرسیون خطی برای داده‌های پیوسته و عملکرد افتراقی برای داده‌های دو ارزشی یا دو حالتی).

ج) حمل آخرین مقدار به جلو: مقادیر اسنادی بر اساس مقادیر مشاهده شده قبلی است. از این روش تنها برای متغیرهای طولی استفاده می‌شود که مقادیر آن‌ها به ازای هر پاسخ ‌دهنده از نقاط گردآوری داده‌های قبلی مشخص است.

د) میانگین گروه: مقادیر اسنادی از طریق محاسبه گروه متغیر (یا نما، در مورد داده‌های مقوله‌ای) تعیین می‌شود.[15]

5. اصلاح داده‌ها؛ صرف‌نظر از میزان دقت هنگام ورود داده‌ها، احتمال خطا همواره وجود دارد؛ ‌بنابراین بازبینی داده‌ها یک ضرورت است. مواردی چون خالی گذاشتن یک سطر یا ستون، ‌جابجایی یک متغیر، وارد کردن یک کاراکتر الفبایی به‌جای کاراکتر عددی و بالعکس، از موارد اشتباه است که چه‌بسا در مرحله تجزیه و تحلیل سبب خطاهای اساسی شود.[16]

6. تبدیل کردن داده‌ها؛ پس از اینکه داده‌ها وارد و برای اشتباهات کنترل شدند، محقق یا کارکنان ورود داده‌ها بدون تردید ملزم خواهند شد که قبل از تحلیل داده‌ها، تبدیل‌های خاصی را اعمال کنند. این تبدیل‌ها نوعاً با موارد زیر سروکار دارد:

الف) محاسبه مجموع و متغیرهای جدید: در مواردی خاص، محقق می‌خواهد متغیرهای جدید را بر اساس مقادیری از سایر متغیرها بنا گذارد. برای مثال، فرض کنید که محقق داده‌هایی بر اساس مجموع تعداد دفعات حضور مشتریان در درمان خودشان، (دو درمان متفاوت در هر ماه) دارد. محقق مجموعی از چهار متغیر خواهد داشت، که هر کدام تعداد جلسات حضور هفتگی آن‌ها را در اولین ماه درمان نشان می‌دهد. اگر آن‌ها را q4، q3، q2، q1 بنامیم در صورتی که محقق بخواهد حضور مشتریان خود را با درمان‌های متفاوت تحلیل کند، مجبور است یک متغیر جدید را محاسبه کند. این عمل با انتقال زیر انجام می‌شود:

مجموع= q4+q3+q2+q1

با وجود این، دلیل دیگری برای تبدیل متغیرها هست و آن اینکه امکان دارد متغیرها به‌طور نرمال توزیع نشده باشند.[17] زیرا «تجزیه و تحلیل متغیرهایی که به صورت نرمال تویع نشده‌اند می‌تواند به زیاده‌بینی (خطای نوع اول)‌ یا کم‌بینی (خطای نوع دوم) منجر شود.

اگرچه فرض بیشتر رویه‌های آماری این است که متغیرهای تحت تجزیه و تحلیل به صورت نرمال توزیع شده‌اند. اما‌ متأسفانه، بسیاری از متغیرها در علوم اجتماعی و در جامعه نمونه خاصی از توزیع نرمال برخوردار نیستند. بنابراین غالباً محققان برای اثبات احتمالی بهنجاری (نرمالیته) متغیرهای به‌خصوص، به یکی از تبدیل‌ها متکی هستند. پراستفاده‌ترین تبدیل‌ها عبارت‌اند از: تبدیل ریشه دوم، تبدیل لگاریتم، و تبدیل وارون.

ب) معکوس کردن اجزای مقیاس: بسیاری از ابزار و مقیاس‌ها برای کاهش احتمال تنزل افراد تحت مطالعه که از آن‌ها به‌عنوان "مجموعه‌ پاسخ" یاد می‌شود از معکوس کردن اجزای مقیاس استفاده می‌کنند. در اینجا مثالی از چگونگی معکوس عمل کردن اجزای مقیاس ارائه می‌شود: فرض می‌کنیم که در یک بررسی از افراد تحت مطالعه عباراتی را برای نشان دادن سطوح موافقت خود بر اساس 1 تا 5 سؤال می‌شود. در این بررسی، 1 مطابق با "کاملاً مخالف" و 5 مطابق با "کاملاً موافق" است. با وجود این، ممکن است محققی برای معکوس کردن اجزای مقیاس در بررسی تصمیم بگیرد که 1 مطابق با "کاملاً موافق" و 5 "مطابق مخالف" باشد. ممکن است این امر احتمال گرفتار شدن مطالعه‌شوندگان را در یک مجموعه پاسخ، کاهش دهد. قبل از اینکه داده‌ها بتوانند تجزیه و تحلیل شوند لازم است تمام اجزای معکوس ثبت شوند آن‌ چنان‌که پاسخ‌ها در یک جهت منظم شوند.

ج) ثبت متغیرها: ممکن است برخی متغیرها در صورتی که به صورت دسته‌بندی ثبت شده باشند برای تجزیه و تحلیل آسان‌تر باشند. به‌طور مثال،‌ یک محقق ممکن است مایل به در هم پاشیدگی تخمین درآمدی یا سنی در دامنه‌ای به‌خصوص باشد. این مثالی از برگشت یک متغیر پیوسته در متغیر مقوله‌ای است. اگرچه امکان دارد نهایتاً متغیرهای پیوسته مقوله‌بندی شده خصوصیات خود را کاهش دهند، اما در برخی موارد ممکن است برای سادگی تحلیل و تعبیر داده‌ها، این امر مجاز باشد. در سایر موارد، شاید دسته‌بندی مجدد یا ثبت متغیرهای مقوله‌ای از طریق تلفیق آن‌ها در دسته‌های کوچک، لازم باشد. این مورد اغلب وقتی است که متغیرها دارای دسته‌های زیادی هستند و به‌طور پراکنده در دسته‌های خاص قرار گرفته‌اند. به طوری که ممکن است از فرضیه‌های تحلیل آماری خاصی تجاوز کنند. برای برطرف کردن این مسئله محقق شاید تلفیق یا فروپاشیدگی دسته‌های خاصی را گزینش کند.[18]

7. استخراج توزیع داده‌ها؛ برخی روش‌شناسان، استخراج توزیع داده‌ها به‌صورت جداول فراوانی را مرحله قبل از تجزیه و تحلیل می‌دانند[19] که نوعی داده‌آمایی به‌حساب می‌آید؛ و برخی برای این دسته‌بندی، استدلال می‌کنند که چون تحقیق در این مقطع (استخراج توزیع و جداول) به پایان نمی‌رسد بلکه در مرحله تجزیه و تحلیل است که فرآیند تحقیق پایان می‌پذیرد.[20] اما برخی آن را قدم اول مرحله تجزیه و تحلیل می‌دانند.[21] به نظر می‌رسد (فارغ از اینکه این تشتت‌ها از چه ناشی می‌شود) جمع بین این دو نظریه به این است که در روش‌های کمی که ارائه جداول توزیع و نمودارها خود نوعی تجزیه و تحلیل توصیفی است، این مرحله جزء تجزیه و تحلیل به‌حساب می‌آید اما در روش‌های کیفی و تأویلی و تفسیری که داده‌های کمی را برای تفسیر به‌کار می‌برند، این مرحله مقدمه برای تجزیه و تحلیل است و لذا داده‌آمایی به‌حساب می‌آید.

داده‌آمایی با نرم‌افزار SPSS

ویرایش داده‌ها در نرم‌افزار SPSS ابعاد مختلفی دارد که برخی از این قابلیت‌ها در منوی "Edit" وجود دارد (مانند کم و اضافه کردن یک سطر یا ستون یا متغیر جدید و یا تغییر داده‌های موجود در سطر یا ستون‌ها[22]) و برخی در منوی "Transform" قرار دارند (مانند دستور بازسازی داده‌ها -Recoding- که با ترکیب داده‌های موجود یک متغیر جدید می‌سازد؛ مثلاً متغیر درآمد به سه طبقه کم، متوسط و بالا طبقه‌بندی می‌شود[23]و یا ادغام مقوله‌ها که در تحلیل محتوا کاربرد زیادی دارد، ‌صورت می‌گیرد.[24]) و برخی در منوی "Data" قرار دارند. (مانند دستور "Sort Cases" که برای مرتب کردن داده‌ها به کار می رود.[25])

با مشاهده جداول فراوانی داده‌ها نیز می‌توان به اصلاح آن‌ها بهتر موفق شد. این جداول را با بررسی فرمان "Frequency"، از تمامی متغیرها جدول توزیع فراوانی گرفته می‌شود. این جداول را با فرمان "Print" بر روی صفحاتی منتشر می‌کنیم که در اصطلاح لیستینگ نامیده می‌شود.[26]

منابع :

[1]. لطف آبادی، حسین؛ روش‌شناسی پژوهش در روان‌شناسی و علوم تربیتی، قم، پژوهشگاه حوزه و دانشگاه، 1388،‌ چاپ اول، ص12.

[2]. رجوع شود به:

‌أ. ساعی، علی؛ روش تحقیق در علوم اجتماعی، تهران، سمت، 1387، چاپ دوم، ص108.

‌ب. ساروخانی، باقر؛ روش‌های تحقیق در علوم اجتماعی، تهران، پژوهشگاه علوم انسانی و مطالعات فرهنگی، 1388، چاپ شانزدهم، ج2، ص403.

‌ج. ببی، ارل؛ روش‌های تحقیق در علوم اجتماعی، رضا فاضل، تهران، 1385، سمت، چاپ سوم، ج 1، ص234.

[3]. ساعی، علی؛ پیشین، ص108.

[4]. همان.

[5]. ساعی، علی؛ پیشین، ص109-108.

[6]. مارکزیک، جوفری و دماتئو، دیوید و فستینگر، دیوید؛ اصول طرح تحقیق و روش‌شناسی، مریم خسروی، تهران، پژوهشگاه اطلاعات و مدارک علمی ایران، 1386، چاپ اول،‌ ص270.

[7]. همان، ص272-271.

[8]. ساعی، علی؛ پیشین، ص109-108.

[9]. ببی، ارل؛ پیشین، ج 1، ص234.

[10]. ساعی، علی؛ پیشین، ص179.

[11]. مارکزیک، جوفری و دماتئو، دیوید و فستینگر، دیوید؛ پیشین، ‌ص273- 272.

[12]. بیابانگرد، اسماعیل؛ روش‌های تحقیق در روان‌شناسی و علوم تربیتی، تهران، دوران، 1388، چاپ چهارم، ج 1، ص364.

[13]. مارکزیک، جوفری و دماتئو، دیوید و فستینگر، دیوید؛ پیشین، ‌ص274-273.

[14]. تورش، اصطلاحی آماری و معادل Bias است که به معنای اریب، خطا و سوگیری در نمونه‌گیری یا تحلیل و استنتاج می‌باشد.

[15]. مارکزیک، جوفری و دماتئو، دیوید و فستینگر، دیوید؛ پیشین، ص257-255.

[16]. بیابانگرد، اسماعیل؛ پیشین، ص365.

[17]. مارکزیک، جوفری و دماتئو، دیوید و فستینگر، دیوید؛ پیشین، ‌ص276.

[18]. همان، ‌ص279-281.

[19]. حافظ‌نیا، محمدرضا؛ مقدمه‌ای بر روش تحقیق در علوم انسانی، تهران، 1386، سمت، چاپ سیزدهم، ص229.

[20]. ساروخانی، باقر؛ پیشین، ج2، ص404.

[21]. کیوی، ریمون و کامپنهود، لوک وان؛ روش تحقیق در علوم اجتماعی، عبدالحسین نیک‌گهر، تهران، توتیا، 1389، چاپ پنجم، ص229- 228.

[22]. کیانی، مژده؛ کاربرد کامپیوتر در علوم اجتماعی، تهران، انتشارات دانشگاه پیام نور، 1386، چاپ دوم، ص88.

[23]. همان، ص110.

[24]. محمدی‌مهر، غلامرضا؛ روش تحلیل محتوا (راهنمای‌عملی‌تحقیق)، تهران، دانش‌نگار، 1387، چاپ اول، ص150.

[25]. کیانی، مژده؛ پیشین، ص107-106.

[26]. محمدی‌مهر، غلامرضا؛ پیشین، ص147.