دانشنامه پژوهه بزرگترین بانک مقالات علوم انسانی و اسلامی

داده پردازی Data Processing

No image
داده پردازی Data Processing

كلمات كليدي : داده، داده پردازي، دادهآمايي، كنترل داده ها، كدگذاري دادها

نویسنده : مصطفي همداني

داده‌پردازی از مراحل مسلّم در پژوهش علمی است که متأسفانه در بسیاری از منابع مورد توجه قرار نگرفته است، به عنوان مثال بسیاری از محققان (ازجمله، گال، گال و بورگ (Gall M.D, Gall J.P & Borg W.R)، 1996؛ و کرسول (Creswell)، 2002) شش گام اساسی در فرایند پژوهش را به شرح زیر ارائه می‌کنند:

1. بیان مسئله؛

2. مطالعه پیشینه‌ پژوهش؛

3. مشخص کردن هدف، فرضیات و سوالات تحقیق؛

4. جمع‌آوری اطلاعات؛

5. تحلیل و تفسیر اطلاعات؛

6. گزارش و ارزشیابی تحقیق.[1]

همانطور که دیده می‌شود، در این سلسله مراحل، جایی برای مرحله مهم "داده‌پردازی" که بین دو مرحله‌ جمع‌آوری اطلاعات و تحلیل و تفسیر اطلاعات است قرار داده نشده است؛ اما در منابع اصیل و معتبر معمولاً به این تفکیک توجه کافی مبذول شده است.[2]

هدف از داده‌پردازی

هدف اصلی از پردازش، پالایش داده‌هاست. در اینجا تلاش می‌شود داده‌ها مورد بازبینی و کنترل قرار گیرند. در مرحله گردآوری داده‌ها ممکن است داده‌های نامناسب نیز آشکار شوند. شناسایی و حذف این نوع داده‌ها در این مرحله انجام می‌شود.[3]

مراحل داده‌پردازی

فرآیند داده‌پردازی دارای مراحل زیر است که جز مرحله ویرایش و کدگذاری،‌ بقیه کارها را می‌توان با نرم‌افزار SPSS انجام داد:[4]

1. کنترل؛ منظور از کنترل آن است که محقق صحت و دقت داده‌های گردآوری شده را با هدف کشف و حذف خطاهای مشاهده مورد ارزیابی قرار می‌دهد و طی آن احتمالاً تعدادی از داده‌های خام را دور می‌ریزد و دوباره اقدام به گردآوری داده‌های تجربی مورد نیاز می‌کند. کنترل و کسب اطمینان از صحت داده‌های گردآوری شده از طریق هر نوع روشی ضروری است.[5] این مرحله را غربال کردن داده‌ها (Data Screening)هم نامگذاری کرده‌اند.[6]

برخی محققین، ‌پس از مرحله کنترل، مرحله زیر نیز را ذکر کرده‌اند:

ایجاد یک پایگاه داده‌ها؛ وقتی داده‌ها غربال شدند و تمام اصلاحات انجام گیرد، باید به پایگاه داده‌هایی با ساختار خوب وارد شوند. موقع طرح‌ریزی هر مطالعه،‌ محقق باید با دقت ساختار پایگاه داده‌ها و چگونگی استفاده از آن را در نظر بگیرد.[7] پایگاه داده عبارت است از ساختاری که متغیرها و داده‌ها را بشود برحسب نیاز در آن وارد نمود. این نیازها در نرم‌افزار به طور پیش‌فرض وجود دارد.

2. کدگذاری (Coding)؛ در پژوهش‌هایی مثل پیمایش اجتماعی پس از تکمیل و جمع‌آوری پرسش‌نامه‌ها و کنترل پاسخ‌ها مرحله کدگذاری آغاز می‌شود. کدگذاری روشی است که به‌وسیله آن پاسخ‌های سوالات ابزار جمع‌آوری اطلاعات، ‌مثل پرسش‌نامه، ‌به صورت عدد درمی‌آیند. در اینجا معنی پاسخ‌ها به زبان عدد بیان می‌شود. معنی اعداد نسبت داده شده به پاسخ‌ها برحسب سطوح سنجش آن‌ها متفاوت است. اعداد یا کدهای نسبت داده شده به پاسخ‌های مربوط به متغیرهای اسمی،‌ فقط بیانگر نام یا علامت مقوله هستند و قابلیت پذیرش عملیات ریاضی را ندارند؛‌ برای مثال جنسیت: 1) مرد؛ ‌2) زن. معنی اعداد یا کدهای نسبت داده شده به متغیرهای ترتیبی بیانگر جایگاه اشیاء یا افراد در پیوستاری از کم تا زیاد است. مثال:‌ نگرش سیاسی: 4) کاملاً موافق؛ 3) موافق؛ 2) مخالف؛ 1) کاملاً مخالف؛ 0) بی‌‌نظر.

متغیرهای فاصله‌ای به کدگذاری نیاز ندارند. در این نوع متغیرها تعداد واحدهای اندازه‌گیری با مقدار صفت افراد یا اشیاء و فاصله بین اعداد (واحدها) ‌باهم برابر است؛‌ برای مثال فاصله 16 و 17 برابر فاصله 12 و 13 است. البته برحسب ضرورت می‌توان متغیرهای فاصله‌ای را از طریق گروه‌بندی به متغیر ترتیبی یا رتبه‌ای تبدیل کرد.[8] در پیمایش، معمولاً پردازش در حد همین کدگذاری جواب‌ها و انتقال آن‌ها به رایانه است.[9] در انواع تحلیل محتوا، متغیرهای کیفی در این مرحله به کمی تبدیل می‌شوند؛ به این معنی که «محتوای آشکار پیام‌های ارتباطی به‌صورت کمّی طبقه‌بندی می‌شود و واحدهای تحلیل به‌صورت عدد درمی‌آید.»[10] و در انواعی از پیمایش‌ها نیز ممکن است متغیرهای کمی به کیفی تبدیل شوند.

لازم است قبل از کدگذاری،‌ "کتاب کد داده‌ها" (Data Codebook) تهیه شود و اکنون هم که مرحله پیاده کردن کدگذاری است،‌ بر اساس همان دفترچه عمل شود و در پایان داده‌پردازی که به مرحله بازبینی می‌رسیم و نیز در آینده هم که نیاز به بررسی‌های دیگر شود، همین دفترچه بسیار ضروری است.

کتاب داده‌ها یک فهرست ارائه شده نوشتاری یا کامپیوتری است که شامل توصیف جامع و واضحی از متغیرهای پایگاه داده‌ها است.

کتاب کد داده‌ها باید شامل اجزای زیر برای هر متغیر باشد:

- نام متغیر

- توصیف متغیر

- قابل متغیر (شماره، داده‌ها، متن)

- ابزار یا روش گردآوری

- مطالعه‌شونده یا گروه

- محل متغیر (در پایگاه داده‌ها)

- یادداشت[11]

باید توجه کرد که نیاز به یک کتابچه کد با ورود داده‌ها به فایل کامپیوتر رفع نمی‌شود. کتابچه کد مانند پرونده‌‌ای است که چگونگی ساخته شدن داده‌ها را نشان می‌دهد. هر زمان ممکن است این سؤال پیش آید که یک متغیر چگونه ساخته شده است یا چگونه می‌توان از آن در تحلیل استفاده کرد؛ محقق می‌تواند با مراجعه به کتابچه کد از آن کمک بگیرد.[12]

3. وارد کردن داده‌ها؛ پس از آنکه داده‌ها به منظور درستی و جامعیت آن‌ها، غربال شدند و محقق یک پایگاه داده‌ها با ساختاربندی خوب و یک کتاب کد مفصل ایجاد نمود، وارد کردن داده‌ها باید کاملاً سرراست باشد. یک راه برای اطمینان‌یابی از وارد کردن صحیح داده‌ها دو‌شناسه‌ای (Double-Entry) است. در شیوه دوشناسه‌ای، داده‌ها در پایگاه داده‌ها دو بار وارد می‌شوند و سپس برای تعیین اینکه آیا بین ‌آن‌ها اختلافی هست یا نه، مقایسه می‌شوند.[13]

4. تعریف ارزش‌های گمشده؛ وجود مقادیر مفقودی در تمام پایگاه‌های داده‌ها و اکثر متغیرها غیرقابل اجتناب است. این مسأله می‌تواند به‌علت ضعف افراد تحت مطالعه در پاسخگویی به سؤالات، مشاهده‌های از قلم افتاده، یا داده‌های نادرستی که از پایگاه‌های داده‌ها پس زده شده‌اند، باشد.

حقیقتاً تمام پایگاه‌های داده‌‌ها، برخی مقادیر مفقودی دارند. متأسفانه تحلیل آماری مجموعه داده‌ها، با مقادیر مفقودی، می‌تواند باعث تورّش[14] نتایج و تأثیرات نادرست شود. اگر‌چه برای اسناد مقادیر مفقودی فنون زیادی پیشنهاد شده، اما بحث بر سر مناسب‌ترین فنون در آمار معاصر است. رایج‌ترین فنون اسناد عبارت‌اند از:

الف) اسناد دسته داغ (دست اول): در این فن اسناد،‌ محقق افراد تحت مطالعه را برای شناسایی نهایی، بر روی مقادیر خاصی همتا می‌کند. سپس مقادیر مفقودی، با استفاده از مقادیری که از مطالعه‌شوندگان همتا شده به‌دست آمده‌اند، (یعنی مطالعه‌شوندگانی که در مجموعه‌ای از عوامل مرتبط همتا شده‌اند) جایگزین می‌شوند.

ب) اسناد میانگین پیش‌بینی شده: مقادیر اسنادی با استفاده از رویه‌های آماری خاصی پیش‌بینی می‌شوند (یعنی رگرسیون خطی برای داده‌های پیوسته و عملکرد افتراقی برای داده‌های دو ارزشی یا دو حالتی).

ج) حمل آخرین مقدار به جلو: مقادیر اسنادی بر اساس مقادیر مشاهده شده قبلی است. از این روش تنها برای متغیرهای طولی استفاده می‌شود که مقادیر آن‌ها به ازای هر پاسخ ‌دهنده از نقاط گردآوری داده‌های قبلی مشخص است.

د) میانگین گروه: مقادیر اسنادی از طریق محاسبه گروه متغیر (یا نما، در مورد داده‌های مقوله‌ای) تعیین می‌شود.[15]

5. اصلاح داده‌ها؛ صرف‌نظر از میزان دقت هنگام ورود داده‌ها، احتمال خطا همواره وجود دارد؛ ‌بنابراین بازبینی داده‌ها یک ضرورت است. مواردی چون خالی گذاشتن یک سطر یا ستون، ‌جابجایی یک متغیر، وارد کردن یک کاراکتر الفبایی به‌جای کاراکتر عددی و بالعکس، از موارد اشتباه است که چه‌بسا در مرحله تجزیه و تحلیل سبب خطاهای اساسی شود.[16]

6. تبدیل کردن داده‌ها؛ پس از اینکه داده‌ها وارد و برای اشتباهات کنترل شدند، محقق یا کارکنان ورود داده‌ها بدون تردید ملزم خواهند شد که قبل از تحلیل داده‌ها، تبدیل‌های خاصی را اعمال کنند. این تبدیل‌ها نوعاً با موارد زیر سروکار دارد:

الف) محاسبه مجموع و متغیرهای جدید: در مواردی خاص، محقق می‌خواهد متغیرهای جدید را بر اساس مقادیری از سایر متغیرها بنا گذارد. برای مثال، فرض کنید که محقق داده‌هایی بر اساس مجموع تعداد دفعات حضور مشتریان در درمان خودشان، (دو درمان متفاوت در هر ماه) دارد. محقق مجموعی از چهار متغیر خواهد داشت، که هر کدام تعداد جلسات حضور هفتگی آن‌ها را در اولین ماه درمان نشان می‌دهد. اگر آن‌ها را q4، q3، q2، q1 بنامیم در صورتی که محقق بخواهد حضور مشتریان خود را با درمان‌های متفاوت تحلیل کند، مجبور است یک متغیر جدید را محاسبه کند. این عمل با انتقال زیر انجام می‌شود:

مجموع= q4+q3+q2+q1

با وجود این، دلیل دیگری برای تبدیل متغیرها هست و آن اینکه امکان دارد متغیرها به‌طور نرمال توزیع نشده باشند.[17] زیرا «تجزیه و تحلیل متغیرهایی که به صورت نرمال تویع نشده‌اند می‌تواند به زیاده‌بینی (خطای نوع اول)‌ یا کم‌بینی (خطای نوع دوم) منجر شود.

اگرچه فرض بیشتر رویه‌های آماری این است که متغیرهای تحت تجزیه و تحلیل به صورت نرمال توزیع شده‌اند. اما‌ متأسفانه، بسیاری از متغیرها در علوم اجتماعی و در جامعه نمونه خاصی از توزیع نرمال برخوردار نیستند. بنابراین غالباً محققان برای اثبات احتمالی بهنجاری (نرمالیته) متغیرهای به‌خصوص، به یکی از تبدیل‌ها متکی هستند. پراستفاده‌ترین تبدیل‌ها عبارت‌اند از: تبدیل ریشه دوم، تبدیل لگاریتم، و تبدیل وارون.

ب) معکوس کردن اجزای مقیاس: بسیاری از ابزار و مقیاس‌ها برای کاهش احتمال تنزل افراد تحت مطالعه که از آن‌ها به‌عنوان "مجموعه‌ پاسخ" یاد می‌شود از معکوس کردن اجزای مقیاس استفاده می‌کنند. در اینجا مثالی از چگونگی معکوس عمل کردن اجزای مقیاس ارائه می‌شود: فرض می‌کنیم که در یک بررسی از افراد تحت مطالعه عباراتی را برای نشان دادن سطوح موافقت خود بر اساس 1 تا 5 سؤال می‌شود. در این بررسی، 1 مطابق با "کاملاً مخالف" و 5 مطابق با "کاملاً موافق" است. با وجود این، ممکن است محققی برای معکوس کردن اجزای مقیاس در بررسی تصمیم بگیرد که 1 مطابق با "کاملاً موافق" و 5 "مطابق مخالف" باشد. ممکن است این امر احتمال گرفتار شدن مطالعه‌شوندگان را در یک مجموعه پاسخ، کاهش دهد. قبل از اینکه داده‌ها بتوانند تجزیه و تحلیل شوند لازم است تمام اجزای معکوس ثبت شوند آن‌ چنان‌که پاسخ‌ها در یک جهت منظم شوند.

ج) ثبت متغیرها: ممکن است برخی متغیرها در صورتی که به صورت دسته‌بندی ثبت شده باشند برای تجزیه و تحلیل آسان‌تر باشند. به‌طور مثال،‌ یک محقق ممکن است مایل به در هم پاشیدگی تخمین درآمدی یا سنی در دامنه‌ای به‌خصوص باشد. این مثالی از برگشت یک متغیر پیوسته در متغیر مقوله‌ای است. اگرچه امکان دارد نهایتاً متغیرهای پیوسته مقوله‌بندی شده خصوصیات خود را کاهش دهند، اما در برخی موارد ممکن است برای سادگی تحلیل و تعبیر داده‌ها، این امر مجاز باشد. در سایر موارد، شاید دسته‌بندی مجدد یا ثبت متغیرهای مقوله‌ای از طریق تلفیق آن‌ها در دسته‌های کوچک، لازم باشد. این مورد اغلب وقتی است که متغیرها دارای دسته‌های زیادی هستند و به‌طور پراکنده در دسته‌های خاص قرار گرفته‌اند. به طوری که ممکن است از فرضیه‌های تحلیل آماری خاصی تجاوز کنند. برای برطرف کردن این مسئله محقق شاید تلفیق یا فروپاشیدگی دسته‌های خاصی را گزینش کند.[18]

7. استخراج توزیع داده‌ها؛ برخی روش‌شناسان، استخراج توزیع داده‌ها به‌صورت جداول فراوانی را مرحله قبل از تجزیه و تحلیل می‌دانند[19] که نوعی داده‌آمایی به‌حساب می‌آید؛ و برخی برای این دسته‌بندی، استدلال می‌کنند که چون تحقیق در این مقطع (استخراج توزیع و جداول) به پایان نمی‌رسد بلکه در مرحله تجزیه و تحلیل است که فرآیند تحقیق پایان می‌پذیرد.[20] اما برخی آن را قدم اول مرحله تجزیه و تحلیل می‌دانند.[21] به نظر می‌رسد (فارغ از اینکه این تشتت‌ها از چه ناشی می‌شود) جمع بین این دو نظریه به این است که در روش‌های کمی که ارائه جداول توزیع و نمودارها خود نوعی تجزیه و تحلیل توصیفی است، این مرحله جزء تجزیه و تحلیل به‌حساب می‌آید اما در روش‌های کیفی و تأویلی و تفسیری که داده‌های کمی را برای تفسیر به‌کار می‌برند، این مرحله مقدمه برای تجزیه و تحلیل است و لذا داده‌آمایی به‌حساب می‌آید.

داده‌آمایی با نرم‌افزار SPSS

ویرایش داده‌ها در نرم‌افزار SPSS ابعاد مختلفی دارد که برخی از این قابلیت‌ها در منوی "Edit" وجود دارد (مانند کم و اضافه کردن یک سطر یا ستون یا متغیر جدید و یا تغییر داده‌های موجود در سطر یا ستون‌ها[22]) و برخی در منوی "Transform" قرار دارند (مانند دستور بازسازی داده‌ها -Recoding- که با ترکیب داده‌های موجود یک متغیر جدید می‌سازد؛ مثلاً متغیر درآمد به سه طبقه کم، متوسط و بالا طبقه‌بندی می‌شود[23]و یا ادغام مقوله‌ها که در تحلیل محتوا کاربرد زیادی دارد، ‌صورت می‌گیرد.[24]) و برخی در منوی "Data" قرار دارند. (مانند دستور "Sort Cases" که برای مرتب کردن داده‌ها به کار می رود.[25])

با مشاهده جداول فراوانی داده‌ها نیز می‌توان به اصلاح آن‌ها بهتر موفق شد. این جداول را با بررسی فرمان "Frequency"، از تمامی متغیرها جدول توزیع فراوانی گرفته می‌شود. این جداول را با فرمان "Print" بر روی صفحاتی منتشر می‌کنیم که در اصطلاح لیستینگ نامیده می‌شود.[26]

مقاله

نویسنده مصطفي همداني

این موضوعات را نیز بررسی کنید:

جدیدترین ها در این موضوع

اهمیت شعار سلاح هسته‌ای ندادن در اذهان عمومی

اهمیت شعار سلاح هسته‌ای ندادن در اذهان عمومی

در تقابل ایران با اسرائیل و آمریکا، همیشه گزینه حمله اتمی چالش‌برانگیز بوده و هست. عده‌ای می‌گویند: وقتی آمریکا و اسرائیل به عنوان دشمن اصلی ما سلاح اتمی دارند و تجربه نشان‌داده، اگر لازم شود هیچ تعارفی در استفاده از آن ندارند، پس ما هم باید سلاح اتمی داشته باشیم.
باغ خسروشاهی

باغ خسروشاهی

کی از شبهاتی که در سال‌های اخیر سبب تحریف امام در ذهن نسل جوان شده است این ادعا است که برخی می‌گویند امام در باغ‌های بزرگ و مجلل اطراف جماران زندگی می‌کردند و بااین‌وجود در رسانه‌ها به مردم یک‌خانه کوچک و ساده به‌عنوان محیط زندگی ایشان نمایش داده می‌شد
دوگانه نهضت و نظام

دوگانه نهضت و نظام

برخی دوگانه‌ها را ابتدا درک نمی‌کنیم ولی به مرور که مشغول کاری علمی می‌شویم یا طرحی عملی را به پیش می‌بریم متوجه آن می‌شویم و بعد بر سر آن دو راهی به انتخابی خاص دست می‌زنیم.
چرا ظهور حاج قاسم، خارج از نظم جمهوری اسلامی امکان تاریخی ندارد؟

چرا ظهور حاج قاسم، خارج از نظم جمهوری اسلامی امکان تاریخی ندارد؟

شهید سلیمانی بی‌شک در زمره شخصیت‌هایی است که جامعه ایرانی بشدت از وی متأثر خواهد بود. احتمالاً در طول تاریخ هیچ بدرقه‌ای به میزان تشییع پیکر او شکوهمند نبوده است.
آب و برق مجانی می‌شود!

آب و برق مجانی می‌شود!

پر بازدیدترین ها

راههای رسیدن به آرامش روانی از نگاه قرآن

راههای رسیدن به آرامش روانی از نگاه قرآن

قرآن کریم که بزرگترین معجزه پیامبراکرم(ص) است و تمام آنچه را که بشر برای هدایت نیاز داشته ودر آن آمده است، کاملترین نسخه برای آرامش روح است.
تعامل اعراب مسلمان و ایرانیان ʆ) نقش امام حسن(ع) و امام حسین(ع) در فتح ایران

تعامل اعراب مسلمان و ایرانیان (6) نقش امام حسن(ع) و امام حسین(ع) در فتح ایران

این نوشتار در نقد سلسله مقالاتی است که فتح ایران توسط اعراب مسلمان را یکی از مقاطع تلخ تاریخ معرفی نموده‌اند.
چرا ظهور حاج قاسم، خارج از نظم جمهوری اسلامی امکان تاریخی ندارد؟

چرا ظهور حاج قاسم، خارج از نظم جمهوری اسلامی امکان تاریخی ندارد؟

شهید سلیمانی بی‌شک در زمره شخصیت‌هایی است که جامعه ایرانی بشدت از وی متأثر خواهد بود. احتمالاً در طول تاریخ هیچ بدرقه‌ای به میزان تشییع پیکر او شکوهمند نبوده است.
Powered by TayaCMS