دانشنامه پژوهه بزرگترین بانک مقالات علوم انسانی و اسلامی

داده پردازی Data Processing

No image
داده پردازی Data Processing

كلمات كليدي : داده، داده پردازي، دادهآمايي، كنترل داده ها، كدگذاري دادها

نویسنده : مصطفي همداني

داده‌پردازی از مراحل مسلّم در پژوهش علمی است که متأسفانه در بسیاری از منابع مورد توجه قرار نگرفته است، به عنوان مثال بسیاری از محققان (ازجمله، گال، گال و بورگ (Gall M.D, Gall J.P & Borg W.R)، 1996؛ و کرسول (Creswell)، 2002) شش گام اساسی در فرایند پژوهش را به شرح زیر ارائه می‌کنند:

1. بیان مسئله؛

2. مطالعه پیشینه‌ پژوهش؛

3. مشخص کردن هدف، فرضیات و سوالات تحقیق؛

4. جمع‌آوری اطلاعات؛

5. تحلیل و تفسیر اطلاعات؛

6. گزارش و ارزشیابی تحقیق.[1]

همانطور که دیده می‌شود، در این سلسله مراحل، جایی برای مرحله مهم "داده‌پردازی" که بین دو مرحله‌ جمع‌آوری اطلاعات و تحلیل و تفسیر اطلاعات است قرار داده نشده است؛ اما در منابع اصیل و معتبر معمولاً به این تفکیک توجه کافی مبذول شده است.[2]

هدف از داده‌پردازی

هدف اصلی از پردازش، پالایش داده‌هاست. در اینجا تلاش می‌شود داده‌ها مورد بازبینی و کنترل قرار گیرند. در مرحله گردآوری داده‌ها ممکن است داده‌های نامناسب نیز آشکار شوند. شناسایی و حذف این نوع داده‌ها در این مرحله انجام می‌شود.[3]

مراحل داده‌پردازی

فرآیند داده‌پردازی دارای مراحل زیر است که جز مرحله ویرایش و کدگذاری،‌ بقیه کارها را می‌توان با نرم‌افزار SPSS انجام داد:[4]

1. کنترل؛ منظور از کنترل آن است که محقق صحت و دقت داده‌های گردآوری شده را با هدف کشف و حذف خطاهای مشاهده مورد ارزیابی قرار می‌دهد و طی آن احتمالاً تعدادی از داده‌های خام را دور می‌ریزد و دوباره اقدام به گردآوری داده‌های تجربی مورد نیاز می‌کند. کنترل و کسب اطمینان از صحت داده‌های گردآوری شده از طریق هر نوع روشی ضروری است.[5] این مرحله را غربال کردن داده‌ها (Data Screening)هم نامگذاری کرده‌اند.[6]

برخی محققین، ‌پس از مرحله کنترل، مرحله زیر نیز را ذکر کرده‌اند:

ایجاد یک پایگاه داده‌ها؛ وقتی داده‌ها غربال شدند و تمام اصلاحات انجام گیرد، باید به پایگاه داده‌هایی با ساختار خوب وارد شوند. موقع طرح‌ریزی هر مطالعه،‌ محقق باید با دقت ساختار پایگاه داده‌ها و چگونگی استفاده از آن را در نظر بگیرد.[7] پایگاه داده عبارت است از ساختاری که متغیرها و داده‌ها را بشود برحسب نیاز در آن وارد نمود. این نیازها در نرم‌افزار به طور پیش‌فرض وجود دارد.

2. کدگذاری (Coding)؛ در پژوهش‌هایی مثل پیمایش اجتماعی پس از تکمیل و جمع‌آوری پرسش‌نامه‌ها و کنترل پاسخ‌ها مرحله کدگذاری آغاز می‌شود. کدگذاری روشی است که به‌وسیله آن پاسخ‌های سوالات ابزار جمع‌آوری اطلاعات، ‌مثل پرسش‌نامه، ‌به صورت عدد درمی‌آیند. در اینجا معنی پاسخ‌ها به زبان عدد بیان می‌شود. معنی اعداد نسبت داده شده به پاسخ‌ها برحسب سطوح سنجش آن‌ها متفاوت است. اعداد یا کدهای نسبت داده شده به پاسخ‌های مربوط به متغیرهای اسمی،‌ فقط بیانگر نام یا علامت مقوله هستند و قابلیت پذیرش عملیات ریاضی را ندارند؛‌ برای مثال جنسیت: 1) مرد؛ ‌2) زن. معنی اعداد یا کدهای نسبت داده شده به متغیرهای ترتیبی بیانگر جایگاه اشیاء یا افراد در پیوستاری از کم تا زیاد است. مثال:‌ نگرش سیاسی: 4) کاملاً موافق؛ 3) موافق؛ 2) مخالف؛ 1) کاملاً مخالف؛ 0) بی‌‌نظر.

متغیرهای فاصله‌ای به کدگذاری نیاز ندارند. در این نوع متغیرها تعداد واحدهای اندازه‌گیری با مقدار صفت افراد یا اشیاء و فاصله بین اعداد (واحدها) ‌باهم برابر است؛‌ برای مثال فاصله 16 و 17 برابر فاصله 12 و 13 است. البته برحسب ضرورت می‌توان متغیرهای فاصله‌ای را از طریق گروه‌بندی به متغیر ترتیبی یا رتبه‌ای تبدیل کرد.[8] در پیمایش، معمولاً پردازش در حد همین کدگذاری جواب‌ها و انتقال آن‌ها به رایانه است.[9] در انواع تحلیل محتوا، متغیرهای کیفی در این مرحله به کمی تبدیل می‌شوند؛ به این معنی که «محتوای آشکار پیام‌های ارتباطی به‌صورت کمّی طبقه‌بندی می‌شود و واحدهای تحلیل به‌صورت عدد درمی‌آید.»[10] و در انواعی از پیمایش‌ها نیز ممکن است متغیرهای کمی به کیفی تبدیل شوند.

لازم است قبل از کدگذاری،‌ "کتاب کد داده‌ها" (Data Codebook) تهیه شود و اکنون هم که مرحله پیاده کردن کدگذاری است،‌ بر اساس همان دفترچه عمل شود و در پایان داده‌پردازی که به مرحله بازبینی می‌رسیم و نیز در آینده هم که نیاز به بررسی‌های دیگر شود، همین دفترچه بسیار ضروری است.

کتاب داده‌ها یک فهرست ارائه شده نوشتاری یا کامپیوتری است که شامل توصیف جامع و واضحی از متغیرهای پایگاه داده‌ها است.

کتاب کد داده‌ها باید شامل اجزای زیر برای هر متغیر باشد:

- نام متغیر

- توصیف متغیر

- قابل متغیر (شماره، داده‌ها، متن)

- ابزار یا روش گردآوری

- مطالعه‌شونده یا گروه

- محل متغیر (در پایگاه داده‌ها)

- یادداشت[11]

باید توجه کرد که نیاز به یک کتابچه کد با ورود داده‌ها به فایل کامپیوتر رفع نمی‌شود. کتابچه کد مانند پرونده‌‌ای است که چگونگی ساخته شدن داده‌ها را نشان می‌دهد. هر زمان ممکن است این سؤال پیش آید که یک متغیر چگونه ساخته شده است یا چگونه می‌توان از آن در تحلیل استفاده کرد؛ محقق می‌تواند با مراجعه به کتابچه کد از آن کمک بگیرد.[12]

3. وارد کردن داده‌ها؛ پس از آنکه داده‌ها به منظور درستی و جامعیت آن‌ها، غربال شدند و محقق یک پایگاه داده‌ها با ساختاربندی خوب و یک کتاب کد مفصل ایجاد نمود، وارد کردن داده‌ها باید کاملاً سرراست باشد. یک راه برای اطمینان‌یابی از وارد کردن صحیح داده‌ها دو‌شناسه‌ای (Double-Entry) است. در شیوه دوشناسه‌ای، داده‌ها در پایگاه داده‌ها دو بار وارد می‌شوند و سپس برای تعیین اینکه آیا بین ‌آن‌ها اختلافی هست یا نه، مقایسه می‌شوند.[13]

4. تعریف ارزش‌های گمشده؛ وجود مقادیر مفقودی در تمام پایگاه‌های داده‌ها و اکثر متغیرها غیرقابل اجتناب است. این مسأله می‌تواند به‌علت ضعف افراد تحت مطالعه در پاسخگویی به سؤالات، مشاهده‌های از قلم افتاده، یا داده‌های نادرستی که از پایگاه‌های داده‌ها پس زده شده‌اند، باشد.

حقیقتاً تمام پایگاه‌های داده‌‌ها، برخی مقادیر مفقودی دارند. متأسفانه تحلیل آماری مجموعه داده‌ها، با مقادیر مفقودی، می‌تواند باعث تورّش[14] نتایج و تأثیرات نادرست شود. اگر‌چه برای اسناد مقادیر مفقودی فنون زیادی پیشنهاد شده، اما بحث بر سر مناسب‌ترین فنون در آمار معاصر است. رایج‌ترین فنون اسناد عبارت‌اند از:

الف) اسناد دسته داغ (دست اول): در این فن اسناد،‌ محقق افراد تحت مطالعه را برای شناسایی نهایی، بر روی مقادیر خاصی همتا می‌کند. سپس مقادیر مفقودی، با استفاده از مقادیری که از مطالعه‌شوندگان همتا شده به‌دست آمده‌اند، (یعنی مطالعه‌شوندگانی که در مجموعه‌ای از عوامل مرتبط همتا شده‌اند) جایگزین می‌شوند.

ب) اسناد میانگین پیش‌بینی شده: مقادیر اسنادی با استفاده از رویه‌های آماری خاصی پیش‌بینی می‌شوند (یعنی رگرسیون خطی برای داده‌های پیوسته و عملکرد افتراقی برای داده‌های دو ارزشی یا دو حالتی).

ج) حمل آخرین مقدار به جلو: مقادیر اسنادی بر اساس مقادیر مشاهده شده قبلی است. از این روش تنها برای متغیرهای طولی استفاده می‌شود که مقادیر آن‌ها به ازای هر پاسخ ‌دهنده از نقاط گردآوری داده‌های قبلی مشخص است.

د) میانگین گروه: مقادیر اسنادی از طریق محاسبه گروه متغیر (یا نما، در مورد داده‌های مقوله‌ای) تعیین می‌شود.[15]

5. اصلاح داده‌ها؛ صرف‌نظر از میزان دقت هنگام ورود داده‌ها، احتمال خطا همواره وجود دارد؛ ‌بنابراین بازبینی داده‌ها یک ضرورت است. مواردی چون خالی گذاشتن یک سطر یا ستون، ‌جابجایی یک متغیر، وارد کردن یک کاراکتر الفبایی به‌جای کاراکتر عددی و بالعکس، از موارد اشتباه است که چه‌بسا در مرحله تجزیه و تحلیل سبب خطاهای اساسی شود.[16]

6. تبدیل کردن داده‌ها؛ پس از اینکه داده‌ها وارد و برای اشتباهات کنترل شدند، محقق یا کارکنان ورود داده‌ها بدون تردید ملزم خواهند شد که قبل از تحلیل داده‌ها، تبدیل‌های خاصی را اعمال کنند. این تبدیل‌ها نوعاً با موارد زیر سروکار دارد:

الف) محاسبه مجموع و متغیرهای جدید: در مواردی خاص، محقق می‌خواهد متغیرهای جدید را بر اساس مقادیری از سایر متغیرها بنا گذارد. برای مثال، فرض کنید که محقق داده‌هایی بر اساس مجموع تعداد دفعات حضور مشتریان در درمان خودشان، (دو درمان متفاوت در هر ماه) دارد. محقق مجموعی از چهار متغیر خواهد داشت، که هر کدام تعداد جلسات حضور هفتگی آن‌ها را در اولین ماه درمان نشان می‌دهد. اگر آن‌ها را q4، q3، q2، q1 بنامیم در صورتی که محقق بخواهد حضور مشتریان خود را با درمان‌های متفاوت تحلیل کند، مجبور است یک متغیر جدید را محاسبه کند. این عمل با انتقال زیر انجام می‌شود:

مجموع= q4+q3+q2+q1

با وجود این، دلیل دیگری برای تبدیل متغیرها هست و آن اینکه امکان دارد متغیرها به‌طور نرمال توزیع نشده باشند.[17] زیرا «تجزیه و تحلیل متغیرهایی که به صورت نرمال تویع نشده‌اند می‌تواند به زیاده‌بینی (خطای نوع اول)‌ یا کم‌بینی (خطای نوع دوم) منجر شود.

اگرچه فرض بیشتر رویه‌های آماری این است که متغیرهای تحت تجزیه و تحلیل به صورت نرمال توزیع شده‌اند. اما‌ متأسفانه، بسیاری از متغیرها در علوم اجتماعی و در جامعه نمونه خاصی از توزیع نرمال برخوردار نیستند. بنابراین غالباً محققان برای اثبات احتمالی بهنجاری (نرمالیته) متغیرهای به‌خصوص، به یکی از تبدیل‌ها متکی هستند. پراستفاده‌ترین تبدیل‌ها عبارت‌اند از: تبدیل ریشه دوم، تبدیل لگاریتم، و تبدیل وارون.

ب) معکوس کردن اجزای مقیاس: بسیاری از ابزار و مقیاس‌ها برای کاهش احتمال تنزل افراد تحت مطالعه که از آن‌ها به‌عنوان "مجموعه‌ پاسخ" یاد می‌شود از معکوس کردن اجزای مقیاس استفاده می‌کنند. در اینجا مثالی از چگونگی معکوس عمل کردن اجزای مقیاس ارائه می‌شود: فرض می‌کنیم که در یک بررسی از افراد تحت مطالعه عباراتی را برای نشان دادن سطوح موافقت خود بر اساس 1 تا 5 سؤال می‌شود. در این بررسی، 1 مطابق با "کاملاً مخالف" و 5 مطابق با "کاملاً موافق" است. با وجود این، ممکن است محققی برای معکوس کردن اجزای مقیاس در بررسی تصمیم بگیرد که 1 مطابق با "کاملاً موافق" و 5 "مطابق مخالف" باشد. ممکن است این امر احتمال گرفتار شدن مطالعه‌شوندگان را در یک مجموعه پاسخ، کاهش دهد. قبل از اینکه داده‌ها بتوانند تجزیه و تحلیل شوند لازم است تمام اجزای معکوس ثبت شوند آن‌ چنان‌که پاسخ‌ها در یک جهت منظم شوند.

ج) ثبت متغیرها: ممکن است برخی متغیرها در صورتی که به صورت دسته‌بندی ثبت شده باشند برای تجزیه و تحلیل آسان‌تر باشند. به‌طور مثال،‌ یک محقق ممکن است مایل به در هم پاشیدگی تخمین درآمدی یا سنی در دامنه‌ای به‌خصوص باشد. این مثالی از برگشت یک متغیر پیوسته در متغیر مقوله‌ای است. اگرچه امکان دارد نهایتاً متغیرهای پیوسته مقوله‌بندی شده خصوصیات خود را کاهش دهند، اما در برخی موارد ممکن است برای سادگی تحلیل و تعبیر داده‌ها، این امر مجاز باشد. در سایر موارد، شاید دسته‌بندی مجدد یا ثبت متغیرهای مقوله‌ای از طریق تلفیق آن‌ها در دسته‌های کوچک، لازم باشد. این مورد اغلب وقتی است که متغیرها دارای دسته‌های زیادی هستند و به‌طور پراکنده در دسته‌های خاص قرار گرفته‌اند. به طوری که ممکن است از فرضیه‌های تحلیل آماری خاصی تجاوز کنند. برای برطرف کردن این مسئله محقق شاید تلفیق یا فروپاشیدگی دسته‌های خاصی را گزینش کند.[18]

7. استخراج توزیع داده‌ها؛ برخی روش‌شناسان، استخراج توزیع داده‌ها به‌صورت جداول فراوانی را مرحله قبل از تجزیه و تحلیل می‌دانند[19] که نوعی داده‌آمایی به‌حساب می‌آید؛ و برخی برای این دسته‌بندی، استدلال می‌کنند که چون تحقیق در این مقطع (استخراج توزیع و جداول) به پایان نمی‌رسد بلکه در مرحله تجزیه و تحلیل است که فرآیند تحقیق پایان می‌پذیرد.[20] اما برخی آن را قدم اول مرحله تجزیه و تحلیل می‌دانند.[21] به نظر می‌رسد (فارغ از اینکه این تشتت‌ها از چه ناشی می‌شود) جمع بین این دو نظریه به این است که در روش‌های کمی که ارائه جداول توزیع و نمودارها خود نوعی تجزیه و تحلیل توصیفی است، این مرحله جزء تجزیه و تحلیل به‌حساب می‌آید اما در روش‌های کیفی و تأویلی و تفسیری که داده‌های کمی را برای تفسیر به‌کار می‌برند، این مرحله مقدمه برای تجزیه و تحلیل است و لذا داده‌آمایی به‌حساب می‌آید.

داده‌آمایی با نرم‌افزار SPSS

ویرایش داده‌ها در نرم‌افزار SPSS ابعاد مختلفی دارد که برخی از این قابلیت‌ها در منوی "Edit" وجود دارد (مانند کم و اضافه کردن یک سطر یا ستون یا متغیر جدید و یا تغییر داده‌های موجود در سطر یا ستون‌ها[22]) و برخی در منوی "Transform" قرار دارند (مانند دستور بازسازی داده‌ها -Recoding- که با ترکیب داده‌های موجود یک متغیر جدید می‌سازد؛ مثلاً متغیر درآمد به سه طبقه کم، متوسط و بالا طبقه‌بندی می‌شود[23]و یا ادغام مقوله‌ها که در تحلیل محتوا کاربرد زیادی دارد، ‌صورت می‌گیرد.[24]) و برخی در منوی "Data" قرار دارند. (مانند دستور "Sort Cases" که برای مرتب کردن داده‌ها به کار می رود.[25])

با مشاهده جداول فراوانی داده‌ها نیز می‌توان به اصلاح آن‌ها بهتر موفق شد. این جداول را با بررسی فرمان "Frequency"، از تمامی متغیرها جدول توزیع فراوانی گرفته می‌شود. این جداول را با فرمان "Print" بر روی صفحاتی منتشر می‌کنیم که در اصطلاح لیستینگ نامیده می‌شود.[26]

مقاله

نویسنده مصطفي همداني

این موضوعات را نیز بررسی کنید:

جدیدترین ها در این موضوع

سینمای پناهنده ; به بهانه اکران فیلم سینمایی تگزاس

سینمای پناهنده ; به بهانه اکران فیلم سینمایی تگزاس

نمایش فیلم تگزاس در روزهای اخیر نشان می دهد که مسعود اطیابی تغییر بزرگی در رویه فیلمسازی خود داده است. او که پیش از این با فیلمی درباره حوادث هشتاد و هشت نشان داده بود که در فکر پرداختن به مسائل جدی و حرکت در راستای سینمای اجتماعی است، حالا با تگزاس به جریان فیلم های پرفروشی پیوسته که اتفاقا بر خلاف فیلم قبلی اش دچار موانع ممیزی و عدم مجوز اکران نشده و با توجه به فضای سینمای ایران، سود قابل توجه‌ی را به جیب تهیه کننده واریز می کند.
مصادره و ماجرای غم انگیز زن در سینما

مصادره و ماجرای غم انگیز زن در سینما

هنوز و بعد از گذشت حدود سه ماه از جشنواره فیلم فجر(سی و ششم) و دیدن فیلم سینمایی مصادره ، طعم تلخ تماشای آن هم زمان با اکران های نوروزی و فروش بالای این فیلم ذایقه ام را می آزارد. مصادره را شاید بتوان اروتیک ترین فیلم سینمای ایران پس از انقلاب برشمرد. این فیلم به شدت بیمار است و گویا به جز شوخی های سخیف جنسی حتی با دستمایه کردن یک کودک یا نوجوان راهی برای خندان و شادکردن مخاطبانش ندارد.
گل دادن درخت پیر ; نگاهی به فیلم خجالت نکش

گل دادن درخت پیر ; نگاهی به فیلم خجالت نکش

خجالت نکش، یک فیلم مفرح است. فرحبخشی این فیلم نه از شوخی ها و تکه کلام ها، بلکه به جهت دنیای درونی فیلم است. دنیایی که در آن کودکی متولد می شود و پیری و گذر سن، مانعی برای زایش نیست. در روستای کوچک و کم جمعیت مهمت اباد، 231 نفر زندگی می کنند و این فیلم به ما می گوید که این جمعیت چگونه به اندازه یک نفر بیشتر می شود.
خوک های آوازه خوان ; نگاهی به فیلم خوک

خوک های آوازه خوان ; نگاهی به فیلم خوک

اگر تلاش فیلم خوک در این است که یک کمدی متفاوت در سینمای ایران باشد، باید گفت که در این کار موفق شده است. این فیلم توجهی به شوخی ها کلامی و متدوال در سینمای طنز ندارد. تا حد زیادی می کوشد که از مزیت های واقعیت استفاده کند و در مناسبات انسانی و روابط فردی آدم ها دخل و تصرفی نکند و همزمان از سوی دیگر پیروزمندانه از میدان واقعیت بیرون بیاید بدون آنکه هیچ باج و امتیازی به آنچه که ما واقعیت صدایش می کنیم داده باشد؛ خوک خود را در واقعیت محدود نمی کند.
فیلشاه، آغاز راهی جریان‌ساز در انیمیشن بومی

فیلشاه، آغاز راهی جریان‌ساز در انیمیشن بومی

صحبت از انیمیشنی سینمایی است که در فرم، تکنیک و ارائه مفاهیم به استاندارهای جهانی نزدیک شده و سعی دارد به‌دور از شعار و کلیشه به یک مقطع تاریخی با رگه‌های دینی بپردازد و آغازکننده راهی جریان‌ساز برای صنعت سینمایی انیمیشن در ایران باشد.

پر بازدیدترین ها

یک فیلم زرد، بسیار زرد

یک فیلم زرد، بسیار زرد

فیلم زرد اولین تجربه مصطفی تقی‎زاده است. فیلم در پیرنگ خود روایت فرار مغزها است و این داستان را در قالب یک درام اجتماعی روایت می‎کند. در فیلم شاهد دو مورد پدیده جوان‌مرگی هستیم و نیز کوچ نخبگانی که برای نیل به موفقیت و به تعبیر یکی از شخصیت‎های اصلی، لذت بردن از زندگی، راهی جز کوچیدن به جهان توسعه یافته ندارند و برخی از این نخبه‎گان که باقی می‎مانند و با کلاهبرداری و فریب‎کاری و بداخلاقی‌های مختلف زندگی می‎کنند و در نهایت بدون پشتوانه در گوشه‌ای جان خود را از دست می‎دهند.
شهرزاد در کشاکش سنت و مدرنیسم

شهرزاد در کشاکش سنت و مدرنیسم

این سریال ساخته فیلمساز موفق ایرانی حسن فتحی است که سریال های جذاب وموفقی چون پهلوانان نمی میرند، شب دهم، مدار صفر درجه و میوه ممنوعه را در کارنامۀ خود دارد. همگی این سریال های تلویزیونی مخاطبان بیشماری را به خود اختصاص دادند و این همه ناشی از توانایی او در نوشتن فیلمنامه و کارگردانی است.
فقدان بومی گرایی ; نگاهی به انیمیشن فیلشاه

فقدان بومی گرایی ; نگاهی به انیمیشن فیلشاه

پس از انیمیشن سینمایی نسبتا موفق شاهزاده روم، هادی محمدیان و اعضای گروه هنر پویا امسال هم با یک اثر سینمایی دیگر در جشنواره فجر حاضر شدند تا نشان دهند که قصد دارند در مسیری که انتخاب کرده اند ثابت قدم بمانند.
آغاز سال سی و شش

آغاز سال سی و شش

جشنواره به انتها رسید و تقریبا آنانی جایزه گرفتند که حقشان بود( به فهرست نامزدها کاری ندارم) از انچه گذشت، چیزی در خاطرم نماند جز یادداشت اقای مهدویان که برخی را آزرده کرد و باز عذرخواهی ایشان در یادداشتی بعد تر که نشانه معرفت و ادب او بود.
خانواده ابد و یک روز و مشکلاتش | توان یک خانواده تا کجاست؟

خانواده ابد و یک روز و مشکلاتش | توان یک خانواده تا کجاست؟

فیلم ابد و یک روز نه تنها نحوه‌ی زیست یک خانواده‌ی گرفتار اعتیاد را با دقت توصیف می‌کند بلکه پا را از آن فراتر می‌گذارد و به ذکر دلایل به وجود امدن این خانواده می‌پردازد.
Powered by TayaCMS