پس از آنکه مرحلۀ گردآوری داده به پایان رسید، پژوهشگر(ان) وارد مرحلۀ جدیدی در فرایند انجام پژوهش، با نام مرحله تحلیل داده می‌شوند. ممکن است در پژوهش‌های کیفی مرحله تحلیل داده هم‌زمان با مرحلۀ گردآوری داده آغاز شود؛ به این معنی که پژوهشگر در عین حال که داده گردآوری می‌کند به تحلیل آن بپردازد و پس از تحلیل دوباره به گردآوری داده بپردازد. اما در پژوهش‌هایی که در رویکرد کمی انجام می‌شوند، به طور معمول مرحله تحلیل داده پس از مرحلۀ گردآوری داده آغاز می‌شود.

برخلاف پژوهشگر کیفی که به تحلیل متن و واژه‌ها می‌پردازد، پژوهشگر کمی با عدد و رقم سروکار دارد. به احتمال، بسیاری تصور می‌کنند که تحلیل داده کمی آسان‌تر از تحلیل دادۀ کیفی است، در حالی که این گزاره صحیح نیست. به اعتقاد ببی (2013، ص 391)، انجام تحلیل داده کمی ـ هرچند ساده ـ نیز بسیار دشوار است، چراکه این تحلیل مستلزم برخورداری از مهارت‌های آماری است. به همین دلیل گاهی به‌جای «تحلیل کمی» از «تحلیل آماری» استفاده می‌شود. اگرچه نیازی به مهارت‌های سطح بالا و پیچیده نیست، و تفکر (thought) و تصور (imagination) برای تحلیل قوی، پرمفهوم، و معنادار داده کمی بیشتر به کمک پژوهشگر می‌آیند.

در ادامه گام به گام تحلیل داده کمی تشریح می‌شود.

آن‌چنان که از واژۀ «کمی» در عبارت «تحلیل کمی» استنباط می‌شود، این گونه تحلیل‌ها معمولاً با عدد و رقم سروکار دارند. کار کردن با این اعداد و ارقام قبل از رواج فناوری دشوار بوده، اما رایانه این دشواری را تا حد زیادی برطرف کرده است. نرم‌افزارهای رایانه‌ای مانند اس.پی.اس.اس. (SPSS)، لیزرر (LISRER)، اس.اَی.اس. (SAS)، میکروکَیس (MicroCase)، و غیره برای پاسخگویی به نیاز کار با داده کمی بر روی رایانه توسعه پیدا کرده‌اند. بنابراین، به نظر ببی (2013، ص 422) اولین گام در تحلیل داده کمی، به شکل عدد و رقم درآوردن، یا به اصطلاح کمی کردن (Quantification)، داده است؛ به شکلی که این داده توسط رایانه قابل فهم باشد. کمی کردن داده یعنی تبدیل داده متنی به داده عددی، که به آن کدگذاری هم گفته می‌شود. به همین دلیل، پژوهشگر در این مرحله به یک دفترچه کد (codebook) نیاز دارد. چنین دفترچه‌ای در تمامی مراحل تجزیه و تحلیل داده از ابزارهای کاربردی پژوهشگر است.

برای مثال، زمانی که یک پیمایش انجام می‌شود و در این پیمایش برای سنجش میزان یک متغیر از طیف لیکرت استفاده شده، پژوهشگر باید این طیف را به اعداد تبدیل کند (مثلاً طیف پنج ارزشیِ خیلی کم تا خیلی زیاد را به اعداد 1 تا 5 ترجمه کند). یا می‌توان از مقادیر «صفر» و «یک» برای سازماندهی داده استفاده کرد؛ یعنی به انتخاب‌های پاسخ داده شده مقدار «یک» و به پاسخ‌های خالی مقدار «صفر» اختصاص داد. هرچند، برخی از پاسخ‌هایی که از پیمایش گردآوری می‌شوند (مانند سن، قد، وزن، و غیره) لزوماً کمی هستند.

ورود داده (data entry) به مرحله وارد کردن داده گردآوری شده توسط پژوهشگر (در شکل کاغذی و نوشتاری) در رایانه است. به این گام «انتقال داده» (transforming data) نیز گفته می‌شود؛ به این معنا که داده گردآوری شده به قالب ماشین‌خوان تبدیل می‌شود. ابزارهای جدید برای توزیع پرسشنامه به صورت برخط، تا حدودی این مرحله را حذف کرده‌اند. زمانی که پژوهشگر داده را از طریق پرسشنامه‌ای برخط گردآوری می‌کند، داده گردآوری شده لزوماً ماشین‌خوان است، بنابراین نیاز به مرحله ورود داده حذف خواهد شد. به احتمال، تنها فرایند انتقال داده از ابزار گردآوری داده به نرم‌افزار تحلیل داده کافی است. اما اگر مرحله گردآوری داده به شکل فیزیکی و چاپی انجام شود، ورود داده اجتناب‌ناپذیر است.

بسته به نرم‌افزار تحلیل آماری مناسب برای تحلیل داده، ورود داده متفاوت است. به عبارت دیگر، ورود داده باید در نرم‌افزاری صورت گیرد که قرار است داده از طریق آن تجزیه و تحلیل شود. برای مثال، اگر پژوهشگر از اس.پی.اس.اس. برای تجزیه و تحلیل داده استفاده می‌کند، داده باید وارد این نرم‌افزار شود. اما، از آنجا که همه پژوهشگران ممکن است مهارت کافی برای کار با اس.پی.اس.اس. نداشته باشند، می‌توان داده را در نرم‌افزارهای رایج‌تر وارد کرد و از این نرم‌افزارها به نرم‌افزارهای خاص انتقال داد. نرم‌افزار مایکروسافت اکسل (MS Excel) از نمونه این نرم‌افزارهای رایج است که به احتمال بیشتر پژوهشگران در کار کردن با آن مشکلی ندارند. برای مثال، زمانی که داده از طریق پرسشنامه گردآوری می‌شود، پژوهشگر می‌تواند این داده را ابتدا وارد نرم‌افزار اکسل کند و سپس از محیط اکسل به محیط اس.پی.اس.اس. انتقال دهد. ویرایش‌های جدید نرم‌افزارهای تحلیل آماری، به طور معمول، امکان ایجاد دفترچه کد را نیز فراهم می‌کنند.

پس از ورود داده، گام بعدی در فرایند تجزیه و تحلیل کمی «تأیید داده» (data verification) است. تأیید داده یعنی حصول اطمینان از این‌که داده گردآوری شده کاملاً صحیح است و قابلیت تجزیه و تحلیل دارد. اما چرا این مرحله الزامی است؟ پاسخ این پرسش به خطاپذیری فرایند گردآوری و ورود داده برمی‌گردد. در مرحله گردآوری داده، ممکن است برخی از پاسخ‌دهندگان به گویه‌ها پاسخ نادرست داده باشند، یا به بیشتر گویه‌ها پاسخ نداده و پرسشنامه آنها قابل تجزیه و تحلیل نیست. یا حین ورود اطلاعات، اشتباهی رخ داده باشد و داده وارد شده را با خطا مواجه سازد. بنابراین، این خطاها باید برطرف شوند تا دقت تجزیه و تحلیل داده بیشتر شود. در حال حاضر، بیشتر نرم‌افزارهای تحلیل کمی امکان تعریف کردن دستورهایی نرم‌افزاری جهت نادیده گرفتن خطا را فراهم می‌کنند. برای مثال، حین ورود داده مربوط به جنسیت ـ که باید به صورت «صفر» و «یک» وارد شود ـ دستوری ارائه می‌شود که داده غیر از مقادیر تعریف‌شده در مرحله تجزیه و تحلیل نادیده گرفته شوند.

پس از کمی کردن، ورود، و تأیید داده، نوبت به تجزیه و تحلیل داده می‌رسد. در واقع، می‌توان سه گام پیشین را به عنوان مقدمات فرایند تحلیل کمی در نظر گرفت که به مهارت‌های ویژه‌ای نیازمندند و می‌توانند توسط افراد دیگر (غیر از خود پژوهشگر) انجام شوند، اما تجزیه و تحلیل داده عملی است که علاوه بر مهارت به تخصص نیز نیاز دارد. از این رو، حضور پژوهشگر در این مرحله الزامی است. تجزیه و تحلیل داده کمی را ممکن است، بر اساس ماهیت، به دو نوع آمار توصیفی (شامل شاخص‌های مرکزی، پراکندگی، و غیره) و آمار تحلیلی (به طور معمول، شامل آزمون‌های آماری) دسته‌بندی کنند. اما به نظر ببی (2013، 448)، این مرحله می‌تواند در سه نوع خلاصه شود: تحلیل‌های تک‌متغیره، دومتغیره، و چندمتغیره. هرکدام از این تحلیل‌ها در ادامه تشریح خواهند شد.

ببی این تحلیل را ساده‌ترین تحلیل کمی می‌داند، که شامل توصیف موردی با یک متغیر واحد می‌شود، به‌ویژه توزیع ویژگی‌های تشکیل دهنده آن متغیر. برای مثال، اگر جنسیت یک جامعه بررسی می‌شود، برای ما تعداد و نسبت مردان و زنان آن جامعه قابل توجه خواهد بود.
توزیع‌ها
ساده‌ترین نحوه نمایش و گزارش ویژگی‌های توزیعی موارد بررسی شده در پژوهش، یعنی ویژگی‌های یک متغیر، است. از رایج‌ترین ویژگی‌ها برای توصیف جامعه گزارش «فراوانی» (frequency) یا «توزیع فراوانی» (frequency distribution) است. منظور از فراوانی «تکرار پیشامدهای حاصل از یک آزمایش» است. برای مثال، اگر پرسشنامه‌ای میان نمونه پژوهش توزیع شده، تعداد تکرار پاسخ‌ها به هرکدام از انتخاب‌های گویه‌های پرسشنامه می‌تواند به عنوان فراوانی گزارش شود. فراوانی خود دارای سه نوع است:
  • فراوانی مطلق: تعداد تکرار پیشامدها؛
  • فراوانی نسبی: تعداد تکرار پیشامدها به نسبت تعداد پاسخ‌ها؛
  • فراوانی تجمعی (cumulative frequency): تعداد تکرار پیشامدهایی که مقدارشان از کران بالای آن دسته کمتر باشد.

گزارش «درصد» (percent) پاسخ‌ها نیز از دیگر ویژگی‌هایی است که درباره توصیف یک مورد به‌کار می‌رود. صرف گزارش فراوانی نمی‌تواند دید روشنی درباره نسبت پاسخ‌های دریافت شده بدهد، اما گزارش درصد پاسخ‌ها این امکان را فراهم می‌کند. درصد نیز دارای سه نوع متفاوت است:

  • درصد مطلق: نشان‌دهنده درصد هرکدام از فراوانی‌ها؛
  • درصد معتبر (یا صحیح) (valid percent): مقدار درصد معتبر همیشه یا مساوی یا بیشتر از درصد مطلق است. ممکن است پاسخ‌دهندگان به برخی از گویه‌ها یا پرسش‌ها پاسخ ندهند، درصد معتبر پس از حذف فراوانی پاسخ‌ها نامعتبر به‌دست خواهد آمد؛
  • درصد تجمعی (cumulative percent): درصد فراوانی‌هایی که مقدارشان از کران بالای آن دسته کمتر باشد.

quanti image

گزارش‌های فوق را هم می‌توان در جدول‌های عددی سازماندهی کرد، هم می‌توان آنها را به صورت متنی آورد، یا آنکه آنها را در قالب نمودارهای گوناگون (میله‌ای، ستونی، دایره‌ای، خطی، نقطه‌ای، شاخه ـ برگ، و غیره) نشان داد. در استفاده از هرکدام این شیوه‌ها باید توجه کرد که کدام یک می‌توانند به بهترین شکل در انتقال اطلاعات به پژوهشگر کمک کند. برای مثال، برای گزارش تعداد زنان و مردان مشارکت کننده در پژوهش، اگر هدف مقایسه این دو گروه است، بهتر است از نمودار دایره‌ای استفاده شود؛ چراکه در کوتاه‌ترین زمان اطلاعات کاملی مبنی بر این مقایسه در اختیار مخاطبان قرار دهد. اما اگر قصد ما نشان دادن شکل یک توزیع است، هیستوگرام (histogram) احتمالاً مناسب‌ترین نحوه ارائه اطلاعات است. زمانی که ارزش‌های گردآوری شده را بر اساس فراوانی آنها در قالب نمودار هیستوگرام نشان می‌دهیم، این نمودار شکل‌های متعددی می‌تواند به خود بگیرد. منظور از شکل توزیع فراوانی، هر کدام از این شکل‌ها هستند. به طور کلی، این شکل‌ها را می‌توان به «توزیع متقارن» و «توزیع غیرمتقارن» دسته‌بندی کرد.

chart1

انواع شکل‌های توزیع فراوانی

در توزیع غیرمتقارن ارزش‌های کمتر یا بیشتر در یک توزیع از فراوانی بیشتری برخوردارند. به این نوع توزیع اصطلاحاً «توزیع چوله» نیز گفته می‌شود. اگر ارزش‌های پایین‌تر در یک توزیع از فراوانی بیشتری برخوردار باشند، قسمت ابتدایی نمودار بلندتر از قسمت انتهای آن خواهد شد؛ در این حالت توزیع چوله و دارای چولگی مثبت است (نمودار a). حال اگر عکس این مسئله اتفاق بیافتد، یعنی بخش انتهایی نمودار بلندتر از بخش ابتدایی باشد، توزیع چوله و دارای چولگی منفی است (نمودار b).

در «توزیع متقارن» (symmetrical distributions) دو نیمه توزیع متقارن همدیگر هستند، یعنی اگر کاغذ را از نیمه تا کنیم، دو نیمه کاملاً رو همدیگر متقارن خواهند بود (نمودار c). خود توزیع متقارن می‌تواند شکل‌های گوناگونی داشته باشد.

chart2

انواع شکل‌های توزیع فراوانی

رایج‌ترین و مهمترین این توزیع‌ها، «توزیع نرمال» است. استفاده از بسیاری از شاخص‌ها و آزمون‌های آماری برای گزارش ویژگی‌های داده و گزارش یافته‌های پژوهش وابسته یه شکل توزیع فراوانی، و نرمال بودن یا نبودن یک توزیع است. در توزیع نرمال (که به آن توزیع زنگوله‌ای نیز گفته می‌شود) فراوانی ارزش‌های میانی بیش از ارزش‌های ابتدایی و انتهایی یک توزیع است. بنابراین، هرچه از وسط توزیع به سمت ارزش‌های ابتدایی و انتهایی آن حرکت می‌کنیم تعداد فراوانی‌ها کم و کم‌تر می‌شود. واگان میزان فراوانی ارزش‌ها در یک توزیع نرمال را در نمودار 3 نشان داده است.

chart3

احتمالات مبتنی بر توزیع نرمال

همان‌طور که در نمودار دیده می‌شود، فراوانی ارزش‌هایی که به میانگین نزدیک‌تر هستند، در توزیع نرمال بیشتر از ارزش‌هایی است که در بخش ابتدایی یا انتهایی توزیع قرار گرفته‌اند. از آنجایی که تشخیص نرمال بودن یک توزیع همیشه به این آسانی ـ با رسم هیستوگرام و نگاه به نمودار ـ نیست، متخصصان آمار از یک آزمون آماری با نام «کلموگروف ـ اسمیرنوف» (Kolmogorov-Smirnov) بهره می‌گیرند. کلموگروف ـ اسمیرنوف یک آزمون تطابق توزیع برای داده کمی است. آزمون نرمال بودن یک توزیع یکی از شایع‌ترین آزمون‌ها برای نمونه‌های کوچک است که پژوهشگر به نرمال بودن آن شک دارد. اساس این روش بر اختلاف میان فراوانی تجمعی نسبی مشاهدات با مقدار مورد انتظار تحت فرض صفر است. فرض صفر می‌گوید که نمونه انتخاب شده دارای توزیع نرمال است. آزمون کلموگروف ـ اسمیرونوف برای تطابق توزیع، احتمال‌های تجمعی مقادیر در مجموعه داده را با احتمال‌های تجمعی همان مقادیر در یک توزیع نظری خاص مقایسه می‌کند. در این آزمون اگر «معیار تصمیم» (P-Value) کمتر از 05/0 باشد فرض صفر رد می‌شود. امروزه، نرم‌افزارهای تحلیل آماری اجرای این آزمون را بسیار ساده کرده‌اند. برای مثال، در برنامه اس.پی.اس.اس. در بخش آزمون‌های ناپارامتریک می‌توان این آزمون را پیدا کرد.

علاوه بر توزیع‌هایی که به آنها اشاره شد، ممکن است پژوهشگر برای خلاصه و توصیف ویژگی‌های داده از «شاخص‌های گرایش مرکزی» (measures of central tendency) استفاده کند. گرایش مرکزی گرایش داده آماری به مرکز حول یک ارزش خاص است، که این ارزش نماینده مجموعه داده گردآوری شده است. «سه ام» (three Ms) شاخص‌هایی هستند که به طور معمول در گزارش شاخص‌های گرایش مرکزی از آنها استفاده می‌شود. منظور از سه ام، سه شاخص میانگین (mean)، مد یا نما (mode)، و میانه (median) است. بسته به نوع داده‌ای که پژوهشگر با آن سروکار دارد، استفاده از هرکدام از این شاخص‌ها متفاوت است. منظور از نوع داده، ماهیتی است که برای اندازه‌گیری متغیرها به‌کار می‌رود. به طور معمول، از چهار مقیاس برای اندازه‌گیری متغیرها استفاده می‌شود: داده اسمی (nominal)، رتبه‌ای (ordinal)، فاصله‌ای (interval)، و نسبی (ratio).

داده اسمی: داده‌ای مانند زن یا مرد بودن پاسخ‌دهندگان دارای هیچ ارزش عددی نیست. به عبارت دیگر اسم این داده مهم است و اگر هم عددی به آن اختصاص یابد نشان‌دهنده ارزش خاصی نیست. این اعداد ممکن است در قالب کدهایی به داده اسمی اختصاص یابد. جنسیت، نژاد یا قومیت، ملیت، و غیره از این جنس هستند.

داده رتبه‌ای: داده رتبه‌ای بهتر /بدتر یا کمتر /بیشتر بودن یک متغیر را می‌سنجد. ولی مقیاسی کلی ارائه می‌دهند و نمی‌توان از طریق داده رتبه‌ای به این نتیجه رسید که میزان بهتر /بدتر بودن یا کمتر /بیشتر بودن چقدر است. داده‌ای که از طریق طیف لیکرت (خیلی زیاد، زیاد، متوسط، کم، خیلی کم) گردآوری می‌شود نمونه مناسبی درباره این نوع داده است.

داده فاصله‌ای: داده فاصله‌ای نوع پیشرفته داده رتبه‌ای هستند. بنابراین، علاوه بر اینکه به پژوهشگر می‌گویند کدام بهتر /بدتر است کدام کمتر /بیشتر، مقدار را نیز مشخص می‌کنند. به عبارت دیگر، داده فاصله‌ای به پژوهشگر می‌گوید تفاوت داده چه مقدار است. اما باید توجه داشت که داده فاصله‌ای «صفر مطلق» ندارد؛ یعنی نمی‌توان برای مقایسه‌های نسبتی (برای مثال، فلان چیز دو برابر فلان است) از آنها استفاده کرد.

داده نسبی: کامل‌ترین نوع داده، داده نسبی است. این نوع داده تمام ویژگی‌های داده فاصله‌ای به اضافه «صفر مطلق» را داراست. برای مثال، سن افراد داده‌ای است که از طریق مقیاس نسبی می‌توان آن را اندازه گرفت. بنابراین، می‌توان گفت فردی 20 ساله دو برابر یک فرد 10 ساله سن دارد.

به نظر واگان امکان تبدیل داده نسبی به فاصله‌ای، رتبه‌ای، و اسمی وجود دارد، اما عکس این مسئله صادق نیست. به طور معمول، برای گزارش مقیاس‌های نسبی و فاصله‌ای از شاخص‌ها و آزمون‌های پارامتریک، و به منظور گزارش مقیاس‌های رتبه‌ای و اسمی از شاخص‌ها و آزمون‌های ناپارامتریک استفاده می‌شود.

در این میان، از میانگین برای گزارش داده نسبی و فاصله‌ای، از مد برای گزارش داده اسمی، و از میانه برای گزارش داده رتبه‌ای استفاده می‌شود.

میانگین: احتمالاً میانگین رایج‌ترین شاخص آماری است که در زندگی روزمره بسیار از آن استفاده می‌شود. میانگین، یا معدل حسابی، از حاصل جمع داده تقسیم بر تعداد آن به‌دست می‌آید. برای مثال میانگین اعداد 10، 12، 14، و 16 از حاصل جمع این اعداد (52) تقسیم بر تعداد این اعداد (4) به‌دست خواهد آمد؛ بنابراین، میانگین این اعداد برابر با 13 است.

میانه: میانه به نقطه میانی یک توزیع اشاره دارد. به همین دلیل به آن میانه گفته می‌شود. برای محاسبه میانه در یک توزیع، ابتدا باید اعداد را از کم به زیاد مرتب کرد، و سپس عدد وسط را به عنوان میانه گزارش کرد. زمانی که تعداد اعداد مفرد باشد گزارش میانه آسان است، اما اگر تعداد ذوج باشد، باید میانگین دو عدد وسط را به عنوان میانه گزارش کرد.

مد: از آنجاکه مقیاس اسمی ارزش عددی ندارد، بنابراین داده‌ای که در این مقیاس گردآوری شده را نمی‌توان در شاخص‌های میانگین و میانه گزارش کرد. مد شاخصی است که برای گزارش چنین داده‌ای استفاده می‌شود. بر اساس تعریف واگان مد «رخداد فراوان‌ترین عدد در یک توزیع است». برای مثال، در گزارش تعداد مردان و زنان، گروهی که دارای بیشترین فراوانی باشد، مد آن توزیع به شمار می‌آید.

برای درک بهتر و آسان‌تر اینکه چه موقع باید از کدام شاخص گرایش مرکزی استفاده کرد، واگان نمودار زیر را پیشنهاد کرده است.

chart4

چه موقع از کدام شاخص گرایش مرکزی باید استفاده کرد

روشن است که از هر شاخصی برای توصیف هر نوع داده‌ای نمی‌توان استفاده کرد. استفاده نادرست از این شاخص‌ها برای توصیف داده اعتبار یک گزارش پژوهشی را زیر سؤال خواهد برد. بر اساس نمودار فوق، استفاده از این شاخص‌ها آسان‌تر است.

به نظر ببی (2013، 455) مقایسه زیرگروه‌ها (subgroup comparison) در یک متغیر از دیگر موضوع‌هایی است که در تحلیل تک‌متغیره مورد توجه قرار می‌گیرد. مقایسه زیرگروه‌های یک متغیر ما را از تفاوت میان این گروه‌ها، بر اساس پاسخی که مشارکت‌کنندگان به پرسش مورد نظر پژوهشگر داده‌اند، باخبر می‌کند. بنابراین، از این طریق می‌توان الگوهایی در نتایج مشاهده کرد. برای مثال، از طریق تفاوت میان پاسخ‌های داده شده به متغیر جنسیت، می‌توان تعداد مردان و زنان یک نمونه را با همدیگر مقایسه کرد. در برخی از پژوهش‌ها، مقایسه زیرگروه‌ها به عنوان یک یافته مهم تلقی می‌شود. برای مثال، تعداد آرائی که یک نامزد ریاست جمهوری احتمالاً در انتخابات کسب خواهد کرد، خود یک یافته مهم می‌تواند تلقی شود. به‌واسطه مقایسه زیرگروه‌های این متغیر می‌توان به پرسش مطرح در پژوهش پاسخ داد.

بر خلاف تحلیل‌های تک‌متغیره، مقایسه زیرگروه‌ها شامل دو متغیر ـ یا بیشتر ـ می‌شود؛ چراکه متغیرهای اصلی می‌توانند شامل متغیرهای جزئی نیز باشند. این مقایسه نوع جدیدی از تحلیل با نام تحلیل دومتغیره (bivariate analysis) و چندمتغیره (multivariate analysis) را تشکیل می‌دهد، که به تحلیل دو یا چند  متغیر به طور هم‌زمان می‌پردازد. در بیشتر پژوهش‌ها، تحلیل دومتغیره و چندمتغیره، علاوه بر توصیف، عنصر دیگری بر پژوهش می‌افزاید: تعیین روابط میان خود متغیرها. بنابراین، تحلیل تک‌متغیره و مقایسه زیرگروه‌ها بر توصیف افراد یا دیگر واحدهای تحلیل تمرکز می‌کند، در حالی که تحلیل دومتغیره و چندمتغیره بر متغیرها و روابط تجربی میان آنها تأکید دارند.

«توضیح» (explanation) مهمترین مفهومی است که در تحلیل دو و چندمتغیره کاربرد دارد. به عبارت دیگر، در حالی که توزیع‌ها درباره ویژگی‌های یک متغیر واحد سخن می‌گویند، شاخص‌های ارتباط، پیوند میان متغیرها را توضیح می‌دهند. زمانی که دو یا چند متغیر با همدیگر مورد بررسی قرار می‌گیرند، وضعیت‌ها و الگوهای متعددی می‌توانند داشته باشند. برای مثال، ممکن است در بررسی دو متغیر، هرچه مقدار یک متغیر بیشتر شود، اندازه متغیر دیگر نیز افزایش یابد؛ بنابراین، میان دو متغیر «رابطه» وجود خواهد داشت. همچنین، شاید اختلاف میان مقدار دو متغیر به قدری باشد، که به لحاظ آماری «تفاوت» معناداری میان این دو متغیر وجود داشته باشد. یا ممکن است متغیری روی متغیر دیگر تأثیرگذار باشد. همه این ارتباط‌ها پرسش‌هایی در تحلیل داده کمی به‌وجود می‌آورند که باید آنها را با استفاده از آزمون‌های آماری پاسخ گفت.

ممکن است، پژوهشگر پیش‌تر در پیشنهاده پژوهش ارتباط‌های میان متغیرها را به عنوان فرضیه پژوهش یا پرسش مطرح کرده باشد. اگر این ارتباط‌ها به عنوان فرضیه مطرح شده باشند، در این مرحله پژوهشگر به فرض‌آزمایی آنها از طریق آزمون‌های آماری می‌پردازد. به عبارتی، می‌توان گفت این مرحله گام اصلی در تحلیل داده کمی است. بیشتر پژوهشگران تازه‌کار در این مرحله با مسائل گوناگون مواجه می‌شوند؛ به دلیل دشواری این گام، ممکن است پژوهشگران از متخصصان یا مشاوران آماری نیز کمک بگیرند. به طور کلی، می‌توان انواع رابطه میان متغیرها را در سه حالت دسته‌بندی کرد: بررسی ارتباط، بررسی تفاوت، بررسی تأثیر. در ادامه به توضیح این سه نوع رابطه خواهیم پرداخت.

واگان برای انتخاب آزمون مناسب در حالت‌های متفاوت دو نمودار زیر را پیشنهاد کرده است. بر اساس این نمودارها، بررسی ارتباط و تفاوت، بسته به نوع مقیاس گردآوری داده و نرمال بودن توزیع‌ها در داده گردآوری شده متفاوت است.

chart5

انتخاب آزمون‌های آماری برای بررسی ارتباط میان متغیرها

chart6

انتخاب آزمون‌های آماری برای بررسی تفاوت میان متغیرها

زمانی که دو متغیر را با همدیگر به صورت هم‌زمان بررسی می‌کنیم، ممکن است الگویی در این تحلیل کشف کنیم. به این معنا که با افزایش یک متغیر، متغیر دیگر نیز افزایش یابد؛ یا با افزایش یک متغیر، متغیر دیگر کاهش یابد، و برعکس. به این ترتیب، این رابطه را می‌توان به عنوان یک «ارتباط» تعریف کرد. برای بررسی ارتباط از سه آزمون آماری رایج استفاده می‌شود: مجذور کای (Chi-Suare test)، پیرسون (Pearson correlation coefficient)، و اسپیرمن (Spearman correlation coefficient).

آزمون مجذور کای: به این آزمون مجذور خی یا خی 2 هم گفته می‌شود. مجذور کاری به‌منظور آزمون فرضیه درباره استقلال فراوانی‌هایی به‌کار می‌رود که در طبقه‌های گوناگون قرار گرفته‌اند. بنابراین، این آزمون برای بررسی ارتباط در داده‌ای که در مقیاس اسمی یا رتبه‌ای گردآوری شده کاربرد دارد. به نظر واگان، گزینش تصادفی نمونه‌ها، اسمی یا رتبه‌ای بودن مقیاس گردآوری داده، استقلال مدخل (entries) خانه‌ها از یکدیگر، و بزرگ بودن اندازه فراوانی‌های مورد انتظار از جمله شرایطی هستند که برای اجرای این آزمون ضروری هستند.

آزمون همبستگی پیرسون: از انواع آزمون‌های پارامتریک است که برای بررسی رابطه یا همبستگی میان دو متغیر از نوع پیوسته (مقیاس فاصله‌ای یا نسبی)، در صورتی که دارای توزیع نرمال باشند، به‌کار می‌رود. در این آزمون میزان همبستگی خطی بین دو متغیر تصادفی را با استفاده از «ضریب همبستگی پیرسون» می‌سنجند. همبستگی میان دو متغیر می‌تواند دو نوع داشته باشد: همبستگی مثبت (با افزایش یک متغیر دیگری نیز افزایش یابد) و همبستگی منفی (با افزایش یک متغیر دیگری کاهش یابد). مقدار این ضریب بین «۱ـ» تا «۱» تغییر می‌کند؛ ضریب «۱» به معنای همبستگی مثبت کامل، «۰» به معنای نبود همبستگی، و «۱ـ» به معنای همبستگی منفی کامل است.

آزمون همبستگی اسپیرمن: آنجا که به دلیل نرمال نبودن توزیع داده نمی‌توان از آزمون پیرسون استفاده کرد، از آزمون اسپیرمن کمک گرفته خواهد شد. بنابراین، آزمون اسپیرمن یک آزمون ناپارامتریک است. در این ضریب همبستگی به‌جای استفاده از ارزش متغیرها از رتبه‌های آنان استفاده می‌شود. میزان این ضریب نیز بین «۱ـ» تا «۱» تغییر می‌کند؛ ضریب «۱» به معنای همبستگی مثبت کامل، «۰» به معنای نبود همبستگی، و «۱ـ» به معنای همبستگی منفی کامل است.

relation-finding

بیشتر اوقات پیش می‌آید که پژوهشگر بخواهد دو جامعه را با همدیگر مقایسه کند، بنابراین باید به مقایسه دو نمونه (که هر یک نماینده جامعه خاص خود هستند) بپردازد. البته ممکن است یک نمونه دو بار مورد آزمون قرار گیرد، به این معنا که مثلاً یک نمونه قبل و پس از یک دوره آموزشی مورد بررسی قرار گیرد. از این رو، اگر یک نمونه واحد قبل و بعد از یک پدیده مورد آزمایش قرار گیرد، نمونه‌های قبل و بعد از پدیده «وابسته» خواهند بود. اما اگر این نمونه‌ها از دو جامعه متفاوت انتخاب شوند، نمونه‌ها «مستقل» از هم خواهند بود. همچنین، ممکن است پژوهشگر بخواهد تفاوت میان دو گروه یا بیشتر از دو گروه را با همدیگر بسنجد، که در هرکدام از این شرایط نوع آزمون آماری که برای بررسی تفاوت گزینش می‌شود متفاوت است.

بر اساس نمودار 5، به طور کلی حدود شش آزمون آماری در بررسی تفاوت رایج هستند: آزمون تی جفتی (paired t-test)، آزمون تی مستقل (independent t-test)، آنوا: آزمون تحلیل واریانس (ANOVA: analysis of variance)، آزمون کروسکال ـ والیس (Kruskal Wallis Test)، آزمون مان ـ ویتنی (Mann Whitney U test)، آزمون ویلکاکسون (Wilcoxon signed-rank test).

از آزمون‌های بالا، آزمون ویلکاکسون، مان ـ ویتنی، و کروسکال ـ والیس از جمله آزمون‌های ناپارامتریک، و در مقابل آزمون‌های تی جفتی، تی مستقل، و تحلیل واریانس از انواع آزمون‌های پارامتریک هستند. همچنین، آزمون‌های تحلیل واریانس و کروسکال ـ والیس برای بررسی تفاوت میان بیش از دو گروه، و سایر آزمون‌ها برای بررسی تفاوت میان دو گروه مناسب هستند.

آزمون تی جفتی: هدف از آزمون تی جفتی بررسی تفاوت میان دو نمونه وابسته است. ورودی‌های این آزمون از میانگین نمونه‌ها و تغییر ارزش‌ها در دو نمونه تأمین می‌شود. بنابراین، این آزمون از نمونه‌های پارامتریک است. به چنین آزمون‌هایی واژه درون ـ موردی نیز اطلاق می‌شود. به نظر واگان (1384، 184)، گزینش تصادفی نمونه‌ها، فاصله‌ای یا نسبی بودن مقیاس گردآوری داده، برخورداری جوامع از توزیع نرمال، و تساوی نسبی انحراف معیار دو نمونه از جمله شرایطی هستند که برای اجرای این آزمون ضروری هستند. زمانی که یکی از این شرایط فراهم نباشد، باید نمونه ناپارامتریک این آزمون، یعنی آزمون ویلکاکسون اجرا شود.

آزمون تی مستقل: هدف از آزمون تی مستقل بررسی تفاوت میان دو نمونه مستقل است. ورودی‌های این آزمون نیز از میانگین نمونه‌ها و تغییر ارزش‌ها در دو نمونه تأمین می‌شود. بنابراین، این آزمون از نمونه‌های پارامتریک است. به نظر واگان (1384، 184)، گزینش تصادفی نمونه‌ها، فاصله‌ای یا نسبی بودن مقیاس گردآوری داده، برخورداری جوامع از توزیع نرمال، و تساوی نسبی انحراف معیار دو نمونه از جمله شرایطی هستند که برای اجرای این آزمون ضروری هستند. زمانی که یکی از این شرایط فراهم نباشد، باید نمونه ناپارامتریک این آزمون، یعنی آزمون مان ـ ویتنی اجرا شود.

آزمون تحلیل واریانس: به تحلیل واریانس آزمون «آنوا» نیز گفته می‌شود. همچنین، آزمون اف (F test) یا «آزمون فیشر» نام دیگری است که بر تحلیل واریانس گذاشته‌اند. تعمیم‌یافته آزمون تی است و برای ارزیابی یکسان بودن یا نبودن دو یا چند جامعه به کار می‌رود. تحلیل واریانس از شمار آزمون‌های پارامتریک است؛ بنابراین، مقیاس گردآوری داده برای تحلیل توسط این آزمون باید فاصله‌ای یا نسبی باشد. برای بررسی تفاوت، این آزمون از میانگین ـ که یک شاخص گرایش مرکزی است ـ و واریانس ـ به‌عنوان شاخص پراکندگی ـ استفاده می‌کند. به نظر واگان (1384، 203) گزینش تصادفی و مستقل نمونه‌ها، فاصله‌ای یا نسبی بودن مقیاس گردآوری داده، برخورداری جامعه از توزیع نرمال، و تساوی کامل واریانس درون گروه‌ها از جمله شرایطی هستند که برای اجرای این آزمون ضروری هستند. در صورتی که یکی از این شرایط فراهم نباشد، باید نمونه ناپارامتریک این آزمون، یعنی آزمون کروسکال ـ والیس اجرا شود. آزمون تحلیل واریانس به بررسی دو نوع واریانس می‌پردازد: واریانس درون گروهی و واریانس بین‌گروهی. واریانس درون گروهی پراکندگی داده در درون هر گروه را بررسی می‌کند؛ در حالی که واریانس بین‌گروهی تفاوت میان میانگین‌های نمونه‌ها را اندازه می‌گیرد.

  • تحلیل واریانس یک‌طرفه (One-Way ANOVA): از این آزمون زمانی استفاده می‌شود که پژوهشگر قصد دارد به مقایسه میانگین یک متغیر وابسته در سه گروه مستقل یا بیشتر بپردازد. برای مثال، مقایسه میزان قند خود افراد بر اساس جنسیت آنها.
  • تحلیل واریانس دوطرفه (Two-Way ANOVA): زمانی که پژوهشگر قصد مقایسه میانگین یک متغیر وابسته بر اساس دو عامل متمایز را داشته باشد از این آزمون بهره می‌گیرد. برای مثال، مقایسه میزان قند خون نمونه‌ها بر اساس جنسیت و نژاد آنها.

تحلیل کواریانس (Analysis of Covariance): این آزمون مشابه آزمون آنوا است و به آن «آنکوا» (ANCOVA) نیز گفته می‌شود. زمانی از آن استفاده می‌شود که پژوهشگر قصد حذف متغیرهای مداخله‌گر در تحلیل را داشته باشد. در این آزمون، به‌جای واریانس، کواریانس در تحلیل وارد خواهد شد.

آزمون کروسکال ـ والیس: اگر تعداد گروه‌ها بیش از دو گروه باشند و مقیاس گردآوری داده نیز اسمی یا ترتیبی باشد، از آزمون کروسکال ـ والیس برای بررسی تفاوت میان گروه‌ها استفاده می‌شود. همچنین، زمانی که شرایط مناسب برای استفاده از آزمون آنوا برای بررسی تفاوت میان بیش از دو گروه وجود ندارد، از این آزمون استفاده می‌شود. بنابراین، این آزمون نمونه ناپارامتریک آزمون آنوا است. آزمون تحلیل واريانس يك طرفه كروسكال ـ واليس با استفاده از رتبه‌ها، آزمون مناسبی براي تصميم‌گيري درباره آگاهی از تفاوت میان متغیرها در دو جامعه است.

آزمون مان ـ ویتنی: از انواع آزمون‌های ناپارامتریک است و برای سنجش تفاوت میان نمونه‌های مستقل به‌کار می‌رود. در شرایطی از این آزمون استفاده می‌شود که مقیاس گردآوری داده اسمی یا رتبه‌ای باشد، یا آنکه داده از توزیع نرمال برخوردار نباشد. در حالتی که داده توزیع نرمال داشته باشد، از آزمون تی مستقل استفاده می‌شود. بنابراین، آزمون مان ـ ویتنی نمونه ناپارامتریک آزمون تی مستقل است. روشن است که این آزمون به‌جای میانگین و انحراف معیار، با میانه و دامنه تغییرات سروکار دارد.

آزمون ویلکاکسون: از جمله آزمون‌های ناپارامتریک است که برای بررسی تفاوت میان دو گروه وابسته به‌کار می‌رود. داده گردآوری شده مناسب این آزمون باید در مقیاس اسمی یا رتبه‌ای باشد. ویلکاکسون اندازه تفاوت میان رتبه‌ها را در نظر می‌گیرد؛ بنابراین، متغیرها می‌توانند دارای پاسخ‌های متفاوت باشند. این آزمون متناظر با آزمون تی جفتی است؛ از این رو، در صورت اگر شرایط داده برای اجرای آزمون تی جفتی مناسب نباشد، از این آزمون می‌توان به عنوان نوع ناپارامتریک آزمون تی جفتی استفاده کرد.

آزمون مک‌نمار (McNemar's test): برای بررسی تأثیر یک عمل بر نمونه، در شرایطی که خود نمونه به عنوان گواه خود استفاده شود، از این آزمون استفاده می‌شود. برای مثال، برای بررسی تأثیر یک دارو، قبل و بعد از استفاده دارو فرد مورد آزمایش قرار می‌گیرد و نتایج با همدیگر مقایسه می‌شوند.

آزمون فریدمن (Friedman test): در صورتی که به دلایل متعدد نتوان از آزمون فیشر یا آزمون F استفاده کرد، از آزمون فریدمن به عنوان جانشین ناپارامتریک این آزمون استفاده می‌شود. یا زمانی که مقیاس گردآوری داده حداقل رتبه‌ای است، از این آزمون بهره گرفته می‌شود. بنابراین، آزمون فریدمن به منظور مقایسه چند گروه به‌کار می‌رود و از نظر میانگین رتبه‌های گروه‌ها را مشخص خواهد کرد، که آیا این گروه‌ها از یک جامعه هستند یا خیر.

انجام پژوهش‌های کمی، بر خلاف تصور رایج، همیشه آسان‌تر از پژوهش‌های کیفی نیست. به‌ویژه زمانی که پژوهش کمی به دنبال روابط علی ـ معلولی باشد. هدف غایی و چالش‌برانگیز بیشتر پژوهش‌های کمی تعیین عناصر، عوامل، و مکانیزم‌هایی است که باعث به‌وجود آمدن یک پدیده یا وضعیتی مشخص می‌شوند، یا شرایطی به‌وجود می‌آورند که چگونگی ایجاد یا رفتار پدیده‌ها را توضیح می‌دهد. به عبارت دیگر، پژوهشگر ممکن است علاوه بر پرسش‌های چیستی و چگونگی با پرسش «چرایی» نیز مواجه شود. رابطه علی مفهومی است که در این مواقع از آن استفاده می‌شود. بنابراین، پس از تعیین این میزان تأثیر، می‌توان رخداد یا رفتار یک پدیده را بر اساس متغیری پیش‌بینی کرد. در آزمون‌هایی که به بررسی رابطه یا تفاوت می‌پردازند، نوع و میزان تأثیر مشخص نمی‌شود؛ به عبارت دیگر، آزمون‌های ارتباط و تفاوت به پژوهشگر در تعیین روابط علی ـ معلولی کمک نمی‌کنند. از این رو، ممکن است دو متغیر با همدیگر در ارتباط باشند، در حالی یک متغیر بر دیگری تأثیری نداشته باشد. هرچند، طبیعی است تا زمانی که دو متغیر با همدیگر ارتباط معنادار نداشته باشند، نمی‌توان گفت یکی از آنها بر دیگری تأثیرگذار است. برای مثال، ممکن است میان میزان درآمد و تعداد مقالات اساتید یک دانشگاه ارتباط معنادار وجود داشته باشد، در حالی که میزان درآمد لزوماً تأثیری رو تعداد مقالات نگذارد. به متغیری که می‌تواند بر متغیر(های) دیگر تأثیرگذار باشد، «متغیر پیش‌بین» (predictor variable) نیز گفته می‌شود. بنابراین، در این بخش به آزمون‌هایی خواهیم پرداخت که چنین قابلیتی دارند.

رگرسیون (و انواع گوناگون آن) رایج‌ترین آزمون آماری است که برای بررسی تأثیر یک متغیر بر دیگری مورد استفاده قرار می‌گیرد. با این حال، آزمون‌های دیگری نظری لاندا یا دی سامرز نیز برای بررسی تأثیر متغیرها به‌کار می‌روند.

لاندای گودمن و کروسکال (Goodman and Kruskal’s lambda): در بررسی تأثیر متغیرها، زمانی که مقیاس گردآوری داده اسمی است، از این آزمون استفاده می‌شود. «لاندا» عنوان اختصاری است که اغلب به‌جای لاندای گودمن و کروسکال استفاده می‌شود. لاندا یک آزمون نامتقارن به‌شمار می‌آید، و نمونه متقارن آن آزمون تاوی گودمن و کروسکال (Goodman and Kruskal’s tau) است. زمانی که متغیرهای مستقل و وابسته مشخص نباشند، یعنی کدام متغیر تأثیرگذار است و کدام یک تأثیر می‌پذیرد، این آزمون مناسب‌ترین راهکار محسوب می‌شود.

دی سامرز (Somer’s d): زمانی که داده در مقیاس رتبه‌ای گردآوری شده باشد، آزمون دی سامرز مناسب‌ترین آزمون برای بررسی تأثیر متغیرها است. این آزمون نیز یک آزمون نامتقارن به‌شمار می‌آید.

تحلیل رگرسیون: رگرسیون تحلیلی است آماری که به بررسی و مدل‌سازی میان دو متغیر (مستقل و وابسته) می‌پردازد. تحلیل رگرسیون به دنبال سنجش تأثیر و میزان اثرگذاری متغیر(های) مستقل بر وابسته است. بنابراین، از طریق رگرسیون می‌توان پی برد که آیا می‌توان متغیر وابسته را از روی متغیر مستقل برآورد کرد، و میزان این برآورد احتمالاً چقدر است. انواع گوناگون تحلیل‌های رگرسیون برای شرایط متفاوت پیش‌بینی شده است. در هرکدام از این انواع، ممکن است رگرسون معنادار نباشد، یعنی آن‌که متغیر مستقل تأثیری روی متغیر وابسته نداشته باشد. در این نوع رگرسیون برای آزمون مدل و معنی داربودن اثر هر متغیر در مدل، به ترتیب، از آماره‌های «F» و «t» استفاده می‌شود. در ادامه، به رایج‌ترین انواع رگرسیون اشاره خواهد شد.

  • رگرسیون خطی ساده (Simple Linear Regression): زمانی از این آزمون استفاده می‌شود که پژوهشگر می‌خواهد تأثیر «یک» متغیر مستقل بر روی «یک» متغیر وابسته را مورد سنجش قرار دهد. به این آزمون «رگرسیون دومتغیره» (Bivariate Regression) هم گفته می‌شود. پژوهشگر باید توجه داشته باشد، زمانی می‌توان از تحلیل رگرسیون (ساده و چندگانه) استفاده کرد که اولاً مقیاس گردآوری داده فاصله‌ای یا نسبی باشد و دوماً ارتباط میان دو متغیر به لحاظ آماری معنادار باشد.
  • رگرسیون چندمتغیره (Multiple Regression): زمانی که تعداد متغیرهای مستقل دو و یا بیشتر باشد، دیگر رگرسیون خطی ساده نمی‌تواند نتایج دقیقی از تأثیر این متغیرها به‌دست دهد. در چنین شرایطی از رگرسیون چندمتغیره استفاده می‌شود. رگرسیون چندمتغیره با نام «رگرسیون چندگانه» نیز شهرت دارد. خود رگرسیون چندگانه دارای انواع گوناگونی است: روش هم‌زمان (Enter Method)، روش گام‌به‌گام (Stepwise Method)، روش حذفی (Remove Method)، روش پس‌رو (Backward method)، و روش پیش‌رو (Forward Method) از انواع رگرسیون چندمتغیره به‌شمار می‌آیند. در روش هم‌زمان تمام متغیرهای مستقل بدون هیچ شرط و معیاری وارد محاسبه می‌شوند و تأثیر آنها سنجیده می‌شود. در روش گام‌به‌گام، متغیرها تک‌به‌تک وارد محاسبه خواهند شد. در روش حذفی، یک متغیر به صورت موقت حذف می‌شود، اگر نتیجه بهتر باشد، کلاً حذف خواهد شد. در روش پس‌رو تمام متغیرها وارد محاسبه شده و با استفاده از یک معیار تک‌به‌تک حذف می‌شوند. در روش پیش‌رو برای ورود یک متغیر به محاسبه از یک معیار استفاده خواهد شد، برای مثال ضریب همبستگی پیرسون.
  • رگرسیون لجستیک (Logestic Regression) دوگانه و چندگانه: زمانی که متغیر وابسته دو بعدی (dichotomous) باشد (مانند خوب یا بد بودن)، از متغیر لجستیک استفاده می‌شود. متغیرهایی که این‌چنین دارای دو موقعیت هستند، در آزمون رگرسیون لجستیک قابل پاسخگویی هستند. اگر تنها یک متغیر مستقل در محاسبه وارد شود، از رگرسیون لجستیک دوگانه (Binomial logistic regression)، و اگر بیش از این تعداد باشد از رگرسیون لجستیک چندگانه استفاده خواهد شد.
  • رگرسیون تخمین منحنی (Curve Estimation): در این روش داده و نمودارهای گوناگون آن با کاربرد 11 مدل متفاوت آزمون خواهند شد. به این صورت که یک مدل متمایز برای هر متغیر وابسته تشکیل خواهد شد.
  • رگرسیون رتبه‌ای (ordinal regression): زمانی که مقیاس گردآوری داده برای متغیر وابسته رتبه‌ای باشد، از این نوع آزمون استفاده خواهد شد.
  • رگرسیون پروبیت (Probit Regression): زمانی که خروجی یا متغیر وابسته دارای دو بعد باشد از این نوع رگرسیون استفاده خواهد شد. این نوع رگرسیون با عنوان «مدل‌های پروبیت» نیز شناخته شده است. برای مثال، زمانی که بخواهیم متغیرهای مؤثر بر عضو شدن یا نشدن کاربران در کتابخانه را بررسی کنیم، این نوع رگرسیون مناسب‌تر خواهد بود. این رگرسیون مشابه رگرسیون‌های لجستیک است.

علاوه بر مواردی که به آنها پرداخته شد، آزمون‌های آماری دیگری نیز هستند که نمی‌توان آنها را به سادگی در یکی از دسته‌های بالا طبقه‌بندی کرد. این آزمون، سطح پیچیده‌تری از روابط را مشخص می‌کنند که جزء هیچ‌کدام از دسته‌های بالا نیست. در ادامه به برخی از این آزمون‌ها اشاره خواهد شد.

تحلیل عاملی (Factor Analysis): از تحلیل عاملی معمولاً برای آگاهی از متغیرهای زیربنایی پدیده یا مفهومی خاص بهره‌برداری می‌شود. به طور خلاصه، می‌توان گفت روشی است برای تحلیل واریانس بین چند متغیر وابسته به‌واسطه توصیفشان بر اساس تعداد اندکی متغیر (یا عامل) نهان جزئی. بنابراین، از طریق تحلیل عاملی مفاهیم پیچیده در قالب متغیرهای جزئی‌تر ساده‌سازی خواهند شد. تحلیل عاملی در دو مورد می‌تواند به پژوهشگر کمک کند: 1) اکتشاف عوامل و 2) تأیید عوامل.

  • تحلیل عاملی اکتشافی (Exploratory factor analysis): در این روش، پژوهشگر هیچ ایده‌ای درباره عوامل موجود در یک مفهوم یا پدیده ندارد. بنابراین، او به دنبال بررسی داده تجربی به منظور کشف و شناسایی شاخص‌ها و روابط میان آنها است. طبیعی است که حجم نمونه در این روش باید بزرگ باشد.
  • تحلیل عاملی تأییدی (Confirmatory factor analysis): برخلاف تحلیل عامی اکتشافی، پژوهشگر در روش تحلیل عاملی تأییدی مفاهیم یا پدیده‌ها را به شاخص‌ها و عوامل جزئی‌تر شکسته، اما نیازمند تأیید نمونه است. بنابراین، او به دنبال ارائه مدلی مفروض برای تبین یا توضیح داده تجربی بر اساس شاخص‌های گوناگون است.

تحلیل واریانس چند عاملی (Factorial ANOVA): زمانی که پژوهش به دنبال مقایسه تغییرات یک یا چند متغیر وابسته بین یک یا چند گروه است (که مقیاس گردآوری داده آنها اسمی یا طبقه‌ای است) از این آزمون استفاده می‌کند. برای مثال، زمانی که پژوهشگر نیاز به مقایسه ارتباط میان سن و تعداد مقالات در دو گروه زن و مرد دارد.

test selection

در تمامی آزمون‌های آماری که شرح آنها رفت، مسئله مهمی که باید مورد توجه پژوهشگر قرار گیرد، آن است که آیا ارتباط یا تفاوت میان متغیرها «معنادار» است یا خیر. معناداری آماری اصطلاحی است که برای پاسخ به این پرسش استفاده می‌شود. واگان چهار گام اصلی برای بررسی معنادار بودن یا نبودن یک رابطه را متصور می‌شود:
طرح دو فرضیه مکمل: در گام نخست پژوهشگر باید دو فرض را مطرح کند: «فرض صفر» یا Ho و «فرض تحقیق» یا Ha. فرض صفر همواره بر نبودن ارتباط یا تفاوت دلالت دارد، و در مقابل، فرض تحقیق بر وجود این ارتباط یا تفاوت تأکید می‌کند.

محاسبه آماره آزمون: داده گردآوری شده، در آزمون آماری، در قالب یک رقم خلاصه می‌شود، که به آن آماره آزمون می‌گویند و از آن به‌عنوان معیاری برای رد یا تأیید فرضیه استفاده می‌شود.

تعیین احتمال صحت فرضیه صفر (مقدار P): مقدار P (P-value) ارزشی است که برای رد یا تأیید فرض صفر بکار می‌رود. هرچه این ارزش کوچکتر باشد، شواهد برای رد فرضیه صفر محکم‌تر است.

مقایسه مقدار P با سطح معناداری تعیین شده (آلفا): مقدار آلفا را معمولاً برابر 05/0 فرض می‌کنند. حال اگر مقدار P مساوی یا کوچکتر از آلفا باشد، فرض صفر رد می‌شود؛ در صورت رد فرض صفر، فرض مخالف یا فرض تحقیق تأیید می‌شود. بنابراین، در چنین شرایطی ارتباط یا تفاوت میان متغیرها معنادار خواهد بود.

زمانی که پس از اجرای آزمون‌های آماری مشخص شد که تفاوت یا ارتباط میان متغیرها به لحاظ آماری معنادار است، می‌توان نتایج نمونه را به جامعه تعمیم داد؛ در اصطلاح‌شناسی آمار به این پدیده استنباط آماری گفته می‌شود. در ادامه استنباط آماری تشریح خواهد شد.

positive relation

یکی از دلایل استفاده از آمار و آزمون‌های آماری در پژوهش تعمیم نتایج به‌دست آمده از نمونه پژوهش به جامعه پژوهش است؛ زمانی که این تعمیم صورت گیرد، اصطلاحاً استنباط آماری رخ داده است. استنباط آماری به دنبال تعمیم نتایج به‌دست آمده از پژوهش بر روی یک نمونه آماری به جامعه بزرگتری است که این نمونه از آن برداشت شده است. استنباط آماری تنها زمانی مورد نیاز است که:
  • نمونه به صورت تصادفی گزینش شده باشد؛ و
  • نسبت پاسخ‌ها بسیار بالا است.
بنابراین، در موارد زیر استنباط آماری مناسب نخواهد بود:
  • از روش‌های غیرتصادفی برای گزینش نمونه‌ها استفاده شده باشد؛
  • نسبت پاسخ‌ها پایین باشد؛ و
  • داده گردآوری شده از جامعه پژوهش به‌دست آمده باشد (سرشماری).

به طور خلاصه، آمار استنباطی نوعی برآورد حساب‌شده یا حدس بخردانه است؛ در حالی که آمار توصیفی داده گردآوری شده را خلاصه و توصیف می‌کند، آمار استنباطی از داده گردآوری شده به عنوان مبنایی برای برآورد یا استنباط استفاده می‌کند.

آمار استنباطی برای تعیین این‌که یافته‌های حاصل از پژوهش «از روی شانس» و اتفاقاً به‌دست آمده‌اند یا نه به‌کار می‌رود. از این رو، اگر نتایج از روی شانس و بر حسب یک اتفاق به‌دست آیند، به لحاظ آماری معنادار نخواهد بود؛ این به آن معنا است که امکان تعمیم دادن یافته‌های حاصل از نمونه به جامعه پژوهش وجود نخواهد داشت.

اما تعمیم دادن نتایج حاصل از نمونه به جامعه همواره همراه با تردید است. به عبارت دیگر، به طور مطلق نمی‌توان گفت که نتیجه حاصل از نمونه در همه موارد می‌تواند گویای جامعه باشد. در این شرایط، متخصصان آمار از اصطلاحی با عنوان «سطح اطمینان» (confidence level) استفاده می‌کنند. انتخاب این سطح اختیاری است، اما پژوهشگران معمولاً سطوح 05/0 و 01/0 را به‌عنوان سطح قابل قبول در یک پژوهش می‌پذیرند. در این صورت، یک پژوهشگر اعلام می‌کند که اگر 100 بار این پژوهش انجام شود احتمال دارد که در پنج یا یک مورد نتایج مشابهی به‌دست نیاید.

همچنین، مفهوم دیگری با عنوان «فاصله اطمینان» (confidence interval) یا «بازه اطمینان» در آمار استنباطی اهمیت دارد. فاصله اطمینان تخمین می‌زند که پارامتر جامعه (پارامتر برای ذکر ویژگی جامعه و آماره برای ذکر ویژگی نمونه کاربرد دارد) در میان دو عدد مشخص قرار می‌گیرد.

با این حال، در تصمیم‌گیری‌های مبتنی بر احتمالات همیشه امکان اشتباه وجود دارد. به عبارت دیگر، ممکن است پژوهشگر با خطای آماری مواجه شود. منظور از خطای آماری آن است که پژوهشگر در فرایند گردآوری و تجزیه و تحلیل داده دچار اشتباه نشده، بلکه این خطا خارج از کنترل پژوهشگر است. خطاهای آماری دو نوع هستند: «خطای نوع اول» (type I error) و «خطای نوع دوم» (type II error).

انواع خطاهای آماری

table1

بر اساس این جدول، زمانی که فرض صفر را به اشتباه رد کنیم، مرتکب خطای نوع اول؛ و زمانی که فرض صفر را به اشتباه تأیید کنیم، مرتکب خطای نوع دوم شده‌ایم.

در پژوهش و تحلیل کیفی، به دلیل ماهیت این رویکرد ـ یعنی عینی نبودن ـ احتمال سوگیری وجود دارد. یعنی در مراحل گوناگون پژوهش، و به‌ویژه در تحلیل داده، پژوهشگر ممکن است خواه ناخواه در کار خود دچار سوگیری شود. این سوگیری می‌تواند به صحت و سقم داده، یافته‌ها، و در نهایت نتایج پژوهش آسیب وارد کند، و اعتماد به پژوهش را پایین آورد.

در پژوهش کمی، دیدگاه غالب آن است که به دلیل عینی بودن این نوع رویکرد سوگیری در آن غیرممکن است. ببی (2013، 466) شدیداً این گزاره را رد می‌کند و می‌گوید: «تحلیل کمی مصون از سوگیری  نیست». به اعتقاد او «امکان سوگیری  حتی در پژوهش‌هایی که در سطوح بالای ریاضیاتی نیز انجام می‌شوند وجود دارد». سوگیری  در تحلیل کمی می‌تواند به اینگونه اتفاق بیافتد که پژوهشگر داده را به گونه‌ای اندازه‌گیری یا تحلیل کند که یافته‌ای بر یافته‌ای دیگر رجحان داده شود. بنابراین، پژوهشگر باید مراقب باشد که در تحلیل خود دچار سوگیری  نشود و داده را آنگونه که هست تحلیل کند، و تحلیل را آنگونه که هست تفسیر کند.

مهم نیست چقدر طراحی پژوهشتان را خوب انجام داده‌اید؛ چقدر نمونه یا جامعه پژوهش خود را دقیق انتخاب کرده‌اید؛ چقدر ابزار پژوهشتان را دقیق طراحی کرده‌اید و چقدر کامل و دقیق داده موردنیاز پژوهشتان را گردآوری کرده‌اید و در تک تک مراحل گردآوری داده دقت نظر داشته‌اید. در نهایت ارزش واقعی پژوهش شما بسته به این دارد که چقدر در ارائه داده‌ها موفق هستید یعنی چقدر خواننده پژوهشتان می‌تواند آنها را بفهمد و از آنها استفاده کند. برای تامین چنین هدفی برای تنظیم گزارش داده‌های پژوهشتان موارد زیر را مدنظر قرار دهید

گزارش داده‌های پژوهشتان را با مقدمه‌ای کامل درباره چگونگی گردآوری داده پژوهش و نتایج آن آغاز کنید.

برای نمایش نتایج پژوهشتان از نمودار، جدول و به طور کلی گرافیک‌های تصویری استفاده کنید. ارائه بصری داده درباره یافته‌های پژوهشتان چیزهایی می‌گوید که قطعا ارائه صرف عدد و رقم نمی‌تواند چنین کاری را انجام دهد.

یافته‌های جالب را برجسته کنید. نیازی نیست همه جزئیات را گزارش دهید. 

از ارائه حجم زیادی داده خام پرهیز کنید، سعی کنید تحلیل متمرکزی ارائه دهید- الزاما هر پرسشی که در پرسشنامه‌ وجود دارد لازم نیست در گزارش ظاهر شود.

انتظار نداشته‌ باشید که آمار و ارقام نتایج گزارش را توضیح دهند. برای بیان معنای داده‌ها،‌ پر کردن صفحات با تعداد زیادی نمودار و جدول کافی نیست و ناکارآمد است.

به جای توصیف صرف داده، به تحلیل و تفسیر آن بپردازید و برای انجام این تحلیل پرسش-مبنا فکر کنید و بنویسید. یعنی با استناد به داده‌ها به پرسش پژوهشتان پاسخ دهید و آن را به صورت داستان‌گونه برای خواننده تعریف کنید.

تا حد ممکن گزارش داده‌ها را ساده بنویسید. آمارهای پیچیده باعث سردرگمی خواننده می‌شوند و فهم مطالب را ناممکن می‌سازند.

اگر تعداد پرسشنامه‌های تکمیل شده توسط پاسخگویان کمتر از صد مورد است از درصد و نسبت برای توضیح یافته‌ها استفاده نکنید. این نوع ارائه ممکن است قدری گمراه‌کننده باشد. به جای آن برای ارائه گزارش داده‌های پژوهشتان به تعداد اشاره کنید تا درصد یا نسبت. به عنوان مثال اگر در مجموع 25 نفر به پرسشنامه شما پاسخ دادند، به جای اینکه بگویید:

80 درصد از دانش‌آموزان وضعیت .... را خوب ارزیابی کردند.

بگویید:

20 نفر از دانش‌آموزان وضعیت .... خوب ارزیابی کردند.

اگر بیش از یک روش در پژوهش خود استفاده کرده‌اید، درباره یافته‌های پژوهش به دست آمده از هر روش تحلیل و تفسیر خود را ارائه دهید. به عنوان مثال توضیح دهید که آیا یافته‌های پیمایش، یافته‌های مصاحبه‌ گروه‌های کانونی را پشتیبانی می‌کنند؟

به عنوان یک قاعده کلی هر گونه ادعای علمی که مبتنی بر داده کمی مطرح می‌شود باید اطلاعاتی درباره پنج بعد مهم زیر داشته باشد:

  • بزرگی/اندازه/مقدار: تفاوت چقدر بزرگ است و همبستگی چقدر قوی‌ست؟
  • دقت - چقدر یافته‌ها دقیق هستند؟
  • تعمیم‌پذیری – تا چه حد یافته‌ها درباره جامعه مشابه در موقعیت‌های دیگر – به غیر از موقعیت موردمطالعه – مصداق دارند/ تعمیم‌پذیر هستند؟
  • جالب بودن – چقدر یافته‌ها مربوطند و برای دیگران جالب هستند؟
  • قابل اعتماد بودن – آیا به لحاظ روش‌شناختی و نظری یافته‌ها قابل باور هستند؟

و یادآوری درباره دو نکته که باید موقع تفسیر و گزارش داده‌های کمی مدنظر قرار گیرند:

  • ارزش یا تفاوت آماری (statistical significance)‌ با ارزش یا تفاوت ذاتی (substantive significance) داده‌ها یکی نیست. 
  • ارزش آماری با اندازه تاثیر یکی نیست.
واگان، لیون. روش‌ ه‍ای‌ آم‍اری‌ ب‍رای‌ م‍ت‍خ‍ص‍ص‍ان‌ ک‍ت‍اب‍داری‌ و اطلاع‌ رس‍ان‍ی: روی‍ک‍رد ک‍ارب‍ردی‌ و س‍اده‌ ب‍رای‌ درک‌ اس‍ت‍ف‍اده‌ و ت‍ف‍س‍ی‍ر آم‍ار. ترجمه محمدرضا قانع و کیوان کوشا. تهران: چاپار، 1384

Andersen, Per Kragh, and Lene Theil Skovgaard. Regression with linear predictors. Springer Science & Business Media, 2010

Babbie, Earl. The basics of social research. Cengage Learning, 2013

Blaikie, Norman. Analyzing quantitative data: From description to explanation. Sage, 2003

Cramer, Duncan, and Dennis Laurence Howitt. The Sage dictionary of statistics: a practical resource for students in the social sciences. Sage, 2004

Gau, Jacinta M. Statistics for Criminology and Criminal Justice. SAGE Publications, 2015

Gordon, Rachel A. Applied statistics for the social and health sciences. Routledge, 2012

Evidence for Excellence in Education. 2015. Developing young researchers: How to present your results, National Foundation for Educational Research (nfer), UK

Rosenthal, James A. Statistics and data interpretation for social work. Springer Publishing Company, 2011

در ادامه منابع مفید برای مطالعه بیشتر - به تفکیک نوع منبع - آمده‌اند.


منابع پژوهش منابع پیشنهادی برای مطالعه بیشتر

پیشنهاد منبع

 


نمونه‌ها بر اساس رشته

پیشنهاد منبع

 

دیدگاه‌ها

    ثبت دیدگاه

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


    2 + 7 =