پس از آنکه مرحلۀ گردآوری داده به پایان رسید، پژوهشگر(ان) وارد مرحلۀ جدیدی در فرایند انجام پژوهش، با نام مرحله تحلیل داده میشوند. ممکن است در پژوهشهای کیفی مرحله تحلیل داده همزمان با مرحلۀ گردآوری داده آغاز شود؛ به این معنی که پژوهشگر در عین حال که داده گردآوری میکند به تحلیل آن بپردازد و پس از تحلیل دوباره به گردآوری داده بپردازد. اما در پژوهشهایی که در رویکرد کمی انجام میشوند، به طور معمول مرحله تحلیل داده پس از مرحلۀ گردآوری داده آغاز میشود.
برخلاف پژوهشگر کیفی که به تحلیل متن و واژهها میپردازد، پژوهشگر کمی با عدد و رقم سروکار دارد. به احتمال، بسیاری تصور میکنند که تحلیل داده کمی آسانتر از تحلیل دادۀ کیفی است، در حالی که این گزاره صحیح نیست. به اعتقاد ببی (2013، ص 391)، انجام تحلیل داده کمی ـ هرچند ساده ـ نیز بسیار دشوار است، چراکه این تحلیل مستلزم برخورداری از مهارتهای آماری است. به همین دلیل گاهی بهجای «تحلیل کمی» از «تحلیل آماری» استفاده میشود. اگرچه نیازی به مهارتهای سطح بالا و پیچیده نیست، و تفکر (thought) و تصور (imagination) برای تحلیل قوی، پرمفهوم، و معنادار داده کمی بیشتر به کمک پژوهشگر میآیند.
در ادامه گام به گام تحلیل داده کمی تشریح میشود.
آنچنان که از واژۀ «کمی» در عبارت «تحلیل کمی» استنباط میشود، این گونه تحلیلها معمولاً با عدد و رقم سروکار دارند. کار کردن با این اعداد و ارقام قبل از رواج فناوری دشوار بوده، اما رایانه این دشواری را تا حد زیادی برطرف کرده است. نرمافزارهای رایانهای مانند اس.پی.اس.اس. (SPSS)، لیزرر (LISRER)، اس.اَی.اس. (SAS)، میکروکَیس (MicroCase)، و غیره برای پاسخگویی به نیاز کار با داده کمی بر روی رایانه توسعه پیدا کردهاند. بنابراین، به نظر ببی (2013، ص 422) اولین گام در تحلیل داده کمی، به شکل عدد و رقم درآوردن، یا به اصطلاح کمی کردن (Quantification)، داده است؛ به شکلی که این داده توسط رایانه قابل فهم باشد. کمی کردن داده یعنی تبدیل داده متنی به داده عددی، که به آن کدگذاری هم گفته میشود. به همین دلیل، پژوهشگر در این مرحله به یک دفترچه کد (codebook) نیاز دارد. چنین دفترچهای در تمامی مراحل تجزیه و تحلیل داده از ابزارهای کاربردی پژوهشگر است.
برای مثال، زمانی که یک پیمایش انجام میشود و در این پیمایش برای سنجش میزان یک متغیر از طیف لیکرت استفاده شده، پژوهشگر باید این طیف را به اعداد تبدیل کند (مثلاً طیف پنج ارزشیِ خیلی کم تا خیلی زیاد را به اعداد 1 تا 5 ترجمه کند). یا میتوان از مقادیر «صفر» و «یک» برای سازماندهی داده استفاده کرد؛ یعنی به انتخابهای پاسخ داده شده مقدار «یک» و به پاسخهای خالی مقدار «صفر» اختصاص داد. هرچند، برخی از پاسخهایی که از پیمایش گردآوری میشوند (مانند سن، قد، وزن، و غیره) لزوماً کمی هستند.
ورود داده (data entry) به مرحله وارد کردن داده گردآوری شده توسط پژوهشگر (در شکل کاغذی و نوشتاری) در رایانه است. به این گام «انتقال داده» (transforming data) نیز گفته میشود؛ به این معنا که داده گردآوری شده به قالب ماشینخوان تبدیل میشود. ابزارهای جدید برای توزیع پرسشنامه به صورت برخط، تا حدودی این مرحله را حذف کردهاند. زمانی که پژوهشگر داده را از طریق پرسشنامهای برخط گردآوری میکند، داده گردآوری شده لزوماً ماشینخوان است، بنابراین نیاز به مرحله ورود داده حذف خواهد شد. به احتمال، تنها فرایند انتقال داده از ابزار گردآوری داده به نرمافزار تحلیل داده کافی است. اما اگر مرحله گردآوری داده به شکل فیزیکی و چاپی انجام شود، ورود داده اجتنابناپذیر است.
بسته به نرمافزار تحلیل آماری مناسب برای تحلیل داده، ورود داده متفاوت است. به عبارت دیگر، ورود داده باید در نرمافزاری صورت گیرد که قرار است داده از طریق آن تجزیه و تحلیل شود. برای مثال، اگر پژوهشگر از اس.پی.اس.اس. برای تجزیه و تحلیل داده استفاده میکند، داده باید وارد این نرمافزار شود. اما، از آنجا که همه پژوهشگران ممکن است مهارت کافی برای کار با اس.پی.اس.اس. نداشته باشند، میتوان داده را در نرمافزارهای رایجتر وارد کرد و از این نرمافزارها به نرمافزارهای خاص انتقال داد. نرمافزار مایکروسافت اکسل (MS Excel) از نمونه این نرمافزارهای رایج است که به احتمال بیشتر پژوهشگران در کار کردن با آن مشکلی ندارند. برای مثال، زمانی که داده از طریق پرسشنامه گردآوری میشود، پژوهشگر میتواند این داده را ابتدا وارد نرمافزار اکسل کند و سپس از محیط اکسل به محیط اس.پی.اس.اس. انتقال دهد. ویرایشهای جدید نرمافزارهای تحلیل آماری، به طور معمول، امکان ایجاد دفترچه کد را نیز فراهم میکنند.
پس از ورود داده، گام بعدی در فرایند تجزیه و تحلیل کمی «تأیید داده» (data verification) است. تأیید داده یعنی حصول اطمینان از اینکه داده گردآوری شده کاملاً صحیح است و قابلیت تجزیه و تحلیل دارد. اما چرا این مرحله الزامی است؟ پاسخ این پرسش به خطاپذیری فرایند گردآوری و ورود داده برمیگردد. در مرحله گردآوری داده، ممکن است برخی از پاسخدهندگان به گویهها پاسخ نادرست داده باشند، یا به بیشتر گویهها پاسخ نداده و پرسشنامه آنها قابل تجزیه و تحلیل نیست. یا حین ورود اطلاعات، اشتباهی رخ داده باشد و داده وارد شده را با خطا مواجه سازد. بنابراین، این خطاها باید برطرف شوند تا دقت تجزیه و تحلیل داده بیشتر شود. در حال حاضر، بیشتر نرمافزارهای تحلیل کمی امکان تعریف کردن دستورهایی نرمافزاری جهت نادیده گرفتن خطا را فراهم میکنند. برای مثال، حین ورود داده مربوط به جنسیت ـ که باید به صورت «صفر» و «یک» وارد شود ـ دستوری ارائه میشود که داده غیر از مقادیر تعریفشده در مرحله تجزیه و تحلیل نادیده گرفته شوند.
پس از کمی کردن، ورود، و تأیید داده، نوبت به تجزیه و تحلیل داده میرسد. در واقع، میتوان سه گام پیشین را به عنوان مقدمات فرایند تحلیل کمی در نظر گرفت که به مهارتهای ویژهای نیازمندند و میتوانند توسط افراد دیگر (غیر از خود پژوهشگر) انجام شوند، اما تجزیه و تحلیل داده عملی است که علاوه بر مهارت به تخصص نیز نیاز دارد. از این رو، حضور پژوهشگر در این مرحله الزامی است. تجزیه و تحلیل داده کمی را ممکن است، بر اساس ماهیت، به دو نوع آمار توصیفی (شامل شاخصهای مرکزی، پراکندگی، و غیره) و آمار تحلیلی (به طور معمول، شامل آزمونهای آماری) دستهبندی کنند. اما به نظر ببی (2013، 448)، این مرحله میتواند در سه نوع خلاصه شود: تحلیلهای تکمتغیره، دومتغیره، و چندمتغیره. هرکدام از این تحلیلها در ادامه تشریح خواهند شد.
توزیعهاسادهترین نحوه نمایش و گزارش ویژگیهای توزیعی موارد بررسی شده در پژوهش، یعنی ویژگیهای یک متغیر، است. از رایجترین ویژگیها برای توصیف جامعه گزارش «فراوانی» (frequency) یا «توزیع فراوانی» (frequency distribution) است. منظور از فراوانی «تکرار پیشامدهای حاصل از یک آزمایش» است. برای مثال، اگر پرسشنامهای میان نمونه پژوهش توزیع شده، تعداد تکرار پاسخها به هرکدام از انتخابهای گویههای پرسشنامه میتواند به عنوان فراوانی گزارش شود. فراوانی خود دارای سه نوع است:
- فراوانی مطلق: تعداد تکرار پیشامدها؛
- فراوانی نسبی: تعداد تکرار پیشامدها به نسبت تعداد پاسخها؛
- فراوانی تجمعی (cumulative frequency): تعداد تکرار پیشامدهایی که مقدارشان از کران بالای آن دسته کمتر باشد.
گزارش «درصد» (percent) پاسخها نیز از دیگر ویژگیهایی است که درباره توصیف یک مورد بهکار میرود. صرف گزارش فراوانی نمیتواند دید روشنی درباره نسبت پاسخهای دریافت شده بدهد، اما گزارش درصد پاسخها این امکان را فراهم میکند. درصد نیز دارای سه نوع متفاوت است:
- درصد مطلق: نشاندهنده درصد هرکدام از فراوانیها؛
- درصد معتبر (یا صحیح) (valid percent): مقدار درصد معتبر همیشه یا مساوی یا بیشتر از درصد مطلق است. ممکن است پاسخدهندگان به برخی از گویهها یا پرسشها پاسخ ندهند، درصد معتبر پس از حذف فراوانی پاسخها نامعتبر بهدست خواهد آمد؛
- درصد تجمعی (cumulative percent): درصد فراوانیهایی که مقدارشان از کران بالای آن دسته کمتر باشد.
گزارشهای فوق را هم میتوان در جدولهای عددی سازماندهی کرد، هم میتوان آنها را به صورت متنی آورد، یا آنکه آنها را در قالب نمودارهای گوناگون (میلهای، ستونی، دایرهای، خطی، نقطهای، شاخه ـ برگ، و غیره) نشان داد. در استفاده از هرکدام این شیوهها باید توجه کرد که کدام یک میتوانند به بهترین شکل در انتقال اطلاعات به پژوهشگر کمک کند. برای مثال، برای گزارش تعداد زنان و مردان مشارکت کننده در پژوهش، اگر هدف مقایسه این دو گروه است، بهتر است از نمودار دایرهای استفاده شود؛ چراکه در کوتاهترین زمان اطلاعات کاملی مبنی بر این مقایسه در اختیار مخاطبان قرار دهد. اما اگر قصد ما نشان دادن شکل یک توزیع است، هیستوگرام (histogram) احتمالاً مناسبترین نحوه ارائه اطلاعات است. زمانی که ارزشهای گردآوری شده را بر اساس فراوانی آنها در قالب نمودار هیستوگرام نشان میدهیم، این نمودار شکلهای متعددی میتواند به خود بگیرد. منظور از شکل توزیع فراوانی، هر کدام از این شکلها هستند. به طور کلی، این شکلها را میتوان به «توزیع متقارن» و «توزیع غیرمتقارن» دستهبندی کرد.
انواع شکلهای توزیع فراوانی
در توزیع غیرمتقارن ارزشهای کمتر یا بیشتر در یک توزیع از فراوانی بیشتری برخوردارند. به این نوع توزیع اصطلاحاً «توزیع چوله» نیز گفته میشود. اگر ارزشهای پایینتر در یک توزیع از فراوانی بیشتری برخوردار باشند، قسمت ابتدایی نمودار بلندتر از قسمت انتهای آن خواهد شد؛ در این حالت توزیع چوله و دارای چولگی مثبت است (نمودار a). حال اگر عکس این مسئله اتفاق بیافتد، یعنی بخش انتهایی نمودار بلندتر از بخش ابتدایی باشد، توزیع چوله و دارای چولگی منفی است (نمودار b).
در «توزیع متقارن» (symmetrical distributions) دو نیمه توزیع متقارن همدیگر هستند، یعنی اگر کاغذ را از نیمه تا کنیم، دو نیمه کاملاً رو همدیگر متقارن خواهند بود (نمودار c). خود توزیع متقارن میتواند شکلهای گوناگونی داشته باشد.
انواع شکلهای توزیع فراوانی
رایجترین و مهمترین این توزیعها، «توزیع نرمال» است. استفاده از بسیاری از شاخصها و آزمونهای آماری برای گزارش ویژگیهای داده و گزارش یافتههای پژوهش وابسته یه شکل توزیع فراوانی، و نرمال بودن یا نبودن یک توزیع است. در توزیع نرمال (که به آن توزیع زنگولهای نیز گفته میشود) فراوانی ارزشهای میانی بیش از ارزشهای ابتدایی و انتهایی یک توزیع است. بنابراین، هرچه از وسط توزیع به سمت ارزشهای ابتدایی و انتهایی آن حرکت میکنیم تعداد فراوانیها کم و کمتر میشود. واگان میزان فراوانی ارزشها در یک توزیع نرمال را در نمودار 3 نشان داده است.
احتمالات مبتنی بر توزیع نرمال
همانطور که در نمودار دیده میشود، فراوانی ارزشهایی که به میانگین نزدیکتر هستند، در توزیع نرمال بیشتر از ارزشهایی است که در بخش ابتدایی یا انتهایی توزیع قرار گرفتهاند. از آنجایی که تشخیص نرمال بودن یک توزیع همیشه به این آسانی ـ با رسم هیستوگرام و نگاه به نمودار ـ نیست، متخصصان آمار از یک آزمون آماری با نام «کلموگروف ـ اسمیرنوف» (Kolmogorov-Smirnov) بهره میگیرند. کلموگروف ـ اسمیرنوف یک آزمون تطابق توزیع برای داده کمی است. آزمون نرمال بودن یک توزیع یکی از شایعترین آزمونها برای نمونههای کوچک است که پژوهشگر به نرمال بودن آن شک دارد. اساس این روش بر اختلاف میان فراوانی تجمعی نسبی مشاهدات با مقدار مورد انتظار تحت فرض صفر است. فرض صفر میگوید که نمونه انتخاب شده دارای توزیع نرمال است. آزمون کلموگروف ـ اسمیرونوف برای تطابق توزیع، احتمالهای تجمعی مقادیر در مجموعه داده را با احتمالهای تجمعی همان مقادیر در یک توزیع نظری خاص مقایسه میکند. در این آزمون اگر «معیار تصمیم» (P-Value) کمتر از 05/0 باشد فرض صفر رد میشود. امروزه، نرمافزارهای تحلیل آماری اجرای این آزمون را بسیار ساده کردهاند. برای مثال، در برنامه اس.پی.اس.اس. در بخش آزمونهای ناپارامتریک میتوان این آزمون را پیدا کرد.
علاوه بر توزیعهایی که به آنها اشاره شد، ممکن است پژوهشگر برای خلاصه و توصیف ویژگیهای داده از «شاخصهای گرایش مرکزی» (measures of central tendency) استفاده کند. گرایش مرکزی گرایش داده آماری به مرکز حول یک ارزش خاص است، که این ارزش نماینده مجموعه داده گردآوری شده است. «سه ام» (three Ms) شاخصهایی هستند که به طور معمول در گزارش شاخصهای گرایش مرکزی از آنها استفاده میشود. منظور از سه ام، سه شاخص میانگین (mean)، مد یا نما (mode)، و میانه (median) است. بسته به نوع دادهای که پژوهشگر با آن سروکار دارد، استفاده از هرکدام از این شاخصها متفاوت است. منظور از نوع داده، ماهیتی است که برای اندازهگیری متغیرها بهکار میرود. به طور معمول، از چهار مقیاس برای اندازهگیری متغیرها استفاده میشود: داده اسمی (nominal)، رتبهای (ordinal)، فاصلهای (interval)، و نسبی (ratio).
داده اسمی: دادهای مانند زن یا مرد بودن پاسخدهندگان دارای هیچ ارزش عددی نیست. به عبارت دیگر اسم این داده مهم است و اگر هم عددی به آن اختصاص یابد نشاندهنده ارزش خاصی نیست. این اعداد ممکن است در قالب کدهایی به داده اسمی اختصاص یابد. جنسیت، نژاد یا قومیت، ملیت، و غیره از این جنس هستند.
داده رتبهای: داده رتبهای بهتر /بدتر یا کمتر /بیشتر بودن یک متغیر را میسنجد. ولی مقیاسی کلی ارائه میدهند و نمیتوان از طریق داده رتبهای به این نتیجه رسید که میزان بهتر /بدتر بودن یا کمتر /بیشتر بودن چقدر است. دادهای که از طریق طیف لیکرت (خیلی زیاد، زیاد، متوسط، کم، خیلی کم) گردآوری میشود نمونه مناسبی درباره این نوع داده است.
داده فاصلهای: داده فاصلهای نوع پیشرفته داده رتبهای هستند. بنابراین، علاوه بر اینکه به پژوهشگر میگویند کدام بهتر /بدتر است کدام کمتر /بیشتر، مقدار را نیز مشخص میکنند. به عبارت دیگر، داده فاصلهای به پژوهشگر میگوید تفاوت داده چه مقدار است. اما باید توجه داشت که داده فاصلهای «صفر مطلق» ندارد؛ یعنی نمیتوان برای مقایسههای نسبتی (برای مثال، فلان چیز دو برابر فلان است) از آنها استفاده کرد.
داده نسبی: کاملترین نوع داده، داده نسبی است. این نوع داده تمام ویژگیهای داده فاصلهای به اضافه «صفر مطلق» را داراست. برای مثال، سن افراد دادهای است که از طریق مقیاس نسبی میتوان آن را اندازه گرفت. بنابراین، میتوان گفت فردی 20 ساله دو برابر یک فرد 10 ساله سن دارد.
به نظر واگان امکان تبدیل داده نسبی به فاصلهای، رتبهای، و اسمی وجود دارد، اما عکس این مسئله صادق نیست. به طور معمول، برای گزارش مقیاسهای نسبی و فاصلهای از شاخصها و آزمونهای پارامتریک، و به منظور گزارش مقیاسهای رتبهای و اسمی از شاخصها و آزمونهای ناپارامتریک استفاده میشود.
در این میان، از میانگین برای گزارش داده نسبی و فاصلهای، از مد برای گزارش داده اسمی، و از میانه برای گزارش داده رتبهای استفاده میشود.
میانگین: احتمالاً میانگین رایجترین شاخص آماری است که در زندگی روزمره بسیار از آن استفاده میشود. میانگین، یا معدل حسابی، از حاصل جمع داده تقسیم بر تعداد آن بهدست میآید. برای مثال میانگین اعداد 10، 12، 14، و 16 از حاصل جمع این اعداد (52) تقسیم بر تعداد این اعداد (4) بهدست خواهد آمد؛ بنابراین، میانگین این اعداد برابر با 13 است.
میانه: میانه به نقطه میانی یک توزیع اشاره دارد. به همین دلیل به آن میانه گفته میشود. برای محاسبه میانه در یک توزیع، ابتدا باید اعداد را از کم به زیاد مرتب کرد، و سپس عدد وسط را به عنوان میانه گزارش کرد. زمانی که تعداد اعداد مفرد باشد گزارش میانه آسان است، اما اگر تعداد ذوج باشد، باید میانگین دو عدد وسط را به عنوان میانه گزارش کرد.
مد: از آنجاکه مقیاس اسمی ارزش عددی ندارد، بنابراین دادهای که در این مقیاس گردآوری شده را نمیتوان در شاخصهای میانگین و میانه گزارش کرد. مد شاخصی است که برای گزارش چنین دادهای استفاده میشود. بر اساس تعریف واگان مد «رخداد فراوانترین عدد در یک توزیع است». برای مثال، در گزارش تعداد مردان و زنان، گروهی که دارای بیشترین فراوانی باشد، مد آن توزیع به شمار میآید.
برای درک بهتر و آسانتر اینکه چه موقع باید از کدام شاخص گرایش مرکزی استفاده کرد، واگان نمودار زیر را پیشنهاد کرده است.
چه موقع از کدام شاخص گرایش مرکزی باید استفاده کرد
روشن است که از هر شاخصی برای توصیف هر نوع دادهای نمیتوان استفاده کرد. استفاده نادرست از این شاخصها برای توصیف داده اعتبار یک گزارش پژوهشی را زیر سؤال خواهد برد. بر اساس نمودار فوق، استفاده از این شاخصها آسانتر است.
بر خلاف تحلیلهای تکمتغیره، مقایسه زیرگروهها شامل دو متغیر ـ یا بیشتر ـ میشود؛ چراکه متغیرهای اصلی میتوانند شامل متغیرهای جزئی نیز باشند. این مقایسه نوع جدیدی از تحلیل با نام تحلیل دومتغیره (bivariate analysis) و چندمتغیره (multivariate analysis) را تشکیل میدهد، که به تحلیل دو یا چند متغیر به طور همزمان میپردازد. در بیشتر پژوهشها، تحلیل دومتغیره و چندمتغیره، علاوه بر توصیف، عنصر دیگری بر پژوهش میافزاید: تعیین روابط میان خود متغیرها. بنابراین، تحلیل تکمتغیره و مقایسه زیرگروهها بر توصیف افراد یا دیگر واحدهای تحلیل تمرکز میکند، در حالی که تحلیل دومتغیره و چندمتغیره بر متغیرها و روابط تجربی میان آنها تأکید دارند.
«توضیح» (explanation) مهمترین مفهومی است که در تحلیل دو و چندمتغیره کاربرد دارد. به عبارت دیگر، در حالی که توزیعها درباره ویژگیهای یک متغیر واحد سخن میگویند، شاخصهای ارتباط، پیوند میان متغیرها را توضیح میدهند. زمانی که دو یا چند متغیر با همدیگر مورد بررسی قرار میگیرند، وضعیتها و الگوهای متعددی میتوانند داشته باشند. برای مثال، ممکن است در بررسی دو متغیر، هرچه مقدار یک متغیر بیشتر شود، اندازه متغیر دیگر نیز افزایش یابد؛ بنابراین، میان دو متغیر «رابطه» وجود خواهد داشت. همچنین، شاید اختلاف میان مقدار دو متغیر به قدری باشد، که به لحاظ آماری «تفاوت» معناداری میان این دو متغیر وجود داشته باشد. یا ممکن است متغیری روی متغیر دیگر تأثیرگذار باشد. همه این ارتباطها پرسشهایی در تحلیل داده کمی بهوجود میآورند که باید آنها را با استفاده از آزمونهای آماری پاسخ گفت.
ممکن است، پژوهشگر پیشتر در پیشنهاده پژوهش ارتباطهای میان متغیرها را به عنوان فرضیه پژوهش یا پرسش مطرح کرده باشد. اگر این ارتباطها به عنوان فرضیه مطرح شده باشند، در این مرحله پژوهشگر به فرضآزمایی آنها از طریق آزمونهای آماری میپردازد. به عبارتی، میتوان گفت این مرحله گام اصلی در تحلیل داده کمی است. بیشتر پژوهشگران تازهکار در این مرحله با مسائل گوناگون مواجه میشوند؛ به دلیل دشواری این گام، ممکن است پژوهشگران از متخصصان یا مشاوران آماری نیز کمک بگیرند. به طور کلی، میتوان انواع رابطه میان متغیرها را در سه حالت دستهبندی کرد: بررسی ارتباط، بررسی تفاوت، بررسی تأثیر. در ادامه به توضیح این سه نوع رابطه خواهیم پرداخت.
واگان برای انتخاب آزمون مناسب در حالتهای متفاوت دو نمودار زیر را پیشنهاد کرده است. بر اساس این نمودارها، بررسی ارتباط و تفاوت، بسته به نوع مقیاس گردآوری داده و نرمال بودن توزیعها در داده گردآوری شده متفاوت است.
انتخاب آزمونهای آماری برای بررسی ارتباط میان متغیرها
انتخاب آزمونهای آماری برای بررسی تفاوت میان متغیرها
زمانی که دو متغیر را با همدیگر به صورت همزمان بررسی میکنیم، ممکن است الگویی در این تحلیل کشف کنیم. به این معنا که با افزایش یک متغیر، متغیر دیگر نیز افزایش یابد؛ یا با افزایش یک متغیر، متغیر دیگر کاهش یابد، و برعکس. به این ترتیب، این رابطه را میتوان به عنوان یک «ارتباط» تعریف کرد. برای بررسی ارتباط از سه آزمون آماری رایج استفاده میشود: مجذور کای (Chi-Suare test)، پیرسون (Pearson correlation coefficient)، و اسپیرمن (Spearman correlation coefficient).
آزمون مجذور کای: به این آزمون مجذور خی یا خی 2 هم گفته میشود. مجذور کاری بهمنظور آزمون فرضیه درباره استقلال فراوانیهایی بهکار میرود که در طبقههای گوناگون قرار گرفتهاند. بنابراین، این آزمون برای بررسی ارتباط در دادهای که در مقیاس اسمی یا رتبهای گردآوری شده کاربرد دارد. به نظر واگان، گزینش تصادفی نمونهها، اسمی یا رتبهای بودن مقیاس گردآوری داده، استقلال مدخل (entries) خانهها از یکدیگر، و بزرگ بودن اندازه فراوانیهای مورد انتظار از جمله شرایطی هستند که برای اجرای این آزمون ضروری هستند.
آزمون همبستگی پیرسون: از انواع آزمونهای پارامتریک است که برای بررسی رابطه یا همبستگی میان دو متغیر از نوع پیوسته (مقیاس فاصلهای یا نسبی)، در صورتی که دارای توزیع نرمال باشند، بهکار میرود. در این آزمون میزان همبستگی خطی بین دو متغیر تصادفی را با استفاده از «ضریب همبستگی پیرسون» میسنجند. همبستگی میان دو متغیر میتواند دو نوع داشته باشد: همبستگی مثبت (با افزایش یک متغیر دیگری نیز افزایش یابد) و همبستگی منفی (با افزایش یک متغیر دیگری کاهش یابد). مقدار این ضریب بین «۱ـ» تا «۱» تغییر میکند؛ ضریب «۱» به معنای همبستگی مثبت کامل، «۰» به معنای نبود همبستگی، و «۱ـ» به معنای همبستگی منفی کامل است.
آزمون همبستگی اسپیرمن: آنجا که به دلیل نرمال نبودن توزیع داده نمیتوان از آزمون پیرسون استفاده کرد، از آزمون اسپیرمن کمک گرفته خواهد شد. بنابراین، آزمون اسپیرمن یک آزمون ناپارامتریک است. در این ضریب همبستگی بهجای استفاده از ارزش متغیرها از رتبههای آنان استفاده میشود. میزان این ضریب نیز بین «۱ـ» تا «۱» تغییر میکند؛ ضریب «۱» به معنای همبستگی مثبت کامل، «۰» به معنای نبود همبستگی، و «۱ـ» به معنای همبستگی منفی کامل است.
بیشتر اوقات پیش میآید که پژوهشگر بخواهد دو جامعه را با همدیگر مقایسه کند، بنابراین باید به مقایسه دو نمونه (که هر یک نماینده جامعه خاص خود هستند) بپردازد. البته ممکن است یک نمونه دو بار مورد آزمون قرار گیرد، به این معنا که مثلاً یک نمونه قبل و پس از یک دوره آموزشی مورد بررسی قرار گیرد. از این رو، اگر یک نمونه واحد قبل و بعد از یک پدیده مورد آزمایش قرار گیرد، نمونههای قبل و بعد از پدیده «وابسته» خواهند بود. اما اگر این نمونهها از دو جامعه متفاوت انتخاب شوند، نمونهها «مستقل» از هم خواهند بود. همچنین، ممکن است پژوهشگر بخواهد تفاوت میان دو گروه یا بیشتر از دو گروه را با همدیگر بسنجد، که در هرکدام از این شرایط نوع آزمون آماری که برای بررسی تفاوت گزینش میشود متفاوت است.
بر اساس نمودار 5، به طور کلی حدود شش آزمون آماری در بررسی تفاوت رایج هستند: آزمون تی جفتی (paired t-test)، آزمون تی مستقل (independent t-test)، آنوا: آزمون تحلیل واریانس (ANOVA: analysis of variance)، آزمون کروسکال ـ والیس (Kruskal Wallis Test)، آزمون مان ـ ویتنی (Mann Whitney U test)، آزمون ویلکاکسون (Wilcoxon signed-rank test).
از آزمونهای بالا، آزمون ویلکاکسون، مان ـ ویتنی، و کروسکال ـ والیس از جمله آزمونهای ناپارامتریک، و در مقابل آزمونهای تی جفتی، تی مستقل، و تحلیل واریانس از انواع آزمونهای پارامتریک هستند. همچنین، آزمونهای تحلیل واریانس و کروسکال ـ والیس برای بررسی تفاوت میان بیش از دو گروه، و سایر آزمونها برای بررسی تفاوت میان دو گروه مناسب هستند.
آزمون تی جفتی: هدف از آزمون تی جفتی بررسی تفاوت میان دو نمونه وابسته است. ورودیهای این آزمون از میانگین نمونهها و تغییر ارزشها در دو نمونه تأمین میشود. بنابراین، این آزمون از نمونههای پارامتریک است. به چنین آزمونهایی واژه درون ـ موردی نیز اطلاق میشود. به نظر واگان (1384، 184)، گزینش تصادفی نمونهها، فاصلهای یا نسبی بودن مقیاس گردآوری داده، برخورداری جوامع از توزیع نرمال، و تساوی نسبی انحراف معیار دو نمونه از جمله شرایطی هستند که برای اجرای این آزمون ضروری هستند. زمانی که یکی از این شرایط فراهم نباشد، باید نمونه ناپارامتریک این آزمون، یعنی آزمون ویلکاکسون اجرا شود.
آزمون تی مستقل: هدف از آزمون تی مستقل بررسی تفاوت میان دو نمونه مستقل است. ورودیهای این آزمون نیز از میانگین نمونهها و تغییر ارزشها در دو نمونه تأمین میشود. بنابراین، این آزمون از نمونههای پارامتریک است. به نظر واگان (1384، 184)، گزینش تصادفی نمونهها، فاصلهای یا نسبی بودن مقیاس گردآوری داده، برخورداری جوامع از توزیع نرمال، و تساوی نسبی انحراف معیار دو نمونه از جمله شرایطی هستند که برای اجرای این آزمون ضروری هستند. زمانی که یکی از این شرایط فراهم نباشد، باید نمونه ناپارامتریک این آزمون، یعنی آزمون مان ـ ویتنی اجرا شود.
آزمون تحلیل واریانس: به تحلیل واریانس آزمون «آنوا» نیز گفته میشود. همچنین، آزمون اف (F test) یا «آزمون فیشر» نام دیگری است که بر تحلیل واریانس گذاشتهاند. تعمیمیافته آزمون تی است و برای ارزیابی یکسان بودن یا نبودن دو یا چند جامعه به کار میرود. تحلیل واریانس از شمار آزمونهای پارامتریک است؛ بنابراین، مقیاس گردآوری داده برای تحلیل توسط این آزمون باید فاصلهای یا نسبی باشد. برای بررسی تفاوت، این آزمون از میانگین ـ که یک شاخص گرایش مرکزی است ـ و واریانس ـ بهعنوان شاخص پراکندگی ـ استفاده میکند. به نظر واگان (1384، 203) گزینش تصادفی و مستقل نمونهها، فاصلهای یا نسبی بودن مقیاس گردآوری داده، برخورداری جامعه از توزیع نرمال، و تساوی کامل واریانس درون گروهها از جمله شرایطی هستند که برای اجرای این آزمون ضروری هستند. در صورتی که یکی از این شرایط فراهم نباشد، باید نمونه ناپارامتریک این آزمون، یعنی آزمون کروسکال ـ والیس اجرا شود. آزمون تحلیل واریانس به بررسی دو نوع واریانس میپردازد: واریانس درون گروهی و واریانس بینگروهی. واریانس درون گروهی پراکندگی داده در درون هر گروه را بررسی میکند؛ در حالی که واریانس بینگروهی تفاوت میان میانگینهای نمونهها را اندازه میگیرد.
- تحلیل واریانس یکطرفه (One-Way ANOVA): از این آزمون زمانی استفاده میشود که پژوهشگر قصد دارد به مقایسه میانگین یک متغیر وابسته در سه گروه مستقل یا بیشتر بپردازد. برای مثال، مقایسه میزان قند خود افراد بر اساس جنسیت آنها.
- تحلیل واریانس دوطرفه (Two-Way ANOVA): زمانی که پژوهشگر قصد مقایسه میانگین یک متغیر وابسته بر اساس دو عامل متمایز را داشته باشد از این آزمون بهره میگیرد. برای مثال، مقایسه میزان قند خون نمونهها بر اساس جنسیت و نژاد آنها.
تحلیل کواریانس (Analysis of Covariance): این آزمون مشابه آزمون آنوا است و به آن «آنکوا» (ANCOVA) نیز گفته میشود. زمانی از آن استفاده میشود که پژوهشگر قصد حذف متغیرهای مداخلهگر در تحلیل را داشته باشد. در این آزمون، بهجای واریانس، کواریانس در تحلیل وارد خواهد شد.
آزمون کروسکال ـ والیس: اگر تعداد گروهها بیش از دو گروه باشند و مقیاس گردآوری داده نیز اسمی یا ترتیبی باشد، از آزمون کروسکال ـ والیس برای بررسی تفاوت میان گروهها استفاده میشود. همچنین، زمانی که شرایط مناسب برای استفاده از آزمون آنوا برای بررسی تفاوت میان بیش از دو گروه وجود ندارد، از این آزمون استفاده میشود. بنابراین، این آزمون نمونه ناپارامتریک آزمون آنوا است. آزمون تحلیل واريانس يك طرفه كروسكال ـ واليس با استفاده از رتبهها، آزمون مناسبی براي تصميمگيري درباره آگاهی از تفاوت میان متغیرها در دو جامعه است.
آزمون مان ـ ویتنی: از انواع آزمونهای ناپارامتریک است و برای سنجش تفاوت میان نمونههای مستقل بهکار میرود. در شرایطی از این آزمون استفاده میشود که مقیاس گردآوری داده اسمی یا رتبهای باشد، یا آنکه داده از توزیع نرمال برخوردار نباشد. در حالتی که داده توزیع نرمال داشته باشد، از آزمون تی مستقل استفاده میشود. بنابراین، آزمون مان ـ ویتنی نمونه ناپارامتریک آزمون تی مستقل است. روشن است که این آزمون بهجای میانگین و انحراف معیار، با میانه و دامنه تغییرات سروکار دارد.
آزمون ویلکاکسون: از جمله آزمونهای ناپارامتریک است که برای بررسی تفاوت میان دو گروه وابسته بهکار میرود. داده گردآوری شده مناسب این آزمون باید در مقیاس اسمی یا رتبهای باشد. ویلکاکسون اندازه تفاوت میان رتبهها را در نظر میگیرد؛ بنابراین، متغیرها میتوانند دارای پاسخهای متفاوت باشند. این آزمون متناظر با آزمون تی جفتی است؛ از این رو، در صورت اگر شرایط داده برای اجرای آزمون تی جفتی مناسب نباشد، از این آزمون میتوان به عنوان نوع ناپارامتریک آزمون تی جفتی استفاده کرد.
آزمون مکنمار (McNemar's test): برای بررسی تأثیر یک عمل بر نمونه، در شرایطی که خود نمونه به عنوان گواه خود استفاده شود، از این آزمون استفاده میشود. برای مثال، برای بررسی تأثیر یک دارو، قبل و بعد از استفاده دارو فرد مورد آزمایش قرار میگیرد و نتایج با همدیگر مقایسه میشوند.
آزمون فریدمن (Friedman test): در صورتی که به دلایل متعدد نتوان از آزمون فیشر یا آزمون F استفاده کرد، از آزمون فریدمن به عنوان جانشین ناپارامتریک این آزمون استفاده میشود. یا زمانی که مقیاس گردآوری داده حداقل رتبهای است، از این آزمون بهره گرفته میشود. بنابراین، آزمون فریدمن به منظور مقایسه چند گروه بهکار میرود و از نظر میانگین رتبههای گروهها را مشخص خواهد کرد، که آیا این گروهها از یک جامعه هستند یا خیر.
انجام پژوهشهای کمی، بر خلاف تصور رایج، همیشه آسانتر از پژوهشهای کیفی نیست. بهویژه زمانی که پژوهش کمی به دنبال روابط علی ـ معلولی باشد. هدف غایی و چالشبرانگیز بیشتر پژوهشهای کمی تعیین عناصر، عوامل، و مکانیزمهایی است که باعث بهوجود آمدن یک پدیده یا وضعیتی مشخص میشوند، یا شرایطی بهوجود میآورند که چگونگی ایجاد یا رفتار پدیدهها را توضیح میدهد. به عبارت دیگر، پژوهشگر ممکن است علاوه بر پرسشهای چیستی و چگونگی با پرسش «چرایی» نیز مواجه شود. رابطه علی مفهومی است که در این مواقع از آن استفاده میشود. بنابراین، پس از تعیین این میزان تأثیر، میتوان رخداد یا رفتار یک پدیده را بر اساس متغیری پیشبینی کرد. در آزمونهایی که به بررسی رابطه یا تفاوت میپردازند، نوع و میزان تأثیر مشخص نمیشود؛ به عبارت دیگر، آزمونهای ارتباط و تفاوت به پژوهشگر در تعیین روابط علی ـ معلولی کمک نمیکنند. از این رو، ممکن است دو متغیر با همدیگر در ارتباط باشند، در حالی یک متغیر بر دیگری تأثیری نداشته باشد. هرچند، طبیعی است تا زمانی که دو متغیر با همدیگر ارتباط معنادار نداشته باشند، نمیتوان گفت یکی از آنها بر دیگری تأثیرگذار است. برای مثال، ممکن است میان میزان درآمد و تعداد مقالات اساتید یک دانشگاه ارتباط معنادار وجود داشته باشد، در حالی که میزان درآمد لزوماً تأثیری رو تعداد مقالات نگذارد. به متغیری که میتواند بر متغیر(های) دیگر تأثیرگذار باشد، «متغیر پیشبین» (predictor variable) نیز گفته میشود. بنابراین، در این بخش به آزمونهایی خواهیم پرداخت که چنین قابلیتی دارند.
رگرسیون (و انواع گوناگون آن) رایجترین آزمون آماری است که برای بررسی تأثیر یک متغیر بر دیگری مورد استفاده قرار میگیرد. با این حال، آزمونهای دیگری نظری لاندا یا دی سامرز نیز برای بررسی تأثیر متغیرها بهکار میروند.
لاندای گودمن و کروسکال (Goodman and Kruskal’s lambda): در بررسی تأثیر متغیرها، زمانی که مقیاس گردآوری داده اسمی است، از این آزمون استفاده میشود. «لاندا» عنوان اختصاری است که اغلب بهجای لاندای گودمن و کروسکال استفاده میشود. لاندا یک آزمون نامتقارن بهشمار میآید، و نمونه متقارن آن آزمون تاوی گودمن و کروسکال (Goodman and Kruskal’s tau) است. زمانی که متغیرهای مستقل و وابسته مشخص نباشند، یعنی کدام متغیر تأثیرگذار است و کدام یک تأثیر میپذیرد، این آزمون مناسبترین راهکار محسوب میشود.
دی سامرز (Somer’s d): زمانی که داده در مقیاس رتبهای گردآوری شده باشد، آزمون دی سامرز مناسبترین آزمون برای بررسی تأثیر متغیرها است. این آزمون نیز یک آزمون نامتقارن بهشمار میآید.
تحلیل رگرسیون: رگرسیون تحلیلی است آماری که به بررسی و مدلسازی میان دو متغیر (مستقل و وابسته) میپردازد. تحلیل رگرسیون به دنبال سنجش تأثیر و میزان اثرگذاری متغیر(های) مستقل بر وابسته است. بنابراین، از طریق رگرسیون میتوان پی برد که آیا میتوان متغیر وابسته را از روی متغیر مستقل برآورد کرد، و میزان این برآورد احتمالاً چقدر است. انواع گوناگون تحلیلهای رگرسیون برای شرایط متفاوت پیشبینی شده است. در هرکدام از این انواع، ممکن است رگرسون معنادار نباشد، یعنی آنکه متغیر مستقل تأثیری روی متغیر وابسته نداشته باشد. در این نوع رگرسیون برای آزمون مدل و معنی داربودن اثر هر متغیر در مدل، به ترتیب، از آمارههای «F» و «t» استفاده میشود. در ادامه، به رایجترین انواع رگرسیون اشاره خواهد شد.
- رگرسیون خطی ساده (Simple Linear Regression): زمانی از این آزمون استفاده میشود که پژوهشگر میخواهد تأثیر «یک» متغیر مستقل بر روی «یک» متغیر وابسته را مورد سنجش قرار دهد. به این آزمون «رگرسیون دومتغیره» (Bivariate Regression) هم گفته میشود. پژوهشگر باید توجه داشته باشد، زمانی میتوان از تحلیل رگرسیون (ساده و چندگانه) استفاده کرد که اولاً مقیاس گردآوری داده فاصلهای یا نسبی باشد و دوماً ارتباط میان دو متغیر به لحاظ آماری معنادار باشد.
- رگرسیون چندمتغیره (Multiple Regression): زمانی که تعداد متغیرهای مستقل دو و یا بیشتر باشد، دیگر رگرسیون خطی ساده نمیتواند نتایج دقیقی از تأثیر این متغیرها بهدست دهد. در چنین شرایطی از رگرسیون چندمتغیره استفاده میشود. رگرسیون چندمتغیره با نام «رگرسیون چندگانه» نیز شهرت دارد. خود رگرسیون چندگانه دارای انواع گوناگونی است: روش همزمان (Enter Method)، روش گامبهگام (Stepwise Method)، روش حذفی (Remove Method)، روش پسرو (Backward method)، و روش پیشرو (Forward Method) از انواع رگرسیون چندمتغیره بهشمار میآیند. در روش همزمان تمام متغیرهای مستقل بدون هیچ شرط و معیاری وارد محاسبه میشوند و تأثیر آنها سنجیده میشود. در روش گامبهگام، متغیرها تکبهتک وارد محاسبه خواهند شد. در روش حذفی، یک متغیر به صورت موقت حذف میشود، اگر نتیجه بهتر باشد، کلاً حذف خواهد شد. در روش پسرو تمام متغیرها وارد محاسبه شده و با استفاده از یک معیار تکبهتک حذف میشوند. در روش پیشرو برای ورود یک متغیر به محاسبه از یک معیار استفاده خواهد شد، برای مثال ضریب همبستگی پیرسون.
- رگرسیون لجستیک (Logestic Regression) دوگانه و چندگانه: زمانی که متغیر وابسته دو بعدی (dichotomous) باشد (مانند خوب یا بد بودن)، از متغیر لجستیک استفاده میشود. متغیرهایی که اینچنین دارای دو موقعیت هستند، در آزمون رگرسیون لجستیک قابل پاسخگویی هستند. اگر تنها یک متغیر مستقل در محاسبه وارد شود، از رگرسیون لجستیک دوگانه (Binomial logistic regression)، و اگر بیش از این تعداد باشد از رگرسیون لجستیک چندگانه استفاده خواهد شد.
- رگرسیون تخمین منحنی (Curve Estimation): در این روش داده و نمودارهای گوناگون آن با کاربرد 11 مدل متفاوت آزمون خواهند شد. به این صورت که یک مدل متمایز برای هر متغیر وابسته تشکیل خواهد شد.
- رگرسیون رتبهای (ordinal regression): زمانی که مقیاس گردآوری داده برای متغیر وابسته رتبهای باشد، از این نوع آزمون استفاده خواهد شد.
- رگرسیون پروبیت (Probit Regression): زمانی که خروجی یا متغیر وابسته دارای دو بعد باشد از این نوع رگرسیون استفاده خواهد شد. این نوع رگرسیون با عنوان «مدلهای پروبیت» نیز شناخته شده است. برای مثال، زمانی که بخواهیم متغیرهای مؤثر بر عضو شدن یا نشدن کاربران در کتابخانه را بررسی کنیم، این نوع رگرسیون مناسبتر خواهد بود. این رگرسیون مشابه رگرسیونهای لجستیک است.
علاوه بر مواردی که به آنها پرداخته شد، آزمونهای آماری دیگری نیز هستند که نمیتوان آنها را به سادگی در یکی از دستههای بالا طبقهبندی کرد. این آزمون، سطح پیچیدهتری از روابط را مشخص میکنند که جزء هیچکدام از دستههای بالا نیست. در ادامه به برخی از این آزمونها اشاره خواهد شد.
تحلیل عاملی (Factor Analysis): از تحلیل عاملی معمولاً برای آگاهی از متغیرهای زیربنایی پدیده یا مفهومی خاص بهرهبرداری میشود. به طور خلاصه، میتوان گفت روشی است برای تحلیل واریانس بین چند متغیر وابسته بهواسطه توصیفشان بر اساس تعداد اندکی متغیر (یا عامل) نهان جزئی. بنابراین، از طریق تحلیل عاملی مفاهیم پیچیده در قالب متغیرهای جزئیتر سادهسازی خواهند شد. تحلیل عاملی در دو مورد میتواند به پژوهشگر کمک کند: 1) اکتشاف عوامل و 2) تأیید عوامل.
- تحلیل عاملی اکتشافی (Exploratory factor analysis): در این روش، پژوهشگر هیچ ایدهای درباره عوامل موجود در یک مفهوم یا پدیده ندارد. بنابراین، او به دنبال بررسی داده تجربی به منظور کشف و شناسایی شاخصها و روابط میان آنها است. طبیعی است که حجم نمونه در این روش باید بزرگ باشد.
- تحلیل عاملی تأییدی (Confirmatory factor analysis): برخلاف تحلیل عامی اکتشافی، پژوهشگر در روش تحلیل عاملی تأییدی مفاهیم یا پدیدهها را به شاخصها و عوامل جزئیتر شکسته، اما نیازمند تأیید نمونه است. بنابراین، او به دنبال ارائه مدلی مفروض برای تبین یا توضیح داده تجربی بر اساس شاخصهای گوناگون است.
تحلیل واریانس چند عاملی (Factorial ANOVA): زمانی که پژوهش به دنبال مقایسه تغییرات یک یا چند متغیر وابسته بین یک یا چند گروه است (که مقیاس گردآوری داده آنها اسمی یا طبقهای است) از این آزمون استفاده میکند. برای مثال، زمانی که پژوهشگر نیاز به مقایسه ارتباط میان سن و تعداد مقالات در دو گروه زن و مرد دارد.
طرح دو فرضیه مکمل: در گام نخست پژوهشگر باید دو فرض را مطرح کند: «فرض صفر» یا Ho و «فرض تحقیق» یا Ha. فرض صفر همواره بر نبودن ارتباط یا تفاوت دلالت دارد، و در مقابل، فرض تحقیق بر وجود این ارتباط یا تفاوت تأکید میکند.
محاسبه آماره آزمون: داده گردآوری شده، در آزمون آماری، در قالب یک رقم خلاصه میشود، که به آن آماره آزمون میگویند و از آن بهعنوان معیاری برای رد یا تأیید فرضیه استفاده میشود.
تعیین احتمال صحت فرضیه صفر (مقدار P): مقدار P (P-value) ارزشی است که برای رد یا تأیید فرض صفر بکار میرود. هرچه این ارزش کوچکتر باشد، شواهد برای رد فرضیه صفر محکمتر است.
مقایسه مقدار P با سطح معناداری تعیین شده (آلفا): مقدار آلفا را معمولاً برابر 05/0 فرض میکنند. حال اگر مقدار P مساوی یا کوچکتر از آلفا باشد، فرض صفر رد میشود؛ در صورت رد فرض صفر، فرض مخالف یا فرض تحقیق تأیید میشود. بنابراین، در چنین شرایطی ارتباط یا تفاوت میان متغیرها معنادار خواهد بود.
زمانی که پس از اجرای آزمونهای آماری مشخص شد که تفاوت یا ارتباط میان متغیرها به لحاظ آماری معنادار است، میتوان نتایج نمونه را به جامعه تعمیم داد؛ در اصطلاحشناسی آمار به این پدیده استنباط آماری گفته میشود. در ادامه استنباط آماری تشریح خواهد شد.
- نمونه به صورت تصادفی گزینش شده باشد؛ و
- نسبت پاسخها بسیار بالا است.
- از روشهای غیرتصادفی برای گزینش نمونهها استفاده شده باشد؛
- نسبت پاسخها پایین باشد؛ و
- داده گردآوری شده از جامعه پژوهش بهدست آمده باشد (سرشماری).
به طور خلاصه، آمار استنباطی نوعی برآورد حسابشده یا حدس بخردانه است؛ در حالی که آمار توصیفی داده گردآوری شده را خلاصه و توصیف میکند، آمار استنباطی از داده گردآوری شده به عنوان مبنایی برای برآورد یا استنباط استفاده میکند.
آمار استنباطی برای تعیین اینکه یافتههای حاصل از پژوهش «از روی شانس» و اتفاقاً بهدست آمدهاند یا نه بهکار میرود. از این رو، اگر نتایج از روی شانس و بر حسب یک اتفاق بهدست آیند، به لحاظ آماری معنادار نخواهد بود؛ این به آن معنا است که امکان تعمیم دادن یافتههای حاصل از نمونه به جامعه پژوهش وجود نخواهد داشت.
اما تعمیم دادن نتایج حاصل از نمونه به جامعه همواره همراه با تردید است. به عبارت دیگر، به طور مطلق نمیتوان گفت که نتیجه حاصل از نمونه در همه موارد میتواند گویای جامعه باشد. در این شرایط، متخصصان آمار از اصطلاحی با عنوان «سطح اطمینان» (confidence level) استفاده میکنند. انتخاب این سطح اختیاری است، اما پژوهشگران معمولاً سطوح 05/0 و 01/0 را بهعنوان سطح قابل قبول در یک پژوهش میپذیرند. در این صورت، یک پژوهشگر اعلام میکند که اگر 100 بار این پژوهش انجام شود احتمال دارد که در پنج یا یک مورد نتایج مشابهی بهدست نیاید.
همچنین، مفهوم دیگری با عنوان «فاصله اطمینان» (confidence interval) یا «بازه اطمینان» در آمار استنباطی اهمیت دارد. فاصله اطمینان تخمین میزند که پارامتر جامعه (پارامتر برای ذکر ویژگی جامعه و آماره برای ذکر ویژگی نمونه کاربرد دارد) در میان دو عدد مشخص قرار میگیرد.
با این حال، در تصمیمگیریهای مبتنی بر احتمالات همیشه امکان اشتباه وجود دارد. به عبارت دیگر، ممکن است پژوهشگر با خطای آماری مواجه شود. منظور از خطای آماری آن است که پژوهشگر در فرایند گردآوری و تجزیه و تحلیل داده دچار اشتباه نشده، بلکه این خطا خارج از کنترل پژوهشگر است. خطاهای آماری دو نوع هستند: «خطای نوع اول» (type I error) و «خطای نوع دوم» (type II error).
انواع خطاهای آماری
بر اساس این جدول، زمانی که فرض صفر را به اشتباه رد کنیم، مرتکب خطای نوع اول؛ و زمانی که فرض صفر را به اشتباه تأیید کنیم، مرتکب خطای نوع دوم شدهایم.
در پژوهش و تحلیل کیفی، به دلیل ماهیت این رویکرد ـ یعنی عینی نبودن ـ احتمال سوگیری وجود دارد. یعنی در مراحل گوناگون پژوهش، و بهویژه در تحلیل داده، پژوهشگر ممکن است خواه ناخواه در کار خود دچار سوگیری شود. این سوگیری میتواند به صحت و سقم داده، یافتهها، و در نهایت نتایج پژوهش آسیب وارد کند، و اعتماد به پژوهش را پایین آورد.
در پژوهش کمی، دیدگاه غالب آن است که به دلیل عینی بودن این نوع رویکرد سوگیری در آن غیرممکن است. ببی (2013، 466) شدیداً این گزاره را رد میکند و میگوید: «تحلیل کمی مصون از سوگیری نیست». به اعتقاد او «امکان سوگیری حتی در پژوهشهایی که در سطوح بالای ریاضیاتی نیز انجام میشوند وجود دارد». سوگیری در تحلیل کمی میتواند به اینگونه اتفاق بیافتد که پژوهشگر داده را به گونهای اندازهگیری یا تحلیل کند که یافتهای بر یافتهای دیگر رجحان داده شود. بنابراین، پژوهشگر باید مراقب باشد که در تحلیل خود دچار سوگیری نشود و داده را آنگونه که هست تحلیل کند، و تحلیل را آنگونه که هست تفسیر کند.
مهم نیست چقدر طراحی پژوهشتان را خوب انجام دادهاید؛ چقدر نمونه یا جامعه پژوهش خود را دقیق انتخاب کردهاید؛ چقدر ابزار پژوهشتان را دقیق طراحی کردهاید و چقدر کامل و دقیق داده موردنیاز پژوهشتان را گردآوری کردهاید و در تک تک مراحل گردآوری داده دقت نظر داشتهاید. در نهایت ارزش واقعی پژوهش شما بسته به این دارد که چقدر در ارائه دادهها موفق هستید یعنی چقدر خواننده پژوهشتان میتواند آنها را بفهمد و از آنها استفاده کند. برای تامین چنین هدفی برای تنظیم گزارش دادههای پژوهشتان موارد زیر را مدنظر قرار دهید
گزارش دادههای پژوهشتان را با مقدمهای کامل درباره چگونگی گردآوری داده پژوهش و نتایج آن آغاز کنید.
برای نمایش نتایج پژوهشتان از نمودار، جدول و به طور کلی گرافیکهای تصویری استفاده کنید. ارائه بصری داده درباره یافتههای پژوهشتان چیزهایی میگوید که قطعا ارائه صرف عدد و رقم نمیتواند چنین کاری را انجام دهد.
یافتههای جالب را برجسته کنید. نیازی نیست همه جزئیات را گزارش دهید.
از ارائه حجم زیادی داده خام پرهیز کنید، سعی کنید تحلیل متمرکزی ارائه دهید- الزاما هر پرسشی که در پرسشنامه وجود دارد لازم نیست در گزارش ظاهر شود.
انتظار نداشته باشید که آمار و ارقام نتایج گزارش را توضیح دهند. برای بیان معنای دادهها، پر کردن صفحات با تعداد زیادی نمودار و جدول کافی نیست و ناکارآمد است.
به جای توصیف صرف داده، به تحلیل و تفسیر آن بپردازید و برای انجام این تحلیل پرسش-مبنا فکر کنید و بنویسید. یعنی با استناد به دادهها به پرسش پژوهشتان پاسخ دهید و آن را به صورت داستانگونه برای خواننده تعریف کنید.
تا حد ممکن گزارش دادهها را ساده بنویسید. آمارهای پیچیده باعث سردرگمی خواننده میشوند و فهم مطالب را ناممکن میسازند.
اگر تعداد پرسشنامههای تکمیل شده توسط پاسخگویان کمتر از صد مورد است از درصد و نسبت برای توضیح یافتهها استفاده نکنید. این نوع ارائه ممکن است قدری گمراهکننده باشد. به جای آن برای ارائه گزارش دادههای پژوهشتان به تعداد اشاره کنید تا درصد یا نسبت. به عنوان مثال اگر در مجموع 25 نفر به پرسشنامه شما پاسخ دادند، به جای اینکه بگویید:
80 درصد از دانشآموزان وضعیت .... را خوب ارزیابی کردند.
بگویید:
20 نفر از دانشآموزان وضعیت .... خوب ارزیابی کردند.
اگر بیش از یک روش در پژوهش خود استفاده کردهاید، درباره یافتههای پژوهش به دست آمده از هر روش تحلیل و تفسیر خود را ارائه دهید. به عنوان مثال توضیح دهید که آیا یافتههای پیمایش، یافتههای مصاحبه گروههای کانونی را پشتیبانی میکنند؟
به عنوان یک قاعده کلی هر گونه ادعای علمی که مبتنی بر داده کمی مطرح میشود باید اطلاعاتی درباره پنج بعد مهم زیر داشته باشد:
- بزرگی/اندازه/مقدار: تفاوت چقدر بزرگ است و همبستگی چقدر قویست؟
- دقت - چقدر یافتهها دقیق هستند؟
- تعمیمپذیری – تا چه حد یافتهها درباره جامعه مشابه در موقعیتهای دیگر – به غیر از موقعیت موردمطالعه – مصداق دارند/ تعمیمپذیر هستند؟
- جالب بودن – چقدر یافتهها مربوطند و برای دیگران جالب هستند؟
- قابل اعتماد بودن – آیا به لحاظ روششناختی و نظری یافتهها قابل باور هستند؟
و یادآوری درباره دو نکته که باید موقع تفسیر و گزارش دادههای کمی مدنظر قرار گیرند:
- ارزش یا تفاوت آماری (statistical significance) با ارزش یا تفاوت ذاتی (substantive significance) دادهها یکی نیست.
- ارزش آماری با اندازه تاثیر یکی نیست.
Andersen, Per Kragh, and Lene Theil Skovgaard. Regression with linear predictors. Springer Science & Business Media, 2010
Babbie, Earl. The basics of social research. Cengage Learning, 2013
Blaikie, Norman. Analyzing quantitative data: From description to explanation. Sage, 2003
Cramer, Duncan, and Dennis Laurence Howitt. The Sage dictionary of statistics: a practical resource for students in the social sciences. Sage, 2004
Gau, Jacinta M. Statistics for Criminology and Criminal Justice. SAGE Publications, 2015
Gordon, Rachel A. Applied statistics for the social and health sciences. Routledge, 2012
Evidence for Excellence in Education. 2015. Developing young researchers: How to present your results, National Foundation for Educational Research (nfer), UK
Rosenthal, James A. Statistics and data interpretation for social work. Springer Publishing Company, 2011
در ادامه منابع مفید برای مطالعه بیشتر - به تفکیک نوع منبع - آمدهاند.
- چطور موضوع پژوهشم را چارچوببندی کنم؟
- چطور متغیرها و سازههای مناسب برای پژوهشم انتخاب کنم؟
- چطور مدل مفهومی پژوهشم را بسازم؟
- چطور ابزار پژوهشم را بسازم؟
- چی بپرسم؟ از کی بپرسم؟ چطوری بپرسم؟
- چطور بعد از گردآوری داده و تحلیل یافتهها، در بخش نتیجهگیری نوآوری پژوهشم را برجسته کنم؟