پایان نامه با موضوع مدل رگرسیون، معنادار بودن، پانل دیتا

انحراف استاندارد متغیر مستقل x1 ، x2 ، xn … : متغیر‌های مستقل
معمولاً در هر پژوهشی گام‌های زیر در ایجاد، تجزیه و تحلیل و تأیید مدل رگرسیونی برداشته می‌شود:
1. شناسایی متغیرها: برای تشکیل هر مدل رگرسیونی ابتدا باید متغیرهای موجود بر حسب هدف محقق به متغیرهای مستقل و وابسته تفکیک و شناسایی شوند.
2. جمع‌آوری و مرتب سازی داده‌ها.
3. تعیین رابطه بین متغیر مستقل و وابسته: در این مرحله ماهیت رابطه بین متغیرها مشخص می‌شود. برای این‌کار می‌توان نمودار مربوط به متغیرها را رسم و از روی نمودار خطی و غیرخطی بودن رابطه بین آنها و همچنین نوع رابطه خطی (مستقیم یا معکوس) را از روی شیب نمودار مشخص کرد (آذر و مؤمنی، 1387).
4. برآورد پارامترهای مدل: با استفاده از داده‌های جمع‌آوری شده از شرکت های عضو نمونه، می‌توان پارامترهای مربوط به مدل رگرسیونی را تخمین زد.
5. ارزیابی مفروضات اساسی مدل رگرسیونی: در این مرحله برای استفاده از مدل رگرسیونی، فرض‌های اساسی آن آزمون شده و در صورتیکه صدق نکنند باید به مراحل قبلی بازگشت. این مفروضات در بندهای آتی به تفضیل بیان می‌شوند.
6. آزمون‌های معناداری: برای بررسی هر مدل رگرسیونی و قضاوت در مورد پارامترهای آن، دو گام زیر اساسی است: نخست بررسی معنادار بودن کل مدل و سپس بررسی معنادار بودن تک‌تک متغیرها. در یک مدل رگرسیونی در صورتیکه هیچگونه رابطه‌ای بین متغیرهای مستقل و وابسته وجود نداشته باشد، باید ضرایب تمامی متغیرهای مستقل در مدل مساوی صفر باشند، پس می‌توان معنادار بودن معادله را با استفاده از آماره f و سطح اطمینان مشخص شده مورد بررسی قرار داد. بعد از بررسی معناداری کل مدل، می‌بایست معنادار بودن تک‌تک ضرایب را مورد آزمون قرار داد که از طریق آماره t انجام می‌شود.
7. استفاده از مدل برای پیش‌بینی: نهایتاً اینکه از مدل رگرسیونی برای برآوردهای آتی و پاسخ به سؤال‌های تحقیق استفاده می‌شود.
3-14-1) فرض‌های اساسی رگرسیون
در هر مدل رگرسیون باید فرض‌های خاصی برقرار باشد که در صورت نقض هریک از آنها، مشکلاتی درباره مطلوبیت برآورد پارامترهای رگرسیون یا آزمون فرضیه‌ها بوجود می‌آید. فرض‌های اساسی رگرسیون عبارتند از :
الف) میانگین εt مساوی صفر است: به‌علت تصادفی بودن εt می توان این فرض را به‌صورت E(εt)=0 نوشت. معنی این فرض این است که عوامل تشکیل‌دهنده خطاها ، اثرات مثبت و منفی خود را طوری برجا می‌گذارندکه متوسط مقادیر جمله‌خطاها برابر صفر شود.
ب) جمله خطاها دارای توزیع نرمال است: فرض بر این است که جمله خطاها به‌نحوی است که پراکندگی آن‌ها درمجاورت میانگین حداکثر بوده و هرچه از میانگین دورتر شویم، در سمت راست و چپ آن به‌یک نسبت کاهش می‌یابد. در نتیجه شکل توزیع، زنگوله‌ای شکل است.
ج) جملات خطاها در مشاهدات مختلف ناهمبسته‌اند: اگر این فرض نقض شود با مسئله‌ای موسوم به خود همبستگی68 مواجه خواهیم بود. به طور کلی هرگاه εt ها از نظم خاصی پیروی کنند، فرض ناهمبسته بودن εt‌ ها نقض شده و خود همبستگی مثبت، منفی یا تلفیقی ازخود همبستگی مثبت و منفی را خواهیم داشت.
د) واریانس‌های جملات خطاها همگی برابرعدد ثابتی مانند δ² هستند: یعنیV(εt)=δ². هرگاه فرض اخیر نقض شود با مسئله‌ای موسوم به نابرابری (ناهمسانی) واریانس‌ها69، مواجه خواهیم بود.
ه) جملات خطاها مستقل ازمتغیرمستقل هستند: یعنیCOV(Xtεt) =0 است. در صورت نقض این فرض، مطالعه دقیق اثرات x بر رویy امکان‌پذیر نخواهد بود. زیرا εt نیز روی Xt اثر می‌گذارد.
و) متغیر مستقل(Xt) برخلاف متغیر وابسته (Yt)متغیر غیرتصادفی است.
ز) فرض دیگرکه فقط مختص مدل رگرسیون چندمتغیره می‌باشد، بیانگر آن است که باید تعداد مشاهدات برتعداد پارامترها فزونی داشته باشد و بین متغیرهای مستقل رابطه خطی کامل وجود نداشته باشد. این فرض شرط لازم برای حصول جواب معادلات نرمال و برآورد ضرایب رگرسیون چند‌‌متغیره است. در هرحال این فرض دال برعدم وجود هم خطی کامل خواهد بود.
3-14-2) احتیاط در استفاده از رگرسیون و همبستگی
رگرسیون و همبستگی ابزارهایی هستند که در صورت استفاده صحیح از آنها مفیدند، اما در بعضی مواقع استفاده نادرست از آنها در پیش‌بینی، باعث نتایج غیر‌دقیق و تصمیمات نامطلوب می‌شود. عمده‌ترین اشتباهات معمول در استفاده از این ابزارها عبارتند از:
1. تعمیم روند برای خارج از دامنه مشاهدات: از خط رگرسیون معمولاً برای پیش‌بینی استفاده می‌شود. یکی از اشتباهات معمول این است که بخواهیم روند را برای موردی تعمیم دهیم که خارج از دامنه مشاهداتی باشد که بر مبنای آنها خط رگرسیون برآورد شده است.
2. فقدان رابطه علت و معلولی واقعی (همبستگی مجازی): گاهی همبستگی قوی بین دو متغیر پیدا می‌شود که واقعاً این دو متغیر هیچ رابطه علت و معلولی با هم ندارند.
3. تعمیم روند گذشته به آینده: تعمیم روند گذشته به آینده در صورتی معقول است که همان شرایطی که در گذشته موجود بوده در آینده نیز وجود داشته باشد.
4. تعبیر نادرست از ضرایب تعیین و همبستگی: گاهی تعبیر نادرستی از ضرایب همبستگی می‌شود. اگر ضریب تعیین را درصد تغییر در متغیر وابسته‌ای بدانیم که به‌دلیل تغییر در متغیر مستقل ایجاد شده، راه خطا پیموده‌ایم، زیرا r2 معیاری است که تنها می‌گوید یک متغیر چقدر خوب توانسته است متغیر دیگر را توضیح دهد، ولی نمی‌گوید که چه‌میزان تغییر در یک مت
غیر قابل استناد به متغیر دیگر است (آذر و مؤمنی، 1387).
در اکثر مدلهای رگرسیونی، معمولاً می‌خواهیم تغییرات یک متغیر را (y) بر حسب تعدادی از متغیرها (xها) که معتقدیم که باعث تغییرات y می شود توضیح دهیم. اغلب این کار را در قالب یک تابع انجام می دهیم:
y_i=f(x_it) k =1, 2… N i =1, 2… N
اندیس k تعداد متغیرهای توضیح‌دهنده را نشان می‌دهد. اغلب برای شروع، شکل این تابع را خطی فرض می‌کنند:
y_i=β_0+β_1 x_1i+β_2 x_2i+…+β_k x_ki+ε_i
در اینجا اندیس i نشان دهنده تعداد مشاهداتی است که از هر متغیر در دست داریم. تعداد مشاهدات می‌تواند بر حسب زمان باشد، در این صورت yt و xkt را داریم که هر متغیر در طول سال، فصل، ماه و …. اندازه‌گیری می‌شود و خواهیم داشت t,…,1,2= t به‌عبارت دیگر yt و xkt سری زمانی70 می‌باشند. یعنی یک متغیر واحد که مقادیر آن در فاصله زمانی مورد نظر بر اساس یک مکانیزم معین (مثلاً یک مکانیزم آماری) تولید می‌شود. در حالت دیگر می‌توان در یک زمان خاص، برای مثال در یک سال معین، یک متغیر را در یک جامعه آماری اندازه‌گیری کرد. در این‌حالت یک مقطع از جامعه را در یک زمان خاص پیمایش کرده‌ایم که به زبان فنی‌تر آن را برش مقطعی71 می‌گوئیم.
با اعمال فرض‌های کلاسیک رگرسیون، مدل مذکور برای یافتن β ها یا ضرایب تابع، برآورد می‌شود. با نقض فروض کلاسیک با مشکلاتی چون همبستگی پیاپی72 جملات اخلال یعنیε_t در مدل‌های سری زمانی و واریانس ناهمسانی در مدل‌های مقطعی روبرو می‌شویم. آزمون‌های آماری در مورد ضرایب، آماره های R2 و F رگرسیون و نظایر آن به تعدادی مشاهدات یعنی، T در مورد سری زمانی و N در مورد داده‌های مقطعی و تعداد پارامترها (β های) برآورد شده بستگی دارد، اغلب با یک مشکل عمومی در این مدلها روبرو می‌شویم، متغیرهای توضیحی یعنی x ها با یکدیگر همخطی دارند که باعث می‌شود مقادیر درست β ها برآورد نشود و استنتاج با مشکل مواجه شود.
در مدل‌های پانل دیتا، متغیرها را هم در میان مقاطع جامعه آماری و هم در طول زمان اندازه‌گیری می‌کنیم. البته باید توجه داشت که متغیر‌ها باید در طول سالها یکسان بمانند که در صورت عدم‌ رعایت آن پانل نامتوازن73 خواهد بود. به این ترتیب با دو بعد سروکار داریم: بعد زمان و بعد مقاطع، که آن‌را داده‌های گروهی- زمانی74 نیز می‌گویند.
واضح است که تعداد مشاهدات از یک متغیر، چندین برابر شده است، یعنی از T یا N در داده‌های سری زمانی یا داده های مقطعی به N × T در داده های پانل، افزایش یافته است. متغیرها در عرض جامعه اندازه‌گیری می‌شود و واریانس عرض، اطلاعات زیادی برای آزمون فرضیات فراهم می‌آورد. در طول دوره زمانی نیز همین متغیر اندازه‌گیری شده و واریانس آن در طول زمان می‌تواند اطلاعات مفیدی از پویایی‌های75 متغیر مربوطه در طول زمان برای آزمون فرضیات با ماهیتی دیگر فراهم کند و امکان مدل‌سازی شبیه آنچه در ادبیات سری زمانی مطرح است بهوجود آید.
نماد خطی پانل دیتا :
y_it=β_io+β_1 x_1it+β_2 x_2it+…+β_k x_kit+ε_it
که به زبان ماتریسی به صورت زیر است:
y_it=x_it β+ε_it i=1,…,N t=1,…, T
اندیس i برای افراد یا مقاطع ( تعداد N) و اندیس t برای زمان ( از 1 تا T) در نظر گرفته شده است.
3-14-3) مزایای پانل‌دیتا در مقایسه با داده‌های مقطعی یا سری زمانی
1. تعداد مشاهدات و داده‌ها در پانل دیتا بسیار بیشتر بوده و باعث می‌شود اعتماد به برآوردها بیشتر شود.
2. به محققان تجربی اجازه می‌دهد مدل‌های پیشرفته‌تری را تبیین کرده و آزمون کنند که فرضیه‌های مقید‌کننده کمتری دربر داشته باشد.
3. زیاد بودن تعداد مشاهدات مسأله همخطی بودن را نیز تا حدود زیادی حل می‌کند.
4. با این مجموعه داده‌ها می‌توان اثراتی را شناسایی و اندازه‌گیری کرد که در داده‌های مقطعی محض یا سری زمانی قابل شناسایی نیست.
5. استفاده از داده‌های پانل دیتا، تورش برآورد را از بین می‌برد و یا کم می‌نماید.
3-15) آزمون ناهمسانی واریانس‌ها
به‌منظور بررسی اینکه برای تخمین مدل از روش رگرسیونی OLS76یا EGLS77 استفاده کنیم آزمون ناهمسانی واریانس‌ها را با بهره‌گیری از برنامه STATA انجام می‌دهیم که فرض یک این آزمون، نشان‌دهنده‌ی ناهمسانی واریانس و الزام به استفاده از EGLS برای تخمین مدل و فرض صفر، مبنی بر رد ناهمسانی و استفاده از OLS می‌باشد.
3-16) آزمون خود‌همبستگی
می‌توان اصطلاح خود‌همبستگی را چنین تعریف کرد: “همبستگی بین اعضای سری‌های مشاهداتی است که در زمان (مانند سری‌های زمانی‌) یا مکان (مانند داده‌های مقطعی) ردیف شده‌اند”.
خودهمبستگی مشکلی است که در نتیجه همبستگی بین جزء خطاها رخ می‌دهد. خودهمبستگی اثری بر روی ویژگی‌های ناتور بودن و سازگاری ضرایب برآوردی نخواهد داشت، چون این ویژگی‌ها ارتباطی به برقراری یا عدم برقراری فرض عدم‌همبستگی بین جزء خطاها ندارد اما تأثیر این مسئله بر روی کارایی تخمین زن‌ها می‌باشد که در نتیجه نقض فرض عدم وجود خودهمبستگی، دیگر تخمین زن‌ها کارا نخواهند بود. در اثر این مشکل، واریانس ضرایب تخمینی تورش‌دار و ناسازگار بوده و آزمون فرضیه‌ها دیگر معنادار نخواهند بود. در اکثر مواقع R2 بیش از حد تخمین زده شده که به‌غلط، نشانی از خوبی برازش مدل را ارائه خواهد داد. در این حالت آماره t نیز بیشتر از مقدار واقعی‌ خود بدست خواهد آمد که معناداری بالاتری از تخمین‌ها را به اشتباه نشان خ
واهد داد (بالتاجی78، 2005) .
جهت آزمون فرضیه عدم وجود خود‌همبستگی از آزمون وولدریج79 استفاده کردیم که در این آزمون فرض صفر،‌ مبتنی بر عدم وجود خودهمبستگی و فرض یک، حاکی از وجود خودهمبستگی است. این آزمون به‌وسیله برنامه STATA انجام می‌گیرد.
3-17) آزمون مانایی (ایستایی) متغیرها
سری زمانی80، یکی از مهمترین داده‌های آماری مورد استفاده در تجزیه تحلیل تجربی است. در تحقیقات همواره چنین فرض شده است که سری زمانی مانا81 است و اگر این حالت وجود نداشته باشد، آزمونهای آماری متعارفی که اساس آنها بر پایه t، f و آزمونهای مشابه بنا شده است، مورد تردید قرار می‌گیرد. از طرفی، اگر متغیرهای سری زمانی مانا نباشد، ممکن است مشکلی به‌نام رگرسیون کاذب بروز کند. در این‌گونه رگرسیونها، در عین حالی که ممکن است هیچ رابطه معنی‌داری بین متغیرهای الگو وجود نداشته باشد، ضریب تعیین (R2) بدست آمده آن ممکن است بسیار بالا باشد و موجب شود که محقق

Author: mitra5--javid

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *