Articles Tagged ‘پروژه های آماری - آی‌آر‌آمار، مشاورپژوهشگران’

آزمون دوجمله‌اي(ناپارامتری)

رویکرد Binomial Test يك نسبت مشاهده شده از موارد را با نسبت مورد انتظار تحت يك توزيع دو جمله‌اي با يك پارامتر احتمالي مشخص مقايسه مي‌نمايد. نسبت مشاهده شده يا با تعداد مواردي كه اولين مقدار يك متغير دو مقوله‌اي (dichotomous) را دارا است تعريف مي‌شود يا با تعداد موارد در يك نقطة برش داده شده يا پائيني‌تر، در يك متغير كمي. در حالت پيش فرض، پارامتر احتمالي براي هر دو گروه برابر 0.5 مي‌باشد، اگر چه ممكن است تغيير نمايد. براي تغيير احتمال، يك نسبت آزمون را براي گروه اول وارد مي‌نماييد. احتمال مربوط به گروه دوم برابر با 1 منهاي احتمال مربوط به گروه اول است. بعلاوه، آماره‌هاي توصيفي و / يا چارك‌هاي مربوط به متغير آزمون ممكن است ظاهر شود.

آزمون کای دو(ناپارامتری)

آزمون مربع كای (خي‌دو يا كي‌دو) تك متغيره

دستورالعمل Chi–Square Test يك متغير را در رسته ها (categories)جدول‌بندي مي‌كند و فرضيه‌هاي مبني بر اينكه فراواني‌هاي مشاهده شده از فراواني‌هاي مورد انتظارشان تفاوت نمي‌كنند را مورد آزمون قرار مي‌دهد.

آزمون مربع كاي(The Chi-Square Test) برای کاربر گرامی این امکان را فراهم می کندکه:

 ـ تمام رسته های متغير آزمون را شامل مي‌شود، يا آزمون را به دامنه‌اي معيني محدود مي‌نمايد.

ـ مقادير استاندارد يا سفارشي شده مورد انتظار را به كار مي‌برد.

ـ آماره‌هاي توصيفي و / يا چارك‌ها را در متغير آزمون بدست مي‌آورد.

آزمون استقلال(Testing Independence)

در يك برنامه زمان‌بندي بيمارستاني بزرگ براي ترخيص بيماران فرض بر اين شده است كه بيماران با نرخ ثابتي در هفته بيمارستان را ترك مي‌كنند. مسئولين بيمارستان مي‌خواهند بدانند كه آيا تعداد ترخيصي‌ها با روزهاي هفته متغير است يا نه.

اين مثال از فايل dischargedata.sav استفاده مي‌كند(برای دانلود فایل  با فرمت SAV کلیک کنید). با آزمون Chi – Square فرضيه رفتن بيماران از بيمارستان با نرخ ثابت را بررسي نماييد.

الگوریتم متروپلیس-هستینگ (MH)

همان طور  که می دانیم  الگوریتم متروپولیس-هستینگ (MH) شامل مراحل زیر می‌باشد:

  • \[Y_t \sim q(y|x^t)\]  را تولید کنید.
  • \[X^{t+1}=\begin{cases} Y^t, & \text{with probability} \quad \rho(x^t,Y_t), \\ x^t, & \text{with probability} \quad 1-\rho(x^t,Y_t), \end{cases}\]

که در آن \(\rho(x,y)=\min \left( \frac{f(y)}{f(x)}*\frac{q(x|y)}{q(y|x)},1 \right)\).

 حال چنانچه \(q\) دارای توزیع متقارن باشد؛ نسبت \(q(x|y)/q(y|x)\)  برابر مقدار یک خواهد شد؛ در این حالت مقدار احتمال برابر \(\rho(x,y)=\min( f(y)/f(x),1) \) خواهد بود . و   این حالت خاص، بنام الگوریتم متروپولیس  شناخته می شود.

تحلیل اکتشافی داده ها

اكتشاف داده‌ها براي بررسي مناسب بودن يا نبودن تكنيك‌هاي آماري كه براي تحليل داده‌ها در نظر گرفته مي‌شوند مورد استفاده قرار مي‌گيرند. اين دستورالعمل خلاصه‌‌اي تصويري و عددي از داده‌ها، يا براي همة موارد يا به طور جداگانه براي گروه‌هاي موارد، فراهم مي‌آورد. دلایل مختلفی برای استفاده از رویکرد Explore نرم افزار SPSS از جمله: غربالگری دادهها(data screening)، شناسایی داده های بالقوه پرت(outlier identification)، توصیف، کنترل فرضیه و مشخصه سازی تفاوتهای بین زیر جامعه ها (گروههایی از آزمودنیها) وجود دارد. غربالگری داده ها ممکن است مقادیرغیر عادی، مقادیر کرانگین، شکاف بین داده ها و ویژگی های غیر عادی دیگر را نشان دهد. همچنین اکتشاف ممکن است نشان دهد که چنانچه توزیع نرمال شرط ادامه تحلیل باشد، محقق لازم دارد تبدیلی روی داده های خود انجام دهد و یا حتی محقق تصمیم بگیرید که از تحلیل ناپارامتری استفاده کند. متغير وابسته بايد يك متغير Scale (كمي) باشد، در حاليكه متغيرهاي گروه‌بندي ممكن است ordinal يا nominal باشند. با دستورالعمل Explore موارد زير را مي‌توان انجام داد:

 ـ غربالگری(بررسی) داده‌ها

ـ شناسايي مقادير پرت (Outliers) [يك مقدارOutlier مقداري است كه نسبت به اكثر مقادير متفاوت است].

ـ بررسي فرضيات

ـ توصيف گروه‌هاي موارد مختلف{jcomments on}

تحلیل بقا (survival analysis)

تحلیل بقا مجموعه ای ازتکنیکهای اماری متنوع، جهت تحلیل متغیرهای تصادفی است.که دارای مقادیر نامنفی می باشند.مقدار این متغیر تصادفی، زمان شکست یک مولفه فیزیکی ویا زمان مرگ یک واحد بیولوزیک میباشد. در تحلیل داده های بقا مساله اصلی یافتن مدل مناسب برای همبستگی زمان بقا با متغیرهای مختلف میباشد. اگر داده ها دارای موارد ناتمام نباشند می توان این ارتباط را به وسیله رگرسیون چند گانه بیان کرد.

به علت وجود چولگی باید در انجام این روش از تبدیل لگاریتم یا معکوس تابع و بسط آن استفاده کرد.ولی اگر داده های ناتمام داشته باشیم استفاده از تحلیل رگرسیون به دلیل وجود نداشتن مقدار دقیق متغیر وابسته غیر ممکن خواهد بود.

در ساختن مدل بقا تابع مخاطره را برای هر فرد به عنوان یک تابع از متغیر ها با زمان ثابت در نظر گرفت از انجایی ک ممکن است درطول مطالعه همه متغیرها و بعضی از ان ها با زمان تغیر کنند.میتوان مدل را با استفاده از متغیر های وابسته به زمان ساخت و اثر تغییر زمان روی تابع بقا را مورد ارزیابی قرار داد.

 تحلیل بقا بر اساس مدل بندی و تحلیل زمان های پاسخ است‚ که فاصله بین نقطه اغاز معین و پایان را نشان میدهد.در گاو های شیری نقطه ی اغاز(پیروزی) معمولازمان اولین گوساله ای که به دنیا میاید ونقطه ی پایان (شکست) زمانی که گله میمیرد که فاصله زمانی بر حسب روز‚ماه و سال اندازه گیری می شود. تحلیل داده های بقا بر اساس استفاده از تو زیع تابع های خاص می باشد

 

تابع بقا

بیانگر این احتمال است که حیوان حداقل تا زمان \(T\) ماندگاری داشته باشد. \(S(t)\) نسبت حیواناتی است که در زمان \(t\) زنده است.  \(F(t)\) تابع چگالی احتمال تجمعی می باشد.

\(S(t)=Pr(T>t)\)              و    \(F(t)=Pr(T\leq t)=1-S(t)\)                                  

تابع چگالی احتمال

بیانگر احتمالی لست که شکست در فاصله زمانی t و دلتا t اتفاق بیفتد:

\(f(t)=F'(t)=\frac{d}{dt}F(t)\)

تابع مخاطره

بیانگر احتمال شرطی است که در فاصله زمانی t و دلتا tبا این فرض که تا زمان t بقا داشته است دچار شکست شود. تمامی روابط فوق بهم وابسته هستند. 

\(\lambda(t)=-\frac{S'(t)}{S(t)}\)

{jcomments on}

 

جهت درخواست آموزش نرم افزارهای آماری و یا انجام پروژه های آماری از یکی از روش های زیر میتوانید با تیم آی آر آمار در ارتباط باشید. لازم به توضیح می باشید فرآیند مشاوره و همچنین پاسخگویی به سوالات کوتاه به صورت کاملا رایگان ارائه می گردد.

 

شماره تماس:  09300023999

رایانامه:  این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

رگرسيون لجستيك(دودویی)

هرگاه به دنبال بررسي تاثير متغيرهاي مستقل بروابسته اسمي دويا چند مقوله اي باشيم بايد از رگرسيون چند گانه لجستيك (لجيت) استفاده كنيم.از همان روشهاي گام به گام همزمان و..در رگرسيون خطي در اينجا هم ميتوان استفاده كرد.{jcomments on}

رگرسیون پواسون

در آمار، رگرسیون پواسون نوعی ازتحلیل رگرسیون و زیرمجموعه ای ازمدلهای خطی تعمیم یافته(GLM) است؛ که برای تحلیل داده های حاصل ازشمارش بکار میرود. در رگرسیون پواسون فرض می شود که متغیر وابسته \(Y\) دارای توزیع پواسون می باشد و فرض می شود لگاریتم امید ریاضی آن را می توان به صورت ترکیب خطی از پارامترهای نامعلوم مدل بندی نمود. لازم به توضیح می باشد به خصوص در مواردی که از این مدل در جدول توافقی استفاده می گردد؛ این مدل رگسیونی به مدل لگاریتم خطی(log-linear model) شناخته می شود. مدل رگرسیون پواسون از خانواده  مدل خطی  تعمیم یافته می باشد که در آن لگاریتم به عنوان  تابع ربط  (کانونی) و تابع توزیع پواسون به عنوان توزیع احتمال متغیر پاسخ مد نظر قرار می گیرد. 

اگر  \(x\in R^n\) برداری ازمتغیر مستقل باشد؛ سپس مدل شکل  \(\log(E(Y|X))=\alpha+\beta, x\)  را دارد که در آن \(\beta\in R^n\)و \(\alpha\in R\) . همچنین میتوان این مدل را شکلی فشرده تر و به صورت زیر نوشت:

 \(\log\left(E(Y|X)\right)={\theta' x}\)

که در آن \(x\) بردار (n+1)-بَعدی از متغیرهای مستقل بهمراه برداری شامل مقدار یک می باشد. در این مدل به سادگی \(\theta\) شامل \(\alpha\) و \(\beta\) می شود. با داشتن پارامتر رگرسیون پواسون \(\theta\) و بردار مشاهدات x میتوان میانگین پیش بینی مرتبط با توزیع پواسن را بصورت 

\(E(Y|X)=e^{\theta' X}\)

به دست آورد. 

 

مدل رگرسیون پواسون

رگرسیون پواسون هنگامی مناسب و برای استفاده جذابیت دارد که متغیر وابسته از نوع شمارشی باشد به عنوان مثال می توان  پیشامد تعداد تماس های ورودی به یک مرکز تلفن را بررسی نمود. در این مثال باید پیشامد ها از هم مستقل باشند به این مفهوم که یک تماس ورودی، روی تماس های بعدی تاثیری نداشته باشد. 

هنگامی که داده های مشاهده شده دارای فراوانی صفر در خود باشند در این حالت مدل های لگاریتم طبیعی توانایی پیش بینی مناسب فراوانی متغیر وابسته را ندارند دلیل اصلی این امر فرض توزیع نرمال داده هاست. در این شرایط مدل رگرسیون پواسون میتواند مورد استفاده قرار بگیرد.

برای براورد ضرایب متغیرها در مدل رگرسیون پواسون از برآوردگرها ماکسیمم درستنمایی، شبه درستنمایی(Quasi-likelihood) و یا روش کمترین مربعات تعمیم یافته استفاده میشود. در مدل رگرسیون پواسون مشاهده i ام متغیر وابسته \(Y_i\) به عنوان یک متغیر تصادفی پواسون با میانگین \(\lambda_i\)مدل میشود.

\(Pr(Y_i=y_i)=\frac{e^{-\lambda_i}}{y_i!}\lambda_i^{y_i}\)

ویزگی مهم مدل رگرسیون پواسون برای میانگین با واریانس توزیع است. و از آن به عنوان کاستی این مدل یاد میشود. همچنین بدلیل اینکه پراکندگی زیاد داده های تصادفی را  میگیرد در مدل رگرسیون پواسون واریانس شرطی برابر میانگین شرطی است.

\(Var\left(Y_i|_i\right)=E\left(Y_i|x_i\right)=\lambda_i=e^{\beta' x_i}\)

\(x_i\) بردارمتغیر مستقل مشاهده شده و \(\beta\)بردار ضرایب رگرسیون است.برای براورد رگرسیون در مدل رگرسیون پواسون از روش ماکسیمم درستنمایی استفاده میشود. مقدارپیش بینی شده \(\hat{Y}_i\) میانگین شرطی یا شمار متوسط رخدادها به شرط\(x_i\) است. این همان \(\lambda_i\)است که میانگین متغیرتصادفی \(Y_i\) با توزیع پواسون است.{jcomments on}

در انتها بر خود می دانم به این موضوع اشاره کنم که  رگرسیون پواسون در تحلیل بقا (Survival analysis) استفاده می گردد که در آنجا مدلهای خطر نسبتی را ایجاد می کند. 

 

جهت درخواست آموزش نرم افزارهای آماری و یا انجام پروژه های آماری از یکی از روش های زیر میتوانید با تیم آی آر آمار در ارتباط باشید. لازم به توضیح می باشید فرآیند مشاوره و همچنین پاسخگویی به سوالات کوتاه به صورت کاملا رایگان ارائه می گردد.

 

شماره تماس:  09300023999

رایانامه:  این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

پذیره های رگرسیون لجستیک دوجمله ای

رگرسیون لجستیک دو جمله ای(که اغلب به نام رگرسیون لجستیک شناخته می شود)، احتمال اینکه مشاهدات در یکی از دو رسته از متغیر وابسته دودویی (dichotomous) قرار بگیرند را پیشگویی می کند؛ که این پیشگویی بر روی یک یا چند متغیر مستقل می باشد که می توان پیوسته و یا رسته ای باشد. از سوی دیگر از متغیر وابسته از نوع شمارشی(count) باشد؛ می بایست از رگرسیون پواسن (Poisson Regression) استفاده کرد و یا از متغیر وابسته بیش از دو طبقه دارد؛ می توان از رگسیون لجستیک چندجمله ای (Multinomial Logestic Regression) استفاده نمود.

برای مثال، محقق می تواند از رگرسیون لجستیک دو جمله ای برای فهم این مساله استفاده کند که آیا "استفاده از مواد مخدر" را  میتوان  بر اساس "محکومیت های کیفری قبل"، "دوستان معتاد به مواد مخدر"، "درآمد"، "سن" و "جنسیت" پیشگویی کرد؟  توجه شود که در این مثال متغیرهای مستقل از نوع رسته ای نیز وجود دارد مانند متغیر جنسیت که از نوع اسمی می باشد.

چولگی ، کشیدگی و منحنی نرمال

چولگی

در هر کلامی، عبارت های “skewed” و “askew” ( به ترتیب اریب و کج شده ) برای ارجاع به موردی استفاده می گردد که خارج از خط  را نشان می دهد  یا در یک طرف تمایل دارد.  وقتی به شکل توزیع فراوانی یا توزیع احتمال اشاره می گردد، چولگی( “skewness”) به عدم تقارن توزیع ارجاع می کند.  یک توزیع با عدم تقارن دمی که در سمت را ست گسترش داده شده، به چولگی مثبت یا چوله به راست معروف می باشد در حالی که یک نوزیع با عدم تقارن دمی که در سمت چپ گسترش داده شده، به چولگی متفی یا چوله به چپ معروف می باشد. چولگی می تواند از منفی بینهایت تا مثبت بی نهایت مقدار بپذیرد.

آمار سایت