ترسیم منحنی های چندگانه در یک نمودار

نوشته شده توسط مشاور آماری . منتشر شده در R و S+

ترسیم چندین منحنی مانند چگالی ها و توابع توزیع یکی پرکاربردترین ابزارهای نمایشی در متون آماری و غیر آماری می باشد. در نرم افزار R علاوه دانستن زبان پایه برنامه نویسی، میتوان از بسته های موجود نیز جهت حصول به این مهم استفاده نمود.  در این آموزش شاهد چهار رویکرد متفاوت جهت ترسیم نمودار با چند منحنی خواهید بود. همچنین ترسیم نمودار پراکنش با هیستوگرام در کناره ها(marginal plot) توضیح داده می شود. همچنین جهت تکرار آموزش توسط دانش پذیران عزیز، کدهای آموزشی در انتهای این پست قرار داده شده است.

برای مشاهده فیلم آموزشی روی لینک زیر کلیک کنید. همچنین جهت راحتی شما کاربر گرامی، در لینک زیر بار گذاری شده است.

نیکویی برازش در R(بخش اول)

نوشته شده توسط مشاور آماری . منتشر شده در R و S+

به عنوان محقق؛ همانند متخصص داده ها(data scientist)؛ ممکن است یک مجموعه داده را دریافت کنید و علاقمند به دانستن توزیع پیدایشی (generative) آن باشید. در ادامه متنی مناسب در مورد نحوه برآورده نمودن این نیاز ارائه می گردد.

جهت چنین اقدامی، یک سری مجموعه داده‌ی دلخواه از توزیع گاما (توزیع اصلی) نمونه‌گیری می‌شود. همچنین به منظور لحاظ نمودن نوفه (noise)ی اندازه گیری،  به داده ها نوفه ی گاوسی اضافه می نماییم.

گردکردن اعداد

نوشته شده توسط مشاور آماری . منتشر شده در R و S+

نرم افزار R برای گرد کردن(Rounding) اعداد از استاندارد IEC 60559 تبعیت می کند که در آن قاعده ‘go to the even digit’ ملاک عمل قرار میگیرد. بر این اساس؛ ارقام 5 رو طوری گرد می کنیم که رقم مبنا، رقمی زوج گردد. به عنوان مثال عدد 3.5 به رقم 4 گرد می شود. به همین منوال عدد منفی 3.5 به رقم منفی چهار گرد خواهد شد. به بیانی دیگر تمامی اعداد بین منفی 4.5 تا منفی 3.5 به عدد منفی چهار گرد می شوند. 
⚡️ این تابع دارای دو شناسه می باشد به طوری که شناسه اول، شی (object) عددی و شناسه دوم، تعداد ارقام اعشار را نشان میدهد.
به خروجی نرم افزار R بروی بردار عددی زیر توجه کنید:

 >round(c(-1.5,0.00,1.5005),digits=0)
[1] -2 0 2
>round(c(-1.5,0.00,1.5005),digits=1)
[1] -1.5 0.0 1.5
>round(c(-1.5,0.00,1.5005),digits=2)
[1] -1.5 0.0 1.5
>round(c(-1.5,0.00,1.5005),digits=3)
[1] -1.5 0.0 1.5
>round(c(-1.5,0.00,1.5005),digits=4)
[1] -1.5000 0.0000 1.5005
توضیح: عدد 1.5005 در گرد کردن تا سه رقم اعشار برابر 1.5 شده است؛ چرا که رقم سوم یعنی رقم صفر زوج میباشد.

⚡️توجه شما عزیزان را به نکته جلب می نمایم که امکان استفاده از عدد منفی در شناسه دوم، یعنی تعداد ارقام گرد کردن وجود دارد. در این حالت نرم افزار R گردن کردن به توان 10 را مد نظر قرار می دهد. به عنوان مثال به خروجی زیر توجه نمایید، اعداد به نزدیک 100 تایی گرد شده اند!! : 
>round(c(150,1000,-1550,-550),digits=-2)
[1] 200 1000 -1600 -600 

 

جهت درخواست آموزش نرم افزار R و یا انجام پروژه های آماری از یکی از روش های زیر می توانید باتیم آی آر آمار در ارتباط باشید. لازم به توضیح می باشید فرآیند مشاوره و همچنین پاسخگویی به سوالات کوتاه به صورت کاملا رایگان ارائه می گردد.

 

شماره تماس:   09300023999

رایانامه:  این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

ورود داده های Stata به R

نوشته شده توسط مشاور آماری . منتشر شده در R و S+

برای ورود داده ها از نرم افزار stata یعنی با پسوند dta  می توانید از هر یک از توابع read.dta و read.dta13 استفاده کنید. بر این اساس اگر داده ها در stata با نسخه 5 الی 12 ذخیره شده اند، از دستورات زیر استفاده کنید:

>library(foreign)
>read.dta(file=...)
 
اما اگر داده ها با stata نسخه 13 ذخیره شده اند با تابع فوق نمی توانید آنها را به نرم افزار R وارد کنید و با پیغام خطای "not a Stata version 5-12 .dta file"  مواجه می شوید. برای ورود این نوع داده می بایست ابتدا بسته مورد نظر رو نصب و سپس از تابع read.dts13 استفاده کنید:

>install.packages("readstata13")
>library(readstata13)
>read.dta13(file=...)

جهت درخواست آموزش نرم افزار R و یا انجام پروژه های آماری از یکی از روش های زیر می توانید باتیم آی آر آمار در ارتباط باشید. لازم به توضیح می باشید فرآیند مشاوره و همچنین پاسخگویی به سوالات کوتاه به صورت کاملا رایگان ارائه می گردد.

 

شماره تماس:   09300023999

رایانامه:  این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

جدول بندی متقاطع

نوشته شده توسط مشاور آماری . منتشر شده در R و S+

 دستور table در نرم افزار R بمنظور ایجاد جداول توافقی(Contengency Tables) در دسترس می باشد. با استفاده از این دستور تعداد (فراوانی) هر ترکیب سطوع عامل ها (Factors) محاسبه و نمایش داده می شود.
نحوه استفاده از این تابع به صورت زیر ارائه می گردد:
table(..., exclude = if (useNA == "no") c(NA, NaN), useNA = c("no","ifany", "always"), 
dnn = list.names(...), deparse.level = 1)
is.table(x)
as.table(x, ...)

که در تابع فوق شناسه exclude برای حذف سطوح مورد نظر در تمامی عاملها استفاده می گردد. خروجی تابع table یک جدول توافقی، از کلاس "table"  و یک آرایه از مقادیر صحیح می باشد. 

داده های گمشده

نوشته شده توسط مشاور آماری . منتشر شده در R و S+

مدیریت داده های گمشده در نرم افزار R را در این مطلب به صورت ساده ارائه خواهیم نمود. 
در R، داده های گمشده  با NA ( اختصار عبارت not available) و  مقادیر غیر ممکن (مانند تقسیم بر صفر) با نماد NaN ( اختصار عبارت not a number) نمایش داده می شوند. بر خلاف SAS، نرم افزار R  از نماد یکسان برای دادهای عددی و حرفی استفاده می کند.
آزمون برای مقادیر گمشده:
is.na(x) # returns TRUE of x is missing
y <- c(1,2,3,NA)
is.na(y) # returns a vector (F F F T)
لازم به ذکر است توابع مشابه دیگری مانند is.nan وجود دارند که جنبه های دیگری را آزمون می نمایند.
 
کدبندی مقادیر برای داده های گمشده:
در دستور زیر مقدار 99 به عنوان داده ی گمشده معرفی می شود:
# recode 99 to missing for variable v1
# select rows where v1 is 99 and recode column v1 
mydata[mydata$v1==99,"v1"] <- NA
 
حذف  دادههای گمشده از تحلیل:

توابع حسابی بر روی داده های گمشده،  مقادیر گمشده را نتیجه می دهتد به عنوان  مثال در مورد تابع میانگین داریم:

x <- c(1,2,NA,3)
mean(x) # returns NA
mean(x, na.rm=TRUE) # returns 2
نتیجه تابع ()complete.cases یک بردار منطقی می باشد که مشخص می کنید کدوم آزمودنی کامل (مخالف گمشده) می باشد، 
# list rows of data that have missing values 
mydata[!complete.cases(mydata),]
 
تابع  ()na.omit شی ای را بر می گرداند که مقادیر گمشده آن به صورت کلی (likewise) حذف می گردد. (توجه شود که نوع دیگری از حذف داده های گمشده به صورت جفتی (pairwise)   که در نرم افزار SPSS نیز موجود می باشد)
# create new dataset without missing data 
newdata <- na.omit(mydata)
 
مدیریت پیشرفته داده های گمشده
اغلب تابع های مدلبندی در R گزینه هایی را برای رفتار با مقادیر گمشده پیشنهاد می کنند. شما  می توانید ورای حذف کلی یا جفتی مقادیر گمشده از طریق روش هایی از قبیل انتساب چندگانه (multiple imputation) حرکت کنید. لارم به ذکر است که در R، پیاده سازی های خوب را می توان از طریق بسته هایی همچون mitools یا Amelia II انجام داد.

جهت درخواست آموزش نرم افزار R و یا انجام پروژه های آماری از یکی از روش های زیر می توانید باتیم آی آر آمار در ارتباط باشید. لازم به توضیح می باشید فرآیند مشاوره و همچنین پاسخگویی به سوالات کوتاه به صورت کاملا رایگان ارائه می گردد.

 

شماره تماس:   09300023999

رایانامه:  این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

ترسیم نمودار جعبه ای به همراه نمودار نقطه ای

نوشته شده توسط مشاور آماری . منتشر شده در R و S+

فرض کنید که یک متغیر طبقه بندی (عاملی) داریم و بخواهیم بر اساس آن نمودار جعبه ای مقایسه ای برای هر طبقه درست کنیدم. در ضمن کنار هر قسمت نمودار، نمودار نقطه ای را ترسیم کنید. این نمودار به نوعی پراکندگی و توزیع هر طبقه را نیز نشان خواهد داد.

 

دفاتر ما

تماس با ما آمادگی داریم تا با شبکه ای از همکاران و مشاوران در هر یک از شهرهای بزرگ در کنار شما باشیم

با ما در تماس باشید

آمار سایت