انجام پروژه های داده کاوی

انجام پروژه های داده کاوی بدر زمینه های مخار weka clementine12 spss modeler14.2 rapidminer ت کارشناسی و کارشناسی ارشد 09367292276 09367292276 azsoftir@gmail.com

انجام پروژه های داده کاوی

انجام پروژه های داده کاوی بدر زمینه های مخار weka clementine12 spss modeler14.2 rapidminer ت کارشناسی و کارشناسی ارشد 09367292276 09367292276 azsoftir@gmail.com

فاصله اطمینان ماهالانوبیس در R:

اخت سری زمانی:
داده های سری زمانی، بردار ها با ماتریس هایی از داده های عددی هستند که ستون آن، یک سری زمانی مجزا را تشکیل میدهد. این داده ها در فواصل زمانی بدست آمده است و ترتیب زمانی در جمع آوری داده ها اهمیت دارد. برای ساختن یک سری زمانی در R، از تابع ts() استفاده می کنیم که فرم کلی این تابع به صورت زیر است:

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com


ts(data,start,end,frequency)

که درآن شناسه ی data، داده های سری زمانی است. شناسه ی start، زمان مشاهده ی اول است. شناسه ی end، زمان مشاهده ی آخر است و شناسه ی frequency، تعداد مشاهدات در هر واحد زمانی است.
 مثال: تابع زیر، سری زمانی را برای داده های 1:12، از سال 1364 تا سال 1376 تشکیل می دهند.
> x<-ts(1:12,start=1364,end=1376,frequency=1)
> x
Time Series:
Start = 1364
End = 1376
Frequency = 1
[1]  1  2  3  4  5  6  7  8  9 10 11 12  1
توجه کنید که تابع نیز همان سری زمانی را تولید میکند.
نکته: تابع time()، سری زمانی جدید را روی همان واحد های زمانی موجود ایجاد می کند که در این صورت، مقادیر آن زمان های ثبت مشاهدات است.(برداری از زمان هایی که در آن ها سیر زمانی به دست آمده است.)
نکته: تابع cycle()،سری زمانی به وجود می آورد که مقادیر آن،موقعیت هر مشاهده در تناوب مربوط به سری زمانی را نشان می دهد.
نکته: تابع frequency، تعداد نمونه ها در هر واحد زمان را نشان می دهد.
نکته: تابع deltat، فاصله ی زمانی بین مشاهدات را نمایش می دهد.
منابع:
روش های پیشرفته آماری با استفاده از نرم افزار R نوشته دکتر مهدی جباری
کتاب آموزش نرم افزار R نوشته ای مریم بهرامی
کتاب تحلیل آماری داده های رسته ای نوشته ای ارلینگ بی. اندرسن و ترجمه ی دکتر علی مشکانی



09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com

مدل اتورگرسیو برداری یک مدل آماری است که وابستگی خطی میان چند سری زمانی را بیان می کند. مدل اتورگرسیو برداری تعمیم مدل اتورگرسیو است برای مدلسازی وابستگی میان بیش از یک سری زمانی. در مدل اتورگرسیو برداری، آینده یک سری‌ زمانی با استفاده از گذشته خود و دیگر سری ها در چندین تاخیر زمانی تخمین زده‌ می شود.
در پکیج stats که در پیش فرض R وجود دارد ما دستور زیر رو داریم:
arima.sim(model, n, rand.gen = rnorm, innov = rand.gen(n, ...),           n.start = NA, start.innov = rand.gen(n.start, ...),...)
که با تایپ در صفحه کنسول R به صورت زیر تمام جزئیات این دستور رو خواهید دید:
> help(arima.sim)
به مثال زیر توجه کنید: 
> set.seed(1)
> y <- arima.sim(list(ar = .8), 300)

> ts.plot(y)

> arima(y, order = c(1, 0, 0))
برازش مدل اتورگرسیو:
برای برازش مدل اتورگرسیو هم به صورت زیر عمل می کنیم:



09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com

مدل اتورگرسیو در R:

ar(x, aic = TRUE, order.max = NULL,    method = c("yule-walker", "burg", "ols", "mle", "yw"),na.action, series, ...)
چند مثال:
> ar(lh)
> ar(lh, method = "burg")
> ar(lh, method = "ols") 
> ar(lh, FALSE, 4)
 # fit ar(4)
> (sunspot.ar <- ar(sunspot.year)) 
>predict(sunspot.ar, n.ahead = 25) 
## try the other methods too
> ar(ts.union(BJsales, BJsales.lead)) 
## Burg is quite different here, as is OLS (see ar.ols) 
>ar(ts.union(BJsales, BJsales.lead), method = "burg")
منابع:
روش های پیشرفته آماری با استفاده از نرم افزار R نوشته دکتر مهدی جباری
کتاب آموزش نرم افزار R نوشته ای مریم بهرامی
کتاب تحلیل آماری داده های رسته ای نوشته ای ارلینگ بی. اندرسن و ترجمه ی دکتر علی مشکانی

صله ماهالانوبیس در R
فاصله ای که ماهالانوبیس آماردان هندی
prasanta chandra mahalanobis(1893-1972)







معرفی کرد به صورت زیر ساخته می شود:
D^2 = (x - μ)' Σ^-1 (x - μ)
برای آگاهی از جزئیات تئوری این فاصله می توانید به کتاب های چند متغیره پیوسته سری واستاوا و جانسون مراجعه کنید.
فاصله اطمینان ماهالانوبیس در R:


09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
این دستور در بیس R وجود دارد و با تایپ (help(mahalanobis در صفحه کنسول R می توانید جزییات دستورا را مشاهده کنید.
دستور:
mahalanobis(x, center, cov, inverted = FALSE, ...)
مثال:
> require(graphics)
> ma <- cbind(1:6, 1:3)
> (S <-  var(ma))
     [,1] [,2]
[1,]  3.5  0.8
[2,]  0.8  0.8
> mahalanobis(c(0, 0), 1:2, S)
[1] 5.37037
>

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
> x <- matrix(rnorm(100*3), ncol = 3)
> stopifnot(mahalanobis(x, 0, diag(ncol(x))) == rowSums(x*x))
>Here, D^2 = usual squared Euclidean distances

> Sx <- cov(x)
> D2 <- mahalanobis(x, colMeans(x), Sx)



> plot(density(D2, bw = 0.5),
+      main="Squared Mahalanobis distances, n=100, p=3") ; rug(D2)
> qqplot(qchisq(ppoints(100), df = 3), D2,
+        main = expression("Q-Q plot of Mahalanobis" * ~D^2 *
+                          " vs. quantiles of" * ~ chi[3]^2))
> abline(0, 1, col = 'gray')
منابع:
روش های پیشرفته آماری با استفاده از نرم افزار R نوشته دکتر مهدی جباری
کتاب آموزش نرم افزار R نوشته ای مریم بهرامی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
کتاب تحلیل آماری داده های رسته ای نوشته ای ارلینگ بی. اندرسن و ترجمه ی دکتر علی مشکانی
در انتخاب یک آزمون آماری برای تحقیق، باید بدانیم که آیا از آزمون های پارامتریک استفاده کنیم یا آزمون های ناپارامتریک. یکی از اصلی ترین ملاک ها برای این انتخاب، انجام آزمون کولموگروف-اسمیرنوف است. آزمون کولموگروف-اسمیرنوف، نرمال نبودن توزیع داده ها را نشان می دهد. یعنی این که توزیع یک صفت در یک نمونه را (مثلا سن در بین ۱۰۰ نفر نمونه پرستاران) با توزیعی که برای جامعه، مفروض است (برای مثال سن تمام پرستاران) مقایسه می کند. اگر تست کولموگروف- اسمیرنوف رد شود، داده ها دارای توزیع نرمال می باشند، و امکان استفاده از آزمون های آماری پارمتریک برای تحقیق، وجود دارد. بالعکس، اگر تست کولموگروف-اسمیرنوف قبول شود، یعنی داده ها دارای توزیع نرمال نیستند، بنابراین باید از آزمون های ناپارمتریک در تحقیق استفاده کنیم.
برای سنجش و مقایسه توزیع احتمال داده ها با توزیع نرمال، آزمون کولموگروف-اسمیرنف خیلی محتاط عمل می کند. به این معنی که تا حد امکان رای به نرمال بودن داده ها می دهد و خیلی به ندرت (با وجود چولگی و وجود نقاط پرت) فرض نرمال
ود09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.comن را رد می کند. ولی در روش اصلاح شده «لیلیفورس» (Lilliefors)، دقت آزمون کولموگروف-اسمیرنف برای توزیع نرمال




بهبود یافته است. مراحل انجام این آزمون به صورت زیر است:
۱. میانگین و واریانس داده ها محاسبه می شود. 
۲. محاسبه فاصله بین توزیع تجربی و توزیع نرمال با پارامترهای برآورد شده توسط داده ها که در بخش اول به دست آمده است



.
۳




‌. محاسبه آماره کولموگروف-اسمیرنف براساس مقادیر مشاهده شده از مرحله ۲.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
از آنجایی که برآورد پارامترها برای توزیع نرمال صورت گرفته است، آماره حاصل از مرحله ۳ دیگر دارای توزیع کولموگروف نیست بلکه دارای توزیع لیلیفورس است.
✅ روش انجام آزمون کلموگروف-اسمیرنوف در R
ks.test(x , “pnorm”)
✅ روش انجام آزمون لی لی فورس در R
lillie.test(x)
منابع:
روش های پیشرفته آماری با استفاده از نرم افزار R نوشته دکتر مهدی جباری
کتاب آموزش نرم افزار R نوشته ای مریم بهرامی
آزمون شاپیرو-ویلک، یک آزمون نرمال‌ بودن در آمار استنباط‌ گرایانه است. ساموئل سنفورد شاپیرو و مارتین ویلک، این آزمون را در سال ۱۹۶۵ منتشر کردند.
 آزمون شاپیرو-ویلک، اصل فرض صفر را به‌ کار می‌گیرد تا بررسی کند که آیا یک نمونه x1, ... , xn از یک جامعه دارای توزیع طبیعی می باشد یا خیر. پس از بررسی عادی یا نرمال بودن چولگی و کشیدگی توزیع داده‌ها، از آزمون شاپیرو-ویلک یا آزمون کولموگروف-اسمیرنوف استفاده می‌شود تا از نرمال بودن داده‌ها اطمینان حاصل شود. هنگام بررسی نرمال بودن داده‌ها ما فرض صفر مبتنی بر اینکه توزیع داده‌ها نرمال است را در سطح خطای 0.05 آزمون می‌کنیم. بنابراین اگر آماره آزمون بزرگتر مساوی 0.05 باشد، در این صورت دلیلی برای رد فرض صفر مبتنی بر اینکه داده نرمال است، وجود نخواهد داشت. به عبارت دیگر توزیع داده‌ها نرمال خواهد بود. جهت انجام آزمون شاپیرو-ویلک دستور زیر را در R اجرا می کنیم:
shapiro.test(x)
منابع:
روش های پیشرفته آماری با استفاده از نرم افزار R نوشته دکتر مهدی جباری
کتاب آموزش نرم افزار R نوشته ای مریم بهرامی
کتاب تحلیل آماری داده های رسته ای نوشته ای ارلینگ بی. اندرسن و ترجمه ی دکتر علی مش
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
نظرات 0 + ارسال نظر
امکان ثبت نظر جدید برای این مطلب وجود ندارد.