انجام پروژه های داده کاوی

انجام پروژه های داده کاوی بدر زمینه های مخار weka clementine12 spss modeler14.2 rapidminer ت کارشناسی و کارشناسی ارشد 09367292276 09367292276 azsoftir@gmail.com

انجام پروژه های داده کاوی

انجام پروژه های داده کاوی بدر زمینه های مخار weka clementine12 spss modeler14.2 rapidminer ت کارشناسی و کارشناسی ارشد 09367292276 09367292276 azsoftir@gmail.com

رگرسیون منطقی (Logistic Regression) با R به همراه داکیومنت

پیاده سازی رگرسیون منطقی (Logistic Regression) با R به همراه داکیومنت

 09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
اریابی رفتار کارشناسان امور رایانه در یک اداره با R به همراه داکیومنت
ارزیابی رفتار کارشناسان امور رایانه در یک اداره با R به همراه داکیومنت
خوشه بندی داده های شرکت تولیدی به روش مختلف در R به همراه داکیومنت
خوشه بندی داده های شرکت تولیدی به روش مختلف در R به همراه داکیومنت
تحلیل آماری چند متغیری کاربردی با نرم افزار R به همراه داکیومنت
تحلیل آماری چند متغیری کاربردی با نرم افزار R به همراه داکیومنت
پیش بینی بورس با الگوریتم نزدیک ترین همسایه (KNN) در نرم افزار R

پیش بینی بورس با الگوریتم نزدیک ترین همسایه (KNN) در نرم افزار R

محاسبه ریشه دوم عدد با شبکه عصبی MLP در نرم افزار R
محاسبه ریشه دوم عدد با شبکه عصبی MLP در نرم افزار R


خوشه بندی داده های کارمندان یک سازمان مالی با الگوریتم K-Means در R

خوشه بندی داده های کارمندان یک سازمان مالی با الگوریتم K-Means در R

آربیتراژ آماری برای تفاوت قیمت کالا جهت کسب سود با R


آربیتراژ آماری برای تفاوت قیمت کالا جهت کسب سود با R
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
پیش بینی حقوق کارمندان به روش رگرسیون خطی با R




پیش بینی حقوق کارمندان به روش رگرسیون خطی با R


پیش بینی روند صعودی و نزولی بورس با الگوریتم HMM در R
پیش بینی روند صعودی و نزولی بورس با الگوریتم HMM در R


پیش بینی سهام و نمایش آن به صورت باندهای بولینگر با R

پیش بینی سهام و نمایش آن به صورت باندهای بولینگر با R
رگرسیون چیست ؟

رگرسیون یکی از مهمترین ابزار های آماری در زمینه آنالیز داده ها و بررسی ارتباط بین متغیرهای پیش بین و متغیر پاسخ می باشد. اما در اکثر مسائل، یک مدل رگرسیونی تنها می تواند ارتباط اثرات اصلی متغیرهای پیشبین را روی پاسخ بررسی کند و اثرات متقابل بین متغیرها در صورت لحاظ شدن در مدل، به دلیل پیچیده شدن آن، از دوطرفه و نهایتا سه طرفه تجاوز نمی کند. زمانی که تعداد متغیرهای پیش بین زیاد باشد، به ویژه وقتی این متغیرها دوحالتی باشند (بله و خیر، سالم و بیمار و…)، ممکن است اثرات متقابل مراتب بالاتر بین این متغیرها بر روی برازش متغیر پاسخ تاثیرگذار باشد. این موضوع بیشتر در مسائلی مثل داده کاوی و داده های ریز آرایه که حجم داده ها زیاد است روی می دهد.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
برای شناسایی و لحاظ کردن چنین تقابل هایی در مدل های رگرسیونی، می توان به جای استفاده از تمام متغیرها در برازش مدل، یک متغیر ترکیبی از آنها ساخت و به عنوان متغیر مستقل جدید وارد مدل کرد. رگرسیون منطقی می تواند راه حلی برای رفع این گونه مشکلات باشد. برای متغیرهای پیش بین دوحالتی روش های متنوع رگرسیونی و کلاس بندی در علوم آماری و کامپیوتر و زبان ماشین وجود دارد. در منابع زبان ماشین، روش ها و الگوریتم هایی که از توابع بولی استفاده می کند بر مبنای درخت تصمیم با قواعد تصمیم هستند.
رگرسیون منطقی (Logistic Regression)

رگرسیون منطقی یا Logistic Regression یک روش رگرسیونی بهبود یافته و جدید می باشد که در آن متغیرهای پیشگو به شکل ترکیب های بولی از متغیرهای دو حالتی ساخته شده اند. در رگرسیون منطقی ، ما به دنبال یک متغیر دو حالته هستیم که حاصل یک ترکیب منطقی بولی مطلوب از متغیرهای دو حالتی اولیه را داشته باشد. به این شکل که بکارگیری متغیر جدید به برای متغیر پیش بین، در مقایسه با دیگر ترکیبات بولی ممکن، بهترین برازش را بر روی متغیر پاسخ دهد. کاربرد های رگرسیون منطقی یا لجستیک در زمینه داده های SNP ، توالی ژنی، غربالگری بیماری های چند عاملی و غیره می باشد. این نوع رگرسیون به جهت استفاده از ترکیبات بولی منطقی رگرسیون، رگرسیون منطقی (Logistic Regression) نامگذاری شده است.
تصاویری از خروجی پروژه

logistic regression in r 22099 2 تصویر

logistic regression in r 2209367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com099 3 تصویر

logistic regression in r 22099 4 تصویر

logistic regression in r 22099 5 تصویر

تحلیل آماری چند متغیری کاربردی با نرم افزار R به همراه داکیومنت



applied multivariate statistical analysis r 21625 1 تصویر
تحلیل آماری چند متغیری کاربردی

در این بخش پروژه ای برای تحلیل آماری چند متغیری کاربردی آماده کردیم که در آن به مباحث تحلیل واریانس چند متغیره، استقلال و نرمال بودن داده ها، همبستگی داده ها و  آزمون برابری پارامترها مثل میانگین در چند متغیره در نرم افزار آماری R پرداخته می شود و بر اساس روند زیر آنالیزها انجام شده است:

برای آنالیز برابری و نابرابری واریانس از آماره M و آزمون باکس استفاده کردیم که در آن پکیج biotools بکار رفته است. برای نصب و اجرای کد مطابق زیر عمل می کنیم:

install.packages('biotools')

library('biotools')

داده ورودی شامل چهار متغیر می باشد که طول و عرض کاسبرگ و گلبرگ ها را شامل می شود و یک ستون که نوع گل را مشخص می کند که جامعه های آماری مورد نظر ما را نشان می دهد، که سه نوع گل وجود دارد:

inpu<-iris

head(inpu)

Sepal.Length Sepal.Width Petal.Length Petal.Width Species
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
          ۵٫۱         ۳٫۵          ۱٫۴         ۰٫۲  setosa

          ۴٫۹         ۳٫۰          ۱٫۴         ۰٫۲  setosa

          ۴٫۷         ۳٫۲          ۱٫۳         ۰٫۲  setosa

          ۴٫۶         ۳٫۱          ۱٫۵         ۰٫۲  setosa

          ۵٫۰         ۳٫۶          ۱٫۴         ۰٫۲  setosa

          ۵٫۴         ۳٫۹          ۱٫۷         ۰٫۴  setosa

برای اجرای آزمون از داده  ورودی استفاده می شود که inpu نام دارد و دارای ۵ ستون می باشد که ستون های یک، دو، سه و چهار متغیرهای ما و ستون پنجم گروه بندی مربوط به جامعه آماری می باشد. ستون اول طول کاسبرگ، ستون دوم عرض کاسبرگ، ستون سوم طول گلبرگ و ستون چهارم عرض گلبرگ می باشد.

boxM(inpu[,1:4],inpu[,5])

نتیجه به قرار زیر می باشد:

               Box's M-test for Homogeneity of Covariance Matrices

data:  inpu[, 1:4]

Chi-Sq (approx.) = 140.94, df = 20, p-value < 2.2e-16

در این بخش p-value محاسبه شده نشان می دهد که واریانس متغیرهای مورد مطالعه برای سه جامعه آماری و برای چهار متغیر مورد مطالعه که طول و عرض کاسبرگ ها و گلبرگ ها می باشند، برابر نیستند. برای بررسی همبستگی بین متغیرها از روش پیرسون و اسپیرمن استفاده شد. برای این منظور از پکیج Hmisc و دستور rcorr استفاده شد است:
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
install.packages('Hmisc')

library('Hmisc')

در ابتدا متغیرهای مورد نظر را از داده ها استخراج می کنیم:

inp1<-inpu[,1:4]inp1<-as.matrix(inp1)rcorr(inp1,type=c("pearson" ))

توضیحات بیشتر و کامل تر به همراه پروژه ارائه می گردد.
تصاویری از خروجی پروژه تحلیل آماری چند متغیری کاربردی
پیش بینی بورس با الگوریتم نزدیک ترین همسایه (KNN) در نرم افزار R


r bourse knn 18759 1 تصویر
پروژه پیش بینی بورس با الگوریتم نزدیک ترین همسایه در R

پروژه پیش بینی بورس با الگوریتم نزدیک ترین همسایه (k-Nearest Neighbor – KNN) را در این پست با نرم افزار R آماده کردیم که کدهای آن کامنت گذاری نیز شده است. در ادامه به توضیحاتی در رابطه با سهام و بورس پرداخته و فیلم و تصاویری از خروجی این پروژه آماری در R قرار داده شده است. توضیحاتی که در ادامه به آنها اشاره می کنیم، از مطالعاتی است که در رابطه با سهام و بورس با استفاده از شبکه های عصبی صورت گرفته است. در کنار کارهای انجام شده پیشین، اکنون ما نیز از الگوریتم KNN استفاده می کنیم.
پیش بینی قیمت سهام:

مروری بر مطالعات قبلی در خصوص پیش بینی قیمت سهام نشان می دهد که شاخص های فنی غالبا استفاده شده اند. شاخص های فنی، نظیر قیمت سهام فعلی، قیمت باز شدن، قیمت بسته شدن، حجم، بالاترین و پایین ترین قیمت اغلب با مدل شبکه عصلی استفاده می شود. در دوره های اخیر، مدل های ترکیبی به طور موثری در پیش بینی قیمت سهام استفاده شده اند.
نمونه هایی از مطالعاتی که در آنها شاخص های فنی استفاده شده اند شامل موارد زیر هستند:

در مطالعه فوا و همکاران (۲۰۰۳)، شاخص های فنی با مدل شبکه عصبی مصنوعی برای پیش بینی قیمت سهام استفاده شده و یافته های آن ها نشان داد که مدل شبکه عصبی مصنوعی دارای  میزان موفقیت متوسط ۶۰ درصد بوده و بهترین نتیجه پیش بینی ۷۴ درصد است. در مطالعه چن و همکاران (۲۰۰۳)، شاخص های فنی با مدل شبکه عصبی مصنوعی استفاده شده و یافته ها نشان داد که شبکه عصبی مصنوعی نرخ بازده بالاتری نسبت به راهبرد های سرمایه گذاری دیگر  نشان داد.

توضیحات بیشتر و فیلم و تصاویر خروجی پروژه پیش بینی بورس با الگوریتم نزدیک ترین همسایه با R در ادامه مطلب.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
کونهانگ و یو (۲۰۰۶) از شاخص های فنی با شبکه عصبی مصنوعی استفاده کرده و نتایج آنها نشان داد که شبکه عصبی مصنوعی دارای قابلیت پیش بینی بهتری از مدل سری های زمانی دارد. زو و همکاران (۲۰۰۷)  نیز از شاخص های فنی با شبکه عصبی مصنوعی استفاده کرده و نتایج  نشان داد که شبکه عصبی مصنوعی قادر به پیش بینی افزایش شاخص سهام  بوده و حجم معاملات منجر به بهبود نسبی در عملکرد شاخص سهام خواهد شد.

تسانگ و همکاران (۲۰۰۷) از شاخص های فنی با شبکه عصبی مصنوعی برای ایجاد یک سیستم هشدار تجارتی استفاده کرده و یافته های آنها نشان داد که شبکه عصبی مصنوعی می تواند سرمایه گذاران را هنگام خرید و فروش سهام به طور کارامدی راهنمایی کند. اوکی (۲۰۰۷) نیز از شاخص های فنی با شبکه عصبی مصنوعی استفاده کرده و این یافته ها نشان دادند که شبکه عصبی مصنوعی را می توان به طور کارامدی برای پیش بینی نرخ سود روزانه و  جلسه ای شاخص Ise-100 استفاده کرد.

توضیحات ارائه شده، از مقاله “Fuzzy-neural model with hybrid market indicators for stock forecasting” با عنوان فارسی “مدل فازی عصبی با شاخص های بازاری هیبریدی (ترکیبی) برای پیش بینی سهام” می باشد که ترجمه آن به زودی در سایت قرار خواهد گرفت.
تصاویر خروجی پروژه پیش بینی بورس با الگوریتم نزدیک ترین همسایه:

محاسبه ریشه دوم عدد با شبکه عصبی MLP در نرم افزار R



r mlp 18748 1 تصویر
پروژه محاسبه ریشه دوم عدد با شبکه عصبی MLP در R

پروژه محاسبه ریشه دوم عدد با شبکه عصبی MLP را در نرم افزار R به همراه کامنت گذاری کدها آماده کردیم. در ادامه به معرفی این پروژه و شبکه عصبی MLP پرداخته و فیلم و تصویر خروجی آن قرار داده شده است.
شبکه عصبی پرسپترون چند لایه (MLP):

شبکه عصبی MLP متشکل از مجموعه نورون ها می باشد که در لایه های مختلف مثال لایه میانی (مخفی) که در این پروژه هم وجود دارد، پشت سر هم قرار دارند. اعداد ورودی بعد از ضرب در وزن هایی که وجود دارند، در گذر گاه های میان لایه ها به نورون بعدی می رسد و در آن مکان با یکدیگر جمع شده و بعد از گذر از تابع شبکه، خروجی نورون ها را تولید می کنند. در آخر خروجی ایجاد شده با خروجی مد نظر مقایسه می شود و خطای تولید شده به منظور اصلاح وزن های شبکه استفاده می شود که به این عمل، آموزش شبکه عصبی گفته می شود.
معرفی پروژه محاسبه ریشه دوم عدد با شبکه عصبی MLP:
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
در این پروژه ریاضیاتی با نرم افزار R ، شبکه عصبی پرسپترون چند لایه (Multi-Layer Perceptron – MLP) را پیاده سازی می کنیم که می تواند یک عدد را گرفته و ریشه دوم آن محاسبه کند. در این پروژه شبکه عصبی که کدهای آن کامنت گذاری شده، از کتابخانه neuralnet استفاده شده است. اگر به تصویر شماره ۱ که در بالای این توضیحات قرار دارد دقت کنید، برنامه یک ورودی دریافت می کند که همان عددی است که قصد داریم ریشه دوم آن را محاسبه کنیم.

توضیحات بیشتر، فیلم و تصویری از خروجی پروژه محاسبه ریشه دوم عدد با شبکه عصبی در ادامه مطلب.

یک خروجی داریم که پاسخ آن، ریشه دوم عدد وارد شده به برنامه می باشد. برای آموزش به شبکه عصبی نیز ۱۰ لایه میانی (مخفی) بکار رفته است. ورودی و خروجی نیز در تصویر شماره ۲ که در ادامه این توضیحات مشاهده می کنید مشخص است.
نصب کتابخانه neuralnet در نرم افزار R:

جهت نصب کتابخانه neuralnet در نرم افزار R ، دستور (‘  ‘)install.packages را در خط فرمان تایپ می کنیم که در ‘  ‘ نام کتابخانه که neuralnet می باشد را قرار می دهیم تا بر روی نرم افزار نصب گردد


پروژه خوشه بندی داده های کارمندان با الگوریتم K-Means در نرم افزار R

پروژه خوشه بندی داده های کارمندان با الگوریتم K-Means را در نرم افزار R به همراه داکیومنت و فیلم آموزش اجرا در این پست آماده کردیم که یک پروژه مناسب برای حسابداری، درس آمار و احتمالات کاربردی، آمار و احتمالات مهندسی، آمار و مدل سازی و درس تحلیل آماری می باشد. در ادامه به معرفی پروژه و الگوریتم کامینز پرداخته و فیلم و تصاویری از خروجی قرار داده شده که قسمتی از فیلم خروجی نیز به صورت آنلاین قابل مشاهده است.
معرفی پروژه خوشه بندی داده های کارمندان:

مجموعه داده انتخاب شده مربوط به کارمندان یک سازمان مالی می باشد که این داده ها از پاسخنامه هایی که بین تقریبا ۳۵ کارمند موجود در ۳۰ دپارتمان سازمان پخش شده اند، جمع آوری شده است. اعداد درصد پاسخ های مطبوع برای ۷ سوال در هر دپارتمان را نشان می دهد.
هدف از خوشه بندی:

هدف ما در این پروژه دسته بندی یا خوشه بندی (clustering) دپارتمان ها بر اساس پاسخ هایی است که کارمندان آنها برای سوال ها داده اند، می باشد. برای خوشه بندی در ابتدا باید تعداد گروه ها مشخص باشد که برای آغاز ما ۳ گروه را انتخاب کرده و تعداد تکرارها را نیز برای رسیدن به بهترین خوشه ها ۱۰۰ تعیین می کنیم.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
توضیحات بیشتر، فیلم و تصاویری از خروجی پروژه خوشه بندی داده های کارمندان با الگوریتم K-Means در نرم افزار R در ادامه مطلب.
معرفی الگوریتم خوشه بندی K-means:

الگوریتم K-means روی روش برای آموزش آماری Unsupervised می باشد که یک روش شایع به منظور دسنه بندی نمونه ها بر اساس پارامتر های مختلف موجود برای نمونه ها است. در بازاریابی یا مارکتینگ، این روش برای ایجاد گروه های مشتری، محصول و بازار مورد استفاده قرار می گیرد. ایده اصلی برای تکنیک کامینز، گروه بندی مجموعه داده به خوشه های متمایز می باشد به طوری که هر داده موجود در گروه بسیار شبیه به سایر داده های موجود در همان گروه و متمایز از داده های موجود در سایر گروه ها باشد.
گام های خوشه بندی در K-means:

اولین گام برای خوشه بندی K-means تعریف نمودن تعداد خوشه ها برای فرایند می باشد. سپس، این الگوریتم هر داده را به طور اتفاقی به یکی از خوشه ها نسبت میدهد. بر اساس این روش خوشه خوب خوشه ای است که تغییرات within-cluster کمترین مقدار باشد. معمولترین روش برای تعریف تغییرات استفاده از مربع فاصله اقلدیسی است. از طرف دیگر بهترین خوشه های ایجاد شده آنهایی هستند که کمترین فواصل within-cluster برای خوشه ها و بیشترین فاصله between-cluster برای خوشه ها به دست آید.
عموما، الگوریتم K-means با یک فرایند پالایش تکراری کار می کند:

    هر داده به طور اتفاقی به یکی از خوشه ها نسبت داده می شود (تعداد خوشه ها قبلا توسط کاربر مشخص می شود).
    مرکز هر خوشه محاسبه می شود.
    هر داده به نزدیک ترین مرکز نسبت داده می شود (به طور تکراری تا زمانی که فاصله within-cluster به کمترین مقدار برسد) تا زمانی که هیچ تغییر چشمگیری مشاهده نشود.

داده ورودی در پروژه حاضر با نام dat است که ۷ ستون و ۳۰ سطر دارد. برای وارد کردن داده از کد زیر استفاده می نماییم و با باز نمودن دایرکتوری که فایل مورد نظر در آن قرار دارد آن را وارد محیط نرم افزاری R می کنیم:

FileChoice<-file.choose() # choose input file - FIRMA file

dat <- read.delim(FileChoice, skip=0, sep="\t", as.is=TRUE)

سپس برای خوشه بندی اولیه از کد زیر استفاده می کنیم:

km1 = kmeans(dat, 3, nstart=100)
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
چالشی که در این روش وجود دارد، تعیین تعداد گروه ها می باشد. با توجه به عدم وجود روشی برای تعیین تعداد دسته ها میتوان این الگوریتم را برای تعداد متفاوت گروه ها اجرا نمود و سپس بر اساس نتایج دسته بندی مورد نظر را انتخاب نمود.

هر چند یک راه حل برای تعداد بهینه خوشه ها وجود دارد که به روش Elbow معروف است که شامل مشاهده مجموعه ای از تعداد خوشه ها برای داده ها در برابر مجموع مربعات within-cluster می باشد. به بیان دیگر، این روش عدم تشابه within-cluster به عنوان تابعی از تعداد خوشه ها می باشد.

پروژه خوشه بندی داده های کارمندان با الگوریتم K-Means در نرم افزار R
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
پروژه خوشه بندی داده های کارمندان با الگوریتم K-Means را در نرم افزار R به همراه داکیومنت و فیلم آموزش اجرا در این پست آماده کردیم که یک پروژه مناسب برای حسابداری، درس آمار و احتمالات کاربردی، آمار و احتمالات مهندسی، آمار و مدل سازی و درس تحلیل آماری می باشد. در ادامه به معرفی پروژه و الگوریتم کامینز پرداخته و فیلم و تصاویری از خروجی قرار داده شده که قسمتی از فیلم خروجی نیز به صورت آنلاین قابل مشاهده است.
معرفی پروژه خوشه بندی داده های کارمندان:

مجموعه داده انتخاب شده مربوط به کارمندان یک سازمان مالی می باشد که این داده ها از پاسخنامه هایی که بین تقریبا ۳۵ کارمند موجود در ۳۰ دپارتمان سازمان پخش شده اند، جمع آوری شده است. اعداد درصد پاسخ های مطبوع برای ۷ سوال در هر دپارتمان را نشان می دهد.
هدف از خوشه بندی:

هدف ما در این پروژه دسته بندی یا خوشه بندی (clustering) دپارتمان ها بر اساس پاسخ هایی است که کارمندان آنها برای سوال ها داده اند، می باشد. برای خوشه بندی در ابتدا باید تعداد گروه ها مشخص باشد که برای آغاز ما ۳ گروه را انتخاب کرده و تعداد تکرارها را نیز برای رسیدن به بهترین خوشه ها ۱۰۰ تعیین می کنیم.

توضیحات بیشتر، فیلم و تصاویری از خروجی پروژه خوشه بندی داده های کارمندان با الگوریتم K-Means در نرم افزار R در ادامه مطلب.
معرفی الگوریتم خوشه بندی K-means:

الگوریتم K-means روی روش برای آموزش آماری Unsupervised می باشد که یک روش شایع به منظور دسنه بندی نمونه ها بر اساس پارامتر های مختلف موجود برای نمونه ها است. در بازاریابی یا مارکتینگ، این روش برای ایجاد گروه های مشتری، محصول و بازار مورد استفاده قرار می گیرد. ایده اصلی برای تکنیک کامینز، گروه بندی مجموعه داده به خوشه های متمایز می باشد به طوری که هر داده موجود در گروه بسیار شبیه به سایر داده های موجود در همان گروه و متمایز از داده های موجود در سایر گروه ها باشد.
گام های خوشه بندی در K-means:

اولین گام برای خوشه بندی K-means تعریف نمودن تعداد خوشه ها برای فرایند می باشد. سپس، این الگوریتم هر داده را به طور اتفاقی به یکی از خوشه ها نسبت میدهد. بر اساس این روش خوشه خوب خوشه ای است که تغییرات within-cluster کمترین مقدار باشد. معمولترین روش برای تعریف تغییرات استفاده از مربع فاصله اقلدیسی است. از طرف دیگر بهترین خوشه های ایجاد شده آنهایی هستند که کمترین فواصل within-cluster برای خوشه ها و بیشترین فاصله between-cluster برای خوشه ها به دست آید.
عموما، الگوریتم K-means با یک فرایند پالایش تکراری کار می کند:
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
    هر داده به طور اتفاقی به یکی از خوشه ها نسبت داده می شود (تعداد خوشه ها قبلا توسط کاربر مشخص می شود).
    مرکز هر خوشه محاسبه می شود.
    هر داده به نزدیک ترین مرکز نسبت داده می شود (به طور تکراری تا زمانی که فاصله within-cluster به کمترین مقدار برسد) تا زمانی که هیچ تغییر چشمگیری مشاهده نشود.

داده ورودی در پروژه حاضر با نام dat است که ۷ ستون و ۳۰ سطر دارد. برای وارد کردن داده از کد زیر استفاده می نماییم و با باز نمودن دایرکتوری که فایل مورد نظر در آن قرار دارد آن را وارد محیط نرم افزاری R می کنیم:

FileChoice<-file.choose() # choose input file - FIRMA file

dat <- read.delim(FileChoice, skip=0, sep="\t", as.is=TRUE)

سپس برای خوشه بندی اولیه از کد زیر استفاده می کنیم:

km1 = kmeans(dat, 3, nstart=100)

چالشی که در این روش وجود دارد، تعیین تعداد گروه ها می باشد. با توجه به عدم وجود روشی برای تعیین تعداد دسته ها میتوان این الگوریتم را برای تعداد متفاوت گروه ها اجرا نمود و سپس بر اساس نتایج دسته بندی مورد نظر را انتخاب نمود.

هر چند یک راه حل برای تعداد بهینه خوشه ها وجود دارد که به روش Elbow معروف است که شامل مشاهده مجموعه ای از تعداد خوشه ها برای داده ها در برابر مجموع مربعات within-cluster می باشد. به بیان دیگر، این روش عدم تشابه within-cluster به عنوان تابعی از تعداد خوشه ها می باشد.

آربیتراژ آماری برای تفاوت قیمت کالا جهت کسب سود با R




r arbitrage 17746 1 تصویر
پروژه آربیتراژ آماری برای تفاوت قیمت کالا جهت کسب سود در برنامه R

پروژه آربیتراژ آماری برای تفاوت قیمت کالا به منظور کسب سود با نرم افزار R را در این پست آماده کردیم که یک پروژه مناسب برای درس آمار و احتمالات کاربردی، آمار و احتمالات مهندسی، آمار و مدل سازی و درس تحلیل آماری می باشد. در این پروژه بررسی بر روی قیمت دو کالا است. در ادامه به معرفی آربیتراژ آماری (Statistical Arbitrage) پرداخته و فیلم و تصویر خروجی این پروژه آماری با R قرار داده شده است.
آربیتراژ آماری چیست؟

آربیتراژ آماری یا Statistical Arbitrage مدت زمان بسیاری است که از سوی سرمایه گذاران حرفه ای بورس سراسر دنیا استفاده می شود. آربیتراژ آماری یک اسرار تجاری سرمایه گذاران حرفه ای می باشد، همین جهت تمایلی برای افشای آن در متون علمی وجود دارد.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
فرصت های آربیتراژی:

زمان های آربیتراژی هستند که بازار ناکارآمد بسازند. فرصت های آربیتراژ ساده از ناکارآمدی در قیمت های یک بازار در یک زمان ایجاد می شود و فرصت های آربیتراژ آماری از ناکارآمدی بازار در یک زمان به حد کافی بلند مدت را باعث می شوند.

سود قطعی از خرید بعضی از سهام و همچنین فروش بعضی دیگر، در آربیتراژ معین قابل حصول می باشد. ولی در آربیتراژ آماری قیمت گذاری نا صحیح آماری برای دارایی وجود دارد که شناسایی آن از سوی سرمایه گذاران کسب سود، بازگشت به قیمت گذاری درست و هدفمند را باعث خواهد داشت.
آربیتراژ آماری، راهبرد معامله در بازار سرمایه:

می تواند گفت که آربیتراژ آماری یک نوع راهبرد معامله در بازار سرمایه است که قیمت گذاری های نا درست آماری و روابط قیمتی که بر اساس انتظر ها در مدت زیاد صحیح می باشند را گمان زده و انحرافات کوتاه مدت از رابطه قیمتی متعادل میان دو سهم را جهت کسب سود استفاده می کند.
مزایای آربیتراژ آماری:

مزایای آربیتراژ آماری، به جهت بدست آوردن سود و بررسی عملکرد بازار بر اساس این روش، دلیلی شده تا این رویکرد سریعا گسترش یافته و بسیاری در مطالعات کارایی بازار از سال ۲۰۰۴ تا به حال را تأثیر گذار باشد. توضیحات ارائه شده از مقاله “آزمون آربیتراژ آماری در بورس اوراق بهادار تهران” می باشد که از لینک زیر قابل دانلود است.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
دانلود مقاله
تصاویری از خروجی پروژه آربیتراژ آماری برای تفاوت قیمت کالا:

پیش بینی حقوق کارمندان به روش رگرسیون خطی با R


R karmand 15945 1 تصویر
پروژه پیش بینی حقوق کارمندان به روش رگرسیون خطی با آر

در این پست پروژه پیش بینی حقوق کارمندان به روش رگرسیون خطی را با برنامه R آماده کرده ایم که پیش بینی با توجه به داده های آماری ۳ سال انجام می شود. در ادامه به توضیحاتی در رابطه با رگرسیون پرداخته و فیلم و تصویر از خروجی پروژه به همراه قسمتی از کدها قرار داده شده است.

درک روابط میان متغیر ها، به منظور ایجاد مدل های آماری ضروری می باشد. با استفاده از شاخص های مربوطه می توانیم میزان روابط میان متغیر ها را کشف کنیم. اما جهت نشان دادن مدل روابط میان متغیر ها، یک روش آماری به نام رگرسیون (Regression) یا معادله خط برگشت به بکار می گیریم تا از این طریق شکل رابطه میان متغیر ها به زبان آماری تهیه شود.

به کمک این کار می توانیم پیش بینی و همچنین تعیین مقدار متغیر وابسته برحسب متغیر مستقل را داشته باشیم. از این رو، آزمون های مرتبط با مدل ارائه شده، اهمیت بسیاری داشته تا اطمینان حاصل کنیم که مدل ارائه شده عملکرد مطلوبی دارد و شرایط مربوط به برآورد مدل در آن در نظر گرفته شده است.

مشاهده قسمتی از کدها، فیلم و تصویر خروجی پروژه پیش بینی حقوق کارمندان به روش رگرسیون خطی در ادامه مطلب.

در زیر قسمتی از کدهای پروژه پیش بینی حقوق کارمندان به روش رگرسیون خطی را می توانید بررسی کنید. برای دریافت کدهای کامل این پروژه لطفا از فرم خرید زیر اقدام نمائید.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
library("quantmod")
#To see what the datasets are available from the FED goto the link below
#http://research.stlouisfed.org/fred2/
economicData <- new.env() #Make a new environment for quantmod to store data in
startDate = as.Date("2000-01-01") #Specify what date to get the prices from
getSymbols("PAYEMS",src="FRED",env=economicData,from=startDate) #Payems is non-farms payrolls
getSymbols("^GSPC",env=economicData,from=startDate) #S&P 500
economicData$PAYEMS <- window(economicData$PAYEMS,start=startDate) #Window our data
(FRED ignores the from parameter above) :@
economicData$GSPC <- window(economicData$GSPC,start=startDate) #Window our data
mergedData <- merge(economicData$PAYEMS,Cl(economicData$GSPC),all=FALSE) #join the
two datasets based
on their SHARED dates
#Calculate the % diff
mergedPercDiff<- mergedData
mergedPercDiff$PAYEMS <- diff(mergedData$PAYEMS)/Lag(mergedData$PAYEMS)
mergedPercDiff$GSPC.Close <- diff(mergedData$GSPC.Close)/Lag(mergedData$GSPC.Close)

تصاویر خروجی پروژه پیش بینی حقوق کارمندان به روش رگرسیون خطی :

پیش بینی روند صعودی و نزولی بورس با الگوریتم HMM در R



R bors hmm 15913 1 تصویر
پروژه پیش بینی روند صعودی و نزولی بورس با الگوریتم HMM (مدل مخفی مارکوف) در R

در این پست پروژه پیش بینی روند صعودی و نزولی بورس با الگوریتم HMM یا مدل مخفی مارکوف (Hidden Markov Model) را با نرم افزار آماری R آماده کرده ایم. در ادامه به توضیحاتی در رابطه با سرمایه گذاری ، سهام ، نوسانات بازار بورس و پروژه حاضر پرداخته و فیلم و تصاویر خروجی آن قرار داده شده است.
سرمایه گذاری ، سهام و نوسانات بازار بورس :
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
سرمایه و نیروی کار از ارکان اصلی در تولید می باشند و تامین این عوامل و تخصیص بهینه آنها، نیازمنده رشد اقتصادی می باشد. وجود بازار مناسب و همچنین عملکرد مناسب نیرو های بازار، تخصیص مستلزم در این بازار می باشد که بازار بورس در زمینه سرمایه، می تواند این وظیفه را عهده دار باشد.

وظیفه بازار بورس چیست:

مهمترین وظیفه بازار بورس ، جذب سرمایه های پراکنده شده و هدایت آنها به طرف فعالیت های سرمایه گذاری به کمک یک فرآیند تخصیص بهینه می باشد. سرمایه گذاران با توجه به گرفتن عواید از دوکانال سود حاصل از فعالیت شرکتی که سهام آن را خرید کرده اند و همینطور فروش دوباره سهام ، به حوضه ی سرمایه گذاری وارد می شوند. در تمام بازار های بورس ، نوسان قیمت سهام یک موضوع طبیعی می باشد، ولی در هر حالت می توان با یک پیش بینی از قیمت سهام ، ترکیبی مناسبی از آنها را انتخاب نموده و نوسان ها را به حداقل رساند و به کمک این کار میزان اطلاعاتی که افراد در دسترس دارند را بیشتر کرد که این موضوع می تواند عملکرد بهتر بازار را منجر شود.

پیش بینی شاخص های مهم بازار بورس یک گام به سوی افزایش و شفاف سازی اطلاعات در بازار سرمایه است.

پیش بینی ها در این حوضه همیشه مورد توجه مطالعه بسیار بوده است که در سال های اخیر حاصل این موضوع، پیشرفت الگو های به کار گرفته شده در پیش بینی شده است. توضیحات بیشتر، فیلم و تصاویری از خروجی پروژه پیش بینی روند صعودی و نزولی بورس با الگوریتم HMM (مدل مخفی مارکوف) در ادامه مطلب.

منظور از روند، یک جریان صعودی یا نزولی می باشد که در یک روند صعودی، روز های نزولی هم هستند، اما در نهایت قیمت افزایش پیدا می کند. همینطور با حضور روز های صعودی در یک روند نزولی، نهایتا قیمت پایین می آید. حرکت های هم جهت ، روند حرکت یا Impulse و حرکت های خلاف جهت ، روند اصلاح یا Correction نامیده می شوند.
پروژه پیش بینی روند صعودی و نزولی بورس:

در پروژه پیش بینی روند صعودی و نزولی بورس ، یادگیری ماشین انجام می شود، به اینگونه که طبقه بندی داده ای داریم و سپس مدل مخفی مارکوف به پیش بینی صعودی و نزولی داده های بورس به منظور یافتن Impulse و Correction می پردازد. تصاویر خروجی را مشاهده نمائید. توضیحات ارائه شده از مقاله ای با عنوان “ارزیابی مدل های پیش بینی شاخص های بازار بورس ایران” می باشد که از لینک زیر می توانید این مقاله را دانلود و مطالعه بفرمایید.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
دانلود مقاله


زیابی رفتار کارشناسان امور رایانه در یک اداره با R به همراه داکیومنت

)

computer expert evaluation in r 22083 1 تصویر
ارزیابی رفتار کارشناسان امور رایانه

در این بخش پروژه ارزیابی رفتار کارشناسان امور رایانه در یک اداره را به کمک الگوریتم خوشه بندی k-means با نرم افزار R همراه با داکیومنت آماده کرده ایم که در ادامه به تعریف مسئله و معرفی پروژه انجام شده به همراه فیلم و تصاویر خروجی قرار داده شده است.
تعریف مسئله

تعدادی کارشناس در یک نرم افزار عملیاتی را انجام می دهند که هر یک از رفتارها با یک متغیر نمایش داده می شود مثل درج یا عدم درج توضیحات در یک تب نرم افزار، درصد فایل های دانلود شده یا مدت زمان صرف شده در انجام هر یک و غیره. در این پروژه قصد داریم تا رفتار این کارشناسان را مورد بررسی قرار داده و میزان شباهت آنها با یک رفتار معیار را بدست آوریم.

رفتار معیار: تعدادی کارشناس نمونه شناسایی شده و ماتریس رفتار آنها را بدست می آوریم که به عنوان الگوی مبنا می شناسیم. اطلاعات یک کارشناس در قالب فایل اکسل جمع آوری شده و با استفاده از تکنیک های یادگیری ماشین، مقایسه ای بین رفتار کارشناس مدنظر  و الگوی مبنا انجام می دهیم و درصد شباهت رفتار آن را بدست می آوریم. در داده ها، ستون های ۱ تا ۳ در واقع شناسه های هر رکورد است، یعنی رفتار هر کارشناس به این صورت بررسی می شود که ارزیابی شونده اول در شاخص شماره ۵ از محور شماره ۲ ، در هر یک از متغیر های ۱۱ گانه چگونه است.
هدف پروژه

میزان شباهت به صورت یک مقدار عددی (درصد) برگردانده می شود. هم میزان شباهت کلی کارشناس مدنظر با الگوی مبنا را می خواهیم و هم میزان شباهت سطر به سطر (یا همان در هر شاخص). نکته: ممکن است کارشناس نمونه نسبت به الگوی مبنا تنها در برخی از شاخص ها رفتاری را نشان دهد مثلا اگر الگوی مبنا دارای ۱۰۰ رگورد می باشد و ممکن است کارشناس مدنظر دارای ۳۰ رکورد باشد که این موضوع باید در فرایند یادگیری و محاسبه شباهت مورد توجه قرار گیرد.
معرفی پروژه انجام شده
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
مرحله اول یادگیری خوشه بندی با استفاده از داده Base و روش k-means می باشد. خوشه بندی بر اساس فایل Base (که Base1 نامگذاری شده است). برای خوشه بندی از روش K-means استفاده شده که یک روش یادگیری ماشین است. در حقیقت از داده های Base برای آموزش روش خوشه بندی استفاده کرده ایم. چالش اصلی برای خوشه بندی به روش k-means تعداد خوشه ها است که باید تعیین شود. برای تعیین تعداد خوشه ها از روش elbow استفاده می شود. در این روش فاصله اقلیدوسی داخل گروه ها برای تعداد خوشه های مختلف محاسبه می شود. تعداد خوشه ای که از آن به بعد فاصله اقلیدسی داخل گروه تغییر پیدا نکند به عنوان تعداد خوشه بهینه انتخاب می شود.
چالش های پروژه

چالشی که در این روش وجود دارد تعیین تعداد گروه ها می باشد. با توجه به عدم وجود روشی برای تعیین تعداد دسته ها می توان این الگوریتم را برای تعداد متفاوت گروه ها اجرا نمود و سپس بر اساس نتایج دسته بندی مورد نظر را انتخاب نمود. هر چند یک راه حل برای تعداد بهینه خوشه ها وجود دارد که به روش Elbow معروف است که شامل مشاهده مجموعه ای از تعداد خوشه ها برای داده ها در برابر مجموع مربعات within-cluster می باشد. به بیان دیگر، این روش عدم تشابه within-cluster به عنوان تابعی از تعداد خوشه ها می باشد.

computer expert evaluation in r 22083 2 تصویر

بر اساس این روش ۵ خوشه تعداد بهینه خوشه ها می باشند. خوشه بندی بر اساس این تعدا انجام میشود و خوشه مربوط به هر رکورد در فایل Base در ستون ۱۶ در فایل processed Base با نام clustering قابل مشاهده است. مرحله بعدی تعیین گروه بندی رکورد ها در سه فایل test است که شامل test1, test2 و test3 می باشد.

خوشه های مربوط به این سه فایل در ستون ۱۶ در فایل های با پیشوند processed با نام clustering مشخص است. سپس در مرحله بعد به منظور تعیین شباهت میان هر خوشه با خوشه مربوط به هر رکورد در سه فایل test میانه هر خوشه در فایل Base مشخص می گردد. بر همین اساس ۵ بردار که میانه هر خوشه در base را مشخص می کند را به دست می آوریم. سپس به منظور اندازه گیری مشابهت میان هر رکورد در سه فایل test با میانه خوشه مربوطه از دو روش ضریب کسینوسی و ضریب همبستگی استفاده می شود.

ضریب کسینوسی و ضریب همبستگی بردار میانه مربوط به خوشه مورد نظر و بردار مربوط به رکورد اندازه گیری شده و در وزن مربوط به خوشه (درصد تعداد اعضای خوشه به نسبت تمام رکوردها در فایل base) ضرب شده و مشابهت میان هر رکورد در سه فایل test با خوشه در فایل base به دست می آید که در ستون های ۱۷ و ۱۸ به ترتیب برای ضریب کسینوسی (نام ستون cosine) و ضریب همبستگی (نام ستون correlation) ثبت می گردد. این اطلاعات در ۳ فایل test با پیشوند processed ارائه شده است.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com

خوشه بندی داده های شرکت تولیدی به روش مختلف در R به همراه داکیومنت




data clustering production company r 21641 1 تصویر
خوشه بندی داده های شرکت تولیدی

در این بخش پروژه خوشه بندی داده های شرکت تولیدی را با نرم افزار R به همراه داکیومنت آماده کردیم که در ادامه به توضیحات مختصری از این پروژه آماری پرداخته و فیلم و تصاویری از خروجی آن قرار داده شده است.
معرفی پروژه

در این تحلیل قرار است تا داده های ۳۷۹ شرکت تولیدی را بر اساس ۱۴ بعد انعطاف پذیری تولید خوشه بندی کنیم. برای کلاسبندی داده­ ها از سه روش خوشه ­بندی شامل الگوریتم خوشه بندی سلسله مراتبی (Hierarchical)، الگوریتم رقابت استعماری (ICA) و الگوریتم بردار ماشین پشتیبان (SVM) استفاده نمودیم. ما با استفاده از ۳ روش خوشه بندی متفاوت ۱۸ خوشه بندی متفاوت روی داده ها انجام دادیم. برای هر روش خوشه بندی خوشه بندی را از ۳ تا ۸ خوشه انجام دادیم. سپس با استفاده از شاخص های متفاوت ارزیابی خوشه ها را بررسی نمودیم. نتیجه نهایی به این صورت بود که خوشه SVM با ۳ خوشه بر اساس ۴ شاخص Calinski_Harabasz ، Dunn  GDI ، Ratkowsky Lance و Wemmert Gancarski بهترین خوشه می باشد.
خوشه بندی سلسله مراتبی چیست ؟

خوشه بندی سلسله مراتبی (Hierarchical Clustering) یک روش جایگزین می باشد که یک سلسله مراتب از پایین به بالا ایجاد می کند و نیازی به تعیین کردن تعداد خوشه ها از قبل نمی باشد. همچنین خوشه بندی سلسله مراتبی مرتبه های روشی می باشد که در دسته بندی داده ها استفاده می شوند. در تکنیک خوشه بندی سلسله مراتبی، به خوشه های آخر با در نظر گرفتن میزان عمومی بودن آنها، ساختاری سلسله مراتبی یا درختی، نسبت داده می شود.
روند عملکرد الگوریتم :

    هر کدام از داده ها را در یک خوشه قرار می ­دهیم، یعنی به تعداد داده ها در ابتدا خوشه داریم.
    مرحله دوم تعیین کردن نزدیکترین دو خوشه از هم دیگر به وسیله ماتریکس فاصله و قرار دادن آن دو خوشه در یک خوشه.
    مرحله سوم شامل تکرار کردن مرحله دوم تا جایی که تنها یک خوشه باقی بماند، این یک خوشه حاوی تمامی داده ها است.

زمانی که همه این مراحل انجام شد، می توان با یک ساختار دندروگرامی آن را نشان داد.
روش خوشه بندی داده ها با استفاده از تکنیک K-means
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
برای خوشه بندی SVM نیاز است که از یک خوشه بندی اولیه استفاده شود که برای این منظور داده ها به قسمتی از داده ها به عنوان داده های آموزشی انتخاب می شوند و با آموزش مدل و بهینه سازی مدل در مرحله بعد از همه داده ها برای خوشه بندی استفاده می شود. پس مرحله اول خوشه بندی اولیه است که از روش k-means استفاده شد که به طریق زیر عمل شد. الگوریتم K-means یک روش برای آموزش آماری Unsupervised می باشد. این روش یک روش شایع برای دسنه بندی نمونه ها بر اساس پارامترهای مختلف موجود برای نمونه ها می باشد که در مارکتینگ این روش برای ایجاد گروه های مشتری / محصول / بازار استفاده می شود.
تصاویر خروجی پروژه خوشه بندی داده های شرکت تولیدی


نظرات 0 + ارسال نظر
امکان ثبت نظر جدید برای این مطلب وجود ندارد.