انجام پروژه های داده کاوی

انجام پروژه های داده کاوی بدر زمینه های مخار weka clementine12 spss modeler14.2 rapidminer ت کارشناسی و کارشناسی ارشد 09367292276 09367292276 azsoftir@gmail.com

انجام پروژه های داده کاوی

انجام پروژه های داده کاوی بدر زمینه های مخار weka clementine12 spss modeler14.2 rapidminer ت کارشناسی و کارشناسی ارشد 09367292276 09367292276 azsoftir@gmail.com

Rapidminer نرم افزار


09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

این نرم‌افزار یک ابزار داده‌کاوی متن باز است که با زبان جاوا نوشته شده‌است و از سال 2001 تا به حال، توسعه داده شده‌است. در این نرم‌افزار سعی تیم توسعه‌دهنده، بر آن بوده‌است که تا حد امکان تمامی الگوریتم‌های رایج داده‌کاوی و هم‌چنین یادگیری ماشین پوشش داده شوند. به گونه‌ای که حتی این امکان برای نرم‌افزار فراهم شده‌است تا بتوان سایر ابزار‌های متن باز داده‌کاوی را نیز به آن الحاق نمود. رابط گرافیکی شکیل و کاربر‌پسند نرم‌افزار نیز آن را یک سر و گردن بالاتر از سایر ابزار‌های رقیب قرار می‌دهد. از نقاط قوت نرم‌افزار می‌توان به موارد زیر اشاره کرد.

- ارائه گزارش و رونوشت از مراحل اجرای الگوریتم.
- ظاهر پرداخته و آراسته.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

- نمای گرافیکی خوب
- قابلیت تطابق با فایل‌های خروجی بسیاری از نرم‌افزار‌ها مانند Excel.
- امکان تصحیح و خطایابی بسیار سریع.
-وجود آموزش‌های ویدیویی مناسب که برای این نرم‌افزار تهیه شده و در وب قرار داده شده‌است.
- مستندات شامل راهنمای بسیاری از عملگر‌ها در نرم‌افزار.
- امکان اجرای هم‌زمان الگوریتم‌های یادگیری متفاوت در نرم‌افزار و مقایسه آن‌ها با یک‌دیگر در ابزار در نظر گرفته شده‌است.
امکانات ویژه در این ابزار:


09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

- به دلیل پیاده سازی و توسعه این

نرم‌افزار با استفاده از زبان جاوا، امکان کار در سیستم‌های عامل‌ مختلف از جمله ویندوز، لینوکس و سیستم‌های مکینتاش برای این نرم‌افزار وجود دارد.

- امکانات متن‌کاوی نیز در این نرم‌افزار پیش‌بینی شده‌است.
- کلیه الگوریتم‌های یادگیری مدل در نرم‌افزار داده‌کاوی WEKA پس از به هنگام‌سازی RapidMiner به نرم‌افزار اضافه خواهند شد.
- لازم به ذکر است این نرم افزار به عنوان پرکاربردترین نرم افزار داده کاوی در سال 2014 شناخته شده است.


09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

یادگیری داده کاوی


در این چند سال دوستان زیادی  از گروه تقاضای راهنمایی در خصوص چگونگی آشنایی و شروع یادگیری علم داده کاوی را کرده اند. در این مقاله سعی کردیم نکاتی مهم را در خصوص این علم به شما متذکر شویم. با رعایت این نکات در عرض کمترین زمان (6 ماه الی 1 سال) می توانید به توانایی های خوبی در علم داده کاوی برسید.


1)    زبان انگلیسی را به صورت پیشرفته یاد بگیرید.

 اکثر توصیه هایی که در اینجا برای شما کرده ایم نیاز به تسلط کافی شما در زبان انگلیسی دارد. متاسفانه منابع فارسی در خصوص داده کاوی و یادگیری ماشین بسیار محدود و نا کافی هستند پس شما نیاز دارید تا به منابع مرجع متوسل شوید. برای این کار کافی است لغت شناسی خود را در محدوده داده کاوی افزایش دهید و این کار فقط با مطالعه 15 الی 20 مقاله انگلیسی قابل انجام است.


2)    همین حالا بهترین دوره آموزشی داده کاوی را پیدا کنید و در آن شرکت کنید.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

وقت را تلف نکنید. همین حالا با یک جستجوی ساده در اینترنت می توانید در دوره های داده کاوی که در کشور برگزار می شود مانند دوره های گروه داده کاوی ایران شرکت کنید. شما می توانید در دوره های رایگان خارجی نیز شرکت کنید. به طور مثال دوره های آنلاینی که دانشگاه استنفورد برگزار می کند بی شک یکی از بهترین این دوره ها هستند که به طور رایگان برگزار می شوند. از اینجا می توانید به این سایت بروید و در دوره های آینده آن به رایگان شرکت کنید.
مطمئن هستم که شگفت زده خواهید شد اگر دو لینک زیر را ببینید. در دو لینک زیر فایل تصویری از دو دوره برگزار شده درباره داده کاوی و یادگیری ماشین در سایت coursera (تاسیس شده توسط اساتید دانشگاه استنفورد) وجود دارد شما می توانید به صورت آنلاین آموزش خود را از همین لحظه شروع کنید.
لینک تصویری دوره اول
لینک تصویری دوره دوم

3)    یکی از کتاب های مرجع داده کاوی را حتما مطالعه کنید.
کتاب های مرجع می توانند خیلی چاره ساز باشند. اگر اطلاعات خوبی در خصوص داده کاوی و یادگیری ماشین جمع آوری کرده اید حال وقت آن است که به کتب مرجع مراجعه کنید. به طور کلی مباحثی که باید بیاموزید شامل موارد زیر است. البته توجه داشته باشید که این تمامی موضوعات است و شاید نیاز نباشد برخی از آنها را به طور کامل در قدم اول یاد بگیرید.

    یادگیری ماشین
        رده بندی و پیش بینی
        رگرسیون
        سری های زمانی
        قواعد وابستگی
        خوشه بندی
        کشف قواعد متوالی
        کشف نقاط دور افتاده
    جبر خطی
    تحلیل آماری (در محدوده کاربردهای داده کاوی)
    بهینه سازی و الگوریتم های ابتکاری
    بازیابی اطلاعات و پایگاه‌داده
    الگوریتم‌ها و ساختار داده
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

لیست برخی از کتب داده کاوی مرجع که می توانند شما را بسیار کمک کنند در ادامه ذکر شده اند.

    کتاب Han و Kamber که در سایت داده کاوی ایران موجود است را می توانید از اینجا دانلود کنید.
    کتاب آقای Tan که توسط بسیاری از اساتید داخلی تدریس می گردد را می توانید از اینجا دانلود کنید.


4)    نرم افزارهای داده کاوی را یاد بگیرید.
به طور پیش فرض آشنایی با کاربری نرم افزارهای Excel و Access از مجموعه آفیس بسیار برای اجرای هر پروژه داده کاوی می‌تواند مفید باشد. از طرفی در بین نرم افزارهای مطرح دنیا در بین داده کاوان نرم افزارهای متن باز RapidMiner و Weka مورد توجه بسیار زیادی هستند پس حتما این دو نرم افزار را از لینک های زیر دانلود کرده و سپس شروع به یادگیری انها بکنید.

لینک دانلود نرم افزار Weka

لینک دانلود نرم افزار RapidMiner (پس از ثبت نام می توانید نرم افزار را دانلود نمایید)

البته برای شروع نرم افزاری مانند Clementine یا نسخه جدید آن یعنی IBM Modeller مفید است ولی فقط برای شروع کار. با کمی جستجو در اینترنت می توانید برخی منابع فارسی که دو نرم افزار RapidMiner و Weka را به صورت مقدماتی آموزش داده اند را پیدا کنید. این دو نرم افزار برای اجرای پروژه های کارشناسی، کارشناسی ارشد و دکتری می توانند مناسب ترین ها باشند.

لینک آموزش نرم افزار Weka (به زبان فارسی)
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

اگر می خواهید متخصص شوید حتما به دنبال نرم افزارهای پیشرفته تر مانند نرم افزار متن باز R و Python بروید با کمک این نرم افزارها شما می توانید هر کاری که می خواهید بر روی داده های خود انجام دهید. نرم افزار Matlab نیز به نوبه خود مزایایی دارد اما پیشنهاد می کنم دنبال آن نروید. برای اطلاع بیشتر از اینکه چرا نباید از این نرم افزار استفاده کنید مقاله چرا نرم افزار متلب (Matlab) برای داده کاوی مناسب نیست؟ را مطالعه کنید.
لینک دانلود نرم افزار R

لینک کتاب آموزش نرم افزار R به زبان فارسی (ترجمه توسط تیم آقای دکتر مهدی نصیری)

لینک دیگر کتاب آموزشی نرم افزار R دکتر سعید نودوشنی لینک اول لینک دوم

 ضمنا گروه داده کاوی ایران قصد دارد در یک دوره زمانی شش ماهه آموزش های آنلاین صوتی و تصویری را در خصوص نرم افزارهای داده کاوی آغاز نماید.

5)    در جلسات و همایش های تخصصی شرکت کنید.
در ایران نیز مانند سایر کشورها سمینارها، همایش‌ها و کنفرانس های اگرچه محدودی برگزار می گردد که می توانید در آنها شرکت کنید. اگرچه سطح علمی آنها به پای کنفرانس های معتبر بین المللی نمی رسد اما این همایش ها می توانند برای پیدا کردن افراد یا گروه هایی که مانند شما به این علم علاقه دارند، به شما کمک کند.

  فلسفه اصلی وجود کنفرانس ها آشنایی افراد متخصص با یکدیگر و همچنین بررسی نظریه های جدید در علم داده کاوی است. همانطور که با کمی جستجو خواهید فهمید که مقاله کشف دانش در پایگاه داده که سر آغاز داده کاوی است، اولین بار در یک کنفرانس توسط استاد Fayyad ارائه شده است.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

6)    داده های آنلاین را دستکاری کنید.
یکی از کارهای بسیار مفید پس از اینکه کمی با روش های داده کاوی آشنا شدید و همچنین نرم افزارهای معروف را یادگرفتید، دستکاری داده ها است. یکی از بهترین سایت هایی که می توانید از آن داده دانلود کنید سایت دانشگاه کالیفرنیا است که مجموعه داده های زیادی در آن وجود دارد. با کمی جستجو در بین مقالات علمی معتبر منتشر شده در ژورنال های بین المللی خواهید دید که محققان بسیاری هستند که بر روی این مجموعه داده ها در حال تحقیق هستند و هر روز مقالات جدیدی را حتی بر روی داده هایی که چندین سال پیش به اشتراک گذاشته شده اند، منتشر می کنند.
لینک سایت دانشگاه کالیفرنیا
لینک لیست تمامی سایت هایی که مجموعه داده رایگان به اشتراک گذاشته اند

 
ابتدا یکی از این مقالات را که از داده های آنلاین استفاده کرده‌اند را پیدا کنید و سپس سعی کنید تمامی کارهایی که محققان بر روی این مجموعه داده انجام داده‌اند را شبیه سازی کنید و دوباره بر روی مجموعه داده ها اعمال کنید. پس از اینکه توانستید نتیجه چند مقاله را شبیه سازی کنید. در مرحله بعدی سعی کنید با آموزه های خود دقت مدل های ساخته شده در مقاله مرجع را افزایش دهید.


7)    در مسابقات آنلاین داده کاوی شرکت کنید.
یکی دیگر از فعالیت هایی که می تواند توان تحلیلی شما را افزایش دهد و آموزه های شما را بسنجد، شرکت در مسابقات آنلاین با مجموعه داده های حقیقی است. شما می توانید به صورت رایگان در مسابقات شرکت کنید، در فروم های مسابقه با سایر رقبای خود همفکری کنید، نتیجه مدلسازی خود را ثبت کنید و دقت مدل پیشنهادی خود را با سایرین مقایسه کنید. برای توضیحات بیشتر به مقاله مسابقه آنلاین داده کاوی رجوع کنید.


8)    در محیط کاری خود به دنبال داده و حل مسئله باشید.
مطمئنا شما در محیط کاری خود داده هایی را دارید پس چه بهتر که از همان آنها برای شروع به کار و آموزش استفاده کنید. این داده ها ممکن است دارای اشتباهات بسیاری باشند و یا اینکه به خوبی یکپارچه نشده باشند. در هر صورت کار بر روی این داده ها می تواند توانایی شما را در اجرای پروژه های واقعی افزایش دهد. پس داده ها را به هر ترتیبی که هست استخراج کنید و به دنبال حل مسئله ای با استفاده از آنها یا استخراج دانش مفید از آنها باشید تا خودتان را به طور جدی محک بزنید.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


9)    با دیگران در اینترنت در ارتباط باشید.

به سایت های معتبر داخلی و خارجی سر بزنید و با اخبار و نظرات کارشناسان این حوزه آشنا شوید. یکی از سایت های معتبر خارجی سایت kdnuggets می باشد که توسط یکی از بزرگان داده کاوی یعنی آقای Gregory Piatetsky-Shapiro اداره می شود. همچنین سایت آقای دکتر مهدی نصیری نیز بسیار به روز بوده و از این سایت هم می توانید مطالب بسیار مفیدی را به زبان فارسی استخراج نمایید.
لینک سایت kdnuggets
لینک سایت داده کاوی


10)    در صورت نیاز از منابع فارسی استفاده کنید.
در نهایت می توانید از برخی منابع فارسی نیز استفاده کنید. در طی سال اخیر یعنی 1392 کتاب های نسبتا مناسبی ترجمه شده است که از تمامی این کتاب ها اکثرا ترجمه و خلاصه کتاب های مرجع و معروف گفته شده در بخش فوق می باشند. در زیر نیز یک کتاب ترجمه شده خوب در خصوص روش اجرای پروژه های داده کاوی به زبان فارسی قرار دارد.

لینک کتاب روش اجرای پروژه های داده کاوی به زبان فارسی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

آشنایی با نرم افزار داده کاوی Weka


انجام پایان نامه کارشناسی ارشدWeka

مقدمه

  تا به امروز نرم افزارهای تجاری و آموزشی فراوانی برای داده کاوی در حوزه های مختلف داده ها به دنیای علم و فناوری عرضه شده اند. هریک از آنها با توجه به نوع اصلی داده هایی که مورد کاوش قرار میدهند، روی الگوریتمهای خاصی متمرکز شده اند. مقایسه دقیق و علمی این ابزارها باید از جنبه های متفاوت و متعددی مانند تنوع انواع و فرمت داده های ورودی، حجم ممکن برای پردازش داده ها، الگـوریتمهای پیاده سـازی شده، روشهای ارزیابی نتایج، روشهای مصـور سـازی، روشهای پیش پردازش داده ها، واسطهای کاربر پسند، پلت‌فرمهای سازگار برای اجرا،قیمت و در دسترس بودن نرم افزار صورت گیرد. از آن میان، نرم افزار Weka با داشتن امکانات بسیار گسترده،امکان مقایسه خروجی روشهای مختلف با هم، راهنمای خوب، واسط گرافیگی کارا، سازگاری با سایر برنامه های ویندوزی، و از همه مهمتر وجود کتابی بسیار جامع و مرتبط با آن [Data Mining, witten et Al. 2005 ] ، معرفی میشود.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

1- معرفی نرم افزار Weka

میزکارWeka ، مجموع‌های از الگوریتمهای روز یادگیری ماشینی و ابزارهای پیش پردازش داده‌ها میباشد. این نرم‌افزار به گونه‌ای طراحی شده است که میتوان به سرعت، روشهای موجود را به صورت انعطافپذیری روی مجموعه‌های جدید داده، آزمایش نمود. این نرم‌افزار، پشتیبانی‌های ارزشمندی را برای کل فرآیند داده کاوی های تجربی فراهم میکند. این پشتیبانی‌ها، آماده سازی داده‌های ورودی، ارزیابی آماری چارچوبهای یادگیری و نمایش گرافیکی داده‌های ورودی و نتایج یادگیری را در بر میگیرند. همچنین، هماهنگ با دامنه وسیع الگوریتمهای یادگیری، این نرم‌افزار شامل ابزارهای متنوع پیش پردازش داده‌هاست. این جعبه ابزار متنوع و جامع، از طریق یک واسط متداول در دسترس است، به نحوی که کاربر میتواند روشهای متفاوت را در آن با یکدیگر مقایسه کند و روشهایی را که برای مسایل مدنظر مناسبتر هستند، تشخیص دهد.

این سیستم به زبان جاوا نوشته شده و بر اساس لیسانس عمومی و فراگیر GNU انتشار یافته است.Weka تقریباً روی هر پلت فرمی اجرا میشود و نیز تحت سیستم عاملهای لینوکس، ویندوز، و مکینتاش، و حتی روی یک منشی دیجیتالی شخصی، آزمایش شده است.

این نرم افزار، یک واسط همگون برای بسیاری از الگوریتمهای یادگیری متفاوت، فراهم کرده است که از طریق آن روشهای پیش پردازش، پس از پردازش و ارزیابی نتایج طرح های یادگیری روی همه مجموعه های داده موجود، قابل اعمال است.

نرم افزار Weka ، پیاده سازی الگوریتمهای مختلف یادگیری را فراهم میکند و به آسانی میتوان آنها را به مجموعه های داده خود اعمال کرد.

  همچنین، این نرم افزار شامل مجموعه متنوعی از ابزارهای تبدیل مجموعه‌های داده ها، همانند الگوریتمهای گسسته سازی میباشد. در این محیط میتوان یک مجموعه داده را پیش پردازش کرد، آن را به یک طرح یادگیری وارد نمود، و دسته‌بندی حاصله و کارآیی‌اش را مورد تحلیل قرار داد.( همه این کارها، بدون نیاز به نوشتن هیچ قطعه برنامه‌ای میسر است.)

  این محیط، شامل روشهایی برای همه مسایل استاندارد داده کاوی مانند رگرسیون، رده‌بندی، خوشه‌بندی، کاوش قواعد انجمنی و انتخاب ویژگی میباشد. با در نظر گرفتن اینکه، داده‌ها بخش مکمل کار هستند، بسیاری از ابزارهای پیش پردازش داده‌ها و مصورسازی آنها فراهم گشته است. همه الگوریتم ها، ورودیهای خود را به صورت یک جدول رابطهای به فرمت ARFF دریافت میکنند. این فرمت داده‌ها، میتواند از یک فایل خوانده شده یا به وسیله یک درخواست از پایگاه دادهای تولید گردد.

یکی از راههای به کارگیری Weka ، اعمال یک روش یادگیری به یک مجموعه داده و تحلیل خروجی آن برای شناخت چیزهای بیشتری راجع به آن اطلاعات میباشد. راه دیگر استفاده از مدل یادگیری شده برای تولید پیشبینی‌هایی در مورد نمونه‌های جدید است. سومین راه، اعمال یادگیرنده‌های مختلف و مقایسه کارآیی آنها به منظور انتخاب یکی از آنها برای تخمین میباشد. روشهای یادگیری Classifier نامیده میشوند و در واسط تعاملی Weka ، میتوان هر یک از آنها را از منو انتخاب نمود. بسیاری از classifier ها پارامترهای قابل تنظیم دارند که میتوان از طریق صفحه ویژگی‌ها یا object editor به آنها دسترسی داشت. یک واحد ارزیابی مشترک، برای اندازه‌گیری کارآیی همه classifier به کار میرود.

پیاده سازیهای چارچوبهای یادگیری واقعی، منابع بسیار ارزشمندی هستند که Weka فراهم می کند. ابزارهایی که برای پیش پردازش داده‌ها استفاده میشوند Filter نامیده میشوند. همانند classifier ها، میتوان filter ها را از منوی مربوطه انتخاب کرده و آنها را با نیازمندیهای خود، سازگار نمود. در ادامه، به روش به کارگیری فیلترها اشاره میشود.

  علاوه بر موارد فوق، Weka شامل پیاده سازی الگوریتمهایی برای یادگیری قواعد انجمنی، خوشه‌بندی داده‌ها در جایی که هیچ دست‌های تعریف نشده است، و انتخاب ویژگیهای مرتبط در داده‌ها میباشد.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

2- روش استفاده از Weka

جهت درک بهتر مطالب این بخش، یک پایگاه داده با فرمت (comma-separated format ) .csv به نام bank-data.csv به عنوان مثال در نظر گرفته میشود. این بانک اطلاعاتی شامل اطلاعاتی در مورد 600 فرد مختلف است که فیلدهای تشکیل دهنده آن به شرح زیر هستند:

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com