انجام پروژه های داده کاوی

انجام پروژه های داده کاوی بدر زمینه های مخار weka clementine12 spss modeler14.2 rapidminer ت کارشناسی و کارشناسی ارشد 09367292276 09367292276 azsoftir@gmail.com

انجام پروژه های داده کاوی

انجام پروژه های داده کاوی بدر زمینه های مخار weka clementine12 spss modeler14.2 rapidminer ت کارشناسی و کارشناسی ارشد 09367292276 09367292276 azsoftir@gmail.com

جام پروژه داده کاوی,پروژه داده کاوی با متلب,داده کاوی,پیاده سازی پروژه داده کاوی

جام پروژه داده کاوی,پروژه داده کاوی با متلب,داده کاوی,پیاده سازی پروژه داده کاوی با نرم افزار RapidMiner,پروژه داده کاوی با وکا
انجام پروژه داده کاوی
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

پروژه داده کاوی با رپیدماینر,پروژه داده کاوی با متلب,داده کاوی,پیاده سازی پروژه داده کاوی با نرم افزار RapidMiner,پروژه داده کاوی,دانلود پروژه داده کاوی,کاربردهای داده کاوی,پروژه داده کاوی با وکا
انجام پروژه داده کاوی – انجام پروژه داده کاوی با رپیدماینر – انجام پروژه داده کاوی با متلب

 
یادگیری ماشین و داده‌کاوی :

یادگیری ماشین یکی از روش‌های مهم الگو و دانش از داده‌ها است. این علم با توجه به ابزارهایی که در اختیار دارد، در کشف دانش بسیار توانمند عمل می‌کند. با توجه به گسترش روزافزون حجم داده‌ها و محدودیت ابزارهای یادگیری ماشین، علم داده‌کاوی به وجود آمد، که اساس آن یادگیری ماشین است اما الگوریتم‌ها و ابزارهای پیشرفته تری جهت مدیریت داده‌های عظیم در اختیار دارد. داده‌کاوی و یادگیری ماشین شامل ابزارهایی برای طبقه‌بندی ، رگرسیون و غیره هستند.

می‌توان گفت یادگیری ماشین و داده‌کاوی بسیار در هم گره خوردند. اساس کارشان یکسان اما حجم داده‌های مورد استفاده متفاوت می‌باشد.

مراحل داده‎کاوی به صورت شکل زیر است:

"<yoastmark

 azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


کارهای زیادی در یادگیری ماشین و داده‌کاوی صورت می‌گیرند که می‌توان به موارد زیر اشاره کرد:

    طبقه بندی داده‌ها
    رگرسیون
    خوشه بندی
    بهینه‌سازی
    کاهش ابعاد داده‌ها
    و…

در واقع می‌توان گفت موارد ذکر شده ابزار کار فرآیندهای داده‌کاوی و یادگیری ماشین می‌باشد.

وظیفه ی اصلی داده‌کاوی، جست و جو و استخراج  دانش از منابع عظیم داده است تا اطلاعات مهمی که در حجم انبوهی از اطلاعات سطحی پنهان شده است را استخراج کند. علم داده‌کاوی، علمی نوپا بوده که روز به روز اهیمت آن بیشتر می‌شود.

 پروژه طبقه بندی مقالات با استفاده از طبقه بندی بیز ساده (پردازش متن)
2019/01/09
/۰ دیدگاه /در پروژه آماده کامپیوتر, پروژه ها, پروژه های پردازش متن, پروژه های شبیه سازی با متلب /

پروژه طبقه بندی مقالات با استفاده از طبقه بندی بیز ساده (در زمینه پردازش متن) ، تعدادی مقاله وجود دارد که می­خواهیم آن­ها را به دو دسته تقسیم کنیم. یک دسته از مقالات ، مقالات مورد علاقه کاربر است و دسته دیگر مقالات مقالاتی که کاربر به آن­ها علاقه ندارد. داده ­ها به دو کلاس تقسیم شده ­اند و هر کلاس حاوی داده­ های آموزشی و ارزیابی است.این پروژه در دسته پروژه های پردازش متن (Text Proccessing) قرار می گیرد و با نرم افزار متلب انجام شده است.
پروژه طبقه بندی مقالات با استفاده از طبقه بندی بیز ساده
تعریف مساله :
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

دو دسته مقاله داریم که کاربر به دسته اول علاقه مند است اما دسته ی دوم را دوست ندارد. میخواهیم از طریق این دسته مقالات و به کمک الگوریتم یادگیری ماشین (در زمینه پردازش متن) ، با استفاده از یک طبقه بندی بیز ساده، ماشین را طوری طراحی کنیم که مقالات تست را درست تشخیص دهد؛ به عبارتی ابتدا مقالات آموزشی که برچسب دار هستند را به کلاسیفایر بیز ساده می دهیم تا یاد بگیرد، سپس مقالات تست را به عنوان نمونه آزمایشی به طبقه بندی بیز ساده میدهیم تا ببینیم آیا آنها را درست دسته بندی میکند یا خیر، و سپس خطای آن را محاسبه میکنیم.برای هر کلاس مجموعه ای از کلید واژه ها تعریف میشود . مجموعه داده های آموزشی در برگیرنده همه کلاسها را انتخاب کنید . ابتدا با استفاده از یک الگوریتم آماری کلید واژه های مهم هر کلاس را استخراج کنید. سپس با استفاده از الگوریتم بیزی یک مدل یادگیر برای کلاسه بندی داده ها طراحی کنید و با استفاده از یک مجموعه داده آزمون شامل ۵۰ مقاله دیگر ، دقت سیستم را ارزیابی کنید. تعریف مساله: می خواهیم یک طبقه بندی روی موضوع مقالات انجام دهیم.

همچنین بخوانید: پروژه تشخیص بیماری قلبی با بیز ساده Naive Bayes

برای این منظور سه فاز اصلی طراحی کرده ایم که به تفصیل آنها را شرح می دهیم:

    فاز اول : بدست آوردن فراوانی کلمات هر کلاس
    فاز دوم : بدست آوردن تعدادی کلید واژه برای هر کلاس
    فاز سوم : تولید فایل های train و test جدید برای تحویل دادن به طبقه بندی بیز ساده (naive bayes classifier)

فاز اول : بدست آوردن فراوانی کلمات هر کلاس:

در این فاز ما به دنبال آن هستیم که تمامی کلمات موجود درنمونه های آموزشی برای هر کلاس را بررسی کنیم و در نهایت یک لیست از کلمات بکار رفته در کلاس به همراه تعداد فراوانی تکرار هر کدام را به عنوان خروجی این مرحله بسازیم.
فاز دوم : بدست آوردن بهترین کلید واژه ها برای هر کلاس:

طبق تعریف انجام شده از کلیدواژه ; ما نیاز داریم کلماتی را به عنوان کلیدواژه برای هر کلاس در نظر بگیریم که دارای ۲ شرط اساسی زیر باشد:

    داراری حداکثر فراوانی تکرار در کلاس خود باشد.
    دارای حداقل فراوانی تکرار در مجموع کلاس های دیگر باشد.

فاز سوم : ساخت فایل Train و Test و پیاده سازی کلاسیفایر بیز ساده (naive bayes classifier)
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

در فازهای قبلی ما از روی نمونه های آموزشی کلماتی را به عنوان کلیدواژه برای هر کلاس مشخص کردیم .در این فاز باید تمام داده های آموزشی ( تمام کلاس ها ) را با کلیدواژه های بدست آمده مقایسه کنیم.
ابزار

برای انجام این پروژه از نرم­ افزار متلب استفاده شده است. به منظور دسته ­بندی داده­ ها، یک کلاسیفایر بیز ساده طراحی شده است که در فایل توضیحات پروژه به شرح پیاده­ سازی آن پرداخته ایم.
نتایج پروژه طبقه بندی مقالات با استفاده از طبقه بندی بیز ساده
وش های داده کاوی در بورس + دانلود مقاله

    2016-06-27 ارسال شده توسط علی ایوبی

داده کاوی در بورس و بررسی روش های آن عنوان مقاله حاضر می باشد این مقاله توسط محمد حسن اکبری، مهدی جوانمرد در دومین همایش ملی پژوهش های کاربردی در علوم کامپیوتر و فناوری اطلاعات در تاریخ ۱۳۹۳/۱۲/۰۷ در محل دانشگاه تهران ارائه گردید، امیدوارم از این مقاله هم استفاه لازم را برده باشید.

چکیده:

داده کاوی یکی از حوزه هایی است که اهمیت بسیاری را به خود جلب کرده و در کاربردهای متعدد از جمله علوم رایانه، پیش بینی آب و هوا، پردازش متن، تصویر و سهام مورد استفاده قرار گرفته است. از آن جا که یک سیستم داده کاوی بازار بورس برای سرمایه گذاران شخصی و کارشناسان مالی ارزشمند خواهند بود، در این پژوهش، کاربردهای انواع شبکه های عصبی، پیش بینی، خوشه بندی، قوانین تلازمی و سیستم فازی در داده کاوی که تا کنون در بورس مورد استفاه قرار گرفته است بررسی شده است.
نویسنده : سعید فرخی ، عضو گروه کوانتس دانشگاه تهران
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند. فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین[۱] بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند. به عنوان یک قانون کلی فرضها تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است.در مقابل روشهای یادگیری یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوتهایی بین این دو روش می شود.

به عنوان مثال در برخی موارد فرض نرمال بودن داده ها در براورد همبستگی بین پارامترها در مطالعات آماری بررسی نشده و نتایج مخدوش می باشد. این در حالی است که برای یافتن نوع توزیع داده ها، به تعداد زیادی از آن ها احتیاج است که مثلا در تحقیقاتی که با روش پرسشنامه ای انجام می شود، به دست آوردن این مقدار از داده میسر نمی باشد. بنابراین همواره در این تحقیقات فروض و ساده سازی هایی در نظر گرفته شده است که نتایج را با تردید مواجه می کند.

مزیت دوم )

روش های مبتنی بر هوش مصنوعی در جاهایی که داده ها ناقص باشند، و یا با یکدیگر متناقض باشند بسیار بهتر عمل می کنند. چرا که در این موارد به نحوی داده ی فقود شده بر اساس الگوی موجود در داده ها بازیابی می شود. این در حالی است که در روش های آماری، مشکل نبود برخی پارامترها در برخی داده ها، منجر به بلااستفاده شدن آن داده می شود. با وضعیت نامشخص بسیاری از پایگاه های داده در زمینه اجتماع در ایران، استفاده از روش هایی مقاوم نسبت به این نقیصه منتج به نتایج بهتری می گردد.

مزیت سوم)
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

تقریبا در تمامی تحقیقات آماری انجام شده بر روی داده های اجتماعی، عنوان موضوع به این صورت می باشد: بررسی رابطه بین پارامتر x و پارامتر y به عنوان مثال در مقوله اعتیاد. در این پژوهش ها به بررسی همبستگی بین این پارامترها در پایگاه داده موجود پرداخته می شود. اما در عالم واقعیت ممکن است چندین پدیده به صورت همزمان بر پارامتری اثر کنند و الگویی را به وجود بیاورند. بنابریان بررسی رابطه دو دویی پارامترها گاهی بسیار دور از واقعیت و ابتدایی می باشد. این در حالی است که با افزایش تعداد پارامترها، روش های آماری توانایی یافتن الگوها  را از دست می دهند و به علت ماهیت، اغلب خطی خو د از کشف روابط غیر خطی و پیچیده بین متغیر ها عاجز هستند. اما روش های هوش مصنوعی طوری طراحی شده اند که می توانند روابط مرکب و پیچیده بین چندین پارامتر را در پایگاه داده کشف کنند. این مهم به دلیل امکاناتی است که این ابزارها در مواجهه با این مسئله دارند، اغلب روش های هوش مصنوعی از نگاشت پایگاه داده بر یک سری نماد های خود اقدام به کشف قوانین چند بعدی در پایگاه داده می کنند.

مزیت چهارم)

روش های اماری توانایی به تصویر کشیدن[۲]  داده هایی با ابعاد بالا را ندارند. یعنی نمی توان داده های مثلا مربوط به طلاق را که شامل ده ها پارامتر می باشد را رسم کند و نقشه و اطلس داده ها را مشاهده کنند. در حالی که ابزاهایی در هوش مصنوعی موجود است که می توانند این داده ها را در ساختار های معادل دو بعدی و سه بعدی نمایش دهند، با آشکار سازی تصویری داده ها بسیاری از قوانین و الگوهای موجود در داده آشکار می شود و می توان نتایج تحقیقات را به افرادی با اطلاعات کم اماری نظیر مدیران بلند پایه نمایش داده و تحلیل نمود. این ساختار های دو بعدی و سه بعدی به نحوی آرایش می یابند که تمام پارامترهای موجود در این داده ها در حرکت از یک سوی توپولوژی به سوی دیگر به تدریج  تغییر می کنند و در اصطلاح داده ها در این توپولوژی ها به نحوی آرایش می یابند که بر اساس تمامی پارامترها طیف های پیوسته و تدریجی را ایجاد می کنند. این طیف های پیوسته و تدریجی می توانند، روابط چند بعدی و چند پارامتری را در پایگاه داده کشف کرده و از آن مهمتر به تصویر بکشند.

مزیت پنجم)

روش های آماری، توانایی کشف الگوهای پیچیده و غیر خطی را ندارند، در حالی که روش های مبتنی بر هوش مصنوعی به علت خاصیت اکتشافی که دارند، بدون هیچ فرض اولیه ای شروع به مدل سازی رفتار داده ها می نمایند و به مرور زمان و با جلو رفتن الگوریتم، الگو پر رنگ تر و پر رنگ تر خواهد گردید، ساختار غیر خطی و مقاوم این مدل ها، توانایی شبیه سازی رفتار محیط های اجتماعی و واقعی را به روش های هوش مصنوعی می دهد.

مزیت ششم)
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

ساختار روش های هوش مصنوعی به گونه ای است که می توانند از نتایج تحلیل های اماری در مدل سازی خود استفاده نمایند، به این معنی که همبستگی دو پارامتر با یکدیگر را به عنوان یک اطلاعات اضافه وارد مسئله نمایند و در مدل سازی خود به آن توجه نمایند. این مهم به این معنی است که می توان داده های خام را با استفاده از تحلیل های آماری، و تبدیلات آماری تغییر داده و به صورت یک ورودی فراوری شده به روش های هوش مصنوعی وارد نمود. روش های هوش مصنوعی هیچ فرض اولیه و یا قضاوتی در مورد داده ها نداشته و تنها بر مبنای یک الگوریتم تکاملی و تکراری اقدام به تنظیم پارامترهای مدل های خود می کنند. ورود این داده های اماری به یک مدل هوش مصنوعی مثل قرار دادن لقمه جویده شده در دهان الگوریتم هوش مصنوعی به مدل سازی آن ها کمک می کنند.

مزیت هفتم)

منظور از روش های هوش مصنوعی طیف الگوریتم هایی است که در زمینه های طبقه بندی خوشه بندی، پیش بینی و بهینه سازی و تصمیم گیری عمل می نمایند. این مدل های هوش مصنوعی قابلیت تلفیق با یکدیگر را دارا می باشند. به عنوان مثال الگوریتم های هیورستیک که به صورت جمعیت محور و اکتشافی بهینه سازی می نمایند از روش های کلاسیک بهینه سازی بسیار بتر عمل کرده و تقریبا هر مسئله بهینه سازی را حل می کنند. و رد می نیمم های محلی گرفتار نمی شوند. این الگوریتم ها در تنظیم پارامترهای مدل هایی که برای تقلید رفتار داده و تحلیل پارامترها در نظر گرفته شده اند می توانند نقش تنظیم کننده و یابنده را بازی کنند. و بهترین تنظیمات ممکن با ساتار موجود را برای تطبیق با پایگاه داده بر روی مدل انجام دهند.

مزیت هشتم )

سیستم های هوش مصنوعی معمولا نسبت به تنظیم پارامترها حساسیت کمتری نسبت به روش های آماری دارند و ساختار انعطاف پذیر تری دارند، به عنوان مثال در الگوریتم kmeans که برای خوشه بندی استفاده می شود و روش کلاسیک به حساب می آید، باید تعداد خوشه ها انتخاب شود و انتخاب نادرست تعداد خوشه ها توسط پژوهشگر، نتایج تحقیق را با نقص مواجه می کند. در حالی که رقیب این الگوریتم یعنی som  که بر پایه هوش مصنوعی و با تقلید از نرون های عصبی مغز انسان ابداع شده اند، دارای این قابلیت هستند که می توانند رزولوشن و یا تعداد بخش های موجود در داده ها را متناسب با داده ها تغییر داده و الگوی واقعی در داده ها مستقل از تنظیمات پیچیده نمایش دهد.

مزیت نهم)
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

تابع زیان[۳] در روش های مبتنی بر هوش مصنوعی قابل تعریف در باند های ویژه می باشد به این معنی که می توان الگویتم ها را به نحوی تنظیم کرد که خطای از حدی کمتر را جزو خطا به حساب نیاورد و صفر در نظر بگیرد و تمام تلاش خود را مصروف کاهش خطاهای بزرگ و خارج از باند معرفی شده نماید. [۴]

در روش های آماری چنین امکانی وجود نداشته و ترم های خطا به سختی قابل تغییر و سفارشی سازی هستند. بنابریان مدل ها بیش از اندازه کلی و غیر حساس یه تغییرات می باشند.

منبع :

کوانتس

 موزش – معرفی الگوریتم CART در داده کاوی (Classification and Regression Tree)

    2016-06-27 ارسال شده توسط علی ایوبی

موزش – معرفی الگوریتم CART در داده کاوی (Classification and Regression Tree)
این روش که موجب تشکیل یک درخت تصمیم با تقسیمات دوتایی می گردد، توسط بریمن و همکارانش در سال ۱۹۸۴ به طور کامل معرفی شد. این روش برای متغیرهای کمی طراحی گردیده ولی قابل استفاده برای هر نوع متغیری است. بر اساس این الگوریتم، نرم افزار آماری تحت نام CART نیز ساخته شده است که از شناخته شده ترین برنامه ها است. در این روش و برای متغیر پاسخ کیفی، شاخص جینی  Gini Index به عنوان معیاری برای انتخاب متغیرهای مناسب، معرفی شده است.

در معرفی مدل درختی با تقسیمات دوتایی می توان ازشاخص های دیگری نظیر آنتروپی نیز استفاده نمود. مزیت شاخص جینی نسبت به آنتروپی و شاخص های دیگر، سرعت بالاتر آن در انجام محاسبات است. مدل CART را می توان به عنوان یکی از شناخته شده ترین الگوهای رده بندی به منظور تشخیص و پیشگویی در علوم پزشکی بر شمرد.
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

در مدل CART هرس کردن درخت رده بندی بر اساس Cost-Complexity صورت می پذیرد و بررسی دقت درخت معرفی شده به کمک نمونه آزمون معرفی می گردد. یکی از ایرادات مطرح برای مدل CART اریبی این مدل در انتخاب متغیرها است. علاوه بر این، در متغیرهای کیفی با تعداد سطوح بیش از دو، نتایج حاصل گیج کننده خواهد بود. چون ممکن است چند سطح یک متغیر به یک گره تعلق بگیرد که این باعث می شود نتوان تفسیر ساده ای از نتایج ارائه نمود.
منبع :azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

می توانید این مقاله با نام “داده کاوی در بورس” دانلود نمایید
۴ معیار مهم برای ارزیابی classifier محاسبه شده که مقادیر آن­ها را در ادامه می­بینید :
پروژه طبقه بندی مقالات با استفاده از طبقه بندی بیز ساده (پردازش متن)
وب سایت مطلب دی ال با انجام پروژه های داده کاوی (در نرم افزار های متلب ، رپیدماینر ، وکا و …) در خدمت کاربران عزیز می با

نظرات 0 + ارسال نظر
امکان ثبت نظر جدید برای این مطلب وجود ندارد.