انجام پروژه های داده کاوی

انجام پروژه های داده کاوی بدر زمینه های مخار weka clementine12 spss modeler14.2 rapidminer ت کارشناسی و کارشناسی ارشد 09367292276 09367292276 azsoftir@gmail.com

انجام پروژه های داده کاوی

انجام پروژه های داده کاوی بدر زمینه های مخار weka clementine12 spss modeler14.2 rapidminer ت کارشناسی و کارشناسی ارشد 09367292276 09367292276 azsoftir@gmail.com

روشها، الگوریتم ها و فنون های مرتبط با داده کاوی

azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


اهداف  : آشنایی با  تکنیک ها، روشها، الگوریتم ها و فنون های مرتبط با داده کاوی

فنون داده کاوی، گروه نامتجانسی از علوم مختلف را شکل می‌دهند هر تکنیکی که بتواند بینش جدیدی از داده‌ها را استخراج کند می‌تواند داده کاوی به حساب آید. به طور خلاصه، داده کاوی پل ارتباطی میان علم آمار،علم کامپیوتر،هوش مصنوعی، الگو شناسی، یادگیری ماشین و بازنمایی بصری داده می‌باشد. می‌توان گفت در داده کاوی، تئوری‌های پایگاه داده‌ها، هوش مصنوعی، یادگیری ماشین و علم آمار را در هم می‌آمیزند تا زمینه کاربردی فراهم شود.

ترجمه مقالات داده کاوی توسط دپارتمان ترجمه گروه طراحان پذیرفته می شود.

درصورتیکه مترجم یا دانشجوی زبانهای خارجی همچون انگلیسی یا فرانسه هستید میتوانید نمونه فایلهای ترجمه خویش را در آپلودسنترهایی قرار دهید و سپس خدمات خود را در ePishro.ir آگهی نمایید تا سفارش ترجمه مقاله ، کتاب دریافت کنید و از طریق درگاه پرداخت epbank.ir نیز میتوانید وجه ترجمه خویش را بصورت آنلاین از متقاضی انجام پروژه ترجمه دریافت نمایید.

ارایه درگاه پرداخت epbank.ir برای خرید و فروش ترجمه و اصل  مقالات داده کاوی

روش‌های اصلی داده کاوی به دو دسته کلی تقسیم می‌شوند: توصیفی و پیشگویی. این دو گروه، بیانگر اهداف و عملکرد روش‌های داده کاوی نیز هستند.
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

    روش های داده کاوی
    توصیفی
    خوشه بندی
    قوانین انجمنی
    مدلسازی وابستگی
    خلاصه سازی
    پیشگویی
    دسته بندی
    رگرسیون
    پیش بینی
    سری های زمانی

دسته بندی
 دسته بندی یا طبقه بندی در واقع ارزشیابی ویژگی‌های مجموعه‌ای از داده‌ها و سپس اختصاص دادن آن‌ها به مجموعه‌ای از گروه‌های از پیش تعریف شده است. این متداول‌ترین قابلیت داده کاوی می‌باشد. در دسته بندی، به دنبال مدلی هستیم که با تشخیص دسته‌ها می‌تواند دسته ناشناخته اشیاء دیگر را پیش بینی کند. دسته بندی جهت پیشگویی مقادیر گسسته و اسمی مورد استفاده قرار می‌گیرد.
دسته بندی نوعی یادگیری است که به کمک نمونه‌ها صورت می‌گیرد و طبقه بندی بر اساس مجموعه‌های از پیش تعریف شده انجام می‌شود لذا می‌توان گفت دسته بندی یادگیری با نظارت (هدایت شده) است.  دسته بندی فرآیندی دو مرحله‌ای می‌باشد. در گام اول، یک مدل بر اساس مجموعه داده‌های آموزشی موجود در پایگاه داده‌ها ساخته می‌شود. این مدل‌ها به فرم‌هایی از درخت تصمیم، یا فرمول‌های ریاضی نمایش داده می‌شود. مجموعه داده‌های آموزشی از رکوردها، نمونه‌ها، مثال‌ها و یا اشیائی که شامل مجموعه‌ای از صفات یا جنبه‌ها می‌باشد، تشکیل شده‌اند.

دسته بندی
 سیستم بر اساس این مجموعه آموزشی به خود آموزش می‌دهد یا به عبارتی پارامترهای دسته بندی را برای خود مهیا می‌کند. هر نمونه یک برچسب کلاس معلوم دارد، که به طور تصادفی از مجموعه داده‌ها انتخاب می‌شود. گام بعدی پس از مرحله آموزش، برای پیش بینی و تعیین دسته می‌باشد. توسط قوانین صورت می گیرد، آنگاه مدل می‌تواند، جهت پیشگویی برچسب‌های کلاس برای داده‌های جدید -که دارای برچسب کلاس نامعلوم هستند-  مورد استفاده قرار گیرد.
تکنیک‌های داده کاوی که برای دسته بندی به کار می‌آیند عموماً شامل تکنیک‌های شبکه عصبی و درخت تصمیم گیری هستند. دسته بندی کاربردهای زیادی در بازرگانی، بانکداری، پزشکی، ارتباطات، کشاورزی و غیره دارد. به عنوان مثال طبقه بندی در بازاریابی هدف، تصویب اعتبار و بررسی تقلب است. از جمله کاربردهای دیگر دسته بندی، متن کاوی می‌باشد.
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

رگرسیون
 رگرسیون بهترین مدلی است که می‏تواند متغیرهای خروجی را با متغیرهای ورودی متعدد ارتباط دهد. ساده‌ترین حالت آن، مدل به ارزش خطی است، یعنی ارتباط بین متغیرهای ورودی و خروجی را به صورت خطی برقرار می‌کند. از نقطه نظر کلی، دسته بندی و رگرسیون دو نوع اصلی از مسائل پیشگویی هستند، که دسته بندی، جهت پیشگویی مقادیر گسسته و اسمی مورد استفاده قرار می‌گیرد، در حالی که رگرسیون جهت پیشگویی مقادیر پیوسته مورد استفاده قرار می‌گیرد. انواع مدل‌های یکسانی را می‌توان هم برای رگرسیون و هم برای دسته بندی استفاده کرد. برای مثال الگوریتم درخت تصمیم CART را می‌توان هم برای ساخت درخت‌های دسته بندی و هم درخت‌های رگرسیون استفاده کرد. شبکه‌های عصبی را نیز می‌توان برای هر دو مورد استفاده کرد

سری‌های زمانی
تحلیل سری‌های زمانی تکنیکی دیگر در داده‌کاوی که هدف از آن، یافتن خصوصیات جالب توجه و نظم‌های مشخص در حجم بالای داده است. یکی از  سری های زمانی دنباله‌ای مرتب شده از مشاهدات است که،ارزش یک شیء را به عنوان تابعی از زمان در مجموعه داده‌های جمع آوری شده توصیف می‌کند. رخداد وقایع متوالی در اصل مجموعه‌ی وقایعی است که بعد از یک واقعه‌ی مشخص به وقوع می‌پیوندند.
پیش بینی
پیش‌بینی یکی از تکنیک داده کاوی است که ‌در این تکنیک مقادیر ممکن برای متغیرهای نامعلوم پیش‌بینی می‌شود. از شبکه‌های عصبی و الگوریتم ژنتیک برای پیش‌بینی استفاده می‌شود.

تکنیک های روش توصیفی
در روش‌های توصیفی، خواص عمومی داده‌ها بیان می‌شود. هدف از توصیف، یافتن الگوهایی در مورد داده‌هاست که برای انسان قابل تفسیر باشد. روش توصیفی نیز شامل تکنیک‌های: خوشه بندی، خلاصه سازی، کشف توالی (تحلیل دنباله) ، قوانین انجمنی می‌باشد.
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

خوشه بندی
خوشه بندی، گروه بندی نمونه‌های مشابه با هم، در یک حجم داده می‌باشد. خوشه بندی یک دسته بندی بدون نظارت (هدایت نشده) است که دسته‌ها از قبل تعریف نشده اند. در خوشه‌بندی -بر خلاف طبقه‌بندی که هر داده به یک طبقه‌ی (کلاس) از پیش مشخص شده تخصیص می‌یابد- هیچ اطلاعی از کلاس‌های موجود درون داده‌ها وجود ندارد و به عبارتی خود خوشه‌ها نیز از داده‌ها استخراج می‌شوند.
هدف از خوشه بندی این است که داده‌های موجود، به چند گروه  تقسیم  شوند و در این تقسیم بندی داده‌های گروه‌های مختلف حداکثر تفاوت ممکن را به هم داشته باشند و داده‌های موجود در یک گروه باید بسیار به هم شبیه باشند. (تشابه یا عدم تشابه بر اساس معیارهای اندازه گیری فاصله تعریف می‌شود.) پس از اینکه داده‌ها به چند گروه منطقی و توجیه پذیر تقسیم شدند از این تقسیم بندی می‌توان برای کسب اطلاعات در مورد داده‌ها یا تقسیم داده‌ها جدید استفاده کنیم.
خوشه بندی کاربردهای متعددی دارد. اغلب از خوشه بندی به عنوان اولین گام در فرایندهای داده کاوی یاد می‌شود که قبل از سایر فرایندها برای شناسایی گروهی از رکوردهای مرتبط با هم که بعداً بتوانند نقطه آغاز تحلیل‌ها باشند، بر روی رکوردها اعمال می‌شود. در برخی موارد برای تشخیص داده‌های پرت که با سایر داده‌ها تفاوت چشمگیر دارند (مورد کاربرد در کشف وقوع جرم و تخلف در عملیات بانکی یا در وب)، استفاده می‌شود.
قوانین انجمنی
استخراج قواعد انجمنی، نوعی عملیات داده کاوی است که به جستجو برای یافتن ارتباط بین ویژگی‌ها در مجموعه داده‌ها می‌پردازد. نام دیگر این روش، تحلیل سبد بازار است. این روش به دنبال استخراج قواعد، به منظور کمی کردن ارتباط میان دو یا چند خصوصیت می‌باشد. قواعد انجمنی ماهیتی احتمالی دارد و به شکل اگر و آنگاه و به همراه دو معیار پشتیبان و اطمینان تعریف می‌شوند. این دو شاخص به ترتیب مفید بودن و اطمینان از قواعد مکشوفه را نشان می‌دهند.
معیار اطمینان: میزان وابستگی یک کالای خاص را به دیگری بیان می‌کند. یعنی درجه وابستگی بین دو مجموعه X و Y را محاسبه می‌کند و به عنوان شاخصی برای اندازه گیری توان یک قاعده در نظر گرفته می‌شود.
معیار پشتیبان (X,Y): نشان دهنده درصد یا تعداد تراکنش هایی (زیرمجموعه‌هایی از اقلام خریداری شده) است که شامل هر دوی اقلام (مجموعه اقلام)X  و Y باشند.

قوانین انجمنی
مثال‌هایی از کاربرد قوانین انجمنی می‌تواند این گونه باشد:
بررسی اینکه چه اقلامی در یک فروشگاه با هم خریداری می‌شوند و اینکه چه اقلامی هیچ گاه خریداری نمی‌شوند.
بررسی ارتباط بین توانایی خواندن کودکان با خواندن داستان توسط والدین برای آن‌ها.
اگر مجموعه‌ای از عناصر، حداقل پشتیبانی را داشته باشند، “مکرر” خوانده می‌شوند.
“قواعد قوی” قواعدی هستند که به طور توامان دارای مقدار پشتیبان و اطمینان بیش از آستانه باشند.
با استفاده از این مفاهیم پیدا کردن قواعد انجمنی در دو گام خلاصه می‌شود،: پیدا کردن مجموعه‌های مکرر و استخراج قواعد قوی.
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

خلاصه سازی (تلخیص)
در برگیرنده روش‌هایی برای یافتن یک توصیف فشرده از زیر مجموعه‌ای از داده‌ها است. به عنوان مثالی ساده می‌توان اشاره داشت به: تهیه‌ی جدول میانگین و انحراف معیار برای تمام فیلدها. روش‌های پیچیده‌تر شامل استنتاج قواعد خلاصه، فنون مصورسازی چند متغیره و کشف رابطه تابعی بین متغیرهاست. کاربرد فنون تلخیص معمولاً در تحلیل اکتشافی داده‌ها و تولید گزارش خودکار به کار برده می‌شوند.

مدل‌سازی وابستگی (تحلیل لینک)
شامل یافتن مدلی برای توصیف وابستگی‌های معنی دار بین متغیرهاست. مدل‌های وابستگی در  دو سطح وجود دارند: سطح ساختاری و سطح کمّی. در سطح ساختاری، مدل از طریق رسم شکل مشخص می‌کند که کدام متغیرها به طور محلی به دیگری وابسته‌اند. در سطح کمّی، مدل قدرت وابستگی‌ها را با مقیاس عددی مشخص می‌کند.
 وابستگی‌ها به صورت A->B نمایش داده می‌شوند که به A مقدم و به B موخر یا نتیجه گفته می‌شود. مثلاً اگر یک قانون به صورت زیر داشته باشیم:
” اگر افراد چکش بخرند، آنگاه آن‌ها میخ خواهند خرید”
در این قانون مقدم، خرید چکش و نتیجه، خرید میخ می‌باشد.

در خوشه‌بندی بر خلاف طبقه‌بندی که هر داده به یک طبقه (کلاس) از پیش مشخص شده تخصیص می‌یابد هیچ اطلاعی از کلاس‌های موجود درون داده‌ها وجود ندارد و به عبارتی خود خوشه‌ها نیز از داده‌ها استخراج می‌شوند. لذا می‌توان گفت خوشه بندی نوعی یادگیری بدون نظارت (هدایت نشده) است یعنی نوعی یادگیری است که به وسیله‌ی مشاهدات انجام می‌شود نه با مثال‌ها.
خوشه بندی در انجام فعالیت داده کاوی در موارد زیر استفاده می‌شود:
تجزیه و تحلیل شباهت یا عدم شباهت: تحلیل اینکه کدام نقاط داده در یک نمونه به یکدیگر شبیه هستند.
تشخیص داده‌های پرت: تشخیص داده‌هایی که با سایر داده‌ها تفاوت چشمگیری دارند.
کاهش بُعد (حجم): به عنوان پیش پردازش داده‌ها قبل از فعالیت‌های داده کاوی، می‌توان حجم یا بُعد داده‌ها را به وسیله‌ی تکنیک‌های خوشه بندی، کاهش داد.

معیارهای ارزیابی الگوریتم‌های خوشه بندی
برای ارزیابی و سنجش انواع الگوریتم‌های خوشه بندی، معیارهای متعددی مطرح می‌شود:
1- امکان اعمال بر روی تعداد نمونه‌های زیاد
2- توانایی پردازش انواع متفاوت خصیصه
3- اداره‌ی داده‌های بعد بالا
4- توانایی اداره کردن داده‌های پویا
5- توانایی پردازش داده‌های پرت و اغتشاش
6- کشف خوشه‌ها با اشکال دلخواه
7- میزان وابستگی به پارامترهای ورودی
8- حساسیت به ترتیب رکوردهای ورودی
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

طبقه بندی روش‌های خوشه بندی
خوشه‌بندی انحصاری  و خوشه‌بندی باهمپوشی
در روش خوشه‌بندی انحصاری پس از خوشه‌بندی، هر داده دقیقأ به یک خوشه تعلق می‌گیرد مانند روش خوشه‌بندی K-Means. ولی در خوشه‌بندی باهمپوشی پس از خوشه‌بندی، به هر داده یک درجه‌ی تعلق به ازای هر خوشه نسبت داده می‌شود. به عبارتی یک داده می‌تواند با نسبت‌های متفاوتی به چندین خوشه تعلق داشته باشد. نمونه‌ای از آن خوشه‌بندی فازی است.
خوشه ‌بندی سلسله مراتبی و خوشه‌ بندی مسطح
با توجه با اینکه روش‌های خوشه‌بندی سلسله مراتبی اطلاعات بیشتر و دقیق‌تری تولید می‌کنند برای تحلیل داده‌های با جزئیات پیشنهاد می‌شوند ولی از طرفی چون پیچیدگی محاسباتی بالایی دارند برای مجموعه داده‌های بزرگ روش‌های خوشه‌بندی مسطح پیشنهاد می‌شوند.

زیر مهارت 4 : الگوریتم Apriori
Apriori  یک الگوریتم کلاسیک برای قوانین انجمنی است.
این الگوریتم به صورت تکراری مجموعه آیتم های تکراری(itrative) را در پایگاه داده ها مشخص می کند.هر تکرار 2 مرحله دارد: تولید کاندید، شماره و انتخاب کاندید.  مجموعه آیتمی که شامل  I نمونه از آیتم هاست را مجموعه آیتم i   تایی می نامند.(i-itemset)
در تکرار i  همه  تکرار های مجموعه  آیتم i  تایی محاسبه می شوند.(شمرده می شوند)
قانون  X=>Yدر مجموعه تراکنش های  پایگا ه داده ها با اطمینان (Confidence) c   برقرار است، اگر c%  از تراکنش هایی که شامل X   هستند، شامل Y   هستند.
قانون  X=>Yدر مجموعه تراکنش های  پایگا ه داده ها دارای پشتیبان (Support) s   است، اگر s%   از تراکنش ها در پایگاه داده ها شامل  XUY باشند.

زیر مهارت 4 : الگوریتم Apriori
Apriori  یک الگوریتم کلاسیک برای قوانین انجمنی است.
این الگوریتم به صورت تکراری مجموعه آیتم های تکراری(itrative) را در پایگاه داده ها مشخص می کند.هر تکرار 2 مرحله دارد: تولید کاندید، شماره و انتخاب کاندید.  مجموعه آیتمی که شامل  I نمونه از آیتم هاست را مجموعه آیتم i   تایی می نامند.(i-itemset)
در تکرار i  همه  تکرار های مجموعه  آیتم i  تایی محاسبه می شوند.(شمرده می شوند)
قانون  X=>Yدر مجموعه تراکنش های  پایگا ه داده ها با اطمینان (Confidence) c   برقرار است، اگر c%  از تراکنش هایی که شامل X   هستند، شامل Y   هستند.
قانون  X=>Yدر مجموعه تراکنش های  پایگا ه داده ها دارای پشتیبان (Support(s   است، اگر s%   از تراکنش ها در پایگاه داده ها شامل  XUY باشند.
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

به عنوان مثال پایگاه داده زیر را در نظر بگیرید،فرض کنید حداقل مقدار پشتیبان  s=50%  باشد.

ITEMS
   

TID

ACD

BCE

ABCE

BE
   

001

002

003

004

در مرحله اول از اولین تکرار(تولید کاندید) همه آیتم ها به عنوان کاندید در نظر گرفته می شوند.بنابراین 5 مجموعه آیتم 1 تایی(1-items) تشکیل می شود.در مرحله دوم از اولین تکرار، 4 مجموعه  از آیتم 1 تایی  (1-items)  به عنوان مجموعه L1  انتخاب می شوند، چرا که مقدار پشتیبانی آنها %50 یا بیشتر می باشد.

نتایج حاصل از تکرار الگوریتمApriori   در تکرار اول در شکل زیر آمده است:

S[%]
   

Counts
   

Larg  2-itemsets  L2
         

S[%]
   

Counts
   

1-items C1
         

1-itemset C1

50
   

2
   

{A}
   

50
   

2
   

{A}
   

{A}

75
   

3
   

{C}
   

75
   

3
   

{C}
   

{C}
                 

25
   

1
   

{D}
   

{D}

75
   

3
   

{B}
   

75
   

3
   

{B}
   

{B}

75
   

3
   

{E}
   

75
   

3
   

{E}
   

{E}

در تکرار دوم  برای تولید مجموعه های C2   وL2   از نتایج مرحله قبلی استفاده می شود.
همه ی زیر مجموعه های یک مجموعه آیتم بزرگ نیز باید شرط حداقل پشتیبان را برآورده کنند.الگوریتم Apriori  برای تولید مجموعه کاندید C2  از   L1*L2   استفاده می کند، که عملگر * به صورت زیر توصیف می گردد:
Lk * Lk ={ XUY where X,Y ɛ Lk ,|X∩Y=K-1 }

نتایج حاصل از  اجرای عملگر* توسط الگوریتم Apriori در تکرار دوم در اسلاید بعدی آمده است.

S[%]
   

Counts
   

Larg  2-itemsets  L2
         

S[%]
   

Counts
   

2-itemset
         

2-itemset C2
           

{A,B}
   

25
   

1
   

{A,B}
   

{A,B}

50
   

2
   

{A,C}
   

50
   

2
   

{A,C}
   

{A,C}
           

{A,E}
   

25
   

1
   

{A,E}
   

{A,E}

50
   

2
   

{B,C}
   

50
   

2
   

{B,C}
   

{B,C}

75
   

3
   

{B,E}
   

75
   

3
   

{B,E}
   

{B,E}

50
   

2
   

{C,E}
   

50
   

2
   

{C,E}
   

{C,E}

مجموعه آیتم های 2 تایی  که شرط حداقل پشتیبانی را برآورده می کنند، ملاحظه می فرمایید.به همین ترتیب در تکرار سوم ، مجموعه C3 از روی L2  توسط L2 * L2   تولید می شود.  مجموعه آیتم های دو تایی که دارای عضو اول یکسان هستند، همان ابتدا انتخاب می شوند: {B,C}و {B,E} سپس الگوریتم بررسی می کند که آیا مجموعه {C,E} خودش یک  مجموعه آیتم 2 تایی هست یا خیر، با توجه به شرط اینکه {C,E} خودش یک مجموعه آیتم 2 تایی هست، معلوم می شود که همه زیر مجموعه های {B,C,E}  نیز شرط حداقل پشتیبان را فراهم می نمایند. بنابراین {B,C,E} یک کاندید یک کاندید 3-itemset  است.Apriori   سپس تمام تراکنش های پایگاه داده را بررسی می کند و L3    را  بصورت ذیل تعریف می نماید:

S[%]
   

Counts
   

Larg 3-itemsets  L3
         

S[%]
   

Counts
   

3-itemset C3
         

3- itemset  C3

50
   

2
   

{B,C,E}
   

50
    azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


2
   

{B,C,E}
   

{B,C,E}

الگوریتم  K-Means
این الگوریتم یک متد ساده تکرار شونده است، و برای خوشه بندی مجموعه ای از داده ها ی در اختیار  در تعداد مشخصی خوشه (K)  که کاربر تعیین می کند کاربرد دارد.الگوریتمK_Means  توسط محققین متعدد و به روش های مختلفی بیان شده است. الگوریتمK_Means  بیشترین استفاده در عمل تقسیم بندی خوشه ها را دارد و الگوریتمی بسیار ساده، قابل فهم و بطور منطقی قابل مقیاس بندی است و می توان آن را به سادگی اصلاح کرد تا با سناریوهای مختلف مانند یادگیری شبه مشاوره یا داده های جاری سروکار داشته باشد. پیشرفت ها و کلیت های مداوم الگوریتم پایه، ارتباط مداوم آن را تضمین می کند و به تدریج بر تأثیر گزاری آن افزوده است.
این الگوریتم  پارامتر k را به عنوان ورودی گرفته و مجموعه‌ی n شیء را به k خوشه افراز می‌کند به طوری که سطح شباهت داخلی خوشه‌ها بالا و سطح شباهت اشیاء بیرون خوشه‌ها پایین باشد. شباهت هر خوشه نسبت به متوسط اشیاء آن خوشه -که مرکز خوشه نامیده می‌شود- سنجیده می‌شود.

گام ‌های الگوریتم k-means
 گام 1: انتخاب k نقطه‌ی دلخواه به عنوان مراکز خوشه‌های ابتدایی به صورت تصادفی (بهتر است k نقطه از n نقطه‌ی موجود انتخاب شود.)
گام 2: تخصیص هرشی به خوشه‌ها با توجه به بیشترین شباهت آن به مراکز خوشه‌ها.
گام 3: به روز کردن مراکز خوشه‌ها به این معنی که برای هر خوشه، میانگین اشیاء آن خوشه، محاسبه می‌شود.
گام 4: بازگشت به قدم  2با توجه به مراکز جدید خوشه‌ها، تا هنگامی که هیچ تغییری در خوشه‌ها رخ ندهد. (در این حالت الگوریتم پایان یافته است)

ویژگی‌های الگوریتم k-means
 پیچیدگی محاسباتی الگوریتم: (O(tkn.
(  n: تعداد کل اشیا،  k: تعداد خوشه‌ها، t : تعداد تکرارهای الگوریتم).
پارامتر ورودی: تعداد خوشه‌ها (k) توسط کاربر باید تعیین شود و راه خاصی برای تعیین آن مشخص  نشده است. (یک راه، امتحان k های مختلف و بررسی معیار مربع خطا برای هر k می‌باشد)
نوع داده‌ی ورودی: این الگوریتم با داده‌های از نوع عددی، انجام پذیر است.
مقیاس پذیری: این الگوریتم برای پایگاه داده‌های بزرگ، کارا نیست و نیاز به توسعه دارد.
مواجهه با اغتشاش: از مهم‌ترین نقاط ضعف این روش، حساسیت در برابر اغتشاشات و نقاط پرت است زیرا در این روش از میانگین داده‌ها استفاده شده که به راحتی تحت تأثیر داده‌های پرت قرار می‌گیرد.

ویژگی‌های الگوریتم k-means
 شکل خوشه: این الگوریتم هنگامی که خوشه‌ها به صورت ابرهای فشرده هستند و این ابرها نیز خودشان از یکدیگر مجزا هستند، به خوبی عمل می‌کند لذا این روش تنها خوشه‌های کروی شکل را تشخیص داده و برای کشف خوشه‌هایی با شکل‌های پیچیده به خصوص غیر محدب، مناسب نیست.
این روش اغلب به یک بهینه محلی ختم می‌شود نه یک بهینه‌ی سراسری.
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

رفع اشکالات الگوریتم  k-means: برای رفع اشکالات الگوریتم k-means روش‌هایی توسعه یافته که در انتخاب k مرکز اولیه، محاسبه‌ی عدم شباهت و استراتژی‌های محاسبه‌ مراکز خوشه‌ها با یکدیگر متفاوتند. یکی از این تغییرات این است که ابتدا روی پایگاه داده، توسط الگوریتم تجمیع سلسله مراتبی، تعداد خوشه‌های مطلوب را پیدا کرده و سپس از خوشه‌های بدست آمده، به عنوان مرحله اول الگوریتم k-means استفاده می‌شود.
یکی دیگر از روش‌های مشابه k-means روش k-modes می‌باشد. که توسعه یافته‌ی  k-means برای استفاده از داده‌های طبقه‌ای است و به جای استفاده از مراکز خوشه‌ها، از مدهای خوشه‌ها (روش مبتنی بر فراوانی) استفاده می‌کند. لذا از یک رابطه‌ی اندازه گیری عدم شباهت جدید برای داده‌های اسمی یا طبقه‌ای استفاده می‌کند. از مزایای روش فوق، جبران نقص حساسیت نسبت به داده‌های دور از مرکز می‌باشد زیرا میانه (مد) از مقادیر بزرگ تأثیر نمی‌پذیرد. اما ایراد روش این است که بعضاً نماینده خوشه‌ها از میان اشیا انتخاب نمی‌شود.

خلاصه مهارت
فنون داده کاوی، گروه نامتجانسی از علوم مختلف را شکل می‌دهند هر تکنیکی که بتواند بینش جدیدی از داده‌ها را استخراج کند می‌تواند داده کاوی به حساب آید. به طور خلاصه، داده کاوی پل ارتباطی میان علم آمار،علم کامپیوتر،هوش مصنوعی، الگو شناسی، فراگیری ماشین و بازنمایی بصری داده می‌باشد. می‌توان گفت در داده کاوی، تئوری‌های پایگاه داده‌ها، هوش مصنوعی، یادگیری ماشین و علم آمار را در هم می‌آمیزند تا زمینه کاربردی فراهم شود.
داده کاوی یکی از پیشرفت های اخیر در صنعت مدیریت داده ها است.در اصل داده کاوی مجموعه ای از فنون می باشد که به شخص این امکان را می دهد تا ورای داده پردازی معمولی حرکت کند و به استخراج  اطلاعاتی درانبوه داده های مخفی یا پنهان دست پیدا کند.برای داده کاوی الگوریتم ها و روش های بسیاری معرفی شده است ولی موضوع مورد نظر انتخاب تعدادی از این الگوریتم ها و توضیح مختصر در مورد آنها می باشد.

کاربرد داده کاوی در بازاریابی

کاربرد داده کاوی در بانکداری

کاربرد داده کاوی در بیمه

کاربرد داده کاوی در سیستم های تشخیص نفوذ در شبکه

کاربرد داده کاوی در پیش بینی سهام

کاربرد داده کاوی در فروشگاه های زنجیره ای

کاربرد داده کاوی در خدمات الکترونیکی دولت

کاربرد داده کاوی در پزشکی

کاربرد داده کاوی در مخابرات

کاربرد داده کاوی در صنعت

کاربرد داده کاوی در خدمات

کاربرد داده کاوی در امور دولتی

کاربرد داده کاوی در کشف جرم و پیش بینی آن

کاربرد داده کاوی در شهرداری
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

کاربرد داده کاوی در آموزش

کاربرد داده کاوی در مدیریت شهری و شهرداری

کاربرد داده کاوی در مقوله فرهنگی

کاربرد داده کاوی در صادارت و واردات

کاربرد داده کاوی در فروش

کاربرد داده کاوی در حمل و نقل

کاربرد داده کاوی در امور انتظامی

کاربرد داده کاوی در امور خدماتی شهری

کاربرد داده کاوی در امور مالیاتی و پیش بینی تخلف

کاربرد داده کاوی در شرکت های حمل و نقل مسافربری

کاربرد داده کاوی در ورزش

کاربرد داده کاوی در مدیریت ارتباط با مشتری

کاربرد داده کاوی در ارزیابی تامین کنندگان

کاربرد داده کاوی در هواشناسی

Ad revenue forecasting
Churn (turnover) management
Claims processing
Credit risk analysis
Cross-marketing
Customer profiling
Customer retention
Electronic commerce
Exception reports
Food-service menu analysis
Fraud detection
Government policy setting
Hiring profiles
Market basket analysis
Medical management
Member enrollment
New product development
Pharmaceutical research
Process control
Quality control
Shelf management/store management
Student recruiting and retention
Targeted marketing
Warranty analysis
 

    آشنا با داده کاوی (1)
    بانک صادرات و کشف تقلب با الگوریتم ها (1)
    لیست الگوریتم های داده کاوی (1)
    مبلغ کارت هدیه بانک رفاه طرح تک گل (1)

     ارسال شده توسط علی ایوبی

امروزه حجم زیادی از داده ها در اطرافمان قابل مشاهده هستند. بسیاری از مدیران کسب و کار به سمت استخدام نیروهای متخصص در تجزیه و تحلیل داده ها رفته اند. از طرفی طرفداران حریم خصوصی نگران اطلاعات شخصی و کنترل بر آنها هستند و کارآفرینان به راه های جدید جمع آوری داده ها، کنترل و تبدیل آن به پول فکر می کنند. همه ما می دانیم داده ها پرقدرت و پر ارزشند، اما چگونه؟

در این مقاله تلاش شده تا نشان داده شود که داده کاوی چگونه کار می کند و چرا شما باید در مقابل آن محتاط باشید. زیرا وقتی ما به نحوه استفاده از داده ها فکر می کنیم، این موضوع بسیار مهم هست که با قدرت عملکرد آن نیز آشنایی داشته باشیم. بدون داده کاوی وقتی شما چیزی درباره خود به کسی بگویید، او تنها همان چیزهایی را درباره شما می داند که شما به او گفتید. اما با داده کاوی، او علاوه بر چیزهایی که شما به او گفته اید، به چیزهایی که فکر می کنید و به آنها تمایل دارید نیز اشراف پیدا می کند. در واقع داده کاوی، به شرکت ها و دولت ها این امکان را می دهد تا بر اساس اطلاعاتی که از شما می گیرند، افکار شما را نیز برای خود آشکار سازند.

 

برای اغلب ما داده کاوی چیزی شبیه اینست: خروارها داده جمع آوری شده، که یک سری افراد مانند جادوگران با ابزارهای جادویی خود می توانند از میان آنها چیزهای شگفت انگیزی استخراج کنند. اما چگونه؟ چه چیزهایی آنها می توانند بفهمند؟ حقیقت اینست: علی رغم این واقعیت که، الگوریتم ها و تکنیک های خاص داده کاوی کاملاً پیچیده می باشند – آنها همانند جعبه سیاه هستند جز برای متخصصین آمار یا علوم کامپیوتر – ولی کاربردها و قابلیت های آنها کاملاً شهودی و قابل درک هستند.

در اکثر موارد، داده کاوی در مجموعه داده های بسیار بزرگ و حجیم، اطلاعاتی را به ما می دهد که در مجموعه داده های کوچک به آسانی قابل مشاهده هستند. بطور مثال داده کاوی می تواند به ما بگوید “این مورد مانند سایر موردهای دیگر نیست!” یا می تواند انواع دسته ها را به ما نشان دهد و بعد هریک از موارد را در یکی از دسته های از پیش تعریف شده قرار دهد. اما باید توجه کرد روابطی که در بین 5 عدد بسیار ساده می باشند در میان 5 میلیارد عدد به هیچ وجه ساده نیستند.

این روزها، همه جا پر از داده هست. ما آنها را از جاهای مختلف گردآوری می کنیم، و بعد می توانیم آنها را خلاصه کنیم. تقریباً هر تراکنش یا تعاملی مقادیری داده ایجاد کرده که کسی در جایی آنها را جمع آوری و ثبت می کند. این موضوع به خصوص در اینترنت کاملاً درست است. اما سیستم های محاسباتی و رقومی سازی که همه جا حضور دارند بطور فزاینده ای باعث شدند این موضوع در سایر ابعاد زندگیمان غیر از کامپیوتر نیز درست باشد. مقیاس و ابعاد این داده ها فراتر از قابلیت های حسی بشر می باشد. در این مقیاس، الگوها اغلب بسیار ظریفتر و رابطه ها بسیار پیچیده یا چند بعدی می باشند که بتوان با نگاهی ساده به داده ها آنها را مشاهده کرد. داده کاوی بخش اتوماتیک فرآیند تشخیص الگوهای قابل تفسیر از مجموعه داده ها هست. داده کاوی به ما کمک می کند تا جنگل را ببینیم بدون اینکه در میان درختان گم شویم.
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

کشف دانش از مجموعه داده ها، 2 حالت عمده دارد: توصیفی و پیش بینی. در مقیاس داده های مورد بررسی، اینکه داده ها چه چیزی را به ما نشان می دهند بسیار سخت است. داده کاوی به ساده سازی و خلاصه کردن داده ها در چارچوبی که برای ما قابل درک باشد می پردازد و به ما اجازه می دهد تا با مشاهده الگوها به استنتاج چیزهای مفید از مجموعه داده ها نائل شویم. در هر حال کاربردهای خاص داده کاوی محدود به داده ها و قدرت ابزارهای محاسباتی قابل دسترس هست، و همچنین باید متناسب با نیازها و اهداف باشند. از اینرو چند روش اصلی وجود دارد که برای تشخیص الگو ها معمولاً از آنها استفاده می شود که به عنوان وظایف داده کاوی مطرح گشته اند. این وظایف، نشان می دهند که داده کاوی چگونه می تواند کار کند؟

تشخیص انحرافات: در مجموعه داده های بزرگ می توان تمایل داده ها به الگو یا رفتار خاصی را تصویر نمود. تکنیک های آماری می توانند در این موقعیت بررسی کنند آیا موارد خاصی وجود دارند که نسبت به الگوی موجود تفاوت قابل ملاحظه ای داشته باشند یا خیر؟ بطور مثال، اداره های دارایی می توانند با مدلسازی الگوی اظهارنامه های مالیاتی دریافت شده و با استفاده از روشهای تشخیص انحرافات، اظهارنامه های مغایر با الگوی معمول را استخراج کرده و به بررسی بیشتر و ممیزی آنها بپردازند.

آنالیز وابستگی ها: یکی از روش های داده کاوی می باشد که در سیستم پیشنهادات سایت آمازون مورد استفاده قرار گرفته است. به عنوان مثال، کسانی که کوکتل شیکر و کتاب دستورالعمل کوکتل را خریده اند اغلب یک گیلاس مارتینی نیز سفارش داده اند. این روش کشف الگو، معمولاً در مسائل بازاریابی و تبلیغات هدفمند استفاده می شود. یک نسخه مشابه ولی پیچیده تر از این روش در سیستم پیشنهاد فیلم سایت Netflix بکار رفته است.

خوشه بندی: یکی از روش های الگوشناسی که بطور خاص در تشخیص خوشه های متمایز در درون داده ها بکار می رود. بدون داده کاوی، تحلیلگر بایستی با مشاهده بصری داده ها نسبت به خوشه های متمایز در آنها تصمیم گیری کرده و روابط شاخص در هر خوشه را تشخیص دهد. در این حالت خطر نادیده انگاشتن دسته های مهمی از داده ها بسیار زیاد است. با استفاده از داده کاوی، این امکان وجود دارد تا به خود داده ها اجازه دهیم تا گروه های بین خود را نمایش دهند. این یکی از روش های جعبه سیاه الگوریتم های داده کاوی هست که درک آن سخت می باشد. ولی در یک مثال ساده، می توان رفتار خرید مشتریان را با استفاده از این روش مورد بررسی قرار داد. مثلاً می توانیم مشاهده کنیم رفتار خرید باغبان ها، ماهیگیران و علاقه مندان به هواپیماهای مدل، نسبت به هم تفاوت معناداری دارند. الگوریتم های یادگیری ماشین می توانند خوشه های متفاوت از هم را در مجموعه داده ها نشان دهند.

طبقه بندی: اگر ساختار و دسته بندی تعریف شده ای در مجموعه داده وجود داشته باشد، داده کاوی می تواند موارد جدید را به یکی از آنها تخصیص دهد. الگوریتم ها با یادگیری از مجموعه بزرگی از داده های از قبل دسته بندی شده، می توانند بطور دائمی وجه تمایز بین عناصر هر دسته را تشخیص داده و با استفاده از قوانین حاصل شده، موارد جدید را بصورت اتوماتیک دسته بندی نمایند. فیلتر هرزنامه ها، یکی از بهترین نمونه های این روش می باشد. مجموعه بزرگی از ایمیل ها که به عنوان هرزنامه ها شناخته می شوند، دارای تفاوت های جدی در استفاده از کلمات در متن خود می باشند، بطوریکه طبقه بندی آنها با استفاده از قوانین بدست آمده دارای صحت بالایی می باشد.

پیش بینی: داده کاوی دارای قابلیت ساخت مدلهای پیش بینی کننده بر اساس تعداد زیادی از متغیرها می باشد. بطور مثال، فیسبوک علاقه مند است تا سرگرمی های آتی کاربرانش را بر اساس رفتارهای گذشته آنها پیش بینی نماید. فاکتورهایی مانند مقدار اطلاعات به اشتراک گذاری شده، تعداد عکس های تگ شده، تعداد درخواست های دوستی، تعداد نظرات، تعداد لایک ها و … می توانند به عنوان ورودی های یک مدل باشند. در طول زمان این مدل می تواند با اضافه کردن متغیرهای جدید، و یا تغییر وزن متغیرهای موجود بر اساس میزان تفاوت پیش بینی با مقادیر واقعی، خود را بهبود دهد. در نهایت نتایج بدست آمده می توانند به عنوان راهنمای طراحی به منظور تشویق رفتارهایی که منجر به افزایش سرگرمی ها در آینده خواهد شد استفاده شوند.

الگوهای تعیین شده و ساختارهای آشکار شده توسط داده کاوی توصیفی اغلب در ادامه، برای پیش بینی سایر وجوه مورد علاقه در داده ها بکار می روند. سیستم پیشنهادات آمازون مثال خوبی برای استفاده از داده کاوی توصیفی در پیش بینی می باشد. به عنوان مثال (فرضی) از رابطه بین خرید کوکتل شیکر و گیلاس مارتینی به همراه بسیاری از رابطه های مشابه دیگر، به عنوان بخشی از یک مدل پیش بینی می توان استفاده نمود. بر اساس آنها می توان احتمال اینکه یک کاربر خاص یک خرید خاص را انجام دهد تعیین نمود. این مدل قادر خواهد بود تمامی روابط بدست آمده را با خریدهای قبلی کاربر مقایسه کرده و بر اساس آنها محصولاتی که دارای احتمال بیشتری برای خرید می باشند را پیش بینی نماید. آمازون بر اساس پیش بینی های انجام شده می تواند تبلیغات خود را بر مبنای محصولاتی که برای هر کاربر احتمال خرید بیشتری دارد مدیریت نماید.
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

داده کاوی در این مسیر، قدرت استنتاجی عظیمی را اعطا می کند. اگر یک الگوریتم به درستی می تواند یک نمونه را بر اساس حجم داده های محدود به طبقه خودش تخصیص دهد، پس این امکان وجود دارد تا بتوان دامنه وسیعی از اطلاعات مربوط به آن نمونه را بر اساس ویژگی های سایر نمونه های موجود در آن طبقه برآورد نمود. هرچند ممکن است این موضوع سخت و دشوار به نظر آید، اما نشان می دهد که شرکت های بزرگ اینترنتی چگونه پول می سازند و از کجا قدرتشان را بدست می آورند.
محدودیت ها داده کاوی

    2016-04-12 ارسال شده توسط علی ایوبی

کاربرد داده کاوی با چند عامل محدود شده است. اولین مورد به سخت افزار و نرم افزار لازم و موقعیت بانک اطلاعاتی مربوط میشود. برای مثال در هند، داده های غیر مجتمع که برای کاربردهای داده کاوی لازم است ممکن است به فرم دیجیتالی در دسترس نباشد.

در دسترس بودن نیروی انسانی ماهر در داده کاوی نیز مسأله مهم دیگری است.

 محرمانه بودن رکوردهای مراجعان ممکن است در نتیجه پردازش داده های مبتنی بر داده کاوی آسیب پذیر شود. کتابداران و مؤسسات آموزشی باید این مسأله را در نظر داشته باشند؛ چرا که در غیر اینصورت ممکن است گرفتار شکایات قانونی گردند.  محدودیت دیگراز ضعف ذاتی نهفته در ابزارهای نظری ناشی میگردد.

ابزارهایی مانند یادگیری ماشینی و الگوریتمهای ژنتیکی بکار گرفته شده در فعالیتهای داده کاوی به مفاهیم وفنون منطق و آمار بستگی دارد. در این حد نتایج به روش مکانیکی تولید شده و بنابراین به یک بررسی دقیق نیاز دارند. اعتبار الگوهای بدست آمده به این طریق؛ باید آزمایش شود. چرا که که در بسیاری موارد روابط علل و معلول مشتق شده؛ از برخی استدلالات غلط ذیل رنج میبرند.

خدمات داده کاوی

امروزه در اکثر سازمان ها، داده‌ها به سرعت در حال جمع آوری و ذخیره شدن هستند به طوری که شرکت ها در اﻃﻼﻋﺎت ﻏﺮق ﺷﺪه اﻧﺪ در ﺣﺎﻟﯿﮑﻪ ﺗﺸﻨﻪ داﻧﺶ ﻫﺴﺘﻨﺪ، اما استفاده از این داده ها در اغلب موارد کار راحتی نیست و نمی توان به صورت یکپارچه از این حجم داده ها استفاده نمود، از این رو با استفاده از ترکیب علم آمار و کامپیوتر و بکارگیری تکنیک های یادگیری ماشین، می توان از این داده ها به بهترین نحو از این داده ها استفاده کرد. در واقع داده کاوی عبارت است از:

“استخراج اطلاعات و دانش و کشف الگوهای پنهان مفید برای سازمان از مجموعه داده‌های بزرگ”

گروه ما با استفاده از تجارب فنی و دانش متخصصین خود آماده ارائه خدمات داده کاوی برای هوشمند سازی تجارت شما به بهترین شکل انجام می دهد.

داده کاوی

داده‌کاوی به معنای کشف دانش درون داده‌هاست! کشف دانش درون داده‌ها آنهم در عصر اطلاعات یکی از هیجان‌انگیزترین و کلیدی‌ترین مفاهیمی است که روز به روز اهمیت بیشتری می‌گیرد. داده‌کاوی به بررسی و تجزیه و تحلیل مقادیر عظیمی از داده‌ها به منظور کشف الگوها و قوانین معنی‌دار گفته می‌شود.
چه موقع و کجا داده‌کاوی نیاز است؟
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

طیف وسیعی از رشته های دانشگاهی از مهندسی تا پزشکی و علوم انسانی، برای حل مسائل و استخراج نتایج تحقیقات خود به تکنیک های داده کاوی نیاز دارند.
در سال های اخیر و با توجه به گسترش علم داده کاوی، پروژه های متعددی در دانشگاه ها و در مقاطع کارشناسی ارشد و دکترا از تکنیک های داده کاوی بهره می برند و یا بصورت تخصصی بر روی تکنیک های داده کاوی تحقیق می کنند.
گروه داده کاوی توسعه اندیشه نوین با توجه به تجربه و دانش چند ساله ی خود در مشاوره و اجرای پروژه های داده کاوی، هم اکنون آماده اجرای پروژه های داده کاوی در سازمان ها و شرکت ها است.

    مسئله ای پیچیده و ناساخت یافته و یا نیمه ساخت یافته
    داده‌های مرتبط وجود داشته باشند و به آنها دسترسی داشت.داده کاوی
    داده ها در یکجا مجتمع شده و انباره داده ها ایجاد شود.
    توانایی کامپیوترها امکان استفاده از نرم افزارهای مرتبط با داده کاوی را به ما بدهند.
    مدیران نیاز به استفاده از دانش استخراج شده از داده ها را حس کرده باشند.

در واقع هـــــدف از داده کاوی ایجاد مدل هایی برای تصمیم گیری است تا هوش تجاری سازمان را افزایش دهد و بقای و سود سازمان در ارتباط با مشتریان بلقوه بیشتری افزایش یابد.

    حجم داده‌ها (Data) با سرعت زیادی در حال رشد است.
    اطلاعات (Information) ما در مورد این داده‌ها کم است.
    دانش (Knowledge) ما نسبت به این اطلاعات صفر است.

 
مقایسه علم آمار با داده کاوی

آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد. این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه این علم با data mining قدمت بیشتری دارد و جزء روشهای کلاسیک داده کاوی محسوب می شود.

وجه اشتراک تکنیکهای آماری و data mining بیشتر در تخمین و پیش بینی است. البته از آزمون های آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. در کل اگر تخمین و پیش بینی جزء وظایف data mining در نظر گرفته شوند، تحلیل های آماری، data mining را بیش از یک قرن اجرا کرده است. به عقیده بعضی DM ابتدا از آمار و تحلیل های آماری تحلیل شروع شد.

داده کاوی

می توان تحلیل های آماری از قبیل فاصله اطمینان، رگرسیون و… را مقدمه و پیش زمینه DM دانست که بتدریج در زمینه های دیگر و متدهای دیگر رشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزء روشهای کلاسیک و قدیمی DM محسوب می شوند. در جایی اینگونه بحث می شود که با تعریف دقیق ، آمار یا تکنیک های آماری جزء داده کاوی (data mining) نیستند.

این روش ها خیلی قبل تر از data mining استفاده می شدند. با این وجود، تکنیک های آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدل های پیشگویانه مورد استفاده قرار می گیرند.

 
داده­ کاوی چگونه کار می­ کند؟
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

هنگامی که فناوری اطلاعات در سطح وسیع، سیستم ­های تحلیلی و تراکنشی را جداگانه دگرگون می­ کند، داده کاوی ارتباط بین این ­دو را فراهم می ­آورد. نرم ­افزار داده­ کاوی، ارتباطات و الگوهای موجود در داده­ های تراکنشی ذخیره شده بر اساس درخواست ­های کاربر Open-ended را تحلیل می­ کند. انواع مختلف نرم ­افزارهای تحلیلی موجود هستند: آماری، یادگیری ماشینی، و شبکه ­های عصبی. در کل، به دنبال هر 4 نوع از روابط می­ گردیم:

کلاس ها: داده­ های ذخیره شده برای پیدا کردن داده در گروه ­های از پیش تعیین شده به کار می ­روند. برای مثال، یک رستوران زنجیره ­ای، می ­تواند داده­ های خرید مشتریان را به منظور تعیین زمان دیدار مشتریان از مغازه و آنچه که سفارش می ­دهند، بکاود. این اطلاعات، می ­تواند برای افزایش تعداد مشتریان توسط افزودن “ویژه های روزانه” به کار رود.
خوشه ­ها: داده ­ها بر اساس روابط منطقی بین آن­ها یا ترجیحات مشتری گروه ­بندی می ­شوند. برای مثال، داده­ ها می ­توانند برای شناسایی بخش ­های بازار و یا اشتراکات قوی مشتریان، داده کاوی شوند.
وابستگی ­ها: داده­ کاوی به منظور شناسایی وابستگی­ ها انجام می ­شود. آبجو-پوشک، مثالی از این نوع داده­ کاوی است.
الگوهای زنجیره ­ای: داده­ کاوی به منظور پیش ­بینی الگوهای رفتاری و روندها صورت می­ گیرد. برای مثال، یک فروشنده، می ­تواند احتمال خرید کوله ­پشتی را بر اساس خرید مشتریان از کیسه­ های خواب و کفش­ های کوهنوردی پیش ­بینی کند.

داده کاوی

 
خدمات ما

با توجه به بررسی ها و پس از آن که چارچوب پروژه داده کاوی تدوین شد،در پروژه وجود موارد زیر به صراحت مشخص می شود.

    دلیل استفاده از تکنیک های داده کاوی و آماری مربوطه
    برنامه اولیه برای بهبود با توجه به نتایج تجزیه و تحلیل
    نتایج مشخص از داده ها به صورتی که تدوین برنامه های راهبردی بعدی از نتایج امکان پذیر باشد
    خدمات داده کاوی و بررسی تجزیه و تحلیل داده های
    انجام پروژه و پایانامه های داده کاوی و تجزیه تحلیل داده ها
    انجام پروژه های داده کاوی با نرم افزارهای  R , Rapidminer  weka, SPSS    (رپیدماینر ، وکا و …. )

آکادمی داده کاوی

کاربردهای داده کاوی

کاربردهایی که برای داده کاوی وجود دارند، بسیار بسیار گسترده اند و ما در این نوشتار، فقط امکان معرفی تعداد محدودی از آن ها را داریم. به عنوان مثال های بیشتر، می توان به کاربردهای داده کاوی در زمینه های زیر اشاره کرد:

        سیستم های مدیریتی، مثلا مدیریت ارتباط با مشتریان یا CRM
        نرم افزارهای امنیتی، مثلا نرم افزاری مانیتورینگ شبکه و ویروس کش ها
        سیستم های بانکی، مثلا تخصیص اعتبار به مشتریان و طبقه بندی آن ها
        مالی و اقتصادی، مثلا پیش بینی قیمت یک یا چند سهام یا شاخص
        برنامه ریزی و مکان یابی، مثلا چینش داخلی فروشگاه های بزرگ و یا تخصیص امکانات شهری
        علوم پزشکی، مثلا پیش بینی خطرات احتمالی ناشی از یک عمل جراحی خاص
        علوم اجتماعی و سیاسی، مثلا پیش بینی یا تحلیل نتایج انتخابات

azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

نظرات 0 + ارسال نظر
امکان ثبت نظر جدید برای این مطلب وجود ندارد.