دسته‌بندی newdatamining - انجام پروژه های داده کاوی

نرمافزار داده کاوی Weka

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

تا به امروز نرم افزار های تجاری و آموزشی فراوانی برای داده کاوی در حوزه های مختلف داده ها به دنیای علم و فناوری عرضه شدهاند. هریک از آنها با توجه به نوع اصلی داده هایی که مورد کاوش قرار میدهند، روی الگوریتمهای خاصی متمرکز شدهاند. مقایسه دقیق و علمی این ابزارها باید از جنبه های متفاوت و متعددی مانند تنوع انواع و فرمت داده های ورودی، حجم ممکن برای پردازش داده ها، الگوریتمها پیاده سازی شده، روشهای ارزیابی نتایج، روشهای مصور سازی [1] ، روشهای پیش پردازش [2] داده ها، واسطهای کاربر پسند [3] ، پلت فرم [4] های سازگار برای اجرا،‌ قیمت و در دسترس بودن نرم افزار صورت گیرد. از آن میان، ‌نرم افزار Weka با داشتن امکانات بسیار گسترده،‌ امکان مقایسه خروجی روشهای مختلف با هم، راهنمای خوب، واسط گرافیگی کارآ، سازگاری با سایر برنامههای ویندوزی، و از همه مهمتر وجود کتابی بسیار جامع و مرتبط با آن [ Data Mining, witten et Al. 2005 ] ، معرفی میشود.

میزکار [5] Weka ، مجموعهای از الگوریتم‏های روز یادگیری ماشینی و ابزارهای پیش پردازش داده‏ها می‏باشد. این نرمافزار به گونهای طراحی شده است که می‏توان به سرعت، روش‏های موجود را به صورت انعطافپذیری روی مجموعه‏های جدید داده، آزمایش نمود. این نرمافزار، پشتیبانی‏‏های ارزشمندی را برای کل فرآیند داده کاوی ‏های تجربی فراهم می‏کند. این پشتیبانی‏ها، آماده سازی داده‏های ورودی، ارزیابی آماری چارچوب‏های یادگیری و نمایش گرافیکی داده‏های ورودی و نتایج یادگیری را در بر میگیرند. همچنین، هماهنگ با دامنه وسیع الگوریتم‏های یادگیری، این نرمافزار شامل ابزارهای متنوع پیش پردازش دادههاست. این جعبه ابزار [6] متنوع و جامع، از طریق یک واسط متداول در دسترس است، به نحوی که کاربر می‏تواند روش‏های متفاوت را در آن با یکدیگر مقایسه کند و روش‏هایی را که برای مسایل مدنظر مناسبتر هستند، تشخیص دهد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

نرمافزار Weka در دانشگاه Waikato واقع در نیوزلند توسعه یافته است و اسم آن از عبارت "Waikato Environment for knowledge Analysis" استخراج گشته است. همچنین Weka ، نام پرندهای با طبیعت جستجوگر است که پرواز نمی‏کند و در نیوزلند، یافت می‏شود. این سیستم به زبان جاوا نوشته شده و بر اساس لیسانس عمومی و فراگیر [7] GNU انتشار یافته است. Weka تقریباً روی هر پلت فرمی اجرا می‏شود و نیز تحت سیستم عامل‏های لینوکس، ویندوز، و مکینتاش، و حتی روی یک منشی دیجیتالی شخصی [8] ، آزمایش شده است.

این نرمافزار، یک واسط همگون برای بسیاری از الگوریتم‏های یادگیری متفاوت، فراهم کرده است که از طریق آن روش‏های پیش پردازش، پس از پردازش [9] و ارزیابی نتایج طرح های یادگیری روی همه مجموعه های داده‏ موجود، قابل اعمال است.

نرم افزار Weka ، پیاده سازی الگوریتم‏های مختلف یادگیری را فراهم می‏کند و به آسانی می‏توان آنها را به مجموعه های داده خود اعمال کرد.

همچنین، این نرمافزار شامل مجموعه متنوعی از ابزارهای تبدیل مجموعه‏های داده‏ها، همانند الگوریتم‏های گسسته سازی [10] می‏باشد. در این محیط می‏توان یک مجموعه داده را پیش پردازش کرد، آن را به یک طرح یادگیری وارد نمود، و دستهبندی حاصله و کارآییاش را مورد تحلیل قرار داد. (همه این کارها، بدون نیاز به نوشتن هیچ قطعه برنامهای میسر است.)

این محیط، شامل روش‏هایی برای همه مسایل استاندارد داده کاوی مانند رگرسیون، رده‏بندی، خوشهبندی، کاوش قواعد انجمنی و انتخاب ویژگی می‏باشد. با در نظر گرفتن اینکه، داده‏ها بخش مکمل کار هستند، بسیاری از ابزارهای پیش پردازش داده‏ها و مصورسازی آنها فراهم گشته است. همه الگوریتم‏ها، ورودی‏های خود را به صورت یک جدول رابطهای [11] به فرمت ARFF دریافت می‏کنند. این فرمت داده‏ها، می‏تواند از یک فایل خوانده شده یا به وسیله یک درخواست از پایگاه دادهای تولید گردد.

یکی از راه‏های به کارگیری Weka ، اعمال یک روش یادگیری به یک مجموعه داده و تحلیل خروجی آن برای شناخت چیزهای بیشتری راجع به آن اطلاعات می‏باشد. راه دیگر استفاده از مدل یادگیری شده برای تولید پیش‏بینی‏هایی در مورد نمونه‏های جدید است. سومین راه، اعمال یادگیرنده‏های مختلف و مقایسه کارآیی آنها به منظور انتخاب یکی از آنها برای تخمین می‏باشد. روش‏های یادگیری Classifier نامیده می‏شوند و در واسط تعاملی [12] Weka ، می‏توان هر یک از آنها را از منو [13] انتخاب نمود. بسیاری از classifier ‏ها پارامترهای قابل تنظیم دارند که می‏توان از طریق صفحه ویژگی‏‏ها یا object editor به آنها دسترسی داشت. یک واحد ارزیابی مشترک، برای اندازه‏گیری کارآیی همه classifier به کار می‏رود.

پیاده سازی‏های چارچوب‏های یادگیری واقعی، منابع بسیار ارزشمندی هستند که Weka فراهم می‏کند. ابزارهایی که برای پیش پردازش داده‏ها استفاده می‏شوند. filter نامیده می‏شوند. همانند classifier ‏ها، می‏توان filter ‏ها را از منوی مربوطه انتخاب کرده و آنها را با نیازمندی‏های خود، سازگار نمود. در ادامه، به روش به کارگیری فیلترها اشاره می‏شود.

علاوه بر موارد فوق، Weka شامل پیاده سازی الگوریتم‏هایی برای یادگیری قواعد انجمنی، خوشهبندی داده‏ها در جایی که هیچ دستهای تعریف نشده است، و انتخاب ویژگی‏های مرتبط [14] در داده‏ها می‏شود.

2- روش استفاده از Weka

شکل 1،‌ راههای انتخاب واسطهای مختلف Weka را نشان میدهد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

آسانترین راه استفاده از Weka ، از طریق واسطی گرافیکی است که Explorer خوانده می‏شود. این واسط گرافیکی، به وسیله انتخاب منوها و پر کردن فرم‏های مربوطه، دسترسی به همه امکانات را فراهم کرده است. برای مثال، می‏توان به سرعت یک مجموعه داده را از یک فایل ARFF خواند و درخت تصمیم‏گیری آن را تولید نمود. امادرخت‏های تصمیم‏گیری یادگیرنده صرفاً ابتدای کار هستند. الگوریتم‏های بسیار دیگری برای جستجو وجود دارند. واسط Explorer کمک می‏کند تا الگوریتم‏های دیگر نیز آزمایش شوند.

AWT IMAGE

شکل 1. Weka در وضعیت انتخاب واسط

این واسط با در اختیار گذاشتن گزینه‏ها به صورت منو، با وادار کردن کاربر به اجرای کارها با ترتیب صحیح، به وسیله خاکستری نمودن گزینه‏ها تا زمان صحیح به کارگیری آنها، و با در اختیار گذاشتن گزینه‏هایی به صورت فرم‏های پرشدنی، کاربر را هدایت می‏کند. راهنمای ابزار مفیدی، حین عبور ماوس از روی گزینه‏ها، ظاهر شده و اعمال لازم مربوطه را شرح می‏دهد. پیشفرض‏های معقول قرار داده شده، کاربر را قادر می‏سازند تا با کمترین تلاشی، به نتیجه برسد. اما کاربر باید برای درک معنی نتایج حاصله، راجع به کارهایی که انجام می‏دهد، بیندیشد.

Weka دو واسط گرافیکی دیگر نیز دارد. واسط knowledge flow به کاربر امکان می‏دهد تا چنیش‏هایی برای پردازش داده‏های در جریان، طراحی کند. یک عیب پایهای Explorer . نگهداری هر چیزی در حافظه اصلی آن است. (زمانی که یک مجموعه داده را باز می‏کنیم، Explorer ، کل آن را، در حافظ باز می‏کند) نشان می‏دهد که Explorer ، صرفاً برای مسایل با اندازه‏های کوچک تا متوسط، قابل اعمال است. با وجود بر این Weka شامل تعدادی الگوریتم‏های افزایشی است که می‏تواند برای پردازش مجموعه های داده بسیار بزرگ مورد استفاده قرار گیرد. واسط knowledge flow امکان می‏دهد تا جعبه [15] ‏های نمایانگر الگوریتم‏های یادگیری و منابع داده‏ها را به درون صفحه بکشیم و با اتصال آنها به یکدیگر، ترکیب و چینش دلخواه خود را بسازیم. این واسط اجازه می‏دهد تا جریان دادهای از مؤلفه‏های به هم متصل که بیانگر منابع داده، ابزارهای پیش پردازش، روش‏های ارزیابی و واحدهای مصوّر سازی هستند تعریف شود. اگر فیلترها و الگوریتمهای یادگیری، قابلیت یادگیری افزایشی را داشته باشند، داده‏ها به صورت افزایشی بار شده و پردازش خواهند شد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

سومین واسط Weka ، که Experimenter خوانده می‏شود، کمک می‏کند تا به این سؤال عملی و پایهای کاربر حین استفاده از تکنیک‏های رده‏بندی و رگرسیون، پاسخ دهد: "چه روش‏ها و پارامترهایی برای مسأله داده شده، بهتر عمل می‏کنند؟"

عموماً راهی برای پاسخگویی مقدماتی به این سؤال وجود ندارد و یکی از دلایل توسعه Weka ، فراهم نمودن محیطی است که کاربران Weka را قادر به مقایسه تکنیک‏های گوناگون یادگیری بنماید. این کار، می‏تواند به صورت تعاملی در Explorer انجام شود. با این وجود، Experimenter با ساده کردن اجرای رده‏بندی کننده‏ها و فیلترها با پارامترهای گوناگون روی تعدادی از مجموعه‏های داده، جمعآوری آمار کارآیی و انجام آزمایش‏های معنا، پردازش را خودکار می‏کند. کاربرهای پیشرفته، می‏توانند از Experimenter برای توزیع بار محاسباتی بین چندین ماشین، استفاده کنند. در این روش، می‏توان آزمایش‏های آماری بزرگی را راهاندازی نموده و آنها را برای اجرا، رها نمود.

ورای این واسط‏های تعاملی، عملکرد پایهای Weka قرار دارد. توابع پایهای Weka ، از طریق خط فرمان [16] ‏های متنی قابل دسترسی هستند. زمانی که Weka ، فعال می‏شود، امکان انتخاب بین چهار واسط کاربری وجود دارد: Explorer ، knowledge ، Experimenter و واسط خط فرمان.

اکثر کاربران، حداقل در ابتدای کار Explorer را به عنوان واسط کاربری انتخاب می‏کنند.

3. قابلیتهای Weka

مستندسازی در لحظه، که به صورت خودکار از کد اصلی تولید می‏شود و دقیقاً ساختار آن را بیان می‏کند، قابلیت مهمی است که حین استفاده از Weka وجوددارد.

نحوه استفاده از این مستندات و چگونگی تعیین پایه‏های ساختمانی اصلی Weka ، مشخص کردن بخش‏هایی که از روش‏های یادگیری با سرپرست استفاده می‏کند، ابزاری برای پیش پردازش داده‏ها بکار می‏رود و اینکه چه روش‏هایی برای سایر برنامه‏های یادگیری وجود دارد، در ادامه تشریح خواهد شد. تنها به لیست کاملی از الگوریتم‏های موجود اکتفا می‏شود زیرا Weka به طور پیوسته تکمیل می‏شود و به طور خودکار از کد اصلی تولید می‏شود. مستندات در لحظه همیشه به هنگام شده می‏باشد. اگر ادامه دادن به مراحل بعدی و دسترسی به کتابخانه از برنامه جاوا شخصی یا نوشتن و آزمایش کردن برنامه‏های یادگیری شخصی مورد نیاز باشد، این ویژگی بسیار حیاتی خواهد بود.

در اغلب برنامه‏های کاربردی داده کاوی، جزء یادگیری ماشینی، بخش کوچکی از سیستم نرمافزاری نسبتاً بزرگی را شامل می‏شود. در صورتی که نوشتن برنامه کاربردی داده کاوی مد نظر باشد، می‏توان با برنامهنویسی اندکی به برنامه‏های Weka از داخل کد شخصی دسترسی داشت. اگر پیدا کردن مهارت در الگوریتم‏های یادگیری ماشینی مدنظر باشد، اجرای الگوریتم‏های شخصی بدون درگیر جزییات دست و پا گیر شدن مثل خواندن اطلاعات از یک فایل، اجرای الگوریتم‏های فیلترینگ یا تهیه کد برای ارزیابی نتایج یکی از خواسته‏ها می‏باشد. Weka دارای همه این مزیت‏ها است. برای استفاده کامل از این ویژگی، باید با ساختارهای پایهای داده‏ها آشنا شد.

4. دریافت Weka

نرم افزار Weka ، در آدرس http://www.cs.waikato.ac.nz/me/weka ، در دسترس است. از این طریق می‏توان نصب کننده [17] متناسب با یک پلت فرم معین، یا یک فایل Java jar را که در صورت نصب بودن جاوا به راحتی قابل اجرا است، دانلود [18] نمود.

5. مروری بر Explorer

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

واسط گرافیکی اصلی برای کاربران،‌ Explorer است که امکان دسترسی به همه امکانات Weka را از طریق انتخاب منوها و پر کردن فرمها فراهم میآورد. شکل 2،‌ نمای Explorer ‌ را نشان میدهد. در این واسط، شش پانل [19] مختلف وجود دارد که از طریق نوار [20] بالای صفحه قابل انتخاب هستند و با وظایف [21] داده کاوی پشتیبانی شده توسط Weka ‌ متناظر میباشند.

AWT IMAGE

شکل 2. واسط گرافیکی Explorer

دو گزینه از شش گزینه بالای پنجره Explorer در شکل های 3 و 4 به طور خلاصه تشریح شده است.

به طور خلاصه، کارکرد تمام گزینه‏ها به شرح ذیل است.

Preprocess : انتخاب مجموعه داده و اصلاح [22] آن از راه‏های گوناگون

Classify : آموزش [23] برنامه‏های یادگیری که رده‏بندی یا رگرسیون انجام می‏دهند و ارزیابی آنها.

Cluster : یادگیری خوشه‏ها برای مجموعه های داده

Associate : یادگیری قواعد انجمنی برای داده‏ها و ارزیابی آنها

Select attributes : انتخاب مرتبطترین جنبه [24] ها در مجموعه های داده

Visualize : مشاهده نمودارهای مختلف دوبعدی داده‏ها و تعامل با آنها

AWT IMAGE

شکل 3. خواندن فایل داده های آب و هوا

Weka Exphorer امکان رده بندی دارد، چنانچه به کاربران اجازه می‏دهد به صورت تعاملی اقدام به ساخت درخت تصمیم‏گیری کنند. Weka نمودار پراکندگی داده‏ها را نسبت به دو ویژگی انتخاب شده، فراهم می‏آورد. وقتی زوج ویژگیای که رده‏ها را به خوبی جدا می‏کند، پیدا شد، امکان ایجاد دو شاخه با کشیدن چند ضلعی اطراف نقاط داده‏ها بر نمودار پراکندگی وجود دارد.

AWT IMAGE

شکل 4. نوار Classify

هر نوار، دسترسی به دامنه کاملی از امکانات را فراهم میکند. در پایین هر پانل، جعبه status و دکمه log قرار دارد. جعبه status پیغام‏هایی است که نشان می‏دهد چه عملیاتی در حال انجام داده شدن است. مثلاً اگر Explores مشغول خواندن یک فایل باشد، جعبه status آن را گزارش می‏دهد. کلیک راست در هر جا داخل این جعبه یک منو کوچک با دو گزینه می‏آورد، نمایش میزان حافظه در دسترس Weka و اجرای Java garbage collector ..

لازم است توجه شود که garbage collector به طور ثابت به عنوان یک عمل پیش زمینه [25] در هر حال اجرا می‏شود کلیک دکمه log ، گزارش عملکرد متنی کارهایی که Weka تاکنون در این بخش انجام داده است با برچسب زمانی ارایه می‏کند.

زمانیکه Weka در حال عملیات است، پرنده کوچکی که در پایین سمت راست پنجره است، بالا و پایین می‏پرد. عدد پشت × نشان می‏دهد که به طور همزمان چند عملیات در حال انجام است. اگر پرنده بایستد در حالیکه حرکت نمی‏کند، او مریض است! اشتباه رخ داده است و باید Explorer از نو اجرا شود.

1. خواندن و فیلتر کردن فایل‏ها

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

در بالای پانل Preprocess در شکل 3، دکمه‏هایی برای باز کردن فایل، URL ‏ها و پایگاه های داده‏ وجود دارد. در ابتدا تنها فایل‏های با پسوند arff . در browser فایل نمایش داده می‏شود. برای دیدن سایر فایل‏ها یاید گزینه [26] Format در جعبه انتخاب فایل تغییر داده شود.

2. تبدیل فایل‏ها به فرمت ARFF

نرم افزار Weka دارای سه مبدل فرمت فایل [27] می‏باشد، برای فایل‏های صفحه گسترده [28] با پسوند CSV ، با فرمت فایل C4.5 با پسوند names . و data و برای نمونه‏های سری با پسوند bsi .

اگر Weka قادر به خواندن داده‏ها نباشد، سعی می‏کند آن را به صورت ARFF تفسیر کند. اگر نتواند جعبه نشان داده شده در شکل 5 (الف) ظاهر می‏شود.

AWT IMAGE

(الف)

AWT IMAGE

(ب)

AWT IMAGE

(ج)

شکل 5. ویرایشگر عمومی اشیاء (الف) ویرایشگر (ب) اطلاعات بیشتر (فشردن دگمه More ) (ج) انتخاب یک مبدل

این، یک ویرایشگر عمومی [29] اشیاء است که در Weka برای انتخاب و تنظیم اشیا بکار می‏رود. به عنوان مثال وقتی پارامتری برای Classifier تنظیم می‏شود، جعبهای با نوع مشابه بکار برده می‏شود. CSV Loader برای فایل‏های با پسوند CSV . به طور پیش فرض انتخاب می‏شود. دکمه More اطلاعات بیشتری در مورد آن می‏دهد که در شکل 5 (ب) نشان داده شده است.

همیشه مطالعه مستندات [30] ارزشمنداست! در این حالت نشان می‏دهد که ردیف نخست صفحه گسترده، نام ویژگی را تعیین می‏کند. برای استفاده از این مبدل باید بر Ok کلیک شود. برای مورد مختلف لازم است بر choose کلیک شود تا از لیست شکل 5 (ج) انتخاب انجام شود.

گزینه اول، Arffloader است و فقط به دلیل ناموفق بودن به این نقطه می‏رسیم. CSVLoader پیش فرض است و در صورت نیاز به فرض دیگر، choose کلیک می‏شود. سومین گزینه، مربوط به فرمت C4.5 است که دو فایل برای مجموعه داده وجود دارد یکی اسم‏ها و دیگـری داده‏های واقعـی می‏باشد. چهارمین برای نمونه‏های سریالی [31] ، برای بازخوانی [32] مجموعه دادهای است که به صورت شیئ سریالی شده جاوا ذخیره شده است. هر شیء در جاوا می‏تواند در این شکل ذخیره و بازخوانی شود. به عنوان یک فرمت بومی جاوا [33] ، سریعتر از فایل ARFF خوانده می‏شود چرا که فایل ARFF باید تجزیه [34] و کنترل شود. وقتی یک مجموعه داده بزرگ مکررا بازخوانی می‏شود، ذخیره آن در این شکل سودمند است.

ویژگی‏های دیگر ویرایشگر عمومی اشیا در شکل 5 (الف)، save و open است که به ترتیب برای ذخیره اشیای تنظیم شده و بازکردن شیئی که پیش از این ذخیره شده است، به کار میرود. اینها برای این نوع خاص شیئ مفید نیستند. لکن پانل‏های دیگر ویرایشگر عمومی اشیاء، خواص قابل ویرایش زیادی دارند. به دلیل مشکلاتی که ممکن است حین تنظیم مجدد آنها رخ دهد، می‏توان ترکیب اشیاء ایجاد شده را برای استفاده‏های بعدی، ذخیره کرد.

تنها منبع [35] مجموعه‏های داده برای Weka ، فایل‏های موجود روی کامپیوتر نیستند. می‏توان یک URL را باز کرد تا Weka از پروتکل HTTP برای دانلود کردن یک فایل Arff از شبکه استفاده کند. همچنین می‏توان یک پایگاه داده‏ها را باز نمود ( open DB ـ هر پایگاه دادهای که درایور اتصال به مجموعه های داده به زبان جاوا JDBC را دارد.) و به وسیله دستور select زبان SQL ، نمونه‏‏ها را بازیابی نمود. داده‏ها می‏توانند به کمک دگمه save به همه فرمت‏های ذکر شده، ذخیره شوند. جدای از بحث بارگذاری و ذخیره مجموعه‏های داده، پانل preprocess به کاربر اجازه فیلتر کردن داده‏ها را می‏دهد. فیلترها، اجزای مهم Weka هستند.

3. بکارگیری فیلترها

با کلیک دگمه choose (گوشه بالا و سمت چپ) در شکل 3 می‏توان به لیستی از فیلترها دست یافت. می‏توان از فیلترها برای حذف ویژگی‏های مورد نظری از یک مجموعه داده و انتخاب دستی ویژگی‏‏ها استفاده نمود. مشابه این نتیجه را می‏توان به کمک انتخاب ویژگی‏های مورد نظر با تیک زدن آنها و فشار دادن کلیه Remove به دست آورد.

4. الگوریتم‏های یادگیری

زمانی که یک الگوریتم یادگیری با استفاده از دگمه choose در پانل classify انتخاب می‏شود، نسخه خط فرمانی رده بند در سطری نزدیک به دگمه ظاهر می‏گردد. این خط فرمان شامل پارامترهای الگوریتم است که با خط تیره مشخص می‏شوند. برای تغییر آنها می‏توان روی آن خط کلیک نمود تا ویرایشگر مناسب شیء، باز شود. جدول شکل 6، لیست اسامی رده بندهای Weka را نمایش می‏دهد. این الگوریتم‏ها به رده بندهای Bayesian ، trees ، functions rules ، lazy و دسته نهایی شامل روش‏های متفرقه تقسیم شدهاند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

4-1. Trees

Decision stump که برای استفاده توسط روش‏های boosting طراحی شده است، برای مجموعه‏های داده عددی یا ردهای، درخت تصمیم‏گیری یک سطحی می‏سازد. این الگوریتم، با مقادیر از دست رفته، به صورت مقادیر مجزا برخورد کرده و شاخه سومی از درخت توسعه می‏دهد.

4-2. Rules

Decision Table یک رده بند بر اساس اکثریت جدول تصمیم‏گیری می‏سازد. این الگوریتم، با استفاده از جستجوی اولین بهترین، زیر دسته‏های ویژگی‏‏ها را ارزیابی می‏کند و می‏تواند از اعتبارسنجی تقاطعی برای ارزیابی بهره ببرد (1995، Kohavi ).

یک امکان این است که به جای استفاده از اکثریت جدول تصمیم‏گیری که بر اساس دسته ویژگی‏های مشابه عمل می‏کند، از روش نزدیکترین همسایه برای تعیین رده هر یک از نمونه‏ها که توسط مدخل [36] جدول تصمیم‏گیری پوشش داده نشدهاند، استفاده شود.

Conjunctive Rule قاعدهای را یاد می‏گیرد که مقادیر رده‏های عددی را ردهای را پیش‏بینی می‏کند. نمونه‏های آزمایشی به مقادیر پیش فرض رده نمونه‏های آموزشی، منسوب می‏شوند. سپس تقویت اطلاعات (برای رده‏های رسمی)، یا کاهش واریانس (برای ردههای عددی) مربوط به هر والد محاسبه شده و به روش هرس کردن با خطای کاهش یافته [37] ، قواعد هرس می‏شوند.

ZeroR برای رده‏های اسمی، اکثریت داده‏های مورد آزمایش و برای رده‏های عددی، میانگین آنها را پیش‏بینی می‏کند. این الگوریتم بسیار ساده است.

M5Rules ، به کمک M5 از روی درخت‏های مدل، قواعد رگرسیون استخراج می‏کند.

AWT IMAGE

شکل 6.الف. الگوریتمهای رده بندی در Weka

AWT IMAGE

شکل 6.ب. الگوریتمهای رده بندی در Weka

در این بخش به شرح مختصری برخی از این الگوریتمها و پارامترهایشان که قابلیت کار با ویژگی های عددی را دارند، پرداخته می‏شود.

4-3. Functions

Simple Linear Regresion مدل رگرسیون خطی یک ویژگی مشخص را یاد می‏گیرد. آنگاه مدل با کمترین خطای مربعات را انتخاب می‏کند. در این الگوریتم، مقادیر از دست رفته و مقادیر غیرعددی مجاز نیستند [38] .

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

Linear Regression رگرسیون خطی استاندارد کمترین خطای مربعات را انجام می‏دهد می‏تواند به طور اختیاری به انتخاب ویژگی بپردازد، این کار می‏تواند به صورت حریصانه [39] با حذف عقب رونده [40] انجام شود، یا با ساختن یک مدل کامل از همه ویژگی‏‏ها و حذف یکی یکی جمله‏ها با ترتیب نزولی ضرایب استاندارد شده آنها، تا رسیدن به شرط توقف مطلوب انجام گیرد.

Least Med sq یک روش رگرسیون خطی مقاوم است که میانه [41] (به جای میانگین [42] ) مربعات انحراف از خط رگرسیون را کمینه می‏کند. این روش به طور مکرر رگرسیون خطی استاندارد را به زیرمجموعه‏هایی از نمونه‏ها اعمال می‏کند و نتایجی را بیرون می‏دهد که کمترین خطای مربع میانه را دارند.

SMO teg الگوریتم بهینه سازی حداقل ترتیبی را روی مسایل رگرسیون اعمال می‏کند. ( Scholkopf, 1998 ، Smola )

Pace Regression ، با استفاده از تکنیک رگرسیون pace ، مدل‏های رگرسیون خطی تولید می‏کند (2002 ، Wang و Witten ). رگرسیون pace ، زمانی که تعداد ویژگی‏‏ها خیلی زیاد است، به طور ویژهای در تعیین ویژگی‏‏هایی که باید صرف‏نظر شوند، خوب عمل می‏کند. در واقع در صورت وجود نظم و ترتیب خاصی، ثابت می‏شود که با بینهایت شدن تعداد ویژگی‏‏ها، الگوریتم بهینه عمل می‏کند.

RBF Network ، یک شبکه با تابع پایهای گوسی شعاعی را پیاده سازی می‏کند. مراکز و عرض‏های واحدهای مخفی به وسیله روش میانگین K [43] تعیین می‏شود. سپس خروجی‏های فراهم شده از لایه‏های مخفی [44] ، با استفاده از رگرسیون منطقی در مورد رده‏های اسمی و رگرسیون خطی در مورد رده‏های عددی، با یکدیگر ترکیب می‏شوند. فعال سازی‏های توابع پایه پیش از ورود به مدل‏های خطی، با جمع شدن با عدد یک، نرمالیزه می‏شوند. در این الگوریتم می‏توان، K تعداد خوشه‏ها، بیشترین تعداد تکرارهای رگرسیون‏های منطقی برای مسأله‏های رده‏های رسمی، حداقل انحراف معیار خوشه‏ها، و مقدار بیشینه رگرسیون را تعیین نمود. اگر رده‏ها رسمی باشد، میانگین K به طور جداگانه به هر رده اعمال می‏شود تا K خوشه مورد نظر برای هر رده استخراج گردد.

4-4. رده بندهای Lazy

یادیگرنده‏های lazy نمونه‏های آموزشی را ذخیره می‏کنند و تا زمان رده بندی هیچ کار واقعی انجام نمی‏دهند.

IB1 یک یادگیرنده ابتدایی بر پایه نمونه است که نزدیکترین نمونه‏های آموزشی به نمونه‏های آزمایشی داده شده را از نظر فاصله اقلیدسی پیدا کرده و نزدیکترین ردهای مشابه رده همان نمونه‏های آموزشی را تخمین می‏زند.

IBK یک رده بند با K همسایه نزدیک است که معیار فاصله ذکر شده را استفاده می‏کند. تعداد نزدیکترین فاصله‏ها (پیش فرض 1= K ) می‏تواند به طور صریح در ویرایشگر شیء تعیف شود. پیش‏بینی‏های متعلق به پیش از یک همسایه می‏تواند بر اساس فاصله آنها تا نمونه‏های آزمایشی، وزندار گردد.

دو فرمول متفاوت برای تبدیل فاصله به وزن، پیاده سازی شدهاند. تعداد نمونههای آموزشی که به وسیله رده بند نگهداری می‏شود، می‏تواند با تنظیم گزینه اندازه پنجره محدود گردد. زمانی که نمونه‏های جدید اضافه می‏شوند، نمونه‏های قدیمی حذف شده تا تعداد کل نمونه‏های آموزشی در اندازه تعیین شده باقی بماند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

Kstar ، یک روش نزدیکترین همسایه است که از تابع فاصلهای عمومی شده بر اساس تبدیلات استفاده می‏کند.
LWL یک الگوریتم کلی برای یادگیری وزن دار شده به صورت محلی است. این الگوریتم با استفاده از یک روش بر پایه نمونه، وزن‏ها را نسبت می‏دهد و از روی نمونه‏های وزندار شده، رده بند را می‏سازد. رده بند در ویرایشگر شیء LWL انتخاب می‏شود. Nave Bayes برای مسایل رده بندی و رگرسیون خطی برای مسایل رگرسیون، انتخاب‏های خوبی هستند. می‏توان در این الگوریتم، تعداد همسایه‏های مورد استفاده را که پهنای باند هسته و شکل هسته مورد استفاده برای وزن دار کردن را (خطی، معکوس، یا گوسی) مشخص می‏کند، تعیین نمود. نرمال سازی ویژگی‏‏ها به طور پیش فرض فعال است[ Data Mining, witten et Al. 2005 ]. نرمافزار داده کاوی Weka

پروژه چهارشنبه 14 تیر 1396 ساعت 17:43

0 نظر

انجام پروژه مدل سازی شبکه عصبی مصنوعی ANN

نجام پروژه های تحقیقاتی و تجزیه تحلیل داده های پایان نامه (فصل 4 پایان نامه) برای رشته های علوم انسانی، علوم اجتماعی، مدیریت ، فنی مهندسی، پزشکی، روانشناسی، جامعه شناسی، اقتصاد، حسابداری، صنایع، فناوری اطلاعات، کامپیوتر و دیگر رشته ها در حوزه های ذیل:

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

آموزش نرم افزارهای Enterprise Dynamics, Showflow ، Vensim تجزیه و تحلیل آماری پایان نامه، تحقیقات میدانی و پرسشنامه ای با استفاده از نرم افزار SPSS و Lisrel ارائه تحلیل های اقتصاد سنجی، تحلیل های سری زمانی و داده های پانل Panel Data با استفاده از نرم افزار EViews و Microfit بررسی و تحلیل کارایی و بهره وری از طریق تحلیل پوششی داده ها DEA ب طراحی سیستمهای استنتاج فازی (منطق فازی) Fuzzy Logic، عصبی طراحی سیستمهای خبره Expert Systems تحت shell با استفاده از نرم افزارهای VP - مدل سازی بوسیله شبکه های عصبی مصنوعی ANN و الگوریتم ژنتیک GA SS، Weka، Clementine، FIS MATLAB ،ANFIS، VP - expert ارائه مشاوره در خصوص

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

فصول پایان نامه جهت تکمیل تحقیق و آگاهی از چگونگی تحلیل داده ها و نتایج حاصله برای ارائه کار به استاد راهنما و راهنمایی برای آمادگی در جلسه دفاع پایان نامه کیفیت پشتیبانی و خدمات پس از فروش، پیگیری اصلاحات و آرامش در پایان نامه را با ما تجربه کنید. هزینه پستی ارسال پرسشنامه ، به شما پرداخت خواهد شد. دانشجویان دانشگاه آزاد اسلامی و غیر انتفاعی از تخفیف ویژه برخوردار می باشند. ارائه تخفیف در صورت معرفی به دوستان راهنمایی جهت تسریع در اتمام پایان نامه - - - - -

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

azsoftir.com 09367292276

پروژه چهارشنبه 14 تیر 1396 ساعت 17:41

0 نظر

بررسی الگوریتم های انجام پایان نامه یادگیری ماشین به کمک نرم افزار WEKA

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

چکیده:

انجام پایان نامه داده کاوی، تبدیل حجم بالای داده به الگوهای و قوانین قابل فهم است. هدف داده کاوی، ساخت مدلی مفهومی است که درک و تفسیر داده های حاضر را فراهم نموده و حتی امکان پیش بینی داده های آینده را نیز در اختیار ما قرار می دهد. داده کاوی و Big Data مباحث مهمی هستند که امروزه مورد توجه بحث بسیاری از محققان است. نرم افزار WEKA مجموعه ای از الگوریتم های یادگیری ماشین در فرآیند انجام پایان نامه ارشد داده کاوی است. این الگوریتم ها می توانند به صورت مستقیم به مجموعه داده اعمال شده و یا از طریق زبان برنامه نویسی جاوا اجرا شوند. WEKA شامل مجموعه ابزار های پیش پردازش داده، طبقه بندی، رگرسیون، خوشه بندی، قوانین ارتباطی و مشاهده داده است که قابلیت اعمال بر روی مجموعه داده های بزرگ را نیز داراست. به دلیل وجود واسط گرافیکی مناسب، این نرم افزار جایگاه ویژه ای در تحقیقات مرتبط با داده کاوی پیدا نموده است.

هرزنامه که معمولا تبلیغاتی هستند، ویژگی‌های مشابهی دارند. مثلا آنهایی که محصولی را تبلیغ می‌کنند از قیمت آن حرف می‌زنند و یا می‌گویند که فرصت‌تان چقدر استثنایی است. حتی رنگارنگ بودن بخش‌های نوشته می‌تواند نشان از بی‌ارزش بودن آن باشد. از آنجایی که این نشانه‌های قطعی نیستند و ما هم در ایمیل‌هایی که برای هم می‌فرستیم ممکن است مثلا از قیمت حرف بزنیم، نمی‌توانیم با چند قانون ساده هرزنامه‌ها را جدا کنیم. این‌جور مواقع سعی می‌کنیم از روی مجموعه هرزنامه‌های موجود یاد بگیریم که هرزنامه‌ها چه ویژگی‌هایی دارند.
مقدمه

با افزایش حجم اطلاعات در همه ی زمینه ها ٬ وابستگی مردم جهان به خدمات و اطلاعات موجود در وب سایتها افزایش یافته است. برای مثال ٬ پیام های الکترونیکی که به عنوان سریعترین و اقتصادی ترین راه برقراری ارتباط بین افراد هستند.
متاسفانه در میان این خدمات کاربران با یکسری پیام ها ی ناخواسته ای که حتی به علایق و حیطه ی کاری آنان مرتبط نیستند و حاوی مطالب پوچ ٬ غیر اخلاقی یا حتی مخرب هستن مواجه می شوند که از اهداف این هرزنامه نویسان انجام کارهای مخرب ٬ سرقت های رایانه ای و سوء استفاده از اطلاعات محرمانه ی افراد فریب خورده می توان یاد کرد.
کارهای مرتبط

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

- انواع الگوریتم های تشخیص و توقیف هرزنامه:

امروزه الگوریتم های زیادی جهت تشخیص انواع هرزنامه ها وجود دارد. در این قسمت معرفی اجمالی بر چند روش که تا کنون به کار برده شده است خواهم پرداخت.

تشخیص بر اساس محتوا و کلمات:

این روش ساده ترین و رایج ترین راه برای شناسایی هرزنامه ها می باشد. اگر محتوای نامه های الکترونیکی و یا محتوای اجزای تشکیل دهنده ی وب سایت مانند عنوان ٬ فرا تگ ٬ لینک های موجود در صفحه و URL شامل کلمات خاصی باشند ٬ به عنوان هرزنامه شناسایی می شوند. هرزنامه نویسان اغلب از عبارات خاص و جذاب برای جلب توجه کاربران در نامه ی الکترونیکی یا وب سایت استفاده می کنند . کلماتی مانند free, Buy-Now, cheap, Satisfy-Me, Sex, Winner و..به همین دلیل هرزنامه نویسان کلمات مورد استفاده ی خود را دایم به شیوه های مختلف تغییر می دهند این تغییر مکرر باعث کاهش دقت می شود. برای رفع این مشکل به پایگاه داده بزرگتری جهت پوشش کلمات گوناگون نیاز داریم که جستجو و پردازش در این پایگاه داده باعث افزایش پیچیدگی زمانی می شود . از طرفی احتمال از دست رفتن نامه های الکترونیکی و یا وب سایت های واقعی و قانونی به علت استفاده ی مشروع از این کلمات نیز بالا می رود.

تشخیص بر اساس رفتار هرزنامه:

در ارسال نامه های الکترونیکی بعضی از اطلاعات فیلدهای سرایند توسط فرستنده پر می شود و برخی دیگر به صورت خودکار توسط MTA تکمیل می شوند.
MTA بر اساس اطلاعات سرایند نامه ی الکترونیکی را به گیرنده تحویل می دهد و سپس این عمل تحویل را در فایل syslog ثبت می نماید.
اطلاعات syslog به صورت خودکار فقط توسط MTA پر می شوند و فرستنده اجازه ی هیچ گونه تغییر در آن ها را ندارند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

هرزنامه نویسان برای فریب دادن ضد هرزنامه ها از اطلاعات غیر معتبر و نامربوط در فایل سرایند نامه ی الکترونیکی استفاده می کنند بدین سببب
در این روش اطلاعات فیلدها مانند: From, To, Date, Deliver-to, Received, Reteurn-Path بررسی می شوند و در صورت غیر معتبر یا نامربط بودن هر کدام از اطلاعات فیلدهای فایل سرایند درجه ی هرزنامه بودن نامه الکترونیکی را بالا می برد.

منظور از غیر معتبر بودن این است که هرزنامه نویس در فیلدهای مورد نظر اطلاعات نادرست وارد کند مثلا قسمت From را با آدرس نامشخص که به صورت تصادفی تولید شده است یا با آدرس های جعلی پر کند.

اطلاعات فیلدهای فایل سرایند را به تنهایی از نظر اعتبار و صحت و قالب بندی می سنجند و نیز این اطلاعات را با اطلاعات فیلدهای همتایشان در فایل syslog از نظر سازگاری داشتن با هم مقایسه می کنند.منظور از همتا بودن این است که آن از دسته از فیلدهایی که از نظر جنس اطلاعات یکسان باشند با هم مقایسه می شوند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

مقایسه و تعیین صحت این فایل ها بر اساساس قوانینی تعریف شده است ؛ که این قوانین تا حدی همه ی حالاتی که برای سنجش فیلد ها نیازمند است را تحت پوشش می دهد.و به ۲ بخش تقسیم شده اند: یک بخش برای سنجش فیلدهای هر کدام از فایل ها(سرایند و syslog) و بخش دیگر برای مقایسه هر فیلد از فایل سرایند با فایل sysylog ٬ این قوانین مواردی مانند تهی ٬ جعلی ٬ تصادفی و در قالب درست بودن فیلدهای ادرس و قالب ٬ زمان(اداری یا غیر اداری) فیلد تاریخ(Date) را شامل می شوند همچنین فیلدهایی که قرار است دو به دو با هم مقایسه شوند از نظر اینکه آیا دو فیلد در یک قالب درست آدرس یا زمان هستند؟مثلا اطلاعات فیلد FROM از فایل سرایند با اطلاعات فیلد FROM از فایل syslog در یک نامه الکترونیکی باید یکسان باشند.

روش پیشنهادی:

روش مورد استفاده در این بخش شامل مراحل زیر می باشد:

۱)حذف کلمات بی ارزش

۲)ریشه یابی کلمات

۳)استخراج ویژگی ها

۴)کاهش ویژگی ها

۵)ساخت مدل

۱- حذف کلمات بی ارزش:

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

در ابتدا به منظور آزمایش روش پیشنهادی از پایگاه های اطلاعاتی استاندارد در زمینه تشخیص هرزنامه (enorm) استفاده می کنیم که شامل نامه های الکترونیک عادی و هرزنامه می باشد. داده های مورد بررسی ما داده های مورد استفاده در مقاله های معتبر علمی می باشد که در چند سال اخیر چاپ شده است. ما در ابتدا سعی بر آن داریم تا با انجام روش های متفاوت کلمات بی ارزش (and,the,or,in,…) را از متن نامه ها حذف کنیم.

۲- ریشه یابی کلمات:

بعد از حذف کلمات بی ارزش کلمات باقی مانده را ریشه یابی می کنیم و هدف این است که کلماتی که ریشه یکسانی دارند را یکسان در نظر بگیریم برای این منظور ما از الگوریتم های stemming استفاده می کنیم.

۳- استخراج ویژگی:

در مرحله بعد می خواهیم ویژگی های موجود در متن را پیدا کنیم و برداری از ویژگی ها را تشکیل می دهیم. این بردار به این صورت ساخته می شود که بعد آن برابر با تعداد ویژگی های استخراج شده می باشد و اگر نامه الکترونیکی مربوطه ویژگی مورد نظر را داشته باشد مقدار آن ویژگی برابر با مقدار پشتیبان و در غیر این صورت مقدار ۰ را برای آن ویژگی در بردار قرار می دهیم.

برای این منظور از الگوهای تکراری در کل متن استفاده می کنیم. الگوهای تکراری به گونه ایی یافت می شود که تعداد تکرار در کل نامه های الکترونیکی از یک درصد تعیین شده بیشتر باشد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

الگوی تکراری:

الگوی <SB<sb1,sb2,…,sbm در دنباله S نمونه ای از الگوی <P<e1,e2,…,en می باشد اگر و تنها اگر عبارت QRE زیر برقرار باشد:

عبارت e1 ; [-e1,e2,…,en];e2;…; [-e1,e2,…,en];en. : QRE

یک نمونه را با ۳ تایی (sidx , istart , iend) نمایش داده می شود که در آن sidx نشان دهنده شماره دنباله S در پایگاه داده اطلاعاتی می باشد و istart اندیس شروع و iend اندیس پایان زیر رشته در S می باشد . در حالت پیش فرض٬ تمامی اندیس ها از ۱ شروع می شود.

۴- کاهش ویژگی ها:

یکی از مراحل مهم در فیلتر کردن هرزنامه که تاثیر بسیار زیادی در عملکرد و افزایش سرعت تشخیص دارد انتخاب بهترین ویژگی ها از میان ویژگی های استخراج شده می باشد. زیرا ویژگی ها که شامل کلمات یا عبارات موجود در اسناد می شوند شامل هزاران ویژگی و یا حتی بیشتر هستند که این اشکال در عملکرد الگوریتم های یادگیری تاثیر منفی دارد. بنابراین نیاز به مرحله کاهش ویژگی ها داریم به طوری که ویژگی هایی که تفاوت هرزنامه و ایمیل های عادی را به درستی بیان نمی کنند حذف گردند. بنا براین باید ویژگی های مرتبط که نسبت به بقیه ی ویژگی ها قدرت دسته بندی بیشتری دارند شناسایی شوند. بنابراین در این مرحله با اعمال الگوریتم انتخاب ویژگی بر روزی بردارها بهترین ویژگی ها را استخراج می کنیم و به این ترتیب بعد بردارها نیز کاهش میابد که باعث افزایش سرعت پردازش خواهد شد.

۵- ساخت مدل:

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

در این مرحله ما می خواهیم با استفاده از ویژگی های برگزیده شده از مرحله ی قبل و اعمال الگوریتم های متفاوت طبقه بندی در داده کاوی بر روی بردارهای بدست آمده مدلی تهیه کنیم بطوری که با استفاده از آن بتوان ایمیل های هرزنامه و ایمیل های عادی را تفکیک کرد.
با استفاده از تابع (rankBM25_DocumentAtAtime_WithHeap(q,k میل هایی را که مرتبط هستند را به ترتیب ویژگی هرزنامه بودنشان را بدست می اوریم.
آزمایش‌ها

۱- مجموعه داده و ویژگی های استخراج شده:

    لینک کد قرار داده شده بر روی github:



    در این برنامه یک فایل DOCUMENT.TXT به عنوان ورودی گرفته می شود که شامل ایمیل هاست و فایل balcklist_word.txt که شامل پایگاه داده کلمات هرزنامه است.

    نمونه فایل ورودی:

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

نکات قابل توجه برای run گرفتن از کد:

    فایلی که شامل ایمیل هاست در کد به نام DOCUMENT فراخوانی می شود و هر ایمیل داخل فایل با تگ باز شروع شده و با تگ بسته تمام می شود.

    خروجی شامل ایمیل هایی است که هرزنامه تشخیص داده شده اند و به ترتیب میزان ویژگی هرزنامه بودن هر ایمیل(ایمیل های اول ویژگی هرزنامه

بودن بیشتری را دارند) نشان داده شده است.

    برای اجرای برنامه ابتدا دو تابع ()write_start_unmergefile و ()main_dictionary را اجرا کرده تا فایل های مورد نیاز ساخته شده و سپس این

دو تابع را کامنت کرده و تابع ()input_query را اجرا کرده تا خروجی را مشاهده کنید.

۲- ارزیابی کارایی مدل:

در سیستم پیشنهادی برای سنجش کارایی مدل از معیارهای Accuracy و Precision و Recall و Fmeasure استفاده شده است در زیر

خلاصه ای از مهمترین فرمول ها و معیارهای ذکر شده است:
Accuracy     Precision     Recall     Fmeasure
TP+TN / TP+FP+TN+FN     TP / FP+TP     TP / FN+TP     2Recall.Precesion / Recall+Precesion

    معیار prescision نسبت تعداد پیام هایی است که به درستی دسته بندی شده اند و از دسته های هرزنامه هستند به تعداد کل پیام های شناسایی شده به عنوان هرزنامه.

    معیار recall نسبت تعداد کل پیام های شناسایی شده به عنوان هرزنامه به تعدا د کل پیام هایی است که واقعا جزء دسته هرزنامه ها می باشند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

    معیار accuracy نسبت تعداد هرزنامه ها و ایمیل های درست تشخیص داده شده به تعداد کل هرزنامه ها و ایمیل هایی که وجود دارند.

    معیار fmeasure ترکیبی از recall و precision است.

در ادامه , برای بررسی دقت عملکرد روش پیشنهادی , از معیارهای بالا بر روی یک نمونه پایگاه داده اطلاعاتی استفاده می شود:

    نتیجه ی کد به ازای نمونه فایل ورودی DOCUMENT.txt(لینک فایل ورودی در بالا ذکر شده است):

Accuracy     Precision     Recall     Fmeasure
0.5     0.6     0.4     0.5

- استفاده از الگوریتم next phrase :
در قسمت قبلی ؛ هرزنامه ها به ترتیبی نشان داده می شدند که تکرار کلمات stop word در ان ها بیشتر است ولی همان طور که می دانیم stop word شامل جمله نیز می باشد پس باید جمله ها را نیز در نظر بگیریم بدین منظور در یک دیتابیس جمله ها را ذخیره کرده و در سندهایی که به عنوان هرزنامه تشخیص داده شدند وجود این جمله ها را نیز در ان بررسی میکنیم و در صورت و جود ان ها و تعداد تکرارشان به میل مورد نظر امتیازی اضافه می شود البته در هنگام چک کردن این نکته را نیز در نظر داریم که ممکن یکسری جملات کلماتشان یکسان نباشد ولی مفهوم یکسانی داشته باشند بدین منظور هر جمله از stop word را با الگوریتم stemming ریشه گیری کرده و کلمات اضافه را نیز از ان ها حذف میکنیم تا به صورت جامع تری عمل مقایسه انجام شود.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

کد بهینه شده با الگوریتم next phrase:

پروژه چهارشنبه 14 تیر 1396 ساعت 17:40

0 نظر

انجام پروژه های داده کاوی با نرم افزار کلمنتاین clementine12

انجام پروژه های داده کاوی با نرم افزار وکا weka
انجام پروژه های داده کاوی با نرم افزار وکا weka

انجام پروژه های داده کاوی با نرم افزار کلمنتاین clementine12

انجام پروژه های داده کاوی با نرم افزار رپیدماینر rapidminer

انجام پروژه های داده کاوی با نرم افزار وکا weka

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

این پروژه بروی دیتاست مربوط به کاربران که شامل 6040 رکورد کاربر است. عملیات خوشه بندی با استفاده از الگوریتم k-means انجام می دهد. روش کار بدین صورت است که ابتدا داده های مربوط به کاربران را به نرم افزار داده کاوی وکا وارد نموده، سپس داده ها را جهت افزایش دقت خوشه بندی نرمال سازی می کنیم. پس از نرمال سازی داده ها الگوریتم k-means بروی داده های نرمال شده اعمال می گردد و خروجی را در قالب یک فایل اکسل با اضافه نمودن برچسپ خوشه(Cluster) تولید می کند. ویژگی های مربوط به کاربران عبارتند از :

    کد کاربر
    جنسیت
    شغل
    کد پستی

    تحویل فایل های تهیه شده با وکا
    ارائه دیتاست خام کاربران با پسوند های .txt , .csv , .xlsx , xls
    امکان دانلود دیتاست کاربران خوشه بندی شده

[شناسایی تراکنش های موفق و ناموفق در دستگاههای خودپرداز با استفاده از الگوریتم زنبور عسل مصنوعی در Matlab]
شناسایی تراکنش های موفق و نامو ...

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

[شناسایی تراکنش های موفق و ناموفق در دستگاههای خودپرداز با استفاده از الگوریتم شبکه عصبی MLP در Rapidminer]
شناسایی تراکنش های موفق و نامو ...


[شناسایی تراکنش های موفق و ناموفق در دستگاههای خودپرداز با استفاده از الگوریتم شبکه عصبی MLP در Matlab]
شناسایی تراکنش های موفق و نامو ...


[پیش بینی بار مصرفی برق با ترکیب الگوریتم ARIME در نرم افزار SPSS]
پیش بینی بار مصرفی برق با ترکی ...


[پروژه خوشه بندی بروی متون مربوط به بیماری ها با استفاده از k-means – C#]
پروژه خوشه بندی بروی متون مربو ...


[پیش بینی بار مصرفی برق بروی داده های خوشه بندی شده با الگوریتم ARIME در نرم افزار SPSS]
پیش بینی بار مصرفی برق بروی دا ...

[شبیه سازی Spell Checker با استفاده از روشهای متن کاوی]
شبیه سازی Spell Checker با است ...


[پیاده سازی شناسایی بیماری دیابت نوع 2 با الگوریتم SVM با زبان متلب – matlab]
پیاده سازی شناسایی بیماری دیاب ...

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

[پروژه خوشه بندی بار مصرفی با وکا با استفاده از k-means - Weka]
پروژه خوشه بندی بار مصرفی با و ...


[پیاده سازی کشف تقلب در سیستم بانکداری الکترونیک با رپیدماینر – شبیه سازی مقاله isi سال 2014]
پیاده سازی کشف تقلب در سیستم ب ...


[پروژه خوشه بندی کاربران با وکا با استفاده از k-means - Weka]
پروژه خوشه بندی کاربران با وکا ...


پروژه های مرتبط :
پروژه خوشه بندی کاربران با وکا با ا ...

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

پیاده سازی کشف تقلب در سیستم بانکدا ...


پروژه خوشه بندی بار مصرفی با وکا ب ...


پیاده سازی شناسایی بیماری دیابت نوع ...


شبیه سازی Spell Checker با استفاده ...


شناسایی تراکنش های موفق و ناموفق در ...


شناسایی تراکنش های موفق و ناموفق در ...


شناسایی تراکنش های موفق و ناموفق در ...


پیش بینی بار مصرفی برق با ترکیب الگ ...


پروژه خوشه بندی بروی متون مربوط به ...

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

پروژه چهارشنبه 14 تیر 1396 ساعت 17:12

0 نظر

آنالیز آماری فصل 4 پایان نامه با نرم افزارهای پیشرفته از جمله: spss، لاس)، شبکه عصبی، شبکه عصبی فازی در

لطفاً جهت دریافت نمونه کار تماس بگیرید:
- مشاوره و مطالعات آماری در تمامی رشته ها و شاخه ها؛ شامل جمع آوری داده ها، تحلیل و پردازش اطلاعات از طریق نرم افزارهای پیشرفته آماری و ارائه نتایج در قالب گزارشات.
- آنالیز آماری فصل 4 پایان نامه با نرم افزارهای پیشرفته از جمله: spss، lisrel، AHP، Mintab، Amos، EQS ، SPLS (اسمارت پلاس)، شبکه عصبی، شبکه عصبی فازی در Matlab
- پروپوزال نویسی
- طراحی پرسشنامه
- تدوین مقاله
- مشاوره در زمینه روش شناسی تحقیق ( متدولوژی )
- مشاوره و مطالعات سری های زمانی
- انجام پروژه های داده کاوی با روشهای طبقه بندی، خوشه بندی، پیش بینی، وابستگی مؤلفه ها، شبکه عصبی و سایر الگوریتم ها با نرم افزارهای مرتبط: MATLAB، SPSS، WEKA، CLEMENTINE

پروژه چهارشنبه 14 تیر 1396 ساعت 17:06

0 نظر

انجام پروژه های داده کاوی

دسته‌ها

ابر برجسب

جدیدترین یادداشت‌ها

بایگانی

جستجو

نرم­افزار داده کاوی Weka

انجام پروژه مدل سازی شبکه عصبی مصنوعی ANN

بررسی الگوریتم های انجام پایان نامه یادگیری ماشین به کمک نرم افزار WEKA

انجام پروژه های داده کاوی با نرم افزار کلمنتاین clementine12

آنالیز آماری فصل 4 پایان نامه با نرم افزارهای پیشرفته از جمله: spss، لاس)، شبکه عصبی، شبکه عصبی فازی در

نرمافزار داده کاوی Weka