انجام پروژه های داده کاوی

انجام پروژه های داده کاوی بدر زمینه های مخار weka clementine12 spss modeler14.2 rapidminer ت کارشناسی و کارشناسی ارشد 09367292276 09367292276 azsoftir@gmail.com

انجام پروژه های داده کاوی

انجام پروژه های داده کاوی بدر زمینه های مخار weka clementine12 spss modeler14.2 rapidminer ت کارشناسی و کارشناسی ارشد 09367292276 09367292276 azsoftir@gmail.com

انجام پایان نامه مهندسی کامپیوتر


    بررسی روش‌های گردش عملیات امکان‌سنجی استقرار سیستم‌ها و روش‌های بهینه و ..... در قالب تجزیه و تحلیل و طراحی سیستم‌های جامع اطلاعاتی (Customize)
    ارائه مستندات ساختار پایگاه داده جهت توسعه و استفاده در واحد فن‌آوری اطلاعات (IT) سازمان (با رعایت استانداردهای عملیاتی لازم )
    آموزش کاربران در طی استقرار پروژه و بدون محدودیت زمانی
 مشاوره و انجام پایان نامه مهندسی کامپیوتر در متکالج (مکتب ریاضیات) – بخش تحقیقاتی گروه فناوری های راین:

انجام پایان نامه مهندسی کامپیوتر

 

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


– هوش مصنوعی، یادگیری ماشین، یادگیری ژرف، یادگیری عمیق، شبکه های عصبی، داده کاوی

– پردازش زبان های طبیعی (Natural Language Processing)
– رمزنگاری، کدگذاری، داده کاوی، رمزنگاری کوانتومی، محاسبات کوانتومی​
-Artificial Intelligence, Data Mining, Machine Learning, Deep Learning, Neural Networks, Deep Learning, Image Processing, Cryptography, Coding, etc
– هوش مصنوعی، یادگیری ماشین، یادگیری ژرف، یادگیری عمیق، شبکه های عصبی، داده کاوی، مدل مخفی مارکف
– پروژه پردازش تصویر (image processing)

– مشاوره پایان نامه پردازش زبان های طبیعی (Natural Language Processing)

– پایان نامه پردازش تصویر + پیاده سازی با متلب

– پروژه داده کاوی با rapid miner

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


– پایان نامه داده کاوی با rapid miner

– پایان نامه داده کاوی با متلب Matlab

– پروژه داده کاوی با کلمنتاین

– انجام پروژه با نرم افزار کلمنتاین

– انجام پروژه با نرم افزار Clementine
– پروژه SPSS
– پروژه سیستم عامل، پروژه پایان ترم سیستم عامل
– پروژه داده کاوی
– پروژه داده کاوی با weka

– انجام پروژه های داده کاوی با نرم افزار weka
– پروژه داده کاوی با rapid miner
– پایان نامه کاوی با weka
– پایان نامه داده کاوی با rapid miner
– پروژه داده کاوی با متلب
– شبکه های حسگر بیسیم ، امنیت شبکه های حسگر بیسیم و رمزنگار
– پروژه پایگاه داده، پروژه پایان ترم پایگاه داده، پایگاه داده پیشرفته
– انجام پایان نامه کارشناسی ارش

انجام پایان نامه مهندسی کامپیوت

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

ر و مجری پروژه های علمی، تحقیقاتی و صنعتی در زمینه کامپیوتر، فناوری اطلاعات، تکنولوژی و ریاضی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

مدل مخفی مارکوف و الگوریتمهای آموزش

 (Hidden Markov Models)

مدلهای مخفی مارکوف
معرفی

مدلهای مارکوف مخفی اولین بار در یک سری از مقالات آماری توسط Leonard E. Baum و نویسندگان دیگر در نیمه ۱۹۶۰مطرح گردید. اولین کاربرد آن در شناسایی گفتار بود که در نیمه ۱۹۷۰شروع گردید. درنیمه ۱۹۸۰برای آنالیز رشته های بیولوژیکی بخصوص DNA استفاده گردید. از آن زمان بعنوان زمینه ای از بیوانفورماتیک درنظر گرفته شد.

آندری آندرویچ مارکوف

آندری آندرویچ مارکوف٬ فارغ التحصیل دانشگاه سنت پترزبورگ در سال ۱۸۷۸ بود. وی در سال ۱۸۸۶ مدرک پروفسوری خود را دریافت کرد. کارهای زودهنگام مارکوف در تئوری اعداد٬ آنالیز٬ حدود انتگرال ها٬ همگرایی سری ها٬ دنباله کسرها و … بسیار اساسی بود
بعد از سال ۱۹۰۰ ٬ مارکوف تحت تأثیر استاد خود چبیشف٬ از روش دنباله های کسرها در تئوری احتمالات استفاده کرد.وی هم چنین در مورد رشته های متغیرهای وابسته متقابل٬ مطالعاتی انجام داد.با این امید ثابت کردن قوانین حدی در احتمالات در حالات کلی آنها.او قضیه حد مرکزی را با در نظر گرفتن فرض های کامل آن٬ اثبات کرد
مارکوف به دلیل مطالعاتش پیرامون زنجیرهای مارکوف که رشته هایی از متغیرهای تصادفی هستند٬ معروف است.در زنجیرهای مارکوف٬ متغیر بعدی توسط متغیر کنونی مشخص می شود ولی از راهی که تا کنون طی شده است مستقل است.
مدلهای مخفی مارکوف ابتدا در سال‌های اواخر ۱۹۶۰ و اوایل ۱۹۷۰ معرفی و مورد مطالعه قرار گرفت. روش‌های آماری منبع مارکوف یا مدلسازی مارکوف پنهان بطور روزافزونی در سال‌های اخیر متداول گردید. برای این امر دو دلیل بسیار قوی وجود دارد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


اولاً مدل‌ها در ساختمان ریاضی خیلی غنی هستند و در اینصورت می‌توانند مبنائی نظری برای استفاده در محدودهء وسیعی از کاربردها را تشکیل دهند. ثانیا” مدل‌ها، در هنگامی که بطور صحیحی بکار برده می‌شوند، در عمل برای کابردهای مهم خیلی خوب کار می‌کنند..
چرا مخفی؟

اطلاق کلمه مخفی, به موضوع مورد بحث ما به این دلیل است که در باره مسائلی صحبت می‌کنیم که طریقه انجام آنها از دید ما پنهان است و البته ماهیت پارامتری آماری دارد. یعنی اینکه نه تنها نمی‌دانیم نتیجه چه خواهد بود, بلکه نوع اتفاق و احتمال آن اتفاق نیز باید از پارامترهایی که در دسترس است, نتیجه‌گیری شود. مانند پرتاب سکه در یک جعبه در بسته, یا جایی دور از دید ما. یعنی مدل حاصل یک مدل تصادفی با یک فرآیند تصادفی زیرین است که از دید ناظر, غیر قابل مشاهده (مخفی) است و تنها توسط مجموعه ای از فرآیندهای تصادفی که دنباله مشاهدات را تولید می کنند قابل استنتاج (به جای مشاهده) است.

مثال :
متوجه شدن وضع آب و هوا از طریق جلبک

انواع مدل

    مدلهای قطعی

Deterministic Patterns

    مدلهای غیر قطعی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


Non-deterministic patterns
مدل مخفی مارکوف

مدل مخفی مارکوف یک سری متناهی از حالتهاست، که با یک توزیع احتمال پیوسته است

در یک حالت خاص، توسط توزیع احتمال پیوسته یک خروجی یا مشاهده می تواند بدست اید. حالات از خارج مخفی هستند از این رو مدل مخفی مارکوف نامیده شده است. مدل مخفی مارکوف، یک مدل آماری است که در آن  پارامترهای مخفی را از پارامترهای مشاهده شده مشخص می نماید.پارامترهای بیرون کشیده شده برای آنالیزهای بعدی می توانند استفاده شوند.به عنوان مثال برای دستور العمل های بازشناسی الگو..
در مدل مارکوف معمولی،وضعیت به طور مستقیم توسط مشاهده گر  قابل مشاهده است.بنابراین حالت انتقال احتمالات تنها پارامترها هستند.در مدل مخفی  مارکوف  ، وضعیت به طور مستقیم قابل مشاهده نیست، اما متغییرهای تحت تاثیر با وضعیت قابل مشاهده هستند.هر حالت یک توزیع احتمالات دارد برای خروجی ممکن که گرفته شود.بنابراین ترتیب گرفته های ایجاد شده توسط HMM اطلاعاتی در رابطه با حالت توالی میدهد. مدل های مخفی مارکوف برای دستورالعمل در شناسایی الگوهای موقت مانند گفتار،دست خط، شناسایی ایما و اشاره، بیو انفورماتیک و… معروف هستند.
پارامترهای اصلی مدل مارکوف

    مجموعه حالت‌هایی که ممکن است اتفاق بیفتد.
    مجموعه تصمیماتی که می‌توان در حالت‌های مختلف گرفت.
    مجموعه نتایجی که ممکن است متعاقب هر تصمیم‌گیری بدست آید.
    منافع و ارزش افزوده این تصمیم‌گیری در مقایسه با تصمیمات ممکن دیگر

با گرفتن مناسب‌ترین تصمیم, بهترین راه حل برای مسئله مطرح شده را تشخیص داده, و به بهترین حالت بعدی ممکن رسید. این راه حل, بصورت یک تابع ارزش نشان داده می شود که در هر حالت (موجود), بهترین حالت بعدی (مطلوب) توسط آن تعیین می‌شود.
معماری مدل مخفی مارکوف

هر شکل بیضی بیانگر یک مقدار متغیر تصادفی است که مقادیری را می پذیرد. x(t) مقدار متغیر تصادفی است که مقدار تغییرپذیرش در واحد زمان مخفی است. y(t) مقدار متغیر تصادفی است که مقدارش در زمان t قابل مشاهده است.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


از دیاگرام مشخص است که مقدار x(t) به مقدار  x(t − ۱)  وابسته است.که این را خاصیت مارکوف می نامند.

بطورمشابه، مقدار y(t) نیز به x(t) وابسته است.
فرآیند مارکوف

دیاگرام زیر، حالتهای مخفی و قابل مشاهده مثال آب و هوا را نشان می‌دهد. این دیاگرام اظهار می‌دارد که حالتهای مخفی در آب و هوای صحیح توسط یک فرآیند مارکوف ساده دستور اول، مدل شده‌اند و بنابراین  آنها همه به همدیگر متصل شده‌اند.
اتصال بین حالتهای مخفی و قابل مشاهده، احتمال تولید یک حالت خاص قابل مشاهده را که تحت تاثیر فرآیند مارکوف در حالت مخفی ویژه بوده، نمایش می‌‌دهد. بنابراین روشن است که همه احتمالات که توسط حالت قابل مشاهده وارد می‌شوند با عدد ۱ جمع می‌شوند، از این رو در مورد بالا، مجموع احتمال آفتابی و ابری و بارانی می‌شود. بنابراین علاوه بر ماتریس احتمالات که فرآیند مارکوف را توصیف می کنند، ما ماتریس دیگری داریم، مصطلح به ماتریس اغتشاش که شامل احتمالات حالتهای قابل مشاهده است که حالتهای مخفی ویژه در آن پنهان است. برای مثال آب و هوا ، ماتریس اغتشاش اینگونه باشد:
اجزای مدلهای مخفی مارکوف

    بردار احتمال حالت اولیه
    ماتریس تغییر حالت
    ماتریس اغتشاش

هر احتمالی در ماتریس تغییر حالت و اغتشاش به زمان وابسته نمی باشد. برای همین، ماتریس‌ها هنگامی که سیستم درگیر تغییر زمان می‌شود، وابسته به زمان تغییر نمی‌کنند. در  عمل این یکی از غیر واقعی ترین فرضیات مدل مارکوف درباره فرآیند های واقعی است.

مرتبه مدل مارکوف

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    مدل مارکوف مرتبه صفر

مدل مارکوف از مرتبه صفر مانند یک توزیع احتمال چند جمله ای می باشد. چگونگی تخمین پارامترهای مدل مارکوف مرتبه صفر و همچنین پیچیدگی مدل مشخص و قابل حل است و در کتاب‌های آمار و احتمالات وجود دارد.

    مدل مارکوف مرتبه اول

احتمال یک وضعیت به احتمال وضعیت قبلی آن (از نظر زمانی) بستگی دارد, به بیان دیگر احتمال وضعیت‌های ممکن, مستقل نیستند.

    مدل مارکوف مرتبه M

مرتبه یک مدل مارکوف برابر است با طول حافظه ای که مقادیر احتمال ممکن برای حالت بعدی به کمک آن محاسبه می شود. برای مثال، حالت بعدی در یک مدل مارکوف از درجه ۲ (مدل مارکوف مرتبه دوم) به دو حالت قبلی آن بستگی دارد.
فرضیات تئوری مدل مخفی مارکوف

    فرض مارکوف

به بیان دیگر فرض می شود که حالت بعدی تنها به حالت فعلی بستگی دارد. مدل حاصل از فرض مارکوف یک مدل HMM مرتبه صفر می باشد.در حالت کلی، حالت بعدی می تواند با k حالت قبلی وابسته باشد.

    فرض ایستایی  (stationarity)

در اینجا فرض می شود که احتمال انتقال در بین حالات از زمان واقعی رخداد انتقال مستقل است.

    فرض استقلال خروجی

در این حالت فرض می شود که خروجی (مشاهدات) فعلی به صورت آماری از خروجی قبلی مستقل است. می توان این فرض را با داشتن دنباله ای از خروجی ها مانند بیان نمود
برای اینکه مدل HMM در دنیای واقعی قابل استفاده باشد باید سه مساله مهم حل شود :

    مساله ارزیابی
    مساله کدگشایی
    مساله یادگیری

انواع مدلهای مخفی مارکوف و HMM پیوسته

    مدل ارگودیک
    مدل چپ به راست
    مدل موازی چپ به راست

الگوریتم ها

    الگوریتم forward یا پیشرو
    الگوریتم viterbi یا ویتربی
    الگوریتم forward-backward یا

پیشرو- پسرو
کاربردهای  HMM

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    طبقه بندی رشته ها با HMM
    تولید مسیرهای چندگانه
    شناسایی گفتار
    شناسایی کلمات جداگانه
    مدلسازی و یادگیری
    مدلسازی و ارزیابی عملکرد جراحی با استفاده از مدل‌های مخفی مارکف
    نرم افزار تشخیص گفتار از روی حرکات لب
    زنجیره‌های مارکوف در برنامه‌ریزی نیروی انسانی و پیش‌بینی آن در شرکت ملی ذوب‌آهن
    ارزیابی قابلیت اطمینان منبع قدرت شبکه الکترونیکی جهن کاربردهای ایمنی

محدودیت‌های فرآیند مارکوف

در مدل مخفی مارکوف، فر‎آیند هایی وجود دارند که رشته قابل مشاهده احتمالات به یک فرآیند مارکوف لایه زیرین مرتبط است. در چنین مواردی، تعداد حالتهای قابل مشاهده ممکن است از تعداد حالتهای مخفی متفاوت باشد.

یک مشکل واقعی دیگر، تشخیص گفتار است. صدایی که ما می‌شنویم، از طریق تارهای صوتی، اندازه گلو، وضعیت قرار گرفتن زبان و خیلی موارد دیگر تولید می‌گردد

هر کدام از این فاکتورها، با تاثیرات متقابل روی هم صدای یک کلمه را ایجاد می‌کنند و صداهایی که یک سیستم تشخیص گفتار، نشان می‌دهد، صدای تغییر یافته از تغییرات فیزیکی در صحبت کردن فرد می‌باشد. بعضی دستگاههای تشخیص گفتار، تولید گفتار داخلی را بعنوان رشته حالتهای پنهان در نظر می گیرند و صدای منتج از این سیستم‌ها، یک رشته از حالات قابل مشاهده می‌باشند  که بوسیله فرایند گفتار تولید شده‌اند و در بهترین حالت صحیح ( مخفی ) قرار دارند..

جعبه ابزار مدل مخفی مارکوف در مطلب

این جعبه ابزار یک استنباط ویادگیری را برای HMM با خروجی های گسسته (dhmm’s) ،خروجی های گوسین(ghmm’s) ،یا مخلوطی از خروجی های گوسین(mhmm’s) ساپورت میکند.همچنین ورودی های گسسته را ساپورت میکند.

 

تهیه و تنظیم: سمیرا نصر

کارشناسی ارشد مجازی رشته مدیریت فناوری اطلاعات درپزشکی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


دانشکده مهندسی پزشکی دانشگاه صنعتی امیرکبیر

کاربرد فناوری اطلاعات در پزشکی

برچسب زنی اجزای سخن

مقدمه

در بسیاری از کاربردهای پردازش طبیعی زبان ۱برچسب زنی اجزای سخن نیاز است . برچسب زنی تعیین برچسب دستوری برای یک کلمه در یک متن است . ورودی این سیستم متن است و خروجی آن کلمه ها با تگ های مناسب است [۴].

بسیاری از برچسب زن ها با روش های مختلفی طراحی می شوند تا با دقت و عملکرد بالاتری برسند . این برچسب زن ها از روابط بین کلمه ای ۲و واژه نامه ۳استفاده می کنند [۱] . بر چسب زنی نقش بسیار مهمی در بسیاری از سیستم های NLP ایفا میکند مانند ساده سازی برنامه های پیچیده . اگر چه هر برچسب زن در بسیاری از زبان ها قابل استفاده است ولی در هر زبان خصوصیاتی هست که برچسب زن باید با توجه به آن ها طراحی شود . [۱] بر چسب ها شامل اطلاعات دستوری بسیار زیادی مانند : کمیت ، شخص ، جنسیت و … در مورد کلمه و همسایه های آن هستند .[۲] روش ها و مدل های زیادی برای برچسب زنی ارائه شده است که به دو قسمت کلی تقسیم می شوند :روش اول از بررسی و تفسیر آماری پیروی می کند و روش دوم از دانسته های انسانی و یادگیری ماشین۴ استفاده می کند .
در زبان فارسی دو مجموعه متنی شناخته شده وجود دارد : پایگاه داده زبان شناسی فارسی (Assi, 1997) و پیکره متنی زبان فارسی (Bijankhan, 2002; Mohseni, 2008) . مورد دوم در دوقسمت دسته بندی شده است : کلمات تفسیر شده و تفسیر نشده . قسمت تفسیر شده که حدود ۱۰% را در بر می گیرد به صورت دستی برچسب زده شده است . هدف ما بر چسب زنی برای قسمت تفسیر نشده (حدود ۹۰% مجموعه) است تا یک مجموعه ی ۱۰۰ میلیونی از کلمات بر چسب زده شده ایجاد شود.[۳]
کارهای مرتبط

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


اولین کاری که برروی برچسب زنی در زبان فارسی توسط (Assi & Abdolhoseini, 2000) بر پایه روشی که توسط (Schuetze, 1995) پیشنهاد شده ، انجام شده است . ایده ی این است که تمامی همسایه های کلمه در دو آرایه ی کلمات راست و کلمات چپ جمع آوری شود . کلمات با تکرار کم حذف می شوند ، چون دیده شده است که کلمات نادر آرایه های خالی دارند .نوع کلمات به شباهت توزیع شده بستگی دارد و هر دسته به صورت دستی برچسب گذاری می شود . این مجموعه ۴۵ برچسب دارد . دقت گذارش شده به این صورت است : دقت در اعداد ، دسته های مختلف افعال و اسم ها بین ۶۹ تا ۸۳ % می باشد و در حالت کلی ، دقت قسمت خودکار سیستم ۵۷٫۵% می باشد . در هر حال نویسنده اقرار می کند در حالی که برچسب های فارسی به کلمات مبهم بر می گردد ، سیستم پیشنهادی قادربه ابهام زدایی از کلماتی مانند کلمات با تکرار کم نیست . در ضمن دقت سیستم برای دسته هایی مانند صفت ها و قید ها بسیار کم است . [۳] تحقیق دیگری برروی برچسب زن های فارسی توسط (Megerdoomian, 2004) انجام شده است . از نتایج آزمایشات گزارشی در دست نیست . نویسنده تنها به چالش هایی که برای برنامه نویسی برچسب زن زبان فارسی ایجاد می شود اشاره کرده است .[۳] در (Mohseni, 2008) یک سیستم برچسب زنی برپایه ی مدل Markov مرتبه ی اول برروی مدل قدیمی پیکره اجرا شده است . در این مقاله برخی جنبه های ریخت شناسی فارسی و بعضی مشکلات در گسترش یک سیستم برچسب زنی ارائه شده است . [۳] در (Mojgan Seraji) یک برچسب زن آماری برای یک زبان فارسی ارائه شده است . نتایج آزمایش نشان می دهد که دقتی در حدود ۹۶٫۹% دارد که بهترین نتیجه گزارش شده برای زبان فارسی است . پایه ی این روش بر Hidden Markov Models می باشد که به کاربر اجازه می دهد تا برچسب زنی با ویژگی های متفاوت داشته باشد . این برچسب زن بر اساس حدس زدن برچسب مناسب با توجه به برچسب های قبلی و فعلی عمل می کند . نکته ی مثبت در مورد این الگوریتم برچسب زنی برای کلماتی است که تا بحال دیده نشده است . برروی کلمات یک آنالیز زبان شناسی انجام می شود تا لیست برچسب های قابل استفاده برای این کلمه را کم کند که نه تهنا باعث افزایش سرعت عملکرد سیستم می شود بلکه به شدت دقت را افزایش می دهد . به عبارت دیگر انالیزور زبان شناسی برچسب های ممکن را تولید می کند ، تا بر اساس الگوریتم های حدس زنی وزن دهی شود . [۶]
Markov Models

احتمال یک جمله از کلمات
w1 w2…wn{ w }_{ 1 }\ { w }_{ 2 } …{ w }_{ n }w1 w2...wn

با استفاده از برچسب زن به صورت
P(w1w2…wn,t1t2…tn)P({ w }_{ 1 }{ w }_{ 2 }…{ w }_{ n } ,t_{ 1 }t_{ 2 } …t_{ n })P(w1w2...wn,t1t2...tn)

است.که با توجه به قضیه ی Bayes به صورت زیر می شود :
P(wn∣w1w2…wn,t1t2…tn)P(tn∣w1w2…wn,t1t2…tn)P(w1w2…wn,t1t2…tn−۱)P({ w }_{ n }|{ w }_{ 1 } { w }_{ 2 } … { w }_{ n } , t_{ 1 }t_{ 2 } …t_{ n })P({ t }_{ n }|{ w }_{ 1 }{ w }_{ 2 } …{ w }_{ n } , t_{ 1 } t_{ 2 } …t_{ n })P({ w }_{ 1 }{ w }_{ 2 } …{ w }_{ n }, t_{ 1 } t_{ 2 } …t_{ n-1 })P(wn∣w1w2...wn,t1t2...tn)P(tn∣w1w2...wn,t1t2...tn)P(w1w2...wn,t1t2...tn−۱)

با استفاده از دو رابطه ی ساده مشخص می شود که احتمال کلمه ی
wn{w}_{n}wn

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


فقط به
tn{t}_{n}tn

آن و به Kکلمه ی مقدم بر آن بستگی دارد :
P(wn∣tn)P(tn∣tn−k…tn−۱)P(w1w2…wn,t1t2…tn−۱)P({ w }_{ n }|t_{ n })P({ t }_{ n }|t_{ n-k }…t_{ n-1 })P({ w }_{ 1 }{ w }_{ 2 }…{ w }_{ n },t_{ 1 } t_{ 2 } … t_{ n-1 })P(wn∣tn)P(tn∣tn−k...tn−۱)P(w1w2...wn,t1t2...tn−۱)

با ساده سازی و تابع بازگشتی قضیه ی Bayes این فرمول حاصل می شود :
P(w1w2…wn,t1t2…tn−۱)=∏i=1nP(wi∣ti)P(ti∣ti−k…ti−۱)P({ w }_{ 1 }{ w }_{ 2 }…{ w }_{ n },t_{ 1 }t_{ 2 }…t_{ n-1 })\quad =\quad \prod _{ i=1 }^{ n } P({ w }_{ i }|t_{ i })P({ t }_{ i }|t_{ i-k }…t_{ i-1 })P(w1w2...wn,t1t2...tn−۱)=∏i=1nP(wi∣ti)P(ti∣ti−k...ti−۱)

احتمال این مدل تنها به K کلمه ی قبلی بستگی دارد که به Markov Model مرتبه ی k شناخته می شود . در برچسب زنی بیشتر از مرتبه ی اول Markov Model و از مرتبه ی دوم Markov Model استفاده می شود .
انواع برچسب زن

الگوریتم های برچسب زنی مختلفی وجود دارد که هرکدام سعی می کند معایب الگوریتم قبلی را از بین ببرد . در (Megerdoomian, 2004) الگوریتم های برچسب زنی به دو دسته تقسیم می شوند :[۵]

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


برچسب زن های آماری: این الگوریتم های برچسب زنی بر اساس احتمال عمل می کنند . این الگوریتم ها معمولا از پیکره های برچسب زده شده استفاده می کنند . این ها احتمالات برچسب کلمه ها را با استفاده از اسناد برچسب زده شده یاد می گیرند . زمانی که این برچسب زن ها با یک کلمه ناشناخته روبرو می شوند از اطلاعات توزیع شده کلمه برای پیشنهاد یک برچسب برای آن استفاده می کنند . برچسب زن های اماری دقت بالایی دارند اما کارایی آن ها به سختی قابل ارتقا است . به علاوه از یک پیکره برچسب زده شده استفاده می کند که در بعضی زبان ها موجود نیست . [۵]

برچسب زن های قانونمند : این برچسب زن ها برچسب مناسب را با استفاده از قواعد دستوری و زبان شناسی انتخاب می کنند . در این برچسب زن ها از یادگیری استفاده نمی شود . از انجا که این برچسب زن ها از قواعد استفاده می کنند ، برای یرچسب زنی کلمات ناشناخته ناتوان هستند اما برای کلمات شناخته شده معمولا دقیق هستند .[۵] نوع دیگری از برچسب زن ها نیز در(Shamsfard) معرفی شده است که ترکیبی از این دو حالت است . [۱] با توجه یه اینکه برچسب زن های آماری دقت بالایی دارند در این مقاله از این نوع برچسب زن ها استفاده می شود ، البته همان طور که گفته شد معایبی نیز دارند .
پیش پردازش

مرحله اول برای تشکیل لغت نامه بیرون کشیدن کلمات از پیکره است . برای اجرای این عمل ، لازم است تا حدود و مرز کلمات شناسایی شود . در زبان فارسی مرز کلمات به خوبی مشخص نیست زیرا کلمات زیادی وجود دارد که از بیشتر از یک بخش تشکیل شده اند و این بخش ها با white space از هم جدا می شوند . به همین دلیل ابهاماتی برای برای تشخیص کلمات در زبان فارسی وجود دارد . برای ساده سازی عملیات جداسازی کلمات نقطه ها و white space به عنوان جدا کننده درنظر گرفته می شوند . برای جداسازی کلمات یک سری قوانین وضع می کنیم که باید رعایت شود : [۱]

    “می” که در اول بسیاری از فعل ها می آید باید به صورت جدا نوشته شود .
    “ها” که یک نشانه ی جمع است باید به صورت جدا نوشته شود .
    “بی” که یک پیشوند منفی ساز است باید به صورت جدا نوشته شود .

پیاده سازی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


برای مجموعه ی داده ها ۵ از پیکره ی بیجن خان که حاوی ۲٫۶ میلیون کلمه و ۵۵۰ برچسب است ، استفاده شده است . از آنجا که این مجموعه دارای ۵۵۰ برچسب است و باعث ایجاد مشکلات فراوان و عدم دقت می شود ۳۸ برچسبی که بیشترین تکرار را دارند مورد استفاده قرار می گیرد . جدول زیر تعداد تکرار برچسب ها و احتمال آنها را نشان می دهد :
برچسب های پرتکرار و احتمال وقوع آنها
برچسب های پرتکرار و احتمال وقوع آنها
لیست برچسب ها
لیست برچسب ها

در پیکره ی بیجن خان فقط کلمات و برچسب آنها وجود دارد اما ار آنجا که احتمال وقوع هر برچسب برای ما مهم است با این کد احتمال وقوع برچسب ها استخراج شده است .
در این فاز بررسی ها و پیاده سازی های اولیه ، داده ها و فرم آنها برای استفاده و مراحل اجرای کار مشخص شد ، در فاز بعد پیاده سازی کامل به همراه بررسی میزان دقت الگوریتم انجام می شود.
پیاده سازی نهایی

مراحل پیاده سازی یه این ترتیب است که اول متن را نرمال سازی می کنیم همان طور که در این مورد در بخش پیش پردازش بحث شده بود . سپس کلمات را تشخیص داده و در اصطلاح Tokenize می کنیم و سپس با اجرای PosTagger بر چسب مربوط به هر کلمه مشخص می شود .
کد
البته در این فاز کار پیاده سازی توسط بنده انجام نشده و صرفا کد های Hazm بررسی شده است و کد های موجود در Git نیز همین کدهاست ، اما بیشتر وقت در این فاز به بررسی Machin Learning در پردازش طبیعی زبان داده شده است . چون مبحث بسیار سنگینی بود و پیش نیاز های متعددی برای یادگیری داشت متاسفانه فرصت کافی برای پیاده سازی وجود نداشت . دو منبع ۷ و ۸ را به منظور یادگیری ، یادگیری ماشین انتخاب کرده ام
کارهای آینده

با توجه به پیشرفت تکنولوژی ها به خصوص در نحوه ی ارتباط با کاربر یا همان رابط کاربری ، امروزه استفاده از پردازش طبیعی زبان بسیار گسترش یافته است . به خصوص در زمینه ی هوش مصنوعی و دستیار هوشمند شخصی(Inteligent Personal Assistant) کاربرد تبدیل گفتار به متن با استفاده از پردازش طبیعی زبان بسیار گسترش یافته است . همان طور که بررسی شد دو مدل برچسب زنی یعنی آماری و ساختار هر کدام معایب و مزایایی دارند که در مورد آنها صحبت شده است ، اما مواردی که از ترکیبی از این دو مدل بهره گرفته اند بسیار دقت و کارایی بیشتری داشته اند ، به شخصه احساس می کنم ترکیب این دو روش آینده ی برچسب زنی خواهد بود . همچنین استفاده از روش هایی که فارغ از نوع زبان به برچسب زنی می پردازند می تواند بسیار مفید باشد زیرا هر کدام از زبان ها معایب زیادی دارند که بسیار پیشبرد کار را مشکل می کنند ، در مورد معایب زبان فارسی بحث شده است . بهره گیری از نکاتی که عرض شد می تواند مقالات و برنامه های آینده را بهبود ببخشد .
مراجع

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    Mehrnoush Shamsfard , Hakimeh Fadaee A Hybrid Morphology-Based POS Tagger for Persian NLP Research Laboratory , Faculty of Electrical & Computer Engineering, Shahid Beheshti University, Tehran, Iran.
    Jurafsky D. and Martin J. H. (1999). Speech and language Processing. Prentice Hall, September 28.
    Mahdi Mohseni, Behrouz Minaei-bidgoli , A Persian Part-Of-Speech Tagger Based on Morphological Analysis , Iran University of Science and Technology.
    Ali Azimizadeh, Mohammad Mehdi Arab, Saeid Rahati Quchani, Persian part of speech tagger based on Hidden Markov Model , ,Islamic Azad University of Mashhad, Iran.
    Megerdoomian, K. (2004). Developing a Persian part-of-speech tagger. In Proceedings of First
    Workshop on Persian Language and Computers. Iran.
    Mojgan Seraji, A Statistical Part-of-Speech Tagger for Persian ,Department of Linguistics and Philology Uppsala University, Sweden
    Machin Learning in Action , Peter Harrington , Manning , 2012
    Machin Learning for Natural Lnaguage Processing , Mrtin Emms , Saturino Luz , 2007

    Natural Language Processing (NLP)

    inter-word relation

    lexicon

    Machine Learning

    Data Set

ابزارها متن کاوی و تحلیل متن


در این قسمت برخی از ابزارهای متن کاوی که اکثر آنها رایگان هستند معرفی می کنیم.

    پلاگین استخراج اطلاعات در rapidMiner
    rapidMiner یک فریم ورک کد باز معروف است یا به عبارتی یک workbench تحلیلات کسب و کار کامل با تمرکز شدید بر داده کاوی، متن کاوی و predictive analytics است. این ابزار از مجموعه گسترده ای از تکنیک های توصیفی و پیش بینانه برای ارائه آگاهی کافی به کاربر برای انجام تصمیم گیری مناسب تر استفاده می کند. این پلتفرم نرم افزاری توسط شرکتی با همین نام به عنوان محیطی یکپارچه برای یادگیری ماشین، متن کاوی، داده کاوی، predictive analytics و  business analytics توسعه داده شده است.
    RapidMiner Studio روی هم رفته بیش از ۱۵۰۰ عملیات برای همه کارهای مربوط به تحلیل داده حرفه ای انجام میدهد از تقسیم داده تا تحلیل مبتنی بر بازار این ابزار در بردارنده همه ابزارهایی است که برای اینکه بتوان از داده به نحو مفید استفاده کرد می باشد . به علاوه ابزارهایی برای متن کاوی، وب کاوی، automatic sentiment Analysis در فروم های بحث در اینترنت (sentiment analysis و opinion mining) و همین طور تحلیل سری های زمانی و پیش بینی هم در این ابزار وجود دارد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    Information Extraction Plugin استفاده از تکنیک های استخراج اطلاعات در RapidMiner را میسر می کند. می توان از آن به عنوان اینترفیسی میان زبان طبیعی و IE یا روش های داده کاوی با استرخاج اطلاعات ارزشمند از اسناد یاد کرد.
    Extension متن کاوی در rapidminer از یک کلاس خاص برای کار با اسناد استفاده می کند: Document-class. این کلاس کل اسناد در ترکیب با متا اطلاعات دیگر را دربردارد. در مورد متن کاوی اسناد به نشانه های منحصر به فرد تقسیم می شوند که برای دسته بندی کل اسناد استفاده می شود. برای اهداف استخراج اطلاعات سند نشانه گذاری می شود (tokenize) و ترتیب این نشانه های حفظ می شود بنابراین نشانه گذارهایی در آن تعبیه شده که قادر به پردازش مجموعه های نمونه (examplesets)  استخراج شده از کلاس های اسناد هستند. به کاربردن این نشانه گذارها منجر به یک صفحه گسترده (spreadsheet) می شود که دربردارنده نشانه ها با یک ترتیب خاص یعنی همان طور که در سند یافت شده اند می باشد. هر نشانه شامل یک شماره خاص است که نشان می دهد از کدام واحد عمومی ایجاد شده است. برای مثال هر word-token یک جمله خاص دربردارنده شماره جمله است در حالی که  هر sentence-token از یک سند شامل شماره سند است.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    در این فرایند متن کاوی، یک سند لود می شود ، به exampleset ای حاوی نمونه ای که متن کامل سند را دارد تبدیل می شود و دو نشانه گذار (tokenizers) متن را به چندین نشانه (مثال یا نمونه ها) تبدیل می کند. سومین عملگر متن را به جمله ها تقسیم می کند و چهارمین عملگر جملات را به کلمات تبدیل می کند. پس از به اتمام رسیدن فرایند دیتاست به دست آمده حاوی نمونه هایی است که هر یک کلمه ای را نگهداری می کنند. به علاوه کلمات دربردارنده شماره جملات هستند و امکان دسترسی به همه کلمات یک جمله را میسر می کنند.
    دانلود نرم افزار رپدماینر 5.3
    NetOwl Extractor
    NetOwl Extractor ابتدا برای پرتقاضاترین برنامه های اطلاعاتی دولتی ساخته شد و مبتنی بر زبان شناسی محاسباتی پیشرفته و پردازش زبان طبیعی است. با آنالیز هوشمندانه ساختار و محتوای درون متن این ابزار می تواند به دقت اطلاعات کلیدی را شناسایی کند. این ابزار یک سیستم ایندکس گذاری اتوماتیک است که عبارات اصلی را در متن پیدا و کلاسیفای می کند مانند نام های شخصی، نام شرکت ها، نام مکان ها، تاریخ ها و … این ابزار همه نامه های یکسان را پیدا کرده و نام ها را به موجودیت مشابه به آن لینک می دهد. تشخیص دینامیک را با جستجوی استاتیک ترکیب می کند تا به دقت بالا رسیده و با سرعت بالایی به نتیجه برسد.
    TextAnalyst: natural language text analysis software


09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    TextAnalyst یک سیستم متن کاوی است که تعدادی تابع آنالیز مهم را با تکیه بر استفاده از یک شبکه معنایی ایجاد شده خودکار از متن مورد بررسی ، پیاده می کند. مزیت اصلی آن در برابر سایر سیستم های بازیابی اطلاعات و تحلیل متن این است که می تواند شبکه معنایی یک متن را به طور کامل و بصورت خودکار بدون نیاز به از پیش توسعه دادن یک دیکشنری موضوعی خاص توسط انسان درآورد. کاربر مجبور نیست به این ابزار هیچ اطلاعات پس زمینه ای از موضوع بدهد سیستم این دانش را بصورت خودکار به دست می آورد پس با این حساب از یکی از تکنیک های یادگیری ماشین بی ناظر استفاده می کند.
    Intelligent Miner for Text
    مربوط به شرکت IBM software است . این ابزار مجموعه جامعی از ابزارهای تحلیل متن و جستجوی متن ارائه می کند:
    The Language Identi¯cation tool: این ابزار بصورت خودکار زبان سند را پیدا می کند می توانید آن را برای پوشش دادن زبان های دیگر آموزش دهید (از روش های یادگیری ماشین با ناظر (کلسیفایینگ) می توان استفاده کرد).

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    The Feature Extraction tool: این ابزار آیتم های لغت را در متن پیدا می کند خودش بصورت خودکار این کار را انجام می دهد و نیازی نیست شما محدوده ای که مربوط به لغت است را برای آن تعیین کنید.
    The Summarizer tool این ابزار کلمات و جملات را در سند آنالیز می کند و از سند یک خلاصه ایجاد می کند.
    The Topic Categorization tool  این ابزار بصورت خودکار اسناد را به مقوله ها، تاپیک ها یا زمینه هایی که از قبل تعیین کردید نسبت می دهد.
    The Clustering tools این ابزار مجموعه ای از اسناد را به گروه ها یا کلاسترهایی تقسیم می کند. اعضای هر کلاستر به هم شبیه هستند زیرا از ویژگی های مشترکی برخوردارند. این کلاسترهای از قبل تعیین شده نیستند.
    ICrossReader
    تنها اسناد بسیار مرتبط را در www پیدا می کند. متن های داخلی یک پایگاه داده غیر ساخت یافته را اسکرین کرده و اطلاعات را کلاستر معنایی می کند.
    Yahoo Planet

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    در این ابزار چندین مقوله برتر به عنوان برنامه های جداگانه گرفته می شود و برای هر یک از آنها یک کلاسیفایر خودکار ساخته می شود.
    Dataset
    این ابزار از دیتابیس های رابطه ای و Focused Informa-tion Retrieval استفاده می کند. تکنولوژی RDB یا دیتابیس رابطه ای با قابلیت های منحصر به فرد این ابزار برای مدیریت متن ترکیب شده و استفاده می شود. این ابزار، ابزارهای بازیابی و جستجوی جامعی فراهم می کند که می تواند آیتم ها را تقریبا بصورت آنی با کلمات، عبارات و … پیدا کند.
    Texis
    این ابزار تنها SQL RDBMS کاملا یکپارچه است که به صورت هوشمندانه پایگاه داده هایی را که شامل متون زبان طبیعی ، دیتا تایپ های استاندارد، تصاویر، ویدئو، صوت و سایر داده ها هستند کوئری و مدیریت می کند. می توانید در آن متن را با هر اندازه ای ذخیره کنید و این اطلاعات را با زبان طبیعی بپرسید.
    نرم افزار Text analytics می تواند با پس و پیش کردن و تبدیل کلمات و اصطلاحات و عبارات داده های غیر ساخت یافته به مقادیر عددی که بدین ترتیب پس از آن بتواند آنها را با داده های ساخت یافته موجود در دیتابیس لینک کند و با روش های داده کاوی تحلیل کند در این زمینه کمک کند.  سازمان ها می توانند با یک رویکرد تکرارگونه از Text analytics برای آگاهی یافتن از ارزش های محتوایی خاص مانند احساس، عاطفه و شدت و  ارتباط استفاده نمایند. از آنجایی که تکنولوژی Text analytics هنوز به عنوان یک تکنولوژی درحال ظهور محسوب می شوند، نتایج و عمق تحلیل ها می تواند از فروشنده ای به فروشنده دیگر تغییرکند.
    GATE
    GATE معماری عمومی Text Engineering است و یک جعبه ابزار کد باز برای پردازش زبان طبیعی و مهندسی زبان است. این ابزار یک سیستم استخراج اطلاعات به نام ANNIE دارد که در بردارنده مجموعه ای از ماژول هاست مانند tokenizer، یک gazetteer، یک تقسیم کننده جمله، یک part of speech tagger و … .
    Carrot2
    این ابزار یک چارچوب کلاسترینگ نتایج جستجو و متن است. این ابزار می تواند به طور اتوماتیک مجموعه های کوچکی از اسناد، نتایج جستجو یا خلاصه اسناد را بر اساس زمینه آنها کلاستر کند.
    SAS Text Analytics
    SAS یک نرم افزار تحلیل متن جامع است برای کشف و استخراج اطلاعات از متن. این ابزار از مدلسازی آماری پیشرفته ، پردازش زبان طبیعی، و تکنولوژی های زبان شناختی پیشرفته برای کشف الگوها از هر متن به هر زبان استفاده می کند. این ابزار در سیستم های اخطار فوری، هوش شهری، امنیت بیمار و عملکرد محتوای دیجیتال استفاده می شود.نمونه هایی دیگر از نرم افزارهای متن کاوی
    ۱-Copernic Summarizer

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    ۲- Wizdoc
    ۳-Insight Discoverer Categorizer
    ۴- Insight Discoverer Clusterer
    ۵- TextAnalyst
    ۶-

انجام پروژه های داده کاوی با رپیدماینر و وکا

انجام پروژه های داده کاوی (Data Mining) در زمینه های رده بندی (Classification)، خوشه بندی (Clustering)، پیش بینی (Prediction)، انتخاب ویژگی (Feature Selection) و قواعد انجمنی (Association Rules) با استفاده از روش ها و الگوریتم های مختلفی نظیر:
۱ -Ann)شبکه عصبی مصنوعی)

۲ - شبکه های عصبی مصنوعی (RBF)

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


۳ - درخت تصمیم--هرس درخت تصمیم--درخت تصمیم با شاخص جینی و آنتروپی
۴ - بگینگ  و بوستینگ
۵ - ماشین بردار پشتیبان
۶-ماشین بردار پشتیبان با بهینه ساز ازدحام ذرات
۸ - سیستم استنباط بیزین
۱۰-الگوریتم ژنتیک , ازدحام ذرات
۱۱-الگوریتم های فراابتکاری
۱۲-قواعد همسایگی با fp-growth,apriory
۱۳-تحلیل نتایج با رسم نمودار Roc
۱۴-انواع مختلف روش های انتخاب ویژگی:شاخص ریلیف، ازدحام ذرات،شاخص جینی و ...
۱۵-انواع روش های نمونه برداری و بیش نمونه گیری
۱۶-روش های حل مشکل رده نامتوازن

۱۷-تشخیص داده پرت با کانزدیکترین همسایه)

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

Knn

۱۸-تشخیص داده پرت محلی
انجام پروژه های رپیدماینر در کوتاهترین زمان ممکن با کمترین قیمت با مشاوره وآموزش اجرای پروژه
انجام پروژه های داده کاوی با مشاوره و آموزش اجرا جهت ارایه پروژه
در صورت ارایه پروژه فیلم آموزشی کار با نرم افزار و اجرای پروژه تحویل داده خواهد شد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com