انجام پروژه های داده کاوی

انجام پروژه های داده کاوی بدر زمینه های مخار weka clementine12 spss modeler14.2 rapidminer ت کارشناسی و کارشناسی ارشد 09367292276 09367292276 azsoftir@gmail.com

انجام پروژه های داده کاوی

انجام پروژه های داده کاوی بدر زمینه های مخار weka clementine12 spss modeler14.2 rapidminer ت کارشناسی و کارشناسی ارشد 09367292276 09367292276 azsoftir@gmail.com

ابزارها متن کاوی و تحلیل متن


در این قسمت برخی از ابزارهای متن کاوی که اکثر آنها رایگان هستند معرفی می کنیم.

    پلاگین استخراج اطلاعات در rapidMiner
    rapidMiner یک فریم ورک کد باز معروف است یا به عبارتی یک workbench تحلیلات کسب و کار کامل با تمرکز شدید بر داده کاوی، متن کاوی و predictive analytics است. این ابزار از مجموعه گسترده ای از تکنیک های توصیفی و پیش بینانه برای ارائه آگاهی کافی به کاربر برای انجام تصمیم گیری مناسب تر استفاده می کند. این پلتفرم نرم افزاری توسط شرکتی با همین نام به عنوان محیطی یکپارچه برای یادگیری ماشین، متن کاوی، داده کاوی، predictive analytics و  business analytics توسعه داده شده است.
    RapidMiner Studio روی هم رفته بیش از ۱۵۰۰ عملیات برای همه کارهای مربوط به تحلیل داده حرفه ای انجام میدهد از تقسیم داده تا تحلیل مبتنی بر بازار این ابزار در بردارنده همه ابزارهایی است که برای اینکه بتوان از داده به نحو مفید استفاده کرد می باشد . به علاوه ابزارهایی برای متن کاوی، وب کاوی، automatic sentiment Analysis در فروم های بحث در اینترنت (sentiment analysis و opinion mining) و همین طور تحلیل سری های زمانی و پیش بینی هم در این ابزار وجود دارد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    Information Extraction Plugin استفاده از تکنیک های استخراج اطلاعات در RapidMiner را میسر می کند. می توان از آن به عنوان اینترفیسی میان زبان طبیعی و IE یا روش های داده کاوی با استرخاج اطلاعات ارزشمند از اسناد یاد کرد.
    Extension متن کاوی در rapidminer از یک کلاس خاص برای کار با اسناد استفاده می کند: Document-class. این کلاس کل اسناد در ترکیب با متا اطلاعات دیگر را دربردارد. در مورد متن کاوی اسناد به نشانه های منحصر به فرد تقسیم می شوند که برای دسته بندی کل اسناد استفاده می شود. برای اهداف استخراج اطلاعات سند نشانه گذاری می شود (tokenize) و ترتیب این نشانه های حفظ می شود بنابراین نشانه گذارهایی در آن تعبیه شده که قادر به پردازش مجموعه های نمونه (examplesets)  استخراج شده از کلاس های اسناد هستند. به کاربردن این نشانه گذارها منجر به یک صفحه گسترده (spreadsheet) می شود که دربردارنده نشانه ها با یک ترتیب خاص یعنی همان طور که در سند یافت شده اند می باشد. هر نشانه شامل یک شماره خاص است که نشان می دهد از کدام واحد عمومی ایجاد شده است. برای مثال هر word-token یک جمله خاص دربردارنده شماره جمله است در حالی که  هر sentence-token از یک سند شامل شماره سند است.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    در این فرایند متن کاوی، یک سند لود می شود ، به exampleset ای حاوی نمونه ای که متن کامل سند را دارد تبدیل می شود و دو نشانه گذار (tokenizers) متن را به چندین نشانه (مثال یا نمونه ها) تبدیل می کند. سومین عملگر متن را به جمله ها تقسیم می کند و چهارمین عملگر جملات را به کلمات تبدیل می کند. پس از به اتمام رسیدن فرایند دیتاست به دست آمده حاوی نمونه هایی است که هر یک کلمه ای را نگهداری می کنند. به علاوه کلمات دربردارنده شماره جملات هستند و امکان دسترسی به همه کلمات یک جمله را میسر می کنند.
    دانلود نرم افزار رپدماینر 5.3
    NetOwl Extractor
    NetOwl Extractor ابتدا برای پرتقاضاترین برنامه های اطلاعاتی دولتی ساخته شد و مبتنی بر زبان شناسی محاسباتی پیشرفته و پردازش زبان طبیعی است. با آنالیز هوشمندانه ساختار و محتوای درون متن این ابزار می تواند به دقت اطلاعات کلیدی را شناسایی کند. این ابزار یک سیستم ایندکس گذاری اتوماتیک است که عبارات اصلی را در متن پیدا و کلاسیفای می کند مانند نام های شخصی، نام شرکت ها، نام مکان ها، تاریخ ها و … این ابزار همه نامه های یکسان را پیدا کرده و نام ها را به موجودیت مشابه به آن لینک می دهد. تشخیص دینامیک را با جستجوی استاتیک ترکیب می کند تا به دقت بالا رسیده و با سرعت بالایی به نتیجه برسد.
    TextAnalyst: natural language text analysis software


09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    TextAnalyst یک سیستم متن کاوی است که تعدادی تابع آنالیز مهم را با تکیه بر استفاده از یک شبکه معنایی ایجاد شده خودکار از متن مورد بررسی ، پیاده می کند. مزیت اصلی آن در برابر سایر سیستم های بازیابی اطلاعات و تحلیل متن این است که می تواند شبکه معنایی یک متن را به طور کامل و بصورت خودکار بدون نیاز به از پیش توسعه دادن یک دیکشنری موضوعی خاص توسط انسان درآورد. کاربر مجبور نیست به این ابزار هیچ اطلاعات پس زمینه ای از موضوع بدهد سیستم این دانش را بصورت خودکار به دست می آورد پس با این حساب از یکی از تکنیک های یادگیری ماشین بی ناظر استفاده می کند.
    Intelligent Miner for Text
    مربوط به شرکت IBM software است . این ابزار مجموعه جامعی از ابزارهای تحلیل متن و جستجوی متن ارائه می کند:
    The Language Identi¯cation tool: این ابزار بصورت خودکار زبان سند را پیدا می کند می توانید آن را برای پوشش دادن زبان های دیگر آموزش دهید (از روش های یادگیری ماشین با ناظر (کلسیفایینگ) می توان استفاده کرد).

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    The Feature Extraction tool: این ابزار آیتم های لغت را در متن پیدا می کند خودش بصورت خودکار این کار را انجام می دهد و نیازی نیست شما محدوده ای که مربوط به لغت است را برای آن تعیین کنید.
    The Summarizer tool این ابزار کلمات و جملات را در سند آنالیز می کند و از سند یک خلاصه ایجاد می کند.
    The Topic Categorization tool  این ابزار بصورت خودکار اسناد را به مقوله ها، تاپیک ها یا زمینه هایی که از قبل تعیین کردید نسبت می دهد.
    The Clustering tools این ابزار مجموعه ای از اسناد را به گروه ها یا کلاسترهایی تقسیم می کند. اعضای هر کلاستر به هم شبیه هستند زیرا از ویژگی های مشترکی برخوردارند. این کلاسترهای از قبل تعیین شده نیستند.
    ICrossReader
    تنها اسناد بسیار مرتبط را در www پیدا می کند. متن های داخلی یک پایگاه داده غیر ساخت یافته را اسکرین کرده و اطلاعات را کلاستر معنایی می کند.
    Yahoo Planet

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    در این ابزار چندین مقوله برتر به عنوان برنامه های جداگانه گرفته می شود و برای هر یک از آنها یک کلاسیفایر خودکار ساخته می شود.
    Dataset
    این ابزار از دیتابیس های رابطه ای و Focused Informa-tion Retrieval استفاده می کند. تکنولوژی RDB یا دیتابیس رابطه ای با قابلیت های منحصر به فرد این ابزار برای مدیریت متن ترکیب شده و استفاده می شود. این ابزار، ابزارهای بازیابی و جستجوی جامعی فراهم می کند که می تواند آیتم ها را تقریبا بصورت آنی با کلمات، عبارات و … پیدا کند.
    Texis
    این ابزار تنها SQL RDBMS کاملا یکپارچه است که به صورت هوشمندانه پایگاه داده هایی را که شامل متون زبان طبیعی ، دیتا تایپ های استاندارد، تصاویر، ویدئو، صوت و سایر داده ها هستند کوئری و مدیریت می کند. می توانید در آن متن را با هر اندازه ای ذخیره کنید و این اطلاعات را با زبان طبیعی بپرسید.
    نرم افزار Text analytics می تواند با پس و پیش کردن و تبدیل کلمات و اصطلاحات و عبارات داده های غیر ساخت یافته به مقادیر عددی که بدین ترتیب پس از آن بتواند آنها را با داده های ساخت یافته موجود در دیتابیس لینک کند و با روش های داده کاوی تحلیل کند در این زمینه کمک کند.  سازمان ها می توانند با یک رویکرد تکرارگونه از Text analytics برای آگاهی یافتن از ارزش های محتوایی خاص مانند احساس، عاطفه و شدت و  ارتباط استفاده نمایند. از آنجایی که تکنولوژی Text analytics هنوز به عنوان یک تکنولوژی درحال ظهور محسوب می شوند، نتایج و عمق تحلیل ها می تواند از فروشنده ای به فروشنده دیگر تغییرکند.
    GATE
    GATE معماری عمومی Text Engineering است و یک جعبه ابزار کد باز برای پردازش زبان طبیعی و مهندسی زبان است. این ابزار یک سیستم استخراج اطلاعات به نام ANNIE دارد که در بردارنده مجموعه ای از ماژول هاست مانند tokenizer، یک gazetteer، یک تقسیم کننده جمله، یک part of speech tagger و … .
    Carrot2
    این ابزار یک چارچوب کلاسترینگ نتایج جستجو و متن است. این ابزار می تواند به طور اتوماتیک مجموعه های کوچکی از اسناد، نتایج جستجو یا خلاصه اسناد را بر اساس زمینه آنها کلاستر کند.
    SAS Text Analytics
    SAS یک نرم افزار تحلیل متن جامع است برای کشف و استخراج اطلاعات از متن. این ابزار از مدلسازی آماری پیشرفته ، پردازش زبان طبیعی، و تکنولوژی های زبان شناختی پیشرفته برای کشف الگوها از هر متن به هر زبان استفاده می کند. این ابزار در سیستم های اخطار فوری، هوش شهری، امنیت بیمار و عملکرد محتوای دیجیتال استفاده می شود.نمونه هایی دیگر از نرم افزارهای متن کاوی
    ۱-Copernic Summarizer

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    ۲- Wizdoc
    ۳-Insight Discoverer Categorizer
    ۴- Insight Discoverer Clusterer
    ۵- TextAnalyst
    ۶-

نظرات 0 + ارسال نظر
امکان ثبت نظر جدید برای این مطلب وجود ندارد.