نوشته شده توسط : مطلب پروژه

راهنمایی پروژه ها و راهنمایی پایان نامه های داده کاوی و تحقیقات و مقالات داده کاوی

راهنمایی ده ها پروژه های داده کاوی و راهنمایی پایان نامه های داده کاوی و انجام تحقیقات داده کاوی در حوزه های مختلف کسب و کار

 

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


 

راهنمایی پایان نامه های مقطع کارشناسی ارشد از ابتدا تا انتها (همکاری در جهت نگارش مقالات پژوهشی)

راهنمایی رساله های دکتری از ابتدای کار تا انتهای کار (همکاری در جهت نگارش مقالات پژوهشی)

 

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


راهنمایی و کمک به انجام پایان نامه های کارشناسی و پروژه های درسی

 



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 210
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

انجام پروژه داده کاوی جهت کشف تخلف در اسناد مالی و درآمدی شهرداری

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


شاوره انجام پایان نامه و پروژه های داده کاوی متن کاوی و بیگ دیتا مشاوره و انتخاب موضوع پایان نامه
تحویل مرحله به مرحلهانجام پروژه ها و پایان نامه های داده کاوی (Data Mining) در زمینه های
رده بندی (Classification)
خوشه بندی (Clustering)
پیش بینی (Prediction)
متن کاوی(Text mining)
انتخاب ویژگی (Feature Selection)
قواعد انجمنی (Association Rules)
انجام پروژه و پایان نامه ها ی با روش تحلیل پوششی داده ها با نرم افزار EMS
و …استفاده از الگرویتم های
۱ -شبکه عصبی مصنوعی(ANN)
۲ – شبکه های عصبی مصنوعی (RBF)

 

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

۳ – درخت تصمیم با شاخص جینی و آنتروپی

۴ – بگینگ و بوستینگ
۵ – ماشین بردار پشتیبان
۷ – سیستم استنباط بیزین
۸-الگوریتم ژنتیک , ازدحام ذرات
۹-الگوریتم های فراابتکاری
۱۰-قواعد همسایگی با fp-growth,apriory
۱۳-تحلیل نتایج با رسم نمودار Roc
۱۱-انواع مختلف روش های انتخاب ویژگی:شاخص ریلیف، ازدحام ذرات،شاخص جینی و …
۱۵-انواع روش های نمونه برداری و بیش نمونه گیری
۱۶-روش های حل مشکل رده نامتوازن
۱۷-تشخیص داده پرت
۱۸-تشخیص داده پرت محلی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

انجام پروژه های رپیدماینر در کوتاهترین زمان ممکن با کمترین قیمت با مشاوره وآموزش اجرای پروژه

انجام پروژه های داده کاوی با مشاوره و آموزش کامل

جهت مشاوره و یا کسب اطلاعات بیشتر می توانید با شماره های ذیل تماس بگیرید و یا برای ثبت سفارش آنلاین به وب سایت زیر مراجعه نمایید.



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 197
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

روشهای متن کاو
تشخیص حالت احساسی نویسنده مت
.مقدمه تشخیص احساسات یا Sentiment analysis شاخه ای از علوم کامپیوتر و پردازش زبان (NLP) است که سعی دارد ماشین و هوش مصنوعی را با احساس و عواطف انسانی آشنا سازد و تشخیص آنها از هم را میسر سازد . تلفن همراهی را تصور کنید که بر اساس مکالمات شما …

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

ادامه »
با گسترش روزافزون حجم اطلاعات موجود در وب و افزایش چشم گیر مقالات منتشر شده در زمینه های مختلف علمی ، دسترسی درست و مطالعه اطلاعات مورد نیاز، همواره یکی از مشکلات محققان و پژوهشگران قرن ۲۱ می باشد. اینکه چه طور از یک طرف با این حجم انبوه از …
نخستین شبکه ­ی واژگان زبان فارسی تحت عنوان فارس­نت (وردنت عمومی زبان فارسی)  با حمایت مرکز تحقیقات مخابرات ایران در پژوهشکده­ی IT پژوهشگاه فضای مجازی و با همکاری متخصصان از هر دو حوزه­ی رایانه و زبان شناسی دانشگاه شهید بهشتی تهیه گردیده است. در واقع هدف ایجاد فارس­نت، ایجاد یک شاخه­ی فارسی برای Word Net است …
پردازش متن به عنوان یکی از زیرحوزه های فعال هوش مصنوعی، سابقه ای دیرینه در زبان فارسی دارد و آزمایشگاه های مختلفی در دانشگاه ها و سازمانها برای پردازش متن شکل گرفته اند که آزمایشگاه پردازش متن و زبان طبیعی دانشگاه تهران و آزمایشگاه فناوری وب دانشگاه فردوسی و کارگروه …
برای بسیاری از روشهای پردازش متن و NLP،  نیاز به نمایش عددی کلمات و متون داریم تا بتوانیم از انواع روشهای عددی حوزه یادگیری ماشین مانند اکثر الگوریتم های دسته بندی روی لغات و اسناد استفاده کنیم. یکی از رهیافت هایی که در این حوزه بسیار رایج شده است ، …

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


دسته بندی متون یا طبقه بندی (classifying)

* عبارتست از تشخیص موضوع اصلی یک سند. * هدف از طبقه بندی، ایجاد امکان استفاده از مدلی بر ای پیش بینی کلاسی از اشیا است که با عنوان ناشناخته برچسب خورده است * طبقه بندی یک فرایند ۲ مرحله ای است: الف- ساخت مدل ب- استفاده از مدل طبقه …

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 208
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

مقدمه در بسیاری از کاربردهای پردازش طبیعی زبان ۱برچسب زنی اجزای سخن نیاز است . برچسب زنی تعیین برچسب دستوری برای یک کلمه در یک متن است . ورودی این سیستم متن است و خروجی آن کلمه ها با تگ های مناسب است [۴]. بسیاری از برچسب زن ها با …
ایست واژه ها (Stop words) در زبان فارسی و انگلیسی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


۱   ابزارها, خدمات, روشهای متن کاوی, فرایند متن کاوی ۰ 131

ایست واژه ها (Stop words) ایست واژه ها لغاتی هستند که علی رغم تکرار فروان در متن، از لحاظ معنایی دارای اهمیت کمی هستند مثل “اگر”، “و”، “ولی”،”که” و غیره. در نگاه اولیه کلمات ربط و تعریف، ایست واژه به نظر می آیند؛ در عین حال بسیاری از افعال، افعال …

برای بسیاری از روشهای پردازش متن و NLP،  نیاز به نمایش عددی کلمات و متون داریم تا بتوانیم از انواع روشهای عددی حوزه یادگیری ماشین مانند اکثر الگوریتم های دسته بندی روی لغات و اسناد استفاده کنیم. یکی از رهیافت هایی که در این حوزه بسیار رایج شده است ، …

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


فرایند متن کاوی، شامل سه مرحله است که عبارت اند از: آماده سازی، پردازش و تحلیل متن. آماده سازی متن: این مرحله، انتخاب، پاکسازی و پردازش مقدماتی متن را شامل می شود. در این مرحله، پایگاه ها یا منابعی که قرار است متن کاوی بر روی آنان انجام پذیرد، انتخاب …
ادامه »



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 220
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

خلاصه ساز م    آموزش ها, خلاصه سازی, روشهای متن کاوی, متن کاوی ۰
با گسترش روزافزون حجم اطلاعات موجود در وب و افزایش چشم گیر مقالات منتشر شده در زمینه های مختلف علمی ، دسترسی درست و مطالعه اطلاعات مورد نیاز، همواره یکی از مشکلات محققان و پژوهشگران قرن ۲۱ می باشد. اینکه چه طور از یک طرف با این حجم انبوه از …
خلاصه سازی متون عملیاتی است که مقدار متن را در یک مستند، با حفظ معنای اصلی آن، کاهش می دهد.استراتژیهای مهم: ۱- روشهای آماری       ۲- روشهای مکاشفه ای در خلاصه سازی، کاربر تعیین می نماید که متن خلاصه شده، چند درصد از متن اصلی
 باشد. منظور از …

کاربردهای متن کاوی
کاربردهای متن کاوی : گروه بندی و طبقه بندی داد

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


یکی از مواردی که میتواند به کاربر در یافتن سریع تر اطلاعات موردنظرش کمک کند،دسته بندی اطلاعات موجود است. این دسته بندی به کاربر یک نگاه کلی از آنچه در مجموعه متون موجود است می دهد . در ساختن این دسته بندی دو روش کلی وجود دارد. در روش اول، …

اربردهای متن کاوی به اندازه کاربردهای متن گسترده است.  جستجو و بازیابی گروه بندی (دسته بندی بدون نظارت) و طبقه بندی(دسته بندی با نظارت) خالصه سازی برچسب زدن نحو



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 199
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

مشاوره انجام پایان نامه و پروژه های داده کاوی متن کاوی و بیگ دیتا مشاوره و انتخاب موضوع پایان نامه
تحویل مرحله به مرحلهانجام پروژه ها و پایان نامه های داده کاوی (Data Mining) در زمینه های
رده بندی (Classification)
خوشه بندی (Clustering)

پیش بینی (Prediction)

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

 

متن کاوی(Text mining)
انتخاب ویژگی (Feature Selection)
قواعد انجمنی (Association Rules)
انجام پروژه و پایان نامه ها ی با روش تحلیل پوششی داده ها با نرم افزار EMS
و …استفاده از الگرویتم های
۱ -شبکه عصبی مصنوعی(ANN)
۲ – شبکه های عصبی مصنوعی (RBF)
۳ – درخت تصمیم با شاخص جینی و آنتروپی
۴ – بگینگ و بوستینگ
۵ – ماشین بردار پشتیبان
۷ – سیستم استنباط بیزین
۸-الگوریتم ژنتیک , ازدحام ذرات
۹-الگوریتم های فراابتکاری
۱۰-قواعد همسایگی با fp-growth,apriory
۱۳-تحلیل نتایج با رسم نمودار Roc
۱۱-انواع مختلف روش های انتخاب ویژگی:شاخص ریلیف، ازدحام ذرات،شاخص جینی و …
۱۵-انواع روش های نمونه برداری و بیش نمونه گیری

۱۶-روش های حل مشکل رده نامتوازن

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

 

۱۷-تشخیص داده پرت
۱۸-تشخیص داده پرت محلی
انجام پروژه های رپیدماینر در کوتاهترین زمان ممکن با کمترین قیمت با مشاوره وآموزش اجرای پروژه

 

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 190
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

  عبارتست از تشخیص موضوع اصلی یک سند.
* هدف از طبقه بندی، ایجاد امکان استفاده از مدلی بر ای پیش بینی کلاسی از اشیا است که با عنوان ناشناخته برچسب خورده است
* طبقه بندی یک فرایند ۲ مرحله ای است:
الف- ساخت مدل
ب- استفاده از مدل

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


طبقه بندی در مواردی مانند: تعیین اعتبار، مشخص نمودن گروه هایی از مشتری ها که خصوصیات و علایق مشترکی دارند، تشخیص میزان تاثیر داروها و موثر بودن درمان بکار می رود. در ادامه طبقه بندی و برخی روش ها و الگوریتم های آن به طور کامل توضیح داده شده اند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


زمانی که corpus به ماتریس inner point distance تبدیل شد می توان از کلاسیفایر های ساده نزدیک ترین همسایه برای داده ها استفاده کرد. از آنجایی که ابعاد بالای موروثی ویژگی های اسناد، مانع از یک رویکرد ساده برای استفاده از درخت های دسته بندی مبتنی بر ویژگی می شوند می توان یا از رویکرد های دسته بندی دیگر استفاده کرد یا این درخت ها را در ترکیب با استراتژی های کاهش بعد به کار برد. در توسعه دسته بندی برای اسناد متنی چالش هایی وجود دارد مثلا یکی از این چالش ها برخورد با مترادف ها و کلمات چند معنی است. چالش دیگر ایجاد دسته بندی هایی است که بتواند مجوعه های بزرگ اسناد را دسته بندی کند. یا چالش دیگر دسته بندی منابع اسناد در حال استریم است. مانند اخبار که بصورت مداوم پخش می شوند. بد نیست اشاره کنیم که تکنیک های طبقه بندی بر خلاف خوشه بندی، تکنیک های با ناظر یا supervised هستند.

هدف از طبقه بندی متون نسبت دادن کلاسهای از پیش تعریف شده به اسناد متنی است. در طبقه بندی یک مجموعه آموزشی از اسناد، با کلاس های معین وجود دارد. با استفاده از این مجموعه، مدل طبقه بندی معین شده و کلاس سند جدید مشخص میگردد. برای اندازه گیری کارایی مدل طبقه بندی، یک مجموعه تست، مستقل از مجموعه آموزشی در نظر گرفته میشود. برچسبهای تخمین زده شده با برچسب واقعی اسناد مقایسه میشود. نسبت اسنادی که به درستی طبقه بندی شده اند به تعداد کل اسناد، دقت نامیده میشود. در ادامه برخی از تکنیک های کلاسیفایینگ یا طبقه بندی به اختصار معرفی می شوند:

درختهای تصمیم
برای ساختن این درختها از یک استراتژی تصمیم و غلبه استفاده میشود.
درخت تصمیم متوالی بر پایه طبقه بندی
در این مدل هر یک از گره های داخلی به عنوان تصمیم گیرنده و هر یک از برگها به عنوان یک برچسب کلاس می باشند. این مدل از دو مرحله تشکیل شده است: ۱ القای درخت- که از مجموعه آموزشی داده شده القا می شود.۲- هرس درخت- درخت القا شده را با از بین بردن هر وابستگی آماری روی مجموعه داده آموزشی خاص، کوتاه تر و قوی تر میکند.

روش Hunt
ساخت درخت به صورت بازگشتی و با استفاده از راهبرد حریصانه تقسیم و حل اول عمق میباشد.

الگوریتم C4.5
مراحل کلی الگوریتم C4.5  برای ساخت درخت تصمیم :
۱) انتخاب ویژگی برای گره ریشه
۲) ایجاد شاخه برای هر مقدار از آن ویژگی
۳) تقسیم موارد با توجه به شاخه ها
۴)تکرار روند برای هر شاخه تا زمانی که تمام موارد شاخه، کلاس یکسان داشته باشند.
انتخاب هر ویژگی به عنوان ریشه بر پایه بالاترین حصول از هر صفت است.

الگوریتم

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

SPRINT

SPRINT یک درخت تصمیم طبقه بندی کننده سریع و مقیاس پذیر است. این الگوریتم مجموعه داده آموزشی را به صورت بازگشتی با استفاده از تکنیک حریصانه اول به پهنا تقسیم میکند تا وقتی که هر قسمت متعلق به گره برگ یا کلاس یکسان باشد. این روش، از مرتب سازی داده ها استفاده میکند و محدودیتی برای حجم داده ورودی نداشته و میتواند بر روی الگوهای سریال یا موازی برای جایگزینی داده های خوب و با توازن بار اجرا شود. دو ساختار داده ای را به کار می گیرد:  لیست داده ها و پیشینه نما، که مقیم در حافظه نیستند و این مسئله SPRINT  را برای مجموعه داده های بزرگ مناسب می سازد. بنابراین همه محدودیتهای حافظه بر داده ها را حذف می کند. این الگوریتم صفت های پیوسته و طبقه ای را به کار میبرد.

فرمول بندی موازی از درخت تصمیم بر پایه طبقه بندی
هدف این روش مقیاس پذیری در زمان اجرا و حافظه مورد نیاز است. فرمول بندی موازی برمحدودیت حافظه که برای الگوریتم های ترتیبی مشکل ساز است غلبه می کند، بدین صورت رسیدگی به مجموعه داده های بزرگ تر بدون نیاز به دیسک I/O افزونه را ممکن میسازد. همچنین فرمول بندی موازی سرعت بالاتری نسبت به الگوریتم سریال ارائه میکند. انواع فرمول بندی های موازی برای ساخت درخت تصمیم طبقه بندی:
رویکرد ساخت درخت همزمان
رویکرد ساخت درخت قسمت بندی شده
فرموله بندی موازی ترکیبی
طبقه بندی کننده ساده بیزی
یک روش طبقه بندی احتمالی است. کلاس یک سند متناسب با کلماتی است که در یک سند ظاهر شده اند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


نزدیکترین همسایه K طبقه بندی کننده
راه دیگر این است که اسنادی از مجموعه آموزش انتخاب شوند که مشابه سند جاری هستند. کلاس سند جاری، کلاسی است که اکثریت اسناد مشابه، دارند. در این روش K تا سند از مجموعه آموزش که بیشترین شباهت (بر اساس معیار شباهت تعریف شده) را به سند جاری دارند به عنوان همسایگان آن سند انتخاب می شوند. این طبقه بندی به سه مورد اطلاعاتی نیاز دارد: ۱ مقدار K 2) مجموعه ای از داده های برچسب دار، که به عنوان داده های آموزشی مورد استفاده قرار گیرند و ۳) یک معیار شباهت.
یک روش ساده برای معیار شباهت شماردن تعداد کلمات مشترک در دو سند است. این روش باید برای اسناد با طول مختلف نرمال سازی شود. یک روش استاندارد برای اندازه گیری شباهت، شباهت کسینوسی است.

شبکه های عصبی

 

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

در مسائل مربوط به طبقه بندی، شبکه عصبی با داشتن ورودی ها و خروجیهای مشخص باید تشخیص دهد که هر ورودی با کدام طبقه از خروجی های تعریف شده بیشترین تطابق را دارد . در شبکه پرسپترون چند لایه از روش آموزش با نظارت استفاده می شود. هدف از آموزش شبکه به حداقل رساندن خطای تولید شده میباشد که براساس تنظیم وزنهای شبکه انجام میشود. معمولا از الگوریتم آموزش پس انتشار استفاده میشود. در این الگوریتم پس از محاسبه مقدار خطا در لایه خروجی مقادیر وزنها در لایه پنهان در جهت کاهش خطا تنظیم میشوند.
استفاده از شبکه های عصبی مزایا و معایبی  دارند که مزایای آن به اختصار عبارتند از
روش های خود تطبیقی برای مبنای داده هستند. میتوانند هر تابعی را با دقت دلخواه تخمین بزند.  مدلهای غیر خطی هستند.  با دادههای ناقص یا گم شده به خوبی کار میکنند.
و معایب شبکه های  عصبی عبارتند از: برآورد یا پیش بینی خطا انجام نمیشود.  چگونگی برآورد شدن روابط میان لایه های پنهان را نمی توان  معین کرد.

(SVM) ماشین بردار پشتیبانی
الگوریتم طبقه بندی یا دسته بندی مشاین بردار پشتیبان که از روش های یادگیری با نظارت استفاده می کند که در مقاله دیگری به طور کامل در مورد این روش توضیح داده شده است.

ژنتیک

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

یک روش بهینه سازی اکتشافی است که از قوانین تکامل بیولوژیک طبیعی تقلید میکند. الگوریتم ژنتیک قوانین را بر روی جواب های مسأله (کروموزومها)، برای رسیدن به جوابهای بهتر، اعمال میکند. در هر نسل به کمک فرآیند انتخابی متناسب با ارزش جوا بها و تولید مثل جواب های انتخاب شده و به کمک عملگرهایی که از ژنتیک طبیعی تقلید شده اند، تقریب های بهتری از جواب نهایی بدست میآید. این فرایند باعث میشود که نسلهای جدید با شرایط مساله سازگارتر باشند. به منظور حل هر مسئله، ابتدا باید یک تابع برازندگی برای آن ابداع شود. این تابع برای هر کروموزوم، عددی را بر می گرداند که نشان دهنده شایستگی آن کروموزوم است. در طی مرحله تولید نسل ازعملگرهای ژنتیکی استفاده می شود که با تأثیر آنها بر روی یک جمعیت، نسل بعدی تولید میشود. عملگرهای انتخاب، آمیزش و جهش معمولاً بیشترین کاربرد را در الگوریتم های ژنتیکی دارند . تعدادی شروط خاتمه برای الگوریتم ژنتیک وجود دارد از جمله: تعداد مشخصی نسل، عدم بهبود در بهترین شایستگی جمعیت در طی چند نسل متوالی و عدم تغییر بهترین شایستگی جمعیت تا یک زمان خاص.
در اکثر مواقع طبقه بندی کننده های SVM و K نزدیک ترین همسایه کارآیی بالایی را ارائه میکنند و پس از آن ها شبکه عصبی، درخت های تصمیم و روش ساده بیزی قرار گرفته اند.



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 193
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

  گروه‌های دوستان در شبکه‌ی اجتماعی برای نیاز به تعریف و توضیح ندارد. چیزی شبیه به همان «حلقه‌های» و یا لیست دوستان در فیسبوک و توئیتر که به شما در سازمان‌دهی روابط خود با افراد در شبکه‌های اجتماعی کمک می‌کنند. این حلقه‌ها ممکن است کاملا جدا از هم باشند، و یا این که با هم هم‌پوشانی داشته باشند، و یا حتی به صورت تو در تو و سلسله مراتبی با هم ارتباط داشته باشند.
هدف از این پروژه بدست آوردن خودکار حلقه‌های دوستان در شبکه اجتماعی است. در واقع شما لیستی از کاربران در شبکه اجتماعی را به عنوان ورودی در اختیار خواهید گرفت، و با روش و الگوریتمی که در طول پروژه توسعه می‌دهید، برای هر کدام از این کاربران حلقه‌‌ای از دوستان احتمالی در شبکه اجتماعی را پیدا می‌کنید.
برای اطلاعات بیشتر و دریافت مجموعه داده به این صفحه مراجعه کنید.
۱. مقدمه

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

 

 

امروزه شبکه های اجتماعی ما بسیار گسترده و بهم ریخته شده اند و درحال حاضر هیچ راه مناسبی برای مدیریت و دسته بندی آن ها وجود ندارد. البته بعضی از شبکه های اجتماعی به کاربران این امکان را داده اند تا خودشان دوستانشان را در حلقه های اجتماعی ( مانند حلقه ها در google+ و لیست دوستان در facebook و twitter ) دسته بندی کنند. بهرحال این روش راهی مناسب به نظر نمی رسد چرا که با اضافه شدن افراد دیگر به دوستان باید این حلقه ها توسط کاربران بروزرسانی گردند.
پس ما به دنبال طراحی سیستمی هستیم که قابلیت یادگیری و شناسایی افراد را داشته باشد و بتواند به صورت خودکار حلقه های اجتماعی را تشکیل داده و آن ها را بروز رسانی کند.
در این پروژه ما اطلاعات یک شخص و دوستان وی در یک شبکه اجتماعی را داریم و هدف ما پیدا کردن حلقه های اجتماعی شخص مورد نظر است که هر حلقه زیر مجموعه ای از دوستان شخص می باشد.
همان طور که در شکل زیر مشاهده می شود شخص با u و دوستان وی با v مشخص گردیده اند و هدف ما پیدا کردن حلقه های نمایش داده شده است.
an ego-network with labled circles
an ego-network with labled circles
۱.۱. شرح مسئله

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


در این پروژه قصد داریم به بررسی روش های گفته شده در کارهای مرتبط بر روی دیتاست های مختلف بپردازیم و دقتشان را با یکدیگر مقایسه کنیم.
خروجی کار در انتها نموداری برای سنجش میزان دقت و سرعت روش های مختلف مطرح شده می باشد.
۲. کارهای مرتبط
۲.۱. Clustering

در روش خوشه بندی یا clustering مدلی برای ایجاد حلقه ها با ویژگی های زیر تعریف می شود:

    راس هایی که در یک حلقه قرار دارند باید ویژگی ها یا جنبه های یکسانی داشته باشند
    حلقه های مختلف باید براساس ویژگی های متفاوتی شکل گرفته باشند مثلا حلقه ی خانوادگی یا حلقه ی افراد یک دانشگاه
    حلقه ها می توانند با یکدیگر تداخل داشته باشند و همچنین حلقه های قوی تر نیز میتوانند داخل حلقه های ضعیف تر شکل بگیرند

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


ورودی این مدل برای هر کاربر مجوعه V که رئوس متصل به u ( کاربر مورد نظر ) و مجموعه E که شامل تمام یال هایی می باشد که میان مجموعه V وجود دارد به همراه پروفایل تمام اعضای مجموعه V است.
هدف این روش پیش بینی کردن مجموعه نهایی C ( حلقه های کاربر ) میباشد

و همچنین مشخص کردن پارامتر
θk\theta_kθk

که نمایش دهنده این می باشد که حلقه بر اساس چه ویژگی یا جنبه هایی تشکیل شده است.
همچنین از پارامتر
ϕ(x,y)\phi(x,y)ϕ(x,y)

به عنوان نمایش دادن میزان شباهت پروفایل دو کاربر x و y استفاده شده است.
در قدم اول ابتدا هر یک از رئوس گراف را یک خوشه در نظر میگیریم و سپس از فرمولی که در زیر آمده برای تشخیص اینکه آیا دو خوشه میتوانند با هم ترکیب شوند و یا خیر استفاده میشود. این روش را تا جایی که مجموعه C تغییری نکند انجام میدهیم.
p((x,y)∈E)∝exp{∑Ck⊇{x,y}⟨ϕ(x,y),θk⟩−∑Ck⊉{x,y}αk⟨ϕ(x,y),θk⟩}p((x,y) \in E) \propto exp \Bigg\{ \sum_{C_k \supseteq \{x,y\}}\langle \phi(x,y) , \theta_k \rangle – \sum_{C_k \nsupseteq \{x,y\}}\alpha_k \langle \phi(x,y) , \theta_k \rangle \Bigg\}p((x,y)∈E)∝exp{∑Ck⊇{x,y}⟨ϕ(x,y),θk⟩−∑Ck⊉{x,y}αk⟨ϕ(x,y),θk⟩}

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


که سیگمای اول شامل تمام حلقه هایی است که هر دو راس در آن ها قرار میگیرند و سیگمای دوم بقیه ی حلقه ها را شامل می شود.
در این فرمول مقدار
αk\alpha_kαk

ضریب تناسبی برای متعادل کردن مقدار سیگما ها می باشد.
ایده این فرمول آن است که اگر مقدار پارامتر
⟨ϕ(x,y),θk⟩\langle \phi(x,y) , \theta_k \rangle⟨ϕ(x,y),θk⟩

که نمایش دهنده میزان شباهت دو راس با یکدیگر بر اساس ویژگی مورد نظر می باشد بالا باشد یعنی هر دو راس متعلق به یک خوشه می باشند و اگر پایین باشد یعنی متعلق به خوشه ی مورد نظر نیستند[۱].
۲.۲. Infomap

در روش infomap با استفاده از روش خوشه بندی با این تفاوت نسبت به روش قبل که می تواند بر روی گراف های جهت دار و وزن دار نیز اعمال شود دو الگوریتم برای خوشه بندی داده ها ارائه می شود که به طور مختصر به شرح آن ها می پردازیم[۲].

    الگوریتم Two-level clustering
    هسته کاری این الگوریتم خوشه بندی براساس map equation است و ابتدا هر یک از راس های گراف را یک خوشه درنظر می گیرد و در هر مرحله هرکدام از خوشه ها که شباهت زیادی با یکدیگر دارند ادغام می کند.

    این روش از این نظر مناسب نیست که هر گاه دو خوشه با یکدیگر ترکیب شوند یک خوشه ی جدید به وجود می آید و اثری از خوشه های قبلی دیگر نیست و ممکن است که اگر خوشه های قبلی با خوشه های دیگری در مراحل بعد ترکیب شوند به جواب بهتر و دارای دقت بالاتری دست پیدا کنیم[۲].

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

    برای رفع این مشکل دو متد زیر در نظر گرفته شده است:
    ۱٫ متد Submodule movements
    این متد به ما قابلیت تجزیه ی یک خوشه به زیر خوشه هایش که در مرحله قبل تشکیل شده اند را می دهد.
    ۲٫ متد Single-node movements
    این متد به ما قابلیت تجزیه ی خوشه و جدا کردن یک راس و درنظر گرفتن راس به عنوان خوشه ی مستقل را می دهد.
    الگوریتم Multi-level clustering
    این الگوریتم مدل کامل تری از الگوریتم قبل بوده و متد هایی که در این الگوریتم تعریف می شوند می توانند به جای تجزیه ی خوشه به یک مرحله قبل خوشه را به مقدار دلخواه تجزیه کنند.

توسط این دو متد می توان در هر مرحله و هر جا که یک خوشه ترکیب شد چک کنیم که آیا بهترین ترکیب برای خوشه بندی را انتخاب کرده ایم و یا خیر!
۲.۳. Martelot

روش Le Martelot نیز همانند روش های پیشین از الگوریتم های خوشه بندی اطلاعات استفاده می کند و قابل اجرا بر روی گراف های جهت دار و وزن دار می باشد.
در این روش با استفاده از [۴]Newman’s modularity که فرمولی برای محاسبه میزان تفاوت های یک راس یا یک خوشه با دیگر خوشه ها می باشد به خوشه بندی اطلاعات می پردازیم.
این فرمول خوشه بندی برای حل مسئله ی تشخیص گروه ها مناسب نیست چرا که در شناسایی گروه های کوچک و متداخل ضعیف عمل می کند.
برای حل این مشکل در روش Martelot ضرایب مختلفی به میزان متفاوت بودن خوشه ها با یکدیگر در ماژولاریتی داده می شود و الگوریتم خوشه بندی را چندین بار اجرا می کند و خوشه بندی بهینه را انتخاب میکند [۵].
۲.۴. Louvain

متد Louvain یک متد نسبتا سریع برای پیدا کردن گروه ها در شبکه های بزرگ است.
در این متد با استفاده از روش های حریصانه بر روی ماژولاریتی [۴] آن را بهینه کرده و به خوشه بندی راس های گراف می پردازد.
این بهینه سازی در ۲ مرحله انجام می شود:

    با بهینه سازی محلی متد به دنبال گروه های کوچک میگردد.
    سپس با ادغام گروه های کوچک که توانایی ایجاد گروه های بزرگتر را دارند خوشه بندی را ادامه می دهد.

این مراحل را مرتبا تکرار می شود تا به مقدار ماکزیمم ماژولاریتی برسیم [۶].
Louvain two greedy optimization steps
Louvain two greedy optimization steps
۲.۵. Combo

الگوریتم های جستجوی موجود برای تشخیص گروه های شبکه های اجتماعی براساس یک یا چند روش زیر کار می کنند:

    ادغام : ادغام و ترکیب دو جامعه مشابه
    تقسیم : تقسیم و تجزیه ی دو جامعه ی متفاوت
    نوترکیبی : انتقال و حرکت کردن یک راس بین دو جامعه ی مجزا

الگوریتم combo با بهره گیری از هر ۳ روش بالا به حل مساله تشخیص گروه های اجتماعی می پردازد که روش انجام کار این الگوریتم را توضیح می دهیم.
پس از انتخاب شدن یک حالت اولیه از یک شبکه اجتماعی موجود ( منظور از حالت اولیه ،جوامع موجود در ابتدای برنامه است که می توانند هر جوامع تصادفی انتخاب شوند و یا در ابتدای کار تمام شبکه یک جامعه در نظر گرفته شود و در مراحل بعدی تقسیم شود و یا هر کدام از رئوس یک جامعه جدا در نظر گرفته شوند و در مراحل بعد ادغام گردند ) مراحل زیر تا زمانی که تابع هدف به امتیاز بالا و نتایج مطلوب دست پیدا کند انجام می شود[۳]:

    برای هر جامعه بهترین توزیع مجدد ممکن برای تمام رئوس به جامعه ی مقصد آن ها ( اگر جامعه ی مقصد موجود نباشد جامعه جدید ایجاد می گردد ) محاسبه می شود. به زبان ساده تر در این مرحله وضعیت یک جامعه بررسی می شود که آیا جامعه مشخص شده مستقل از بقیه ی جوامع موجود است یا نیاز دارد که تغییرات روی آن صورت بگیرد[۳].
    در این مرحله اگر جامعه نیاز به تغییر داشته باشد بهترین عمل ادغام/تقسیم/نوترکیبی انتخاب شده و اعمال می شود[۳].

۳. آزمایش و نتایج
۳.۱. Data Set

مجموع دادگان ورودی این مساله یک گراف شبکه است که به صورت های مختلف می تواند تعریف شود.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    فرمت Link list
    این نوع ورودی دارای N خط می باشد که به تعداد یال های گراف شبکه است و در هر خط هر یال به صورت
    source target weight
    تعریف می شود. که source و target رئوس مبدا و مقصد را مشخص می کنند و weight نیز نمایش دهنده وزن یال است که عددی نا منفی است و می تواند نباشد که در این صورت به صورت پیش فرض مقدار ۱ در نظر گرفته می شود.
    همان طور که مشاهده می شود توسط این نوع به سادگی می توان گراف های جهت دار و وزن دار را نیز پشتیبانی کرد.
    فرمت Pajek
    این نوع ورودی راس ها و یال های گراف شبکه را در دو قسمت جداگانه همانند زیر در یک فایل مشخص می کند:

    *Vertices N
    ۱ “V1”
    ۲ “V2”
    ۳ “V3”
    …

    *Edges M
    ۱ ۲ ۱
    ۱ ۵ ۰٫۳۳
    ۴ ۳ ۰٫۵
    ۲ ۳ ۱
    …

در بخش رئوس که با
Vertices N*
مشخص می شود N نمایش دهنده ی تعداد رئوس گراف است و در N خط بعد در هر خط ابتدا id راس و سپس label آن می آید.
در بخش یال ها نیز که با
Edges M*
و یا
Arcs M*
مشخص می شود M نمایش دهنده ی تعداد یال های گراف است و M خط بعد همانند فرمت Link List تعریف می شود.

ورودی آزمایش شده ابتدایی شبکه ی کوچکی از فیسبوک با ۴,۰۳۹ راس و ۸۸,۲۳۴ یال و از هر دو نوع فرمت Link list و Pajek می باشد.
۳.۲. Methods of Implementation

در این قسمت به بررسی و انجام آزمایش الگوریتم های ارائه شده روی مجموع دادگان پرداخته شده و از کدهای موجود و آماده ی آنان استفاده شده است. (لینک کدها)
روش کامپایل و اجرای هر الگوریتم در فایل readme که داخل فولدر هر کدام قرار دارد آورده شده است.

    ۳.۲.۱. Infomap
    با انجام این روش بر روی دادگان facebook به نتایج و خروجی های زیر دست یافتیم که در گیت هاب نیز موجود است. برای مشاهده نوع فرمت فایل های خروجی به اینجا مراجعه کنید.
    تعداد ۷ انجمن پیدا شد که توسط ۱۲ یال با یکدیگر در ارتباطند. این ۷ انجمن با یکدیگر قابل ترکیب نیستند ولی توسط وزن یالی که بین آن هاست می توان تشخیص داد که چه مقدار به نسبت بقیه به یکدیگر شباهت دارند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    communities predicted by infomap on facebook dataset
    communities predicted by infomap on facebook dataset
    ۳.۲.۲. Combo
    پس از انجام این روش بر روی دادگان facebook زمان زیادی را برای دریافت نتایج منتظر ماندم ( در حدود ۷۰ ثانیه ). در پایان کار نتایج و فایل خروجی این الگوریتم فایلی متنی است که تعداد خطوط آن به تعداد رئوس گراف می باشد و در هر خط تنها یک عدد نامنفی تولید شده است که نشان دهنده تعداد انجمن هایی است که راس مورد نظر در آن مشترک است.
    تعداد انجمن ها و همچنین اعضای این انجمن ها جزو نتایج و خروجی برنامه نیست!!
    ۳.۲.۳. Louvain
    نتایج خروجی برنامه ی نوشته شده برای متد Louvain به صورت یک فایل با فرمت tree. می باشد که برای تبدیل این فرمت به clu. این قطعه کد را نوشتم. چرا که برای نمایش خروجی به فرمت clu. نیازمندیم.
    با انجام این روش بر روی دادگان facebook به تعداد ۱۷ انجمن مختلف دست پیدا کردم که در شکل زیر قابل مشاهده می باشد.

    facebook clu results in louvain method
    facebook clu results in louvain method
    ۳.۲.۴. Martelot
    با اجرای متد Le Martelot بر روی دیتاست facebook به خروجی زیر دست پیدا کردیم ( گیت هاب ) .
    این روش ۱۲ انجمن بر روی این دادگان پیدا کرد که در شکل زیر نمایان است.

    facebook clu results in martelot method
    facebook clu results in martelot method

۴. کارهای آینده
بررسی نتایج بدست آمده

تا اینجای کار روش های موجود را بر روی دادگان فیسبوک اجرا کردیم و برای هر کدام به نتایجی رسیدیم.
برای دقیق تر شدن نتایج اقدام به بررسی دادگان توییتر (اینجا) نیز کردم که متاسفانه به دلیل بالا بودن حجم آن رم کامپیوترم پر شد و در استفاده از تمام روش ها به ارور segmentation fault برخوردم.
برای بررسی دقت الگوریتم های مختلف نیازمند یک جواب بودم که با خروجی دیگر برنامه ها مقایسه کنم و میزان صحت روش های مختلف را اندازه گیری کنم ولی متاسفانه دسترسی به جواب صحیح برای دادگان فیسبوک نداشتم. البته طبق تحقیقات دانشگاه MIT بر روی همین دادگان و مقایسه روش ها با یکدیگر به نمودار رسیده اند.
comparison of algorithms
comparison of algorithms

با توجه به این نمودار که از نظر کیفیت و سرعت متدهای مختلف بررسی شده اند متد Combo دارای بالاترین کیفیت و متد Martelot بالاترین سرعت را دارا بوده است.
نکته حائز اهمیت نبودن روش Infomap است که دلیلش رو نمیدونم!

با توجه به گستردگی زیاد این روش و همچنین داشتن کد بسیار قوی که از انواع فرمت های ورودی و خروجی را پشتیبانی می کند و دارای option زیادی برای اجرای آن است به همراه داکیومنت بسیار قوی و کامل ، من استفاده از روش Infomap را درحال حاضر مناسب ترین روش برای پیدا کردن گروه های دوستان در شبکه های اجتماعی می دانم و به بقیه ی دوستان پیشنهاد می کنم.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 246
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

.مقدمه

تشخیص احساسات یا Sentiment analysis شاخه ای از علوم کامپیوتر و پردازش زبان (NLP) است که سعی دارد ماشین و هوش مصنوعی را با احساس و عواطف انسانی آشنا سازد و تشخیص آنها از هم را میسر سازد .
تلفن همراهی را تصور کنید که بر اساس مکالمات شما با افراد تشخیص میدهد که امروز روز دشواری داشته اید و به طور خودکار تماس کسانی که سابقه ی بیشترین دعوا ی لفظی را دارند را بلاک میکند تا شما در آرامش باشید .
شبکه ی اجتماعی را تصور کنید که لحن و احساس شما را از آپدیت روزانه ی که پست کردید تشخیص میدهد و شما را با افرادی با حس مشابه در تماس قرار میدهد تا با هم بر سر مشکل مشترکتان (مثلا حقوق کم ) درد و دل کنید ! همچنین اگر شبکه ی اجتماعی دارای جامعه ی بزرگی باشد اطلاعات جمع آوری شده ی آن برای امور آماری – روان شناسی بی نظیر خواهند بود . مثلا روانشناسان میتوانند شروع یک اپیدمی افسردگی در یک منطقه ی خاص را تشخیص دهند . از آنجا که میزان جرم وقتی که مردم یک منطقه مشکلات روحی دارند بیشتر است پلیس نیز میتواند نیرو های خود را بر این اساس در جا های مختلف تقسیم کند .
تشخیص احساس در زمان حال بیشترین کاربرد را در سایت های عرضه انواع کالا ( مجازی یا حقیقی ) دارد . بسیار مهم است که مدیر سایت و شرکت عرضه کننده ی محصول بدانند کدام نقد و بررسی ها از یک محصول مثبت هستند و کدام منفی و اینکه شدت منفی یا مثبت بودن چقدر است . کاربر از محصول کمی ناراضی است یا شدیدا ؟ شرکت های بزرگی همچون Amazon و Google و Ebay از SA برای بررسی نظرات کاربران استفاده میکنند . این شاخه از SA را Opinion mining میگویند .
تشخیص احساس ماشین های فعلی را یک نسل به جلو رانده و باور عمومی بر بی احساس بودن ماشین ها را کمرنگ تر میسازد . در پی آن باعث آسان تر شدن بسیاری از جهات زندگی انسان نیز خواهد شد .
۱٫۱شرح مساله

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


در این پروژه قصد داریم به کمک SA برنامه ای بنویسیم که حالت روحی نویسنده ی یک حساب سایت Twitter را بررسی و تشخیص دهد . برای ساده تر شدن مساله کمیت “حالت روحی” را یک کمیت بولین در نظر میگیریم به این شکل که شخص میتواند خوشحال – ناراحت – خنثی باشد .
در صورت امکان سعی خواهد شد که حالت های پیچیده تر روحی مثل استرس و آرام بودن (Contentsity and stress ) را نیز شناسایی کنیم .
در انتها اطلاعات را بر روی نموداری بر حسب زمان/احساس نمایش میدهیم که نشان دهنده ی حالت روحی فرد در گذر زمان خواهد بود .
هدف ما در این مساله رسیدن به دقت بالای ۷۰ درصد است . دلیل آن اینست که طبق گزارش ها و تحقیقات متعدد دقت انسان در تشخیص حالت احساسی با در دست داشتن تنها متن ، در حدود ۷۰ درصد است [۲۰] .
۲٫۱چالش ها

در پیاده سازی SA برای یک نوشتار همیشه چالش های زیادی را پیش روی داریم :

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    کاربر به طور مستقیم احساس خود را بروز نمیدهد و ممکن است به شیوه های متعدد ( افعال یا صفات منفی ) نظر خود را بروز دهد . جملات پیاپی ممکن است معنی هم را تکمیل کنند .
    امروز حالم به هیچ وجه خوب نبود
    یا
    اگر فکر میکنید حالم خوبه در اشتباهید
    کاربر ممکن است از کنایه – طعنه – شوخی استفاده کند . هر کدام از این موارد در ساختار جمله مفهومی کاملا متفاوت با مفهوم واقعی دارند .
    امروز همونقدر خوشحال بودم که یه بره تو سلاخ خونه خوشحاله !
    این کامپیوتر کاربردش در حد یه پاره آجر هم نیست
    کاربران معمولا از ساختار های جمله ای پیچیده ای استفاده میکنند که به دلیل رسمی نبودن الزاما در چهارچوب کلی ساختار زبان قرار نمیگیرند .
    بنا به دلایل فوق بررسی تنها لغت به لغت (Lexical) میتواند باعث ایجاد نتایج غلط شود .

هیچ کدام از این چالش ها تا به کنون در ضمینه ی NLP به کلی حل نشده اند .
۲٫ کار های مرتبط

در ضمینه ی Sentiment analysis که ازین به بعد آن را به اختصار SA می نامیم تا به کنون روش های مختلفی پیشنهاد شده . درادامه به بررسی تعدادی از کارهای انجام شده میپردازیم . هر روش به مقاله مربوط ارجا داده شده است .

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


ٍشکلک ها ! [۱] ساده ترین روش تشخیص حالت یک نویسنده مشاهده ی شکلک ها یا Emoticons ای هست که او در متن به کار برده . با این شکلک های بسیار ساده میتوان مفاهیم احساسی پیچیده ای را انتقال داد .
مثلا :
حالم خوب است :))
مفهوم بسیار ساده ای دارد . در حالی که :
حالم خوب است



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 236
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

برای پیاده سازی مدل های داده کاوی در SSAS از دو نوع داده ای استفاده می شود. یک نوع فیزیکی که در ساختار داده کاوی کاربرد دارد و دیگری نوع منطقی است که برای ستون های مورد استفاده در مدل بکار می رود. به زبان ساده تر در زمان ایجاد یک مدل داده کاوی برای ستون های انتخاب شده از جداول دو نوع داده ای Data Type و Content Type خواسته می شود که اولی به عنوان نوع فیزیکی و دومی به عنوان نوع منطقی برای SSAS شناخته می شود.
در ادامه به شرح هر یک از آن ها خواهم پرداخت اما قبل از آن به عبارات و تعارف زیر توجه کنید.

 

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

Data Type: از آن به عنوان نوع داده ای نام برده می شود که نشان دهنده نوع رکوردهای یک ستون خاص در جدول است.Content Type: از آن به عنوان نوع محتوایی نام برده می شود که بیانگر شرح حالت و نوع منطقی رکوردهای ستون است.Column: ستون های هر جدول است.Row: به سطرهای هر جدول گفته می شود.Case Table: منظور از آن جدول اصلی و پایه است.Nested Table: منظور از آن جدول کمکی یا تودرتو است.Input: به ستون های ورودی انتخاب شده برای مدل گفته می شود.Predictable: به ستون هایی که باید پیش بینی بر اساس آن ها انجام شود گفته می شود. از آن ها به عنوان ستون های قابل پیش بینی نیز یاد می شود.

 

در زمان ساخت مدل، نوع داده ای هر ستون در قسمت Data Type مشخص می شود که این کار باعث می شود تا الگوریتم اطلاعاتی از داده های هر ستون بدست آورد و در پردازش آن ها بکار گیرد. در داده کاوی هر نوع داده ای یک یا چند نوع محتوایی را پشتیبانی می کند. Content Type رفتار محتوای ستون ها را به SSAS توصیف می کند. برای مثال اگر داده های یک ستون در وقفه های زمانی خاصی مانند روزهای هفته تکرار شوند می توان نوع محتوایی مربوط به آن ستون را برابر با Cyclical قرار داد.برخی از الگوریتم های داده کاوی برای اینکه به خوبی کار کنند حساسیت زیادی به مشخص بودن این انواع دارند مانند الگوریتم بیز که نمی تواند از نوع محتوایی Continus برای مقادیر ورودی استفاده کند.

Data Typeهنگام ساخت مدل داده کاوی در SSAS باید نوع داده ای هر ستون مشخص شود. در واقع نوع داده ای مشخص کننده ی متنی یا عددی بودن داده های موجود در ستون است. موتور داده کاوی از این اطلاعات برای مشخص کردن نحوه پردازش استفاده می کند.هر نوع داده ای یک یا چند نوع محتوایی را پشتیبانی می کند. برای مثال اگر داده های موجود در یک ستون عدد باشند می توانید در قسمت Data Type آن نوع Numeric یا Text را انتخاب کنید. اگر نوع Numeric را انتخاب کنید در آن صورت برای Content Type نوع های Continuous و Discretize قابل انتخاب هستند.جدول زیر نوع های داده ای و محتوایی قابل پشتیبانی را نشان می دهد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

نوع محتوایی(Content Types) نوع داده ای (Data Type)
Cyclical, Discrete, Discretized, Key Sequence,Ordered, Sequence Text
Continuous, Cyclical, Discrete, Discretized, Key, Key Sequence, Key Time, Ordered, Sequence Long
Cyclical, Discrete, Ordered Boolean
Continuous, Cyclical, Discrete, Discretized, Key, Key Sequence, Key Time, Ordered, Sequence Double
Continuous, Cyclical, Discrete, Discretized, Key, Key Sequence, Key Time, Ordered Date

Content Type
همانطور که پیش تر گفته شد نوع محتوایی برای SSAS به عنوان یک نوع منطقی شناخته می شود که بیانگر رفتار محتوای ستون ها است. در ادامه به شرح هر یک از انواع Content Type می پردازم. Discrete: این نوع نشان دهنده این است که ستون مورد نظر شامل تعداد محدودی از مقادیر است. برای مثال ستون جنسیت را در نظر بگیرید، مقادیر این ستون یا مرد است یا زن، به ستون هایی که این نوع مقادیر را در خود دارند Discreteگفته می شود. این نوع مقادیر نظم و ترتیب خاصی ندارند و نمی توانند حاکی از مسئله ای باشند و با اینکه ممکن است گاهی اوقات عددی هم باشند، نمی توانند ما را به مقصود خاصی برسانند. مثل شماره تلفن که عدد است اما کاربردی در محاسبات ندارند. Continuous: این نوع بیانگر داده های عددی نامحدود است که در یک مقیاس خاصی میان مقادیر وجود دارد. همانطور که در مورد نوع Discreteمتوجه شدید، این نوع محدود و قابل شمارش است اما مقادیر Continuous مقادیر عددی در رنج بزرگ و نامحدود می باشند. یک ستون با رکوردهایی از درجه حرارت مثال مناسبی برای این نوع است.
Discretized: این نوع بیانگر فرایند قرار دادن یک مجموعه از تعداد محدودی از مقادیر Continuous در یک گروه است. به عبارت دیگر نوعdiscretized گروهی از داده های مشتق شده از ستون Continuous را شامل می شود. می توان داده ها را به صورت دستیdiscretized کرد.
Key: همانطور که از نام این نوع مشخص است، به معنای یونیک بودن رکوردها در هر سطر است. معمولا در جداول اصلی (Case Tables) کلید به صورت عددی یا متنی مشخص می شود. انتخاب نوع Key برای ستون به معنای عدم آنالیز برروی آن ستون است و فقط جهت پیگیری رکوردها استفاده می شود. جداول تودرتو (Nested Tables) نیز ستون کلید دارند اما معنای Key در این جداول کمی متفاوت با قبلی است. در جداول تودرتو زمانی یک ستون را به عنوان Key معرفی می کنیم که قصد داشته باشیم تا از خصوصیات آن ستون برای آنالیز استفاده کنیم. با این حال مقادیر ستون این جدول باید جدول اصلی یونیک باشد. برای مثال اگر قصد آنالیز محصولات خریداری شده ی مشتریان را دارید، باید در قسمت Content Type مربوط به ستون CustomerID در جدول اصلی نوع Key را انتخاب کنید و همین کار را برای ستون PurchasedProducts در جدول تودرتو انجام دهید.
key sequence: از این نوع فقط در الگوریتم خوشه بندی زنجیره ای استفاده می شود و بیانگر و توصیف کننده ی رویدادهای پیوسته و زنجیره ای در ستون است.

key time: از این نوع فقط در الگوریتم سری زمانی استفاده می شود و به معنای این است که مقادیر این ستون در واحد زمان نمایش داده می شوند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

 

Cyclical: رکوردهای موجود در این نوع بیانگر وجود یک مجموعه ی گردشی است برای مثال روزهای هفته یک مجموعه گردشی است زیرا هفت روز هفته مرتبا تکرار می شود. ستون های cyclical را با نوع های ordered discrete نیز مشخص می کنند.
Ordered: این نوع معمولا مشخص کننده ی ستون هایی است که مقادیر آن ها به صورت زنجیره ای است.



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 240
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

– پروژه داده کاوی با rapid miner

– پایان نامه داده کاوی با rapid miner

– پایان نامه داده کاوی با متلب Matlab

– پروژه داده کاوی با کلمنتاین

– انجام پروژه با نرم افزار کلمنتاین

– انجام پروژه با نرم افزار Clementine

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 240
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

انجام پروژه های داده کاوی (Data Mining) در زمینه های رده بندی (Classification)، خوشه بندی (Clustering)، پیش بینی (Prediction)، انتخاب ویژگی (Feature Selection) و قواعد انجمنی (Association Rules) با استفاده از روش ها و الگوریتم های مختلفی نظیر:
۱ -Ann)شبکه عصبی مصنوعی)

۲ - شبکه های عصبی مصنوعی (RBF)

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

 

۳ - درخت تصمیم--هرس درخت تصمیم--درخت تصمیم با شاخص جینی و آنتروپی
۴ - بگینگ  و بوستینگ
۵ - ماشین بردار پشتیبان
۶-ماشین بردار پشتیبان با بهینه ساز ازدحام ذرات
۸ - سیستم استنباط بیزین
۱۰-الگوریتم ژنتیک , ازدحام ذرات
۱۱-الگوریتم های فراابتکاری
۱۲-قواعد همسایگی با fp-growth,apriory
۱۳-تحلیل نتایج با رسم نمودار Roc
۱۴-انواع مختلف روش های انتخاب ویژگی:شاخص ریلیف، ازدحام ذرات،شاخص جینی و ...
۱۵-انواع روش های نمونه برداری و بیش نمونه گیری
۱۶-روش های حل مشکل رده نامتوازن

۱۷-تشخیص داده پرت با کانزدیکترین همسایه)

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

Knn

۱۸-تشخیص داده پرت محلی
انجام پروژه های رپیدماینر در کوتاهترین زمان ممکن با کمترین قیمت با مشاوره وآموزش اجرای پروژه
انجام پروژه های داده کاوی با مشاوره و آموزش اجرا جهت ارایه پروژه
در صورت ارایه پروژه فیلم آموزشی کار با نرم افزار و اجرای پروژه تحویل داده خواهد شد.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 245
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

در این قسمت برخی از ابزارهای متن کاوی که اکثر آنها رایگان هستند معرفی می کنیم.

    پلاگین استخراج اطلاعات در rapidMiner
    rapidMiner یک فریم ورک کد باز معروف است یا به عبارتی یک workbench تحلیلات کسب و کار کامل با تمرکز شدید بر داده کاوی، متن کاوی و predictive analytics است. این ابزار از مجموعه گسترده ای از تکنیک های توصیفی و پیش بینانه برای ارائه آگاهی کافی به کاربر برای انجام تصمیم گیری مناسب تر استفاده می کند. این پلتفرم نرم افزاری توسط شرکتی با همین نام به عنوان محیطی یکپارچه برای یادگیری ماشین، متن کاوی، داده کاوی، predictive analytics و  business analytics توسعه داده شده است.
    RapidMiner Studio روی هم رفته بیش از ۱۵۰۰ عملیات برای همه کارهای مربوط به تحلیل داده حرفه ای انجام میدهد از تقسیم داده تا تحلیل مبتنی بر بازار این ابزار در بردارنده همه ابزارهایی است که برای اینکه بتوان از داده به نحو مفید استفاده کرد می باشد . به علاوه ابزارهایی برای متن کاوی، وب کاوی، automatic sentiment Analysis در فروم های بحث در اینترنت (sentiment analysis و opinion mining) و همین طور تحلیل سری های زمانی و پیش بینی هم در این ابزار وجود دارد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    Information Extraction Plugin استفاده از تکنیک های استخراج اطلاعات در RapidMiner را میسر می کند. می توان از آن به عنوان اینترفیسی میان زبان طبیعی و IE یا روش های داده کاوی با استرخاج اطلاعات ارزشمند از اسناد یاد کرد.
    Extension متن کاوی در rapidminer از یک کلاس خاص برای کار با اسناد استفاده می کند: Document-class. این کلاس کل اسناد در ترکیب با متا اطلاعات دیگر را دربردارد. در مورد متن کاوی اسناد به نشانه های منحصر به فرد تقسیم می شوند که برای دسته بندی کل اسناد استفاده می شود. برای اهداف استخراج اطلاعات سند نشانه گذاری می شود (tokenize) و ترتیب این نشانه های حفظ می شود بنابراین نشانه گذارهایی در آن تعبیه شده که قادر به پردازش مجموعه های نمونه (examplesets)  استخراج شده از کلاس های اسناد هستند. به کاربردن این نشانه گذارها منجر به یک صفحه گسترده (spreadsheet) می شود که دربردارنده نشانه ها با یک ترتیب خاص یعنی همان طور که در سند یافت شده اند می باشد. هر نشانه شامل یک شماره خاص است که نشان می دهد از کدام واحد عمومی ایجاد شده است. برای مثال هر word-token یک جمله خاص دربردارنده شماره جمله است در حالی که  هر sentence-token از یک سند شامل شماره سند است.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    در این فرایند متن کاوی، یک سند لود می شود ، به exampleset ای حاوی نمونه ای که متن کامل سند را دارد تبدیل می شود و دو نشانه گذار (tokenizers) متن را به چندین نشانه (مثال یا نمونه ها) تبدیل می کند. سومین عملگر متن را به جمله ها تقسیم می کند و چهارمین عملگر جملات را به کلمات تبدیل می کند. پس از به اتمام رسیدن فرایند دیتاست به دست آمده حاوی نمونه هایی است که هر یک کلمه ای را نگهداری می کنند. به علاوه کلمات دربردارنده شماره جملات هستند و امکان دسترسی به همه کلمات یک جمله را میسر می کنند.
    دانلود نرم افزار رپدماینر 5.3
    NetOwl Extractor
    NetOwl Extractor ابتدا برای پرتقاضاترین برنامه های اطلاعاتی دولتی ساخته شد و مبتنی بر زبان شناسی محاسباتی پیشرفته و پردازش زبان طبیعی است. با آنالیز هوشمندانه ساختار و محتوای درون متن این ابزار می تواند به دقت اطلاعات کلیدی را شناسایی کند. این ابزار یک سیستم ایندکس گذاری اتوماتیک است که عبارات اصلی را در متن پیدا و کلاسیفای می کند مانند نام های شخصی، نام شرکت ها، نام مکان ها، تاریخ ها و … این ابزار همه نامه های یکسان را پیدا کرده و نام ها را به موجودیت مشابه به آن لینک می دهد. تشخیص دینامیک را با جستجوی استاتیک ترکیب می کند تا به دقت بالا رسیده و با سرعت بالایی به نتیجه برسد.
    TextAnalyst: natural language text analysis software

 

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    TextAnalyst یک سیستم متن کاوی است که تعدادی تابع آنالیز مهم را با تکیه بر استفاده از یک شبکه معنایی ایجاد شده خودکار از متن مورد بررسی ، پیاده می کند. مزیت اصلی آن در برابر سایر سیستم های بازیابی اطلاعات و تحلیل متن این است که می تواند شبکه معنایی یک متن را به طور کامل و بصورت خودکار بدون نیاز به از پیش توسعه دادن یک دیکشنری موضوعی خاص توسط انسان درآورد. کاربر مجبور نیست به این ابزار هیچ اطلاعات پس زمینه ای از موضوع بدهد سیستم این دانش را بصورت خودکار به دست می آورد پس با این حساب از یکی از تکنیک های یادگیری ماشین بی ناظر استفاده می کند.
    Intelligent Miner for Text
    مربوط به شرکت IBM software است . این ابزار مجموعه جامعی از ابزارهای تحلیل متن و جستجوی متن ارائه می کند:
    The Language Identi¯cation tool: این ابزار بصورت خودکار زبان سند را پیدا می کند می توانید آن را برای پوشش دادن زبان های دیگر آموزش دهید (از روش های یادگیری ماشین با ناظر (کلسیفایینگ) می توان استفاده کرد).

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    The Feature Extraction tool: این ابزار آیتم های لغت را در متن پیدا می کند خودش بصورت خودکار این کار را انجام می دهد و نیازی نیست شما محدوده ای که مربوط به لغت است را برای آن تعیین کنید.
    The Summarizer tool این ابزار کلمات و جملات را در سند آنالیز می کند و از سند یک خلاصه ایجاد می کند.
    The Topic Categorization tool  این ابزار بصورت خودکار اسناد را به مقوله ها، تاپیک ها یا زمینه هایی که از قبل تعیین کردید نسبت می دهد.
    The Clustering tools این ابزار مجموعه ای از اسناد را به گروه ها یا کلاسترهایی تقسیم می کند. اعضای هر کلاستر به هم شبیه هستند زیرا از ویژگی های مشترکی برخوردارند. این کلاسترهای از قبل تعیین شده نیستند.
    ICrossReader
    تنها اسناد بسیار مرتبط را در www پیدا می کند. متن های داخلی یک پایگاه داده غیر ساخت یافته را اسکرین کرده و اطلاعات را کلاستر معنایی می کند.
    Yahoo Planet

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    در این ابزار چندین مقوله برتر به عنوان برنامه های جداگانه گرفته می شود و برای هر یک از آنها یک کلاسیفایر خودکار ساخته می شود.
    Dataset
    این ابزار از دیتابیس های رابطه ای و Focused Informa-tion Retrieval استفاده می کند. تکنولوژی RDB یا دیتابیس رابطه ای با قابلیت های منحصر به فرد این ابزار برای مدیریت متن ترکیب شده و استفاده می شود. این ابزار، ابزارهای بازیابی و جستجوی جامعی فراهم می کند که می تواند آیتم ها را تقریبا بصورت آنی با کلمات، عبارات و … پیدا کند.
    Texis
    این ابزار تنها SQL RDBMS کاملا یکپارچه است که به صورت هوشمندانه پایگاه داده هایی را که شامل متون زبان طبیعی ، دیتا تایپ های استاندارد، تصاویر، ویدئو، صوت و سایر داده ها هستند کوئری و مدیریت می کند. می توانید در آن متن را با هر اندازه ای ذخیره کنید و این اطلاعات را با زبان طبیعی بپرسید.
    نرم افزار Text analytics می تواند با پس و پیش کردن و تبدیل کلمات و اصطلاحات و عبارات داده های غیر ساخت یافته به مقادیر عددی که بدین ترتیب پس از آن بتواند آنها را با داده های ساخت یافته موجود در دیتابیس لینک کند و با روش های داده کاوی تحلیل کند در این زمینه کمک کند.  سازمان ها می توانند با یک رویکرد تکرارگونه از Text analytics برای آگاهی یافتن از ارزش های محتوایی خاص مانند احساس، عاطفه و شدت و  ارتباط استفاده نمایند. از آنجایی که تکنولوژی Text analytics هنوز به عنوان یک تکنولوژی درحال ظهور محسوب می شوند، نتایج و عمق تحلیل ها می تواند از فروشنده ای به فروشنده دیگر تغییرکند.
    GATE
    GATE معماری عمومی Text Engineering است و یک جعبه ابزار کد باز برای پردازش زبان طبیعی و مهندسی زبان است. این ابزار یک سیستم استخراج اطلاعات به نام ANNIE دارد که در بردارنده مجموعه ای از ماژول هاست مانند tokenizer، یک gazetteer، یک تقسیم کننده جمله، یک part of speech tagger و … .
    Carrot2
    این ابزار یک چارچوب کلاسترینگ نتایج جستجو و متن است. این ابزار می تواند به طور اتوماتیک مجموعه های کوچکی از اسناد، نتایج جستجو یا خلاصه اسناد را بر اساس زمینه آنها کلاستر کند.
    SAS Text Analytics
    SAS یک نرم افزار تحلیل متن جامع است برای کشف و استخراج اطلاعات از متن. این ابزار از مدلسازی آماری پیشرفته ، پردازش زبان طبیعی، و تکنولوژی های زبان شناختی پیشرفته برای کشف الگوها از هر متن به هر زبان استفاده می کند. این ابزار در سیستم های اخطار فوری، هوش شهری، امنیت بیمار و عملکرد محتوای دیجیتال استفاده می شود.نمونه هایی دیگر از نرم افزارهای متن کاوی
    ۱-Copernic Summarizer

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    ۲- Wizdoc
    ۳-Insight Discoverer Categorizer
    ۴- Insight Discoverer Clusterer
    ۵- TextAnalyst
    ۶-



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 262
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

در بسیاری از کاربردهای پردازش طبیعی زبان ۱برچسب زنی اجزای سخن نیاز است . برچسب زنی تعیین برچسب دستوری برای یک کلمه در یک متن است . ورودی این سیستم متن است و خروجی آن کلمه ها با تگ های مناسب است [۴].

بسیاری از برچسب زن ها با روش های مختلفی طراحی می شوند تا با دقت و عملکرد بالاتری برسند . این برچسب زن ها از روابط بین کلمه ای ۲و واژه نامه ۳استفاده می کنند [۱] . بر چسب زنی نقش بسیار مهمی در بسیاری از سیستم های NLP ایفا میکند مانند ساده سازی برنامه های پیچیده . اگر چه هر برچسب زن در بسیاری از زبان ها قابل استفاده است ولی در هر زبان خصوصیاتی هست که برچسب زن باید با توجه به آن ها طراحی شود . [۱] بر چسب ها شامل اطلاعات دستوری بسیار زیادی مانند : کمیت ، شخص ، جنسیت و … در مورد کلمه و همسایه های آن هستند .[۲] روش ها و مدل های زیادی برای برچسب زنی ارائه شده است که به دو قسمت کلی تقسیم می شوند :روش اول از بررسی و تفسیر آماری پیروی می کند و روش دوم از دانسته های انسانی و یادگیری ماشین۴ استفاده می کند .
در زبان فارسی دو مجموعه متنی شناخته شده وجود دارد : پایگاه داده زبان شناسی فارسی (Assi, 1997) و پیکره متنی زبان فارسی (Bijankhan, 2002; Mohseni, 2008) . مورد دوم در دوقسمت دسته بندی شده است : کلمات تفسیر شده و تفسیر نشده . قسمت تفسیر شده که حدود ۱۰% را در بر می گیرد به صورت دستی برچسب زده شده است . هدف ما بر چسب زنی برای قسمت تفسیر نشده (حدود ۹۰% مجموعه) است تا یک مجموعه ی ۱۰۰ میلیونی از کلمات بر چسب زده شده ایجاد شود.[۳]
کارهای مرتبط

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


اولین کاری که برروی برچسب زنی در زبان فارسی توسط (Assi & Abdolhoseini, 2000) بر پایه روشی که توسط (Schuetze, 1995) پیشنهاد شده ، انجام شده است . ایده ی این است که تمامی همسایه های کلمه در دو آرایه ی کلمات راست و کلمات چپ جمع آوری شود . کلمات با تکرار کم حذف می شوند ، چون دیده شده است که کلمات نادر آرایه های خالی دارند .نوع کلمات به شباهت توزیع شده بستگی دارد و هر دسته به صورت دستی برچسب گذاری می شود . این مجموعه ۴۵ برچسب دارد . دقت گذارش شده به این صورت است : دقت در اعداد ، دسته های مختلف افعال و اسم ها بین ۶۹ تا ۸۳ % می باشد و در حالت کلی ، دقت قسمت خودکار سیستم ۵۷٫۵% می باشد . در هر حال نویسنده اقرار می کند در حالی که برچسب های فارسی به کلمات مبهم بر می گردد ، سیستم پیشنهادی قادربه ابهام زدایی از کلماتی مانند کلمات با تکرار کم نیست . در ضمن دقت سیستم برای دسته هایی مانند صفت ها و قید ها بسیار کم است . [۳] تحقیق دیگری برروی برچسب زن های فارسی توسط (Megerdoomian, 2004) انجام شده است . از نتایج آزمایشات گزارشی در دست نیست . نویسنده تنها به چالش هایی که برای برنامه نویسی برچسب زن زبان فارسی ایجاد می شود اشاره کرده است .[۳] در (Mohseni, 2008) یک سیستم برچسب زنی برپایه ی مدل Markov مرتبه ی اول برروی مدل قدیمی پیکره اجرا شده است . در این مقاله برخی جنبه های ریخت شناسی فارسی و بعضی مشکلات در گسترش یک سیستم برچسب زنی ارائه شده است . [۳] در (Mojgan Seraji) یک برچسب زن آماری برای یک زبان فارسی ارائه شده است . نتایج آزمایش نشان می دهد که دقتی در حدود ۹۶٫۹% دارد که بهترین نتیجه گزارش شده برای زبان فارسی است . پایه ی این روش بر Hidden Markov Models می باشد که به کاربر اجازه می دهد تا برچسب زنی با ویژگی های متفاوت داشته باشد . این برچسب زن بر اساس حدس زدن برچسب مناسب با توجه به برچسب های قبلی و فعلی عمل می کند . نکته ی مثبت در مورد این الگوریتم برچسب زنی برای کلماتی است که تا بحال دیده نشده است . برروی کلمات یک آنالیز زبان شناسی انجام می شود تا لیست برچسب های قابل استفاده برای این کلمه را کم کند که نه تهنا باعث افزایش سرعت عملکرد سیستم می شود بلکه به شدت دقت را افزایش می دهد . به عبارت دیگر انالیزور زبان شناسی برچسب های ممکن را تولید می کند ، تا بر اساس الگوریتم های حدس زنی وزن دهی شود . [۶]
Markov Models

احتمال یک جمله از کلمات
w1 w2…wn{ w }_{ 1 }\ { w }_{ 2 } …{ w }_{ n }w1 w2...wn

با استفاده از برچسب زن به صورت
P(w1w2…wn,t1t2…tn)P({ w }_{ 1 }{ w }_{ 2 }…{ w }_{ n } ,t_{ 1 }t_{ 2 } …t_{ n })P(w1w2...wn,t1t2...tn)

است.که با توجه به قضیه ی Bayes به صورت زیر می شود :
P(wn∣w1w2…wn,t1t2…tn)P(tn∣w1w2…wn,t1t2…tn)P(w1w2…wn,t1t2…tn−۱)P({ w }_{ n }|{ w }_{ 1 } { w }_{ 2 } … { w }_{ n } , t_{ 1 }t_{ 2 } …t_{ n })P({ t }_{ n }|{ w }_{ 1 }{ w }_{ 2 } …{ w }_{ n } , t_{ 1 } t_{ 2 } …t_{ n })P({ w }_{ 1 }{ w }_{ 2 } …{ w }_{ n }, t_{ 1 } t_{ 2 } …t_{ n-1 })P(wn∣w1w2...wn,t1t2...tn)P(tn∣w1w2...wn,t1t2...tn)P(w1w2...wn,t1t2...tn−۱)

با استفاده از دو رابطه ی ساده مشخص می شود که احتمال کلمه ی
wn{w}_{n}wn

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


فقط به
tn{t}_{n}tn

آن و به Kکلمه ی مقدم بر آن بستگی دارد :
P(wn∣tn)P(tn∣tn−k…tn−۱)P(w1w2…wn,t1t2…tn−۱)P({ w }_{ n }|t_{ n })P({ t }_{ n }|t_{ n-k }…t_{ n-1 })P({ w }_{ 1 }{ w }_{ 2 }…{ w }_{ n },t_{ 1 } t_{ 2 } … t_{ n-1 })P(wn∣tn)P(tn∣tn−k...tn−۱)P(w1w2...wn,t1t2...tn−۱)

با ساده سازی و تابع بازگشتی قضیه ی Bayes این فرمول حاصل می شود :
P(w1w2…wn,t1t2…tn−۱)=∏i=1nP(wi∣ti)P(ti∣ti−k…ti−۱)P({ w }_{ 1 }{ w }_{ 2 }…{ w }_{ n },t_{ 1 }t_{ 2 }…t_{ n-1 })\quad =\quad \prod _{ i=1 }^{ n } P({ w }_{ i }|t_{ i })P({ t }_{ i }|t_{ i-k }…t_{ i-1 })P(w1w2...wn,t1t2...tn−۱)=∏i=1nP(wi∣ti)P(ti∣ti−k...ti−۱)

احتمال این مدل تنها به K کلمه ی قبلی بستگی دارد که به Markov Model مرتبه ی k شناخته می شود . در برچسب زنی بیشتر از مرتبه ی اول Markov Model و از مرتبه ی دوم Markov Model استفاده می شود .
انواع برچسب زن

الگوریتم های برچسب زنی مختلفی وجود دارد که هرکدام سعی می کند معایب الگوریتم قبلی را از بین ببرد . در (Megerdoomian, 2004) الگوریتم های برچسب زنی به دو دسته تقسیم می شوند :[۵]

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


برچسب زن های آماری: این الگوریتم های برچسب زنی بر اساس احتمال عمل می کنند . این الگوریتم ها معمولا از پیکره های برچسب زده شده استفاده می کنند . این ها احتمالات برچسب کلمه ها را با استفاده از اسناد برچسب زده شده یاد می گیرند . زمانی که این برچسب زن ها با یک کلمه ناشناخته روبرو می شوند از اطلاعات توزیع شده کلمه برای پیشنهاد یک برچسب برای آن استفاده می کنند . برچسب زن های اماری دقت بالایی دارند اما کارایی آن ها به سختی قابل ارتقا است . به علاوه از یک پیکره برچسب زده شده استفاده می کند که در بعضی زبان ها موجود نیست . [۵]

برچسب زن های قانونمند : این برچسب زن ها برچسب مناسب را با استفاده از قواعد دستوری و زبان شناسی انتخاب می کنند . در این برچسب زن ها از یادگیری استفاده نمی شود . از انجا که این برچسب زن ها از قواعد استفاده می کنند ، برای یرچسب زنی کلمات ناشناخته ناتوان هستند اما برای کلمات شناخته شده معمولا دقیق هستند .[۵] نوع دیگری از برچسب زن ها نیز در(Shamsfard) معرفی شده است که ترکیبی از این دو حالت است . [۱] با توجه یه اینکه برچسب زن های آماری دقت بالایی دارند در این مقاله از این نوع برچسب زن ها استفاده می شود ، البته همان طور که گفته شد معایبی نیز دارند .
پیش پردازش

مرحله اول برای تشکیل لغت نامه بیرون کشیدن کلمات از پیکره است . برای اجرای این عمل ، لازم است تا حدود و مرز کلمات شناسایی شود . در زبان فارسی مرز کلمات به خوبی مشخص نیست زیرا کلمات زیادی وجود دارد که از بیشتر از یک بخش تشکیل شده اند و این بخش ها با white space از هم جدا می شوند . به همین دلیل ابهاماتی برای برای تشخیص کلمات در زبان فارسی وجود دارد . برای ساده سازی عملیات جداسازی کلمات نقطه ها و white space به عنوان جدا کننده درنظر گرفته می شوند . برای جداسازی کلمات یک سری قوانین وضع می کنیم که باید رعایت شود : [۱]

    “می” که در اول بسیاری از فعل ها می آید باید به صورت جدا نوشته شود .
    “ها” که یک نشانه ی جمع است باید به صورت جدا نوشته شود .
    “بی” که یک پیشوند منفی ساز است باید به صورت جدا نوشته شود .

پیاده سازی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


برای مجموعه ی داده ها ۵ از پیکره ی بیجن خان که حاوی ۲٫۶ میلیون کلمه و ۵۵۰ برچسب است ، استفاده شده است . از آنجا که این مجموعه دارای ۵۵۰ برچسب است و باعث ایجاد مشکلات فراوان و عدم دقت می شود ۳۸ برچسبی که بیشترین تکرار را دارند مورد استفاده قرار می گیرد . جدول زیر تعداد تکرار برچسب ها و احتمال آنها را نشان می دهد :
برچسب های پرتکرار و احتمال وقوع آنها
برچسب های پرتکرار و احتمال وقوع آنها
لیست برچسب ها
لیست برچسب ها

در پیکره ی بیجن خان فقط کلمات و برچسب آنها وجود دارد اما ار آنجا که احتمال وقوع هر برچسب برای ما مهم است با این کد احتمال وقوع برچسب ها استخراج شده است .
در این فاز بررسی ها و پیاده سازی های اولیه ، داده ها و فرم آنها برای استفاده و مراحل اجرای کار مشخص شد ، در فاز بعد پیاده سازی کامل به همراه بررسی میزان دقت الگوریتم انجام می شود.
پیاده سازی نهایی

مراحل پیاده سازی یه این ترتیب است که اول متن را نرمال سازی می کنیم همان طور که در این مورد در بخش پیش پردازش بحث شده بود . سپس کلمات را تشخیص داده و در اصطلاح Tokenize می کنیم و سپس با اجرای PosTagger بر چسب مربوط به هر کلمه مشخص می شود .
کد
البته در این فاز کار پیاده سازی توسط بنده انجام نشده و صرفا کد های Hazm بررسی شده است و کد های موجود در Git نیز همین کدهاست ، اما بیشتر وقت در این فاز به بررسی Machin Learning در پردازش طبیعی زبان داده شده است . چون مبحث بسیار سنگینی بود و پیش نیاز های متعددی برای یادگیری داشت متاسفانه فرصت کافی برای پیاده سازی وجود نداشت . دو منبع ۷ و ۸ را به منظور یادگیری ، یادگیری ماشین انتخاب کرده ام
کارهای آینده

با توجه به پیشرفت تکنولوژی ها به خصوص در نحوه ی ارتباط با کاربر یا همان رابط کاربری ، امروزه استفاده از پردازش طبیعی زبان بسیار گسترش یافته است . به خصوص در زمینه ی هوش مصنوعی و دستیار هوشمند شخصی(Inteligent Personal Assistant) کاربرد تبدیل گفتار به متن با استفاده از پردازش طبیعی زبان بسیار گسترش یافته است . همان طور که بررسی شد دو مدل برچسب زنی یعنی آماری و ساختار هر کدام معایب و مزایایی دارند که در مورد آنها صحبت شده است ، اما مواردی که از ترکیبی از این دو مدل بهره گرفته اند بسیار دقت و کارایی بیشتری داشته اند ، به شخصه احساس می کنم ترکیب این دو روش آینده ی برچسب زنی خواهد بود . همچنین استفاده از روش هایی که فارغ از نوع زبان به برچسب زنی می پردازند می تواند بسیار مفید باشد زیرا هر کدام از زبان ها معایب زیادی دارند که بسیار پیشبرد کار را مشکل می کنند ، در مورد معایب زبان فارسی بحث شده است . بهره گیری از نکاتی که عرض شد می تواند مقالات و برنامه های آینده را بهبود ببخشد .
مراجع

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    Mehrnoush Shamsfard , Hakimeh Fadaee A Hybrid Morphology-Based POS Tagger for Persian NLP Research Laboratory , Faculty of Electrical & Computer Engineering, Shahid Beheshti University, Tehran, Iran.
    Jurafsky D. and Martin J. H. (1999). Speech and language Processing. Prentice Hall, September 28.
    Mahdi Mohseni, Behrouz Minaei-bidgoli , A Persian Part-Of-Speech Tagger Based on Morphological Analysis , Iran University of Science and Technology.
    Ali Azimizadeh, Mohammad Mehdi Arab, Saeid Rahati Quchani, Persian part of speech tagger based on Hidden Markov Model , ,Islamic Azad University of Mashhad, Iran.
    Megerdoomian, K. (2004). Developing a Persian part-of-speech tagger. In Proceedings of First
    Workshop on Persian Language and Computers. Iran.
    Mojgan Seraji, A Statistical Part-of-Speech Tagger for Persian ,Department of Linguistics and Philology Uppsala University, Sweden
    Machin Learning in Action , Peter Harrington , Manning , 2012
    Machin Learning for Natural Lnaguage Processing , Mrtin Emms , Saturino Luz , 2007

    Natural Language Processing (NLP)

    inter-word relation

    lexicon

    Machine Learning

   



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 234
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

  (Hidden Markov Models)

مدلهای مخفی مارکوف
معرفی

مدلهای مارکوف مخفی اولین بار در یک سری از مقالات آماری توسط Leonard E. Baum و نویسندگان دیگر در نیمه ۱۹۶۰مطرح گردید. اولین کاربرد آن در شناسایی گفتار بود که در نیمه ۱۹۷۰شروع گردید. درنیمه ۱۹۸۰برای آنالیز رشته های بیولوژیکی بخصوص DNA استفاده گردید. از آن زمان بعنوان زمینه ای از بیوانفورماتیک درنظر گرفته شد.

آندری آندرویچ مارکوف

آندری آندرویچ مارکوف٬ فارغ التحصیل دانشگاه سنت پترزبورگ در سال ۱۸۷۸ بود. وی در سال ۱۸۸۶ مدرک پروفسوری خود را دریافت کرد. کارهای زودهنگام مارکوف در تئوری اعداد٬ آنالیز٬ حدود انتگرال ها٬ همگرایی سری ها٬ دنباله کسرها و … بسیار اساسی بود
بعد از سال ۱۹۰۰ ٬ مارکوف تحت تأثیر استاد خود چبیشف٬ از روش دنباله های کسرها در تئوری احتمالات استفاده کرد.وی هم چنین در مورد رشته های متغیرهای وابسته متقابل٬ مطالعاتی انجام داد.با این امید ثابت کردن قوانین حدی در احتمالات در حالات کلی آنها.او قضیه حد مرکزی را با در نظر گرفتن فرض های کامل آن٬ اثبات کرد
مارکوف به دلیل مطالعاتش پیرامون زنجیرهای مارکوف که رشته هایی از متغیرهای تصادفی هستند٬ معروف است.در زنجیرهای مارکوف٬ متغیر بعدی توسط متغیر کنونی مشخص می شود ولی از راهی که تا کنون طی شده است مستقل است.
مدلهای مخفی مارکوف ابتدا در سال‌های اواخر ۱۹۶۰ و اوایل ۱۹۷۰ معرفی و مورد مطالعه قرار گرفت. روش‌های آماری منبع مارکوف یا مدلسازی مارکوف پنهان بطور روزافزونی در سال‌های اخیر متداول گردید. برای این امر دو دلیل بسیار قوی وجود دارد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


اولاً مدل‌ها در ساختمان ریاضی خیلی غنی هستند و در اینصورت می‌توانند مبنائی نظری برای استفاده در محدودهء وسیعی از کاربردها را تشکیل دهند. ثانیا” مدل‌ها، در هنگامی که بطور صحیحی بکار برده می‌شوند، در عمل برای کابردهای مهم خیلی خوب کار می‌کنند..
چرا مخفی؟

اطلاق کلمه مخفی, به موضوع مورد بحث ما به این دلیل است که در باره مسائلی صحبت می‌کنیم که طریقه انجام آنها از دید ما پنهان است و البته ماهیت پارامتری آماری دارد. یعنی اینکه نه تنها نمی‌دانیم نتیجه چه خواهد بود, بلکه نوع اتفاق و احتمال آن اتفاق نیز باید از پارامترهایی که در دسترس است, نتیجه‌گیری شود. مانند پرتاب سکه در یک جعبه در بسته, یا جایی دور از دید ما. یعنی مدل حاصل یک مدل تصادفی با یک فرآیند تصادفی زیرین است که از دید ناظر, غیر قابل مشاهده (مخفی) است و تنها توسط مجموعه ای از فرآیندهای تصادفی که دنباله مشاهدات را تولید می کنند قابل استنتاج (به جای مشاهده) است.

مثال :
متوجه شدن وضع آب و هوا از طریق جلبک

انواع مدل

    مدلهای قطعی

Deterministic Patterns

    مدلهای غیر قطعی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


Non-deterministic patterns
مدل مخفی مارکوف

مدل مخفی مارکوف یک سری متناهی از حالتهاست، که با یک توزیع احتمال پیوسته است

در یک حالت خاص، توسط توزیع احتمال پیوسته یک خروجی یا مشاهده می تواند بدست اید. حالات از خارج مخفی هستند از این رو مدل مخفی مارکوف نامیده شده است. مدل مخفی مارکوف، یک مدل آماری است که در آن  پارامترهای مخفی را از پارامترهای مشاهده شده مشخص می نماید.پارامترهای بیرون کشیده شده برای آنالیزهای بعدی می توانند استفاده شوند.به عنوان مثال برای دستور العمل های بازشناسی الگو..
در مدل مارکوف معمولی،وضعیت به طور مستقیم توسط مشاهده گر  قابل مشاهده است.بنابراین حالت انتقال احتمالات تنها پارامترها هستند.در مدل مخفی  مارکوف  ، وضعیت به طور مستقیم قابل مشاهده نیست، اما متغییرهای تحت تاثیر با وضعیت قابل مشاهده هستند.هر حالت یک توزیع احتمالات دارد برای خروجی ممکن که گرفته شود.بنابراین ترتیب گرفته های ایجاد شده توسط HMM اطلاعاتی در رابطه با حالت توالی میدهد. مدل های مخفی مارکوف برای دستورالعمل در شناسایی الگوهای موقت مانند گفتار،دست خط، شناسایی ایما و اشاره، بیو انفورماتیک و… معروف هستند.
پارامترهای اصلی مدل مارکوف

    مجموعه حالت‌هایی که ممکن است اتفاق بیفتد.
    مجموعه تصمیماتی که می‌توان در حالت‌های مختلف گرفت.
    مجموعه نتایجی که ممکن است متعاقب هر تصمیم‌گیری بدست آید.
    منافع و ارزش افزوده این تصمیم‌گیری در مقایسه با تصمیمات ممکن دیگر

با گرفتن مناسب‌ترین تصمیم, بهترین راه حل برای مسئله مطرح شده را تشخیص داده, و به بهترین حالت بعدی ممکن رسید. این راه حل, بصورت یک تابع ارزش نشان داده می شود که در هر حالت (موجود), بهترین حالت بعدی (مطلوب) توسط آن تعیین می‌شود.
معماری مدل مخفی مارکوف

هر شکل بیضی بیانگر یک مقدار متغیر تصادفی است که مقادیری را می پذیرد. x(t) مقدار متغیر تصادفی است که مقدار تغییرپذیرش در واحد زمان مخفی است. y(t) مقدار متغیر تصادفی است که مقدارش در زمان t قابل مشاهده است.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


از دیاگرام مشخص است که مقدار x(t) به مقدار  x(t − ۱)  وابسته است.که این را خاصیت مارکوف می نامند.

بطورمشابه، مقدار y(t) نیز به x(t) وابسته است.
فرآیند مارکوف

دیاگرام زیر، حالتهای مخفی و قابل مشاهده مثال آب و هوا را نشان می‌دهد. این دیاگرام اظهار می‌دارد که حالتهای مخفی در آب و هوای صحیح توسط یک فرآیند مارکوف ساده دستور اول، مدل شده‌اند و بنابراین  آنها همه به همدیگر متصل شده‌اند.
اتصال بین حالتهای مخفی و قابل مشاهده، احتمال تولید یک حالت خاص قابل مشاهده را که تحت تاثیر فرآیند مارکوف در حالت مخفی ویژه بوده، نمایش می‌‌دهد. بنابراین روشن است که همه احتمالات که توسط حالت قابل مشاهده وارد می‌شوند با عدد ۱ جمع می‌شوند، از این رو در مورد بالا، مجموع احتمال آفتابی و ابری و بارانی می‌شود. بنابراین علاوه بر ماتریس احتمالات که فرآیند مارکوف را توصیف می کنند، ما ماتریس دیگری داریم، مصطلح به ماتریس اغتشاش که شامل احتمالات حالتهای قابل مشاهده است که حالتهای مخفی ویژه در آن پنهان است. برای مثال آب و هوا ، ماتریس اغتشاش اینگونه باشد:
اجزای مدلهای مخفی مارکوف

    بردار احتمال حالت اولیه
    ماتریس تغییر حالت
    ماتریس اغتشاش

هر احتمالی در ماتریس تغییر حالت و اغتشاش به زمان وابسته نمی باشد. برای همین، ماتریس‌ها هنگامی که سیستم درگیر تغییر زمان می‌شود، وابسته به زمان تغییر نمی‌کنند. در  عمل این یکی از غیر واقعی ترین فرضیات مدل مارکوف درباره فرآیند های واقعی است.

مرتبه مدل مارکوف

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    مدل مارکوف مرتبه صفر

مدل مارکوف از مرتبه صفر مانند یک توزیع احتمال چند جمله ای می باشد. چگونگی تخمین پارامترهای مدل مارکوف مرتبه صفر و همچنین پیچیدگی مدل مشخص و قابل حل است و در کتاب‌های آمار و احتمالات وجود دارد.

    مدل مارکوف مرتبه اول

احتمال یک وضعیت به احتمال وضعیت قبلی آن (از نظر زمانی) بستگی دارد, به بیان دیگر احتمال وضعیت‌های ممکن, مستقل نیستند.

    مدل مارکوف مرتبه M

مرتبه یک مدل مارکوف برابر است با طول حافظه ای که مقادیر احتمال ممکن برای حالت بعدی به کمک آن محاسبه می شود. برای مثال، حالت بعدی در یک مدل مارکوف از درجه ۲ (مدل مارکوف مرتبه دوم) به دو حالت قبلی آن بستگی دارد.
فرضیات تئوری مدل مخفی مارکوف

    فرض مارکوف

به بیان دیگر فرض می شود که حالت بعدی تنها به حالت فعلی بستگی دارد. مدل حاصل از فرض مارکوف یک مدل HMM مرتبه صفر می باشد.در حالت کلی، حالت بعدی می تواند با k حالت قبلی وابسته باشد.

    فرض ایستایی  (stationarity)

در اینجا فرض می شود که احتمال انتقال در بین حالات از زمان واقعی رخداد انتقال مستقل است.

    فرض استقلال خروجی

در این حالت فرض می شود که خروجی (مشاهدات) فعلی به صورت آماری از خروجی قبلی مستقل است. می توان این فرض را با داشتن دنباله ای از خروجی ها مانند بیان نمود
برای اینکه مدل HMM در دنیای واقعی قابل استفاده باشد باید سه مساله مهم حل شود :

    مساله ارزیابی
    مساله کدگشایی
    مساله یادگیری

انواع مدلهای مخفی مارکوف و HMM پیوسته

    مدل ارگودیک
    مدل چپ به راست
    مدل موازی چپ به راست

الگوریتم ها

    الگوریتم forward یا پیشرو
    الگوریتم viterbi یا ویتربی
    الگوریتم forward-backward یا

پیشرو- پسرو
کاربردهای  HMM

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    طبقه بندی رشته ها با HMM
    تولید مسیرهای چندگانه
    شناسایی گفتار
    شناسایی کلمات جداگانه
    مدلسازی و یادگیری
    مدلسازی و ارزیابی عملکرد جراحی با استفاده از مدل‌های مخفی مارکف
    نرم افزار تشخیص گفتار از روی حرکات لب
    زنجیره‌های مارکوف در برنامه‌ریزی نیروی انسانی و پیش‌بینی آن در شرکت ملی ذوب‌آهن
    ارزیابی قابلیت اطمینان منبع قدرت شبکه الکترونیکی جهن کاربردهای ایمنی

محدودیت‌های فرآیند مارکوف

در مدل مخفی مارکوف، فر‎آیند هایی وجود دارند که رشته قابل مشاهده احتمالات به یک فرآیند مارکوف لایه زیرین مرتبط است. در چنین مواردی، تعداد حالتهای قابل مشاهده ممکن است از تعداد حالتهای مخفی متفاوت باشد.

یک مشکل واقعی دیگر، تشخیص گفتار است. صدایی که ما می‌شنویم، از طریق تارهای صوتی، اندازه گلو، وضعیت قرار گرفتن زبان و خیلی موارد دیگر تولید می‌گردد

هر کدام از این فاکتورها، با تاثیرات متقابل روی هم صدای یک کلمه را ایجاد می‌کنند و صداهایی که یک سیستم تشخیص گفتار، نشان می‌دهد، صدای تغییر یافته از تغییرات فیزیکی در صحبت کردن فرد می‌باشد. بعضی دستگاههای تشخیص گفتار، تولید گفتار داخلی را بعنوان رشته حالتهای پنهان در نظر می گیرند و صدای منتج از این سیستم‌ها، یک رشته از حالات قابل مشاهده می‌باشند  که بوسیله فرایند گفتار تولید شده‌اند و در بهترین حالت صحیح ( مخفی ) قرار دارند..

جعبه ابزار مدل مخفی مارکوف در مطلب

این جعبه ابزار یک استنباط ویادگیری را برای HMM با خروجی های گسسته (dhmm’s) ،خروجی های گوسین(ghmm’s) ،یا مخلوطی از خروجی های گوسین(mhmm’s) ساپورت میکند.همچنین ورودی های گسسته را ساپورت میکند.

 

تهیه و تنظیم: سمیرا نصر

کارشناسی ارشد مجازی رشته مدیریت فناوری اطلاعات درپزشکی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


دانشکده مهندسی پزشکی دانشگاه صنعتی امیرکبیر

کاربرد فناوری اطلاعات در پزشکی



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 91
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

    بررسی روش‌های گردش عملیات امکان‌سنجی استقرار سیستم‌ها و روش‌های بهینه و ..... در قالب تجزیه و تحلیل و طراحی سیستم‌های جامع اطلاعاتی (Customize)
    ارائه مستندات ساختار پایگاه داده جهت توسعه و استفاده در واحد فن‌آوری اطلاعات (IT) سازمان (با رعایت استانداردهای عملیاتی لازم )
    آموزش کاربران در طی استقرار پروژه و بدون محدودیت زمانی
 مشاوره و انجام پایان نامه مهندسی کامپیوتر در متکالج (مکتب ریاضیات) – بخش تحقیقاتی گروه فناوری های راین:

انجام پایان نامه مهندسی کامپیوتر

 

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


– هوش مصنوعی، یادگیری ماشین، یادگیری ژرف، یادگیری عمیق، شبکه های عصبی، داده کاوی

– پردازش زبان های طبیعی (Natural Language Processing)
– رمزنگاری، کدگذاری، داده کاوی، رمزنگاری کوانتومی، محاسبات کوانتومی​
-Artificial Intelligence, Data Mining, Machine Learning, Deep Learning, Neural Networks, Deep Learning, Image Processing, Cryptography, Coding, etc
– هوش مصنوعی، یادگیری ماشین، یادگیری ژرف، یادگیری عمیق، شبکه های عصبی، داده کاوی، مدل مخفی مارکف
– پروژه پردازش تصویر (image processing)

– مشاوره پایان نامه پردازش زبان های طبیعی (Natural Language Processing)

– پایان نامه پردازش تصویر + پیاده سازی با متلب

– پروژه داده کاوی با rapid miner

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


– پایان نامه داده کاوی با rapid miner

– پایان نامه داده کاوی با متلب Matlab

– پروژه داده کاوی با کلمنتاین

– انجام پروژه با نرم افزار کلمنتاین

– انجام پروژه با نرم افزار Clementine
– پروژه SPSS
– پروژه سیستم عامل، پروژه پایان ترم سیستم عامل
– پروژه داده کاوی
– پروژه داده کاوی با weka

– انجام پروژه های داده کاوی با نرم افزار weka
– پروژه داده کاوی با rapid miner
– پایان نامه کاوی با weka
– پایان نامه داده کاوی با rapid miner
– پروژه داده کاوی با متلب
– شبکه های حسگر بیسیم ، امنیت شبکه های حسگر بیسیم و رمزنگار
– پروژه پایگاه داده، پروژه پایان ترم پایگاه داده، پایگاه داده پیشرفته
– انجام پایان نامه کارشناسی ارش

انجام پایان نامه مهندسی کامپیوت

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

ر و مجری پروژه های علمی، تحقیقاتی و صنعتی در زمینه کامپیوتر، فناوری اطلاعات، تکنولوژی و ریاضی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 280
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()