مقدمه
نظرکاوی (تحلیل احساسات) یکی از زمینههای کاربردی پردازش زبان طبیعی است. هدف کلی نظر کاوی مشخص نمودن میزان رضایتمندی (نوع و شدت حس) شخص نویسنده نظر هست. بدیهی است که برای ماشین تشخیص عبارات حسی و تعیین میزان حس آنها (کمیسازی میزان حس) بدون کمک انسان، غیر ممکن است. لذا در روشهای تحلیل حس، ابتدا لیستی از عبارات حسی اولیه که معمولاً دارای مقدار عددی تعیین کننده میزان بار حسی میباشند، توسط اشخاص آشنا با زمینه نظرات تهیه شده و به عنوان ورودی به تحلیلگر حس متن داده میشود. سپس بوسیله الگوریتمهای مختلفی لیست اولیه عبارات حاوی حس بسط و تکمیل میگردد و میزان و شدت حس نیز با توجه به برخی از کلمات جمله از قبیل منفیکنندهها (معکوسکنندههای حسی) تنظیم میشود. تولید واژهنامه لغات حسی یکی از بخشهای اساسی و مهم برای تشخیص حس و شدت آن میباشد.
رویکردهای تولید واژهنامههای حسی
در چند سال گذشته، ساخت مجموعه لغات حاوی حس با بار حسی مثبت و منفی، یکی از روشهای مورد توجه محققان برای تشخیص حس جملات بوده است. بطور کلی روشهای تحلیل احساسات را میتوان به دو گروه تقسیمبندی نمود:
- روشهای مبتنی بر واژهنامه حسی و استفاده از دانش زمینه (یادگیری بدون ناظر یا شبهناظر)
- روشهای یادگیری باناظر
دقت روشهای مبتنی واژهنامه حسی کاملاً وابسته به مجموعه لغات حاوی حس و وزنهای از پیش تعیین شده است. این روشها بطور بدون ناظر و برای حوزههای عمومی قابل استفاده هستند. در رویکرد دوم (دستهبندی حسی متون) نیز از واژگان حسی به عنوان یکی از ویژگیهای مهم متن نظرات استفاده میشود.
از دیگر روشهای تشخیص حس عبارات استفاده از روشهای محاسبه شباهت معنایی کلمات میباشد. در این روشها برای تشخیص حس نظرات معمولاً از شباهت معنایی عبارات و لیست کوچکی از کلمات حاوی حس اولیه استفاده میشود. برای محاسبه شباهت معنایی معمولاً از سه روش استفاده میشود:
- مبتنی بر شبکه واژگان یا سایر لغتنامهها و دانشنامهها
- روابط وابستگی نحوی بین عبارت حاوی حس با کلمات موجود در واژهنامه حسی
- همرخدادی عبارات حاوی حس با کلمات موجود در لیست اولیه کلمات حاوی حس (روشهای یادگیر بدون ناظر) در درون پیکرههای مختلف مستندات
میتوان رویکرد سوم را زیر مجموعهای از رویکرد تشخصی حس مبتنی بر مجموعه لغات به شمار آورد با این تفاوت که لیست کلمات حاوی حس برای مستندات ورودی (داده شده) تشکیل میشود و از اینرو کارکرد بهتری برای تشخیص حس عبارات در حوزههای مختلف خواهد داشت.
با توجه به وابستگی زیاد روشهای مختلف تحلیل احساسات به لغتنامه واژگان حسی، در این بخش به توضیح روشهای مختلف واژهنامه حسی میپردازیم. بطور کلی از سه رویکرد ذیل برای تولید واژهنامههای حسی استفاده میشوند:
- مبتنی بر پیکره
- مبتنی بر لغتنامه و پایگاه دانش
- مبتنی بر روشهای یادگیر باناظر
برای دریافت اطلاعات بیشتر درباره این سه رویکرد به این مقاله مراجعه بفرمایید.
شبکه واژگان (WordNet)
شبکه واژگان دانشگاه پرینستون (Princeton WordNet یا PWN) یک پایگاه داده لغوی (Lexical Database) برای زبان انگلیسی است. شبکه واژگان حاوی لغات زبان طبیعی در قالب مجموعههای کلمات هممعنی (synonymous sets) یا بصورت مختصر گروه هممعنی (synset) میباشد که در دستههایی با توجه به نقش نحوی مانند فعل و اسم و صفت و قید تقسیمبندی شدهاند. این مجموعههای هممعنی توسط روابط معنایی مانند :هممعنایی (synonymy)، تضاد معنایی (antonymy)، رابطه شمول معنایی یا دربرداشتن (meronymy)، روابط سلسله مراتبی (Taxonomic) شامل دو نوع جزء به کل (hyponymy) و کل به جزء (hypernymy) و غیره با هم ارتباط دارند. اغلب شبکه واژگان برای ابهامزدایی و تعیین شباهت معنایی در کاربردهای مختلف پردازش زبان طبیعی و بازیابی اطلاعات مانند ترجمه ماشینی، استخراج اطلاعات و خلاصهسازی و … مورد استفاده قرار میگیرد. آخرین نسخه PWN (WordNet 3.1 database statistics) شامل حدود 155327 کلمه هست که در قالب 117597 گروه هممعنی سازماندهی شدند. اخیراً در بعضی از مقالات از شبکه واژگان برای استخراج واژگان حسی و ویژگیهای موجودیت مورد نظر استفاده شده است.
اکنون برای بیش از 40 زبان طبیعی در جهان شبکه واژگان ایجاد شده است که بین اغلب آنها با PWN لینک وجود دارد. برای ایجاد شبکه واژگان برای سایر زبانها معمولاً از دو رویکرد استفاده میشود:
- روش اول ساخت شبکه واژگان با استفاده از ترجمه گروههای هممعنی PWN مانند فردوسنت و شبکه واژگان فارسی دانشگاه تهران.
- در روش دوم ابتدا شبکه واژگان با استفاده از منابع زبان مقصد و روشهای زبانشناسی ایجاد شده و سپس بین گروههای هممعنی آن با PWN ازتباط (لینک) برقرار میشود. مانند فارسنت.
مراحل ایجاد گروههای هممعنی در شبکه واژگان فردوسنت
برای دریافت اطلاعات بیشتر درباره فردوسنت و سایر شبکههای واژگان زبان فارسی به این مقاله مراجعه بفرمایید.
شبکه واژگان حسی انگلیسی (SentiWordNet)
شبکه واژگان حسی انگلیسی (SentiWordNet) یکی از بهترین منابع موجود برای شناسایی کلمات حسی است که بر اساس تعیین میزان بار حسی هر گروه هممعنی در شبکه واژگان انگلیسی پرینستون (PWN) ایجاد شده است. شبکه واژگان حسی انگلیسی برای هر گروههای هممعنی میزان بار حسی منفی (negativity)، مثبت (positivity) و همچنین مقدار غیرحسی (objectivity) بودن (با توجه به مقدار حس مثبت و منفی) را با عددی بین صفر و یک مشخص میکند.
شبکه واژگان حسی انگلیسی نسخه 1.0 بوسیله یک الگوریتم یادگیر شبهناظر در 4 مرحله تشکیل شده است. سپس در نسخه سوم این شبکه واژگان حسی با استفاده از الگوریتم تکراری گام تصادفی بر روی گراف شبکه واژگان PWN، نتایج حاصل از نسخه قبل (SentiWordNet v1.0) را اصلاح کردند. تا کنون شبکه واژگان حسی انگلیسی به عنوان یک منبع واژگان حسی مستقل از دامنه و موضوع در بسیاری از کاربردهای نظر کاوی مورد استفاده قرار گرفته است. علاوه بر این با توجه به رابطه این واژهنامه با PWN ، از این منبع در بسیاری از کاربردهای نظرکاوی در زبانهای دیگر نیز (با برقرار کردن لینک بین شبکههای واژگان آن زبانها با PWN) استفاده شده است.
ساخت واژهنامه حسی زبان فارسی (حسنگار)
برای تولید حسنگار ابتدا با استفاده از نگاشت مفاهیم (گروههای هممعنی) در شبکه واژگان پرینستون به زبان فارسی، شبکه واژگان جامع (فردوسنت) ساخته شده است. در نهایت، با استفاده از فردوسنت، میزان بار حسی محاسبه شده برای هر گروه هممعنی در شبکه واژگان حسی انگلیسی به گروههای هممعنی متناظر با آن در حسنگار نگاشت میشود. پس در واقع با ابهامزدایی مفاهیم شبکه واژگان حسی انگلیسی، یک شبکه واژگان حسی برای زبان فارسی ایجاد شده است.
از شبکه واژگان حسی فارسی میتوان به عنوان یک واژهنامه حسی مرجع برای زبان فارسی استفاده نمود. علاوه بر این با توجه به وجود درجه اطمینان (برای کلمات موجود در هر گروه هممعنی در فردوسنت)، برای هر کلمه حسی علاوه بر بار حسی مثبت و منفی، میزان اطمینان (اعتبار) نیز خواهیم داشت.
تعداد کلمات حسی مثبت (Pos#) و منفی (Neg#) موجود در شبکه واژگان حسی فارسی (حسنگار) براساس محدودیتهای مختلف
برای دریافت نسخه فعلی حسنگار به این منبع مراجعه فرمایید.
برای ارجاع درصورت استفاده از مطالب این نوشته، همچنین جهت اطلاع از منابع اصلی استفاده شده، یا دریافت توضیحات و جزئیات بیشتر به این مقاله مراجعه بفرمایید.