خلاصه‌سازی متن نظرات (تحلیل حس در سطح ویژگی)

انواع خلاصه‌سازی مستندات (متن نظر)

خلاصه‌سازی خودکار متن به عنوان هسته‌ی مرکزی طیف گسترده‌ای از ابزارهای پردازش‌گر متن مانند خلاصه‌سازهای ماشینی، سیستم‌های تصمیم‌یار، سیستم‌های پاسخ‌گو، موتورهای جستجو و غیره از سال‌ها پیش مطرح شده و همواره به عنوان یک موضوع مهم مورد بررسی و تحقیق قرار گرفته است. خلاصه‌سازي خودکار سند، يعني توليد يک نسخه مختصرتر از سند اصلي توسط يک برنامه رايانه‌اي به نحوي که ويژگي‌ها و نکات اصلي سند اوليه حفظ شود. همچنین خلاصه تولید شده باید از خوانایی (Readability) و پیوستگی (Coherency) بالایی برخوردار بوده و فاقد اطلاعات تکراری (Information Redundancy) باشد.

روش‌های خلاصه‌سازی را از دیدگاه نوع خروجی می‌توان به سه دسته ذیل تقسیم‌بندی نمود:

  • خلاصه‌سازی استخراجی (extractive summarization)
  • خلاصه‌سازی چکیده‌ای (abstractive summarization)
  • خلاصه‌سازی ساخت‌یافته (structured summarization)

مهمترین مسئله در خلاصه­ سازی استخراجی، انتخاب درست و صحیح قسمت­هايی از متن (عموماً واحد جمله) است. جملات باید به نحوی انتخاب شوند که ضمن پوشش کامل محتوای متن، فاقد افزونگی و جملات تکراری بوده و همچنین دارای خوانایی و پیوستگی مناسبی باشند. اکثر اين روش‌ها، به جملات بطور جداگانه امتيازدهي کرده و سپس جمله­هاي با بالاترين امتياز را به عنوان خلاصه انتخاب مي­کنند. بنابراين در اين روش ساختار جمله­‌ها تغييری نمي­‌کند. تقریباً بیشتر روش­های ارائه شده برای خلاصه‌سازی خودکار ماشینی از این دسته هستند.

در روش خلاصه­‌سازی چکيده­‌ای علاوه بر انتخاب جملات مناسب، ساختار جملات نیز می­‌تواند عوض شود. در این مدل می‌توان جملاتی را حذف نمود یا اینکه ساختار آنها را تغییر داد و یا حتی جملات جدیدی تولید نمود. خلاصه‌­سازی چکیده­‌ای بسيار نزديک به مدل ذهنی برای خلاصه‌سازی انسان است. یعنی همانطور که انسان برای یک متن خلاصه تولید می­‌کند، در این مدل هم خلاصه­‌ساز باید قادر به اعمال تغییر در ساختار جملات باشد. خلاصه­‌هایی که توسط این روش تولید می­‌شوند نسبت به خلاصه­‌های استخراجی، شباهت بیشتری به خلاصه‌­های انسانی دارند ولی تولید خودکار آنها بسیار دشوار بوده و اغلب روش‌های موجود از دقت کافی برخوردار نیستند.

در حوزه نظرکاوی، دسته‌ای از پژوهش‌ها برای خلاصه‌سازی نظرات، نوعی خلاصه استخراجی (یا چکیده‌ای) از متن نظرات ایجاد می‌کنند. پس خروجی این روش‌ها شامل بخشی کوتاهی از متن نظرات است که حاوی عبارات حسی مربوط به ویژگی‌ها/موجودیت اصلی می‌باشد. به این نوع خلاصه‌سازی نظرات، خلاصه‌سازی متنی نظرات یا خلاصه‌سازی سنتی (Traditional Summarization) نظرات اطلاق می‌شود.

اولین بار در سال 2003، یک روش یادگیری باناظر برای انتخاب جملات مهم متن نظرات پیشنهاد شد. با رویکردی مشابه، در مقالات بعدی نیز الگوریتم‌های خوشه‌بندی پاراگراف‌ها، بهینه‌سازی با هدف انتخاب بهترین عبارات یا جملات و همچنین استفاده از روش‌های خلاصه‌سازی استخراجی متن با ترکیب رویکردهای مبتنی بر گراف و رتبه‌بندی جملات مهم حسی در متن نظرات پیشنهاد شدند.

نوع دیگری از خلاصه‌سازی، خلاصه‌سازی ساخت‌یافته است. خلاصه‌سازی ساخت‌یافته یکی از اهداف اصلی سیستم‌های استخراج اطلاعات (Information Extraction) می‌باشد. هدف از این نوع خلاصه‌سازی، استخراج موجودیت‌ها یا رویداد‌های و ویژگی‌های آنها از قبیل زمان، مکان یا سایر ویژگی‌های توصیفی آنها (وابسته به کاربرد) از درون متن در قالب ساخت‌یافته از پیش تعیین شده می‌باشد.

خلاصه‌سازی ساخت‌یافته نظرات

خلاصه‌سازی ساخت‌یافته متون نظرات، بر پایه نظرکاوی مبتنی بر جنبه یا ویژگی است. در خلاصه سازی ساختیافته نظرات هدف نمایش ویژگی‌های اشاره شده درون متون نظرات و بیان کمّی میزان حس نظردهندگان برای هر ویژگی است. خلاصه‌سازی ساخت‌یافته نظرات شامل سه مرحله اساسی است:

  • استخراج ویژگی‌ها از متن
  • تشخیص حس بیان شده درباره آنها
  • تلفیق و یکپارچه‌سازی ویژگی‌ها و نظرات (احساسات)

مشکل اصلی کاوش نظرات در واحد ویژگی، پیچیدگی‌های استخراج ویژگی‌ها و ارتباط آنها با کلمات حاوی حس از درون متن غیرساخت‌یافته (unstructured) است، که باعث کاهش دقت نظرکاوی می‌شود. خلاصه‌سازی ساخت‌یافته مستندات یکی از اهداف اصلی سیستم‌های استخراج اطلاعات (Information Extraction) می‌باشد. هدف از این نوع خلاصه‌سازی، استخراج موجودیت‌ها یا رویداد‌های و ویژگی‌های آنها از قبیل زمان، مکان یا سایر ویژگی‌های توصیفی آنها (وابسته به کاربرد) از درون متن در قالب (ساخت‌یافته) از پیش تعیین شده می‌باشد. هدف این پژوهش ایجاد یک چارچوب معنایی برای خلاصه‌سازی ساخت‌یافته متن نظرات می‌باشد. خلاصه‌سازی ساخت‌یافته نظرات، بر پایه تحلیل حس مبتنی بر ویژگی شکل گرفته است که می‌تواند اطلاعات مفید و طبقه‌بندی شده‌ای را در مقایسه با سایر انواع خلاصه‌های متنی در اختیار کاربران قرار دهد. جنبه اصلی در خلاصه‌سازی ساخت‌یافته نظرات توجه به موجوديت و يا ويژگی‌هایی از یک موجودیت است که نویسنده درباره آن(ها) حس خود را بیان نموده است. نمونه‌ای از ورودی و خروجی مطلوب این نوع خلاصه‌سازی در شکل زیر نمایش داده شده است.

در سال‌های اخیر تعداد قابل توجهی از پژوهش‌های صورت گرفته در زمینه نظرکاوی به سمت زبان‌های غیر انگلیسی (بخصوص اسپانیایی، چینی، آلمانی و عربی)، معطوف شده است. همچنین رویکرد جدیدی برای نظرکاوی چندزبانه (Multi-Lingual) در حال ایجاد می‌باشد. در زمینه نظرکاوی چندزبانه بیشتر کارهای انجام شده به تحلیل حس در واحد متن (سند) و یا تحلیل ذهنیت و حس در واحد جمله پرداختند. غالباً این روش‌ها با ایده‌های نسبتاً ساده‌ای از مترجم‌های ماشینی به منظور بهره‌گیری از مجموعه اصطلاحات حاوی حس و سایر منابع و ابزارهای زبان انگلیسی برای زبان مورد نظر خود، استفاده می‌کنند. ولی با توجه به تفاوت‌های قواعد نحوی زبان‌ها، اصطلاحات حاوی حس و سایر پیچیدگی‌های زبانی، نتایج بدست آمده از این دسته روش‌ها دقت مناسبی برای استفاده در زبان‌های مختلف ندارند. بطور کلی تهیه واژه‌نامه عبارات حاوی حس برای زبان‌های طبیعی یکی از حوزه‌های پژوهشی در نظرکاوی به شمار می‌رود. در حال حاضر تحقیقات بسیار اندکی برروی نظر کاوی در زبان فارسی صورت گرفته است. البته کمبود منابع (از قبیل پیکره استاندارد و حجیم متون نظرات و مجموعه واژگان حاوی حس استاندارد) و ابزارهای پردازش متن مناسب قابل دسترس و سایر پیچیدگی‌های نحوی و گرامری زبان فارسی مانع بزرگی برای انجام مطالعات نظر کاوی در زبان فارسی است. بزودی در سامانه متن کاوی API استفاده از تحلیل حس مبتنی بر جنبه/ویژگی برای محصولات تجاری راه‌اندازی و بطور رایگان در اختیار پژوهشگران قرار خواهد گرفت.

استفاده از این مقاله با ذکر منبع (سامانه متن کاوی فارسی‌یار)، بلامانع است.

احسان عسکریان دکترای نرم افزار و مدیر گروه متن کاوی فارسی یار هستم

دیدگاه خود را بنویسید:

آدرس ایمیل شما نمایش داده نخواهد شد.