انواع خلاصهسازی مستندات (متن نظر)
خلاصهسازی خودکار متن به عنوان هستهی مرکزی طیف گستردهای از ابزارهای پردازشگر متن مانند خلاصهسازهای ماشینی، سیستمهای تصمیمیار، سیستمهای پاسخگو، موتورهای جستجو و غیره از سالها پیش مطرح شده و همواره به عنوان یک موضوع مهم مورد بررسی و تحقیق قرار گرفته است. خلاصهسازي خودکار سند، يعني توليد يک نسخه مختصرتر از سند اصلي توسط يک برنامه رايانهاي به نحوي که ويژگيها و نکات اصلي سند اوليه حفظ شود. همچنین خلاصه تولید شده باید از خوانایی (Readability) و پیوستگی (Coherency) بالایی برخوردار بوده و فاقد اطلاعات تکراری (Information Redundancy) باشد.
روشهای خلاصهسازی را از دیدگاه نوع خروجی میتوان به سه دسته ذیل تقسیمبندی نمود:
- خلاصهسازی استخراجی (extractive summarization)
- خلاصهسازی چکیدهای (abstractive summarization)
- خلاصهسازی ساختیافته (structured summarization)
مهمترین مسئله در خلاصه سازی استخراجی، انتخاب درست و صحیح قسمتهايی از متن (عموماً واحد جمله) است. جملات باید به نحوی انتخاب شوند که ضمن پوشش کامل محتوای متن، فاقد افزونگی و جملات تکراری بوده و همچنین دارای خوانایی و پیوستگی مناسبی باشند. اکثر اين روشها، به جملات بطور جداگانه امتيازدهي کرده و سپس جملههاي با بالاترين امتياز را به عنوان خلاصه انتخاب ميکنند. بنابراين در اين روش ساختار جملهها تغييری نميکند. تقریباً بیشتر روشهای ارائه شده برای خلاصهسازی خودکار ماشینی از این دسته هستند.
در روش خلاصهسازی چکيدهای علاوه بر انتخاب جملات مناسب، ساختار جملات نیز میتواند عوض شود. در این مدل میتوان جملاتی را حذف نمود یا اینکه ساختار آنها را تغییر داد و یا حتی جملات جدیدی تولید نمود. خلاصهسازی چکیدهای بسيار نزديک به مدل ذهنی برای خلاصهسازی انسان است. یعنی همانطور که انسان برای یک متن خلاصه تولید میکند، در این مدل هم خلاصهساز باید قادر به اعمال تغییر در ساختار جملات باشد. خلاصههایی که توسط این روش تولید میشوند نسبت به خلاصههای استخراجی، شباهت بیشتری به خلاصههای انسانی دارند ولی تولید خودکار آنها بسیار دشوار بوده و اغلب روشهای موجود از دقت کافی برخوردار نیستند.
در حوزه نظرکاوی، دستهای از پژوهشها برای خلاصهسازی نظرات، نوعی خلاصه استخراجی (یا چکیدهای) از متن نظرات ایجاد میکنند. پس خروجی این روشها شامل بخشی کوتاهی از متن نظرات است که حاوی عبارات حسی مربوط به ویژگیها/موجودیت اصلی میباشد. به این نوع خلاصهسازی نظرات، خلاصهسازی متنی نظرات یا خلاصهسازی سنتی (Traditional Summarization) نظرات اطلاق میشود.
اولین بار در سال 2003، یک روش یادگیری باناظر برای انتخاب جملات مهم متن نظرات پیشنهاد شد. با رویکردی مشابه، در مقالات بعدی نیز الگوریتمهای خوشهبندی پاراگرافها، بهینهسازی با هدف انتخاب بهترین عبارات یا جملات و همچنین استفاده از روشهای خلاصهسازی استخراجی متن با ترکیب رویکردهای مبتنی بر گراف و رتبهبندی جملات مهم حسی در متن نظرات پیشنهاد شدند.
نوع دیگری از خلاصهسازی، خلاصهسازی ساختیافته است. خلاصهسازی ساختیافته یکی از اهداف اصلی سیستمهای استخراج اطلاعات (Information Extraction) میباشد. هدف از این نوع خلاصهسازی، استخراج موجودیتها یا رویدادهای و ویژگیهای آنها از قبیل زمان، مکان یا سایر ویژگیهای توصیفی آنها (وابسته به کاربرد) از درون متن در قالب ساختیافته از پیش تعیین شده میباشد.
خلاصهسازی ساختیافته نظرات
خلاصهسازی ساختیافته متون نظرات، بر پایه نظرکاوی مبتنی بر جنبه یا ویژگی است. در خلاصه سازی ساختیافته نظرات هدف نمایش ویژگیهای اشاره شده درون متون نظرات و بیان کمّی میزان حس نظردهندگان برای هر ویژگی است. خلاصهسازی ساختیافته نظرات شامل سه مرحله اساسی است:
- استخراج ویژگیها از متن
- تشخیص حس بیان شده درباره آنها
- تلفیق و یکپارچهسازی ویژگیها و نظرات (احساسات)
مشکل اصلی کاوش نظرات در واحد ویژگی، پیچیدگیهای استخراج ویژگیها و ارتباط آنها با کلمات حاوی حس از درون متن غیرساختیافته (unstructured) است، که باعث کاهش دقت نظرکاوی میشود. خلاصهسازی ساختیافته مستندات یکی از اهداف اصلی سیستمهای استخراج اطلاعات (Information Extraction) میباشد. هدف از این نوع خلاصهسازی، استخراج موجودیتها یا رویدادهای و ویژگیهای آنها از قبیل زمان، مکان یا سایر ویژگیهای توصیفی آنها (وابسته به کاربرد) از درون متن در قالب (ساختیافته) از پیش تعیین شده میباشد. هدف این پژوهش ایجاد یک چارچوب معنایی برای خلاصهسازی ساختیافته متن نظرات میباشد. خلاصهسازی ساختیافته نظرات، بر پایه تحلیل حس مبتنی بر ویژگی شکل گرفته است که میتواند اطلاعات مفید و طبقهبندی شدهای را در مقایسه با سایر انواع خلاصههای متنی در اختیار کاربران قرار دهد. جنبه اصلی در خلاصهسازی ساختیافته نظرات توجه به موجوديت و يا ويژگیهایی از یک موجودیت است که نویسنده درباره آن(ها) حس خود را بیان نموده است. نمونهای از ورودی و خروجی مطلوب این نوع خلاصهسازی در شکل زیر نمایش داده شده است.
در سالهای اخیر تعداد قابل توجهی از پژوهشهای صورت گرفته در زمینه نظرکاوی به سمت زبانهای غیر انگلیسی (بخصوص اسپانیایی، چینی، آلمانی و عربی)، معطوف شده است. همچنین رویکرد جدیدی برای نظرکاوی چندزبانه (Multi-Lingual) در حال ایجاد میباشد. در زمینه نظرکاوی چندزبانه بیشتر کارهای انجام شده به تحلیل حس در واحد متن (سند) و یا تحلیل ذهنیت و حس در واحد جمله پرداختند. غالباً این روشها با ایدههای نسبتاً سادهای از مترجمهای ماشینی به منظور بهرهگیری از مجموعه اصطلاحات حاوی حس و سایر منابع و ابزارهای زبان انگلیسی برای زبان مورد نظر خود، استفاده میکنند. ولی با توجه به تفاوتهای قواعد نحوی زبانها، اصطلاحات حاوی حس و سایر پیچیدگیهای زبانی، نتایج بدست آمده از این دسته روشها دقت مناسبی برای استفاده در زبانهای مختلف ندارند. بطور کلی تهیه واژهنامه عبارات حاوی حس برای زبانهای طبیعی یکی از حوزههای پژوهشی در نظرکاوی به شمار میرود. در حال حاضر تحقیقات بسیار اندکی برروی نظر کاوی در زبان فارسی صورت گرفته است. البته کمبود منابع (از قبیل پیکره استاندارد و حجیم متون نظرات و مجموعه واژگان حاوی حس استاندارد) و ابزارهای پردازش متن مناسب قابل دسترس و سایر پیچیدگیهای نحوی و گرامری زبان فارسی مانع بزرگی برای انجام مطالعات نظر کاوی در زبان فارسی است. بزودی در سامانه متن کاوی API استفاده از تحلیل حس مبتنی بر جنبه/ویژگی برای محصولات تجاری راهاندازی و بطور رایگان در اختیار پژوهشگران قرار خواهد گرفت.
استفاده از این مقاله با ذکر منبع (سامانه متن کاوی فارسییار)، بلامانع است.