مفاهیم اولیه پردازش زبان طبیعی

مقدمه و تعاریف

پردازش زبان طبیعی (Natural Language Processing) یکی از زیرشاخه‌های با اهمیت در حوزه گسترده هوش مصنوعی و دانش زبان‌شناسی‌ است. تلاش عمده در این زمینه، ماشینی کردن فرایند درک و برداشت مفاهیم بیان شده توسط یک زبان طبیعی انسانی است. به تعریف دقیق‌تر پردازش زبان‌های طبیعی استفاده از رایانه به منظور پردازش و درک زبان گفتاری و نوشتاری انسان‌ها است. پردازش زبان‌ها و مکالمات طبیعی یکی از اموری است که با ورود فناوری رایانه‌ای به زندگی بشر مورد توجه بسیاری از دانشمندان قرار گرفته است. حتی اندیشه‏‌ای که تورینگ از ماشین هوشمند خود و تعریفی که او از هوش مصنوعی داشت، در مرحله اول مربوط به پردازش زبان طبیعی می‌شد.

پردازش زبان طبیعی رهیافت بسیار جذابی برای ارتباط بین انسان و ماشین به شمار می‌‌آید و در صورت عملی شدنش به طور کامل می‌تواند تحولات شگفت‌انگیزی را در پی داشته باشد. مسئله پردازش زبان طبیعی یکی از مسائل اصلی هوش مصنوعی به شمار می‌‌آید، چرا که محقق شدن آن به طور کامل، مستلزم سطح بالایی از درک جهان خارج و حالات انسان برای ماشین است.

هدف اصلی در پردازش زبان طبیعی، ایجاد تئوری‌های محاسباتی از زبان، با استفاده از الگوریتم‌ها و ساختارهای داده‌ای موجود در علوم رایانه‌ای است. بدیهی است که در راستای تحقق این هدف، نیاز به دانشی وسیع از زبان است و علاوه بر محققان علوم رایانه‌ای، نیاز به دانش زبان شناسان نیز در این حوزه می‌‌باشد.

حوزه‌های پردازش زبان طبیعی

کاربردهای پردازش زبان طبیعی به دو دسته کلی، کاربردهای نوشتاری (پردازش متن یا متن کاوی) و کاربردهای گفتاری قابل تقسیم است. از کاربردهای نوشتاری آن می‌توان به استخراج اطلاعاتی خاص از یک متن، ترجمه یک متن به زبانی دیگر و یا یافتن مستنداتی خاص در یک پایگاه داده نوشتاری (مثلا یافتن کتاب‌های مرتبط به هم در یک کتابخانه) اشاره نمود. نمونه‌هایی از کاربردهای گفتاری پردازش زبان عبارتند از: سیستم‌های پرسش و پاسخ انسان با رایانه، سرویس‌های اتوماتیک ارتباط با مشتری از طریق تلفن و یا سیستم‌های کنترلی توسط فرامین صوتی. در سال‌های اخیر این حوزه تحقیقاتی توجه دانشمندان را به خود جلب کرده است و تحقیقات قابل ملاحظه‌ای در این زمینه صورت گرفته است. برای کسب اطلاعات بیشتر درباره کاربردهای پردازش زبان طبیعی می‌توانید به این مقاله مراجعه بفرمایید.

بر همین مبنا الگوریتم‌های بسیاری برای رسیدن به برنامه‌هایی هوشمندتر توسط دانشمندان و متخصصین علوم رایانه، زبانشناسی و ریاضیدانان، طراحی و پیشنهاد شده است. به عنوان مثال الگوریتم‌های الگوی مارکوف و الگوی مخفی مارکوف و نیز تلاشهای چندین ساله نوام چامسکی در این راه، نمونه خوبی برای این امور است. روز به روز بر پیشرفت‌های دانشمندان در این امر افزوده می‌شود و دانشمندان در سراسر دنیا سعی بر بهبود روش‌ها و پیاده سازی این روش‌ها در زبان‌های بومی خودشان هستند.

سطوح (رده‌های) پردازش زبان طبیعی

اطلاعات و دانشی که در پردازش زبان طبیعی از آنها استفاده می‌‌شود به هفت سطح (رده) مختلف تقسیم‌بندی می‌شوند:

  1. آوا شناسی (Phonetics) که به تشخیص آواها و صداها و بازشناسی گفتار می‌پردازد.
  2. واج‌شناسی (Phonology) که به بررسی واج یا هجا (بخش)ها در کلمات می‌پردازد.
  3. ریخت شناسی (Morphology) که به ساختار‌های کلمات و ریشه‌یابی واژگان می‌پردازد.
  4. نحو (Syntax) که به ارتباط کلمات به همدیگر و مباحث دستوری آن‌ها در گروه‌ها و جملات می‌پردازد.
  5. معناشناسی (Semantics) که به ارتباطات معنایی اصلی کلمات در متن و ابهام‌زدایی مفاهیم ‌می‌پردازد.
  6. عمل‌گرایی (Pragmatics) که کاربردهای زبان برای رساندن یک مطلب به مخاطب یا مخاطبان، در حالت عملی و یا در نوشتار و گفتار طبیعی می‌پردازد.
  7. گفتمان یا مباحثه (Discourse) که به ارتباطات کلی یک زبان فرای یک یا چند جمله خاص می‌پردازد.

برای کسب اطلاعات بیشتر درباره سطوح زبان طبیعی می‌توانید به این مقاله مراجعه بفرمایید.

زبان فارسی از دیدگاه ریخت‌شناسی

 در زبان فارسی، هر فعل شامل زمان، تعداد و شخص است. به عنوان مثال، فعل «می‌خوانم» یک فعل زمان حال متشکل از سه واژک است: پسوند «م» نشانگر اول شخص مفرد، «خوان» ریشه زمان حال فعل و پیشوند «می» حاکی از تداوم است. اگر فعل دارای ضمیر مفعولی باشد، این ضمیر به انتهای فعل متصل می‌شود، مانند: «می‌خوانمش» که در آن «ش» ضمیر مفعولی نامیده می‌شود. همچنین، شکل منفی فعل با افزودن «ن» به ابتدای آن تشکیل می‌شود. به عنوان مثال، «نمی‌خوانم» شکل منفی فعل «می‌خوانم» است.

اسم‌ها بیش از سایر واژه‌ها در زبان فارسی چالش برانگیز هستند. دستورات متعددی برای اسم‌ها گردآوری شد که توضیح یکی از این موارد در این بخش ارائه می‌شود. شکل جمع اسم با افزودن پسوندهای (ها، ان، ات، ون، ین) تشکیل می‌شود. «ها» برای تمام واژه‌ها بکار برده می‌شود. «ان» برای انسان، حیوان و هر موجود زنده قابل کاربرد است. همچنین، «ات، و، ین» برای برخی واژه‌های عاریه گرفته شده از زبان عربی و برخی واژه‌های فارسی استفاده می‌شود. شکل جمع دیگری در زبان فارسی وجود دارد که جمع مکسر نامیده می‌شود که شکل جمع اشتقاقی (اشکال نامنظم در زبان فارسی) است.

دستورات نوشتاری نیز وجود دارد که اثرات افزودن و همراهی پیشوند و پسوند به واژه را نشان می‌دهد. به عنوان مثال، دو بخش از یک واژه را در نظر بگیرید: A و B به صورت BA بکار برده می‌شوند. اگر حرف آخر A و حرف اول B به صورت «ا» باشند، حرف «ی» بین آن‌ها اضافه می‌شود. فرض کنید A «دانا» و B “ان” است، همراهی این دو بخش «دانایان» را بدست می‌دهد.

بررسی مختصر ساختارشناسی زبان فارسی

زبان فارسی یک زبان SOV (Subject–object–verb) تصریفی و دارای ترتیب واژگانی نسبتاً ثابت است که به شاخه غرب ایران در زبان‌های هندو اروپایی تعلق دارد. دامنه گویش این زبان حدوداً ۲۰۰ میلیون نفر، به ویژه در ایران، افغانستان و تاجیکستان و ازبکستان، و همچنین در پاکستان، بحرین، عراق، قزاقستان و اقوام ایران را دربرمی‌گیرد. در ایران، جای که زبان فارسی به منزله زبان رسمی بکار برده می‌شود، اغلب دری، پارسی نیز نامیده می‌شود.

واژه‌های غیرفعل

در زبان فارسی دو مشخصه عددی، مفرد و جمع مشاهده می‌شود که شکل جمع تنها با پسوند «ها» (برای تمام اسامی قابل شمارش)، یا صرفاً برای برخی اسامی جاندار پسوندهای «ان» یا یکی از علائم جمع عربی «ات»، «ون»، «ین» و غیره مشخص می‌شود که این علائم فقط به واژه‌های عاریه‌ای عربی متصل می‌شود. تعداد کلمات اندکی بصورت جمع فارسی مکسر نیز در زبان فارسی وجود دارد که به طور مستقیم ریشه در واژه‌های عاریه‌ای عربی دارد. لیکن، هیچ تغییری در این ساختار در خصوص چنین اسامی جمع صورت نمی‌گیرد. همچنین، حرف ویژه‌ای (ی) برای تعین اسامی تغییریافته وجود دارد که اضافه نامیده می‌شود. اسم معین و یا عبارات اسمی کامل به صورت مؤلفه اصلاحی مشخص می‌گردد.

علاوه بر این، علامت «ای» وجود دارد که اشکال را از نظر مفرد و جمع جدا نمی‌سازد؛ اگر این علامت به اسم تغییریافته از صفت متصل شود، بلافاصله یک اسم یا صفت بعد از آن جای می‌گیرد. در حالت اول، اسم حرف اضافه نمی‌پذیرد، در حالی که در مورد دوم، حرف اضافه بکار برده می‌شود. سایر علائم اعرابی شامل «ای» همراه با علامت نسبی «ک»، علامت معین دلخواه «ه»، و ضمیر صفت ساز «را» است. صفت‌ها تنها از نظر پذیرش پسوند «تر» برای شکل نسبی و «ترین» برای شکل عالی از یکدیگر متفاوت هستند. لیکن، صفات حرف اضافه را به دنبال اسم تغییریافته یا در صورت وجود یا نبود صفت می‌پذیرند. این مسأله به ویژه در خصوص صفات مشتق از شکل فعلی مصداق می‌یابد.

واژه‌های فعل‌

با توجه به رده فعلی (فعل‌ها)، زبان فارسی مانند بیشتر زبان‌های ایرانی دارای حجم بسیار محدودی از واژه‌های فعلی است. این دامنه شامل حدود ۲۰۰ واژه است. بیشتر معانی فعلی که از بیشتر زبان‌های هندواروپایی گسترش یافته شناخته شده‌اند از طریق گزاره‌های فعلی پیچیده بیان می‌شوند که از فعل ساده و مؤلفه گزاره‌ای تشکیل شده است. این مؤلفه اسم یا صفت است.

ساختار شناختی فعلی تقریباً پیچیده است، اما الگوی نسبتاً ساده‌ای را دنبال می‌کند. توضیحات ساختار شناختی زبان فارسی معمولاً حاکی از وجود دو ریشه فعلی جدا است، یکی برای شکل زمان حال فعل و دیگری برای شکل زمان گذشته. زمان حال در شکل امری و ساده بکار برده می‌شود، در حالیکه در زمان‌های گذشته، گذشته کامل مورد استفاده قرار می‌گیرد. زمان‌های مرکب و نیز وجه مجهول از گذشته کامل مشتق می‌شود.

استفاده از این مقاله با ذکر منبع (سامانه متن کاوی فارسی‌یار)، بلامانع است.