فراخوان مشارکت عمومی برای کمک به زبان فارسی

دعوت به همکاری

هدف ما این است که با مشارکت شما دوستان، بتوانیم پیکره برچسب‌خورده بزرگ و منبع باز (رایگان) ایجاد شده برای تشخیص موجودیت‌های نامدار (Named Entity Recognition یا NER) در زبان فارسی را اصلاح کنیم. تا بدین ترتیب، با حل یکی از چالش‌های زبان فارسی، قدم کوچکی برای احیای این زبان برداشته باشیم. برای این منظور پیکره‌ای در حدود ۲۵ میلیون توکن (واژه یا علامت) در قالب (نزدیک به) یک میلیون جمله از متون ویکی‌پدیا استخراج و با روش‌های مختلف بصورت خودکار برچسب‌گذاری اولیه شده است. از شما دوستان خواهشمندیم که با تصحیح برچسب‌های اشتباه یا برچسب‌زنی کلمات جاافتاده ما را در این راه یاری فرمایید. برای بالا بردن دقت کار هر جمله توسط دو نفر از دوستان مشارکت‌کننده، اصلاح و درصورت توافق‌نظر به پیکره اصلی اضافه می‌شود.

برای انجام این کار، سامانه‌ای به آدرس ذیل ایجاد شده که می‌توانید با ثبت‌نام و ورود به این سامانه در اوقات فراغت خود، بوسیله گوشی هوشمند یا سیستم (کامپیوتر) خود، براحتی با مصرف حجم کمی از اینترنت کار اصلاح برچسب‌گذاری را انجام بفرمایید.

همچنین اپلیکیشن اندروید فارسی‌یار بصورت متن‌باز برای برچسب‌زنی در کافه بازار قرار داده شده است.

خروجی پیکره برچسب‌گذاری شده در فواصل زمانی منظم در این آدرس برای پژوهشگران و علاقه‌مندان به تحقیقات پردازش زبان طبیعی قابل دسترس خواهد بود.

درنهایت سرویس (ابزار) NER زبان فارسی با کمک و استفاده از اولین خروجی پیکره برچسب خورده توسط دوستانی که در این پروژه مشارکت داشتند، در بخش API ابزارهای پردازش متن در سامانه متن کاوی فارسی‌یار قرار داده شده است که برای عموم قابل استفاده است.

توضیح درباره ابزار تشخیص موجودیت‌های نامی

یکی از ابزارهای مهم جهت استخراج اطلاعات از متن، شناسایی موجودیت‌های نامدار[۱] یا کلمات خاص است. تشخیص موجودیت‌های نامدار (نامی) به این معناست که اسامی خاص در یک متن را بتوان تشخیص داد و آنها را به رده‌های مشخصی دسته‌بندی کرد. این رده‌ها چیزهای مختلفی می‌توانند باشند که هدف ما استخراج رده‌های ذیل است:

1. نام شخص (نام کوچک یا فامیل افراد و القاب و عناوین منتسب و یا همراه آنها)

2. نام سازمان (شرکت، نهاد‌ها، ادارات و تشکل‌های خصوصی یا دولتی، نام بخش‌های ادارات، گروه، تیم یا باشگاه ورزشی، وزارت، نام کارخانه یا نام فروشگاه معروف یا اصناف، نام نشریات و خبرگزاری‌ها و …)

3. نام مکان (کشور، استان، شهر، روستا، کوه، رودخانه، دریا، صحرا، بنای تاریخی، خیابان، مجتمع مسکونی، منطقه یا ناحیه خاص، اشاره به مکان مدرسه یا کارخانه یا مغازه یا ایستگاه مترو یا حرم یا … در متن). لطفاً توجه شود که محل اشیا و … مثل “زیر میز”، “در قلبم” جزء اسامی مکان نیست.

4. نام یا عبارت رویداد (حادثه، تصادف، قتل، جنگ، سرقت، آتش‌سوزی، عملیات تروریستی یا نظامی، برگزاری مسابقات مختلف، انتخابات، مذاکرات یا اجلاس، جشن یا کنگره یا …، توافق‌نامه، تظاهرات، مناسبت‌های مختلف و …)

5. عبارت زمان یا تاریخ (روز هفته، ماه، سال، ساعت، تاریخ، قرن، دوره یا عصر زمانی، اشاره به تاریخ یا زمان خاص یا نسبی مثل “دیروز”، “یک ساعت قبل”، “نیمه شب” و …)

رویکردهای شناسایی موجودیت‌های نامی

متاسفانه تهیه لیست اسامی خاص خیلی وقت‌ها کمکی چندانی نمی‌کند، چون نوعاً کلماتی وجود دارند که می‌توانند با توجه به جمله و متن، در چند رده قرار بگیرند. برای مثال :

“۱۱ سپتامبر”، می‌تواند اشاره به حادثه ۱۱ سپتامبر داشته و از رده رویداد یا از رده تاریخ/زمان باشد.
“صیاد شیرازی” می‌تواند در جمله به یک خیابان (رده مکان) یا نام یک شخص (رده اشخاص) باشد.

دو رویکرد استفاده از الگوهای متنی (مثلا آقای ؟ اشاره به نام شخص دارد) و استفاده از روش‌های یادگیری ماشین برای حل این مشکل وجود دارد. با توجه به ضعف‌ها و موارد استثنای زیاد، استفاده از رویکرد الگوهای متنی به تنهایی خیلی کاربردی نیست و رویکرد مبتنی بر روش‌های یادگیری ماشین توصیه می‌شود. در روش‌های یادگیری ماشین از قواعد از پیش‌تعیین شده و لیست لغات استفاده نمی‌شود و به جای آن از حجم زیادی از داده‌های برچسب‌خورده (یا در برخی موارد بدون برچسب) استفاده می‌شود. منظور از پیکره برچسب خورده، متون زیادی است که موجودیت‌های آن بوسیله‌ی یک روش دستی یا نیمه دستی (توسط انسان) مشخص (برچسب‌گذاری) شده باشد. از پیکره برچسب خورده برای فرایند یادگیری روش‌های هوشمند استفاده می‌شود. اما متاسفانه چالش اصلی این رویکرد، عدم وجود پیکره برچسب خورده مناسب و کافی برای زبان فارسی است.