تبدیل متن به بردارهای عددی – بخش اول – مقدمه

استخراج و انتخاب ویژگی‌های مناسب (Relevant features) از یک مجموعه داده نقش حیاتی در بهبود کیفیت و کارایی روش‌های یادگیری ماشین دارند. خصوصاً در داده‌های با تعداد ابعاد بالا مانند متون، داده‌های بیان ژنی (Gene expression data)، تصویر، صوت، ویدئو و غیره انتخاب ویژگی امری ضروری است.

هدف از استخراج ویژگی‌های عددی از متن

اغلب روش‌های یادگیری ماشین بر روی داده‌های عددی قابل اجرا هستند و برای استفاده و اجرای آنها روی داده‌های متنی نیاز به تبدیل متون به مجموعه اعداد است. پس هدف رویکردهای مختلف تبدیل متن به بردارهای عددی، استخراج و انتخاب مجموعه‌ای از ویژگی‌های مناسب از متون زبان طبیعی است که در مرحله بعد بوسیله روش‌های یادگیری ماشین از قبیل دسته‌بندی متون (Text classification) استفاده می‌شوند. بطور کلی، استخراج ویژگی از مجموعه داده‌ها با دو هدف انجام می‌شود:

  1. افزایش کارایی و سرعت روش‌های دسته‌بندی با کاهش ابعاد و اندازه داده‌ها: بخصوص جهت بکارگیری برخی روش‌های دسته‌بندی که فاز آموزش آنها هزینه و سربار زمانی یا حافظه‌ای بالایی دارند (مانند SVM)، این امر ضروری است.
  2. افزایش دقت روش‌های دسته‌بندی: با حذف ویژگی‌های نویزی (که وجود آنها باعث افزایش خطای دسته‌بندی برای داده‌های جدید می‌شوند) و استخراج ویژگی‌های مناسب (که باعث نزدیک شدن داده‌های درون دسته‌ها و تمایز بیشتر بین داده‌های دسته‌های مختلف می‌شوند).

رویکردهای مختلف بازنمایی برداری متون

به فرایند تبدیل متن به اعداد، بردارسازی (vectorization) یا بازنمایی برداری (vector representation) متون یا مدل بردار کلمات (vector space model – VSM) می‌گویند.

رویکردهای مختلفی برای بردارسازی متون زبان طبیعی وجود دارند:

  • رویکرد کیف کلمات (bag-of-word – BOW)
  1. کدگذاری دودویی (Binary) یا وان‌هات (One-Hot Encoding)
  2. بردارسازی شمارشی (Frequency/Count Vectorizer) یا وزن‌دهی مبتنی بر TF-IDF
  3. بردارسازی درهم (Hashing Vectorizer)
  4. شمارش چندگانه‌ها (Word/Char N-gram)
  • رویکرد بازنمایی توزیع شده (Distributed Representation) و انتقال یادگیری (Transfer Learning)
  1. روش‌های تعبیه کلمات (Word Embedding) و متن از قبیل:Word2Vec، GloVe، Doc2Vec، FastTextو …
  2. روش‌های مبتنی بر یادگیری عمیق (Deep Learning) از قبیل: Embedding Layer در شبکه عصبی
  3. استفاده از بردارهای از پیش آموزش داده شده (pre-trained models) از قبیل: Elmo، GPT، BERT، GPT2، XLM، XLNet، Transfom-XL، DistillBERT و …

جایگاه پیش‌پردازش در بازنمایی برداری متن

یکی از مراحل مهم در فرایند متن‌کاوی پیش‌پردازش متن است. اغلب پیش‌پردازش متن در ابتدای فرایند متن کاوی و با یکی از اهداف ذیل انجام می‌شود:

  • پاک‌سازی و استانداردسازی متن از قبیل: اصلاح نویسه‌ها، فاصله و نیم‌فاصله‌ها، وندها یا کلمات مرکب جدانوشته شده، تبدیل کلمات محاوره‌ای و کاراکترهای حسی (ایموجی) به شکل استاندارد، ریشه‌یابی و …
  • غنی‌سازی یا حاشیه‌نویسی متن (افزودن اطلاعات جانبی مفید به متن) از قبیل: برچسب‌زنی نقش ادات سخن، گسترش معنایی کلمات (افزودن کلمات هم‌معنی یا هم‌کاربرد با کلمات کلیدی داخل متن) و …
  • حذف ویژگی‌های اضافه (کلمات بدون ارزش) از قبیل: حذف کلمات توقف، انتخاب کلیدواژه‌ها یا موجودیت‌های نامی و حذف سایر کلمات و …

پیشنهاد می‌کنیم، برای اطلاع بیشتر درباره فرایند متن کاوی به این مقاله و برای آشنایی با ابزارهای پردازش متن به این مقاله مراجعه بفرمایید.

در بخش‌های بعدی این مقاله درباره رویکردهای مختلف بازنمایی برداری متون صحبت خواهیم کرد.

استفاده از این مقاله با ذکر منبع “سامانه متن کاوی فارسی‌یار‌ – text-mining.ir“، بلامانع است.

احسان عسکریان دکترای نرم افزار و مدیر گروه متن کاوی فارسی یار هستم

دیدگاه خود را بنویسید:

آدرس ایمیل شما نمایش داده نخواهد شد.