استخراج کلمات کلیدی از متن فارسی با روش های آماری TF-IDF

بعد از مراحل نرمال سازی، حذف کلمات ایستا، تکه کردن کلمات درون متن و ریشه یابی کردن واژه ها، یکی از مهمترین مراحل در پردازش متن استخراج کلمات کلیدی میباشد. در ابتدا به تعاریفی از کلمات کلیدی یا Key word ها پرداخته میشود. کلمات کلیدی مجموعه‌ای از لغات مهم در یک سند هستند که توصیفی از محتوای سند را فراهم می‌آورند و برای اهداف مختلفی مورداستفاده قرار می‌گیرند. کلمات کلیدی اطلاعات نحوی مفیدی را برای بسیاری از کارهای پردازش متن فراهم می‌کند، به عبارتی استخراج کلمات کلیدی، فرآیند شناسایی خودکار اصطلاحات به کار رفته در یک سند است.

استخراج کلمات کلیدی
مراحل الی در استخراج کلمات کلیدی

کاربرد کلمات کلیدی

با یافتن کلمات کلیدی می‌توان راحت‌تر و در زمانی کوتاه‌تر به مفهوم یک متن، خبر یا مقاله پی برد. یکی از عملیات­های مهم در فرآیندهای خوشه ­بندی، طبقه­ بندی، استخراج اطلاعات­ و مشخص کردن موضوع مورد بحث در یک سند، تشخیص کلمات کلیدی متن است. استخراج کلمات کلیدی به معنای انتخاب تعدادی کلمه (عبارت) از متن است به‌گونه‌ای که بتواند معنای متن را توصیف کند و هدف از متن را نمایش دهد

برای انتخاب کلمات کاندید به عنوان کلمات کلیدی، بایستی تمام کلمات، عبارات، اصطلاحات و مفاهیمی که می­توانند به طور بالقوه کلمات کلیدی باشند را استخراج می­کنیم. سپس با استفاده از تکنیک‌های پردازش متن و یادگیری ماشین، خواص هر کاندید محاسبه و یک نمره یا آستانه احتمالی به آن اختصاص می­یابد. سپس تمام کاندیداها را می­توان به وسیله ترکیب خواص، برای انتخاب مجموعه نهایی کلمات کلیدی یک سند ارزیابی کرد. به عنوان مثال، یک عبارت کاندید در عنوان یک کتاب، به احتمال بسیار زیاد یک کلمه کلیدی است.

استخراج کلمات کلیدی
کشف ارتباطات یکی از کاربرد های مهم استخراج کلمات کلیدی

استخراج کلمات کلیدی

استخراج کلمات کلیدی معمولا به کمک الگوریتم‌های متنوع و با استفاده از ویژگی‌های آماری اسناد، کلمات و عبارات کلیدی متون انجام میشود. و این پروسه معمولاً در سه مرحله انجام می‌گیرد. ابتدا مجموعه‌ای از کلمات و عبارات به‌عنوان کاندید انتخاب می‌شوند و سپس برای هر کاندید ویژگی‌هایی که باعث می‌شوند آن کلمه یا عبارت به‌عنوان کلمات کلیدی در نظر گرفته شود محاسبه می‌شوند.

مثلاً کلمه کاندیدی که در عنوان نیز وجود دارد احتمالاً کلمه کلیدی است و یا ویژگی‌های دیگری نظیر طول و تعداد رخداد کلمات کلیدی در متن، محل حضور کلمه کلیدی در متن، میزان شباهت با دیگر کاندیدها…محاسبه می‌شوند. در مرحله‌ی آخر نیز تمامی کاندیدها با ترکیب کردن ویژگی‌ها در یک فرمول و یا با استفاده از فن‌های یادگیری ماشین امتیازبندی شده و کلمات و عبارات با بیشترین امتیاز به‌عنوان کلمات کلیدی انتخاب می‌شوند.

به طور کلی سه روش متداول برای استخراج کلمات کلیدی وجود دارد:

  • روش TF-IDF
  • روش­ مبتنی بر یادگیری ماشین

که در ادامه به دو روش آماری پرکاربرد میپردازیم

روش TF

روش Term Frecuancy یک روش ابتدایی و خیلی پر کاربرد برای استخراج کلمات کلیدی ازمتن است. که در شکل زیر مراحل آن مشخص است.

  1. ایجاد وکتوری از واژگان درون سند یا متن
  2. دادن امتیاز به هر واژه بر اساس تکرار آن کلیمه
  3. مرتب کردن امتیاز های بصورت نزولی
  4. انتخاب تعداد کلمات کلیدی با امتیاز بیشتر
استخراج کلمات کلیدی
استخراج کلمات کلیدی بر اساس روش TF

کد جاوا مربوط به روش TF در ادامه آورده شده است.

TF-IDF برای پیدا کردن کلمات کلیدی:

روش TF/IDF یک شاخص اندازه گیری در حوزه پردازش زبان وگفتار می‌باشد. هدف این شاخص تعیین میزان اهمیت یک لغت در متن است که این امر را با اعطای امتیاز کمتر به لغات کمتر تکرار و امتیاز بیشتر به لغات پر تکرار انجام می‌دهد. این روش تطابق نیازمند آن است که میزان تکرار تمامی ویژگی‌هایی که برای ما اهمیت دارند را استخراج نماییم. برای مثال در زمان وارد کردن یک آدرس احتمال آن وجود دارد که به جای کلمه کوچه، کوی ثبت شود. از این رو معیار تطابق کلماتی را که کمتر اهمیت دارند نظیر کوچه، کوی و خیابان را نادیده گرفته و به کلمات پر اهمیت تر متن توجه می‌کند.

d8a7d8b3d8aad8aed8b1d8a7d8ac daa9d984d985d8a7d8aa daa9d984db8cd8afdb8c d8a7d8b2 d985d8aad986 d981d8a7d8b1d8b3db8c d8a8d8a7 d8b1d988d8b4 16

روش TF-IDF : در این روش میزان تکرار یک کلمه در یک مستند را در مقابل تعداد تکرا آن در مجموعه کلیه مستندات در نظر می گیریم.

در روش TF-IDF وزن دهی کلمات تابعی از توزیع کلمات مختلف در مستندات است.

برای پیاده سازی این روش ابتدا یک مجموعه اسناد (برای مثال مجموعه اسناد همشهری) را در نظر می گیریم. به ازای تمام کلماتی که در پیکره وجود دارد ، بررسی می کنیم که هر کلمه در چه تعداد از سندها تکرار شده است و آن را ذخیره می کنیم .

سپس یک سند به عنوان ورودی دریافت می شود. هدف یافتن کلمات کلیدیِ سند دریافت شده است.
برای این منظور ابتدا بررسی می کنیم که هر یک از کلمات سند ورودی ، چند بار در همان سند استفاده شده است.
سپس به ازای تمام کلمات سند ورودی بررسی می کنیم که هر کلمه در چه تعداد از اسناد پیکره اصلی (برای مثال همشهری) وجود دارد.

بعد از طی کردن این مراحل به حساب کردن وزن کلمات می پردازیم :

تعیین وزن کلمات با استفاده از دو معیار term frequency و inverse document frequency انجام می شود که به شرح زیر محاسبه خواهند شد :

الگوریتم TF
الگوریتم TF
تصویر تی اف

که در آن :

f(t,d)f(t,d)

تعداد تکرار کلمه t در سند d (سند هدف) است و

max{f(w,d)}maxf(w,d)

تعداد پر تکرارترین کلمه در سند d می باشد

و

الگوریتم TFIDF
الگوریتم TFIDF

که در آن N تعداد کل اسناد موجود در پیکره است و

تصویر مخرج

بیانگر تعداد اسنادی است که کلمه t در آنها وجود دارد.

در نهایت وزن هر کلمه به صورت زیر محاسبه خواهد می شود :

d8a7d8b3d8aad8aed8b1d8a7d8ac daa9d984d985d8a7d8aa daa9d984db8cd8afdb8c d8a7d8b2 d985d8aad986 d981d8a7d8b1d8b3db8c d8a8d8a7 d8b1d988d8b4 19

مدیریت سرور، پشتیبانی و کانفیگ سرور – آفاق هاستینگ

نوشته های مشابه