همه چیز درباره فایل robots.txt ربات گوگل

robots.txt

فایل robots.txt یک فایل متنی است که مدیران سایت و وبمسترها برای هدف دهی و کنترل عملیات خزیدن و crawl کردن سایت توسطالگوریتم های موتورهای جستجو ایجاد می کنند. این فایل بخشی از پروتکل ردگیری ربات های موتورهای جستجو (REP) می باشد. این پروتکل دربرگیرنده گروهی از استانداردهای وب است که چگونگی ردیابی سایت توسط موتورهای جستجو و نحوه دسترسی ربات ها به محتوای سایت را تعیین و یا محدود می کند.

REP همچنین شامل دستورالعمل هایی مانند روبات های متا (meta robots) و نحوه برخورد موتورهای جستجو با لینک ها (“follow”  یا “nofollow”) می باشد.

ساختار اصلی فایل robots.txt

دستور User-agent : مشخص کردن نام ربات خاصی که قصد دارید برای آن در دسترسی به محتوای سایت محدودیت ایجاد کنید. برای مشاهده لیست کاملی از نام ربات های متنوع موتورهای جستجو می توانید با این لینک مراجعه نمایید.

دستور Disallow : نام پوشه یا آدرس خاصی از سایت که قصد دارید برای آن محدودیت ایجاد کنید و آن را از دید ربات های مخفی نگه دارید.

دستور Allow : ارائه مجوز دسترسی به ربات گوگل برای ایندکس کردن و بررسی پوشه خاصی از سایت، در حالیکه پوشه مادر آن و یا پوشه  داخلی آن محدود شده باشد. توجه نمایید که این دستور تنها برای ربات گوگل (Googlebot) می باشد.

دستور Crawl-delay : تعیین مدت زمانی که ربات های موتورهای جستجو قبل از لود کامل صفحه برای بررسی محتوا باید صبر کنند و بر حسب میلی ثانیه باید وارد شود. توجه داشته باشید که Googlebot این دستور را تأیید نمی کند، اما سرعت خزیدن را می توان در کنسول جستجوی گوگل تعیین کرد.

دستور Sitemap : استفاده از این دستور برای تعیین موقعیت (URL) فایل نقشه سایت (XML sitemap) می باشد. به این نکته نیز دقت کنید که این دستور تنها توسط گوگل، Ask ، بینگ و یاهو پشتیبانی می شود.

مطلب مرتبط  7 راه برای بهینه سازی کمپین گوگل ادوردز

فایل robots.txt کجا قرار میگیرد؟ 

ربات های موتورهای جستجو این فایل را تنها در این آدرس (www.example.com/robots.txt) جستجو می کنند و در صورتیکه این فایل در این آدرس وجود نداشته باشد و یا نام آن متفاوت باشند، تصور آن ها بر این خواهد بود که این فایل توسط شما ایجاد نشده، محدودیتی برای ایندکس و بررسی کردن سایت برای ربات ها ایجاد نکرده اید و تمامی سایت به صورت کامل توسط ربات ها بررسی می شود. این فایل را می بایست در ریشه اصلی سایت خود قرار دهید.

نحوه عملکرد فایل robots.txt : 

موتورهای جستجو 2 هدف کلی دارند:

1 – پویش بستر وب برای بررسی محتوای وب

2 – ایندکس کردن محتوا برای پوشش دادن و نمایش اطلاعات مرتبط با جستجوی کاربران

برای خزیدن در میان سایت ها، ربات های موتورهای جستجو لینک ها را از یک سایت به سایت دیگر دنبال می کنند و در نهایت میلیاردها لینک و وبسایت توسط ربات ها پردازش و بررسی می شود.

پس از اینکه ربات توسط یک لینک به یک سایت میرسد، در ابتدا فایل robots.txt را جستجو می کند و پس از یافتن آن، قبل از اینکه شروع به بررسی سایت کند، فایل را به طور کامل پردازش خواهد کرد. زیرا همانگونه که ذکر شد این فایل شامل اطلاعاتی درباره محدودیت ها و نحوه دسترسی ربات ها به صفحات مختلف سایت می باشد. در صورتیکه این فایل محدودیتی برای ربات ها ایجاد نکرده باشد، تمامی صفحات و محتوای سایت توسط ربات ها خزیده و ایندکس می گردد.

مثالهایی از دستورات قابل استفاده در فایل robots.txt :

  • محدودکردن تمامی خزنده های وب در دسترسی به تمامی محتوای سایت :

User-agent: *

Disallow: /

  • ارائه مجوز به تمامی خزنده های وب در دسترسی به تمامی محتوای سایت :

User-agent: *

Disallow:

  • محدودکردن یک خزنده خاص (Googlebot) در دسترسی به یک پوشه خاص از سایت :

User-agent: Googlebot

Disallow: /example-subfolder/

  • محدودکردن یک خزنده خاص (Bingbot) در دسترسی به یک صفحه خاص از سایت :

User-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

دلایل استفاده از فایل robots.txt

فایل robots.txt دسترسی خزنده ها به محتوای خاصی از سایت محدود می کند. با این حال بسیار حائز اهمیت است که به طور تصادفی دسترسی ربات گوگل به کل محتوای سایت را محدود نکرده باشید. به طور کلی چندین دلیل مهم برای محدود کردن خزنده ها وجود دارد:

  • عدم دسترسی خزنده ها به محتوای تکراری سایت
  • مخفی کردن قسمت های خاصی از سایت از دید خزنده ها
  • ارائه دسترسی به خزنده ها برای ایندکس کردن صفحات سایت و نمایش آن در نتایج موتورهای جستجو
  • تعیین موقعیت فایل نقشه سایت (sitemap)
  • محدودکردن خزنده ها در دسترسی به فایل ها خاصی از سایت مانند تصاویر، PDF و…
  • تعیین مدت زمان تأخیر خزنده ها برای بررسی محتوای سایت با توجه به امکان در دسترس نبودن سرور سایت

نکات مهم در رابطه با فایل robots.txt :

  • فایل حتمأ می بایست در پوشه و root اصلی سایت قرار داشته باشد.
  • برخی از ربات ها مانند malware robots و email address scrapers ممکن است این فایل را نادیده بگیرند.
  • دقت داشته باشید که دسترسی به این فایل را محدود نکنید
  • برای هر ساب دامین می بایست یک فایل txt مجزا ایجاد کنید.
  • صحیح بودن محل قرارگیری فایل txt را با قراردادن عبارت ” /robots.txt ” در انتهای URL سایت بررسی کنید.
مطلب مرتبط  عوامل مؤثر در کیفیت تولید محتوا و اهمیت آن در سئو

فایل robots.txt و سئو :

  • حتمأ به این نکته توجه داشته باشید که محتوایی که تمایل دارید در موتورهای جستجو ایندکس شوند را در این فایل محدود نکرده باشید.
  • لینک های موجود در صفحاتی که دسترسی ربات ها به آن صفحات محدود شده است توسط ربات ها دنبال و ایندکس نمی شوند و ارزش صفحات از طریق لینک ها منتقل نمی شوند.
  • در صورتیکه تمایل دارید صفحات و محتوای خاصی از سایت توسط موتورهای جستجو ایندکس نشوند (مانند صفحات حاوی اطلاعات شخصی و…) ، محدود کردن ربات ها به این صفحات راه حل مناسبی نیست زیرا ممکن است این صفحات خاص از طریق لینک گرفتن از دیگر صفحات سایت توسط موتورهای جستجو تشخیص داده شود و ایندکس گردد. راه حل مناسب جهت انجام این امر ، قرار دادن تگ noindex در این صفحات است.
  • برخی از موتورهای جستجو چندین خزنده برای بررسی سایت ها دارن، به عنوان مثال گوگل از خزنده Googlebot برای سرچ های ارگانیک و از خزنده Googlebot-Image برای جستجوی تصویری استفاده می کند.
  • موتوررهای جستجو این فایل را به صورت کش ذخیره می کنند اما به طور معمول در هر روز یکبار توسط موتورهای جستجو بروزرسانی و کش می شود. در صورتیکه در طول روز بیش از یکبار و به صورت مداوم این فایل را بروزرسانی می کنید می بایست آن را از طریق Google webmaster tools به گوگل معرفی نمایید.

نوشته های مشابه