robots txt فایل آموزش کنترل ربات های گوگل | xeroseo

از طرفی دیگر نیز محدود ساختن تعداد زیادی صفحه در سایت از طریق فایل Robots.txt بسیار ساده است و با افزودن یک آدرس به فایل انجام می‌شود اما تگ نوایندکس باید به صورت دستی به هر صفحه اضافه شود. بنابراین برای جلوگیری از ایندکس صفحات سایت، فایل ربات ساز نسبت به متا تگ noindex انتخاب هوشمندانه‌تری به نظر می‌رسد. جالب اینجاست که بدونین فایل Robots.txt یه فایل متنی ساده هست که در مسیر اصلی فضای سایت شما یا Root Directory قرار می گیره.

Disallow

هفته اول تعداد بازدید مجله خبری زیرو سئو عالی بود ولی بصورت ناگهانی افت کرد و الان به صفر رسیده. تم رو عوض کردم و در گوگل وبمستر هم سایت رو ثبت کردم اما افزونه یوست هنوز پیغام میده که سایتتون ایندکس نمیشه.در سایت وبمستر تولز هم برای نقشه ی سایت ارور میده! با ابزار انلاین که فایل robots.txt رو چک کردم میگفت وجود نداره اما از طریقی که شما اموزش دادید فایلی رو اورد که اصلا دستوراتش فرق میکنند.

http://atours.ir

اما این چیزی نیست که ما دنبال آن باشیم، بنابراین باید بتوانیم به کمک فایل robots قوانینی را مشخص کنیم که باب میل ما هستند. حالا که تا حدودی متوجه شدیم که کلیت این فایل چیست، بد نیست که نگاهی به نقش‌های فایل robots.txt و دلایل اهمیت آن بپردازیم و دقیقا مشخص کنیم که چرا سایت‌مان باید حاوی فایل robots.txt باشد. تولید و بازاریابی محتوا برای سایت به منظور افزایش ترافیک و فروش سایت بسیار مهم است. آموزش تولید و سئو محتوا برای کسب رتبه در گوگل برای سایت شما نقش کلیدی دارد. حالا مگر برای گوگل اصلا اهمیت دارد که تو به ربات اش گفته ای که چکار کند.

چرا باید از فایل Robots.txt استفاده کنیم؟

یکی از ابزارهای مختلف که به شما در بررسی صحت فایل robots.txt کمک می‌کند استفاده از ابزار تست robots.txt گوگل است. تصویر زیر فایل robots.txt سایت یوتیوب به عنوان نمونه نمایش داده شده‌است. معمولا موتورهای جستجو محتویات فایل robotx.txt را ذخیره می‌کنند تا به دانلود مجدد آن نیاز نداشته باشند، با این حال روزانه چندبار نسخه جدید فایل را بارگذاری می‌کنند. پس انعکاس تغییرات اعمال شده در فایل Robots.txt زمان زیادی نخواهد برد و سریعا اعمال می‌شود. خیر ربات‌های بدافزارها به دنبال اطلاعات کلی از سایت‌ها مانند ایمیل‌های بخش Info هستند درنتیجه به صورت کامل Robots.txt را نادیده می‌گیرند و از دستورات آن پیروی نمی‌کنند. هدف این ربات‌های مخرب پیدا کردن ایمیل‌های شرکتی است تا هرزنامه و اسپم‌ها را به صورت انبوه برای این ایمیل‌ها ارسال کنند.

  • ستون یک شامل URL یک فایل robots.txt است و ستون دو شامل دامنه‌هایی است که آن فایل robots.txt برای آنها اعمال می‌شود و نمی‌خواهد.
  • این فایل به موتورهای جستجو می گوید که چگونه می توانند به بهترین شکل ممکن وب سایت شما را جستجو کنند.
  • گوگل این فرمان را نمی‌شناسد، اگرچه موتورهای جستجوی دیگر آن را تشخیص می‌دهند.
  • در غیر این صورت به پوشه public_html در هاست خود بروید و یک فایل متنی با نام robots.txt ایجاد کنید و محتوای آن را مطابق با نیازهای خود و مطالب ارائه شده در این مقاله اصلاح کنید.
  • اگر به هر دلیلی شما به هاست دسترسی نداشته باشید می‌توانید با قرار دادن تگ‌ های متا در هدر صفحه دسترسی ربات‌ های گوگل را به آن محدود نمایید.
  • حال که فایل robots.txt خود را ایجاد کرده‌اید، زمان آن است که از درستی عملکرد آن اطمینان یابید.

بعد از انتخاب وبسایت به صفحه‌ای هدایت می‌شوید که آخرین محتوای فایل Robots.txt که گوگل دریافت و بررسی کرده را نمایش می‌دهد. می‌توانید فایل را در همین صفحه ویرایش کنید و بعد با زدن دکمه submit صفحه‌ای باز می‌شود. چرا؟ ربات خزنده موتور جستجوی گوگل (همان Googlebot خودمان!) دارای ویژگی به نام Crawl Budget است. مدیریت ترافیک ربات‌ها از این جهت اهمیت دارد که سرور میزبان وبسایت شما برای پردازش و بارگذاری صفحات برای ربات‌ها مشغول نشود.

چگونه دستورات ‘Disallow’ در فایل robots.txt کار می‌کنند؟

مطالب مرتبط