فایل robots txt چیست؟ آموزش ساخت و استفاده در سئو | xeroseo

ربات‌های موتور جستجوی گوگل مهم‌ترین ربات‌هایی هستند که در اینترنت می‌چرخند. این ربات‌ها هر روز چندین بار صفحه‌های سایت شما را بررسی می‌کنند. اگر وبسایت بزرگی داشته باشید، امکان دارد ربات‌های گوگل تا چند ده هزار بار در روز صفحه‌های سایت را بررسی کنند. مدیریت منابع مصرفی سرور توسط ربات‌ها امری مهم است زیرا به جز ربات‌های موتورهای جستجو، ربات‌های بد دیگری وجود دارند که به دستورات موجود در فایل robots.txt توجه نمی‌کنند. استفاده از شبکه توزیع محتوا CDN یک راه مقابله با ربات‌های بد و مدیریت مصرف منابع سرور است.

http://atours.ir

اگر url ای از سایت را با این روش مسدود کرده باشید باز هم در نتایج جستجو خواهد بود این روش برای فایل‌های ویدیویی، فایل‌های PDF و سایر فایل‌های غیر HTML قابل قبول برای گوگل است. توجه داشته باشید فایل ربات در روت سایت باید با حروف کوچک انگلیسی نوشته شود و همینطور محتوای ربات به حروف بزرگ و کوچک حساس است. در فایل robots.txt دستورالعمل هایی تعیین می کنید که کدام بخش از دامنه توسط ربات ها خزیده شود یا نه. از نظر فنی می توانید فایل robots.txt خود را در هر دایرکتوری اصلی سایت خود قرار دهید. یکی از تکنیک هایی که در سئو مورد استفاده قرار می گیرد، URL Cloacking نام دارد که برای پنهان کردن آدرس صفحات از دید موتور های جستجو و کاربران کاربرد دارد. همانطور که گفته شد با استفاده از این فایل و دو دستور بالا، می توانید به ربات های گوگل بگویید که صفحه مورد نظر شما را ایندکس کنند و یا ایندکس نکنند.

  • مختصر بخواهیم بگوییم، این فایل به خزنده ها می گوید که چه قسمت هایی را اجازه دارند دنبال کنند و چه قسمت هایی را مجاز نیستند و اجازه ندارند که دنبال کنند.
  • در واقع اگر example.com یک robots.txt داشته باشد اما a.example.com نداشته باشد قوانینی که بر روی example.com اعمال می‌شود روی a.example.com اعمال نخواهد شد همچنین هر پروتکل و پورت به robots.txt خودش نیاز دارد.
  • در اینصورت فایل مربوط به هر سایت مپ باید در یک فایل ایندکس نقشه سایت لیست شود.

به طور کلی، دو نوع دستور برای این فایل ها داریم؛ اولین دستور برای محدود کردن موتور های جستجو از کراول کردن است و دومین دستور هم برای اجازه دادن به موتور های جستجو برای کراول کردن خواهد بود. اگر وبسایت خود را به ابزار سرچ کنسول گوگل متصل کرده باشید، وقتی این ابزار تست را باز کنید از شما می‌خواهد که سایت متصل شده مورد نظر را انتخاب کنید. دستور / بعداز Disallow به ربات گوگل می‌گوید باید وارد پوشه‌ای در ریشه فایل شوی. کد بالا به این معنی است که “اجرای دستورات فایل، تنها برای ربات گوگل الزامی است. مطمئناً شما هم می‌خواهید ربات گوگل Crawl Budget سایت‌تان را به بهترین شکل ممکن مصرف کند. به عبارت دیگر، ربات گوگل باید ارزشمندترین و مهم‌ترین صفحات شما را بهتر و بیشتر بررسی کند.

آیا تمام سایت‌ها به فایل robot نیاز دارند؟

دستور Disallow برای ایندکس نکردن کاربرد دارد؛ با این دستور شما به ربات های موتور جستجو می گویید که نمی خواهید صفحه یا بخش مورد نظر در سایتتان، ایندکس شود. برای مثال می توانید به ربات های گوگل بگویید که کدام صفحات سایت شما را ایندکس کنند و در نتایج گوگل نمایش دهند و کدام صفحات را در نتایج گوگل نمایش ندهند و ایندکس نکنند. فایل Robots.txt یک فایل متنی کاملا ساده است؛ همانطور که از نام این فایل پیداست، فرمت .txt دارد و در دایرکتوری سایتتان قرار خواهد داشت. شما با کمک این فایل می توانید به ربات های گوگل و کراولر ها دستورات دلخواه خود را بدهید. اگر هم می‌خواهید صفحه‌های مشخصی را تست کنید،‌ کافی است آدرس آن را در نوار پایینی وارد کنید و بعد ربات گوگلی که مد نظرتان است را انتخاب کنید.

با استفاده از آن می‌توان به مجله خبری زیرو سئو جست‌وجو اعلام کرد که چه محتوا و صفحاتی را برای ایندکس شدن بررسی نکنند. با این فایل شما می‌توانید محتواهایی که نمی‌خواهید توسط موتورهای جستجو بررسی و در نتایج جستجوها نشان داده نشود را مشخص کنید. البته باید این را در نظر داشت که برخی از قالب ها با تکتولوژی های مختلفی محتوا را نشان می دهند که اگر این ها مسدود شوند، روبات های گوگل یا هر موتور جستجوی دیگری نمی تواند آن را کرال کند. حتی اگر فایل robots.txt برای این ساخته شده باشد که به موتورهای جستجو بگوییم که در کدام یک از صفحات وب سایت ما اجازه خزیدن ندارند باز هم می توان از این فایل برای هدایت موتورهای جستجو به نقشه XML سایت استفاده کرد.

چطور می توان با استفاده از فایل Robots.txt صفحات مورد نظر را از لیست نتایج گوگل حذف کرد؟

مطالب مرتبط