از پاسخ‌های خطای 403/404 برای محدود کردن نرخ Googlebot استفاده نکنید


گوگل به دلیل افزایش استفاده نادرست از کدهای پاسخ 403/404، که می تواند تأثیر منفی بر وب سایت ها بگذارد، راهنمایی هایی را در مورد چگونگی کاهش صحیح نرخ خزیدن Googlebot منتشر کرد.

در این راهنما اشاره شد که استفاده نادرست از کدهای پاسخ از سوی ناشران وب و شبکه‌های تحویل محتوا افزایش یافته است.

محدود کردن نرخ Googlebot

Googlebot نرم افزار خودکار گوگل است که از وب سایت ها بازدید کرده و محتوا را دانلود می کند.

محدود کردن نرخ Googlebot به معنای کاهش سرعت خزیدن گوگل در یک وب سایت است.

عبارت، نرخ خزیدن گوگل، به تعداد درخواست صفحات وب در ثانیه که Googlebot ارسال می کند، اشاره دارد.

مواقعی وجود دارد که ممکن است یک ناشر بخواهد سرعت Googlebot را کاهش دهد، برای مثال اگر باعث بارگذاری بیش از حد سرور شود.

گوگل چندین راه را برای محدود کردن نرخ خزیدن Googlebot توصیه می‌کند که مهمترین آنها استفاده از کنسول جستجوی Google است.

محدود کردن نرخ از طریق کنسول جستجو، سرعت خزیدن را برای یک دوره 90 روزه کاهش می‌دهد.

یکی دیگر از راه‌های تأثیرگذاری بر نرخ خزیدن Google، استفاده از Robots.txt برای جلوگیری از خزیدن Googlebot در صفحات، فهرست‌ها (دسته‌ها)، یا کل وب‌سایت است.

یک چیز خوب در مورد Robots.txt این است که فقط از گوگل می خواهد از خزیدن خودداری کند و از گوگل نمی خواهد یک سایت را از فهرست حذف کند.

با این حال، استفاده از robots.txt می تواند منجر به “اثرات بلند مدت” بر الگوهای خزیدن گوگل شود.

شاید به همین دلیل راه حل ایده آل استفاده از کنسول جستجو باشد.

گوگل: محدودیت نرخ را با 403/404 متوقف کنید

Google در وبلاگ Search Central خود راهنمایی منتشر کرد و به ناشران توصیه کرد از کدهای پاسخ 4XX (به جز کد پاسخ 429) استفاده نکنند.

پست وبلاگ به طور خاص به استفاده نادرست از کدهای پاسخ خطای 403 و 404 برای محدود کردن نرخ اشاره کرد، اما این راهنمایی برای همه کدهای پاسخ 4XX به جز پاسخ 429 اعمال می شود.

این توصیه ضروری است زیرا ناشران افزایش یافته‌اند که از این کدهای پاسخ خطا برای محدود کردن نرخ خزیدن Google استفاده می‌کنند.

کد پاسخ 403 به این معنی است که بازدید کننده (در این مورد Googlebot) از بازدید از صفحه وب منع شده است.

کد پاسخ 404 به Googlebot می گوید که صفحه وب کاملاً از بین رفته است.

کد پاسخ به خطای سرور 429 به معنای “درخواست های بسیار زیاد” است و این یک پاسخ خطای معتبر است.

با گذشت زمان، اگر گوگل به استفاده از این دو کد پاسخ خطا ادامه دهد، ممکن است در نهایت صفحات وب را از فهرست جستجوی خود حذف کند.

این بدان معناست که صفحات برای رتبه بندی در نتایج جستجو در نظر گرفته نمی شوند.

گوگل نوشت:

طی چند ماه گذشته شاهد افزایشی در مالکان وب‌سایت و برخی از شبکه‌های تحویل محتوا (CDN) بودیم که سعی می‌کردند از خطاهای 404 و سایر خطاهای کلاینت 4xx (اما نه 429) برای کاهش نرخ خزیدن Googlebot استفاده کنند.

نسخه کوتاه این پست وبلاگ این است: لطفا این کار را نکنید…”

در نهایت، گوگل استفاده از کدهای پاسخ خطای 500، 503 یا 429 را توصیه می کند.

کد پاسخ 500 به این معنی است که یک خطای داخلی سرور وجود دارد. پاسخ 503 به این معنی است که سرور قادر به رسیدگی به درخواست یک صفحه وب نیست.

گوگل هر دوی این نوع پاسخ ها را به عنوان خطاهای موقتی در نظر می گیرد. بنابراین بعداً دوباره می آید تا بررسی کند که آیا صفحات دوباره در دسترس هستند یا خیر.

یک پاسخ خطای 429 به ربات می‌گوید که درخواست‌های زیادی دارد و همچنین می‌تواند از آن بخواهد که قبل از خزیدن مجدد برای مدت زمان مشخصی منتظر بماند.

Google توصیه می‌کند درباره Googlebot محدودکننده نرخ با صفحه برنامه‌نویس خود مشورت کنید.

پست وبلاگ گوگل را بخوانید:
برای محدود کردن نرخ از 403s یا 404s استفاده نکنید

تصویر برجسته توسط Shutterstock/Krakenimages.com





منبع

مطالب مرتبط