Google به سایتی پاسخ می دهد که پس از خزیدن GoogleBot DDOS ، رتبه های خود را از دست داده است
جان مولر گوگل در مورد سایتی که میلیون ها درخواست GoogleBot را برای صفحاتی که وجود ندارند دریافت کرده است ، پاسخ داد که یک URL غیر موجود بیش از دو میلیون بازدید ، در اصل درخواست صفحه DDOS است. نگرانی های ناشر در مورد بودجه خزیدن و رتبه بندی به نظر می رسد ، زیرا این سایت متعاقباً افت دید در جستجو را تجربه کرد.
صفحات Noindex حذف و به 410 تبدیل شد
کد پاسخ سرور 410 Gone متعلق به کدهای پاسخ Family 400 است که نشان می دهد یک صفحه در دسترس نیست. پاسخ 404 به این معنی است که یک صفحه در دسترس نیست و هیچ ادعایی در مورد بازگشت URL در آینده ندارد ، به سادگی می گوید این صفحه در دسترس نیست.
کد وضعیت 410 به معنای این است که صفحه از بین رفته است و احتمالاً هرگز بر نمی گردد. بر خلاف کد وضعیت 404 ، 410 مرورگر یا خزنده را سیگنال می دهد که وضعیت گمشده منبع عمدی است و هرگونه پیوند به منبع باید حذف شود.
شخصی که این سؤال را مطرح می کرد ، سؤالی را که سه هفته پیش در Reddit ارسال کرده بود ، دنبال کرد و در آنجا خاطرنشان کرد که حدود 11 میلیون URL دارند که نباید کشف شود که آنها به طور کامل حذف شده اند و شروع به خدمت به یک کد پاسخ 410 می کنند. بعد از گذشت یک ماه و نیم Googlebot به جستجوی صفحات گمشده بازگردد. آنها نگرانی خود را در مورد بودجه خزیدن و تأثیرات متعاقب آن در رتبه بندی خود به اشتراک گذاشتند.
مولر در آن زمان آنها را به صفحه پشتیبانی Google ارسال کرد.
از دست دادن رتبه بندی به عنوان Google همچنان در سطح DDOS به سایت ضربه می زند
سه هفته بعد اوضاع بهبود نیافته است و آنها یک سؤال پیگیری را ارسال کردند که نشان می دهد بیش از پنج میلیون درخواست برای صفحاتی که وجود ندارند دریافت کرده اند. آنها یک URL واقعی در سوال خود ارسال کردند اما من آن را ناشناس کردم ، در غیر این صورت کلامی است.
شخص پرسید:
“GoogleBot همچنان به طور تهاجمی یک URL (با رشته های پرس و جو) را به طرز تهاجمی خزید ، حتی اگر اکنون حدود دو ماه وضعیت 410 (از بین رفته) را برگردانده است.
فقط در 30 روز گذشته ، ما تقریباً 5.4 میلیون درخواست از GoogleBot مشاهده کرده ایم. از این تعداد ، حدود 2.4 میلیون نفر به این آدرس URL هدایت شدند:
https://example.net/software/virtual-dj/ با رشته Query Query.ما همچنین در این دوره شاهد افت قابل توجهی در دید خود در Google بوده ایم و نمی توانم تعجب کنم که آیا ارتباطی وجود دارد – چیزی فقط احساس می شود. صفحه آسیب دیده:
https://example.net/software/virtual-dj/؟feature=…دلیل اینکه گوگل در وهله اول همه این URL ها را کشف کرد این است که ما ناخواسته آنها را در یک بار JSON که توسط Next.js ایجاد شده است ، در معرض دید قرار داده ایم – آنها پیوندهای واقعی در سایت نبودند.
ما تغییر کرده ایم که چگونه “ویژگی های چندگانه” ما کار می کند (با استفاده از MF QueryString و این پرس و جو در Robots.txt است)
آیا اضافه کردن چیزی شبیه به این به Robots.txt ما مشکل است؟
مجازات:/نرم افزار/virtual-dj/؟ ویژگی =*
هدف اصلی: برای جلوگیری از این خزیدن بیش از حد از سیل سیاهههای مربوط به ما و به طور بالقوه باعث ایجاد عوارض جانبی ناخواسته می شود. “
جان مولر Google تأیید کرد که این رفتار عادی Google است که بازگردد تا بررسی کند که صفحه ای که از دست رفته است برگشته است یا خیر. این رفتار پیش فرض Google بر اساس تجربه ای است که ناشران می توانند اشتباه کنند و بنابراین به طور دوره ای باز می گردند تا بررسی کنند که آیا این صفحه بازسازی شده است. این به معنای یک ویژگی مفید برای ناشرانی است که ممکن است ناخواسته یک صفحه وب را حذف کنند.
مولر پاسخ داد:
“Google تلاش می کند تا صفحاتی را که زمانی برای مدت طولانی وجود داشته است ، دوباره بسازد ، و اگر تعداد زیادی از آنها را داشته باشید ، احتمالاً تعداد بیشتری از آنها را خواهید دید. این یک مشکل نیست – خوب است که صفحات از بین بروند ، حتی اگر این تعداد از آنها باشد.
احتیاط: سئو فنی پیش رو
این قسمت بعدی جایی است که سئو فنی می شود. مولر هشدار می دهد که راه حل پیشنهادی اضافه کردن یک روبات .TXT می تواند سهواً برای صفحاتی که قرار نیست از دست ندهند ، ارائه دهند.
او اساساً به شخصی توصیه می کند که این سؤال را مطرح کند:
- دوبار بررسی کنید که از ویژگی های urls = URL ها در هیچ کد جلوی یا بارهای JSON که صفحات مهم را قدرت می گیرند ، استفاده نمی شوند.
- برای شبیه سازی آنچه اتفاق می افتد در صورت مسدود شدن این URL ها – از Devtools Chrome استفاده کنید.
- کنسول جستجو را برای 404s نرم کنترل کنید تا هرگونه تأثیر ناخواسته در صفحاتی که باید نمایه شوند ، تأثیر بگذارد.
جان مولر ادامه داد:
وی گفت: “نکته اصلی که من از آن مراقبت می کنم این است که اینها واقعاً همه 404/410 در حال بازگشت هستند ، و نه اینکه برخی از آنها توسط چیزی مانند JavaScript در صفحاتی که می خواهید فهرست بندی کنید استفاده می شود (از آنجا که شما به JSON Payload اشاره کردید).
تشخیص اینکه هنگام عدم وجود خزیدن یک منبع تعبیه شده (خواه مستقیماً در صفحه تعبیه شده باشد یا در صورت تقاضا بارگذاری شود) واقعاً دشوار است – گاهی اوقات صفحه ای که به آن اشاره می کند ، ارائه می شود و به هیچ وجه نمی توان فهرست بندی کرد.
اگر صفحات ارائه شده توسط مشتری JavaScript را دارید ، سعی می کنم دریابم که URL ها در کجا ارجاع شده بودند (در صورت امکان) و URL ها را در ابزارهای Chrome Dev مسدود می کنند تا ببینید هنگام بارگیری صفحه چه اتفاقی می افتد.
اگر نمی توانید بفهمید که آنها کجا هستند ، من بخشی از آنها را مجازات نمی کنم ، و خطاهای نرم-404 را در کنسول جستجو نظارت می کنم تا ببینید که آیا اتفاقاتی به وضوح در آنجا رخ می دهد یا خیر.
اگر از Rendering Client JavaScript استفاده نمی کنید ، احتمالاً می توانید این بند را نادیده بگیرید :-). “
تفاوت بین دلیل آشکار و علت واقعی
جان مولر Google درست است که یک تشخیص عمیق تر را برای رد خطاها از طرف ناشر پیشنهاد کند. یک خطای ناشر زنجیره ای از وقایع را آغاز کرد که منجر به نمایه سازی صفحات در برابر خواسته های ناشر شد. بنابراین منطقی است که از ناشر بخواهیم بررسی کند که آیا ممکن است دلیل قابل قبول تری برای از دست دادن دیدگاه جستجو وجود داشته باشد. این یک وضعیت کلاسیک است که یک دلیل آشکار لزوماً دلیل صحیح نیست. بین دلیل آشکار بودن و دلیل واقعی بودن تفاوت وجود دارد. بنابراین پیشنهاد مولر مبنی بر عدم تسلیم در یافتن علت ، توصیه خوبی است.
بحث اصلی را اینجا بخوانید.
تصویر برجسته توسط Shutterstock/Plutusart