گوگل توضیح می دهد که چگونه CDN ها بر خزیدن و سئو تاثیر می گذارند


گوگل توضیحی را منتشر کرد که در آن به نحوه تأثیرگذاری شبکه‌های تحویل محتوا (CDN) بر خزیدن جستجو و بهبود سئو و همچنین چگونگی ایجاد مشکلاتی در برخی موارد اشاره می‌کند.

CDN چیست؟

شبکه تحویل محتوا (CDN) سرویسی است که یک صفحه وب را در حافظه پنهان ذخیره می کند و آن را از مرکز داده ای که نزدیکترین به مرورگر درخواست کننده آن صفحه وب است، نمایش می دهد. کش کردن یک صفحه وب به این معنی است که CDN یک کپی از یک صفحه وب ایجاد کرده و آن را ذخیره می کند. این امر تحویل صفحه وب را سرعت می بخشد زیرا اکنون از سروری ارائه می شود که به بازدید کننده سایت نزدیک تر است و به “پرش” کمتری در اینترنت از سرور مبدأ تا مقصد (مرورگر بازدید کننده سایت) نیاز دارد.

CDN ها خزیدن بیشتر را باز می کنند

یکی از مزایای استفاده از CDN این است که Google به طور خودکار نرخ خزیدن را هنگامی که تشخیص می دهد صفحات وب از CDN ارائه می شوند را افزایش می دهد. این امر استفاده از CDN را برای سئوکاران و ناشرانی که نگران افزایش تعداد صفحات خزیده شده توسط Googlebot هستند جذاب می کند.

معمولاً Googlebot اگر تشخیص دهد که به آستانه خاصی می رسد که باعث کند شدن سرور می شود، میزان خزیدن از سرور را کاهش می دهد. Googlebot میزان خزیدن را کاهش می دهد که به آن throttling می گویند. زمانی که یک CDN شناسایی می‌شود، این آستانه برای «گسیختگی» بالاتر است و در نتیجه صفحات بیشتری خزیده می‌شوند.

چیزی که باید در مورد ارائه صفحات از CDN فهمید این است که اولین باری که صفحات ارائه می شوند باید مستقیماً از سرور شما ارائه شوند. گوگل از نمونه سایتی با بیش از یک میلیون صفحه وب استفاده می کند:

با این حال، در اولین دسترسی به یک URL، حافظه پنهان CDN “سرد” است، به این معنی که از آنجایی که هنوز کسی آن URL را درخواست نکرده است، محتویات آن هنوز توسط CDN ذخیره نشده است، بنابراین سرور اصلی شما همچنان به آن URL نیاز دارد. حداقل یک بار برای “گرم کردن” کش CDN. این نیز بسیار شبیه به نحوه عملکرد حافظه پنهان HTTP است.

به طور خلاصه، حتی اگر فروشگاه اینترنتی شما توسط CDN پشتیبانی می شود، سرور شما باید حداقل یک بار آن 1000007 URL را ارائه دهد. تنها پس از آن سرویس اولیه، CDN شما می‌تواند به شما در مورد حافظه پنهان خود کمک کند. این یک بار مهم بر روی “بودجه خزیدن” شما است و نرخ خزیدن احتمالاً برای چند روز بالا خواهد بود. اگر قصد دارید چندین URL را همزمان راه اندازی کنید، این را در نظر داشته باشید.

هنگام استفاده از CDN ها برای خزیدن نتیجه عکس می دهند

Google توصیه می کند که مواقعی وجود دارد که CDN ممکن است Googlebot را در لیست سیاه قرار دهد و متعاقباً خزیدن را مسدود کند. این اثر به عنوان دو نوع بلوک توصیف می شود:

1. بلوک های سخت

2. بلوک های نرم

بلوک‌های سخت زمانی اتفاق می‌افتند که یک CDN پاسخ دهد که خطای سرور وجود دارد. یک پاسخ خطای بد سرور می تواند یک 500 (خطای سرور داخلی) باشد که نشان می دهد یک مشکل بزرگ در سرور اتفاق می افتد. یکی دیگر از پاسخ های خطای بد سرور 502 (درگاه بد) است. هر دوی این پاسخ های خطای سرور باعث می شود Googlebot سرعت خزیدن را کاهش دهد. URL های نمایه شده به صورت داخلی در گوگل ذخیره می شوند، اما ادامه پاسخ های 500/502 می تواند باعث شود گوگل در نهایت URL ها را از فهرست جستجو حذف کند.

پاسخ ترجیحی یک 503 است (سرویس در دسترس نیست)، که نشان دهنده یک خطای موقت است.

بلوک سخت دیگری که باید مراقب آن بود، چیزی است که گوگل آن را “خطاهای تصادفی” می نامد، یعنی زمانی که یک سرور یک کد پاسخ 200 ارسال می کند، به این معنی که پاسخ خوب بود (حتی اگر یک صفحه خطا را با آن 200 پاسخ ارائه می دهد). گوگل آن صفحات خطا را تکراری تفسیر می کند و آنها را از فهرست جستجو حذف می کند. این یک مشکل بزرگ است زیرا ممکن است برای بازیابی از این نوع خطا زمان ببرد.

اگر CDN یکی از این موارد را نشان دهد که “آیا شما انسان هستید؟” یک بلوک نرم ممکن است رخ دهد. پنجره های بازشو (بینابینی ربات) به Googlebot. بینابینی‌های ربات باید یک پاسخ سرور 503 ارسال کنند تا Google بداند که این یک مشکل موقتی است.

اسناد جدید گوگل توضیح می دهد:

«…زمانی که بینابینی نمایش داده می‌شود، این تنها چیزی است که آنها می‌بینند، نه سایت عالی شما. در مورد این میان‌افزارهای تأیید ربات، اکیداً توصیه می‌کنیم یک سیگنال واضح در قالب یک کد وضعیت HTTP 503 برای مشتریان خودکار مانند خزنده‌ها ارسال کنید که محتوا موقتاً در دسترس نیست. این تضمین می کند که محتوا به طور خودکار از فهرست گوگل حذف نمی شود.

اشکال زدایی با ابزار بازرسی URL و کنترل های WAF

گوگل توصیه می کند از ابزار بازرسی URL در کنسول جستجو استفاده کنید تا ببینید CDN چگونه صفحات وب شما را ارائه می دهد. اگر فایروال CDN که فایروال برنامه وب (WAF) نامیده می شود، Googlebot را با آدرس IP مسدود می کند، باید بتوانید آدرس های IP مسدود شده را بررسی کنید و آنها را با لیست رسمی IP های Google مقایسه کنید تا ببینید آیا یکی از آنها در لیست هستند یا خیر. .

Google توصیه های زیر را برای رفع اشکال در سطح CDN ارائه می دهد:

“اگر نیاز دارید که سایت شما در موتورهای جستجو نمایش داده شود، ما قویاً توصیه می کنیم بررسی کنید که آیا خزنده های مورد علاقه شما می توانند به سایت شما دسترسی داشته باشند یا خیر. به یاد داشته باشید که IP ها ممکن است به طور خودکار و بدون اطلاع شما در لیست بلاک قرار گیرند، بنابراین بررسی لیست های بلاک هر از گاهی ایده خوبی برای موفقیت سایت شما در جستجو و فراتر از آن است. اگر فهرست بلاک بسیار طولانی است (نه بر خلاف این پست وبلاگ)، سعی کنید فقط چند بخش اول محدوده IP را جستجو کنید، به عنوان مثال، به جای جستجوی 192.168.0.101، می توانید فقط به دنبال 192.168 باشید.

برای اطلاعات بیشتر اسناد Google را بخوانید:

خزیدن دسامبر: CDN ها و خزیدن

تصویر ویژه توسط Shutterstock/JHVEPhoto



منبع

مطالب مرتبط