چرا گوگل ایندکس صفحات وب را مسدود می کند؟


جان مولر از گوگل به این سوال پاسخ داد که چرا گوگل صفحاتی را که توسط robots.txt خزیدن آنها ممنوع است و چرا نادیده گرفتن گزارش های مربوط به کنسول جستجو در مورد آن خزیدن ها بی خطر است، پاسخ داد.

ترافیک ربات به URL های پارامتر پرس و جو

شخصی که این سوال را می‌پرسید، مستند کرد که ربات‌ها در حال ایجاد پیوندهایی به URLهای پارامتر پرس و جوی موجود (?q=xyz) به صفحات دارای متا تگ noindex هستند که در robots.txt نیز مسدود شده‌اند. چیزی که این سوال را برانگیخت این است که Google در حال خزیدن لینک‌های آن صفحات است، توسط robots.txt مسدود می‌شود (بدون مشاهده متا تگ روبات‌های noindex) سپس در کنسول جستجوی گوگل به‌عنوان «ایندکس‌شده، هرچند توسط robots.txt مسدود شده» گزارش می‌شود.

آن شخص سؤال زیر را پرسید:

اما سوال بزرگ اینجاست: چرا گوگل صفحات را ایندکس می کند در حالی که حتی نمی توانند محتوا را ببینند؟ مزیت آن چیست؟»

جان مولر از گوگل تایید کرد که اگر نتوانند صفحه را بخزند، نمی توانند متا تگ noindex را ببینند. او همچنین اشاره جالبی به سایت: عملگر جستجو می کند و توصیه می کند نتایج را نادیده بگیرید زیرا کاربران «متوسط» آن نتایج را نمی بینند.

او نوشت:

بله، شما درست می گویید: اگر نتوانیم صفحه را بخزیم، نمی توانیم noindex را ببینیم. گفته می‌شود، اگر نتوانیم صفحات را بخزیم، چیز زیادی برای ایندکس کردن وجود ندارد. بنابراین، در حالی که ممکن است برخی از آن صفحات را با یک سایت هدفمند ببینید:-پرس و جو، کاربر معمولی آنها را نمی بیند، بنابراین من در مورد آن سر و صدا نمی کنم. Noindex نیز خوب است (بدون مجوز robots.txt)، این فقط به این معنی است که URL ها در نهایت خزیده می شوند (و در گزارش کنسول جستجو برای خزیدن/ایندکس نشدن به پایان می رسند – هیچ یک از این وضعیت ها باعث ایجاد مشکل برای بقیه سایت نمی شوند) . بخش مهم این است که شما آنها را قابل خزیدن + نمایه سازی نمی کنید.

غذای آماده:

1. پاسخ مولر محدودیت های استفاده از عملگر جستجوی پیشرفته Site:search را به دلایل تشخیصی تایید می کند. یکی از این دلایل این است که به فهرست جستجوی معمولی متصل نیست، این یک چیز جداگانه است.

جان مولر گوگل درباره اپراتور جستجوی سایت در سال 2021 اظهار نظر کرد:

“پاسخ کوتاه این است که یک سایت: پرس و جو کامل نیست و برای اهداف تشخیصی استفاده نمی شود.

جستجوی سایت نوعی جستجوی خاص است که نتایج را به یک وب سایت خاص محدود می کند. این در اصل فقط کلمه سایت، یک دونقطه و سپس دامنه وب سایت است.

این پرس و جو نتایج را به یک وب سایت خاص محدود می کند. قرار نیست مجموعه ای جامع از تمام صفحات آن وب سایت باشد.”

2. تگ Noindex بدون استفاده از robots.txt برای این نوع موقعیت‌ها که یک ربات به صفحاتی که وجود ندارند و توسط Googlebot کشف می‌شوند پیوند می‌دهد، مناسب است.

3. نشانی‌های اینترنتی با تگ noindex یک ورودی «خزیده‌شده/غیر نمایه‌شده» در کنسول جستجو ایجاد می‌کنند و این موارد تأثیر منفی بر بقیه وب‌سایت نخواهد داشت.

پرسش و پاسخ را در لینکدین بخوانید:

چرا گوگل صفحات را ایندکس می کند در حالی که حتی نمی توانند محتوا را ببینند؟

تصویر ویژه توسط Shutterstock/Krakenimages.com



منبع

مطالب مرتبط