چه مدت قبل از اینکه گوگل صفحه جدید من را ایندکس کند (و چرا بستگی دارد)
آیا نمی توانید منتظر باشید تا محتوای جدید شما ایندکس شود؟
بیاموزید که چرا تخمین ایندکس کردن چقدر طول می کشد و برای سرعت بخشیدن به کارها چه کاری می توانید انجام دهید بسیار سخت است.
نمایه سازی فرآیند دانلود اطلاعات از وب سایت شما، دسته بندی آن ها و ذخیره آن ها در پایگاه داده است. این پایگاه داده – نمایه گوگل – منبع تمام اطلاعاتی است که می توانید از طریق جستجوی گوگل بیابید.
صفحاتی که در فهرست گنجانده نشدهاند، مهم نیست که چقدر با یک جستجوی داده شده مطابقت دارند، نمیتوانند در نتایج جستجو ظاهر شوند.
بیایید فرض کنیم شما اخیراً یک صفحه جدید به وبلاگ خود اضافه کرده اید. در پست جدید خود، در مورد یک موضوع پرطرفدار بحث می کنید، به این امید که ترافیک جدید زیادی برای شما فراهم کند.
اما قبل از اینکه بتوانید عملکرد صفحه را در جستجوی گوگل ببینید، باید منتظر بمانید تا ایندکس شود.
بنابراین، این فرآیند دقیقا چقدر طول می کشد؟ و از چه زمانی باید نگران باشید که عدم نمایه سازی ممکن است نشانه مشکلات فنی در سایت شما باشد؟
بیایید تحقیق کنیم!
نمایه سازی چقدر طول می کشد؟ بهترین حدس های کارشناسان
فهرست گوگل شامل صدها میلیارد صفحه وب است و بیش از 100 میلیون گیگابایت حافظه را اشغال می کند.
علاوه بر این، گوگل تعداد صفحاتی را که در یک وب سایت می توانند ایندکس شوند، محدود نمی کند. در حالی که برخی از صفحات ممکن است در صف نمایه سازی اولویت داشته باشند، صفحات معمولاً مجبور نیستند برای نمایه سازی با هم رقابت کنند.
هنوز باید جایی برای یک صفحه کوچک دیگر در این پایگاه داده عظیم وجود داشته باشد، درست است؟ نیازی نیست نگران ورود وبلاگ خود باشید؟ متأسفانه، ممکن است مجبور شوید.
گوگل اعتراف می کند که هر صفحه ای که توسط خزنده هایش پردازش می شود ایندکس نمی شود.
در ژانویه 2021، جان مولر، مدافع جستجوی گوگل، این موضوع را توضیح داد و فاش کرد که طبیعی است که گوگل تمام صفحات یک وب سایت بزرگ را ایندکس نمی کند.
او توضیح داد که چالش پیش روی گوگل تلاش برای ایجاد تعادل بین تمایل به فهرست بندی هرچه بیشتر محتوا با تخمین مفید بودن آن برای کاربران موتورهای جستجو است.
بنابراین، در بسیاری از موارد، فهرست نشدن یک محتوای معین، انتخاب استراتژیک گوگل است.
گوگل نمیخواهد فهرست خود شامل صفحاتی با کیفیت پایین، محتوای تکراری یا صفحاتی باشد که بعید است کاربران به دنبال آن باشند. بهترین راه برای جلوگیری از هرزنامه از نتایج جستجو ایندکس نکردن آن است.
اما تا زمانی که پستهای وبلاگ خود را با ارزش و مفید نگه دارید، هنوز ایندکس میشوند، درست است؟
پاسخ پیچیده است.
Tomek Rudzki، کارشناس نمایه سازی در Onely – شرکتی که من در آن کار می کنم – محاسبه کرد که به طور متوسط 16٪ از صفحات ارزشمند و قابل نمایه سازی در وب سایت های محبوب هرگز ایندکس نمی شوند.
آیا تضمینی وجود دارد که صفحه شما ایندکس شود؟
همانطور که قبلاً از عنوان این مقاله حدس زده اید، هیچ پاسخ قطعی برای این سؤال نمایه سازی وجود ندارد.
در روزی که قرار است پست وبلاگتان ایندکس شود، نمی توانید برای خود یادآوری تقویم تنظیم کنید.
اما بسیاری از افراد قبلاً همین سؤال را پرسیده اند و از کارمندان Google و متخصصان با تجربه سئو خواسته اند تا نکاتی را ارائه دهند.
جان مولر می گوید ایندکس شدن یک صفحه ممکن است از چند ساعت تا چند هفته طول بکشد. او مشکوک است که بیشتر محتوای خوب ظرف حدود یک هفته انتخاب و نمایه می شود.
تحقیقات انجام شده توسط Rudzki نشان داد که به طور متوسط 83 درصد از صفحات در هفته اول انتشار نمایه می شوند.
برخی از صفحات باید تا هشت هفته منتظر بمانند تا ایندکس شوند. البته این فقط برای صفحاتی که در نهایت ایندکس می شوند صدق می کند.
خزیدن تقاضا و خزیدن بودجه
برای اینکه صفحه جدیدی در وبلاگ شما کشف و نمایه شود، Googlebot باید وبلاگ را دوباره بخزد.
هر چند وقت یکبار Googlebot وبسایت شما را بازیابی میکند، مطمئناً بر سرعت ایندکس شدن صفحه جدید شما تأثیر میگذارد و این بستگی به ماهیت محتوا و دفعات بهروزرسانی آن دارد.
وبسایتهای خبری که محتوای جدید منتشر میکنند، اغلب نیاز به بازیابی مکرر دارند. می توان گفت که آنها سایت هایی با تقاضای خزیدن بالا هستند.
نمونهای از یک سایت با تقاضای پایین خزنده میتواند سایتی در مورد تاریخچه آهنگری باشد، زیرا بعید است محتوای آن اغلب بهروزرسانی شود.
گوگل به طور خودکار تعیین می کند که سایت دارای تقاضای خزیدن کم یا زیاد است. در طول خزیدن اولیه، بررسی میکند که وبسایت درباره چه چیزی است و آخرین بار چه زمانی بهروزرسانی شده است.
تصمیم به خزیدن در سایت کم و بیش ربطی به کیفیت محتوا ندارد – عامل تعیین کننده تعداد تخمینی به روز رسانی ها است.
دومین عامل مهم میزان خزیدن است. این تعداد درخواستهایی است که Googlebot میتواند بدون اینکه سرور شما را تحت تأثیر قرار دهد، انجام دهد.
اگر وبلاگ خود را روی سروری با پهنای باند کم میزبانی کنید و Googlebot متوجه کند سرعت سرور در حال کند شدن است، سرعت خزیدن را تنظیم و کاهش میدهد.
از طرف دیگر، اگر سایت به سرعت پاسخ دهد، محدودیت افزایش می یابد و Googlebot می تواند URL های بیشتری را بخزد.
قبل از ایندکس شدن صفحه شما چه اتفاقی باید بیفتد؟
از آنجایی که نمایه سازی زمان می برد، می توان تعجب کرد که این زمان دقیقاً چگونه صرف می شود؟
چگونه اطلاعات وب سایت شما در فهرست گوگل طبقه بندی و درج می شود؟
بیایید در مورد رویدادهایی که باید قبل از نمایه سازی اتفاق بیفتد صحبت کنیم.
کشف محتوا
بیایید به مثالی برگردیم که در آن یک ورودی جدید وبلاگ ارسال کردید. Googlebot باید URL این صفحه را در اولین مرحله از خط لوله نمایه سازی پیدا کند.
ممکن است توسط:
- دنبال کردن لینک های داخلی در صفحات دیگر وبلاگ خود ارائه کرده اید.
- دنبال کردن لینک های خارجی توسط افرادی ایجاد شده است که محتوای جدید شما را مفید می دانند.
- مرور نقشه سایت XML که در Google Search Console آپلود کردید.
این واقعیت که صفحه کشف شده است به این معنی است که گوگل از وجود و URL آن مطلع است.
خزیدن
خزیدن فرآیند بازدید از URL و واکشی محتویات صفحه است.
Googlebot در حین خزیدن، اطلاعاتی را در مورد موضوع اصلی یک صفحه مشخص، فایلهایی که این صفحه شامل آنها است، کلمات کلیدی روی آن و غیره جمعآوری میکند.
پس از یافتن پیوندها در یک صفحه، خزنده آنها را به صفحه بعدی دنبال می کند و چرخه ادامه می یابد.
مهم است که به خاطر داشته باشید که Googlebot از قوانین تنظیم شده توسط robots.txt پیروی می کند تا صفحات مسدود شده توسط دستورالعمل هایی را که در آن فایل ارائه می دهید، خزید.
تفسیر
رندر باید انجام شود تا Googlebot هم محتوای جاوا اسکریپت و هم تصاویر، فایل های صوتی و تصویری را درک کند.
این نوع فایلها همیشه برای گوگل یک مبارزه بزرگتر از HTML بودند.
مارتین اسپلیت، مدافع توسعهدهنده گوگل، رندر را با پختن یک غذا مقایسه کرد.
در این استعاره، فایل HTML اولیه یک وب سایت با پیوندهایی به مطالب دیگر یک دستور است. می توانید F12 را روی صفحه کلید خود فشار دهید تا آن را در مرورگر خود مشاهده کنید.
تمام منابع وب سایت، مانند CSS، فایل های جاوا اسکریپت، تصاویر و ویدیوها، اجزای لازم برای ظاهر نهایی وب سایت هستند.
هنگامی که وب سایت به این حالت می رسد، شما با HTML رندر شده سروکار دارید که اغلب به آن مدل شیء سند می گویند.
مارتین همچنین گفت که اجرای جاوا اسکریپت اولین مرحله رندر است زیرا جاوا اسکریپت مانند دستور العمل در یک دستور عمل می کند.
در گذشتهای نه چندان دور، Googlebot از ایندکس کردن نسخه HTML اولیه یک صفحه استفاده میکرد و به دلیل هزینه و زمانبر بودن فرآیند، رندر جاوا اسکریپت را تا دیروقت رها میکرد.
صنعت سئو از آن پدیده به عنوان “دو موج نمایه سازی” یاد می کند.
با این حال، اکنون به نظر می رسد که دیگر نیازی به دو موج نیست.
مولر و اسپلیت اعتراف کردند که امروزه تقریباً هر وبسایت جدیدی بهطور پیشفرض مرحله رندر را طی میکند.
یکی از اهداف گوگل این است که خزیدن، رندر و نمایه سازی به یکدیگر نزدیکتر شوند.
آیا می توانید صفحه خود را سریعتر ایندکس کنید؟
شما نمی توانید گوگل را مجبور کنید صفحه جدید شما را ایندکس کند.
اینکه چقدر سریع این اتفاق می افتد نیز خارج از کنترل شماست. با این حال، میتوانید صفحات خود را بهینه کنید تا کاوش و خزیدن تا حد امکان راحت انجام شود.
در اینجا چیزی است که شما باید انجام دهید:
اطمینان حاصل کنید که صفحه شما قابل ایندکس نیست
برای ایندکس نگه داشتن صفحات خود دو قانون مهم وجود دارد:
- شما باید از مسدود کردن آنها توسط robots.txt یا دستورالعمل noindex خودداری کنید.
- شما باید نسخه متعارف یک قطعه محتوای داده شده را با یک برچسب متعارف علامت گذاری کنید.
Robots.txt فایلی است که حاوی دستورالعمل هایی برای روبات هایی است که از سایت شما بازدید می کنند.
می توانید از آن برای تعیین اینکه کدام خزنده ها مجاز به بازدید از صفحات یا پوشه های خاص نیستند استفاده کنید. تنها کاری که باید انجام دهید این است که از دستور Disallow استفاده کنید.
به عنوان مثال، اگر نمیخواهید روباتها از صفحات و فایلهای موجود در پوشهای با عنوان “example” بازدید کنند، فایل robots.txt شما باید حاوی دستورالعملهای زیر باشد:
User-agent: * Disallow: /example/
گاهی اوقات، ممکن است به اشتباه Googlebot را از فهرست کردن صفحات ارزشمند مسدود کنید.
اگر نگران این هستید که صفحه شما به دلیل مشکلات فنی ایندکس نشده باشد، حتما باید نگاهی به robots.txt خود بیاندازید.
Googlebot مودب است و هیچ صفحه ای را که به آن گفته شده است به خط لوله نمایه سازی منتقل نمی کند. یک راه برای بیان چنین دستوری قرار دادن یک دستورالعمل noindex در:
مطمئن شوید که این دستورالعمل در صفحاتی که باید ایندکس شوند ظاهر نشود.
همانطور که بحث کردیم، گوگل می خواهد از فهرست بندی محتوای تکراری جلوگیری کند. اگر دو صفحه را پیدا کند که شبیه کپی های یکدیگر هستند، احتمالاً فقط یکی از آنها را فهرست می کند.
تگ متعارف برای جلوگیری از سوء تفاهم ایجاد شد و فوراً Googlebot را به آدرس اینترنتی که صاحب وبسایت نسخه اصلی صفحه در نظر میگیرد هدایت کرد.
به یاد داشته باشید که کد منبع صفحه ای که می خواهید در فهرست گوگل وجود داشته باشد نباید به صفحه دیگری به عنوان متعارف اشاره کند.
ارسال نقشه سایت
نقشه سایت هر URL وب سایت شما را که می خواهید ایندکس شود (حداکثر 50000) فهرست می کند.
میتوانید آن را به کنسول جستجوی Google ارسال کنید تا به Google کمک کنید نقشه سایت را سریعتر کشف کند.
با نقشه سایت، کشف صفحات شما را برای Googlebot آسان تر می کنید و احتمال خزیدن صفحاتی را که در حین دنبال کردن لینک های داخلی پیدا نکرده است را افزایش می دهید.
ارجاع به نقشه سایت در فایل robots.txt تمرین خوبی است.
از گوگل بخواهید صفحات شما را مجددا بخزد
میتوانید با استفاده از ابزار بازرسی URL که در کنسول جستجوی Google موجود است، درخواست خزیدن از URLهای فردی را بدهید.
هنوز هم ایندکس شدن را تضمین نمی کند، و شما به صبر نیاز دارید، اما راه دیگری برای اطمینان از اینکه گوگل از وجود صفحه شما مطلع است.
اگر مرتبط است، از API نمایه سازی Google استفاده کنید
Indexing API ابزاری است که به شما امکان می دهد Google را در مورد صفحات تازه اضافه شده مطلع کنید.
به لطف این ابزار، گوگل می تواند فهرست بندی محتوای حساس به زمان را به صورت کارآمدتر برنامه ریزی کند.
متأسفانه، نمیتوانید از آن برای پستهای وبلاگ خود استفاده کنید، زیرا در حال حاضر، این ابزار فقط برای صفحات دارای پیشنهاد شغلی و ویدیوهای زنده در نظر گرفته شده است.
در حالی که برخی از متخصصان سئو از API Indexing برای انواع دیگر صفحات استفاده می کنند – و ممکن است کوتاه مدت کار کند – تردید وجود دارد که در درازمدت راه حل مناسبی باقی بماند.
از بارگذاری بیش از حد سرور در سایت خود جلوگیری کنید
در نهایت، به یاد داشته باشید که از پهنای باند خوب سرور خود اطمینان حاصل کنید تا Googlebot نرخ خزیدن برای وب سایت شما را کاهش ندهد.
از استفاده از ارائه دهندگان هاست اشتراکی خودداری کنید و به یاد داشته باشید که به طور منظم سرور خود را تست استرس کنید تا مطمئن شوید که می تواند کار را انجام دهد.
خلاصه
پیشبینی دقیق اینکه چقدر طول میکشد تا صفحه شما ایندکس شود (یا اینکه آیا این اتفاق خواهد افتاد) دقیقاً غیرممکن است، زیرا Google تمام محتوایی را که پردازش میکند ایندکس نمیکند.
معمولاً نمایه سازی چند ساعت تا چند هفته پس از انتشار انجام می شود.
بزرگترین گلوگاه برای ایندکس شدن، خزیدن سریع است.
اگر محتوای شما آستانه کیفیت را برآورده می کند و هیچ مانع فنی برای نمایه سازی وجود ندارد، در درجه اول باید به نحوه خزیدن Googlebot سایت شما برای ایندکس شدن سریع محتوای تازه نگاه کنید.
قبل از اینکه یک صفحه به خط لوله نمایه سازی هدایت شود، Googlebot آن را می خزد و در بسیاری از موارد، تصاویر، ویدیوها و عناصر جاوا اسکریپت جاسازی شده را ارائه می کند.
وبسایتهایی که بیشتر تغییر میکنند و در نتیجه تقاضای خزیدن بیشتری دارند، بیشتر بازرسی میشوند.
هنگامی که Googlebot از وب سایت شما بازدید می کند، بر اساس تعداد جستجوهایی که می تواند بدون بارگذاری بیش از حد به سرور شما ارسال کند، با نرخ خزیدن مطابقت دارد.
بنابراین، ارزش مراقبت از پهنای باند خوب سرور را دارد.
Googlebot را در robots.txt مسدود نکنید زیرا در این صورت صفحات شما را نمیخزد.
به یاد داشته باشید که گوگل همچنین به متا تگ noindex robots احترام می گذارد و به طور کلی فقط نسخه متعارف URL را ایندکس می کند.
منابع بیشتر:
تصویر ویژه: کریستو-گوتارد هونور/شاتراستوک