برای خزیدن بهتر در ربات گوگل، منابع بزرگتر از 15 مگابایت را پیدا کنید


Googlebot یک سیستم خزیدن وب خودکار و همیشه فعال است که فهرست گوگل را به روز نگه می دارد.

تارنما worldwidewebsize.com شاخص گوگل را بیش از 62 میلیارد صفحه وب تخمین می زند.

شاخص جستجوی گوگل “بیش از 100،000،000 گیگابایت حجم دارد.”

ربات گوگل و انواع آن (تلفن های هوشمند، اخبار، تصاویر و غیره) محدودیت های خاصی برای فرکانس رندر جاوا اسکریپت یا اندازه منابع دارند.

Google از محدودیت‌های خزیدن برای محافظت از منابع و سیستم‌های خزنده خود استفاده می‌کند.

به عنوان مثال، اگر یک وب سایت خبری مقالات توصیه شده را هر 15 ثانیه یکبار بازخوانی کند، Googlebot ممکن است شروع به رد شدن از بخش هایی که اغلب به روز می شوند را رد کند – زیرا بعد از 15 ثانیه مرتبط یا معتبر نخواهند بود.

سال‌ها پیش، گوگل اعلام کرد که از منابع بزرگ‌تر از 15 مگابایت استفاده نمی‌کند.

در 28 ژوئن 2022، گوگل این پست وبلاگ را با بیان اینکه از قسمت اضافی منابع پس از 15 مگابایت برای خزیدن استفاده نمی کند، مجدداً منتشر کرد.

برای تاکید بر اینکه به ندرت اتفاق می افتد، گوگل اعلام کرد که “اندازه متوسط ​​یک فایل HTML 500 برابر کوچکتر از 15 مگابایت است”.

جدول زمانی بایت های htmlتصویر از نویسنده، آگوست 2022

در بالا، HTTPAarchive.org میانه اندازه فایل HTML دسکتاپ و موبایل را نشان می دهد. بنابراین، اکثر وب سایت ها مشکل محدودیت 15 مگابایتی برای خزیدن را ندارند.

اما، وب مکانی بزرگ و پر هرج و مرج است.

درک ماهیت محدودیت خزیدن 15 مگابایت و روش های تجزیه و تحلیل آن برای سئوکاران مهم است.

یک تصویر، ویدیو یا باگ می‌تواند باعث مشکلات خزیدن شود، و این اطلاعات کمتر شناخته شده SEO می‌تواند به پروژه‌ها کمک کند تا از ارزش جستجوی ارگانیک خود محافظت کنند.

برای خزیدن بهتر در ربات گوگل، منابع بزرگتر از 15 مگابایت را پیدا کنید

آیا محدودیت خزیدن 15 مگابایت Googlebot فقط برای اسناد HTML است؟

خیر

محدودیت خزیدن 15 مگابایت Googlebot برای همه اسناد قابل فهرست‌سازی و خزیدن، از جمله Google Earth، Hancom Hanword (.hwp)، متن OpenOffice (.odt.) و Rich Text Format (.rtf)، یا سایر انواع فایل‌های پشتیبانی شده توسط Googlebot است.

آیا اندازه تصویر و ویدئو با سند HTML جمع می شود؟

خیر، هر منبع به طور جداگانه با محدودیت خزیدن 15 مگابایت ارزیابی می شود.

اگر سند HTML 14.99 مگابایت باشد و تصویر برجسته سند HTML مجدداً 14.99 مگابایت باشد، هر دو توسط Googlebot خزیده شده و مورد استفاده قرار خواهند گرفت.

اندازه سند HTML با منابعی که از طریق برچسب های HTML پیوند داده شده اند خلاصه نمی شود.

آیا CSS، JS یا URI داده‌های درون‌شده اندازه سند HTML را افزایش می‌دهد؟

بله، CSS، JS یا URI داده‌های درون‌شده شمارش می‌شوند و در اندازه سند HTML استفاده می‌شوند.

بنابراین، اگر سند به دلیل منابع و دستورات درون خطی از 15 مگابایت بیشتر شود، بر خزیدن سند HTML خاص تأثیر می گذارد.

اگر منبع بزرگتر از 15 مگابایت باشد گوگل خزیدن را متوقف می کند؟

خیر، سیستم های خزنده گوگل خزیدن در منابعی را که بزرگتر از محدودیت 15 مگابایتی هستند متوقف نمی کنند.

آنها به واکشی فایل ادامه می دهند و فقط از قسمت کوچکتر از 15 مگابایت استفاده می کنند.

برای یک تصویر بزرگتر از 15 مگابایت، Googlebot می تواند با کمک “محدوده محتوا” تصویر را تا 15 مگابایت خرد کند.

Content-Range یک هدر پاسخ است که به Googlebot یا سایر خزنده‌ها و درخواست‌کنندگان کمک می‌کند تا درخواست‌های جزئی را انجام دهند.

چگونه اندازه منبع را به صورت دستی حسابرسی کنیم؟

می‌توانید از ابزارهای توسعه‌دهنده Google Chrome برای بررسی دستی اندازه منابع استفاده کنید.

مراحل زیر را در گوگل کروم دنبال کنید.

  • یک سند صفحه وب را از طریق Google Chrome باز کنید.
  • F12 را فشار دهید.
  • به تب Network بروید.
  • صفحه وب را بازخوانی کنید.
  • منابع را با توجه به آبشار سفارش دهید.
  • بررسی کنید اندازه ستون در ردیف اول، که اندازه سند HTML را نشان می دهد.

در زیر، می توانید نمونه ای از یک سند HTML صفحه اصلی searchenginejournal.com را مشاهده کنید که بزرگتر از 77 کیلوبایت است.

نتایج html صفحه اصلی مجله موتور جستجواسکرین شات توسط نویسنده، آگوست 2022

چگونه اندازه منابع را به صورت خودکار و انبوه حسابرسی کنیم؟

از پایتون برای بررسی اندازه سند HTML به صورت خودکار و انبوه استفاده کنید. Advertools و Pandas دو کتابخانه مفید پایتون برای خودکارسازی و مقیاس‌بندی وظایف سئو هستند.

دستورالعمل های زیر را دنبال کنید.

  • تبلیغات و پانداها را وارد کنید.
  • تمام URL های موجود در نقشه سایت را جمع آوری کنید.
  • تمام URL های موجود در نقشه سایت را بخزید.
  • URL ها را با اندازه HTML آنها فیلتر کنید.
import advertools as adv

import pandas as pd

df = adv.sitemap_to_df("https://www.holisticseo.digital/sitemap.xml")

adv.crawl(df["loc"], output_file="output.jl", custom_settings={"LOG_FILE":"output_1.log"})

df = pd.read_json("output.jl", lines=True)

df[["url", "size"]].sort_values(by="size", ascending=False)

بلوک کد بالا آدرس های نقشه سایت را استخراج کرده و آنها را خزیده است.

خط آخر کد فقط برای ایجاد یک قاب داده با ترتیب نزولی بر اساس اندازه ها است.

آدرس ها و اندازه holisticseo.comتصویر ایجاد شده توسط نویسنده، آگوست 2022

می توانید اندازه اسناد HTML را مانند بالا مشاهده کنید.

بزرگترین سند HTML در این مثال حدود 700 کیلوبایت است که یک صفحه دسته بندی است.

بنابراین، این وب سایت برای محدودیت های 15 مگابایت ایمن است. اما، ما می توانیم فراتر از این را بررسی کنیم.

چگونه اندازه منابع CSS و JS را بررسی کنیم؟

Puppeteer برای بررسی اندازه منابع CSS و JS استفاده می شود.

Puppeteer یک بسته NodeJS برای کنترل Google Chrome با حالت هدلس برای اتوماسیون مرورگر و تست وب سایت است.

اکثر متخصصان SEO از Lighthouse یا Page Speed ​​Insights API برای تست های عملکرد خود استفاده می کنند. اما با کمک Puppeteer می توان هر جنبه فنی و شبیه سازی را تحلیل کرد.

بلوک کد زیر را دنبال کنید.

const puppeteer = require('puppeteer');

const XLSX = require("xlsx");

const path = require("path");




(async () => {

    const browser = await puppeteer.launch({

        headless: false

    });




    const page = await browser.newPage();

    await page.goto('https://www.holisticseo.digital');

    console.log('Page loaded');

    const perfEntries = JSON.parse(

        await page.evaluate(() => JSON.stringify(performance.getEntries()))

      );

     

      console.log(perfEntries);

     

      const workSheetColumnName = [

          "name",

          "transferSize",

          "encodedSize",

          "decodedSize"

          ]

          const urlObject = new URL("https://www.holisticseo.digital")

          const hostName = urlObject.hostname

          const domainName = hostName.replace("\www.|.com", "");

          console.log(hostName)

          console.log(domainName)

          const workSheetName = "Users";

          const filePath = `./${domainName}`;

          const userList = perfEntries;

         

         

          const exportPerfToExcel = (userList) => {

              const data = perfEntries.map(url => {

                  return [url.name, url.transferSize, url.encodedBodySize, url. decodedBodySize];

              })

              const workBook = XLSX.utils.book_new();

              const workSheetData = [

                  workSheetColumnName,

                  ...data

              ]

              const workSheet = XLSX.utils.aoa_to_sheet(workSheetData);

              XLSX.utils.book_append_sheet(workBook, workSheet, workSheetName);

              XLSX.writeFile(workBook, path.resolve(filePath));

              return true;

         

          }

          exportPerfToExcel(userList)

       

          //browser.close();

   

})();

اگر جاوا اسکریپت را نمی دانید یا هیچ نوع آموزش Puppeteer را تمام نکرده اید، ممکن است درک این بلوک های کد برای شما کمی سخت تر باشد. اما، در واقع ساده است.

اساسا یک URL را باز می کند، همه منابع را می گیرد و “transferSize”، “encodedSize” و “decodedSize” را به آنها می دهد.

در این مثال، “decodedSize” اندازه ای است که باید روی آن تمرکز کنیم. در زیر می توانید نتیجه را در قالب یک فایل XLS مشاهده کنید.

اندازه منابعاندازه بایت منابع از وب سایت.

اگر می خواهید دوباره این فرآیندها را برای هر URL خودکار کنید، باید از یک حلقه for در دستور “await.page.goto()” استفاده کنید.

با توجه به ترجیحات خود، می توانید هر صفحه وب را در یک کاربرگ متفاوت قرار دهید یا با ضمیمه کردن آن، آن را به همان کاربرگ متصل کنید.

نتیجه

محدودیت 15 مگابایتی خزیدن Googlebot یک امکان نادر است که در حال حاضر فرآیندهای فنی سئوی شما را مسدود می کند، اما HTTPAarchive.org نشان می دهد که اندازه متوسط ​​ویدیو، تصویر و جاوا اسکریپت در چند سال گذشته افزایش یافته است.

اندازه متوسط ​​تصویر روی دسکتاپ از 1 مگابایت فراتر رفته است.

سری زمانی بایت های تصویراسکرین شات توسط نویسنده، آگوست 2022

بایت های ویدیو در کل بیش از 5 مگابایت است.

سری زمانی بایت های ویدئوییاسکرین شات توسط نویسنده، آگوست 2022

به عبارت دیگر، گاهی اوقات، این منابع – یا برخی از بخش‌های این منابع – ممکن است توسط Googlebot نادیده گرفته شوند.

بنابراین، شما باید بتوانید آنها را به طور خودکار کنترل کنید، با روش های انبوه برای وقت گذاشتن و رد نشدن.

منابع بیشتر:


تصویر ویژه: BestForBest/Shutterstock





منبع