برای خزیدن بهتر در ربات گوگل، منابع بزرگتر از 15 مگابایت را پیدا کنید
Googlebot یک سیستم خزیدن وب خودکار و همیشه فعال است که فهرست گوگل را به روز نگه می دارد.
تارنما worldwidewebsize.com شاخص گوگل را بیش از 62 میلیارد صفحه وب تخمین می زند.
شاخص جستجوی گوگل “بیش از 100،000،000 گیگابایت حجم دارد.”
ربات گوگل و انواع آن (تلفن های هوشمند، اخبار، تصاویر و غیره) محدودیت های خاصی برای فرکانس رندر جاوا اسکریپت یا اندازه منابع دارند.
Google از محدودیتهای خزیدن برای محافظت از منابع و سیستمهای خزنده خود استفاده میکند.
به عنوان مثال، اگر یک وب سایت خبری مقالات توصیه شده را هر 15 ثانیه یکبار بازخوانی کند، Googlebot ممکن است شروع به رد شدن از بخش هایی که اغلب به روز می شوند را رد کند – زیرا بعد از 15 ثانیه مرتبط یا معتبر نخواهند بود.
سالها پیش، گوگل اعلام کرد که از منابع بزرگتر از 15 مگابایت استفاده نمیکند.
در 28 ژوئن 2022، گوگل این پست وبلاگ را با بیان اینکه از قسمت اضافی منابع پس از 15 مگابایت برای خزیدن استفاده نمی کند، مجدداً منتشر کرد.
برای تاکید بر اینکه به ندرت اتفاق می افتد، گوگل اعلام کرد که “اندازه متوسط یک فایل HTML 500 برابر کوچکتر از 15 مگابایت است”.

در بالا، HTTPAarchive.org میانه اندازه فایل HTML دسکتاپ و موبایل را نشان می دهد. بنابراین، اکثر وب سایت ها مشکل محدودیت 15 مگابایتی برای خزیدن را ندارند.
اما، وب مکانی بزرگ و پر هرج و مرج است.
درک ماهیت محدودیت خزیدن 15 مگابایت و روش های تجزیه و تحلیل آن برای سئوکاران مهم است.
یک تصویر، ویدیو یا باگ میتواند باعث مشکلات خزیدن شود، و این اطلاعات کمتر شناخته شده SEO میتواند به پروژهها کمک کند تا از ارزش جستجوی ارگانیک خود محافظت کنند.
آیا محدودیت خزیدن 15 مگابایت Googlebot فقط برای اسناد HTML است؟
خیر
محدودیت خزیدن 15 مگابایت Googlebot برای همه اسناد قابل فهرستسازی و خزیدن، از جمله Google Earth، Hancom Hanword (.hwp)، متن OpenOffice (.odt.) و Rich Text Format (.rtf)، یا سایر انواع فایلهای پشتیبانی شده توسط Googlebot است.
آیا اندازه تصویر و ویدئو با سند HTML جمع می شود؟
خیر، هر منبع به طور جداگانه با محدودیت خزیدن 15 مگابایت ارزیابی می شود.
اگر سند HTML 14.99 مگابایت باشد و تصویر برجسته سند HTML مجدداً 14.99 مگابایت باشد، هر دو توسط Googlebot خزیده شده و مورد استفاده قرار خواهند گرفت.
اندازه سند HTML با منابعی که از طریق برچسب های HTML پیوند داده شده اند خلاصه نمی شود.
آیا CSS، JS یا URI دادههای درونشده اندازه سند HTML را افزایش میدهد؟
بله، CSS، JS یا URI دادههای درونشده شمارش میشوند و در اندازه سند HTML استفاده میشوند.
بنابراین، اگر سند به دلیل منابع و دستورات درون خطی از 15 مگابایت بیشتر شود، بر خزیدن سند HTML خاص تأثیر می گذارد.
اگر منبع بزرگتر از 15 مگابایت باشد گوگل خزیدن را متوقف می کند؟
خیر، سیستم های خزنده گوگل خزیدن در منابعی را که بزرگتر از محدودیت 15 مگابایتی هستند متوقف نمی کنند.
آنها به واکشی فایل ادامه می دهند و فقط از قسمت کوچکتر از 15 مگابایت استفاده می کنند.
برای یک تصویر بزرگتر از 15 مگابایت، Googlebot می تواند با کمک “محدوده محتوا” تصویر را تا 15 مگابایت خرد کند.
Content-Range یک هدر پاسخ است که به Googlebot یا سایر خزندهها و درخواستکنندگان کمک میکند تا درخواستهای جزئی را انجام دهند.
چگونه اندازه منبع را به صورت دستی حسابرسی کنیم؟
میتوانید از ابزارهای توسعهدهنده Google Chrome برای بررسی دستی اندازه منابع استفاده کنید.
مراحل زیر را در گوگل کروم دنبال کنید.
- یک سند صفحه وب را از طریق Google Chrome باز کنید.
- F12 را فشار دهید.
- به تب Network بروید.
- صفحه وب را بازخوانی کنید.
- منابع را با توجه به آبشار سفارش دهید.
- بررسی کنید اندازه ستون در ردیف اول، که اندازه سند HTML را نشان می دهد.
در زیر، می توانید نمونه ای از یک سند HTML صفحه اصلی searchenginejournal.com را مشاهده کنید که بزرگتر از 77 کیلوبایت است.

چگونه اندازه منابع را به صورت خودکار و انبوه حسابرسی کنیم؟
از پایتون برای بررسی اندازه سند HTML به صورت خودکار و انبوه استفاده کنید. Advertools و Pandas دو کتابخانه مفید پایتون برای خودکارسازی و مقیاسبندی وظایف سئو هستند.
دستورالعمل های زیر را دنبال کنید.
- تبلیغات و پانداها را وارد کنید.
- تمام URL های موجود در نقشه سایت را جمع آوری کنید.
- تمام URL های موجود در نقشه سایت را بخزید.
- URL ها را با اندازه HTML آنها فیلتر کنید.
import advertools as adv
import pandas as pd
df = adv.sitemap_to_df("https://www.holisticseo.digital/sitemap.xml")
adv.crawl(df["loc"], output_file="output.jl", custom_settings={"LOG_FILE":"output_1.log"})
df = pd.read_json("output.jl", lines=True)
df[["url", "size"]].sort_values(by="size", ascending=False)
بلوک کد بالا آدرس های نقشه سایت را استخراج کرده و آنها را خزیده است.
خط آخر کد فقط برای ایجاد یک قاب داده با ترتیب نزولی بر اساس اندازه ها است.

می توانید اندازه اسناد HTML را مانند بالا مشاهده کنید.
بزرگترین سند HTML در این مثال حدود 700 کیلوبایت است که یک صفحه دسته بندی است.
بنابراین، این وب سایت برای محدودیت های 15 مگابایت ایمن است. اما، ما می توانیم فراتر از این را بررسی کنیم.
چگونه اندازه منابع CSS و JS را بررسی کنیم؟
Puppeteer برای بررسی اندازه منابع CSS و JS استفاده می شود.
Puppeteer یک بسته NodeJS برای کنترل Google Chrome با حالت هدلس برای اتوماسیون مرورگر و تست وب سایت است.
اکثر متخصصان SEO از Lighthouse یا Page Speed Insights API برای تست های عملکرد خود استفاده می کنند. اما با کمک Puppeteer می توان هر جنبه فنی و شبیه سازی را تحلیل کرد.
بلوک کد زیر را دنبال کنید.
const puppeteer = require('puppeteer');
const XLSX = require("xlsx");
const path = require("path");
(async () => {
const browser = await puppeteer.launch({
headless: false
});
const page = await browser.newPage();
await page.goto('https://www.holisticseo.digital');
console.log('Page loaded');
const perfEntries = JSON.parse(
await page.evaluate(() => JSON.stringify(performance.getEntries()))
);
console.log(perfEntries);
const workSheetColumnName = [
"name",
"transferSize",
"encodedSize",
"decodedSize"
]
const urlObject = new URL("https://www.holisticseo.digital")
const hostName = urlObject.hostname
const domainName = hostName.replace("\www.|.com", "");
console.log(hostName)
console.log(domainName)
const workSheetName = "Users";
const filePath = `./${domainName}`;
const userList = perfEntries;
const exportPerfToExcel = (userList) => {
const data = perfEntries.map(url => {
return [url.name, url.transferSize, url.encodedBodySize, url. decodedBodySize];
})
const workBook = XLSX.utils.book_new();
const workSheetData = [
workSheetColumnName,
...data
]
const workSheet = XLSX.utils.aoa_to_sheet(workSheetData);
XLSX.utils.book_append_sheet(workBook, workSheet, workSheetName);
XLSX.writeFile(workBook, path.resolve(filePath));
return true;
}
exportPerfToExcel(userList)
//browser.close();
})();
اگر جاوا اسکریپت را نمی دانید یا هیچ نوع آموزش Puppeteer را تمام نکرده اید، ممکن است درک این بلوک های کد برای شما کمی سخت تر باشد. اما، در واقع ساده است.
اساسا یک URL را باز می کند، همه منابع را می گیرد و “transferSize”، “encodedSize” و “decodedSize” را به آنها می دهد.
در این مثال، “decodedSize” اندازه ای است که باید روی آن تمرکز کنیم. در زیر می توانید نتیجه را در قالب یک فایل XLS مشاهده کنید.

اگر می خواهید دوباره این فرآیندها را برای هر URL خودکار کنید، باید از یک حلقه for در دستور “await.page.goto()” استفاده کنید.
با توجه به ترجیحات خود، می توانید هر صفحه وب را در یک کاربرگ متفاوت قرار دهید یا با ضمیمه کردن آن، آن را به همان کاربرگ متصل کنید.
نتیجه
محدودیت 15 مگابایتی خزیدن Googlebot یک امکان نادر است که در حال حاضر فرآیندهای فنی سئوی شما را مسدود می کند، اما HTTPAarchive.org نشان می دهد که اندازه متوسط ویدیو، تصویر و جاوا اسکریپت در چند سال گذشته افزایش یافته است.
اندازه متوسط تصویر روی دسکتاپ از 1 مگابایت فراتر رفته است.

بایت های ویدیو در کل بیش از 5 مگابایت است.

به عبارت دیگر، گاهی اوقات، این منابع – یا برخی از بخشهای این منابع – ممکن است توسط Googlebot نادیده گرفته شوند.
بنابراین، شما باید بتوانید آنها را به طور خودکار کنترل کنید، با روش های انبوه برای وقت گذاشتن و رد نشدن.
منابع بیشتر:
تصویر ویژه: BestForBest/Shutterstock