گوگل در درصدی که محتوای تکراری را نشان می دهد


جان مولر از گوگل اخیرا به این سوال پاسخ داد که آیا یک آستانه درصدی برای تکرار محتوا وجود دارد که گوگل از آن برای شناسایی و فیلتر کردن محتوای تکراری استفاده می کند.

چند درصد برابر با محتوای تکراری است؟

مکالمه در واقع در فیس بوک زمانی شروع شد که Duane Forrester (@DuaneForrester) پرسیده شد آیا کسی می‌داند آیا موتور جستجو درصدی از همپوشانی محتوا را منتشر کرده است که در آن محتوا تکراری در نظر گرفته می‌شود.

بیل هارتزر (بهارتزر) برای پرسیدن از جان مولر به توییتر روی آورد و تقریباً بلافاصله پاسخی دریافت کرد.

بیل توییت کرد:

«هی @johnmu آیا درصدی وجود دارد که محتوای تکراری را نشان دهد؟

به عنوان مثال، آیا باید سعی کنیم مطمئن شویم که صفحات حداقل 72.6 درصد نسبت به سایر صفحات سایت ما منحصر به فرد هستند؟

آیا گوگل آن را اندازه گیری می کند؟»

جان مولر از گوگل پاسخ داد:

گوگل چگونه محتوای تکراری را تشخیص می دهد؟

متدولوژی گوگل برای شناسایی محتوای تکراری سال هاست که به طرز قابل توجهی مشابه است.

در سال 2013، مت کاتز (@mattcutts) یک مهندس نرم افزار در آن زمان در گوگل یک ویدیوی رسمی گوگل منتشر کرد که توضیح می داد گوگل چگونه محتوای تکراری را تشخیص می دهد.

او این ویدئو را با بیان اینکه حجم زیادی از محتوای اینترنتی تکراری است و این یک اتفاق عادی است، شروع کرد.

مهم است که بدانید اگر به محتوای موجود در وب نگاه کنید، چیزی حدود 25٪ یا 30٪ از کل محتوای وب محتوای تکراری است.

… مردم یک پاراگراف از یک وبلاگ را نقل قول می کنند و سپس به وبلاگ پیوند می دهند، این نوع چیزها.”

او ادامه داد که از آنجایی که بسیاری از محتوای تکراری بی گناه و بدون هدف اسپم هستند، گوگل آن محتوا را جریمه نمی کند.

او گفت که جریمه کردن صفحات وب برای داشتن محتوای تکراری تأثیر منفی بر کیفیت نتایج جستجو خواهد داشت.

کاری که گوگل هنگام یافتن محتوای تکراری انجام می دهد این است:

«…سعی کنید همه آن‌ها را با هم گروه‌بندی کنید و طوری رفتار کنید که انگار فقط یک قطعه محتوا است.»

مت ادامه داد:

“این فقط به عنوان چیزی است که ما باید به طور مناسب خوشه بندی کنیم. و ما باید مطمئن شویم که این رتبه بندی درست است.»

او توضیح داد که گوگل سپس انتخاب می کند که کدام صفحه را در نتایج جستجو نشان دهد و صفحات تکراری را فیلتر می کند تا تجربه کاربر را بهبود بخشد.

Google چگونه محتوای تکراری را مدیریت می کند – نسخه 2020

به سرعت به سال 2020 بروید و Google یک قسمت پادکست Search Off the Record را منتشر کرد که در آن همان موضوع به زبان بسیار مشابهی توضیح داده شده است.

در اینجا بخش مربوطه از آن پادکست از دقیقه 06:44 بعد از قسمت است:

گری ایلیز: و اکنون به مرحله بعدی رسیدیم که در واقع متعارف سازی و تشخیص فریب است.

مارتین اسپلیت: آیا این یک جور نیست، تشخیص فریب و قانونی کردن، به نوعی؟

گری ایلیز: [00:06:56] خوب، اینطور نیست، درست است؟ زیرا ابتدا باید فریب‌ها را شناسایی کنید، اساساً آنها را با هم جمع کنید و بگویید که همه این صفحات فریب‌های یکدیگر هستند.
و سپس باید اساساً یک صفحه رهبر برای همه آنها پیدا کنید.

… و آن متعارف سازی است.

بنابراین، شما تکثیر را دارید، که کل اصطلاح است، اما در درون آن، خوشه‌سازی دارید، مانند ساختن خوشه‌ای فریبنده، و متعارف‌سازی. “

گری در ادامه توضیح می دهد که دقیقاً چگونه این کار را انجام می دهند. اساساً، گوگل واقعاً درصدها را دقیقاً بررسی نمی‌کند، بلکه به مقایسه چک‌سام‌ها می‌پردازد.

می توان گفت که یک چک سام نمایشی از محتوا به صورت مجموعه ای از اعداد یا حروف است. بنابراین اگر محتوا تکراری باشد، توالی اعداد چک جمع مشابه خواهد بود.

گری آن را اینگونه توضیح داد:

بنابراین، برای تشخیص فریبکاری، کاری که ما انجام می دهیم، خوب، ما سعی می کنیم فریبکاران را شناسایی کنیم.

و نحوه انجام این کار شاید بیشتر افراد در سایر موتورهای جستجو این کار را انجام می‌دهند، که اساساً محتوا را به یک هش یا چک‌جمع کاهش می‌دهند و سپس چک‌سام‌ها را با هم مقایسه می‌کنند.

گری گفت که گوگل این کار را به این روش انجام می دهد زیرا آسان تر (و بدیهی است دقیق) است.

گوگل محتوای تکراری را با چک‌سام تشخیص می‌دهد

بنابراین زمانی که در مورد محتوای تکراری صحبت می شود، احتمالاً یک آستانه درصد نیست، جایی که یک عدد وجود دارد که گفته می شود محتوا تکراری است.

اما در عوض، محتوای تکراری با نمایشی از محتوا در قالب یک چک‌سوم شناسایی می‌شود و سپس آن چک‌سام‌ها با هم مقایسه می‌شوند.

یک نکته دیگر این است که به نظر می رسد تمایزی بین زمانی که بخشی از محتوا تکراری است و تمام محتوا تکراری وجود دارد.


تصویر برجسته توسط Shutterstock/Ezume Images





منبع

مطالب مرتبط