گوگل در درصدی که محتوای تکراری را نشان می دهد
جان مولر از گوگل اخیرا به این سوال پاسخ داد که آیا یک آستانه درصدی برای تکرار محتوا وجود دارد که گوگل از آن برای شناسایی و فیلتر کردن محتوای تکراری استفاده می کند.
چند درصد برابر با محتوای تکراری است؟
مکالمه در واقع در فیس بوک زمانی شروع شد که Duane Forrester (@DuaneForrester) پرسیده شد آیا کسی میداند آیا موتور جستجو درصدی از همپوشانی محتوا را منتشر کرده است که در آن محتوا تکراری در نظر گرفته میشود.
بیل هارتزر (بهارتزر) برای پرسیدن از جان مولر به توییتر روی آورد و تقریباً بلافاصله پاسخی دریافت کرد.
«هی @johnmu آیا درصدی وجود دارد که محتوای تکراری را نشان دهد؟
به عنوان مثال، آیا باید سعی کنیم مطمئن شویم که صفحات حداقل 72.6 درصد نسبت به سایر صفحات سایت ما منحصر به فرد هستند؟
آیا گوگل آن را اندازه گیری می کند؟»
جان مولر از گوگل پاسخ داد:
هیچ عددی وجود ندارد (همچنین چگونه آن را اندازه گیری می کنید؟)
— 🌽〈لینک href=//johnmu.com rel=canonical 〉🌽 (@JohnMu) 23 سپتامبر 2022
گوگل چگونه محتوای تکراری را تشخیص می دهد؟
متدولوژی گوگل برای شناسایی محتوای تکراری سال هاست که به طرز قابل توجهی مشابه است.
در سال 2013، مت کاتز (@mattcutts) یک مهندس نرم افزار در آن زمان در گوگل یک ویدیوی رسمی گوگل منتشر کرد که توضیح می داد گوگل چگونه محتوای تکراری را تشخیص می دهد.
او این ویدئو را با بیان اینکه حجم زیادی از محتوای اینترنتی تکراری است و این یک اتفاق عادی است، شروع کرد.
مهم است که بدانید اگر به محتوای موجود در وب نگاه کنید، چیزی حدود 25٪ یا 30٪ از کل محتوای وب محتوای تکراری است.
… مردم یک پاراگراف از یک وبلاگ را نقل قول می کنند و سپس به وبلاگ پیوند می دهند، این نوع چیزها.”
او ادامه داد که از آنجایی که بسیاری از محتوای تکراری بی گناه و بدون هدف اسپم هستند، گوگل آن محتوا را جریمه نمی کند.
او گفت که جریمه کردن صفحات وب برای داشتن محتوای تکراری تأثیر منفی بر کیفیت نتایج جستجو خواهد داشت.
کاری که گوگل هنگام یافتن محتوای تکراری انجام می دهد این است:
«…سعی کنید همه آنها را با هم گروهبندی کنید و طوری رفتار کنید که انگار فقط یک قطعه محتوا است.»
مت ادامه داد:
“این فقط به عنوان چیزی است که ما باید به طور مناسب خوشه بندی کنیم. و ما باید مطمئن شویم که این رتبه بندی درست است.»
او توضیح داد که گوگل سپس انتخاب می کند که کدام صفحه را در نتایج جستجو نشان دهد و صفحات تکراری را فیلتر می کند تا تجربه کاربر را بهبود بخشد.
Google چگونه محتوای تکراری را مدیریت می کند – نسخه 2020
به سرعت به سال 2020 بروید و Google یک قسمت پادکست Search Off the Record را منتشر کرد که در آن همان موضوع به زبان بسیار مشابهی توضیح داده شده است.
در اینجا بخش مربوطه از آن پادکست از دقیقه 06:44 بعد از قسمت است:
گری ایلیز: و اکنون به مرحله بعدی رسیدیم که در واقع متعارف سازی و تشخیص فریب است.
مارتین اسپلیت: آیا این یک جور نیست، تشخیص فریب و قانونی کردن، به نوعی؟
گری ایلیز: [00:06:56] خوب، اینطور نیست، درست است؟ زیرا ابتدا باید فریبها را شناسایی کنید، اساساً آنها را با هم جمع کنید و بگویید که همه این صفحات فریبهای یکدیگر هستند.
و سپس باید اساساً یک صفحه رهبر برای همه آنها پیدا کنید.… و آن متعارف سازی است.
بنابراین، شما تکثیر را دارید، که کل اصطلاح است، اما در درون آن، خوشهسازی دارید، مانند ساختن خوشهای فریبنده، و متعارفسازی. “
گری در ادامه توضیح می دهد که دقیقاً چگونه این کار را انجام می دهند. اساساً، گوگل واقعاً درصدها را دقیقاً بررسی نمیکند، بلکه به مقایسه چکسامها میپردازد.
می توان گفت که یک چک سام نمایشی از محتوا به صورت مجموعه ای از اعداد یا حروف است. بنابراین اگر محتوا تکراری باشد، توالی اعداد چک جمع مشابه خواهد بود.
گری آن را اینگونه توضیح داد:
بنابراین، برای تشخیص فریبکاری، کاری که ما انجام می دهیم، خوب، ما سعی می کنیم فریبکاران را شناسایی کنیم.
و نحوه انجام این کار شاید بیشتر افراد در سایر موتورهای جستجو این کار را انجام میدهند، که اساساً محتوا را به یک هش یا چکجمع کاهش میدهند و سپس چکسامها را با هم مقایسه میکنند.
گری گفت که گوگل این کار را به این روش انجام می دهد زیرا آسان تر (و بدیهی است دقیق) است.
گوگل محتوای تکراری را با چکسام تشخیص میدهد
بنابراین زمانی که در مورد محتوای تکراری صحبت می شود، احتمالاً یک آستانه درصد نیست، جایی که یک عدد وجود دارد که گفته می شود محتوا تکراری است.
اما در عوض، محتوای تکراری با نمایشی از محتوا در قالب یک چکسوم شناسایی میشود و سپس آن چکسامها با هم مقایسه میشوند.
یک نکته دیگر این است که به نظر می رسد تمایزی بین زمانی که بخشی از محتوا تکراری است و تمام محتوا تکراری وجود دارد.
تصویر برجسته توسط Shutterstock/Ezume Images