چگونه می توان از فشرده سازی برای تشخیص صفحات با کیفیت پایین استفاده کرد


مفهوم تراکم پذیری به عنوان یک سیگنال با کیفیت به طور گسترده ای شناخته شده نیست، اما سئوکاران باید از آن آگاه باشند. موتورهای جستجو می توانند از تراکم پذیری صفحات وب برای شناسایی صفحات تکراری، صفحات درگاهی با محتوای مشابه و صفحات با کلمات کلیدی تکراری استفاده کنند که آن را به دانش مفیدی برای سئو تبدیل می کند.

اگرچه مقاله تحقیقاتی زیر استفاده موفقیت‌آمیز از ویژگی‌های روی صفحه را برای شناسایی هرزنامه‌ها نشان می‌دهد، عدم شفافیت عمدی توسط موتورهای جستجو باعث می‌شود بگوییم که آیا موتورهای جستجو از این تکنیک یا تکنیک‌های مشابه استفاده می‌کنند یا خیر.

تراکم پذیری چیست؟

در محاسبات، فشرده‌پذیری به این موضوع اشاره دارد که اندازه یک فایل (داده) چقدر می‌تواند کاهش یابد و در عین حال اطلاعات ضروری را حفظ کند، معمولاً برای به حداکثر رساندن فضای ذخیره‌سازی یا امکان انتقال داده‌های بیشتر از طریق اینترنت.

TL/DR از فشرده سازی

فشرده سازی کلمات و عبارات تکراری را با ارجاعات کوتاه تر جایگزین می کند و اندازه فایل را با حاشیه های قابل توجهی کاهش می دهد. موتورهای جستجو معمولاً صفحات وب فهرست شده را فشرده می کنند تا فضای ذخیره سازی را به حداکثر برسانند، پهنای باند را کاهش دهند و سرعت بازیابی را بهبود بخشند.

این یک توضیح ساده از نحوه عملکرد فشرده سازی است:

  • شناسایی الگوها:
    یک الگوریتم فشرده سازی متن را اسکن می کند تا کلمات، الگوها و عبارات تکراری را بیابد
  • کدهای کوتاهتر فضای کمتری را اشغال می کنند:
    کدها و نمادها نسبت به کلمات و عبارات اصلی از فضای ذخیره سازی کمتری استفاده می کنند، که منجر به حجم فایل کوچکتر می شود.
  • منابع کوتاه تر از بیت های کمتری استفاده می کنند:
    “کد” که اساساً نماد کلمات و عبارات جایگزین شده است از داده های کمتری نسبت به نسخه های اصلی استفاده می کند.

یکی از مزایای استفاده از فشرده سازی این است که می توان از آن برای شناسایی صفحات تکراری، صفحات ورودی با محتوای مشابه و صفحات با کلمات کلیدی تکراری نیز استفاده کرد.

مقاله تحقیقاتی درباره تشخیص هرزنامه

این مقاله تحقیقاتی از این جهت مهم است که توسط دانشمندان کامپیوتری برجسته که به دلیل پیشرفت در هوش مصنوعی، محاسبات توزیع شده، بازیابی اطلاعات و سایر زمینه ها شناخته شده اند، نوشته شده است.

مارک نایورک

یکی از نویسندگان همکار مقاله تحقیقاتی مارک نایورک، دانشمند پژوهشی برجسته است که در حال حاضر عنوان دانشمند پژوهشی برجسته در گوگل دیپ مایند را دارد. او یکی از نویسندگان مقالات TW-BERT است، تحقیقاتی را برای افزایش دقت استفاده از بازخورد ضمنی کاربر مانند کلیک‌ها انجام داده و روی ایجاد بهبود یافته بازیابی اطلاعات مبتنی بر هوش مصنوعی (DSI++: به‌روزرسانی حافظه ترانسفورماتور با اسناد جدید) کار کرده است. بسیاری از پیشرفت های مهم دیگر در بازیابی اطلاعات.

دنیس فترلی

یکی دیگر از نویسندگان همکار دنیس فترلی است که در حال حاضر یک مهندس نرم افزار در گوگل است. او به عنوان یکی از مخترعان در پتنت الگوریتم رتبه‌بندی که از پیوندها استفاده می‌کند، فهرست شده است و به دلیل تحقیقاتش در محاسبات توزیع‌شده و بازیابی اطلاعات شناخته شده است.

اینها فقط دو نفر از محققان برجسته هستند که به عنوان نویسندگان مشترک مقاله تحقیقاتی مایکروسافت در سال 2006 در مورد شناسایی هرزنامه از طریق ویژگی های محتوای داخل صفحه فهرست شده اند. در میان چندین ویژگی محتوای روی صفحه که مقاله تحقیقاتی تجزیه و تحلیل می کند، قابلیت فشرده سازی است، که آنها کشف کردند که می تواند به عنوان یک طبقه بندی برای نشان دادن هرزنامه بودن یک صفحه وب استفاده شود.

شناسایی صفحات وب اسپم از طریق تجزیه و تحلیل محتوا

اگرچه این مقاله تحقیقاتی در سال 2006 نوشته شده است، یافته های آن همچنان مرتبط با امروز است.

در آن زمان، مانند اکنون، مردم سعی کردند صدها یا هزاران صفحه وب مبتنی بر مکان را که اساساً محتوای تکراری بودند، جدا از نام شهر، منطقه یا ایالت رتبه‌بندی کنند. سپس، مانند اکنون، سئوکاران اغلب صفحات وب را برای موتورهای جستجو با تکرار بیش از حد کلمات کلیدی در عناوین، توضیحات متا، سرفصل ها، متن لنگر داخلی و درون محتوا برای بهبود رتبه بندی ایجاد می کردند.

بخش 4.6 مقاله تحقیق توضیح می دهد:

برخی از موتورهای جستجو به صفحاتی که چندین بار حاوی کلمات کلیدی پرس و جو هستند، وزن بیشتری می دهند. به عنوان مثال، برای یک عبارت پرس و جو داده شده، صفحه ای که آن را ده بار شامل می شود ممکن است رتبه بالاتری نسبت به صفحه ای داشته باشد که فقط یک بار آن را دارد. برای استفاده از چنین موتورهایی، برخی از صفحات هرزنامه چندین بار محتوای خود را تکرار می کنند تا رتبه بالاتری کسب کنند.”

مقاله تحقیقاتی توضیح می دهد که موتورهای جستجو صفحات وب را فشرده می کنند و از نسخه فشرده شده برای ارجاع به صفحه اصلی وب استفاده می کنند. آنها خاطرنشان می کنند که مقادیر بیش از حد کلمات اضافی منجر به سطح بالاتری از تراکم پذیری می شود. بنابراین آنها شروع به آزمایش کردند که آیا بین سطح بالایی از فشرده‌سازی و هرزنامه همبستگی وجود دارد یا خیر.

آنها می نویسند:

رویکرد ما در این بخش برای یافتن محتوای اضافی در یک صفحه، فشرده سازی صفحه است. برای صرفه جویی در فضا و زمان دیسک، موتورهای جستجو اغلب صفحات وب را پس از ایندکس کردن، اما قبل از افزودن آنها به کش صفحه فشرده می کنند.

… ما افزونگی صفحات وب را با نسبت فشرده سازی، اندازه صفحه فشرده نشده تقسیم بر اندازه صفحه فشرده اندازه گیری می کنیم. ما از GZIP برای فشرده سازی صفحات، یک الگوریتم فشرده سازی سریع و موثر استفاده کردیم.

تراکم پذیری بالا با هرزنامه ارتباط دارد

نتایج تحقیق نشان داد که صفحات وب با حداقل نسبت فشرده سازی 4.0 تمایل به صفحات وب با کیفیت پایین و هرزنامه دارند. با این حال، بالاترین نرخ تراکم پذیری کمتر سازگار شد زیرا نقاط داده کمتری وجود داشت و تفسیر آن را دشوارتر می کرد.

شکل 9: شیوع هرزنامه نسبت به قابلیت فشرده سازی صفحه.

نمودار پیوند بین سطوح فشرده سازی بالا و احتمال اسپم بودن آن صفحات را نشان می دهد.

محققان نتیجه گرفتند:

70 درصد از تمام صفحات نمونه با نسبت فشرده سازی حداقل 4.0 به عنوان هرزنامه در نظر گرفته شد.

اما آنها همچنین دریافتند که استفاده از نسبت فشرده سازی به خودی خود همچنان به نتایج مثبت کاذب منجر می شود، جایی که صفحات غیر هرزنامه به اشتباه به عنوان هرزنامه شناسایی می شوند:

اکتشافی نسبت فشرده سازی شرح داده شده در بخش 4.6 بهترین عملکرد را داشت و 660 (27.9٪) از صفحات هرزنامه را در مجموعه ما به درستی شناسایی کرد، در حالی که 2068 (12.0٪) از همه صفحات داوری شده را به اشتباه شناسایی کرد.

با استفاده از تمام ویژگی‌های ذکر شده، دقت طبقه‌بندی پس از فرآیند اعتبارسنجی متقاطع ده برابری دلگرم‌کننده است:

95.4 درصد از صفحات داوری شده ما به درستی طبقه بندی شده اند، در حالی که 4.6 درصد به اشتباه طبقه بندی شده اند.

به طور دقیق تر، برای کلاس هرزنامه 1، 940 صفحه از 2، 364 صفحه، به درستی طبقه بندی شده است. برای کلاس غیر هرزنامه، 14440 صفحه از 14804 صفحه به درستی طبقه بندی شدند. در نتیجه 788 صفحه به اشتباه طبقه بندی شده است.

بخش بعدی کشف جالبی را در مورد چگونگی افزایش دقت استفاده از سیگنال‌های درون صفحه برای شناسایی هرزنامه توضیح می‌دهد.

بینش در مورد رتبه بندی کیفیت

مقاله تحقیقاتی چندین سیگنال روی صفحه از جمله تراکم پذیری را بررسی کرد. آنها دریافتند که هر سیگنال جداگانه (طبقه‌بندی کننده) می‌تواند مقداری هرزنامه را پیدا کند، اما تکیه بر هر سیگنال به تنهایی منجر به پرچم‌گذاری صفحات غیر هرزنامه برای هرزنامه می‌شود که معمولاً به آنها مثبت کاذب می‌گویند.

محققان به کشف مهمی دست یافتند که همه علاقه‌مندان به سئو باید بدانند و آن این است که استفاده از طبقه‌بندی‌کننده‌های متعدد، دقت تشخیص هرزنامه را افزایش داده و احتمال مثبت کاذب را کاهش می‌دهد. به همان اندازه مهم است که سیگنال تراکم پذیری فقط یک نوع از هرزنامه ها را شناسایی می کند اما نه طیف کاملی از هرزنامه ها را.

نکته مهم این است که فشرده‌پذیری راه خوبی برای شناسایی یک نوع هرزنامه است، اما انواع دیگری از هرزنامه‌ها وجود دارند که با این سیگنال شناسایی نمی‌شوند. انواع دیگر هرزنامه ها با سیگنال تراکم پذیری شناسایی نشدند.

این بخشی است که هر SEO و ناشر باید از آن آگاه باشد:

در بخش قبل، ما تعدادی اکتشافی برای ارزیابی صفحات وب هرزنامه ارائه کردیم. به این معنا که ما چندین ویژگی صفحات وب را اندازه گیری کردیم و محدوده هایی از آن ویژگی ها را پیدا کردیم که با هرزنامه بودن یک صفحه مرتبط بود. با این وجود، وقتی به صورت جداگانه استفاده می‌شود، هیچ تکنیکی بیشتر هرزنامه‌ها را در مجموعه داده‌های ما بدون پرچم‌گذاری بسیاری از صفحات غیر هرزنامه به‌عنوان هرزنامه آشکار نمی‌کند.

برای مثال، با در نظر گرفتن اکتشافی نسبت تراکم شرح داده شده در بخش 4.6، یکی از امیدوارکننده‌ترین روش‌های ما، میانگین احتمال هرزنامه برای نسبت‌های 4.2 و بالاتر 72 درصد است. اما تنها حدود 1.5 درصد از کل صفحات در این محدوده قرار می گیرند. این تعداد بسیار کمتر از 13.8 درصد از صفحات هرزنامه ای است که ما در مجموعه داده های خود شناسایی کرده ایم.

بنابراین، اگرچه فشرده‌سازی یکی از سیگنال‌های بهتر برای شناسایی هرزنامه‌ها بود، اما هنوز قادر به کشف طیف کامل هرزنامه در مجموعه داده‌ای که محققان برای آزمایش سیگنال‌ها استفاده می‌کردند، نبود.

ترکیب چندین سیگنال

نتایج فوق نشان داد که سیگنال های فردی با کیفیت پایین دقت کمتری دارند. بنابراین آنها با استفاده از چندین سیگنال آزمایش کردند. چیزی که آنها کشف کردند این بود که ترکیب چندین سیگنال روی صفحه برای تشخیص هرزنامه منجر به نرخ دقت بهتری با صفحات کمتری که به عنوان هرزنامه طبقه بندی می شوند، می شود.

محققان توضیح دادند که استفاده از سیگنال های متعدد را آزمایش کردند:

یکی از راه های ترکیب روش های اکتشافی ما این است که مشکل تشخیص هرزنامه را به عنوان یک مشکل طبقه بندی مشاهده کنیم. در این مورد، ما می خواهیم یک مدل طبقه بندی (یا طبقه بندی کننده) ایجاد کنیم که با توجه به یک صفحه وب، از ویژگی های صفحه به طور مشترک استفاده کند تا (به درستی، امیدواریم) آن را در یکی از دو کلاس: هرزنامه و غیر هرزنامه طبقه بندی کنیم. “

اینها نتیجه گیری آنها در مورد استفاده از سیگنال های متعدد است:

ما جنبه های مختلف هرزنامه مبتنی بر محتوا را در وب با استفاده از مجموعه داده های دنیای واقعی از خزنده MSNSearch مطالعه کرده ایم. ما تعدادی روش اکتشافی برای تشخیص هرزنامه مبتنی بر محتوا ارائه کرده‌ایم. برخی از روش‌های تشخیص هرزنامه ما مؤثرتر از روش‌های دیگر هستند، اما وقتی به‌صورت مجزا از روش‌های ما استفاده می‌کنیم ممکن است همه صفحات هرزنامه را شناسایی نکنند. به همین دلیل، ما روش‌های تشخیص هرزنامه خود را برای ایجاد یک طبقه‌بندی C4.5 بسیار دقیق ترکیب کردیم. طبقه‌بندی‌کننده ما می‌تواند 86.2 درصد از تمام صفحات هرزنامه را به درستی شناسایی کند، در حالی که تعداد بسیار کمی از صفحات قانونی را به عنوان هرزنامه علامت‌گذاری می‌کند.

بینش کلیدی:

شناسایی نادرست «صفحات بسیار معدودی به عنوان هرزنامه» یک پیشرفت مهم بود. بینش مهمی که همه افراد مرتبط با سئو باید از این موضوع بگیرند این است که یک سیگنال به خودی خود می تواند منجر به مثبت کاذب شود. استفاده از چندین سیگنال باعث افزایش دقت می شود.

این بدان معناست که تست‌های سئو رتبه‌بندی مجزا یا سیگنال‌های کیفیت نتایج قابل اعتمادی را که بتوان برای تصمیم‌گیری استراتژی یا کسب‌وکار به آنها اعتماد کرد، به دست نمی‌دهد.

غذای آماده

ما به طور قطع نمی دانیم که تراکم پذیری در موتورهای جستجو مورد استفاده قرار می گیرد یا خیر، اما استفاده از آن یک سیگنال آسان است که در ترکیب با سیگنال های دیگر می تواند برای گرفتن انواع ساده هرزنامه مانند هزاران صفحه نام شهر با محتوای مشابه استفاده شود. با این حال، حتی اگر موتورهای جستجو از این سیگنال استفاده نکنند، نشان می‌دهد که چقدر راحت می‌توان آن نوع دستکاری موتورهای جستجو را دریافت کرد و این چیزی است که موتورهای جستجو امروز به خوبی از عهده آن برمی‌آیند.

در اینجا نکات کلیدی این مقاله وجود دارد که باید در نظر داشت:

  • صفحات درگاهی با محتوای تکراری به راحتی قابل دستیابی هستند زیرا با نسبت بالاتری نسبت به صفحات وب معمولی فشرده می شوند.
  • گروه هایی از صفحات وب با نسبت فشرده سازی بالاتر از 4.0 عمدتاً هرزنامه بودند.
  • سیگنال‌های با کیفیت منفی که توسط خودشان برای گرفتن هرزنامه استفاده می‌شوند، می‌توانند منجر به مثبت کاذب شوند.
  • در این آزمایش خاص، آنها کشف کردند که سیگنال های کیفیت منفی روی صفحه فقط انواع خاصی از هرزنامه ها را می گیرند.
  • هنگامی که به تنهایی استفاده می شود، سیگنال تراکم پذیری فقط هرزنامه هایی از نوع افزونگی را دریافت می کند، سایر اشکال هرزنامه را شناسایی نمی کند و منجر به مثبت کاذب می شود.
  • ترکیب سیگنال‌های با کیفیت، دقت تشخیص هرزنامه را بهبود می‌بخشد و موارد مثبت کاذب را کاهش می‌دهد.
  • امروزه موتورهای جستجو با استفاده از هوش مصنوعی مانند Spam Brain دقت بالاتری در تشخیص هرزنامه دارند.

مقاله تحقیقاتی را بخوانید که از صفحه Google Scholar مارک نایورک پیوند داده شده است:

شناسایی صفحات وب اسپم از طریق تجزیه و تحلیل محتوا

تصویر ویژه توسط Shutterstock/pathdoc



منبع

مطالب مرتبط