خسته از اسپم سئو ، مهندس نرم افزار موتور جستجوی جدیدی ایجاد می کند
یک مهندس نرم افزاری از نیویورک از نتایج بی ربط و اسپم سئو در موتورهای جستجو چنان تغذیه شد که تصمیم به ایجاد بهتر گرفت. دو ماه بعد ، او یک موتور جستجوی نسخه ی نمایشی دارد و در حال کار است. در اینجا نحوه انجام این کار ، و چهار بینش مهم در مورد آنچه او احساس می کند موانع ایجاد یک موتور جستجوی با کیفیت بالا است.
یکی از انگیزه های ایجاد موتور جستجوی جدید ، این تصور بود که موتورهای جستجوگر اصلی حاوی مقدار فزاینده ای از اسپم سئو بودند. بعد از دو ماه مهندس نرم افزار در مورد ایجاد خود نوشت:
“آنچه بسیار زیاد است عدم مقایسه اسپم سئو است.”
تعبیه های عصبی
مهندس نرم افزار ، ویلسون لین ، تصمیم گرفت که بهترین روش تعبیه عصبی باشد. وی برای تأیید رویکرد یک آزمون در مقیاس کوچک ایجاد کرد و خاطرنشان کرد: رویکرد تعبیه موفقیت آمیز است.
محتوای chunking
مرحله بعدی نحوه پردازش داده ها بود ، مانند این که باید به بلوک های پاراگراف یا جملات تقسیم شود؟ وی تصمیم گرفت که سطح جمله گرانترین سطح است که معقول است زیرا این امکان را برای شناسایی مهمترین پاسخ در یک جمله فراهم می کند و در عین حال امکان ایجاد واحدهای تعبیه شده در سطح بزرگتر برای زمینه و انسجام معنایی را نیز فراهم می کند.
اما او هنوز هم در شناسایی زمینه با منابع غیرمستقیم که از کلماتی مانند “آن” یا “” استفاده می کرد ، مشکل داشت ، بنابراین او یک گام اضافی برداشت تا بتواند زمینه را بهتر درک کند:
وی گفت: “من یک مدل طبقه بندی کننده Distilbert را آموزش دادم که یک جمله و جملات قبلی را به خود اختصاص دهد ، و برچسب کدام یک (در صورت وجود) برای حفظ معنی به آن بستگی دارد. بنابراین ، هنگام تعبیه بیانیه ، من” زنجیره ای “را به عقب دنبال می کنم تا اطمینان حاصل کنم که همه وابستگان نیز در متن ارائه شده اند.
این امر همچنین این مزیت را داشت که مجازات های برچسب زدن را که هرگز نباید با آنها مطابقت داشته باشند ، زیرا آنها جملات “برگ” نبوده اند. “
شناسایی محتوای اصلی
یک چالش برای خزیدن ، ایجاد راهی برای نادیده گرفتن قسمتهای غیر محتاطانه یک صفحه وب به منظور نمایه کردن آنچه Google از آن به عنوان محتوای اصلی (MC) می نامد ، بود. این واقعیت این بود که همه وب سایت ها از نشانه های مختلفی برای نشان دادن قسمت های یک صفحه وب استفاده می کنند ، و اگرچه وی به آن اشاره نکرد ، اما همه وب سایت ها از HTML معنایی استفاده نمی کنند ، که باعث می شود خزنده ها بتوانند محتوای اصلی را شناسایی کنند.
بنابراین او اساساً به برچسب های HTML مانند برچسب پاراگراف اعتماد کرد
برای شناسایی کدام قسمت از یک صفحه وب حاوی محتوا و کدام قسمت ها نبود.
این لیست برچسب های HTML است که وی برای شناسایی محتوای اصلی به آن اعتماد کرده است:
- blockquote – یک نقل قول
- DL – لیست توضیحات (لیستی از توضیحات یا تعاریف)
- ol – یک لیست سفارش داده شده (مانند لیست شماره)
- P – عنصر پاراگراف
- متن قبل – از پیش تنظیم شده
- جدول – عنصر داده های جدولی
- UL – یک لیست بدون هماهنگ (مانند نقاط گلوله)
مسائل مربوط به خزیدن
خزیدن بخش دیگری بود که با بسیاری از مشکلات برای حل آن همراه بود. به عنوان مثال ، وی در کمال تعجب کشف کرد که وضوح DNS یک نقطه نسبتاً مکرر از شکست است. نوع URL مسئله دیگری بود ، جایی که وی مجبور شد هر URL را از خزیدن که از پروتکل HTTPS استفاده نمی کند ، مسدود کند.
اینها برخی از چالش ها بود:
“آنها باید HTTPS داشته باشند: پروتکل ، نه ftp :، داده ها: ، JavaScript: ، و غیره.
آنها باید یک ETLD و نام میزبان معتبر داشته باشند و نمی توانند درگاه ، نام کاربری یا رمزهای عبور داشته باشند.
کانونی سازی برای اختصاص دادن انجام می شود. همه مؤلفه ها درصد مشخص شده و سپس با حداقل یک کاراکتر سازگار دوباره رمزگذاری می شوند. پارامترهای پرس و جو کاهش یافته یا مرتب می شوند. منشأ پایین است.
برخی از URL ها بسیار طولانی هستند ، و شما می توانید در حد نادر مانند هدرهای HTTP و اندازه صفحه فهرست پایگاه داده قرار بگیرید.
برخی از URL ها همچنین شخصیت های عجیب و غریبی دارند که فکر نمی کنید در URL باشد ، اما توسط سیستمهایی مانند PostgreSQL و SQS در پایین دست رد می شود. “
انباره
در ابتدا ، ویلسون به دلیل کم هزینه انتقال داده ها (هزینه های خروج) Oracle Cloud را انتخاب کرد.
او توضیح داد:
وی گفت: “من در ابتدا به دلیل هزینه های بسیار کم آنها با 10 تن رایگان در هر ماه ، اوراکل ابر را برای نیازهای مادون قرمز انتخاب کردم. از آنجا که من داده های داده ها را ذخیره می کردم ، این اطمینان خاطر خوبی بود که اگر من نیاز به جابجایی یا صادرات داده ها (به عنوان مثال پردازش ، تهیه نسخه پشتیبان) ندارم ، در کیف پول خود سوراخی نخواهم داشت. مجموعه آنها نیز بسیار ارزان تر از ابرهای دیگر بود ، در حالی که هنوز هم”.
اما راه حل Oracle Cloud به مشکلات مقیاس بندی رسید. بنابراین او این پروژه را به PostgreSQL منتقل کرد ، مجموعه متفاوتی از مسائل فنی را تجربه کرد و سرانجام روی RocksDB فرود آمد که خوب کار کرد.
او توضیح داد:
وی گفت: “من یک مجموعه ثابت از 64 قطعه RocksDB را انتخاب کردم ، که عملیات و مسیریابی مشتری را ساده می کند ، ضمن اینکه ظرفیت توزیع کافی را برای آینده قابل پیش بینی فراهم می کند.
… در اوج خود ، این سیستم می تواند 200K در هر ثانیه در هزاران مشتری (خزنده ، تجزیه کننده ، وکتور کننده) بنویسد. هر صفحه وب نه تنها از منبع خام HTML ، بلکه داده های نرمال ، تکه های متنی ، صدها تعبیه ابعاد بالا و بسیاری از ابرداده ها نیز تشکیل شده است. “
GPU
ویلسون برای تولید تعبیه وکتور معنایی از محتوای وب خزنده با استفاده از مدل های ترانسفورماتور از استنتاج GPU استفاده کرد. او در ابتدا از تعبیه Openai از طریق API استفاده کرد ، اما با مقیاس پروژه گران شد. وی سپس با استفاده از GPU از شرکتی به نام RunPod به یک راه حل استنتاج خود میزبان تغییر یافت.
او توضیح داد:
وی گفت: “در جستجوی مقرون به صرفه ترین راه حل مقیاس پذیر ، من Runpod را کشف کردم ، که GPU های عملکردی در هر دلار مانند RTX 4090 را با نرخ بسیار ارزان تر در هر ساعت نسبت به AWS و Lambda ارائه می دهند. اینها از DC 3 ردیف با شبکه سریع پایدار و ظرفیت محاسبه قابل اعتماد بسیاری عمل می کردند.”
کمبود هرزنامه سئو
این مهندس نرم افزار ادعا کرد که موتور جستجوگر وی دارای هرزنامه جستجوی کمتری است و از نمونه پرس و جو “بهترین وبلاگ های برنامه نویسی” برای نشان دادن نظر خود استفاده کرده است. وی همچنین خاطرنشان کرد: موتور جستجوی وی می تواند نمایش داده های پیچیده را درک کند و به عنوان مثال وارد کردن یک پاراگراف کامل از محتوا و کشف مقاله های جالب در مورد موضوعات موجود در این بند.
چهار غذای آماده
ویلسون اکتشافات زیادی را ذکر کرد ، اما در اینجا چهار مورد وجود دارد که ممکن است مورد علاقه بازاریابان دیجیتال و ناشران علاقه مند به این سفر ایجاد موتور جستجو باشد:
1. اندازه شاخص مهم است
یکی از مهمترین راهپیمایی های ویلسون که از دو ماه از ساخت موتور جستجو آموخته است این است که اندازه شاخص جستجو مهم است زیرا به قول وی ، “پوشش کیفیت را تعریف می کند.” این است
2. خزیدن و فیلتر کردن سخت ترین مشکلات است
اگرچه خزیدن تا آنجا که ممکن است برای افزایش محتوای مفید مهم باشد ، ویلسون همچنین دریافت که فیلتر کردن محتوای با کیفیت پایین دشوار است زیرا نیاز به تعادل نیاز به کمیت در برابر بی معنی بودن خزیدن یک شبکه به ظاهر بی پایان از محتوای بی فایده یا ناخواسته دارد. وی فهمید که راهی برای فیلتر کردن محتوای بی فایده لازم است.
این در واقع مشکلی است که سرگئی برین و لری پیج با رتبه صفحه حل کردند. صفحه رتبه بندی صفحه رفتار کاربر ، انتخاب و آرای انسانهایی که صفحات وب را با پیوندها اعتبار می دهند. اگرچه رتبه صفحه تقریباً 30 سال قدمت دارد ، اما شهود اساسی امروز چنان مرتبط است که دفع موتور جستجوی AI از یک نسخه اصلاح شده از آن برای موتور جستجوی خود استفاده می کند.
3 محدودیت موتورهای جستجو در مقیاس کوچک
یکی دیگر از غذاهای آماده سازی که وی کشف کرد این است که محدودیت هایی برای موفقیت یک موتور جستجوی مستقل کوچک وجود دارد. ویلسون ناتوانی در خزیدن کل وب را به عنوان محدودیتی ذکر کرد که باعث ایجاد شکاف های پوشش می شود.
4. قضاوت در مورد اعتماد و اصالت در مقیاس پیچیده است
تعیین خودکار اصالت ، دقت و کیفیت در داده های بدون ساختار غیر مهم است
ویلسون می نویسد:
وی گفت: “تعیین اصالت ، اعتماد ، اصالت ، دقت و کیفیت به طور خودکار بی اهمیت نیست. … اگر شروع کردم ، بیشتر بر تحقیق و توسعه این جنبه تأکید می کردم.
بدنام ، موتورهای جستجو از هزاران سیگنال در صفحات رتبه بندی و فیلتر کردن استفاده می کنند ، اما من معتقدم که رویکردهای مبتنی بر ترانسفورماتور جدیدتر نسبت به ارزیابی محتوا و تجزیه و تحلیل پیوند باید ساده تر ، مقرون به صرفه تر و دقیق تر باشند. “
علاقه مند به امتحان موتور جستجو هستید؟ شما می توانید آن را در اینجا پیدا کنید و می توانید بخوانید که چگونه جزئیات فنی کامل نحوه انجام این کار در اینجا چگونه است.
تصویر برجسته توسط Shutterstock/Red Vector