الگوریتم جدید Muvera Google جستجو را بهبود می بخشد


گوگل یک الگوریتم بازیابی چند جانب جدید به نام Muvera را اعلام کرد که سرعت بازیابی و رتبه بندی را سرعت می بخشد و دقت را بهبود می بخشد. از این الگوریتم می توان برای جستجو ، سیستم های توصیه کننده (مانند YouTube) و برای پردازش زبان طبیعی (NLP) استفاده کرد.

تعبیه کننده بردار در جستجو

تعبیه وکتور بازنمایی چند بعدی از روابط بین کلمات ، موضوعات و عبارات است. این دستگاه ها را قادر می سازد شباهت را از طریق الگوهای مانند کلماتی که در همان زمینه یا عباراتی ظاهر می شوند ، درک کنند که به معنای همان چیزها هستند. کلمات و عباراتی که مربوط به فضاهای اشغال هستند که به یکدیگر نزدیکتر هستند.

  • کلمات “پادشاه لیر” نزدیک به عبارت “تراژدی شکسپیر” خواهد بود.
  • کلمات “یک رویای شب میان تابستان” فضایی نزدیک به “کمدی شکسپیر” را اشغال می کند.
  • هر دو “پادشاه لیر” و “رویای شب میان تابستان” در فضایی نزدیک به شکسپیر قرار دارند.

فاصله بین کلمات ، عبارات و مفاهیم (از لحاظ فنی اندازه گیری شباهت ریاضی) تعریف می کند که هر یک از نزدیک با دیگری ارتباط نزدیکی دارد. این الگوهای یک دستگاه را قادر می سازد تا شباهت های بین آنها را استنباط کند.

Muvera مشکل ذاتی تعبیه چند بردار را حل می کند

در مقاله تحقیقاتی Muvera آمده است که تعبیه های عصبی به مدت ده سال از ویژگی های بازیابی اطلاعات بوده و مقاله تحقیقاتی مدل چند وکتور Colbert را از سال 2020 به عنوان یک دستیابی به موفقیت ذکر می کند ، اما می گوید که از یک تنگنا رنج می برد که باعث می شود کمتر از ایده آل باشد.

“به تازگی ، با شروع مقاله Colbert ، مدل های چند بردار ، که مجموعه ای از تعبیه در هر نقطه داده را تولید می کنند ، عملکرد قابل توجهی برتر برای کارهای IR به دست آورده اند. متأسفانه ، استفاده از این مدل ها برای IR به دلیل افزایش پیچیدگی بازیابی چند بردار و به ثمر رساندن ، از نظر محاسباتی گران است.”

اعلامیه گوگل از موروا این موارد را از بین می برد:

“… پیشرفت های اخیر ، به ویژه معرفی مدل های چند جانبی مانند کلبرت ، عملکرد قابل توجهی را در کارهای IR نشان داده است. در حالی که این رویکرد چند بردار باعث افزایش دقت می شود و بازیابی اسناد مرتبط را امکان پذیر می کند ، به ویژه ، افزایش تعداد تعبیه ها و پیچیدگی از نماد شباهت چند منظوره قابل توجه است.

آیا می تواند جانشین فناوری Rankembed Google باشد؟

دادخواست ضد انحصاری وزارت دادگستری ایالات متحده (DOJ) منجر به شهادت شد که نشان داد یکی از سیگنال های مورد استفاده برای ایجاد صفحات نتایج موتور جستجو (SERP) به نام Rankembed نامیده می شود که مانند این شرح داده شده است:

“Rankembed یک مدل رمزگذار دوگانه است که هم پرس و جو و هم در فضای تعبیه شده را تعبیه می کند. جاسازی فضای خاصیت معنایی پرس و جو و مستند را علاوه بر سایر سیگنال ها در نظر می گیرد. بازیابی و رتبه بندی سپس یک محصول نقطه ای است (اندازه گیری فاصله در فضای تعبیه) … بسیار سریع ؛ در پرس و جوهای مشترک اما می تواند برای نمایش های دوده ای ضعیف عمل کند …”

Muvera یک پیشرفت فنی است که به محدودیت های عملکرد و مقیاس بندی سیستم های چند بردار می پردازد ، که خود گامی فراتر از مدل های دوگانه رمزگذار (مانند Rankembed) است و عمق معنایی بیشتری و عملکرد عملکرد پرس و جو را فراهم می کند.

دستیابی به موفقیت تکنیکی به نام رمزگذاری ابعادی ثابت (FDE) است که فضای تعبیه را به بخش ها تقسیم می کند و بردارهایی را که در هر بخش قرار می گیرند ترکیب می کند تا یک بردار با طول ثابت ایجاد کند و باعث می شود سریعتر از مقایسه بردارهای مختلف جستجو شود. این اجازه می دهد تا از مدل های چند بردار به طور مؤثر در مقیاس استفاده شود و سرعت بازیابی را بدون قربانی کردن صحت ناشی از نمایش معنایی غنی تر بهبود می بخشد.

طبق اعلامیه:

“بر خلاف تعبیه های تک بردگر ، مدل های چند بردار هر نقطه داده را با مجموعه ای از تعبیه ها نشان می دهند و از توابع شباهت پیچیده تری استفاده می کنند که می توانند روابط غنی تری بین داده ها به دست آورند.

در حالی که این رویکرد چند بردار دقت را افزایش می دهد و بازیابی اسناد مرتبط تر را امکان پذیر می کند ، چالش های محاسباتی قابل توجهی را معرفی می کند. به طور خاص ، افزایش تعداد تعبیه ها و پیچیدگی نمره دهی شباهت چند بردار ، بازیابی را به طور قابل توجهی گران تر می کند.

در ‘Muvera: بازیابی چند بردار از طریق رمزگذاری های بعدی ثابت ، ما یک الگوریتم بازیابی چند وکتور جدید را معرفی می کنیم که برای ایجاد شکاف بهره وری بین بازیابی تک و چند وکتور طراحی شده است.

… این رویکرد جدید به ما امکان می دهد تا از الگوریتم های بسیار بهینه شده MIPS استفاده کنیم تا مجموعه ای از نامزدها را بازیابی کنیم که می توانند با شباهت دقیق چند بردار دوباره جمع شوند ، از این طریق امکان بازیابی کارآمد چند بردار را بدون قربانی کردن دقت فراهم می کنیم. “

مدل های چند بردار می توانند پاسخ های دقیق تری نسبت به مدل های دوگانه رمزگذار ارائه دهند اما این دقت با هزینه تقاضای محاسباتی فشرده ارائه می شود. Muvera مسائل پیچیدگی مدل های چند بردار را حل می کند ، در نتیجه راهی برای دستیابی به دقت بیشتر رویکردهای چند وکتور بدون تقاضای محاسبات بالا ایجاد می کند.

این برای سئو چیست؟

Muvera نشان می دهد که چگونه رتبه بندی جستجوی مدرن به طور فزاینده به جای سیگنال های کلمات کلیدی قدیمی که ابزارهای SEO و SEO ها روی آن متمرکز هستند ، به قضاوت شباهت بستگی دارد. SEO و ناشران ممکن است بخواهند توجه خود را از تطبیق عبارت دقیق با هماهنگی با زمینه و هدف کلی پرس و جو تغییر دهند. به عنوان مثال ، هنگامی که شخصی به جستجوی “کاپشن های Corduroy Mender” می پردازد ، سیستمی با استفاده از بازیابی مانند Muvera به احتمال زیاد صفحاتی را ارائه می دهد که در واقع آن محصولات را ارائه می دهند ، نه صفحاتی که به سادگی از “کاپشن های Corduroy” یاد می کنند و کلمه “متوسط” را در تلاش برای مطابقت با پرس و جو درج می کنند.

اعلامیه Google را بخوانید:

Muvera: انجام بازیابی چند جانبی به همان سرعتی که به دنبال جستجوی تک بردار است

تصویر برجسته توسط Shutterstock/Bluestork



منبع

مطالب مرتبط