الگوریتم نوع کار محلی Google در مقاله تحقیق به تفصیل


Google یک مقاله تحقیقاتی منتشر کرد که توضیح می دهد که چگونه اطلاعات “خدمات ارائه شده” را از سایت های تجاری محلی برای اضافه کردن آن به پروفایل های تجاری در نقشه های Google و جستجو اضافه می کند. این الگوریتم عوامل ارتباط خاص را توصیف می کند و تأیید می کند که این سیستم برای یک سال با موفقیت در حال استفاده بوده است.

آنچه این مقاله تحقیقاتی را به ویژه قابل توجه می کند این است که یکی از نویسندگان ، مارک نجورک ، دانشمند تحقیقاتی برجسته در گوگل است که در بازیابی اطلاعات ، پردازش زبان طبیعی و هوش مصنوعی با بسیاری از نقاط عطف همراه است.

هدف از این سیستم این است که کاربران را برای یافتن مشاغل محلی که خدمات مورد نظر خود را ارائه می دهند ، برای کاربران آسانتر کند. این مقاله در سال 2024 (طبق بایگانی اینترنت) منتشر شده و مورخ 2023 است.

مقاله تحقیق توضیح می دهد:

“… برای کاهش تلاش کاربر ، ما یک خط لوله را برای استخراج خودکار انواع کار از وب سایت های تجاری تهیه و مستقر کردیم. به عنوان مثال ، اگر یک صفحه وب متعلق به یک تجارت لوله کشی بیان می کند:” ما سرویس نصب توالت و تعمیر شیر آب را ارائه می دهیم “، خط لوله ما نصب توالت و تعمیر شیر آب را به عنوان انواع کار برای این تجارت می کند.”

این سیستم از برت استفاده می کند

Google از مدل زبان BERT برای طبقه بندی اینکه آیا عبارات استخراج شده از وب سایت های تجاری انواع کار واقعی را توصیف می کنند ، استفاده کرد. BERT بر روی نمونه های دارای برچسب تنظیم شده و زمینه های اضافی مانند ساختار وب سایت ، الگوهای URL و دسته تجاری برای بهبود دقت بدون قربانی کردن مقیاس پذیری ، تنظیم شده است.

توسعه یک سیستم جستجوی محلی

اولین قدم برای ایجاد سیستمی برای خزیدن و استخراج اطلاعات نوع شغلی ایجاد داده های آموزشی از ابتدا بود. آنها میلیاردها صفحه خانه را انتخاب کردند که در پروفایل های تجاری Google ذکر شده و اطلاعات مربوط به نوع کار را از جداول و لیست های فرمت شده در صفحات خانه یا صفحات که یک کلیک از صفحات خانه دور بودند ، استخراج کردند. این داده های نوع شغلی به مجموعه بذر انواع شغلی تبدیل شد.

از داده های نوع شغلی استخراج شده به عنوان پرس و جو جستجو استفاده شده است ، با گسترش پرس و جو (مترادف) برای گسترش لیست انواع شغلی که شامل کلیه تغییرات احتمالی عبارات کلمه کلیدی از نوع شغلی است ، افزایش یافته است.

مرحله دوم: رفع مشکل ارتباط

محققان گوگل سیستم خود را در میلیاردها صفحه به کار بردند و همانطور که در نظر گرفته شده بود کار نمی کردند زیرا بسیاری از صفحات دارای عبارات نوع شغلی بودند که توصیف خدمات ارائه شده را نداشتند.

مقاله تحقیق توضیح می دهد:

“ما دریافتیم که بسیاری از صفحات نام نوع شغلی را برای اهداف دیگر مانند ارائه نکات مربوط به زندگی ذکر می کنند. به عنوان مثال ، یک صفحه وب که به خوانندگان می آموزد که با اشکالات تختخوابی مقابله کنند ممکن است حاوی جمله ای مانند راه حل باشد ، این است که اگر در خانه خود اشکالات تختخواب را پیدا کنید ، در صورتی که در خانه خود پیدا می کنید. آنها معمولاً خدماتی مانند کنترل اشکال را ارائه می دهند. اگرچه این صفحه نام های مختلف را ذکر می کند ، صفحه توسط یک تجارت تمیز کردن خانه ارائه نمی شود.”

محدود کردن خزیدن و نمایه سازی برای شناسایی عبارات کلمه کلیدی نوع شغل منجر به مثبت کاذب شد. راه حل این بود که جملاتی را که عبارات کلمه کلیدی را احاطه کرده اند ، درج شود تا آنها بتوانند زمینه عبارات کلمه کلیدی نوع کار را بهتر درک کنند.

موفقیت استفاده از متن اطراف توضیح داده شده است:

“همانطور که در جدول 2 نشان داده شده است ، JobModelsurnound عملکرد قابل توجهی بهتر از روش کار دارد ، که نشان می دهد کلمات اطراف می توانند هدف از ذکر نوع شغل بذر را توضیح دهند. این با موفقیت درک معنایی را بدون پردازش کل متن هر صفحه بهبود می بخشد و مدلهای ما را کارآمد نگه می دارد.”

بینش سئو
الگوریتم جستجوی محلی توصیف شده عمداً تمام اطلاعات موجود در صفحه را حذف می کند و در اصطلاحات کلمه کلیدی نوع کار و کلمات و عبارات اطراف آن کلمات کلیدی صفر می شود. این نشان می دهد که اهمیت چگونه کلمات پیرامون عبارات کلمه کلیدی مهم می توانند زمینه ای را برای عبارات کلمه کلیدی فراهم کنند و برای خزندگان Google آسانتر شوند تا درک کنند که صفحه بدون نیاز به پردازش کل صفحه وب چیست.

بینش سئو
بینش دیگر این است که Google برای هدف محدود شناسایی عبارات کلمه کلیدی نوع شغل ، کل صفحه وب را نمایه نمی کند. این الگوریتم در حال شکار عبارت کلمات کلیدی و عبارات کلمات کلیدی اطراف آن است.

بینش سئو
مفهوم تجزیه و تحلیل تنها بخشی از یک صفحه شبیه به حاشیه نویسی محور Google است که در آن بخشی از محتوا به عنوان موضوع اصلی صفحه شناخته می شود. من نمی گویم اینها مرتبط هستند. من فقط در بسیاری از مواردی که یک الگوریتم Google در یک بخش از یک صفحه قرار دارد ، فقط به یک ویژگی اشاره می کنم.

سیستم استخراج را می توان در زمینه های دیگر تعمیم داد

یک یافته جالب که توسط مقاله تحقیق به تفصیل ارائه شده است این است که سیستمی که آنها ایجاد کرده اند می تواند در مناطق (دامنه ها) غیر از مشاغل محلی استفاده شود ، مانند “یافتن تخصص ، استخراج اطلاعات قانونی و پزشکی”.

آنها می نویسند:

وی گفت: “درسهایی که ما در توسعه خط لوله استخراج بزرگ از ابتدا به اشتراک گذاشتیم می تواند به سایر استخراج اطلاعات یا وظایف یادگیری ماشین تعمیم دهد. آنها کاربردهای مستقیمی برای کارهای استخراج خاص حوزه دارند ، که نمونه آن با یافتن تخصص ، استخراج اطلاعات قانونی و پزشکی است.

سه درس مهم عبارتند از:

(1) استفاده از خصوصیات داده مانند محتوای ساختار یافته می تواند مشکل شروع سرما حاشیه نویسی داده ها را کاهش دهد.

(2) تدوین کار به عنوان یک مشکل بازیابی می تواند به محققان و پزشکان کمک کند تا با یک مجموعه داده بزرگ مقابله کنند.

(3) اطلاعات زمینه می تواند کیفیت مدل را بدون قربانی کردن مقیاس پذیری آن بهبود بخشد. “

عصاره نوع شغلی یک موفقیت است

در مقاله تحقیق آمده است که سیستم آنها موفقیت آمیز است ، از دقت (دقت) بالایی برخوردار است و مقیاس پذیر است. در مقاله تحقیق آمده است که قبلاً یک سال در حال استفاده است. این تحقیق مورخ 2023 است اما طبق بایگانی اینترنت (ماشین Wayback) ، این در ژوئیه 2024 منتشر شد.

محققان می نویسند:

“خط لوله ما به صورت دوره ای برای به روزرسانی محتوای استخراج شده اجرا می شود. در حال حاضر در تولید مستقر شده است ، و انواع کار خروجی به میلیون ها کاربر جستجوی Google و نقشه ها ظاهر می شود.”

پیشخدمت

  • الگوریتم گوگل که انواع کار را از صفحات وب استخراج می کند
    Google الگوریتمی را تهیه کرد که “انواع کار” (یعنی خدمات ارائه شده) را از وب سایت های تجاری برای نمایش در Google Maps و Search استخراج می کند.
  • عصاره خط لوله از محتوای بدون ساختار
    این الگوریتم به جای تکیه بر عناصر HTML ساختار یافته ، محتوای متن متن را می خواند و حتی در صورت دفن خدمات در پاراگراف ، آن را مؤثر می کند.
  • ارتباط متنی مهم است
    این سیستم کلمات اطراف را ارزیابی می کند تا تأیید کند که شرایط مرتبط با خدمات در واقع مربوط به تجارت است و باعث بهبود دقت می شود.
  • پتانسیل عمومی سازی مدل
    این رویکرد می تواند در زمینه های دیگر مانند استخراج اطلاعات قانونی یا پزشکی اعمال شود و نشان می دهد که چگونه می توان آن را برای سایر دانش ها اعمال کرد.
  • دقت و مقیاس پذیری بالا
    این سیستم بیش از یک سال مستقر شده است و نتایج مقیاس پذیر و با دقت بالا را در بین میلیاردها صفحه وب ارائه می دهد.

Google یک مقاله تحقیقاتی در مورد الگوریتمی منتشر کرد که به طور خودکار توضیحات خدمات را از وب سایت های تجاری محلی با تجزیه و تحلیل عبارات کلمات کلیدی و زمینه اطراف آنها استخراج می کند و لیست های دقیق تر و به روز در نقشه های Google و جستجو را امکان پذیر می کند. این تکنیک از وابستگی به ساختار HTML جلوگیری می کند و می تواند برای استفاده در صنایع دیگر که در آن استخراج اطلاعات از متن بدون ساختار مورد نیاز است ، سازگار شود.

مقاله تحقیق را چکیده و نسخه PDF را در اینجا بارگیری کنید:

استخراج نوع شغلی برای مشاغل خدماتی

تصویر برجسته توسط استودیوی Shutterstock/Vidi



منبع

مطالب مرتبط