مدل جدید بنیاد گراف Google اسپم را تا 40 برابر بهتر می گیرد
Google جزئیات نوع جدیدی از هوش مصنوعی را بر اساس نمودارهایی به نام یک مدل بنیاد نمودار (GFM) منتشر کرد که به نمودارهای قبلاً غیب تعمیم می یابد و سه تا چهل بار دقت بیشتری را نسبت به روشهای قبلی ارائه می دهد ، با آزمایش موفقیت آمیز در برنامه های مقیاس پذیر مانند تشخیص اسپم در تبلیغات.
اعلام این فناوری جدید به عنوان گسترش مرزهای آنچه تا امروز ممکن بوده است گفته می شود:
وی گفت: “امروز ، ما امکان طراحی یک مدل واحد را بررسی می کنیم که می تواند بر روی جداول رابطه ای به هم پیوسته تعالی داشته باشد و در عین حال به هر مجموعه دلخواه از جداول ، ویژگی ها و وظایف بدون آموزش اضافی تعمیم دهیم. ما هیجان زده هستیم تا پیشرفت های اخیر خود را در زمینه توسعه چنین مدلهای پایه نمودار (GFM) به اشتراک بگذاریم که به مرزهای یادگیری گراف و جدول ML خوب فراتر از پایه های استاندارد است.”
شبکه های عصبی نمودار در مقابل مدل های بنیاد نمودار
نمودارها بازنمایی از داده هایی هستند که به یکدیگر مربوط می شوند. اتصالات بین اشیاء لبه ها نامیده می شوند و خود اشیاء گره نامیده می شوند. در SEO ، می توان گفت که آشناترین نوع نمودار نمودار پیوند است که نقشه کل وب توسط پیوندهایی است که یک صفحه وب را به صفحه دیگر متصل می کند.
فناوری فعلی از شبکه های عصبی نمودار (GNN) برای نشان دادن داده هایی مانند محتوای صفحه وب استفاده می کند و می تواند برای شناسایی موضوع یک صفحه وب استفاده شود.
یک پست وبلاگ تحقیقاتی Google در مورد GNNS اهمیت آنها را توضیح می دهد:
“شبکه های عصبی نمودار ، یا GNN به طور خلاصه ، به عنوان یک تکنیک قدرتمند برای استفاده از اتصال نمودار (مانند الگوریتم های قدیمی DeepWalk و Node2Vec) و ویژگی های ورودی در گره ها و لبه های مختلف ظاهر شده اند. GNN ها می توانند پیش بینی های نمودارها را به عنوان یک کل انجام دهند (آیا این مولکول در یک روش خاص است؟)
جدای از پیش بینی در مورد نمودارها ، GNN ابزاری قدرتمند است که برای استفاده از شیاطین به موارد معمولی تر استفاده از شبکه عصبی استفاده می شود. آنها اطلاعات گسسته و رابطه ای گرافیکی را به صورت مداوم رمزگذاری می کنند تا بتوان به طور طبیعی در یک سیستم یادگیری عمیق دیگر گنجانده شد. “
نکته منفی GNN این است که آنها به نمادی که روی آنها آموزش دیده اند متصل می شوند و نمی توان در نوع دیگری از نمودار استفاده کرد. برای استفاده از آن در یک نمودار متفاوت ، Google مجبور است مدل دیگری را به طور خاص برای آن نمودار دیگر آموزش دهد.
برای ایجاد قیاس ، این مانند این است که فقط برای دستیابی به آن به زبان دیگری ، یک مدل جدید AI را در اسناد زبان فرانسه آموزش دهید ، اما این طور نیست زیرا LLM ها می توانند به زبانهای دیگر تعمیم دهند ، که این مورد برای مدل هایی که با نمودارها کار می کنند ، نیست. این مشکلی است که این اختراع حل می کند ، برای ایجاد مدلی که بدون نیاز به آموزش در ابتدا به آنها ، به نمودارهای دیگر تعمیم می یابد.
دستیابی به موفقیت که گوگل اعلام کرده است این است که با مدل های جدید بنیاد گراف ، Google اکنون می تواند مدلی را آموزش دهد که بتواند در نمودارهای جدیدی که در آن آموزش دیده نشده است تعمیم دهد و الگوهای و اتصالات موجود در آن نمودارها را درک کند. و می تواند این کار را سه تا چهل بار دقیق تر انجام دهد.
اعلامیه اما هیچ مقاله تحقیقاتی
اعلامیه Google به یک مقاله تحقیقاتی پیوند ندارد. گزارش شده است که گوگل تصمیم گرفته است مقالات تحقیقاتی کمتری را منتشر کند و این یک نمونه بزرگ از این تغییر سیاست است. آیا دلیلش این است که این نوآوری بسیار بزرگ است و می خواهند این را به عنوان یک مزیت رقابتی حفظ کنند؟
مدل های بنیاد گراف چگونه کار می کنند
در یک نمودار معمولی ، بیایید یک نمودار از اینترنت بگوییم ، صفحات وب گره ها هستند. پیوندهای بین گره ها (صفحات وب) لبه ها نامیده می شوند. در آن نوع نمودار ، می توانید شباهت هایی بین صفحات مشاهده کنید زیرا صفحات مربوط به یک موضوع خاص تمایل دارند که به سایر صفحات مربوط به همان موضوع خاص پیوند دهند.
از نظر بسیار ساده ، یک مدل پایه نمودار هر ردیف را در هر جدول به یک گره تبدیل می کند و گره های مرتبط را بر اساس روابط موجود در جداول متصل می کند. نتیجه یک نمودار بزرگ واحد است که مدل برای یادگیری از داده های موجود و پیش بینی (مانند شناسایی هرزنامه) در مورد داده های جدید استفاده می کند.
تصویر پنج جدول

تبدیل جداول به یک نمودار واحد
مقاله تحقیق در مورد تصاویر زیر آمده است که روند را نشان می دهد:
“آماده سازی داده ها شامل تبدیل جداول به یک نمودار واحد است ، جایی که هر ردیف یک جدول به گره ای از نوع گره مربوطه تبدیل می شود و ستون های کلید خارجی به لبه ها بین گره ها تبدیل می شوند. اتصالات بین پنج جدول نشان داده شده در نمودار حاصل به لبه تبدیل می شوند.”
تصاویر جداول تبدیل به لبه ها

آنچه این مدل جدید را استثنایی می کند این است که فرایند ایجاد آن “ساده” است و مقیاس آن است. بخشی از مقیاس گذاری مهم است زیرا این بدان معنی است که این اختراع قادر به کار در زیرساخت های عظیم گوگل است.
“ما استدلال می کنیم که استفاده از ساختار اتصال بین جداول برای الگوریتم های مؤثر ML و عملکرد بهتر پایین دست مهم است ، حتی اگر داده های ویژگی جدول (به عنوان مثال ، قیمت ، اندازه ، دسته) پراکنده یا پر سر و صدا باشد. برای این منظور ، تنها مرحله تهیه داده ها شامل تبدیل مجموعه ای از جداول به یک نمودار ناهمگن واحد است.
این روند کاملاً ساده است و می تواند در مقیاس اجرا شود: هر جدول به یک نوع گره منحصر به فرد تبدیل می شود و هر ردیف در یک جدول به یک گره تبدیل می شود. برای هر ردیف در یک جدول ، روابط کلیدی خارجی آن به لبه های تایپ شده به گره های مربوطه از جداول دیگر تبدیل می شود در حالی که بقیه ستون ها به عنوان ویژگی های گره (به طور معمول ، با مقادیر عددی یا طبقه بندی شده) رفتار می شوند. به صورت اختیاری ، ما همچنین می توانیم اطلاعات زمانی را به عنوان ویژگی های گره یا لبه حفظ کنیم. “
آزمون ها موفق هستند
اعلامیه گوگل می گوید که آنها آن را در شناسایی اسپم در تبلیغات Google آزمایش کردند ، که این کار دشوار بود زیرا این سیستمی است که از ده ها نمودار بزرگ استفاده می کند. سیستم های فعلی قادر به ایجاد ارتباط بین نمودارهای نامربوط و از دست دادن زمینه مهم نیستند.
مدل جدید بنیاد گراف Google قادر به ایجاد اتصالات بین همه نمودارها و عملکرد بهبود یافته بود.
در این اطلاعیه دستاورد:
“ما در مقایسه با بهترین خطوط تک جدول تنظیم شده ، عملکرد قابل توجهی را مشاهده می کنیم. بسته به کار پایین دست ، GFM سود 3x-40x را با دقت متوسط به ارمغان می آورد ، که نشان می دهد ساختار نمودار در جداول رابطه ای یک سیگنال مهم را فراهم می کند تا توسط مدل های ML اعمال شود.”
آیا گوگل از این سیستم استفاده می کند؟
نکته قابل توجه این است که Google با موفقیت سیستم را با Google Ads برای تشخیص هرزنامه آزمایش کرد و گزارش های فراز و نشیب و عدم وجود آن را گزارش نکرد. این بدان معنی است که می توان از آن در یک محیط زنده برای انواع کارهای در دنیای واقعی استفاده کرد. آنها از آن برای تشخیص Spam Google ADS استفاده کردند و به دلیل اینکه این یک مدل انعطاف پذیر است به این معنی که می توان از آن برای سایر کارهای استفاده شده برای استفاده از نمودارهای مختلف استفاده کرد ، از شناسایی مباحث محتوا تا شناسایی اسپم پیوند.
به طور معمول ، وقتی چیزی کوتاه می شود ، مقالات و اعلامیه های تحقیقاتی می گویند که این راه برای آینده است اما اینگونه نیست که این اختراع جدید ارائه می شود. این به عنوان یک موفقیت ارائه شده است و با بیانیه ای به پایان می رسد که می گوید این نتایج می تواند بیشتر بهبود یابد ، به این معنی که می تواند حتی بهتر از این نتایج جالب توجه باشد.
“این نتایج با مقیاس بندی اضافی و جمع آوری داده های آموزشی متنوع به همراه درک عمیق تر نظری از تعمیم می تواند بهبود یابد.”
اعلامیه Google را بخوانید:
مدل های بنیاد نمودار برای داده های رابطه ای
تصویر برجسته توسط Shutterstock/Sidorart