اعتبار تحقیقات پیو در نتایج جستجوی Google AI به چالش کشیده شده است


سؤالات مربوط به روش مورد استفاده مرکز تحقیقات پیو حاکی از آن است که نتیجه گیری آن در مورد خلاصه هوش مصنوعی گوگل ممکن است ناقص باشد. حقایق در مورد چگونگی ایجاد خلاصه هوش مصنوعی ، اندازه نمونه و قابلیت اطمینان آماری اعتبار نتایج را به چالش می کشد.

بیانیه رسمی گوگل

سخنگوی Google با بیانیه رسمی و بحث در مورد اینکه چرا یافته های تحقیق PEW منعکس کننده الگوهای تعامل واقعی کاربر مربوط به خلاصه AI و جستجوی استاندارد نیست ، دست یافت.

نکات اصلی رد گوگل عبارتند از:

  • کاربران به طور فزاینده ای به دنبال ویژگی های AI هستند
  • آنها سوالات بیشتری می پرسند
  • روند استفاده هوش مصنوعی باعث افزایش دید برای سازندگان محتوا می شود.
  • تحقیقات پیو از روش ناقص استفاده شده است.

Google به اشتراک گذاشته شده:

وی گفت: “مردم به تجربیات دارای هوش مصنوعی گرایش می یابند ، و ویژگی های هوش مصنوعی در جستجوی افراد را قادر می سازد تا حتی سؤالات بیشتری را بپرسند و فرصت های جدیدی را برای افراد برای ارتباط با وب سایت ها ایجاد می کنند.

در این مطالعه از یک روش ناقص و پرس و جو خاردار استفاده شده است که نماینده ترافیک جستجو نیست. ما روزانه میلیاردها کلیک را به وب سایت ها هدایت می کنیم و همانطور که پیشنهاد می شود ، قطره های قابل توجهی در ترافیک کل وب مشاهده نکرده ایم. “

اندازه نمونه خیلی کم است

من در مورد تحقیقات پیو با Duane Forrester (قبلاً از بینگ ، پروفایل LinkedIn) بحث کردم و وی پیشنهاد کرد که اندازه نمونه برداری این تحقیق برای معنی دار بودن بسیار کم است (900+ بزرگسال و 66،000 پرس و جو جستجو). Duane نظر زیر را به اشتراک گذاشت:

وی گفت: “از تقریباً 500 میلیارد پرس و جو در ماه در Google و آنها بر اساس اندازه نمونه 0.0000134 ٪ (66،000+ پرس و جو) در حال استخراج هستند ، این یک نمونه بسیار کوچک است.

نه نشان نمی دهد که 66000 مورد از چیزی بی نتیجه است ، اما در متن حجم نمایش داده شدگان در هر ماه ، روز ، ساعت یا دقیقه اتفاق می افتد ، از نظر فنی بسیار خطای گرد نیست و آیا مطالعه من است ، من مجبور هستم که چقدر اندازه نمونه بسیار کم است و ممکن است واقعاً نمایانگر دنیای واقعی نباشد. “

آمار مرکز پیو چقدر قابل اعتماد است؟

صفحه متدولوژی برای آمار مورد استفاده قرار گرفت که آمار برای گروههای سنی زیر چقدر قابل اعتماد است:

  • در سنین 18-29 سال در امتیاز به علاوه/منهای 13.7 درصد امتیاز قرار گرفت. این به عنوان سطح پایین قابلیت اطمینان است.
  • در سنین 30-49 سال در امتیاز به علاوه/منهای 7.9 درصد قرار گرفتند. این در رده های متوسط ، تا حدودی قابل اعتماد ، اما هنوز هم یک طیف نسبتاً گسترده است.
  • در سنین 50-64 سال در امتیاز به علاوه/منهای 8.9 درصد امتیاز قرار گرفت. این به عنوان یک سطح متوسط تا پایین از قابلیت اطمینان است.
  • سن 65+ در رده بندی به علاوه/منهای 10.2 درصد امتیاز قرار گرفتند که کاملاً در دامنه پایداری پایین است.

نمرات قابلیت اطمینان فوق از صفحه روش Pew Research است. به طور کلی ، همه این نتایج دارای حاشیه خطای بالایی هستند و آنها را از نظر آماری غیرقابل اعتماد می کند. در بهترین حالت ، آنها باید به عنوان تخمین های خشن تلقی شوند ، اگرچه همانطور که Duane می گوید ، اندازه نمونه آنقدر کم است که توجیه آن به عنوان منعکس کننده نتایج دنیای واقعی دشوار است.

نتایج تحقیق پیو در ماه های مختلف نتایج را مقایسه می کند

پس از فکر کردن در مورد آن یک شبه و مرور روش شناسی ، جنبه ای از روش تحقیق پیو که برجسته است این است که آنها نمایش داده های جستجوی واقعی کاربران را در ماه مارس با همان سؤالات محققان انجام شده در یک هفته در ماه آوریل مقایسه کردند.

این مشکل ساز است زیرا خلاصه های هوش مصنوعی Google از ماه به ماه تغییر می کند. به عنوان مثال ، انواع پرس و جو که باعث ایجاد یک نمای کلی AI می شوند ، با AIOS برای برخی از سوله ها برجسته تر می شوند و برای سایر موضوعات کمتر. علاوه بر این ، روند کاربر ممکن است آنچه را که در آن جستجو می شود تأثیر بگذارد و به خودی خود می تواند باعث بروزرسانی موقت الگوریتم های جستجو شود که فیلم ها و اخبار را در اولویت قرار می دهد.

نکته جالب این است که مقایسه نتایج جستجو از ماههای مختلف برای جستجوی استاندارد و خلاصه های هوش مصنوعی مشکل ساز است.

تحقیقات پیو نادیده می گیرد که نتایج جستجوی هوش مصنوعی پویا است

با توجه به نمای کلی و خلاصه های هوش مصنوعی ، اینها حتی پویاتر هستند ، منوط به تغییر نه تنها برای هر کاربر بلکه برای همان کاربر.

جستجوی یک پرس و جو در نمای کلی AI و سپس تکرار پرس و جو در یک مرورگر کاملاً متفاوت منجر به خلاصه هوش مصنوعی متفاوت و مجموعه ای از پیوندها کاملاً متفاوت خواهد شد.

نکته این است که روش مرکز تحقیقات Pew که در آن آنها یک ماه بعد نمایش داده های کاربر را با نمایش داده های خراشیده مقایسه می کنند ، ناقص است زیرا دو مجموعه پرس و جو و نتایج را نمی توان مقایسه کرد ، هر یک به دلیل زمان ، به روزرسانی ها و ماهیت پویا خلاصه AI ، ذاتاً متفاوت هستند.

تصاویر زیر پیوندهایی است که برای پرس و جو نشان داده شده است ، آموزش RLHF در Openai چیست؟

Google AIO از طریق مرورگر Vivaldi

تصویر پیوندهایی به خدمات وب آمازون ، فناوری متوسط و KILI نشان می دهد

Google AIO از طریق مرورگر Chrome Canary

تصاویر پیوندهایی را به Openai ، Arize Ai و بغل کردن صورت نشان می دهد

نه تنها پیوندها در سمت راست متفاوت هستند ، محتوای خلاصه هوش مصنوعی و پیوندهای تعبیه شده در آن محتوا نیز متفاوت هستند.

آیا می تواند به همین دلیل ناشران ترافیک متناقض را ببینند؟

ناشران و SEO ها برای نتایج جستجو برای یک پرس و جو جستجوی معین برای موقعیت های رتبه بندی استاتیک استفاده می شوند. اما نمای کلی AI Google و حالت AI نتایج جستجوی پویا را نشان می دهد. محتوای موجود در نتایج جستجو و پیوندهایی که نشان داده می شوند پویا هستند و طیف گسترده ای از سایت ها را در سه موقعیت برتر برای همان سؤالات نشان می دهد. SEO و ناشران از Google خواسته اند تا طیف گسترده ای از وب سایت ها را نشان دهند و ظاهراً آنچه ویژگی های هوش مصنوعی Google انجام می دهد ، است. آیا این مورد مراقب آنچه می خواهید باشید؟

تصویر برجسته توسط Shutterstock/Stokkete



منبع

مطالب مرتبط