محققان گوگل با سیگنال “زمینه کافی” پارچه را بهبود می بخشند
محققان Google با تقویت توانایی مدل های تولید شده توسط بازیابی (RAG) در تشخیص وقتی که اطلاعات بازیابی فاقد زمینه کافی برای پاسخ به پرس و جو هستند ، روشی را برای بهبود جستجوی هوش مصنوعی و دستیاران معرفی کردند. در صورت اجرای ، این یافته ها می تواند به پاسخ های تولید شده AI کمک کند تا از تکیه بر اطلاعات ناقص و بهبود قابلیت اطمینان پاسخ جلوگیری کنند. این تغییر همچنین ممکن است ناشران را به ایجاد محتوا با زمینه کافی ترغیب کند و صفحات آنها را برای پاسخ های تولید شده AI مفیدتر کند.
تحقیقات آنها نشان می دهد که مدلهایی مانند Gemini و GPT اغلب سعی می کنند به سؤالات پاسخ دهند وقتی داده های بازیابی شده حاوی زمینه کافی نیستند و به جای پرهیز از توهم منجر به توهم می شوند. برای پرداختن به این موضوع ، آنها با کمک به LLM ها ، سیستمی را برای کاهش توهم ایجاد کردند تا در هنگام بازیابی محتوای کافی برای پشتیبانی از یک پاسخ ، اطلاعات کافی را نشان دهند.
سیستم های نسل (RAG) بازیابی (RAG) LLM ها را با زمینه خارجی تقویت می کنند تا دقت پاسخ را بهبود بخشند ، اما توهم هنوز هم اتفاق می افتد. به وضوح درک نشده است که آیا این توهمات ناشی از سوء تفسیر LLM است یا از زمینه بازیابی ناکافی. مقاله تحقیق مفهوم زمینه کافی را معرفی می کند و روشی را برای تعیین اطلاعات کافی برای پاسخ به یک سؤال توصیف می کند.
تجزیه و تحلیل آنها نشان داد که مدلهای اختصاصی مانند جمینی ، GPT و کلود تمایل دارند در صورت ارائه زمینه کافی ، پاسخ های صحیح ارائه دهند. با این حال ، هنگامی که زمینه کافی نیست ، آنها گاهی به جای ممتنع توهم می شوند ، اما به درستی 35-65 ٪ از زمان نیز پاسخ می دهند. این کشف آخر چالش دیگری را اضافه می کند: دانستن اینکه چه موقع باید برای مجبور کردن ممتنع (پاسخ ندهید) و چه موقع به مدل اعتماد کنید تا آن را به درستی اعتماد کنید.
تعریف زمینه کافی
محققان زمینه کافی را به این معنی تعریف می کنند که اطلاعات بازیابی شده (از RAG) شامل تمام جزئیات لازم برای به دست آوردن یک پاسخ صحیح است. طبقه بندی که چیزی حاوی زمینه کافی است ، نیازی به پاسخ تأیید شده ندارد. این فقط ارزیابی می کند که آیا یک پاسخ می تواند به طور محتمل از محتوای ارائه شده حاصل شود.
این بدان معنی است که طبقه بندی تأیید صحت نیست. این ارزیابی می کند که آیا اطلاعات بازیابی شده پایه و اساس معقولی برای پاسخ به پرس و جو فراهم می کند.
زمینه کافی به این معنی است که اطلاعات بازیابی شده ناقص ، گمراه کننده یا از دست دادن جزئیات مهم مورد نیاز برای ساختن یک پاسخ است.
autorater متن کافی
Autorater Context Context یک سیستم مبتنی بر LLM است که جفت های متن پرس و جو را به عنوان داشتن زمینه کافی یا ناکافی طبقه بندی می کند. بهترین مدل Autorater با عملکرد Gemini 1.5 Pro (1-SHOT) ، دستیابی به میزان دقت 93 ٪ ، از مدل ها و روش های دیگر بهتر است.
کاهش توهم با نسل انتخابی
محققان دریافتند که پاسخ های LLM مبتنی بر RAG می توانند به درستی به سؤالات 35-62 ٪ از زمانی پاسخ دهند که داده های بازیابی شده زمینه کافی ندارند. این بدان معنی است که زمینه کافی همیشه برای بهبود دقت لازم نبود زیرا مدل ها قادر به بازگشت جواب درست بدون آن 35-62 ٪ از زمان بودند.
آنها از کشف خود در مورد این رفتار برای ایجاد یک روش تولیدی انتخابی استفاده کردند که از نمرات اعتماد به نفس و سیگنال های متن کافی استفاده می کند تا تصمیم بگیرد چه موقع جواب تولید می کند و چه موقع پرهیز می شود (برای جلوگیری از اظهارات نادرست و توهم).
نمرات اعتماد به نفس احتمالات خود امتیاز است که پاسخ صحیح است. این امر به تعادل بین اجازه دادن به LLM می تواند به یک سؤال پاسخ دهد که اطمینان بیشتری وجود داشته باشد ، صحیح است و در عین حال مداخله ای را نیز دریافت می کند که در صورت وجود زمینه کافی یا کافی برای پاسخ به یک سؤال ، برای افزایش بیشتر دقت وجود دارد.
محققان نحوه عملکرد آن را توصیف می کنند:
“… ما از این سیگنال ها برای آموزش یک مدل خطی ساده برای پیش بینی توهم استفاده می کنیم ، و سپس از آن برای تعیین آستانه های تجارت با دقت پوشش استفاده می کنیم.
این مکانیسم با سایر استراتژی ها برای بهبود ممتنع به دو روش مهم متفاوت است. اول ، از آنجا که به طور مستقل از نسل فعالیت می کند ، اثرات ناخواسته پایین دست را کاهش می دهد … دوم ، یک مکانیزم قابل کنترل برای تنظیم ممتنع را ارائه می دهد ، که امکان تنظیمات عملیاتی مختلف را در برنامه های مختلف ، مانند رعایت دقت دقیق در حوزه های پزشکی یا حداکثر پوشش در کارهای نسل خلاق فراهم می کند. “
پیشخدمت
قبل از اینکه کسی ادعا کند که کفایت زمینه یک عامل رتبه بندی است ، لازم به ذکر است که مقاله تحقیق بیان نمی کند که هوش مصنوعی همیشه صفحات ساختاری خوب را در اولویت قرار می دهد. کفایت زمینه یکی از عوامل است ، اما با این روش خاص ، نمرات اعتماد به نفس همچنین با مداخله در تصمیمات ممتنع ، بر پاسخ های تولید شده توسط AI تأثیر می گذارد. آستانه های ممتنع بر اساس این سیگنال ها به صورت پویا تنظیم می شوند ، این بدان معنی است که اگر اعتماد به نفس و کفایت هر دو کم باشد ، ممکن است پاسخ ندهد.
در حالی که صفحات با اطلاعات کامل و ساختار یافته به احتمال زیاد حاوی زمینه کافی هستند ، عوامل دیگری مانند چگونگی انتخاب AI و رتبه بندی اطلاعات مربوطه ، سیستمی که تعیین می کند کدام منابع بازیابی می شوند و چگونه LLM آموزش داده می شود نیز نقش دارد. شما نمی توانید یک عامل را بدون در نظر گرفتن سیستم وسیع تر که تعیین می کند چگونه AI را بازیابی و تولید می کند ، منزوی کنید.
اگر این روشها به یک دستیار هوش مصنوعی یا چت بابات اجرا شوند ، می تواند منجر به پاسخ های تولید شده AI شود که به طور فزاینده ای به صفحات وب متکی هستند که اطلاعات کامل و ساختاری را ارائه می دهند ، زیرا این موارد به احتمال زیاد حاوی زمینه کافی برای پاسخ به یک پرس و جو هستند. نکته اصلی ارائه اطلاعات کافی در یک منبع واحد است تا جواب بدون نیاز به تحقیقات اضافی معقول شود.
صفحات با زمینه کافی چیست؟
- فاقد جزئیات کافی برای پاسخ به یک پرس و جو
- گمراه کننده
- ناقص
- متناقض
- اطلاعات ناقص
- محتوا به دانش قبلی نیاز دارد
اطلاعات لازم برای تکمیل پاسخ به جای ارائه در یک پاسخ یکپارچه ، در بخش های مختلف پراکنده است.
دستورالعمل های رأی دهندگان کیفیت شخص ثالث گوگل (QRG) مفاهیمی دارد که مشابه کفایت زمینه است. به عنوان مثال ، QRG صفحات با کیفیت پایین را به عنوان آنهایی که به هدف خود نرسند ، تعریف می کند زیرا آنها نمی توانند پیشینه ، جزئیات یا اطلاعات مربوطه را برای موضوع ارائه دهند.
معابر از دستورالعمل های RATERS با کیفیت:
“صفحات با کیفیت پایین به خوبی به هدف خود دست نمی یابند زیرا در یک بعد مهم وجود ندارند یا جنبه مشکل ساز دارند”
“صفحه ای با عنوان” چند سانتی متر در یک متر است؟ ” با مقدار زیادی محتوای خارج از موضوعی و غیرمستقیم به گونه ای که مقدار بسیار کمی از اطلاعات مفید پیدا شود. “
“یک صفحه آموزش صنایع دستی با دستورالعمل هایی در مورد چگونگی ساخت یک کاردستی اساسی و تعداد زیادی از” پرکننده “های بی فایده در بالا ، مانند حقایق رایج در مورد منابع مورد نیاز یا سایر اطلاعات غیر سازنده.”
“… مقدار زیادی از” پرکننده “یا محتوای بی معنی …”
حتی اگر نمای کلی Gemini یا AI Google اختراعات موجود در این مقاله را اجرا نکنند ، بسیاری از مفاهیم شرح داده شده در آن دارای آنالوگ در دستورالعمل های Rater با کیفیت Google هستند که خودشان مفاهیم مربوط به صفحات وب با کیفیت بالا را توصیف می کنند که SEO و ناشران که می خواهند رتبه بندی کنند باید درونی باشند.
مقاله تحقیق را بخوانید:
زمینه کافی: یک لنز جدید در مورد سیستم های تولید تقویت شده بازیابی
تصویر برجسته توسط Shutterstock/Chris Wm Willemsen