مدل زبان منبع باز به نام Dolly 2.0 مشابه ChatGPT آموزش دیده است


Databricks از انتشار اولین مدل زبان متن باز تنظیم شده به نام Dolly 2.0 خبر داد. این با استفاده از روش‌شناسی مشابه InstructGPT اما با مجموعه داده‌ای با کیفیت بالاتر که 100٪ منبع باز است آموزش داده شد.

استفاده از این مدل از جمله برای مقاصد تجاری رایگان است، زیرا هر قسمت از مدل 100٪ منبع باز است.

آموزش آموزش متن باز

چیزی که ChatGPT را قادر می‌سازد دستورالعمل‌ها را دنبال کند، آموزشی است که با استفاده از تکنیک‌های ذکر شده در مقاله تحقیقاتی InstructGPT دریافت می‌کند.

پیشرفت کشف شده با InstructGPT این است که مدل های زبان به مجموعه های آموزشی بزرگتر و بزرگتر نیاز ندارند.

با استفاده از آموزش پرسش و پاسخ ارزیابی شده توسط انسان، OpenAI توانست مدل زبان بهتری را با استفاده از پارامترهای صد برابر کمتر از مدل قبلی، GPT-3، آموزش دهد.

Databricks از یک رویکرد مشابه برای ایجاد مجموعه داده های سریع و پاسخ به نام آنها استفاده کرد databricks-dolly-15k.

مجموعه داده سریع/پاسخ آنها بدون خراش دادن انجمن های وب یا Reddit ایجاد شد.

databricks-dolly-15k مجموعه داده ای است که توسط کارمندان Databricks ایجاد شده است، یک 100% اصلی و 15000 جفت پاسخ و اعلان ایجاد شده توسط انسان که برای آموزش مدل زبان Dolly 2.0 به همان روشی که مدل ChatGPT با InstructGPT ایجاد شده است، طراحی شده است.

صفحه GitHub برای مجموعه داده توضیح می دهد که آنها چگونه این کار را انجام دادند:

databricks-dolly-15k یک مجموعه داده منبع باز از سوابق پیروی از دستورالعمل است که در آموزش databricks/dolly-v2-12b استفاده می شود که توسط هزاران کارمند Databricks در چندین دسته رفتاری که در مقاله InstructGPT بیان شده است، از جمله طوفان فکری، طبقه بندی تولید شده است. ، QA بسته، تولید، استخراج اطلاعات، QA باز و خلاصه سازی.

… کارمندان Databricks برای ایجاد جفت های سریع / پاسخ در هر یک از هشت دسته دستورالعمل مختلف، از جمله هفت موردی که در مقاله InstructGPT مشخص شده اند، و همچنین یک دسته بندی فرم آزاد با پایان باز دعوت شدند.

به مشارکت‌کنندگان دستور داده شد که از استفاده از اطلاعات از هر منبعی در وب به استثنای ویکی‌پدیا (برای زیرمجموعه‌های خاصی از دسته‌های دستورالعمل) خودداری کنند و به صراحت از استفاده از هوش مصنوعی در فرمول‌بندی دستورالعمل‌ها یا پاسخ‌ها اجتناب کنند. نمونه هایی از هر رفتار برای ایجاد انگیزه در انواع سؤالات و دستورالعمل های مناسب برای هر دسته ارائه شد.

در نیمه راه فرآیند تولید داده، به مشارکت کنندگان این امکان داده شد که به سؤالات مطرح شده توسط سایر مشارکت کنندگان پاسخ دهند. از آنها خواسته شد که سؤال اصلی را دوباره بیان کنند و فقط سؤالاتی را انتخاب کنند که به طور منطقی انتظار می رود به درستی پاسخ دهند.”

Databricks ادعا می کند که این ممکن است اولین مجموعه داده دستورالعمل تولید شده توسط انسان باشد که برای آموزش یک مدل زبان برای پیروی از دستورالعمل ها، درست مانند ChatGPT ایجاد شده است.

چالش ایجاد یک مجموعه داده 100٪ اصلی بود که هیچ ارتباطی با ChatGPT یا هر منبع دیگری با مجوز محدود نداشت.

کارمندان توسط یک مسابقه تشویق شدند تا در تولید 15000 پیام/پاسخ در طول هفت دسته از وظایف مانند طوفان فکری، طبقه بندی و نوشتن خلاق مشارکت کنند.

Databricks ادعا می کند که مجموعه آموزشی databricks-dolly-15k ممکن است برتر از مجموعه داده مورد استفاده برای آموزش ChatGPT باشد.

آنها خاطرنشان می کنند که اگرچه مجموعه داده آنها کوچکتر از مجموعه ای است که برای آموزش مدل Stanford Alpaca استفاده می شود، اما مدل آنها بهتر عمل می کند زیرا داده های آنها کیفیت بالاتری دارد.

آنها می نویسند:

«مدل Dolly 2.0، مبتنی بر pythia-12b EleutherAI، دستورالعمل‌های باکیفیت بالایی را از خود نشان داد. در گذشته، این تعجب آور نیست.

بسیاری از مجموعه داده‌های تنظیم دستورالعمل منتشر شده در ماه‌های اخیر حاوی داده‌های ترکیبی هستند که اغلب حاوی توهمات و خطاهای واقعی هستند.

از طرف دیگر databricks-dolly-15k توسط متخصصان تولید می شود، کیفیت بالایی دارد و شامل پاسخ های طولانی برای اکثر وظایف است.

… ما انتظار نداریم که دالی از نظر اثربخشی پیشرفته باشد.

با این حال، ما انتظار داریم که Dolly و مجموعه داده‌های منبع باز به‌عنوان بذر بسیاری از کارهای بعدی عمل کنند، که ممکن است به راه‌اندازی مدل‌های زبانی حتی قدرتمندتر کمک کند.

محدودیت های مجموعه داده

صفحه GitHub برای مجموعه داده تصدیق می کند که ممکن است برخی از کاستی ها در مجموعه داده وجود داشته باشد.

داده های ویکی پدیا برای برخی از آموزش ها در زمینه ایجاد اعلان ها و پاسخ ها استفاده شد. بنابراین، ممکن است هر گونه سوگیری موجود در ویکی‌پدیا در نهایت در مجموعه داده‌های حاصل منعکس شود.

برخی از کارمندانی که برای ایجاد مجموعه داده کار کردند، زبان مادری انگلیسی نبودند، که می‌تواند برخی ناهنجاری‌ها را در مجموعه داده ایجاد کند.

ترکیب جمعیتی کارکنانی که مجموعه داده را ایجاد کرده‌اند ممکن است خود بر مجموعه داده تأثیر بگذارد که دارای سوگیری‌هایی باشد که مخصوص آن کارمندان است.

با وجود آن کاستی‌های احتمالی در مجموعه داده، Databricks بیان کرد که آنها از کیفیت بالاتری برخوردار هستند.

علاوه بر این، Dolly 2.0 به عنوان نقطه شروعی برای دیگران برای ایجاد و ابداع نسخه‌های بهتر عمل می‌کند.

Databricks اصرار دارد که هوش مصنوعی منبع باز بهتر است

یکی از انگیزه‌های ایجاد Dolly 2.0 این است که کاربران داده‌ها می‌توانند مالک مدل‌هایی باشند که ایجاد کرده‌اند و می‌توانند بهتر از داده‌های خود با عدم به اشتراک گذاشتن آن با شخص ثالث محافظت کنند.

آنها همچنین بر این باورند که ایمنی هوش مصنوعی نباید در دستان سه شرکت بزرگ متمرکز شود، بلکه باید بین همه سهامداران گسترش یابد.

منبع باز در حال افزایش است و جالب است که ببینیم این صنعت در دو سال آینده در کجا قرار دارد.

اطلاعات بیشتر در مورد محل دانلود مدل Dolly 2.0 و نحوه استفاده از آن را می توانید در اطلاعیه آنها بیابید.

دالی رایگان: معرفی اولین LLM کاملاً باز در جهان

تصویر برجسته توسط Shutterstock/Kamil Macniak





منبع

مطالب مرتبط