مدل زبان منبع باز به نام Dolly 2.0 مشابه ChatGPT آموزش دیده است
Databricks از انتشار اولین مدل زبان متن باز تنظیم شده به نام Dolly 2.0 خبر داد. این با استفاده از روششناسی مشابه InstructGPT اما با مجموعه دادهای با کیفیت بالاتر که 100٪ منبع باز است آموزش داده شد.
استفاده از این مدل از جمله برای مقاصد تجاری رایگان است، زیرا هر قسمت از مدل 100٪ منبع باز است.
آموزش آموزش متن باز
چیزی که ChatGPT را قادر میسازد دستورالعملها را دنبال کند، آموزشی است که با استفاده از تکنیکهای ذکر شده در مقاله تحقیقاتی InstructGPT دریافت میکند.
پیشرفت کشف شده با InstructGPT این است که مدل های زبان به مجموعه های آموزشی بزرگتر و بزرگتر نیاز ندارند.
با استفاده از آموزش پرسش و پاسخ ارزیابی شده توسط انسان، OpenAI توانست مدل زبان بهتری را با استفاده از پارامترهای صد برابر کمتر از مدل قبلی، GPT-3، آموزش دهد.
Databricks از یک رویکرد مشابه برای ایجاد مجموعه داده های سریع و پاسخ به نام آنها استفاده کرد databricks-dolly-15k.
مجموعه داده سریع/پاسخ آنها بدون خراش دادن انجمن های وب یا Reddit ایجاد شد.
databricks-dolly-15k مجموعه داده ای است که توسط کارمندان Databricks ایجاد شده است، یک 100% اصلی و 15000 جفت پاسخ و اعلان ایجاد شده توسط انسان که برای آموزش مدل زبان Dolly 2.0 به همان روشی که مدل ChatGPT با InstructGPT ایجاد شده است، طراحی شده است.
صفحه GitHub برای مجموعه داده توضیح می دهد که آنها چگونه این کار را انجام دادند:
databricks-dolly-15k یک مجموعه داده منبع باز از سوابق پیروی از دستورالعمل است که در آموزش databricks/dolly-v2-12b استفاده می شود که توسط هزاران کارمند Databricks در چندین دسته رفتاری که در مقاله InstructGPT بیان شده است، از جمله طوفان فکری، طبقه بندی تولید شده است. ، QA بسته، تولید، استخراج اطلاعات، QA باز و خلاصه سازی.
… کارمندان Databricks برای ایجاد جفت های سریع / پاسخ در هر یک از هشت دسته دستورالعمل مختلف، از جمله هفت موردی که در مقاله InstructGPT مشخص شده اند، و همچنین یک دسته بندی فرم آزاد با پایان باز دعوت شدند.
به مشارکتکنندگان دستور داده شد که از استفاده از اطلاعات از هر منبعی در وب به استثنای ویکیپدیا (برای زیرمجموعههای خاصی از دستههای دستورالعمل) خودداری کنند و به صراحت از استفاده از هوش مصنوعی در فرمولبندی دستورالعملها یا پاسخها اجتناب کنند. نمونه هایی از هر رفتار برای ایجاد انگیزه در انواع سؤالات و دستورالعمل های مناسب برای هر دسته ارائه شد.
در نیمه راه فرآیند تولید داده، به مشارکت کنندگان این امکان داده شد که به سؤالات مطرح شده توسط سایر مشارکت کنندگان پاسخ دهند. از آنها خواسته شد که سؤال اصلی را دوباره بیان کنند و فقط سؤالاتی را انتخاب کنند که به طور منطقی انتظار می رود به درستی پاسخ دهند.”
Databricks ادعا می کند که این ممکن است اولین مجموعه داده دستورالعمل تولید شده توسط انسان باشد که برای آموزش یک مدل زبان برای پیروی از دستورالعمل ها، درست مانند ChatGPT ایجاد شده است.
چالش ایجاد یک مجموعه داده 100٪ اصلی بود که هیچ ارتباطی با ChatGPT یا هر منبع دیگری با مجوز محدود نداشت.
کارمندان توسط یک مسابقه تشویق شدند تا در تولید 15000 پیام/پاسخ در طول هفت دسته از وظایف مانند طوفان فکری، طبقه بندی و نوشتن خلاق مشارکت کنند.
Databricks ادعا می کند که مجموعه آموزشی databricks-dolly-15k ممکن است برتر از مجموعه داده مورد استفاده برای آموزش ChatGPT باشد.
آنها خاطرنشان می کنند که اگرچه مجموعه داده آنها کوچکتر از مجموعه ای است که برای آموزش مدل Stanford Alpaca استفاده می شود، اما مدل آنها بهتر عمل می کند زیرا داده های آنها کیفیت بالاتری دارد.
آنها می نویسند:
«مدل Dolly 2.0، مبتنی بر pythia-12b EleutherAI، دستورالعملهای باکیفیت بالایی را از خود نشان داد. در گذشته، این تعجب آور نیست.
بسیاری از مجموعه دادههای تنظیم دستورالعمل منتشر شده در ماههای اخیر حاوی دادههای ترکیبی هستند که اغلب حاوی توهمات و خطاهای واقعی هستند.
از طرف دیگر databricks-dolly-15k توسط متخصصان تولید می شود، کیفیت بالایی دارد و شامل پاسخ های طولانی برای اکثر وظایف است.
… ما انتظار نداریم که دالی از نظر اثربخشی پیشرفته باشد.
با این حال، ما انتظار داریم که Dolly و مجموعه دادههای منبع باز بهعنوان بذر بسیاری از کارهای بعدی عمل کنند، که ممکن است به راهاندازی مدلهای زبانی حتی قدرتمندتر کمک کند.
محدودیت های مجموعه داده
صفحه GitHub برای مجموعه داده تصدیق می کند که ممکن است برخی از کاستی ها در مجموعه داده وجود داشته باشد.
داده های ویکی پدیا برای برخی از آموزش ها در زمینه ایجاد اعلان ها و پاسخ ها استفاده شد. بنابراین، ممکن است هر گونه سوگیری موجود در ویکیپدیا در نهایت در مجموعه دادههای حاصل منعکس شود.
برخی از کارمندانی که برای ایجاد مجموعه داده کار کردند، زبان مادری انگلیسی نبودند، که میتواند برخی ناهنجاریها را در مجموعه داده ایجاد کند.
ترکیب جمعیتی کارکنانی که مجموعه داده را ایجاد کردهاند ممکن است خود بر مجموعه داده تأثیر بگذارد که دارای سوگیریهایی باشد که مخصوص آن کارمندان است.
با وجود آن کاستیهای احتمالی در مجموعه داده، Databricks بیان کرد که آنها از کیفیت بالاتری برخوردار هستند.
علاوه بر این، Dolly 2.0 به عنوان نقطه شروعی برای دیگران برای ایجاد و ابداع نسخههای بهتر عمل میکند.
Databricks اصرار دارد که هوش مصنوعی منبع باز بهتر است
یکی از انگیزههای ایجاد Dolly 2.0 این است که کاربران دادهها میتوانند مالک مدلهایی باشند که ایجاد کردهاند و میتوانند بهتر از دادههای خود با عدم به اشتراک گذاشتن آن با شخص ثالث محافظت کنند.
آنها همچنین بر این باورند که ایمنی هوش مصنوعی نباید در دستان سه شرکت بزرگ متمرکز شود، بلکه باید بین همه سهامداران گسترش یابد.
منبع باز در حال افزایش است و جالب است که ببینیم این صنعت در دو سال آینده در کجا قرار دارد.
اطلاعات بیشتر در مورد محل دانلود مدل Dolly 2.0 و نحوه استفاده از آن را می توانید در اطلاعیه آنها بیابید.
دالی رایگان: معرفی اولین LLM کاملاً باز در جهان
تصویر برجسته توسط Shutterstock/Kamil Macniak