چگونه ChatGPT را از استفاده از محتوای وب سایت خود مسدود کنید


نگرانی در مورد عدم وجود راهی آسان برای انصراف از داشتن محتوای مورد استفاده برای آموزش مدل های زبان بزرگ (LLM) مانند ChatGPT وجود دارد. راهی برای انجام آن وجود دارد، اما این کار نه ساده است و نه تضمین شده است.

چگونه هوش مصنوعی از محتوای شما یاد می گیرد

مدل‌های زبان بزرگ (LLM) بر روی داده‌هایی که از منابع متعدد نشات می‌گیرند آموزش داده می‌شوند. بسیاری از این مجموعه داده ها منبع باز هستند و آزادانه برای آموزش هوش مصنوعی استفاده می شوند.

برخی از منابع مورد استفاده عبارتند از:

  • ویکیپدیا
  • سوابق دادگاه های دولتی
  • کتاب ها
  • ایمیل ها
  • وب سایت های خزیده شده

در واقع پورتال‌ها، وب‌سایت‌هایی که مجموعه داده‌ها را ارائه می‌دهند، وجود دارند که حجم وسیعی از اطلاعات را ارائه می‌کنند.

یکی از پورتال ها توسط آمازون میزبانی می شود و هزاران مجموعه داده را در Registry of Open Data در AWS ارائه می دهد.

چگونه ChatGPT را از استفاده از محتوای وب سایت خود مسدود کنید

پورتال آمازون با هزاران مجموعه داده تنها یک پورتال از بسیاری دیگر است که شامل مجموعه داده های بیشتری است.

ویکی‌پدیا ۲۸ پورتال را برای دانلود مجموعه‌های داده فهرست می‌کند، از جمله Google Dataset و Hugging Face برای یافتن هزاران مجموعه داده.

مجموعه داده های محتوای وب

OpenWebText

مجموعه داده محبوب محتوای وب OpenWebText نام دارد. OpenWebText شامل URL هایی است که در پست های Reddit یافت می شوند که حداقل سه رای موافق داشتند.

ایده این است که این URL ها قابل اعتماد هستند و حاوی محتوای با کیفیت هستند. من نتوانستم اطلاعاتی در مورد یک عامل کاربر برای خزنده آنها پیدا کنم، شاید فقط به عنوان Python شناسایی شده باشد، مطمئن نیستم.

با این وجود، ما می دانیم که اگر سایت شما از Reddit با حداقل سه رأی موافق پیوند داده شده باشد، احتمال زیادی وجود دارد که سایت شما در مجموعه داده OpenWebText باشد.

اطلاعات بیشتر در مورد OpenWebText در اینجا.

کرال مشترک

یکی از متداول ترین مجموعه داده های مورد استفاده برای محتوای اینترنتی توسط یک سازمان غیرانتفاعی به نام Common Crawl ارائه شده است.

داده‌های رایج Crawl از رباتی می‌آید که کل اینترنت را می‌خزد.

داده ها توسط سازمان هایی که مایل به استفاده از داده ها هستند دانلود می شود و سپس از سایت های هرزنامه و غیره پاک می شود.

نام ربات Common Crawl، CCBot است.

CCBot از پروتکل robots.txt تبعیت می کند، بنابراین می توان Common Crawl را با Robots.txt مسدود کرد و از تبدیل داده های وب سایت شما به مجموعه داده دیگری جلوگیری کرد.

با این حال، اگر سایت شما قبلاً خزیده شده است، احتمالاً قبلاً در مجموعه داده های متعددی گنجانده شده است.

با این وجود، با مسدود کردن Common Crawl، می‌توانید محتوای وب‌سایت خود را از گنجاندن در مجموعه داده‌های جدید که از داده‌های Common Crawl جدیدتر منبع می‌شوند، انصراف دهید.

رشته CCBot User-Agent است:

CCBot/2.0

موارد زیر را به فایل robots.txt خود اضافه کنید تا ربات Common Crawl را مسدود کنید:

User-agent: CCBot
Disallow: /

یک راه اضافی برای تأیید قانونی بودن یک عامل کاربر CCBot این است که از آدرس های IP آمازون AWS خزیده شود.

CCBot همچنین از دستورالعمل‌های متا تگ روبات‌های nofollow تبعیت می‌کند.

از این در متا تگ روبات خود استفاده کنید:

<meta name="robots" content="nofollow">

مسدود کردن هوش مصنوعی از استفاده از محتوای شما

موتورهای جستجو به وب‌سایت‌ها اجازه می‌دهند از خزیدن انصراف دهند. Common Crawl همچنین اجازه انصراف را می دهد. اما در حال حاضر هیچ راهی برای حذف محتوای وب سایت از مجموعه داده های موجود وجود ندارد.

علاوه بر این، دانشمندان تحقیقاتی به نظر نمی‌رسد راهی برای انصراف از خزیدن به ناشران وب‌سایت ارائه دهند.

مقاله، آیا استفاده ChatGPT از محتوای وب منصفانه است؟ این موضوع را بررسی می کند که آیا استفاده از داده های وب سایت بدون اجازه یا راهی برای انصراف اخلاقی است یا خیر.

بسیاری از ناشران ممکن است قدردانی کنند که در آینده نزدیک به آنها در مورد نحوه استفاده از محتوایشان، به ویژه توسط محصولات هوش مصنوعی مانند ChatGPT، نظر بیشتری داده شود.

اینکه آیا این اتفاق خواهد افتاد در حال حاضر مشخص نیست.

تصویر برجسته توسط Shutterstock/ViDI Studio





منبع

مطالب مرتبط