آیا گوگل با تغییرات جزئی در ترجمه ماشینی مشکلی ندارد؟
ساعت اداری SEO اکتبر گوگل پاسخ داد که آیا استفاده از محتوای ترجمه شده به صورت خودکار که توسط یک انسان بازبینی شده و تنها تغییرات جزئی ویرایشی داشته است، اشکالی ندارد یا خیر.
قسمت ساعات کاری دفتر سئو گوگل
این قسمت از پاتوق ساعات اداری از قالب جدیدی پیروی می کند که در آن سؤالات ارسال می شود و پاسخ ها داده می شود.
کارمندان گوگل که به سوالات پاسخ می دهند لیزی ساسمن و جان مولر هستند.
لیزی ساسمن (@okaylizzi) یک نویسنده فناوری است که از اسناد Google Site Central “مراقبت می کند”.
برخلاف فرمت لایو قبلی که مخاطبان به صورت لحظه ای سوال می پرسند، فرصتی برای پرسیدن سوالات بعدی وجود ندارد.
این منجر به پاسخهایی میشود که مستندات Google را از نزدیک منعکس میکنند و هیچکس نمیتواند سؤال باقیمانده بپرسد.
شخصی که این سوال را می پرسد نگران محتوای خود بود که به صورت ماشینی از زبان دیگری ترجمه شده بود.
آنها از ویرایشگرهای انسانی استفاده کردند تا محتوایی را که به جز تغییرات جزئی قابل قبول بود، بررسی کنند.
به طور طبیعی، شخصی که این سوال را می پرسد نگران این است که آیا “ترفندهای جزئی” برای قابل قبول کردن محتوا برای گوگل کافی است یا خیر.
لیزی ساسمن به این سوال به گونهای پاسخ میدهد که کاملاً به آنچه در اسناد گوگل آمده است، پایبند است.
شاید، قابل بحث، پاسخ را میتوان با یک سوال تکمیلی برای تعیین اینکه آیا “ترفندهای جزئی” به اندازه کافی خوب هستند روشن کرد. پس از همه، این سوال به صراحت می پرسد که آیا ترفندهای جزئی به اندازه کافی برای گوگل خوب هستند یا خیر.
احتمالاً پاسخ ضمنی استفاده از قضاوت شما در مورد کیفیت محتوای ترجمه شده است.
خودت قضاوت کن
آیا محتوای ترجمه شده ماشینی با ویرایش متوسط قابل قبول است؟
آنها پرسیدند:
یک سایت از ترجمه ماشینی برای ارائه پست به زبان های دیگر استفاده می کند.
محتوا توسط مترجمان انسانی بررسی می شود و آنها اغلب پس از تغییرات جزئی از کیفیت آن راضی هستند.
آیا این برای گوگل خوب است؟»
لیزی ساسمن از گوگل پاسخ داد:
خوب است که می شنویم که مترجمان انسانی خوشحال هستند و این برای Google کاملاً خوب است تا زمانی که یک انسان در فرآیند بررسی حضور داشته باشد. این کلید است.
چیزی که میخواهید مراقب آن باشید این است که مطمئن شوید که کیفیت همچنان خوب است و برای افرادی که محتوا را میخوانند خوب کار میکند.»
پاسخ به طور مشخص نمیگوید که آیا ویرایشهای جزئی خوب هستند یا خیر، تنها این که اگر «مترجمان انسانی» با آن خوب باشند، پس باید برای گوگل خوب باشد.
آیا ممکن است Google بررسی نمیکند که آیا محتوا به صورت ماشینی ترجمه شده است، اما بر سیگنالهای کیفیت محتوای استاندارد متکی است؟
ما نمی دانیم.
قالب جدید «ساعت اداری» به فردی که سؤال میپرسد فرصتی برای پرسیدن سؤال بعدی نمیدهد.
سیاست های هرزنامه گوگل
اسناد توسعهدهنده Google در مورد محتوای هرزنامه به ابزارهای ترجمه خودکار متن اشاره میکند و به صراحت میگوید که هرزنامه است مگر زمانی که یک عنصر انسانی در آن دخیل باشد.
این چیزی است که در اسناد گوگل آمده است:
«نمونههایی از محتوای تولید شده توسط هرزنامه عبارتند از:
متن ترجمه شده توسط یک ابزار خودکار بدون بازبینی یا نظارت انسانی قبل از انتشار”
بنابراین از دستورالعملهای منتشر شده گوگل مشخص است که تا زمانی که یک انسان در حال ویرایش محتوای ترجمه شده توسط ماشین باشد، گوگل با آن مشکلی ندارد.
علاوه بر این، جان مولر در یک ویدیوی Google Office-Hours از آوریل 2022 به این موضوع اشاره کرد که چگونه محتوای تولید شده توسط هوش مصنوعی هرزنامه محسوب میشود و سپس به محتوای ترجمه شده خودکار اشاره کرد.
مولر در مورد ابزارهای تولید محتوای هوش مصنوعی صحبت کرد و آنها را با ابزارهای ترجمه خودکار مقایسه کرد.
مولر در دقیقه 24:55 ویدیوی ساعات اداری آوریل 2022 گفت:
فکر میکنم، نمیدانم، با گذشت زمان، شاید این چیزی باشد که تکامل یابد، به این ترتیب که بیشتر به ابزاری برای مردم تبدیل شود.
مانند شما از ترجمه ماشینی به عنوان مبنایی برای ایجاد نسخه ترجمه شده یک وب سایت استفاده می کنید.
اما شما هنوز … اساساً به صورت دستی از طریق آن کار می کنید.
چرا انسان باید محتوای ترجمه شده خودکار را بررسی کند؟
همانطور که در بالا ذکر شد، نگرانی گوگل این است که محتوای ارجاع شده از صفحات نتایج موتورهای جستجو (SERP) با کیفیت بالا باشد و کاربران از آن راضی باشند.
چیزی که مورد بحث قرار نگرفت این است که محتوای ترجمه شده حاوی امضاهایی است که الگوریتم تشخیص ترجمه می تواند آنها را شناسایی کند.
تشخیص محتوای ترجمه شده توسط ماشین چیزی است که سال هاست مورد تحقیق قرار گرفته است.
یک مقاله تحقیقاتی از سال 2021 (تشخیص متن ترجمه شده ماشینی از طریق شباهت متن با ترجمه رفت و برگشت – دانلود PDF) بیان میکند که محتوایی که از یک زبان به زبان دیگر ترجمه میشود میتواند برای انسان پیچیده باشد.
به عنوان مثال، با استفاده از 100 متن ترجمه شده، ارزیابهای انسانی تنها توانستند بیش از نیمی از متون ترجمه شده را شناسایی کنند.
محققان خاطرنشان کردند:
“متوسط دقت 53.3٪ (55.0٪ برای افراد بومی زبان و 52.0٪ برای افراد غیربومی) بود که نزدیک به تصادفی بود.”
این رویکرد که Text Similarity With Round-Trip Translation (TSRT) نامیده میشود، عملکرد بهتری نسبت به ارزیابیکنندههای انسانی داشت و زمانی که مقاله در سال 2021 منتشر شد، امتیازی بالاتر از آشکارسازهای ترجمه پیشرفته کسب کرد.
قابل توجه است که این تکنیک می تواند زبان اصلی متون ترجمه شده را تشخیص دهد.
همچنین می تواند تعیین کند که کدام الگوریتم ترجمه ترجمه را انجام داده است.
گزارش دادند:
نتایج ارزیابی نشان میدهد که TSRT از سایر روشها با دقت 90.2% بهتر عمل میکند.
علاوه بر این، TSRT همچنین می تواند مترجم اصلی و زبان ترجمه را به ترتیب با دقت 93.3 و 85.6 درصد شناسایی کند.
مشخص نیست که آیا گوگل می تواند محتوای ترجمه شده را شناسایی کند یا خیر و اینکه آیا گوگل حتی در تلاش برای شناسایی محتوای ترجمه شده است یا خیر.
اما ما می دانیم که فناوری برای تشخیص آن وجود دارد. این فناوری می تواند محتوای ترجمه شده را بهتر از انسان تشخیص دهد و تعیین کند که کدام الگوریتم ترجمه ترجمه را انجام داده است.
اگر این واقعیت که برخلاف دستورالعملهای وبمستر است و ممکن است تجربه کاربری منفی داشته باشد برای ایجاد انگیزه در ویرایش محتوای ترجمه شده توسط ماشین کافی نیست، شاید امکان پذیری اینکه گوگل در حال تجزیه و تحلیل کیفیت محتوا برای ترجمه ماشینی است، ممکن است دلیلی برای بررسی جامع این نوع محتوا باشد.
نقل قول
در ساعت 17:50 دقیقه به پاتوق Google Office Hours گوش دهید.
تصویر برجسته توسط Shutterstock/g_tech