سقوط ایمنی در جدیدترین هوش مصنوعی گوگل! | Gemini ۲.۵ Flash زنگ خطر را به صدا درآورد

کد خبر : ۴۰۷۰۵۹ ۱۴ اردیبهشت ۱۴۰۴ - ۰۸:۱۲

تازه‌ترین دستاورد هوش مصنوعی گوگل، مدل Gemini 2.5 Flash، به جای پیشرفت در زمینه ایمنی، نتایج نگران‌کننده‌ای را در آزمون‌های داخلی به ثبت رسانده است.

به گزارش اینتیتر به نقل از پنجره نیوز، بر اساس گزارش‌های منتشر شده، مدل جدید هوش مصنوعی گوگل، Gemini 2.5 Flash، در مقایسه با نسخه پیشین خود، Gemini 2.0 Flash، در ارزیابی‌های ایمنی عملکرد مطلوبی نداشته است. اسناد داخلی این شرکت نشان می‌دهد که مدل جدید با احتمال بیشتری اقدام به تولید متونی می‌کند که با سیاست‌های ایمنی سختگیرانه گوگل همخوانی ندارد. در دو شاخص کلیدی «ایمنی متن به متن» و «ایمنی تصویر به متن»، Gemini 2.5 Flash به ترتیب شاهد افت ۴.۱ درصدی و ۹.۶ درصدی در امتیازات خود بوده است.

چگونه ایمنی مدل‌های هوش مصنوعی ارزیابی می‌شود؟

در فرآیند ارزیابی ایمنی مدل‌های هوش مصنوعی، شاخص «ایمنی متن به متن» به سنجش میزان تخطی مدل از دستورالعمل‌های گوگل بر اساس متن ورودی می‌پردازد. در مقابل، «ایمنی تصویر به متن» میزان پایبندی مدل به این دستورالعمل‌ها را در پاسخ به درخواست‌های مبتنی بر تصویر مورد ارزیابی قرار می‌دهد. نکته قابل توجه این است که هر دوی این آزمون‌ها به صورت کاملاً خودکار و بدون دخالت ناظر انسانی انجام می‌شوند. یک سخنگوی رسمی گوگل در واکنش به این گزارش‌ها، با ارسال بیانیه‌ای از طریق ایمیل، تأیید کرد که Gemini 2.5 Flash «در زمینه‌های ایمنی متن به متن و تصویر به متن عملکرد ضعیف‌تری را به نمایش گذاشته است».

تلاش شرکت‌های هوش مصنوعی برای افزایش "مجوزدهی"؛ آیا این تلاش‌ها نتیجه معکوس داده است؟

این نتایج غیرمنتظره در حالی منتشر می‌شود که شرکت‌های فعال در حوزه هوش مصنوعی به طور فزاینده‌ای در تلاش برای افزایش "مجوزدهی" مدل‌های خود هستند. هدف از این تلاش‌ها، کاهش احتمال امتناع مدل‌ها از پاسخگویی به موضوعات بحث‌برانگیز یا حساس است. به عنوان مثال، متا برای جدیدترین مدل‌های خود موسوم به لاما اعلام کرده است که این مدل‌ها را به گونه‌ای تنظیم کرده است که «برخی نظرات را نسبت به دیگری تأیید نکنند» و به سؤالات سیاسی «بیشتر بحث‌برانگیز» پاسخ دهند. همچنین، اوپن‌ای‌آی نیز در اوایل سال جاری میلادی از برنامه‌های خود برای تنظیم مدل‌های آتی به نحوی خبر داد که از اتخاذ موضع تحریری خودداری کرده و دیدگاه‌های متنوعی را در مورد مسائل جنجالی ارائه دهند.

وقتی تلاش برای "مجوزدهی" به نتایج ناخواسته منجر می‌شود

گاه به نظر می‌رسد که این تلاش‌ها برای افزایش "مجوزدهی" می‌توانند پیامدهای ناخواسته‌ای به همراه داشته باشند. بر اساس گزارش TechCrunch، مدل پیش‌فرض قدرت‌بخش ChatGPT متعلق به اوپن‌ای‌آی به کاربران نوجوان اجازه تولید مکالمات غیراخلاقی را می‌دهد. اوپن‌ای‌آی این رفتار را ناشی از یک «باگ» فنی عنوان کرده است. در همین راستا، طبق گزارش فنی منتشر شده توسط گوگل، Gemini 2.5 Flash که هنوز در مرحله پیش‌نمایش قرار دارد، در مقایسه با Gemini 2.0 Flash، دستورالعمل‌ها را با دقت بیشتری دنبال می‌کند. این پیروی دقیق شامل دستورالعمل‌هایی می‌شود که از مرزهای محتوای مشکل‌ساز عبور می‌کنند. گوگل مدعی است که بخشی از کاهش نمرات ایمنی را می‌توان به موارد مثبت کاذب نسبت داد، اما در عین حال اذعان می‌کند که Gemini 2.5 Flash در برخی موارد، هنگامی که به طور صریح درخواست می‌شود، اقدام به تولید «محتوای نقض‌کننده» می‌کند.

در بخشی از گزارش فنی گوگل آمده است: «طبیعتاً بین [دنبال کردن دستورالعمل‌ها] در موضوعات حساس و نقض خط‌مشی‌های ایمنی تنش وجود دارد که در ارزیابی‌های ما منعکس شده است.»

به گفته توماس وودساید، یکی از بنیان‌گذاران پروژه هوش مصنوعی ایمن، جزئیات محدودی که گوگل در گزارش فنی خود ارائه کرده است، بر لزوم شفافیت بیشتر در فرآیند آزمایش مدل‌های هوش مصنوعی تأکید می‌کند. او در گفتگو با TechCrunch اظهار داشت: «بین دنبال کردن دستورالعمل‌ها و پیروی از خط‌مشی‌ها، یک تعادل ظریف وجود دارد، زیرا برخی از کاربران ممکن است درخواست محتوایی کنند که با خط‌مشی‌ها مغایرت داشته باشد. در این مورد، مدل جدید Flash گوگل بیشتر به دستورالعمل‌ها پایبند است در حالی که بیشتر نیز با خط‌مشی‌ها مغایرت دارد.»

لازم به ذکر است که گوگل پیش از این نیز به دلیل نحوه گزارش‌دهی ایمنی مدل‌های هوش مصنوعی خود مورد انتقاد قرار گرفته است. به عنوان مثال، انتشار گزارش فنی مربوط به قدرتمندترین مدل این شرکت، Gemini 2.5 Pro، چندین هفته به طول انجامید. و هنگامی که این گزارش در نهایت منتشر شد، در ابتدا فاقد جزئیات کلیدی مربوط به آزمایش‌های ایمنی بود. با این حال، گوگل در روز دوشنبه با انتشار گزارشی جامع‌تر که شامل اطلاعات تکمیلی در زمینه ایمنی بود، سعی در جبران این نقص داشت. به نظر می‌رسد که چالش دستیابی به تعادل میان مفید بودن و ایمن بودن مدل‌های هوش مصنوعی، همچنان یکی از دغدغه‌های اصلی شرکت‌های فعال در این حوزه به شمار می‌رود.