سقوط ایمنی در جدیدترین هوش مصنوعی گوگل! | Gemini ۲.۵ Flash زنگ خطر را به صدا درآورد

تازهترین دستاورد هوش مصنوعی گوگل، مدل Gemini 2.5 Flash، به جای پیشرفت در زمینه ایمنی، نتایج نگرانکنندهای را در آزمونهای داخلی به ثبت رسانده است.
به گزارش اینتیتر به نقل از پنجره نیوز، بر اساس گزارشهای منتشر شده، مدل جدید هوش مصنوعی گوگل، Gemini 2.5 Flash، در مقایسه با نسخه پیشین خود، Gemini 2.0 Flash، در ارزیابیهای ایمنی عملکرد مطلوبی نداشته است. اسناد داخلی این شرکت نشان میدهد که مدل جدید با احتمال بیشتری اقدام به تولید متونی میکند که با سیاستهای ایمنی سختگیرانه گوگل همخوانی ندارد. در دو شاخص کلیدی «ایمنی متن به متن» و «ایمنی تصویر به متن»، Gemini 2.5 Flash به ترتیب شاهد افت ۴.۱ درصدی و ۹.۶ درصدی در امتیازات خود بوده است.
چگونه ایمنی مدلهای هوش مصنوعی ارزیابی میشود؟
در فرآیند ارزیابی ایمنی مدلهای هوش مصنوعی، شاخص «ایمنی متن به متن» به سنجش میزان تخطی مدل از دستورالعملهای گوگل بر اساس متن ورودی میپردازد. در مقابل، «ایمنی تصویر به متن» میزان پایبندی مدل به این دستورالعملها را در پاسخ به درخواستهای مبتنی بر تصویر مورد ارزیابی قرار میدهد. نکته قابل توجه این است که هر دوی این آزمونها به صورت کاملاً خودکار و بدون دخالت ناظر انسانی انجام میشوند. یک سخنگوی رسمی گوگل در واکنش به این گزارشها، با ارسال بیانیهای از طریق ایمیل، تأیید کرد که Gemini 2.5 Flash «در زمینههای ایمنی متن به متن و تصویر به متن عملکرد ضعیفتری را به نمایش گذاشته است».
تلاش شرکتهای هوش مصنوعی برای افزایش "مجوزدهی"؛ آیا این تلاشها نتیجه معکوس داده است؟
این نتایج غیرمنتظره در حالی منتشر میشود که شرکتهای فعال در حوزه هوش مصنوعی به طور فزایندهای در تلاش برای افزایش "مجوزدهی" مدلهای خود هستند. هدف از این تلاشها، کاهش احتمال امتناع مدلها از پاسخگویی به موضوعات بحثبرانگیز یا حساس است. به عنوان مثال، متا برای جدیدترین مدلهای خود موسوم به لاما اعلام کرده است که این مدلها را به گونهای تنظیم کرده است که «برخی نظرات را نسبت به دیگری تأیید نکنند» و به سؤالات سیاسی «بیشتر بحثبرانگیز» پاسخ دهند. همچنین، اوپنایآی نیز در اوایل سال جاری میلادی از برنامههای خود برای تنظیم مدلهای آتی به نحوی خبر داد که از اتخاذ موضع تحریری خودداری کرده و دیدگاههای متنوعی را در مورد مسائل جنجالی ارائه دهند.
وقتی تلاش برای "مجوزدهی" به نتایج ناخواسته منجر میشود
گاه به نظر میرسد که این تلاشها برای افزایش "مجوزدهی" میتوانند پیامدهای ناخواستهای به همراه داشته باشند. بر اساس گزارش TechCrunch، مدل پیشفرض قدرتبخش ChatGPT متعلق به اوپنایآی به کاربران نوجوان اجازه تولید مکالمات غیراخلاقی را میدهد. اوپنایآی این رفتار را ناشی از یک «باگ» فنی عنوان کرده است. در همین راستا، طبق گزارش فنی منتشر شده توسط گوگل، Gemini 2.5 Flash که هنوز در مرحله پیشنمایش قرار دارد، در مقایسه با Gemini 2.0 Flash، دستورالعملها را با دقت بیشتری دنبال میکند. این پیروی دقیق شامل دستورالعملهایی میشود که از مرزهای محتوای مشکلساز عبور میکنند. گوگل مدعی است که بخشی از کاهش نمرات ایمنی را میتوان به موارد مثبت کاذب نسبت داد، اما در عین حال اذعان میکند که Gemini 2.5 Flash در برخی موارد، هنگامی که به طور صریح درخواست میشود، اقدام به تولید «محتوای نقضکننده» میکند.
در بخشی از گزارش فنی گوگل آمده است: «طبیعتاً بین [دنبال کردن دستورالعملها] در موضوعات حساس و نقض خطمشیهای ایمنی تنش وجود دارد که در ارزیابیهای ما منعکس شده است.»
به گفته توماس وودساید، یکی از بنیانگذاران پروژه هوش مصنوعی ایمن، جزئیات محدودی که گوگل در گزارش فنی خود ارائه کرده است، بر لزوم شفافیت بیشتر در فرآیند آزمایش مدلهای هوش مصنوعی تأکید میکند. او در گفتگو با TechCrunch اظهار داشت: «بین دنبال کردن دستورالعملها و پیروی از خطمشیها، یک تعادل ظریف وجود دارد، زیرا برخی از کاربران ممکن است درخواست محتوایی کنند که با خطمشیها مغایرت داشته باشد. در این مورد، مدل جدید Flash گوگل بیشتر به دستورالعملها پایبند است در حالی که بیشتر نیز با خطمشیها مغایرت دارد.»
لازم به ذکر است که گوگل پیش از این نیز به دلیل نحوه گزارشدهی ایمنی مدلهای هوش مصنوعی خود مورد انتقاد قرار گرفته است. به عنوان مثال، انتشار گزارش فنی مربوط به قدرتمندترین مدل این شرکت، Gemini 2.5 Pro، چندین هفته به طول انجامید. و هنگامی که این گزارش در نهایت منتشر شد، در ابتدا فاقد جزئیات کلیدی مربوط به آزمایشهای ایمنی بود. با این حال، گوگل در روز دوشنبه با انتشار گزارشی جامعتر که شامل اطلاعات تکمیلی در زمینه ایمنی بود، سعی در جبران این نقص داشت. به نظر میرسد که چالش دستیابی به تعادل میان مفید بودن و ایمن بودن مدلهای هوش مصنوعی، همچنان یکی از دغدغههای اصلی شرکتهای فعال در این حوزه به شمار میرود.