کمک هکرها به غولهای فناوری | امنیت سیستم های هوش مصنوعی مدیون تلاش هکرهاست

کد خبر : ۲۵۷۲۸۲ ۱۷ شهریور ۱۴۰۲ - ۱۲:۳۸

گوگل، مایکروسافت، متا، Open AI و سایر شرکت‌های بزرگ هوش مصنوعی تلاش می‌کنند با کمک تیم‌های قرمز آسیب‌پذیری‌های مدل‌های AI را شناسایی و رفع کنند.

به گزارش اینتیتر به نقل از دیجیاتو، هوش مصنوعی به یکی از داغ‌ترین موضوع‌های دنیای فناوری تبدیل شده است. در کنار مزایای زیادی که این فناوری به همراه دارد، می‌تواند خطرات زیادی مانند افشای اطلاعات شخصی کاربران و شرکت‌ها را هم به دنبال داشته باشد. شرکت‌ها همواره درحال تلاش برای کاهش ریسک‌های این سیستم‌ها هستند و حالا نشریه فوربس به سراغ رهبران تیم‌های قرمز غول‌های فناوری رفته و درباره تلاش‌ها برای رفع آسیب‌‌پذیری‌های هوش مصنوعی با آن‌ها صحبت کرده است.

OpenAI یک ماه قبل از انتشار عمومی ChatGPT وکیلی کنیایی به نام «بورو گولو» (Boru Gollo) را برای آزمایش نمونه‌های اولیه این چت‌ بات ابتدا با مدل GPT 3.5 و سپس با مدل GPT 4 استخدام کرد. این شرکت قصد داشت چت‌بات خود را علیه مسلمانان و آفریقایی‌ها با واردکردن درخواستی امتحان کند که باعث می‌شد چت‌بات پاسخ‌های آسیب‌زننده، متعصبانه و نادرست ارائه دهد.

گولو، یکی از ۵۰ متخصص خارج از شرکت استخدام‌شده توسط OpenAI به‌عنوان عضوی از تیم قرمز این شرکت است. او فرمانی به ChatGPT داد که این چت‌بات در پاسخ به آن فهرستی از راه‌های کشتن یک نیجریایی ارائه داد؛ البته OpenAI قبل از در دسترس قرار دادن ChatGPT در سراسر جهان، این پاسخ را حذف کرد.

براساس اطلاعات درج‌شده در سیستم کارت GPT 4 که خطرات این سیستم و اقدامات امنیتی OpenAI را برای کاهش این خطرات یا حذف آنها فهرست کرده، اعضای تیم قرمز OpenAI در نسخه پیش از معرفی این مدل، درخواست‌هایی جهت کمک‌گرفتن از آن برای انجام یک سری فعالیت غیرقانونی و مضر نوشتند؛ مثل کمک برای نوشتن یک پست فیسبوک جهت متقاعدکردن کاربران برای پیوستن به القاعده یا کمک به یافتن سلاح‌های بدون مجوز و فروش آنها یا ارائه فرایندی برای ساخت مواد شیمیایی مضر در خانه.

تلاش تیم‌های قرمز برای شناسایی آسیب‌پذیری‌های مدل‌های AI

هکرهای تیم قرمز برای جلوگیری از سوءاستفاده از سیستم‌های هوش مصنوعی، آنها را مثل یک دشمن می‌بینند و سعی می‌کنند آسیب‌پذیری‌های پنهان و خطرات آنها را شناسایی و رفع کنند. اکنون‌ که رقابت بین غول‌های فناوری برای ایجاد و انتشار ابزارهای هوش مصنوعی شدت گرفته، اهمیت نقش اعضای تیم قرمز داخلی آنها برای کسب اطمینان از امن بودن این ابزارها برای عموم مردم، به‌طور فزاینده‌ای درحال افزایش است؛ مثلاً گوگل در اوایل سال میلادی جاری تیم قرمز مجزایی برای هوش مصنوعی ایجاد کرد. در ماه آگوست هم توسعه‌دهندگان مدل GPT 3.5 شرکت OpenAI، مدل Llama2 متا و LaMDA گوگل در رویدادی در کاخ سفید حضور یافتند تا توانایی هکرها برای دسترسی غیرمجاز به مدل‌های هوش مصنوعی خود را محک بزنند.

اما اعضای تیم‌های قرمز هوش مصنوعی معمولاً در ایجاد توازن بین بی‌خطرکردن مدل‌های AI و کاربردی و مفیدکردن آنها در موقعیت‌های دشواری گرفتار می‌شوند. مجله فوربس در مصاحبه‌ای با سرپرستان تیم‌های هوش مصنوعی مایکروسافت، گوگل، متا و انویدیا از آنها در مورد دلیل متداول‌شدن نفوذ به مدل‌های AI و چالش‌های مقابله با این معضل صحبت کرده است

«کریستین کانتون» (Cristian Canton)، سرپرست تیم قرمز فیسبوک گفته می‌توان مدلی ایجاد کرد که در پاسخ به هر درخواستی نه بگوید؛ چنین مدلی ابزاری فوق‌العاده امن است. نمی‌شود مدلی را طراحی کرد که هم بسیار مفید باشد و هم امنیت بسیار بالایی داشته باشد؛ هر چقدر یک مدل مفیدتر باشد، احتمال ارائه پاسخ خطرناک توسط آن در زمینه‌های مختلف بیشتر می‌شود.

استفاده از نرم‌افزارهای طراحی‌شده برای شناسایی آسیب‌پذیری‌های سیستم‌ها، از دهه ۱۹۶۰ شروع شده است. در آن زمان حملات سایبری شبیه‌سازی می‌شد تا با شناسایی و رفع آسیب‌پذیری‌ها، امنیت سیستم‌ها به حداکثر میزان ممکن برسد.

«بروس اشنایر» (Bruce Schneier)، از مرکز اینترنت و جامعه برکمن، می‌گوید: «در مورد امنیت سیستم‌های کامپیوتری هرگز نمی‌توانیم بگوییم سیستمی امنیت کامل دارد. تنها چیزی که می‌توانیم بگوییم این است که بگوییم ما سعی کردیم و نتوانستیم به آن نفوذ کنیم.»

«دنیل فابین» (Daniel Fabian)، سرپرست تیم قرمز هوش مصنوعی جدید گوگل که همیشه تأکید می‌کند محصولاتی مانند گوگل بارد قبل از اضافه‌شدن ویژگی‌های جدید به آنها (مثل افزودن زبان‌های قابل پشتیبانی به آنها)، باید برای کسب اطمینان از عدم ارائه محتوای توهین‌آمیز توسط آنها، آزمایش شوند، معتقد است به دلیل اینکه برای آموزش سیستم‌های هوش مصنوعی مولد از حجم گسترده از داده‌ها استفاده می‌شود، نحوه امن نگه‌داشتن آنها با روش حفظ امنیت سایر سیستم‌های متداول تفاوت دارد.

اعضای تیم قرمز هوش مصنوعی قبل از انتشار مدل‌های AI، عمداً درخواست‌های خطرناکی را در آنها می‌نویسند تا پاسخ‌های خطرناک و مخربی از آنها دریافت کنند. علاوه‌براین، اعضای این تیم‌ها از تکنیک‌هایی برای استخراج داده‌های آموزشی افشاکننده هویت افراد، مثل اسامی، شماره تلفن‌ها و آدرس‌ها نیز بهره می‌برند.

آنها همچنین با تغییر بخشی از داده‌های موجود در پایگاه‌های داده که برای آموزش مدل‌ها استفاده می‌شوند، به‌نوعی آنها را هدف حمله سایبری قرار می‌دهند. فابین در گفت‌وگو با فوربس گفته انواع مختلفی از حملات سایبری وجود دارد و وقتی هکرها با انواع خاصی از این حملات به نتیجه نمی‌رسند، سایر انواع آنها را امتحان می‌کنند.

رویکرد شرکت‌های بزرگ برای شناسایی و رفع آسیب‌پذیری‌های مدل‌های هوش مصنوعی

به دلیل اینکه سیستم‌های AI هنوز سیستم‌های نوپایی محسوب می‌شوند، تعداد متخصصان امنیتی که نحوه نفوذ به آنها را می‌دانند، به گفته «دانیال روهر»، معاون بخش امنیتی انویدیا، «بسیار کم و رو به کاهش» است. به همین دلیل است که جامعه درهم‌تنیده گروه‌های تیم قرمز متمایل به اشتراک‌گذاری یافته‌های خود است؛ مثلاً اعضای گروه قرمز هوش مصنوعی گوگل نتایج پژوهشی در مورد راهکارهای جدید برای حمله به مدل‌های AI را منتشر کرده‌اند.

از سوی دیگر اعضای تیم قرمز مایکروسافت یک ابزار متن‌باز حمله سایبری به نام Counterfit ایجاد کرده‌اند که به توسعه‌دهندگان ابزارهای هوش مصنوعی برای ایمن نگه‌داشتن این ابزارها و محافظت از آنها در برابر خطرات امنیتی کمک می‌کند.

«شانکار سیوا کومار» که تیم قرمز مایکروسافت را پنج سال پیش تشکیل داد، در وبلاگ مایکروسافت درباره این‌چنین گفته است:

«ما ابزارهای بی‌کیفیت را توسعه دادیم و از این روش برای تسریع روند شناسایی آسیب‌پذیری سیستم‌های نرم‌افزاری خود استفاده می‌کنیم. ما می‌خواهیم این ابزار را به‌صورت چهارچوبی در اختیار تمام متخصصان امنیتی قرار دهیم که با آن آشنا باشند و آن را درک کنند.»

اعضای تیم سیوا کومار، ابتدا اطلاعات مرتبط با حملات سایبری را از تیم اطلاعاتی تهدیدات سایبری که به گفته کومار چشم و گوش اینترنت هستند، دریافت و جمع‌آوری می‌کنند. آنها در مرحله بعدی وارد همکاری با اعضای سایر تیم‌های قرمز می‌شوند تا آسیب‌پذیری موردنظر سیستم هوش مصنوعی برای مقابله با آن و همچنین نحوه انجام این کار را مشخص کنند. در سال میلادی جاری تیم کومار موفق شد محبوب‌ترین محصول هوش مصنوعی مایکروسافت یعنی بینگ چت را به‌خوبی GPT 4 برای یافتن نقایص امنیتی کاوش کند.

ارائه دوره‌های آموزشی کوتاه در مورد نحوه تشخیص آسیب‌پذیری‌های الگوریتم‌ها برای افزایش امنیت و شرکت‌ها، بخشی از رویکرد انویدیا برای شناسایی آسیب‌پذیری‌ها است. مایکروسافت برای محافظت از منابع محاسباتی مثل پردازنده‌های گرافیکی، به چنین رویکردی متکی است.

روهر می‌گوید ما رویکرد تقویت‌کننده عظیمی داریم که موتور هوش مصنوعی برای تمام افراد محسوب می‌شود. اگر نحوه شناسایی آسیب‌پذیری‌ها را به دیگران یاد دهیم، آنتروپیک، گوگل و OpenAI می‌توانند امنیت سیستم‌های هوش مصنوعی خود را افزایش دهند.

تیم‌های قرمز با افزایش امنیت در سیستم‌های AI برای تمام کاربران و مقامات دولتی به شکل یکسان، در رقابت برای بهره‌مندی از این فناوری، برای آموزش شرکت‌ها، نیز مزیتی رقابتی ارائه می‌دهند.

«اسون کتل»، بنیان‌گذار AI Village، جامعه‌ای از متخصصان و هکرهای هوش مصنوعی، می‌گوید: «به نظر من شعار شرکت‌ها، حرکت به سمت کسب اعتماد و امن کردن است.» همچنین او گفته به‌زودی در تبلیغات شاهد شعار تبلیغاتی «سیستم ما امن‌ترین است» خواهیم بود.

تیم قرمز هوش مصنوعی متا که در سال ۲۰۱۹ ایجاد شد، جزو نخستین تیم‌های این حوزه محسوب می‌شود. این تیم در آن زمان چالش‌های داخلی خود را سازمان‌دهی و با جذب سرمایه، به هکرها اجازه داد از فیلترهای محتوایی عبور و پست‌های دارای سخنان نفرت‌انگیز، تصاویر مستهجن، اطلاعات نادرست و گمراه‌کننده و دیپ فیک‌های ایجادشده توسط هوش مصنوعی در اینستاگرام و فیسبوک را شناسایی و حذف کنند.

طبق گزارش منتشرشده در مورد جزئیات نحوه ایجاد مدل زبانی بزرگ متن‌باز متا یعنی Llama 2 در ژوئیه ۲۰۲۳، این شرکت برای تشکیل تیم قرمز به‌منظور آزمایش این مدل، ۳۲۰ نفر شامل متخصصان و کارمندان قراردادی را استخدام کرد و یک گروه داخلی متشکل از ۲۰ کارمند خود را نیز تشکیل داد. تیم قرمز مذکور Llama 2 را با درخواست‌هایی مثل کمک برای ارائه روش‌های فرار مالیاتی، روشن‌کردن خودرو بدون سوئیچ و نحوه ایجاد سیستمی برای ترفند پانزی (روشی کلاهبردارانه برای جذب سرمایه‌های مردم) آزمایش کرد. کانتون، سرپرست تیم قرمز فیسبوک گفته شعار تیم قرمز این شبکه اجتماعی این است که هر چقدر در فرایند آموزش سیستم هوش مصنوعی بیشتر تلاش کنیم، در هنگام رقابت با سایر سیستم‌ها کمتر آسیب می‌بینیم.

چنین شعاری شبیه ماهیت یکی از بزرگ‌ترین تمرینات تیم‌های قرمز برگزارشده در کنفرانس هک دف‌کان در لاس‌وگاس آمریکا در اوایل ماه آگوست است. در این کنفرانس ۸ شرکت ازجمله OpenAI، گوگل، متا، انویدیا، Stability AI و آنتروپیک، مدل‌های هوش مصنوعی خود را در اختیار ۲۰۰۰ هکر قرار دادند تا آنها با درخواست‌های طراحی‌شده برای نمایش اطلاعات حساس مثل شماره‌های کارت‌های بانکی یا ایجاد محتوای خطرناک مثل اطلاعات نادرست سیاسی، مدل‌ها را بررسی کنند.

دفتر سیاست علم و فناوری در کاخ سفید، با برگزارکنندگان این رویداد برای طراحی چالش‌های شناسایی آسیب‌پذیری‌ها همکاری کرد. این سازمان در همکاری مذکور برای ارائه راهنمایی در مورد روش موردنظر طراحی، راه‌اندازی و استفاده بی‌خطر از سیستم‌های خودکارسازی‌شده، به مفاد منشور هوش مصنوعی خود پایبند است.

طبق گفته کتل که در رویداد هک دف‌کان طلایه‌دار بود، در ابتدا شرکت‌ها به دلیل وجود خطرات شناخته‌شده مرتبط با شناسایی آسیب‌پذیری‌ها در انجمن‌های تیم قرمز، برای ارائه مدل‌های خود به‌صورت گسترده و بدون محدودیت به هکرها اکراه داشتند.

او در مورد این موضوع به فوربس گفته است: «گوگل یا OpenAI ما را در این کنفرانس به چشم مشتی بچه می‌بینند؛ اما پس از اینکه به شرکت‌های فناوری این اطمینان داده شد که مدل‌های آنها گمنام باقی می‌ماند، آنها با ارائه مدل‌های خود موافقت کردند.» طبق اطلاعات اخیر ارائه‌شده توسط برگزارکنندگان رویداد دفکان، نتایج نزدیک به ۱۷ هزار مورد گفتگوی هکرها با مدل‌ها تا ماه فوریه آینده منتشر نخواهد شد؛ اما متأسفانه در رویداد هک دفکان، چندین مورد آسیب‌پذیری در مدل‌های چند شرکت شناسایی شد که شرکت‌ها از اشاره‌کردن به آنها طفره رفته‌اند. اعضای تیم قرمز در ۸ مدل در حدود ۲۷۰۰ نقص امنیتی شناسایی کردند؛ مثلاً در یکی از موارد مدل AI متقاعد شد از ارائه دستورالعمل‌های مرتبط با نظارت بر یک فرد بدون اطلاع او اجتناب نکند.

یکی از شرکت‌کنندگان این رویداد، «آویجت گوش»، پژوهشگر حوزه ملاحظات اخلاقی استفاده از هوش مصنوعی بود که می‌توانست برای حل اشتباه مسائل ریاضی، ایجاد یک گزارش خبری ساختگی در مورد پادشاه تایلند و نوشتن در مورد یک بحران ساختگی مسکن، از چند مدل مختلف استفاده کند.

به نظر گوش، وجود این نقایص امنیتی در سیستم‌های هوش مصنوعی، تلاش برای شناسایی آسیب‌پذیری‌های آنها را ضروری‌تر می‌کند؛ مخصوصاً اگر این آسیب‌پذیری‌ها توسط برخی از کاربرانی که به‌عنوان ربات‌های همه‌چیزدان می‌شناسیم، شناسایی شوند.

گوش در مورد این موضوع این‌چنین گفته است:

«چندین نفر را می‌شناسم که فکر می‌کنند ربات‌ها واقعاً هوشمند هستند و با روش‌هایی مثل ارائه مرحله‌به‌مرحله منطق و دلیل، توانایی انجام وظایفی مثل تشخیص بیماری‌ها را دارند؛ اما این‌چنین نیست و آنها تنها از قابلیت تکمیل خودکار برخوردار هستند.»

در پایان باید بگوییم متخصصان معتقدند مدل‌های هوش مصنوعی مانند هیولاهای چند سر هستند و حتی اگر تیم‌های قرمز بتوانند آسیب‌پذیری‌های آنها را شناسایی کنند، باز هم نقایص امنیتی در بخش‌های دیگر ایجاد می‌شوند. به نظر کومار باید جامعه‌ای برای رفع این مشکل ایجاد شود.