دانشمندان محدودیتهای اخلاقی چتباتها را به چالش کشیدند
تاریخ انتشار: ۱۱ دی ۱۴۰۲ | کد خبر: ۳۹۴۲۳۵۸۸
به گزارش خبرگزاری علم و فناوری آنا به نقل از تامزهاردور، محققان دانشگاه نانیانگ سنگاپور موفق به جیلبریک یا شکستن قفل امنیتی چتباتهای هوش مصنوعی محبوب ازجمله چت جیپیتی، گوگل بارد و بینگ شدهاند.
در کل، جیلبریک (jailbreak) به فرایند دور زدن محدودیتها در یک سیستم گفته میشود.
هدف تیم تحقیق دانشگاه صنعتی نانیانگ از این آزمایش هم به چالش کشیدن محدودیتهای اخلاقی مدلهای زبانی بزرگ (LLM) است چراکه چتباتهایی که جیلبریک میشوند، فارغ از محدودیتهای اعمالشده از سوی سازندگان، پاسخهای معتبری به سؤالات بدخواهانه میدهند.
بیشتر بخوانید:
اخباری که در وبسایت منتشر نمیشوند!
روش استفادهشده برای شکستن قفل امنیتی چتباتهای هوش مصنوعی، «شاهکلید» (Masterkey) نامیده میشود. این روشی دو مرحلهای است که در آن، ابتدا مهاجم مکانیزم دفاعی یک مدل زبانی بزرگ را مهندسی معکوس میکند و بعد، یک مدل زبانی بزرگ دیگر را با دادههای به سرقت رفته آموزش میدهد تا در نهایت کنترل هوش مصنوعی رقیب را به دست بگیرد.
با این اوصاف، شاهکلید برای حمله به مدلهای زبانی قدرتمند طراحی شده است و حتی بعد از رفع نقاط ضعف مدلهای زبانی بزرگ و اعمال وصلههای امنیتی، همچنان قادر به شکستن قفل آن هست. به عبارت دیگر، حتی اگر چتبات قربانی بهروزرسانی شود، بار دیگر به طور خودکار جیلبریک میشود.
آنگونه که پژوهشگران میگویند، جیلبریک با تکیه بر توانایی یادگیری و انطباقپذیری چتبات امکانپذیر میشود. به بیان دیگر، نقطه قوت مدلهای زبانی هوش مصنوعی را میتوان به پاشنه آشیل شان تبدیل کرد. یک مدل زبانی هوش مصنوعی حتی اگر برای مقابله با تولید محتوای خشن و مضر، به پادمانها یا لیستی از کلیدواژههای ممنوعه مجهز باشد، به دلیل مهارتش در یادگیری و انطباقپذیری، ممکن است از سوی سایر مدلهای آموزشدیده هوش مصنوعی دور زده شود. همه آنچه که چتبات مهاجم باید انجام دهد این است که از چتبات قربانی پیشی بگیرد و از بهکارگیری لیست کلیدواژههای سیاه آن پرهیز کند. پس از انجام این کار، مهاجم میتواند چتبات شکستخورده را وادار به تولید محتوای خشونتآمیز، غیراخلاقی یا مجرمانه کند.
ادعا میشود که در مقایسه با دستورالعملهای رایج، شاهکلید دانشگاه نانیانگ در جیلبریک چتباتهای مدل زبانی بزرگ، سه برابر بهتر عمل میکند.
پژوهشگران دانشگاه نانیانگ با ارائه دادههای لازم به شرکتهای مادر چتباتهای معروف، آنها را از نتایج تحقیق خود مطلع کردهاند. همچنین، مقاله آنها برای ارائه در سمپوزیوم امنیت شبکه و سیستمهای توزیعشده (NDSS) که در فوریه ۲۰۲۴ (اسفند ۱۴۰۲) در سندیگو برگزار میشود، تأیید شده است.
انتهای پیام/
منبع: آنا
کلیدواژه: چت بات هوش مصنوعی چت جی پی تی تولید محتوا مدل های زبانی هوش مصنوعی محدودیت ها زبانی بزرگ چت بات مدل زبانی چت بات ها
درخواست حذف خبر:
«خبربان» یک خبرخوان هوشمند و خودکار است و این خبر را بهطور اتوماتیک از وبسایت ana.press دریافت کردهاست، لذا منبع این خبر، وبسایت «آنا» بوده و سایت «خبربان» مسئولیتی در قبال محتوای آن ندارد. چنانچه درخواست حذف این خبر را دارید، کد ۳۹۴۲۳۵۸۸ را به همراه موضوع به شماره ۱۰۰۰۱۵۷۰ پیامک فرمایید. لطفاً در صورتیکه در مورد این خبر، نظر یا سئوالی دارید، با منبع خبر (اینجا) ارتباط برقرار نمایید.
با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت «خبربان» مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویر است، مسئولیت نقض حقوق تصریح شده مولفان در قانون فوق از قبیل تکثیر، اجرا و توزیع و یا هر گونه محتوی خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.
خبر بعدی:
با ترور دانشمندان نمیتوانند دانش بومی را از ما بگیرند
دریافت 10 MB کد خبر 6089768