Способ обойти этические ограничения большинства ИИ
Учёные Университета Карнеги — Меллона и Центра безопасности искусственного интеллекта обнаружили уязвимость, присущую большинству современных ИИ-моделей. Она позволяет обходить установленные их разработчиками морально-этические барьеры. В результате основанные на этих моделях чат-боты выдают рецепты изготовления взрывчатых устройств, пишут вредоносный код, а также поддерживают разговоры в нацистском и сексистском ключах, передаёт Fortune. Предложенный исследователями метод атаки в той или иной степени срабатывает на самых передовых современных системах: OpenAI ChatGPT в версиях на GPT-3.5 и GPT-4, Microsoft Bing Chat, Google Bard и Anthropic Claude 2. Но ещё больше он актуален для открытых больших языковых моделей вроде Meta LLaMA — успех гарантирован, когда у злоумышленника есть доступ ко всей структуре ИИ, и в первую очередь к синаптическим весам. Синаптические веса — коэффициенты, показывающие, какое влияние узел нейросети оказывает на другие узлы, с которыми он связан. Зная эту информацию, можно создать алгоритм автоматического поиска суффиксов, которые добавляются к запросу, чтобы гарантированно преодолеть ограничения системы.
Человеку эти суффиксы могут показаться по большей части длинной последовательностью случайных символов и бессмысленным набором слов. Но строка из таких символов способна обмануть большую языковую модель и заставить её дать ответ, которого ждёт организатор атаки. Схожим образом работают предложенные экспериментаторами методы атаки — например, можно предписать чат-боту начать ответ со слов «Конечно, вот...», и он в отдельных случаях обходит установленные ограничения. Но подобранные программными методами суффиксы выходят далеко за рамки подобных обходных путей и работают более эффективно. Чат-бот Vicuna, основанный на первой версии Meta LLaMA, позволяет производит атаки с успехом почти 100 %. Обновлённая модель LLaMA 2 имеет более надёжную защиту и позволяет добиваться успеха в 56 % случаев — но при попытке обрушить хотя бы один барьер из нескольких, которые подвергаются атаке одновременно, вероятность взлома повышается 84 %. Схожие показатели успеха демонстрируются при работе с чат-ботами на других открытых моделях, таких как EleutherAI Pythia или созданной в ОАЭ системе Falcon.
К некоторому удивлению самих учёных, те же самые суффиксы хорошо работают и против проприетарных моделей, разработчики которых открывают общий доступ только к интерфейсу запросов — в таких случаях доступ к весам отсутствует, и программу поиска суффиксов запустить не получается. Учёные предложили простое объяснение такому эффекту: большинство открытых моделей обучалось на общедоступных диалогах пользователей с бесплатной версией ChatGPT на основе OpenAI GPT-3.5. Поэтому неудивительно, что и бесплатная ChatGPT демонстрирует 86,6 % успеха. Высокий успех атак на закрытую Google Bard на базе PaLM 2 (66 %) может указывать на существование каких-то иных скрытых механизмов — или в Google просто покривили душой, когда заявили, что не обучали Bard на данных ChatGPT.
Примечательно, что обученная по уникальным методикам Anthropic Claude 2 демонстрирует всего 2,1 % успеха, хотя есть некоторые способы обойти эту защиту, например, предложив ИИ изобразить готовность помочь или представить, что это просто игра — тогда атаки срабатывают в 47,9 % случаев. Учёные подчёркивают, что их открытие отнюдь не означает, что мощные ИИ-модели следует изъять из общего доступа — напротив, без доступа к исходному коду этого открытия никогда бы не случилось. А перевод больших языковых моделей на проприетарные лицензии означал бы, что автоматизированные методы атаки остались бы доступными только для киберпреступников с хорошим финансированием и поддерживаемых властями стран кибервойск, а независимые учёные никогда не нашли бы способов защиты от них.
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Последние аномальные новости

Волны невидимой материи могут нарушать орбиты звезд

Гидродинамический выход на экзопланетах с малой массой

Древнеегипетская богиня неба

Женщина сняла приведение в тюрьме

Звезда НФЛ говорит об анти-ваксе и демонических НЛО

Звездная теория, объясняющая происхождение фосфора

ИИ уже развил зловещие навыки

Марсоход следит за остатками марсианской реки

Мужчине удалили огромную опухоль на голове

НЛО замечен над Сток-он-Трентом

Обнаружено семь потенциальных сфер Дайсона

Одержимая девочка подверглась 67 экзорцизмам

Погода в Бразилии породила множество теорий заговора

Правительство США имело дело с внеземными существами

Самые удивительные и необъяснимые артефакты

Свидетельства правдивости библейских историй

Таинственный спутник Юпитера Амальтея

Усилия по сохранению жизни на Марсе

Уфолог заметил новые огни на горизонте

Экспансия человечества привела к разрушениям на Земле

В метеорите обнаружили ключевые признаки ДНК

В поисках жизни на Энцеладе

Голливудский публицист оказывает услуги уфологам

Загадочная болезнь унесла жизни четырех человек

Запущена платформа для оценки безопасности ИИ

Знание ИИ поможет вам пройти собеседование

Извержения черной дыры в центре Млечного Пути

ИИ GPT-4 приблизился к успешной сдаче теста Тьюринга

ИИ будет знать все о своих пользователях

Как определить, является ли теория заговора ложной

Космические силы США заказали спутники для звездных войн

Мертва ли теория о главном сопернике темной материи

НАСА назначило первого руководителя по ИИ

Оккультный договор Мадонны

Открыли новый метод поиска первых звезд

Пищевые привычки массивных черных дыр

Сотни НЛО замечено во время северного сияния

Установить контакт с инопланетянами не удалось из-за ИИ

Штат Вашингтон породил легенду о Людях в черном

Экзопланета WASP-69b имеет кометоподобный хвост

Трансфер из аэропорта на Кипре. Плюсы услуги

Армия складских роботов Amazon становится все больше

Астероид, взорвавшийся над Берлином, быстро вращался

Астероид-убийца Апофис приблизится к Земле в 2029 году

ИИ для проведения химического синтеза

Инопланетяне калечат скот в штате Колорадо

Исследование астероида Апофис с помощью спутников

Корабли взлетели в небо у берегов Греции

НЛО поднимается из озера Сенека

Очередное сооружение на Марсе

Пациент с ксенотрансплантом умер через два месяца

Пятьдесят оттенков Серых

Ресторан Chipotle тестирует роботов для нарезки

Самая большая угроза для миссии человека на Луну

Сверхмассивная черная дыра в соседней галактике

Скалистая экзопланета светится расплавленной лавой

Снежный человек убивает домашних животных

Сотни сообщений о наблюдениях НЛО в Бельгии

Стал доступен атомарный телеграф

Таинственный черный объект попал в объектив камеры

Тектоника плит возникла после космического столкновения

Роль экспертов в разрешении наследственных споров. Судебная экспертиза и ее значение

Последствия снятия брекетов. Как поддерживать здоровье зубов и десен после удаления аппаратуры

Самые красивые букеты цветов

Как подобрать идеальный протез. Секреты правильного выбора

Влияние озона на экзопланетный климат

Восстание роботов-убийц все ближе

Демоническое лицо появилось над поверхностью Солнца

Инопланетная жизнь скрывается в кольцах Сатурна

Использование ИИ для воскрешения близких людей

Как образуются некоторые гигантские экзопланеты

Ключевой признаки женщины-психопатки

Космический телескоп TESS возобновил поиск экзопланет

НАСА хочет построить лунный поезд

НЛО-медуза над военной базой, что нужно знать

Открыли новые правила молекулярного проектирования

Охота за первыми звездами во Вселенной

Поиск крошечных черных дыр от Большого взрыва

Сверхмассивная черная дыра извергается в сердце галактики

Столкновение SpaceX с неизвестным объектом

Столкновение с инопланетянами в Бразилии

Столкновения черных дыр

Ужасающая пещера кажется безобидной

Черные дыры вращаются по яйцеобразным орбитам

Экзопланеты, на которых может существовать жизнь

Великобритания находится под угрозой поглощения ИИ

Гигантская рука обнаружена в космосе

Доказательство наличия атмосферы у скалистых экзопланет

Журналисты отметили известного уфолога

Кадры с пришельцами из Лас-Вегаса реальны

Конгресс США настаивает на раскрытии НЛО

НАСА будет искать первичные черные дыры

НАСА хочет снять Уран крупным планом

НЛО замечен над провинцией Салерно

НЛО парил над Гавайями

Обнаружен аккрецирующий миллисекундный пульсар

Обнаружили загадочный вулканизм в лунном бассейне

Пародийный фильм о корнуоллских уфологах

Потерянный спутник-шпион нашли через 25 лет

Призраки могут путешествовать во времени

Путь к созданию мощных квантовых компьютеров

Серебристый НЛО замечен над Гонолулу

Следы железа обнаружили в близкой активной галактике

Уфологическая программа Kona Blue рассекречена

Я видел светящийся белый пылающий шар НЛО

Меламин - свойства соединения и применение в промышленности

Алмазная экзопланета потеряла свою атмосферу

Варп-двигатели действительно могут быть созданы

Видео из Лас-Вегаса с пришельцами не является подделкой

Вирусное видео встречи инопланетян в Лас-Вегасе подлинное

Илон Маск не видит свидетельств присутствия инопланетян

Инопланетяне наведались в Лас-Вегас

Марсианский самолет поможет разгадать тайну метана

На древнем Марсе была земная окружающая среда

Очевидец снял НЛО в небе

Пациент с имплантатом Neuralink побеждает в видеоиграх

Поиск скрытых частиц темной материи

Пришельцы посетили Лас-Вегас

Программа по НЛО-технологиям Kona Blue

Робот-прыгун для исследования астероидов

Руку Бога сняла камера темной энергии

Светящийся НЛО был замечен в нескольких штатах

Сенаторы считают, что США тайно обнаружили НЛО

Уфологический центр в Боумене уничтожен пожаром

Частный лунный модуль доставит на Луну диск памяти

Чему может научить нас молодая Земля в поисках жизни

Армада НЛО замечена после мощного землетрясения

Артефакты из Первого храма точно датированы

Археологи озадачены необычным артефактом

Астрономам удалось обойти возмущения ионосферы

В наш мозг встроен нейронный навигатор

Влияние эффектов перспективы на наблюдения НЛО

Галактика с ненасытной черной дырой

Жак Валле бросает вызов ограничениям знаний

Жуткое видео пришельцев из Лас-Вегаса является подлинным

Кадры с пришельцами из Лас-Вегаса реальны

Как Венера стала такой сухой

Как создать настоящий световой меч

Квантовая теория гравитации, теории поля и струны

Ответ на важный вопрос о крупнейшей планете

Первый в мире электрический человекоподобный робот

Придерживаются ли инопланетяне галактических правил

Пришельцы, замеченные в Лас-Вегасе, реальны

Разгадали тайну гигантской дыры в Антарктиде

Сверхсекретный сервис ИИ для разведки США

Это приложение позволяет вам загружать свои фото НЛО

Апокалипсис стал не только религиозной, но и светской темой

Визуализация черной дыры выводит зрителей за грань возможного

Вселенная заполнена сверхлегкими черными дырами

Древний свиток раскрывает новую историю смерти Платона

Ежегодный фестиваль НЛО в северной части штата Нью-Йорк

Загадочный древний предмет может быть просто игрушкой

Инопланетяне подписали договор с правительством США

Искусство может способствовать новому взгляду на будущее

Ключевая реакция в двойных нейтронных звездах

Медицинский ИИ Google превосходит врачей по эффективности

Неуловимый звездный свет, окружающий древние квазары

Обширные исследования НЛО в Пенсильвании

Ошеломляющее образование появилось над Калифорнией

Первый в мире геологический атлас Луны высокой четкости

Подводные НЛО надо изучать

Полеты НЛО над Калифорнией, Ютой, Невадой и Аризоной

Разоблачение НЛО совместно с астрономическим обществом

Скептическое отношение к недавним расследованиям НЛО

Студент Чикагского университета заметил НЛО

Уфолог использует лазеры и инфракрасное излучение

Франшиза Bazooka Sale или независимый бизнес на маркетплейсах

Сборник интересных фактов и событий. Развиваем кругозор и эрудированность

В этих округах Техаса зафиксировано больше всего НЛО

Гигантский НЛО замечен над Мэрилендом

Глава уфологического ведомства Пентагона ушел в отставку

Голодные и прожорливые белые карлики

Демоны управляют летающими тарелками

Дыра в небе

Инопланетяне услышали мой зов

Коллаборация BREAD занимается поиском темных фотонов

Молодой экзосатурн с массивным ядром

Нам следует беспокоиться о неопознанных подводных объектах

НЛО в Ираке не созданы человеком

Подводный НЛО вылетел из океана

Проливаем свет на неиспользованные лунные ресурсы

Пугающее предсказание Бабы Ванги сбывается

Разумные инопланетяне скоро вступят в контакт

Слабое магнитное поле способствовало биоразнообразию

Трио летающих объектов над северным Ираком

Удивительный черный НЛО над Курдистаном

Подписка на новости
Наверх