ИИ можно заставить говорить на запрещённые темы
Разработчики современных систем искусственного интеллекта накладывают на них ограничения, запрещая давать ответы на отступающие от традиционных этических норм вопросы. Существует множество способов обойти эти ограничения, и очередной такой способ открыли исследователи из компании Anthropic — измотать ИИ вопросами. Учёные назвали новый тип атаки «многоимпульсным взломом» (many-shot jailbreaking) — они подробно описали его в статье и предупредили коллег о выявленной уязвимости, чтобы последствия атаки можно было смягчить. Уязвимость возникла из-за того, что у больших языковых моделей последнего поколения увеличилось контекстное окно — объём данных, который они могут хранить в том, что заменяет им кратковременную память. Раньше этот объём данных ограничивался несколькими предложениями, а сейчас он вмещает тысячи слов и даже целые книги. Исследователи Anthropic обнаружили, что модели с большими контекстными окнами, как правило, лучше справляются с задачами, если в запросе содержатся несколько примеров решения подобных задач. Другими словами, чем больше в запросе простых вопросов, тем выше качество ответа. И если первый вопрос ИИ понимает неправильно, то с сотым ошибки уже не будет. Но в результате такого «контекстного обучения» большая языковая модель начинает «лучше» отвечать на недопустимые вопросы.
Так, если просто спросить её, как собрать бомбу, она откажется отвечать. Но если перед этим задать модели 99 менее опасных вопросов, а затем снова спросить, как собрать бомбу, вероятность получить недопустимый ответ вырастет. Трудно сказать наверняка, почему эта атака срабатывает. В действительности никто не знает, что творится в сложной системе весов, которую представляет собой большая языковая модель, но, видимо, существует некий механизм, который помогает ей сосредоточиться на том, что нужно пользователю — понять это помогает содержимое контекстного окна. И когда он говорит о том, что можно принять за мелочи, после упоминания в нескольких десятках вопросов они перестают быть мелочами. Авторы работы из Anthropic проинформировали коллег и конкурентов о результатах исследования — они считают, что раскрытие информации подобного рода должно войти в отраслевую практику, и в результате «сформируется культура, в которой эксплойты вроде этого будут открыто распространяться среди разработчиков больших языковых моделей и исследователей». Наиболее очевидный способ смягчить последствия атаки — сократить контекстное окно модели, но это снизит качество её работы.
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Последние аномальные новости

Алмазные процессоры уже на подходе

Арахниды в городе Инков на Марсе

В Зоне 51 есть сверхзащищенная база внутри базы

В Ланкашире обнаружена своя Зона-51

Есть ли инопланетяне на экзопланете K2-18b

Инопланетяне путешествуют автостопом на астероидах

Китай создает свою версию мозгового чипа

Контактер получил послание от Бога

Музыкант стал первым пассажиром летающего автомобиля

Наблюдения НЛО над Мерсисайдом

Пауки замечены на Марсе

Пилот видел в небе четыре необъяснимых объекта

Подросток из Лас-Вегаса рассказал о пришельцах

Потомки птицоидов из Зимбабве

Почти 2000 наблюдений НЛО над Великобританией

США готовятся к войне в космосе

Ученый раскрыл причину проклятия фараона

Ходьба пешком повышает работоспособность мозга

Черные дыры препятствуют звездообразованию

Является ли ИИ ChatGPT сексистским

Бабайка похитила ребенка

В Сколково начали печь хлеб из насекомых

Вонючий дом шипящей ведьмы в Детройте

Вулканы на Ио непрерывно извергаются более 4,5 млрд лет

Женщина сорвала джекпот после предсказания гадалки

Жителей Самарской области напугали черные кольца в небе

Как лучше строить здания из реголита на Луне

Корональные выбросы массы в ионосфере Марса

Лазерный двигатель для сверхзвуковых подводных лодок

На шее женщины выросла огромная опухоль

Нашли неолитическую дорогу мертвых

Недоношенная девочка, признанная мертвой, ожила

Портал между мирами на горе Уррака

Психологи усомнились в существовании внутренних часов

Русский Нострадамус. В чем феномен Жириновского

Самые таинственные исторические артефакты

Сознание людей еще не готово к НЛО

Уфологические исследования во Франции

Ферменты, превращающие разные группы крови в первую

Физическая сила от природы способствует долголетию

Безотопливный двигатель бросает вызов законам физики

Близкие контакты с НЛО опасны

Женщина увидела НЛО из окна самолета над Нью-Йорком

Звездолет инопланетян вылетает из Солнца

Компании могут использовать ИИ в отношениях с клиентам

Летающий цилиндр замечен над нью-йоркским аэропортом

НАСА пересмотрит миссию по возвращению образцов с Марса

НЛО над Нью-Йорком поставил в тупик пассажира

Обнаружены новые структуры из сверхтяжелых кварков

Первый 3D-взгляд на магнитное поле нашей галактики

Подросток из Лас-Вегаса пострадал от демонического существа

Пришло время поговорить об НЛО

Радиотелескоп, изменивший наше представление о космосе

Самые убедительные наблюдения НЛО в истории Висконсина

Свет может испарять воду без нагрева

Странный цилиндр пролетел около аэропорта Ла Гуардиа

США действительно обнаружили разбившийся НЛО

Узнаем ли мы, есть ли жизнь на TRAPPIST-1e

Универсальная структура для пространственной биологии

Унификация концепции турбулентности звезд

Адмирал бьёт тревогу из-за НЛО

Альберта занимает третье место по аномальным зонам

Астероид Камо'Оалева был выброшен с Луны

ВВС США следят за внеземной деятельностью

Венера дает важные уроки о потенциале жизни

Вселенная и темная материя эволюционировали совместно

Город Богов, брошенный жителями

Дневник подробной хронологии грядущих столетий

Загадочная человеческая челюсть из коллекции Boy's rock

Инопланетяне отложили Судный день

Конгрессмен обвиняет правительство в сокрытии НЛО

Модель формирования экзопланет-изгоев

Новый Нострадамус выдал партию пророчеств

Первый миллисекундный пульсар в центре галактики

Подводные НЛО представляют реальную угрозу

Правительство не хочет рассекретить документы об НЛО

Приливные силы заставили экзопланету излучать тепло

Ранние галактики эволюционировали намного быстрее

Стивен Спилберг всю жизнь был очарован инопланетянами

Трехмерная структура вспышки вокруг черной дыры

В отчете об НЛО указаны две горячие точки

Гигантское озеро лавы на Ио

Давайте поговорим о НЛО

ИИ станет умнее любого человека в 2025 году

Как гамма-всплески порождают свет

МКС стала рассадником бактерий-мутантов

На дне Балтийского моря обнаружено НЛО

НЛО нарушают все законы физики

НЛО перевозят по пустынной дороге на прицепе

Обнаружили 13 штаммов бактерий-мутантов на МКС

Обнаружили самую крупную звездную черную дыру

Очень важно раскрыть данные об НЛО

Паломники сообщили об НЛО в небе Массачусетса

Почему на Марсе выделяется метан

Программа Kona Blue для реинжиниринга НЛО

Раскрытие проекта Aqua

Стоунхендж ориентирован как на Луну, так и на Солнце

Строительным элементам жизни легче формироваться в космосе

Такер Карлсон высмеял утверждения об инопланетянах

Хью Джекман был послан инопланетянами

Матовые стеклянные перегородки - особенности, виды, как выбрать

В районе Красной поляны обнаружили два дольмена

Два охотника стали первыми жертвами болезни оленей

Должно быть место для честного расследования НЛО

Древнейший вулканизм в Солнечной системе

Жители ХМАО засняли НЛО на фоне северного сияния

Загадка странных огней в ночном небе Вены

Китаец прожил 35 лет с просветом аорты

Люди эволюционировали как жуки, а не как позвоночные

Марсоход получил изображения окаменелостей людей

Нашли экзопланету-бродягу земного типа

НЛО в небе над Сызранью

НЛО, трансформации и откровения астронавтов

Ограничение калорий замедлило биологическое старение

Первая буква фамилии студентов определяет успеваемость

Полая Земля, летающие щиты и муравьиные боги

Почему умные люди верят в теории заговора

Сбывающиеся предсказания ясновидящей Ванги

Фрагменты белков могут возникать в космосе

Человек прилетевший с небес

Шамбала и полая Земля в древнем буддизме

Георадар будет искать водные объекты на Юпитере

Дьявольская комета наконец-то стала видна

Затерянный город найден на территории Тонгатапу

ИИ и НАСА борются с изменением климата

Инопланетное существо, выброшенное на австралийский пляж

Какова масса покоящегося нейтрино

НАСА предупреждает о военном присутствии Китая в космосе

НЛО пролетел над красотами Перта

Ортоклаз из свинца - это своего рода загадка

Отчет о программе Kona Blue

Паскагула устраивает вечеринку в честь похищения

Путешественник во времени показал фото из будущего

Самая глубокая дыра в земле была закрыта

Самые странные и неповторимые дома в Огайо

Случаи похищения людей инопланетянами будут изучены

Смертоносная пещера, которая может вызвать пандемию

Такер Карлсон видел свидетельства о подводных НЛО

У человека расплавились пальцы при встрече с НЛО

Увлечение внеземной жизнью восходит к 17-му веку

Черный зверь бродил по полю британского фермера

Встреча с НЛО в школе Ариэль в Зимбабве

Город-призрак, жители которого были вынуждены бежать

Горы и лавовые озера на Ио с высоты птичьего полета

Два неизвестных объекта пролетели мимо МКС

Документальный фильм о похищении в Паскагуле

ИИ VASA1, который может заставить изображения говорить

ИИ изучает планетарный пограничный слой Земли

Инопланетяне украли мои яйцеклетки

Китай осуществляет военные программы в космосе

Книга, предсказавшая катастрофу Титаника

Компания Boston Dynamics представила нового робота

Метеорологи предупреждают о погодных войнах между странами

НЛО залетел в действующий вулкан

Подводя черту под происхождением жизни

Прыщ превратился в опухоль размером с арбуз

Скрытый потенциал РНК в развитии биоинженерии будущего

Состоят ли дюны Титана из кометной пыли

Таинственная механика полета насекомых

Тайна аномалии Балтийского моря наконец-то раскрыта

Хаббл отправляется на поиски небольших астероидов

Гелиевая звезда с самым низким содержанием металлов

Екатеринбуржец выставил на продажу летающую тарелку

Жизнь может существовать в темных водных Европы

Загадка формирования массивных горячих субкарликов

ИИ способен революционизировать кредитование

Инопланетян следует искать на фиолетовых планетах

Инопланетяне похитили яйца у женщины

Метеорит пробил крышу дома

Непрерывные фейковые новости оказывают большее влияние

НЛО влетает в действующий вулкан-портал

НЛО пилотируются духовными сущностями

Океан Энцелада может поддерживать жизнь

Перуанские мумии не являются инопланетянами

Полицейская камера сняла аварийную посадку НЛО

Полярные сияния на холодных коричневых карликах

Попытки AARO вступить в контакт с Дэвидом Грушем

Правительство США намеренно скрывает информацию об НЛО

Разгадка тайн атмосферных рек

США провели испытания управляемого ИИ истребителя

Экстремальные холода в условиях потепления климата

В один прекрасный день ИИ сможет выполнять всю нашу работу

В сеть просочился отчет о встрече ВМС США с НЛО

Давайте поговорим о неопознанных подводных объектах

Доказательства существования инопланетной жизни

Жизнь нужно искать в пурпурных мирах

Подписка на новости
Наверх