ИИ научили создавать карту собственных мыслей
Команда исследователей из Т-Технологий, Московского физико-технического института (МФТИ) и Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ) разработала новаторский метод, позволяющий проследить «жизненный цикл» отдельных концепций внутри сложных нейронных сетей. Подход получил название SAE Match. Он работает как своего рода магнитно-резонансная томография для искусственного интеллекта, создавая детальную карту того, как абстрактные признаки — «пушистый», «историческое событие» или «радость» — зарождаются, трансформируются и передаются между слоями нейросети. Это фундаментальный прорыв в области интерпретируемости искусственного интеллекта, открывающий путь к созданию более прозрачных, надежных и управляемых систем.
Современные большие языковые модели подобны «черным ящикам». Мы можем восхищаться их способностью писать стихи или программный код, но до недавнего времени практически не понимали, как именно они приходят к своим выводам. Этот недостаток прозрачности — главное препятствие на пути создания по-настоящему безопасного искусственного интеллекта, ведь в глубинах нейронной сети могут скрываться нежелательные предубеждения или опасные логические цепочки. Проблема усугубляется двумя фундаментальными явлениями: полисемантичностью, когда один и тот же нейрон отвечает за несколько несвязанных понятий, и суперпозицией — множество различных признаков «упакованы» в одно и то же математическое пространство. Это похоже на попытку понять смысл романа, в котором каждое слово имеет десяток значений, а предложения могут описывать несколько событий одновременно.
Одним из ключей к расшифровке этого сложного кода стали разреженные автоэнкодеры (SAE) — специальные нейросетевые «словари», которые способны извлекать из активности нейронов отдельные, осмысленные концепции, так называемые моносемантичные признаки. Однако у этого подхода было серьезное ограничение: он позволял заглянуть лишь в один-единственный слой нейросети. Связи между этими концепциями на разных уровнях обработки информации оставались загадкой. Было неясно, является ли понятие «король» на пятом слое тем же самым, что и «король» на двадцатом, или же оно претерпело значительные изменения.
Именно эту задачу — построить мост между отдельными «этажами» нейронной сети — и решили исследователи. Их целью было создать универсальный метод, который мог бы без привлечения огромных массивов данных, лишь анализируя внутреннюю структуру модели, сопоставить признаки на разных слоях и отследить их эволюцию. Команда представила результаты работы на международной конференции ICLR 2025. Статью также опубликовали в виде препринта на научном портале arXiv.
Коллектив ученых разработал алгоритм SAE Match, решающий сложнейшую комбинаторную задачу. Представьте, что у вас есть два словаря для разных языков (два слоя нейросети), в каждом из которых тысячи понятий (признаков). Алгоритм должен найти соответствия, определив, какое понятие из первого словаря наиболее близко по смыслу понятию из второго. SAE Match делает это, минимизируя математическое расстояние между представлениями признаков. Главная сложность — на разных слоях нейросети одни и те же концепции могут иметь разный «масштаб» или «яркость». Решение этой проблемы стало ключевым нововведением. Исследователи разработали технику «свертки параметров» — элегантный математический прием, который учитывает пороги активации признаков и приводит их к единому масштабу перед сравнением. Это позволило добиться очень высокой точности сопоставления.
Результаты экспериментов, проведенных на языковой модели Gemma 2, превзошли все ожидания. Метод не только успешно сопоставлял семантически близкие признаки, что команда подтвердила с помощью внешней большой языковой модели, но и выявил фундаментальные закономерности. Оказалось, большинство концепций в нейросети «живут» и сохраняют свою смысловую стабильность на протяжении примерно пяти слоев, после чего либо исчезают, либо трансформируются во что-то новое. Самым поразительным доказательством эффективности метода стала возможность «хирургического вмешательства» в работу нейросети. Используя созданную карту связей, ученые смогли полностью «вырезать» один из слоев модели, а затем, с помощью своего алгоритма, «перебросить» информацию через образовавшуюся пропасть, соединив предыдущий слой со следующим. Языковая модель практически не потеряла производительность.
Никита Балаганский, руководитель научной группы LLM Foundations, T-Bank AI Research, аспирант Московского физико-технического института, пояснил: «С помощью нашего метода можно понять, каким образом концепции образуются и изменяются внутри языковых моделей. В дальнейшем мы сможем более точно изучать и контролировать поведение внутри модели. Возможность пропускать некоторые слои и подставлять нашу «карту» вместо них без потери качества, показывает, что мы верно представляем механизмы внутри».
Главное отличие и преимущество разработанного подхода — его полная независимость от данных. Для построения карты связей не нужно прогонять через модель терабайты текстов. Исследователи анализируют исключительно веса и параметры модели. Это делает метод чрезвычайно эффективным и универсальным. Он не просто описывает, что происходит внутри нейросети, но и позволяет предсказывать ее поведение и даже целенаправленно его изменять.
Во-первых, это мощный инструмент для обеспечения безопасности искусственного интеллекта. Анализируя пути эволюции концепций, можно выявлять и нейтрализовывать скрытые вредоносные или предвзятые логические цепочки. Во-вторых, это путь к оптимизации. Понимая, какие слои или признаки являются избыточными, можно «упрощать» модели, делая их более быстрыми и менее ресурсоемкими без потери производительности. В-третьих, это открывает двери для создания гибридных моделей, где части одной нейросети можно будет эффективно комбинировать с частями другой. В конечном счете, это исследование закладывает основу для перехода от «черных ящиков» к понятным и контролируемым системам искусственного интеллекта.
В будущем это позволит нам не только находить и исправлять ошибки в существующих моделях, но и проектировать новые архитектуры, которые будут более эффективными и безопасными.
В будущем команда планирует составить полные «генеалогические древа» для ключевых концепций в самых больших языковых моделях, а также исследовать более сложные, нелинейные взаимодействия между признаками. Разработанный инструмент может стать стандартом в новой области — механистической интерпретируемости, которая стремится превратить загадочное искусство создания искусственный интеллект в точную науку.
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Отправить донат на поддержку проекта "Аномальные новости"
Меню
Архив материалов
Проекты наших читателей
Контакты исследователей
Подписка на новости
Проекты
Новости криптозоологии
Хроники природных катастроф
Новости
26.02.2002 - 05.07.2002
05.08.2002 - 23.10.2002 (562)
24.10.2002 - 17.01.2003 (585)
20.01.2003 - 07.04.2003 (709)
08.04.2003 - 01.08.2003 (709)
04.08.2003 - 18.11.2003 (763)
19.11.2003 - 31.03.2004 (721)
01.04.2004 - 13.08.2004 (825)
16.08.2004 - 22.11.2004 (782)
23.11.2004 - 28.03.2005 (756)
29.03.2005 - 29.07.2005 (807)
30.08.2005 - 02.12.2005 (927)
05.12.2005 - 21.04.2006 (912)
24.04.2006 - 23.10.2006 (999)
24.10.2006 - 03.05.2007 (999)
04.05.2007 - 28.01.2008 (999)
29.01.2008 - 12.01.2009 (999)
13.01.2009 - 07.07.2009 (966)
22.08.2009 - 21.01.2010 (996)
22.01.2010 - 22.06.2010 (1000)
23.06.2010 - 14.01.2011 (1042)
17.01.2011 - 31.05.2011 (1008)
01.06.2011 - 03.11.2011 (1003)
07.11.2011 - 16.03.2012 (996)
19.03.2012 - 09.06.2012 (1009)
13.06.2012 - 07.09.2012 (988)
10.09.2012 - 19.11.2012 (1004)
20.11.2012 - 14.01.2013 (1015)
15.01.2013 - 22.02.2013 (1000)
23.02.2013 - 08.04.2013 (991)
09.04.2013 - 31.05.2013 (1015)
01.06.2013 - 18.07.2013 (992)
19.07.2013 - 03.09.2013 (1014)
04.09.2013 - 20.10.2013 (1001)
21.10.2013 - 02.12.2013 (1001)
03.12.2013 - 18.01.2014 (997)
19.01.2014 - 07.03.2014 (994)
08.03.2014 - 24.04.2014 (1000)
25.04.2014 - 18.06.2014 (1005)
19.06.2014 - 15.08.2014 (1019)
16.08.2014 - 07.10.2014 (1006)
08.10.2014 - 16.11.2014 (995)
17.11.2014 - 25.12.2014 (1004)
26.12.2014 - 09.02.2015 (989)
10.02.2015 - 20.03.2015 (998)
21.03.2015 - 22.04.2015 (1001)
23.04.2015 - 29.05.2015 (997)
29.05.2015 - 30.06.2015 (995)
30.06.2015 - 29.07.2015 (990)
29.07.2015 - 26.08.2015 (998)
27.08.2015 - 24.09.2015 (988)
25.09.2015 - 22.10.2015 (991)
23.10.2015 - 18.11.2015 (1000)
18.11.2015 - 16.12.2015 (990)
17.12.2015 - 23.01.2016 (1000)
24.01.2016 - 25.02.2016 (1000)
26.02.2016 - 24.03.2016 (1000)
24.03.2016 - 16.04.2016 (990)
17.04.2016 - 19.05.2016 (999)
20.05.2016 - 22.06.2016 (993)
23.06.2016 - 01.08.2016 (995)
02.08.2016 - 12.09.2016 (990)
13.09.2016 - 25.10.2016 (989)
26.10.2016 - 05.12.2016 (995)
06.12.2016 - 15.01.2017 (995)
16.01.2017 - 23.02.2017 (990)
24.02.2017 - 03.04.2017 (994)
04.04.2017 - 18.05.2017 (1000)
19.05.2017 - 05.07.2017 (1000)
06.07.2017 - 24.08.2017 (1000)
25.08.2017 - 06.10.2017 (991)
07.10.2017 - 15.11.2017 (990)
16.11.2017 - 24.12.2017 (1000)
25.12.2017 - 04.02.2018 (990)
05.02.2018 - 17.03.2018 (1000)
18.03.2018 - 02.05.2018 (990)
03.05.2018 - 11.06.2018 (1000)
12.06.2018 - 18.07.2018 (990)
19.07.2018 - 24.08.2018 (1000)
25.08.2018 - 02.10.2018 (1000)
03.10.2018 - 07.11.2018 (990)
08.11.2018 - 13.12.2018 (990)
14.12.2018 - 23.01.2019 (1000)
24.01.2019 - 02.03.2019 (1000)
03.03.2019 - 12.04.2019 (1010)
13.04.2019 - 23.05.2019 (990)
24.05.2019 - 03.07.2019 (1000)
04.07.2019 - 11.08.2019 (1000)
12.08.2019 - 16.09.2019 (990)
17.09.2019 - 26.10.2019 (1000)
27.10.2019 - 12.12.2019 (1000)
13.12.2019 - 25.01.2020 (1000)
26.01.2020 - 06.03.2020 (990)
07.03.2020 - 16.04.2020 (1010)
17.04.2020 - 19.05.2020 (1000)
20.05.2020 - 25.06.2020 (990)
26.06.2020 - 04.08.2020 (995)
05.08.2020 - 16.09.2020 (1005)
17.09.2020 - 26.10.2020 (990)
27.10.2020 - 27.11.2020 (990)
28.11.2020 - 07.01.2021 (990)
08.01.2021 - 15.02.2021 (1000)
16.02.2021 - 31.03.2021 (1000)
01.04.2021 - 12.05.2021 (1000)
13.05.2021 - 14.06.2021 (990)
15.06.2021 - 26.07.2021 (980)
27.07.2021 - 31.08.2021 (990)
01.09.2021 - 07.10.2021 (1000)
08.09.2021 - 07.11.2021 (1000)
08.11.2021 - 10.12.2021 (1000)
11.12.2021 - 24.01.2022 (990)
25.01.2022 - 04.03.2022 (1000)
05.03.2022 - 10.04.2022 (990)
11.04.2022 - 17.05.2022 (1000)
18.05.2022 - 23.06.2022 (980)
24.06.2022 - 31.07.2022 (990)
01.08.2022 - 13.09.2022 (990)
14.09.2022 - 21.10.2022 (990)
22.10.2022 - 29.11.2022 (1000)
30.11.2022 - 22.01.2023 (1000)
23.01.2023 - 02.03.2023 (990)
03.03.2023 - 21.04.2023 (1000)
22.04.2023 - 13.06.2023 (990)
14.06.2023 - 02.08.2023 (1000)
03.08.2023 - 21.09.2023 (1000)
22.09.2023 - 06.11.2023 (990)
07.11.2023 - 24.12.2023 (990)
25.12.2023 - 18.02.2024 (1000)
19.02.2024 - 05.04.2024 (990)
06.04.2024 - 25.05.2024 (1000)
26.05.2024 - 26.07.2024 (1000)
26.07.2024 - 25.08.2024 (990)
26.08.2024 - 28.09.2024 (980)
29.09.2024 - 01.11.2024 (1000)
02.11.2024 - 02.12.2024 (980)
03.12.2024 - 08.01.2025 (990)
09.01.2025 - 09.02.2025 (1000)
10.02.2025 - 20.03.2025 (1000)
21.03.2025 - 03.05.2025 (990)
04.05.2025 - ...
Статьи
Статьи: раздел 1 (1024)
Статьи: раздел 2 (1006)
Статьи: раздел 3 (1000)
Статьи: раздел 4 (1044)
Статьи: раздел 5 (1001)
Статьи: раздел 6 (1000)
Статьи: раздел 7 (1000)
Статьи: раздел 8 (1013)
Статьи: раздел 9 (1000)
Статьи: раздел 10 (1000)
Статьи: раздел 11 (329)
Статьи: раздел 12 (1000)
Статьи: раздел 13 (730)
Лента новостей

Белый дом формирует научную группу по изучению НЛО

Добыча кислорода из лунной почвы

Заявления Спилберга о присутствии инопланетян

Как рассмотреть нашу Вселенную

Лаборатория естественной химии у протозвезд

Медицинские системы для Луны и Марса

Министерство обороны скрывает детали об НЛО

Мощный НЛО обнаружен в далекой черной дыре

Наблюдение НЛО в форме гигантской картофелины

Наше представление о календаре майя

Неразгаданные тайны Стоунхенджа

От морского дна до Марса

Сверхмассивные чёрные дыры - крупнейшие колыбели планет

Способ оценки масс новорожденных планет

Стремиться ли к Луне

Суперконтинент сделал из Земли снежный ком

Ученые обновляют план первого контакта

Фильм Спилберга об НЛО основан на достоверных данных

Хронология древних океанов Марса

Черная дыра образовалась раньше своей галактики

Артефакты на фотографии марсохода Кьюриосити

Белый дом опубликовал новые файлы с НЛО

Брифинг НАСА о инопланетной звездной базе

В архивах Ватикана нет записей об НЛО

В куклу вселился призрак собаки

Внутри особняка с привидениями в Денвере

Военные отслеживали антигравитационные технологии

Все cвидетельства путешествий во времени

Инопланетяне уже посещали Землю

НЛО над главным аэропортом Зимбабве

НЛО отслеживается самолетом ВВС США

НЛО пролетел по небу над Индией

Оранжевая сфера повергла рыбака в шок

Пентагон опубликовал 72 новых файла об НЛО

Путешественник во времени времен Второй мировой войны

Режиссер Стивен Спилберг заявляет, что мы не одиноки

Светящийся шар запустил рой загадочных объектов

Существование путешествий во времени

Убедитесь в реальности путешествий во времени

Черный шар засеивает облака дронами

Брифинг НАСА о инопланетной звездной базе на Луне

Где же все черные дыры промежуточной массы

Давно скрытые секреты выходят на свет

Диски, светящиеся шары и картофелина

Древние изменения климата Марса

Замечен всплеск наблюдений красных шаров

Исключение темной энергии из уравнения

Китай и Россия обладают сбитыми НЛО

Конференция по НЛО пройдет в Канаде

Красные карлики пожирают планеты, похожие на Землю

Лунные базы сталкиваются с невидимой угрозой

Новый телескоп может обнаружить 100 000 миров

Окончательная перепись близких звёздных систем

Почему первые галактики прекратили звездообразование

Размытые видеозаписи и никаких фактов

Странное квантовое свойство изолятора будущего

Триллер Стивена Спилберга об НЛО всех покорил

Туристы запечатлели яркий треугольный НЛО

Файлы об НЛО разжигают панику на Земле

Фильм Стивена Спилберга об НЛО бьёт рекорды

Эволюция городской мобильности. Все об электросамокатах

Встреча с инопланетянами в Розуэлле

За кулисами печально известного интервью Груша

Загадочная картофелина над Колорадо

Инопланетный корабль был всего лишь светом

Инопланетян по-прежнему нет

Наблюдения таинственных шаров

Недавно опубликованное досье Пентагона об НЛО

Новое внимание к исчезновению генерал-майора

Новые файлы НЛО могут содержать угрозу безопасности

Последние мгновения перед исчезновением генерала

Правительства скрывают правду об инопланетянах

Прозрачный НЛО искривил пространство

Разоблачитель НЛО заявляет о секретных расходах

Рецензия на фильм Стивена Спилберга

Сообщения о светящихся красных шарах

Странные огни, но мало неопровержимых фактов

США публикуют третью порцию файлов об НЛО

Трамп обнародовал третью порцию файлов об НЛО

Угрожает ли Вере раскрытие НЛО

Шкала сообщений об НЛО, заслуживающих изучения

Большинство американцев верят в НЛО

Вращающиеся диски и светящиеся шары

Время существует не везде

Инопланетяне могут существовать

Инопланетяне на чемпионате мира

Опубликованы новые файлы об НЛО

Официальные лица США приблизились к тайне НЛО

Пентагон опубликовал третью партию файлов об НЛО

Плазменные шары в центре внимания

Появление НЛО над Зимбабве летом 2008 года

Публичное раскрытие администрации Трампа

Пять сообщений правоохранительных органов о НЛО

Светящиеся шары на северо-востоке США

Создали ядерные шаровые молнии в лаборатории

США публикуют третью партию файлов об НЛО

Третья партия файлов об НЛО

Уфологические файлы Пентагона содержат видеозаписи

Фильм, который стоит посмотреть перед Днем раскрытия

Христианство совместимо с концепцией НЛО

Шаровые НЛО над северо-востоком США

Реальные истории, которые легли в основу фильмов ужасов

Артефакт обнаружен на фото марсохода

База инопланетян в районе северного полюса Луны

Восемь инопланетных существ, описанных властями

Грибы на Марсе сделают реголит плодородным

Загадочный водяной лед Меркурия

Замаскированный НЛО направляется к району ранчо Скинуокер

Инвестор ищет возможности, связанные с НЛО

Инопланетяне как никогда близки

Кладезь данных о гравитационных волнах

Марс может помочь нам понять маргинальные экзопланеты

Невероятный научно-фантастический мини-сериал

Новый опрос проливает свет на убеждения американцев

Обнаружена трижды затменная система звёзд

Одержимость Стивена Спилберга инопланетянами

Пилот видел НЛО размером больше авианосца

Правительственные секреты об инопланетянах

Привел ли инцидент в Варгинье к обнаружению инопланетян

Реальные доказательства или мистификация

Светящийся шар завис над городом

Умирающая звезда создала Хрустальный Шар

Величайшее сокрытие информации в истории США

День раскрытия информации хочет, чтобы вы поверили

Доказательство реальности путешествий во времени

Как использовать лунные ресурсы

Миллиарды секретных расходов, скрытых от Конгресса

Многие фильмы Спилберга об инопланетянах глубокие

Многомиллиардный секрет американских военных

Не верьте ажиотажу вокруг искусственного интеллекта

НЛО увеличивает число подписчиков блогеров

Определили физические признаки нашего Сознания

Отвечать на сигналы инопланетян запрещено

План на день, когда инопланетяне вступят в контакт

Почему размер популяции не спасает ее от вымирания

Связи ЦРУ с инопланетными технологиями

Скрытый порядок в многомерной случайности

Странные огни, бесшумные корабли и близкие встречи

США изучали комаров как биологическое оружие

ЦРУ собирает инопланетные технологии

Черные дыры делают экзопланеты непригодными для жизни

Эмили Блант изучала реальные истории о похищениях

Берегитесь Малдеров и Скалли

В файлах об НЛО христиане видят демонов

Внеземная жизнь может ускользать от зондов

Законодатели хотят, чтобы уфо-инсайдеры имели иммунитет

Как Великая пирамида пережила землетрясения

Конгрессмен осуждает препятствия на пути к правде

На острове Пасхи появилась новая статуя

Недалеко от Юпитера наши рой метеоритов

Нужно принять меры по обеспечению прозрачности

Обнаружили сверхземлю у близлежащего красного карлика

Писать письма инопланетянам нестоит

Правительство США вербовало детей-экстрасенсов

Правительству США известно об инопланетянах

Сильно покрасневшие загадочные квазары

Скептик посетил ранчо Скинуокер

Стивен Спилберг вызвал возмущение из-за НЛО

Стремление к раскрытию тайн НЛО

Уфо-инсайдеры штурмуют Капитолийский холм

Участники сообщества конспирологов на Reddit

Экзопланета размером с Сатурн и земной температурой

Адские планеты более распространены, чем экзоземли

Вот 15 лучших фильмов об НЛО

Встречи с инопланетянами. Факт или вымысел

Жанна д’Арк - девушка, которая определила будущее мира

Жуткий НЛО замечен в Бразилии

Инопланетяне - самозванцы

Испытали управляемый снаряд для рельсотрона

Как инопланетянам достичь Земли

Картина доказывает, что путешествия во времени реальны

Кристаллы пространства и времени

Людей отправляют в Ад чаще, чем в Рай

Обреченные экспедиции - почва для теорий заговора

Они прилетели из чужих миров

Откуда Земля получила фосфор и азот

Под водами озера Шамплейн скрывается чудовище

Правительству США известно о расах инопланетян

Решение проблемы Кардашева

Секретные программы обратного инжиниринга НЛО

Сотрудник ЦРУ рассекретил сеть инопланетных хабов

Что бы почитать про НЛО

Грузовики с КМУ от «Грузовик-ДВ»

Администрация Байдена стреляла ракетами по шарам

Архиепархия Вашингтона разошлась во мнениях о НЛО

Все предсказания Ванги на 2026 год

Наверх
Яндекс.Метрика