Самообучающийся разум. Новая эра рассуждений
Исследователи представили OpenSIR, платформу самообучения с подкреплением, использующую самоигру и разнообразные награды для развития математического мышления больших языковых моделей. Модель OpenSIR демонстрирует способность к самостоятельному освоению математических задач без участия человека, открывая путь к развитию искусственного интеллекта, способного к непрерывному обучению.
Исследователи представили OpenSIR, систему, использующую самообучение и разнообразные награды для решения математических задач и генерации новых, с верифицируемой обратной связью.
Современные подходы к обучению языковых моделей с подкреплением для рассуждений часто требуют размеченных данных для оценки результатов, что ограничивает потенциал достижения сверхчеловеческого уровня. В данной работе представлен OpenSIR: Open-Ended Self-Improving Reasoner – фреймворк самообучения, в котором модель самостоятельно генерирует и решает новые математические задачи, попеременно выполняя роли учителя и ученика без внешнего контроля. Эксперименты показали, что OpenSIR значительно улучшает навыки решения задач у моделей Llama-3.2-3B-Instruct и Gemma-2-2B-Instruct на наборах данных GSM8K и College Math, благодаря оптимизации сложности и разнообразия генерируемых задач. Способен ли такой подход к самообучению привести к созданию действительно автономных систем искусственного интеллекта, способных к неограниченному обучению и открытиям?
Иллюзия Рассуждений: Ограничения Больших Языковых Моделей
Современные большие языковые модели (LLM) демонстрируют впечатляющую производительность, однако часто испытывают трудности при решении сложных, многошаговых задач рассуждения, ограничивая их надежность в критических приложениях. Традиционные подходы к обучению с подкреплением требуют обширной ручной аннотации, создавая узкое место при масштабировании. Это требует значительных затрат и затрудняет адаптацию моделей к новым задачам.
Включение вознаграждения за разнообразие приводит к генерации задач с низкой текстовой схожестью и минимальным перекрытием концепций, что свидетельствует об эффективном исследовании различных типов задач.
Ограничения существующих методов стимулируют поиск альтернативных стратегий для повышения способности LLM к комплексному рассуждению без чрезмерной зависимости от ручной аннотации. Необходимо создание систем, способных к самообучению и адаптации в условиях неопределенности. Стабильность – это всего лишь иллюзия, которая хорошо кэшируется.
OpenSIR: Эволюция Учителя и Ученика
В рамках исследований в области искусственного интеллекта представлена система OpenSIR – новая парадигма самообучения, позволяющая большим языковым моделям (LLM) итеративно генерировать и решать математические задачи без внешнего контроля. Ключевым элементом OpenSIR является динамика “Учитель-Ученик”, где одна модель генерирует задачи, а другая – решает. Постоянное взаимодействие и взаимное обучение способствуют непрерывному улучшению обеих моделей.
Использование принципа самообучения направлено на повышение способности моделей к логическому мышлению и решению сложных задач. Цикл генерации задач и их решения обеспечивает постоянную тренировку и совершенствование навыков, позволяя моделям развивать более глубокое понимание математических концепций.
Управление Разнообразием и Сложностью в OpenSIR
В системе OpenSIR для оценки качества задач и корректности решений используется функция оценки, направляющая процесс обучения и позволяющая модели совершенствовать свои навыки. Для стимулирования исследования разнообразных математических концепций применяется награда за разнообразие, поощряющая генерацию новых типов задач и расширяющую область знаний системы.
Расстояние между задачами (Embedding Distance) используется для измерения семантической близости. Это обеспечивает исследование широкого спектра концепций и предотвращает зацикливание на узком наборе тем. Кроме того, система динамически регулирует сложность задач посредством калибровки сложности, поддерживая оптимальный уровень вызова для модели.
OpenSIR: Валидация на Стандартных Наборах Данных
Система OpenSIR демонстрирует существенные улучшения в производительности на сложных наборах данных для математического рассуждения, таких как GSM8K и MATH. Эффективность подхода к самообучению подтверждена оценками с использованием моделей Llama-3.2-3B-Instruct и Gemma-2-2B-Instruct.
Применение OpenSIR наблюдает повышение показателя успешности решения задач для сложных проблем. Модель Llama-3.2-3B-Instruct улучшила свою точность на GSM8K на 4.4 процентных пункта (до 78.3%), а на College Math — на 5.6 процентных пункта (до 34.4%). Система способствует увеличению охвата концепций. Модель Gemma-2-2B-Instruct продемонстрировала улучшение точности на GSM8K на 20.2 процентных пункта (до 58.7%), а на College Math — на 4.3 процентных пункта (до 23.4%). Система не просто решает задачи, она взращивает понимание.
Расширяя Горизонты Автономного Рассуждения
Дальнейшие исследования будут сосредоточены на масштабировании OpenSIR для ещё более крупных моделей и сложных предметных областей. Особое внимание уделяется оптимизации вычислительных ресурсов и разработке алгоритмов, способных эффективно работать с данными высокой размерности. Изучение различных структур вознаграждения и стратегий обучения по учебным программам может дополнительно оптимизировать процесс обучения.
Рассматривается возможность использования методов обучения с подкреплением и активного обучения для повышения эффективности и скорости сходимости модели. Применение OpenSIR в таких областях, как научные открытия и генерация кода, обещает открыть новые уровни автоматизации и инноваций. Способность фреймворка генерировать разнообразные и сложные задачи также имеет потенциал для создания более надёжных и устойчивых систем искусственного интеллекта.
Представленная работа демонстрирует стремление к созданию систем, способных к самостоятельному развитию, что неминуемо ведёт к усложнению архитектуры. OpenSIR, стремясь к генерации и решению новых задач, подобна организму, растущему и развивающемуся без внешнего контроля. Эта тенденция к самообучению, несомненно, порождает необходимость в постоянной адаптации и пересмотре первоначальных принципов. Как однажды заметила Ада Лавлейс: «Самое главное – это предвидеть последствия». В контексте OpenSIR это означает, что при проектировании системы самообучения необходимо учитывать не только текущие возможности, но и потенциальные направления её развития, чтобы избежать непредсказуемых ошибок и обеспечить устойчивость к будущим изменениям. Развитие подобных систем не является построением, а скорее взращиванием, где каждый архитектурный выбор — это пророчество о будущем сбое.
Что дальше?
Представленная работа, стремясь к автономному обучению математическому рассуждению, неизбежно сталкивается с фундаментальным вопросом: что есть «прогресс» в системе, лишенной внешнего наблюдателя? OpenSIR демонстрирует способность генерировать и решать задачи, но само определение «интересной» или «сложной» задачи остается заложенным в архитектуре вознаграждения. Система, которая идеально оптимизирует заранее заданные метрики, рискует зациклиться на локальных оптимумах, игнорируя потенциальные пути развития, которые не вписываются в узкие рамки критериев оценки.
Следующим шагом представляется не столько увеличение масштаба модели или усложнение алгоритмов, сколько исследование механизмов внутренней диверсификации. Система, которая никогда не ошибается, мертва. Настоящая самообучающаяся система должна не избегать ошибок, а активно их искать, рассматривая сбои не как дефекты, а как акты очищения, обнажающие скрытые предположения и ограничения.
В конечном счете, перспектива открытого, самообучающегося разума заключается не в создании идеального решателя задач, но в формировании сложной, непредсказуемой экосистемы, где обучение — это не оптимизация, а непрерывный процесс адаптации и трансформации. И в этом процессе, как и в любом другом, нет места совершенству – только постоянное движение к новым, неизбежно несовершенным, состояниям.
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Отправить донат на поддержку проекта "Аномальные новости"
Меню
Архив материалов
Проекты наших читателей
Контакты исследователей
Подписка на новости
Проекты
Новости криптозоологии
Хроники природных катастроф
Новости
26.02.2002 - 05.07.2002
05.08.2002 - 23.10.2002 (562)
24.10.2002 - 17.01.2003 (585)
20.01.2003 - 07.04.2003 (709)
08.04.2003 - 01.08.2003 (709)
04.08.2003 - 18.11.2003 (763)
19.11.2003 - 31.03.2004 (721)
01.04.2004 - 13.08.2004 (825)
16.08.2004 - 22.11.2004 (782)
23.11.2004 - 28.03.2005 (756)
29.03.2005 - 29.07.2005 (807)
30.08.2005 - 02.12.2005 (927)
05.12.2005 - 21.04.2006 (912)
24.04.2006 - 23.10.2006 (999)
24.10.2006 - 03.05.2007 (999)
04.05.2007 - 28.01.2008 (999)
29.01.2008 - 12.01.2009 (999)
13.01.2009 - 07.07.2009 (966)
22.08.2009 - 21.01.2010 (996)
22.01.2010 - 22.06.2010 (1000)
23.06.2010 - 14.01.2011 (1042)
17.01.2011 - 31.05.2011 (1008)
01.06.2011 - 03.11.2011 (1003)
07.11.2011 - 16.03.2012 (996)
19.03.2012 - 09.06.2012 (1009)
13.06.2012 - 07.09.2012 (988)
10.09.2012 - 19.11.2012 (1004)
20.11.2012 - 14.01.2013 (1015)
15.01.2013 - 22.02.2013 (1000)
23.02.2013 - 08.04.2013 (991)
09.04.2013 - 31.05.2013 (1015)
01.06.2013 - 18.07.2013 (992)
19.07.2013 - 03.09.2013 (1014)
04.09.2013 - 20.10.2013 (1001)
21.10.2013 - 02.12.2013 (1001)
03.12.2013 - 18.01.2014 (997)
19.01.2014 - 07.03.2014 (994)
08.03.2014 - 24.04.2014 (1000)
25.04.2014 - 18.06.2014 (1005)
19.06.2014 - 15.08.2014 (1019)
16.08.2014 - 07.10.2014 (1006)
08.10.2014 - 16.11.2014 (995)
17.11.2014 - 25.12.2014 (1004)
26.12.2014 - 09.02.2015 (989)
10.02.2015 - 20.03.2015 (998)
21.03.2015 - 22.04.2015 (1001)
23.04.2015 - 29.05.2015 (997)
29.05.2015 - 30.06.2015 (995)
30.06.2015 - 29.07.2015 (990)
29.07.2015 - 26.08.2015 (998)
27.08.2015 - 24.09.2015 (988)
25.09.2015 - 22.10.2015 (991)
23.10.2015 - 18.11.2015 (1000)
18.11.2015 - 16.12.2015 (990)
17.12.2015 - 23.01.2016 (1000)
24.01.2016 - 25.02.2016 (1000)
26.02.2016 - 24.03.2016 (1000)
24.03.2016 - 16.04.2016 (990)
17.04.2016 - 19.05.2016 (999)
20.05.2016 - 22.06.2016 (993)
23.06.2016 - 01.08.2016 (995)
02.08.2016 - 12.09.2016 (990)
13.09.2016 - 25.10.2016 (989)
26.10.2016 - 05.12.2016 (995)
06.12.2016 - 15.01.2017 (995)
16.01.2017 - 23.02.2017 (990)
24.02.2017 - 03.04.2017 (994)
04.04.2017 - 18.05.2017 (1000)
19.05.2017 - 05.07.2017 (1000)
06.07.2017 - 24.08.2017 (1000)
25.08.2017 - 06.10.2017 (991)
07.10.2017 - 15.11.2017 (990)
16.11.2017 - 24.12.2017 (1000)
25.12.2017 - 04.02.2018 (990)
05.02.2018 - 17.03.2018 (1000)
18.03.2018 - 02.05.2018 (990)
03.05.2018 - 11.06.2018 (1000)
12.06.2018 - 18.07.2018 (990)
19.07.2018 - 24.08.2018 (1000)
25.08.2018 - 02.10.2018 (1000)
03.10.2018 - 07.11.2018 (990)
08.11.2018 - 13.12.2018 (990)
14.12.2018 - 23.01.2019 (1000)
24.01.2019 - 02.03.2019 (1000)
03.03.2019 - 12.04.2019 (1010)
13.04.2019 - 23.05.2019 (990)
24.05.2019 - 03.07.2019 (1000)
04.07.2019 - 11.08.2019 (1000)
12.08.2019 - 16.09.2019 (990)
17.09.2019 - 26.10.2019 (1000)
27.10.2019 - 12.12.2019 (1000)
13.12.2019 - 25.01.2020 (1000)
26.01.2020 - 06.03.2020 (990)
07.03.2020 - 16.04.2020 (1010)
17.04.2020 - 19.05.2020 (1000)
20.05.2020 - 25.06.2020 (990)
26.06.2020 - 04.08.2020 (995)
05.08.2020 - 16.09.2020 (1005)
17.09.2020 - 26.10.2020 (990)
27.10.2020 - 27.11.2020 (990)
28.11.2020 - 07.01.2021 (990)
08.01.2021 - 15.02.2021 (1000)
16.02.2021 - 31.03.2021 (1000)
01.04.2021 - 12.05.2021 (1000)
13.05.2021 - 14.06.2021 (990)
15.06.2021 - 26.07.2021 (980)
27.07.2021 - 31.08.2021 (990)
01.09.2021 - 07.10.2021 (1000)
08.09.2021 - 07.11.2021 (1000)
08.11.2021 - 10.12.2021 (1000)
11.12.2021 - 24.01.2022 (990)
25.01.2022 - 04.03.2022 (1000)
05.03.2022 - 10.04.2022 (990)
11.04.2022 - 17.05.2022 (1000)
18.05.2022 - 23.06.2022 (980)
24.06.2022 - 31.07.2022 (990)
01.08.2022 - 13.09.2022 (990)
14.09.2022 - 21.10.2022 (990)
22.10.2022 - 29.11.2022 (1000)
30.11.2022 - 22.01.2023 (1000)
23.01.2023 - 02.03.2023 (990)
03.03.2023 - 21.04.2023 (1000)
22.04.2023 - 13.06.2023 (990)
14.06.2023 - 02.08.2023 (1000)
03.08.2023 - 21.09.2023 (1000)
22.09.2023 - 06.11.2023 (990)
07.11.2023 - 24.12.2023 (990)
25.12.2023 - 18.02.2024 (1000)
19.02.2024 - 05.04.2024 (990)
06.04.2024 - 25.05.2024 (1000)
26.05.2024 - 26.07.2024 (1000)
26.07.2024 - 25.08.2024 (990)
26.08.2024 - 28.09.2024 (980)
29.09.2024 - 01.11.2024 (1000)
02.11.2024 - 02.12.2024 (980)
03.12.2024 - 08.01.2025 (990)
09.01.2025 - 09.02.2025 (1000)
10.02.2025 - 20.03.2025 (1000)
21.03.2025 - 03.05.2025 (990)
04.05.2025 - ...
Статьи
Статьи: раздел 1 (1024)
Статьи: раздел 2 (1006)
Статьи: раздел 3 (1000)
Статьи: раздел 4 (1044)
Статьи: раздел 5 (1001)
Статьи: раздел 6 (1000)
Статьи: раздел 7 (1000)
Статьи: раздел 8 (1013)
Статьи: раздел 9 (1000)
Статьи: раздел 10 (1000)
Статьи: раздел 11 (329)
Статьи: раздел 12 (1000)
Статьи: раздел 13 (730)
Лента новостей

Генерал ВМС называет бывшего шефа AARO лжецом

Глава Anthropic предрёк исчезновение инженерных профессий

Дементор замечен над Астаной

Еврей из НЛО

Загадочное исчезновение экипажа корабля

Инопланетяне, кровь и Белый дом

Кем был уфолог Дэвид Уилкок

Несмотря на конфликт, Белый дом ведёт переговоры с Anthropic

НЛО выводят из строя ядерное оружие с 1960-х годов

Новые откровения о НЛО и почему это не случайность

Общественник предложил создать музей уфологии

Он знал много ядерных секретов

Они маскируются под дроны

Они нашли черную живую слизь внутри корабля

Пентагон купил ИИ Гугла

Сущности предупредили чиновников о начале их войны с Богом

У американцев с инопланетянами всё давно на мази

Уфолог Ник Поуп скончался в возрасте 60 лет

Частое использование ИИ влияет на мозг

Чешуя дракона обнаружена на Марсе

Время может двигаться и быстро, и медленно одновременно

Галактики растут вокруг черных дыр

Древний марсианский океан существовал

Зафиксировано изменение состава кометы 3I-ATLAS

Инопланетная жизнь может скрываться у всех на виду

Камера запечатлела Существо во время ограбления

Крах майя был вызван климатическими колебаниями

Метан выделяется из межзвездной кометы 3I-ATLAS

Метан обнаружен на гигантской экзопланете

Новая группа крови, которая есть только у трех человек

Опасения по поводу сокрытия информации об НЛО

Пентагон согласовывал позиции с Луисом Элизондо

Постоянно меняющаяся многопланетная система

Путешественник во времени прибыл из 2582 года

США десятилетиями проводили эксперименты с НЛО

Тайна НЛО в Уайт-Маунтинс

Темный вулканический пепел Марса

Трехмерная карта меняет представление о Вселенной

Человечество упускает что-то важное об НЛО

Я единственный человек в постапокалиптическом мире

Американская лаборатория изучала НЛО

Гигантская жуткая тень на Марсе сильно выросла

Гравитация подчиняется законам Ньютона и Эйнштейна

Доказательства существования магнетизма в звездах

Дональд Трамп приказал обнародовать досье об НЛО

Инопланетяне могут подтвердить свое существование

Информатор об НЛО умер от передозировки

Источник загадочной дымки в атмосфере Венеры

Как газ превращается в диски, формирующие планеты

Может ли темная материя образоваться из черных дыр

НАСА подтвердило дату сближения с Апофисом

Открытие на острове Пасхи может переписать историю

Планетам требуется больше воды для поддержания жизни

Разоблачитель НЛО скончался накануне дачи показаний

Темная материя объясняет появление ранних черных дыр

Теория заговора привлекает внимание законодателей

Теперь 13 погибших или пропавших без вести

Трамп обещает расследовать гибель ученых-уфологов

Федералы встречались по поводу НЛО в 1990-х годах

Черные дыры вызывают вспышки в триллионы солнц

Бытовки в Москве и модульное строительство. Оперативные решения для бизнеса и частного сектора

Давать показания в Конгрессе США опасно для жизни

Загадочная смерть информатора об НЛО

Изучала ли американская лаборатория НЛО

Информатор конгресса умер от наркотической смеси

Карта мира скоро будет переписана

Конгрессмен предупреждает о разрушительной правде

Кто стоит за исчезновениями и смертями ученых

НАСА обнаружило важный ключ к жизни на Марсе

НЛО раскрывают секреты, искажающие реальность

Правда о Великой пирамиде раскрыта

Пропавшие ученые изучали НЛО

Путешественник во времени из 2118 года

Разоблачитель НЛО скончался перед дачей показаний

Растет число свидетельств того, что они уже здесь

Сообщения об НЛО подпитывают спекуляции

Тайна пропавших и погибших ученых раскрыта

Теория о большой батареи в Великой пирамиде

Ури Геллер предупредил Трампа, что телепортация реальна

Уфо-информатор умер от передозировки

ФБР проводит расследование смерти информатора

Ватикан настаивает на обнародовании данных об НЛО

Всплыло жуткое видео пропавшего ученого

Духовность и религиозная связь с НЛО

Инопланетяне, НЛО и демоны

Конгрессмен видел ошеломляющие данные об НЛО

На одной стороне Земли быстро становится холоднее

Пентагон скрывает инопланетный корабль

Политик видел фотографии и видео НЛО

Последние леденящие душу слова уфолога

Последние моменты жизни уфолога

Предупреждение уфолога перед смертью

Пропавшие ученые. Заговора нет, только подозрения

Ролик фильма Спилберга 'День раскрытия информации об НЛО'

Скандал вокруг смерти уфолога Дэвида Уилкока

Смерти и исчезновения ведущих ученых США

Странная смерть всей семьи ученого НАСА

Тайна происхождения минералов

У пропавших ученых США есть кое-что общее

Уфолог найден мертвым в Колорадо

Уфолог размышлял о недавних смертях своих коллег

Автор статей о паранормальных явлениях скончался

Видеозаписи НЛО, которые не поддаются никакому объяснению

Земляне могут быть хуже инопланетян

Зловещие файлы об НЛО существуют

Исследователь НЛО знал что-то важное

Кем был уфолог Дэвид Уилкок

Конгрессмен поделилась душераздирающей новостью

Кто такой доктор Джон Бранденбург

Лучший друг Дэвида Уилкока ошеломлен его смертью

Разрушили ли кибер-сталкеры жизнь уфолога

Расследование смерти писателя-уфолога

Сообщения о самоубийстве уфолога

Тайна инопланетной жизни вот-вот будет раскрыта

Трагический инцидент с автором книги о НЛО

У Дэвида Уилкока были проблемы с психикой

Уфолог Дэвид Уилкок привлек к себе внимание

Уфолог умер в возрасте 53 лет после самоубийства

Череда смертей известных уфологов

Что стоит за всплеском интереса к уфологии

Электронные письма представителя Пентагона об НЛО

Братья Земли. Между вечной ночью и днем

Грань между человеком и инопланетянином

Действительно ли Луна богата железом

Доказательства существования первых звезд

Загадка цвета троянских астероидов Юпитера

Как эволюционируют галактики с самого зарождения

На Луне только что появился новый шрам

Некоторые собаки в Чернобыле посинели

Поиск жизни в марсианских вулканах

Полный список экспертов, погибших или пропавших

Поп-культура формирует науку

Почему некоторые звезды в центре галактики выживают

Разгадка тайны Земли возрастом в 4,5 млрд лет

Разделительная черта между планетами и звездами

Солнечные пятна как оружие для поиска экзопланет

Странная смерть уфолога Эми Эскридж

Темная материя может находиться в двух состояниях

Темная материя может решить три космозагадки

Три субпопуляции сливающихся черных дыр

Я планирую жить, а не совершать самоубийство

Веб-сайт Белого дома об НЛО набирает обороты

Волна пропавших ученых возродила интерес к НЛО

Гигантские НЛО, бросающие вызов физике

Дата окончательного уничтожения человечества

Древняя библейская история о падших ангелах

Живой Нострадамус предсказывает смену власти в США

Известный уфолог Дэвид Уилкок покончил с собой

Исследователи изучают парейдолию

Какие файлы НЛО планирует опубликовать Пентагон

Когда Дональд Трамп опубликует файлы об НЛО

Место последнего упокоения Ковчега Завета

Мир получил отрезвляющее предупреждение о будущем

Можем ли мы на самом деле терраформировать Марс

Наиболее вероятные места нахождения воды на Луне

Невиданные ранее органические соединения Марса

Политик предупреждают о не поддающихся физике НЛО

Происхождение Великой пирамиды поставлено под сомнение

Тайна Ноева ковчега становится загадочнее

ФБР призвали к поиску зловещей правды

Что случилось с уфологом Дэвидом Уилкоком

Безусадочная смесь. Характеристики и применение

Америка готова к обнародованию данных о НЛО

Американские НЛО-ученые пропадают и гибнут

Аэробот для исследования атмосферы Венеры

Босс ядерной лаборатории оставил сыну тайник с НЛО

Город, где даже призраки носят оружие

Загадочные смерти и исчезновения элитных ученых

Загадочный человек доказывает путешествия во времени

ИИ реинжинирирует процесс поиска лекарств

Инопланетянин без пальцев и с прозрачной кожей

Многие люди знакомы с концепцией света в конце туннеля

Отец Эми Эскридж отрицает, что ее смерть подозрительна

Пантеры и леопарды бродят по сельской местности Англии

Пентагон обвинили в сокрытии информации

Первая близкая пара сверхмассивных черных дыр

Поиски конгрессменом звездолета инопланетян

Почему у Юпитера больше спутников, чем у Сатурна

Симпсоны предсказывают будущее

Скопление НЛО замечено над военной базой

Трамп дразнит очень интересными файлами об НЛО

Удивительный НЛО-отель на юго-западе Уэльса

Влажный корм для кошек и котят. Как выбрать идеальный рацион и почему это важно для здоровья

Девочка, воспитанная собаками

Документы об НЛО будут опубликованы очень скоро

Документы об НЛО, найденные в обзоре Пентагона

Наверх
Яндекс.Метрика