Сколько данных нужно для искусственного интеллекта
Одна из фундаментальных проблем при создании эффективных моделей машинного обучения — определение необходимого и достаточного количества данных для их обучения. Слишком мало данных — модель будет неточной, слишком много — неоправданные затраты времени и ресурсов на сбор и обработку информации. Ученые из МФТИ предложили два новых метода для решения этой задачи, основанных на анализе функции правдоподобия с использованием техники бутстрэпа.
Работа опубликована в журнале Computational Mathematics and Mathematical Physics. Правдоподобием называют функцию, которая показывает, насколько вероятны наблюдаемые данные при заданных параметрах модели. В машинном обучении часто максимизируют эту функцию (или ее логарифм – логарифмическую функцию правдоподобия), чтобы найти наилучшие параметры модели.
Вопрос «сколько данных достаточно?» стар как само машинное обучение. От ответа на него напрямую зависит качество прогнозов модели, ее способность обобщать информацию и корректно работать на новых, ранее не просмотренных ею данных, а также экономическая целесообразность всего проекта.
Исторически сложилось несколько подходов к определению достаточного размера выборки. Во-первых, это классические статистические методы. Такие подходы часто опираются на проверку конкретных статистических гипотез о параметрах модели. Например, исследователи могут потребовать, чтобы модель достигала определенной статистической мощности (способности обнаружить эффект, если он есть) при заданном уровне ошибки первого рода (вероятности ложноположительного срабатывания). К таким методам относятся тест множителей Лагранжа, тест отношения правдоподобия, статистика Вальда. Основной их недостаток – они требуют сильных предположений о распределении данных и часто привязаны к конкретным гипотезам, что не всегда удобно на практике.
Во-вторых, это байесовские методы. В них размер выборки определяется, например, путем максимизации ожидаемой “полезности” модели, которая может учитывать как точность оценки параметров, так и штрафы за увеличение выборки. Используются различные критерии, такие как минимизация средней апостериорной дисперсии параметров, критерий среднего покрытия и другие. Эти методы гибки, но могут быть сложны в реализации и интерпретации, а также требуют задания априорных распределений для параметров модели, которые не всегда адекватно можно оценить.
В-третьих, используют множество эвристических методов, которые основаны на практическом опыте, эмпирических правилах (например, «10 объектов на каждую переменную») или методах вроде кросс-валидации (перекрестной проверки). Они просты, но не имеют строгого теоретического обоснования и не всегда гарантируют оптимальный результат.
Несмотря на разнообразие подходов, универсального, простого в применении и теоретически обоснованного метода для широкого класса задач до сих пор не существовало. Многие существующие техники либо сложны, либо требуют априорной информации, которой у исследователя может не быть на этапе планирования эксперимента. И все они не всегда гарантируют результат.
Именно проблему разработки более универсальных и практически применимых методов определения достаточного размера выборки решали исследователи из МФТИ. Их идея основана на интуитивном предположении: если данных уже достаточно, то добавление еще нескольких объектов не должно сильно менять ни саму модель, ни ее «уверенность» в данных, выраженную через функцию правдоподобия. Целью исследования ученых Физтеха была разработка критериев достаточности выборки, которые основаны на поведении функции правдоподобия при изменении размера обучающей подвыборки, и оценка их работоспособности в теории и на практике.
Авторы статьи предложили два критерия, основанных на анализе значений функции правдоподобия, вычисленной на подвыборках разного размера k, полученных с помощью бутстрэпа из исходной выборки некоторого размера m.
Первый критерий они назвали D-достаточностью, от слова “дисперсия”. Этот критерий проверяет, стабильны ли результаты при использовании разных подмножеств данных одного размера. Он заключается в том, чтобы считать выборку достаточной в том случае, если разброс значений правдоподобия между моделями, которые обучены на разных случайных подвыборках размера k, достаточно мал.
Второй критерий они назвали M-достаточностью, от «математическое ожидание». M-критерий проверяет, перестала ли модель существенно улучшаться при добавлении еще одного объекта данных. Если средний показатель правдоподобия при добавлении одного элемента данных почти не улучшился, то это значит, что выборка уже является достаточной.
Оба подхода используют бутстрэп для получения надежных оценок этой стабильности или улучшения. Бутстрэп — это статистический метод, позволяющий оценить различные характеристики некоторой статистики путем многократного извлечения подвыборок с возвращением из исходной выборки. Проще говоря, мы много раз «вытаскиваем наугад» объекты из нашего набора данных (причем один и тот же объект может быть выбран несколько раз в одну подвыборку), формируя множество «псевдо-выборок», и на них оцениваем интересующие нас величины.
Важным результатом работы является теоретическое доказательство корректности критерия M-достаточности для модели линейной регрессии при определенных условиях сходимости оценок параметров модели. Это придает методу дополнительную строгость, хотя бы для одного важного класса моделей.
Ученые провели вычислительные эксперименты как на синтетических данных (сгенерированных из моделей линейной и логистической регрессии), так и на реальных наборах данных (включая известный набор Liver Disorders и множество других).
Эмпирические результаты в виде численного моделирования использования метода подтвердили работоспособность обоих подходов. На практике оказалось, что предложенный подход можно эвристически применять даже в тех случаях, когда оптимизируется не функция правдоподобия, а некоторая другая функция потерь, что часто встречается в современном машинном обучении.
Эксперименты показали, что методы успешно применимы к разным типам данных и моделей (регрессия, классификация).
Хотя бутстрэп сам по себе известен, его применение для оценки именно стабильности правдоподобия как критерия достаточности выборки является новым. Предложенный учеными подход является универсальным, так как он не привязан к конкретным статистическим гипотезам и может быть применен к широкому кругу моделей, включая те, где оптимизируется произвольная функция потерь.
«Определение правильного объема данных — это вечный компромисс между затратами на сбор информации и качеством модели, – рассказал Андрей Грабовой, доцент кафедры интеллектуальных систем МФТИ. – Существующие методы часто либо слишком сложны в применении, либо опираются на специфические допущения о данных или модели, которые не всегда выполняются. Мы хотели предложить простой, но при этом имеющий под собой основания подход. Идея в том, чтобы посмотреть, насколько ‘устаканивается’ правдоподобие модели по мере добавления данных, используя для оценки этой стабильности бутстрэп. Наши эксперименты на синтетических и реальных данных показывают, что предложенные критерии D- и M-достаточности действительно сходятся к нулю при увеличении выборки, что подтверждает их адекватность. Мы надеемся, это поможет исследователям и практикам более уверенно планировать свои эксперименты и эффективнее использовать имеющиеся ресурсы».
Никита Киселев, студент 5-го курса МФТИ, добавил: «Наше исследование было вдохновлено эмпирическими наблюдениями: мы обнаружили, что в наших экспериментах функция правдоподобия переставала значимо изменяться при достижении определенного размера выборки. Это наблюдение побудило нас к глубокому теоретическому анализу проблемы, результаты которого представлены в данной статье. Наши выводы имеют широкое применение для различных моделей, хотя для современных нейронных сетей, включая генеративные модели, мы уже разработали более эффективные и выразительные методы, которые планируем подробно осветить в будущих работах».
Предложенные методы могут найти применение во множестве областей, где используется машинное обучение и остро стоит вопрос стоимости или возможности сбора данных. Такими являются, например, медицинские исследования, где крайне важно определить достаточное количество пациентов для клинических испытаний новых лекарств; финансовый анализ, для которого необходима оценка достаточного объема исторических данных для построения моделей кредитного скоринга, прогнозирования рынков или обнаружения мошенничества. Также предложенные методы могут иметь применения в обработке данных в социологии, маркетинге, промышленности, биоинформатике, в разработке систем искусственного интеллекта.
Работа ученых из МФТИ открывает несколько направлений для будущих исследований. Это и более углубленный теоретический анализ предложенных методов с целью строго доказать их корректность, и использование других метрик стабильности, разработка других похожих алгоритмов, сравнение с другими методами, исследование влияния гиперпараметров – как на эффективность метода влияют выбор порога и число используемых подвыборок для бутстрэпа.
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Отправить донат на поддержку проекта "Аномальные новости"
Меню
Архив материалов
Проекты наших читателей
Контакты исследователей
Подписка на новости
Проекты
Новости криптозоологии
Хроники природных катастроф
Новости
26.02.2002 - 05.07.2002
05.08.2002 - 23.10.2002 (562)
24.10.2002 - 17.01.2003 (585)
20.01.2003 - 07.04.2003 (709)
08.04.2003 - 01.08.2003 (709)
04.08.2003 - 18.11.2003 (763)
19.11.2003 - 31.03.2004 (721)
01.04.2004 - 13.08.2004 (825)
16.08.2004 - 22.11.2004 (782)
23.11.2004 - 28.03.2005 (756)
29.03.2005 - 29.07.2005 (807)
30.08.2005 - 02.12.2005 (927)
05.12.2005 - 21.04.2006 (912)
24.04.2006 - 23.10.2006 (999)
24.10.2006 - 03.05.2007 (999)
04.05.2007 - 28.01.2008 (999)
29.01.2008 - 12.01.2009 (999)
13.01.2009 - 07.07.2009 (966)
22.08.2009 - 21.01.2010 (996)
22.01.2010 - 22.06.2010 (1000)
23.06.2010 - 14.01.2011 (1042)
17.01.2011 - 31.05.2011 (1008)
01.06.2011 - 03.11.2011 (1003)
07.11.2011 - 16.03.2012 (996)
19.03.2012 - 09.06.2012 (1009)
13.06.2012 - 07.09.2012 (988)
10.09.2012 - 19.11.2012 (1004)
20.11.2012 - 14.01.2013 (1015)
15.01.2013 - 22.02.2013 (1000)
23.02.2013 - 08.04.2013 (991)
09.04.2013 - 31.05.2013 (1015)
01.06.2013 - 18.07.2013 (992)
19.07.2013 - 03.09.2013 (1014)
04.09.2013 - 20.10.2013 (1001)
21.10.2013 - 02.12.2013 (1001)
03.12.2013 - 18.01.2014 (997)
19.01.2014 - 07.03.2014 (994)
08.03.2014 - 24.04.2014 (1000)
25.04.2014 - 18.06.2014 (1005)
19.06.2014 - 15.08.2014 (1019)
16.08.2014 - 07.10.2014 (1006)
08.10.2014 - 16.11.2014 (995)
17.11.2014 - 25.12.2014 (1004)
26.12.2014 - 09.02.2015 (989)
10.02.2015 - 20.03.2015 (998)
21.03.2015 - 22.04.2015 (1001)
23.04.2015 - 29.05.2015 (997)
29.05.2015 - 30.06.2015 (995)
30.06.2015 - 29.07.2015 (990)
29.07.2015 - 26.08.2015 (998)
27.08.2015 - 24.09.2015 (988)
25.09.2015 - 22.10.2015 (991)
23.10.2015 - 18.11.2015 (1000)
18.11.2015 - 16.12.2015 (990)
17.12.2015 - 23.01.2016 (1000)
24.01.2016 - 25.02.2016 (1000)
26.02.2016 - 24.03.2016 (1000)
24.03.2016 - 16.04.2016 (990)
17.04.2016 - 19.05.2016 (999)
20.05.2016 - 22.06.2016 (993)
23.06.2016 - 01.08.2016 (995)
02.08.2016 - 12.09.2016 (990)
13.09.2016 - 25.10.2016 (989)
26.10.2016 - 05.12.2016 (995)
06.12.2016 - 15.01.2017 (995)
16.01.2017 - 23.02.2017 (990)
24.02.2017 - 03.04.2017 (994)
04.04.2017 - 18.05.2017 (1000)
19.05.2017 - 05.07.2017 (1000)
06.07.2017 - 24.08.2017 (1000)
25.08.2017 - 06.10.2017 (991)
07.10.2017 - 15.11.2017 (990)
16.11.2017 - 24.12.2017 (1000)
25.12.2017 - 04.02.2018 (990)
05.02.2018 - 17.03.2018 (1000)
18.03.2018 - 02.05.2018 (990)
03.05.2018 - 11.06.2018 (1000)
12.06.2018 - 18.07.2018 (990)
19.07.2018 - 24.08.2018 (1000)
25.08.2018 - 02.10.2018 (1000)
03.10.2018 - 07.11.2018 (990)
08.11.2018 - 13.12.2018 (990)
14.12.2018 - 23.01.2019 (1000)
24.01.2019 - 02.03.2019 (1000)
03.03.2019 - 12.04.2019 (1010)
13.04.2019 - 23.05.2019 (990)
24.05.2019 - 03.07.2019 (1000)
04.07.2019 - 11.08.2019 (1000)
12.08.2019 - 16.09.2019 (990)
17.09.2019 - 26.10.2019 (1000)
27.10.2019 - 12.12.2019 (1000)
13.12.2019 - 25.01.2020 (1000)
26.01.2020 - 06.03.2020 (990)
07.03.2020 - 16.04.2020 (1010)
17.04.2020 - 19.05.2020 (1000)
20.05.2020 - 25.06.2020 (990)
26.06.2020 - 04.08.2020 (995)
05.08.2020 - 16.09.2020 (1005)
17.09.2020 - 26.10.2020 (990)
27.10.2020 - 27.11.2020 (990)
28.11.2020 - 07.01.2021 (990)
08.01.2021 - 15.02.2021 (1000)
16.02.2021 - 31.03.2021 (1000)
01.04.2021 - 12.05.2021 (1000)
13.05.2021 - 14.06.2021 (990)
15.06.2021 - 26.07.2021 (980)
27.07.2021 - 31.08.2021 (990)
01.09.2021 - 07.10.2021 (1000)
08.09.2021 - 07.11.2021 (1000)
08.11.2021 - 10.12.2021 (1000)
11.12.2021 - 24.01.2022 (990)
25.01.2022 - 04.03.2022 (1000)
05.03.2022 - 10.04.2022 (990)
11.04.2022 - 17.05.2022 (1000)
18.05.2022 - 23.06.2022 (980)
24.06.2022 - 31.07.2022 (990)
01.08.2022 - 13.09.2022 (990)
14.09.2022 - 21.10.2022 (990)
22.10.2022 - 29.11.2022 (1000)
30.11.2022 - 22.01.2023 (1000)
23.01.2023 - 02.03.2023 (990)
03.03.2023 - 21.04.2023 (1000)
22.04.2023 - 13.06.2023 (990)
14.06.2023 - 02.08.2023 (1000)
03.08.2023 - 21.09.2023 (1000)
22.09.2023 - 06.11.2023 (990)
07.11.2023 - 24.12.2023 (990)
25.12.2023 - 18.02.2024 (1000)
19.02.2024 - 05.04.2024 (990)
06.04.2024 - 25.05.2024 (1000)
26.05.2024 - 26.07.2024 (1000)
26.07.2024 - 25.08.2024 (990)
26.08.2024 - 28.09.2024 (980)
29.09.2024 - 01.11.2024 (1000)
02.11.2024 - 02.12.2024 (980)
03.12.2024 - 08.01.2025 (990)
09.01.2025 - 09.02.2025 (1000)
10.02.2025 - 20.03.2025 (1000)
21.03.2025 - 03.05.2025 (990)
04.05.2025 - ...
Статьи
Статьи: раздел 1 (1024)
Статьи: раздел 2 (1006)
Статьи: раздел 3 (1000)
Статьи: раздел 4 (1044)
Статьи: раздел 5 (1001)
Статьи: раздел 6 (1000)
Статьи: раздел 7 (1000)
Статьи: раздел 8 (1013)
Статьи: раздел 9 (1000)
Статьи: раздел 10 (1000)
Статьи: раздел 11 (329)
Статьи: раздел 12 (1000)
Статьи: раздел 13 (730)
Лента новостей

Вифлеемская звезда на самом деле была кометой

Жизнь на Земле зародилась на Красной планете

Изучая экономику Звездного пути

Исследование венерианских облаков

Как ездить на работу на Луну

НЛО. Феномен, эксперименты и существа

Новая аномалия на космическом госте

Процесс поиска НЛО. Тела, корабли и молчание

Секретная российская уфологическая программа

Секретный клуб, занимающийся сокрытием НЛО

В Висконсине было зарегистрировано более 70 НЛО

Выявили характерный след столкновений черных дыр

Как пережить ядерную атаку

Крушения китайских НЛО

Леденящие душу российские архивы об НЛО

Марс был голубым

НЛО перемещается по небу Южной Каролины

Первый закон термодинамики был переписан

Планета, покрытая сверхгорячей лавой

Планы по поиску Лох-Несского чудовища

Планы по созданию лунного курорта

Про НЛО в Розуэлле снимут фильм

Российские файлы об НЛО свидетельствуют

Скотт Купер станет режиссером нового фильма об НЛО

Снимут захватывающий триллер о НЛО в Розуэлле

Сто сигналов, представляющих интерес для SETI

Тайна инопланетного звездолета будет раскрыта

Триллер о легендарном НЛО в Розуэлле

Черная дыра порождает сверхбыстрые ветры

Черные дыры замечены во время слияния галактик

Всегда ли демократия основана на правде

Вселенная может быть однобокой

Дым от падающих экзокомет у ближайшей звезды

ИИ помогают раскрыть природу темной материи

Как атомы жизни распространяются в космосе

Крупнейшее место рождения планет

Ландшафты Марса, созданные ветром

Межзвездный обьект в ультрафиолетовом свете

Наша Вселенная может быть искусственной конструкцией

Первая молекула жизни

Первые многоразовые стартовые площадки на Луне

Признаки планет в звездных системах-зародышах

Пять новых планет и борьба за их атмосферы

Развитые цивилизации общаются подобно светлячкам

Редкое столкновение в близлежащей планетной системе

Сверхновые объяснят появление землеподобных планет

Составление карт сложной планетарной архитектуры

Таинственные участки у основания земной мантии

Черные дыры демонстрируют избирательное питание

Энцелад - привлекательная цель для поиска жизни

Британское разведуправление расследовало НЛО

Вермонт создает уфо-центр

Если у вас есть уфо-коллекция не выбрасывайте её

Женщина ежедневно сталкивается с Кри

Женщину убили из-за обвинений в колдовстве

Звуковой удар слышали над Норфолком и Саффолком

Инопланетяне готовятся к вторжению на Землю

Как объяснить темную материю

Катастрофа НЛО в Розуэлле снова в центре внимания

Маск хочет создать Академию звездного флота

Научились управлять восприятием человеком своего тела

Некоторые из наших клеток сопротивляются смерти

Первый отчет об НЛО в Миссури в 2026 году

По событиям в Розуэлле снимут триллер

Призрак приставал к любителю пива

Скотт Купер станет режиссером триллера 'НЛО в Розуэлле'

Теории всемирного тяготения не верны

Фигуру короля джиннов нашли в отдаленной Патагонии

ЦРУ не расскажет правду о межзвездном корабле

Шахтеры остались в полном недоумении из-за НЛО

Очистные станции для гидроабразивной резки. Обзор установки

Ритуальный транспорт и его роль в организации похорон

Австралийский шахтер снял треугольный НЛО

Высокоразвитые цивилизации общаются друг с другом

Германия попала во внеземной маршрут

Глава Nvidia не верит в появление божественного ИИ

Жизнь в океане Европы сочли почти невозможной

Загадочный объект несовместим с теорией темной материи

Законодатель Вермонта предлагает изучать НЛО

Звуковое оружие армии США

ИИ научился создавать вирусы с нуля

Инопланетяне замерзают на спутнике Юпитера

Контроль разума и информация об НЛО

Криптозоолог поделился снимком Лох-Несского чудовища

Лунный туризм приближается к реальности

Облако, напоминающее пылающий НЛО

Певец видел свою смерть во сне

Почему образованные люди увлекаются конспирологией

Прорыв в области ДНК разоблачает Джека Потрошителя

Разоблачение НЛО и демонические доктрины

ЦРУ отслеживало загадочный межзвездный обьект

Через пять лет ИИ захватит власть

Археологи среди руин нашли совершенно новый язык

Небо Бирмингема стало розовым

Самая драматичная встреча с НЛО в США

Скончался уфолог Эрих фон Дэникен

Умер автор гипотезы о палеоконтакте - Эрих фон Дэникен

Универсальный язык для общения с инопланетянами

Человечество получает таинственный сигнал

Черноглазые дети и фантомные звонки

Шахтеры заметили странный объект в небе

Штат Мэн входит в топ по количеству НЛО

Военные захотели инопланетные технологии

Все больше ученых верят в инопланетян

Десятилетия отрицания факта существования НЛО

Загадочная экзопланета ставит ученых в тупик

Межзвездная комета намного старше Земли

Метеорит падает прямо на город

Перевооружение за счет инопланетян

Странные предметы в заднице у американцев

Страшное пророчество ясновидящей Ванги

Таинственная светящаяся спираль в небе

Бетельгейзе определенно не одинока

Британская королевская семья помешана на НЛО

Житель Эдинбурга заметил НЛО

Жительница Западного Лотиана видела НЛО

Загадка в небе над Сарджапуром

Космобиологи верят в инопланетян

Психологические особенности конспирологов

Сержант получил послание из будущего

Теория об инопланетном зонде усиливается

Уфолог обнародовал решение ЦРУ

Смена программы АООП на основе результатов аттестации

Борьба с теориями заговора требует разнообразной тактики

Вашингтон занимает первое место по наблюдениям НЛО

Доктор Стивен Грир о разоблачении Трампом НЛО

Загадочные огни над Нью-Мексико вызывают споры

Исследование, связывающее CovID и рак

Мы неправильно представляем хронологию эволюции

Первые подтвержденные контакты с НЛО

Уфологи принимают у себя судебного геолога и писателя

Файлы ЦРУ направлены на предотвращение паники

Человечество находится на стыке науки и спекуляций

Значение тату Бейсбольная бита. Мощь, удар и решительность

Британия охотилась за секретами НЛО

Всего одна частица сломала новейший спутник

Грандиозный уфо-фестиваль в Вашингтоне

Два эксперимента доказали, что Эйнштейн ошибался

Источник энергии, циркулирующий в наших клетках

Каллисто не подчиняется правилам движения

Немецкий уфо-центр зафиксировал вторжение НЛО

Ползающее лоскутное одеяло

Решение парадокса древних озер Марса

Сознание возникает из таинственного квантового поля

Все признаки указывают на сильное землетрясение

НЛО - научный факт, а не научная фантастика

Отчет о репрессиях в отношении уфо-информатора

Разоблачение НЛО, бигфут и библейские пророчества

Скрытые сети, пронизывающие все тело человека

Странное изваяние ужасающей мифической фигуры

У нас может быть 33 чувства

Ученые извлекли ДНК из рисунка Леонардо да Винчи

Фильм Разоблачение НЛО основан на научных фактах

Хронология последнего дня человечества

Древние человеческие гены - ключ к долголетию

Люди могут восстановить утраченное зрение

Наша Вселенная - Зеркальный зал

Неожиданный призрачный объект в глубинах космоса

Неуловимой частицы не существует

Рецепт жизни на Земле и Марсе

Скопление галактик изменит наши представления о Вселенной

Сохранили внутреннее ухо живым вне тела

Ученые создали новый Странный атом

ЦРУ сделало заявление о межзвездном госте

Впервые измерили массу планеты-изгоя

Генная терапия готова совершить новый виток

Загадка карты со спутника из Чатал-Хююка

Израиль принял на вооружение лазерную пушку

Китай втихую запустил национальную мегасеть ИИ

Межзвёздная комета игнорирует землян

Начинается массовое производство мозговых имплантов

Под Бермудами обнаружили необычную структуру

Самые интересные открытия в области экзопланет

Спутник Юпитера Ио не был океаном

Почему окна Rehau считаются одними из лучших

Британия хотела приобрести технологию НЛО

Великобритания приказала агентам найти технологию НЛО

Военное командование отдало приказ о НЛО

Доказательства конца правления королевства майя

НЛО в лесу Великобритании

НЛО взволновали полицию Северной Ирландии

НЛО сняли над шоссе Сан–Паулу

Обнаружили подземный лабиринт инков

Таинственные облака в Северном Уэльсе

Уфологический тур недалеко от Ацтека

Миссисипи - одно из последних мест, где можно увидеть НЛО

Наверх
Яндекс.Метрика