Сколько данных нужно для искусственного интеллекта
Одна из фундаментальных проблем при создании эффективных моделей машинного обучения — определение необходимого и достаточного количества данных для их обучения. Слишком мало данных — модель будет неточной, слишком много — неоправданные затраты времени и ресурсов на сбор и обработку информации. Ученые из МФТИ предложили два новых метода для решения этой задачи, основанных на анализе функции правдоподобия с использованием техники бутстрэпа.
Работа опубликована в журнале Computational Mathematics and Mathematical Physics. Правдоподобием называют функцию, которая показывает, насколько вероятны наблюдаемые данные при заданных параметрах модели. В машинном обучении часто максимизируют эту функцию (или ее логарифм – логарифмическую функцию правдоподобия), чтобы найти наилучшие параметры модели.
Вопрос «сколько данных достаточно?» стар как само машинное обучение. От ответа на него напрямую зависит качество прогнозов модели, ее способность обобщать информацию и корректно работать на новых, ранее не просмотренных ею данных, а также экономическая целесообразность всего проекта.
Исторически сложилось несколько подходов к определению достаточного размера выборки. Во-первых, это классические статистические методы. Такие подходы часто опираются на проверку конкретных статистических гипотез о параметрах модели. Например, исследователи могут потребовать, чтобы модель достигала определенной статистической мощности (способности обнаружить эффект, если он есть) при заданном уровне ошибки первого рода (вероятности ложноположительного срабатывания). К таким методам относятся тест множителей Лагранжа, тест отношения правдоподобия, статистика Вальда. Основной их недостаток – они требуют сильных предположений о распределении данных и часто привязаны к конкретным гипотезам, что не всегда удобно на практике.
Во-вторых, это байесовские методы. В них размер выборки определяется, например, путем максимизации ожидаемой “полезности” модели, которая может учитывать как точность оценки параметров, так и штрафы за увеличение выборки. Используются различные критерии, такие как минимизация средней апостериорной дисперсии параметров, критерий среднего покрытия и другие. Эти методы гибки, но могут быть сложны в реализации и интерпретации, а также требуют задания априорных распределений для параметров модели, которые не всегда адекватно можно оценить.
В-третьих, используют множество эвристических методов, которые основаны на практическом опыте, эмпирических правилах (например, «10 объектов на каждую переменную») или методах вроде кросс-валидации (перекрестной проверки). Они просты, но не имеют строгого теоретического обоснования и не всегда гарантируют оптимальный результат.
Несмотря на разнообразие подходов, универсального, простого в применении и теоретически обоснованного метода для широкого класса задач до сих пор не существовало. Многие существующие техники либо сложны, либо требуют априорной информации, которой у исследователя может не быть на этапе планирования эксперимента. И все они не всегда гарантируют результат.
Именно проблему разработки более универсальных и практически применимых методов определения достаточного размера выборки решали исследователи из МФТИ. Их идея основана на интуитивном предположении: если данных уже достаточно, то добавление еще нескольких объектов не должно сильно менять ни саму модель, ни ее «уверенность» в данных, выраженную через функцию правдоподобия. Целью исследования ученых Физтеха была разработка критериев достаточности выборки, которые основаны на поведении функции правдоподобия при изменении размера обучающей подвыборки, и оценка их работоспособности в теории и на практике.
Авторы статьи предложили два критерия, основанных на анализе значений функции правдоподобия, вычисленной на подвыборках разного размера k, полученных с помощью бутстрэпа из исходной выборки некоторого размера m.
Первый критерий они назвали D-достаточностью, от слова “дисперсия”. Этот критерий проверяет, стабильны ли результаты при использовании разных подмножеств данных одного размера. Он заключается в том, чтобы считать выборку достаточной в том случае, если разброс значений правдоподобия между моделями, которые обучены на разных случайных подвыборках размера k, достаточно мал.
Второй критерий они назвали M-достаточностью, от «математическое ожидание». M-критерий проверяет, перестала ли модель существенно улучшаться при добавлении еще одного объекта данных. Если средний показатель правдоподобия при добавлении одного элемента данных почти не улучшился, то это значит, что выборка уже является достаточной.
Оба подхода используют бутстрэп для получения надежных оценок этой стабильности или улучшения. Бутстрэп — это статистический метод, позволяющий оценить различные характеристики некоторой статистики путем многократного извлечения подвыборок с возвращением из исходной выборки. Проще говоря, мы много раз «вытаскиваем наугад» объекты из нашего набора данных (причем один и тот же объект может быть выбран несколько раз в одну подвыборку), формируя множество «псевдо-выборок», и на них оцениваем интересующие нас величины.
Важным результатом работы является теоретическое доказательство корректности критерия M-достаточности для модели линейной регрессии при определенных условиях сходимости оценок параметров модели. Это придает методу дополнительную строгость, хотя бы для одного важного класса моделей.
Ученые провели вычислительные эксперименты как на синтетических данных (сгенерированных из моделей линейной и логистической регрессии), так и на реальных наборах данных (включая известный набор Liver Disorders и множество других).
Эмпирические результаты в виде численного моделирования использования метода подтвердили работоспособность обоих подходов. На практике оказалось, что предложенный подход можно эвристически применять даже в тех случаях, когда оптимизируется не функция правдоподобия, а некоторая другая функция потерь, что часто встречается в современном машинном обучении.
Эксперименты показали, что методы успешно применимы к разным типам данных и моделей (регрессия, классификация).
Хотя бутстрэп сам по себе известен, его применение для оценки именно стабильности правдоподобия как критерия достаточности выборки является новым. Предложенный учеными подход является универсальным, так как он не привязан к конкретным статистическим гипотезам и может быть применен к широкому кругу моделей, включая те, где оптимизируется произвольная функция потерь.
«Определение правильного объема данных — это вечный компромисс между затратами на сбор информации и качеством модели, – рассказал Андрей Грабовой, доцент кафедры интеллектуальных систем МФТИ. – Существующие методы часто либо слишком сложны в применении, либо опираются на специфические допущения о данных или модели, которые не всегда выполняются. Мы хотели предложить простой, но при этом имеющий под собой основания подход. Идея в том, чтобы посмотреть, насколько ‘устаканивается’ правдоподобие модели по мере добавления данных, используя для оценки этой стабильности бутстрэп. Наши эксперименты на синтетических и реальных данных показывают, что предложенные критерии D- и M-достаточности действительно сходятся к нулю при увеличении выборки, что подтверждает их адекватность. Мы надеемся, это поможет исследователям и практикам более уверенно планировать свои эксперименты и эффективнее использовать имеющиеся ресурсы».
Никита Киселев, студент 5-го курса МФТИ, добавил: «Наше исследование было вдохновлено эмпирическими наблюдениями: мы обнаружили, что в наших экспериментах функция правдоподобия переставала значимо изменяться при достижении определенного размера выборки. Это наблюдение побудило нас к глубокому теоретическому анализу проблемы, результаты которого представлены в данной статье. Наши выводы имеют широкое применение для различных моделей, хотя для современных нейронных сетей, включая генеративные модели, мы уже разработали более эффективные и выразительные методы, которые планируем подробно осветить в будущих работах».
Предложенные методы могут найти применение во множестве областей, где используется машинное обучение и остро стоит вопрос стоимости или возможности сбора данных. Такими являются, например, медицинские исследования, где крайне важно определить достаточное количество пациентов для клинических испытаний новых лекарств; финансовый анализ, для которого необходима оценка достаточного объема исторических данных для построения моделей кредитного скоринга, прогнозирования рынков или обнаружения мошенничества. Также предложенные методы могут иметь применения в обработке данных в социологии, маркетинге, промышленности, биоинформатике, в разработке систем искусственного интеллекта.
Работа ученых из МФТИ открывает несколько направлений для будущих исследований. Это и более углубленный теоретический анализ предложенных методов с целью строго доказать их корректность, и использование других метрик стабильности, разработка других похожих алгоритмов, сравнение с другими методами, исследование влияния гиперпараметров – как на эффективность метода влияют выбор порога и число используемых подвыборок для бутстрэпа.
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Меню
Архив материалов
Проекты наших читателей
Контакты исследователей
Подписка на новости
Проекты
Новости криптозоологии
Хроники природных катастроф
Новости
26.02.2002 - 05.07.2002
05.08.2002 - 23.10.2002 (562)
24.10.2002 - 17.01.2003 (585)
20.01.2003 - 07.04.2003 (709)
08.04.2003 - 01.08.2003 (709)
04.08.2003 - 18.11.2003 (763)
19.11.2003 - 31.03.2004 (721)
01.04.2004 - 13.08.2004 (825)
16.08.2004 - 22.11.2004 (782)
23.11.2004 - 28.03.2005 (756)
29.03.2005 - 29.07.2005 (807)
30.08.2005 - 02.12.2005 (927)
05.12.2005 - 21.04.2006 (912)
24.04.2006 - 23.10.2006 (999)
24.10.2006 - 03.05.2007 (999)
04.05.2007 - 28.01.2008 (999)
29.01.2008 - 12.01.2009 (999)
13.01.2009 - 07.07.2009 (966)
22.08.2009 - 21.01.2010 (996)
22.01.2010 - 22.06.2010 (1000)
23.06.2010 - 14.01.2011 (1042)
17.01.2011 - 31.05.2011 (1008)
01.06.2011 - 03.11.2011 (1003)
07.11.2011 - 16.03.2012 (996)
19.03.2012 - 09.06.2012 (1009)
13.06.2012 - 07.09.2012 (988)
10.09.2012 - 19.11.2012 (1004)
20.11.2012 - 14.01.2013 (1015)
15.01.2013 - 22.02.2013 (1000)
23.02.2013 - 08.04.2013 (991)
09.04.2013 - 31.05.2013 (1015)
01.06.2013 - 18.07.2013 (992)
19.07.2013 - 03.09.2013 (1014)
04.09.2013 - 20.10.2013 (1001)
21.10.2013 - 02.12.2013 (1001)
03.12.2013 - 18.01.2014 (997)
19.01.2014 - 07.03.2014 (994)
08.03.2014 - 24.04.2014 (1000)
25.04.2014 - 18.06.2014 (1005)
19.06.2014 - 15.08.2014 (1019)
16.08.2014 - 07.10.2014 (1006)
08.10.2014 - 16.11.2014 (995)
17.11.2014 - 25.12.2014 (1004)
26.12.2014 - 09.02.2015 (989)
10.02.2015 - 20.03.2015 (998)
21.03.2015 - 22.04.2015 (1001)
23.04.2015 - 29.05.2015 (997)
29.05.2015 - 30.06.2015 (995)
30.06.2015 - 29.07.2015 (990)
29.07.2015 - 26.08.2015 (998)
27.08.2015 - 24.09.2015 (988)
25.09.2015 - 22.10.2015 (991)
23.10.2015 - 18.11.2015 (1000)
18.11.2015 - 16.12.2015 (990)
17.12.2015 - 23.01.2016 (1000)
24.01.2016 - 25.02.2016 (1000)
26.02.2016 - 24.03.2016 (1000)
24.03.2016 - 16.04.2016 (990)
17.04.2016 - 19.05.2016 (999)
20.05.2016 - 22.06.2016 (993)
23.06.2016 - 01.08.2016 (995)
02.08.2016 - 12.09.2016 (990)
13.09.2016 - 25.10.2016 (989)
26.10.2016 - 05.12.2016 (995)
06.12.2016 - 15.01.2017 (995)
16.01.2017 - 23.02.2017 (990)
24.02.2017 - 03.04.2017 (994)
04.04.2017 - 18.05.2017 (1000)
19.05.2017 - 05.07.2017 (1000)
06.07.2017 - 24.08.2017 (1000)
25.08.2017 - 06.10.2017 (991)
07.10.2017 - 15.11.2017 (990)
16.11.2017 - 24.12.2017 (1000)
25.12.2017 - 04.02.2018 (990)
05.02.2018 - 17.03.2018 (1000)
18.03.2018 - 02.05.2018 (990)
03.05.2018 - 11.06.2018 (1000)
12.06.2018 - 18.07.2018 (990)
19.07.2018 - 24.08.2018 (1000)
25.08.2018 - 02.10.2018 (1000)
03.10.2018 - 07.11.2018 (990)
08.11.2018 - 13.12.2018 (990)
14.12.2018 - 23.01.2019 (1000)
24.01.2019 - 02.03.2019 (1000)
03.03.2019 - 12.04.2019 (1010)
13.04.2019 - 23.05.2019 (990)
24.05.2019 - 03.07.2019 (1000)
04.07.2019 - 11.08.2019 (1000)
12.08.2019 - 16.09.2019 (990)
17.09.2019 - 26.10.2019 (1000)
27.10.2019 - 12.12.2019 (1000)
13.12.2019 - 25.01.2020 (1000)
26.01.2020 - 06.03.2020 (990)
07.03.2020 - 16.04.2020 (1010)
17.04.2020 - 19.05.2020 (1000)
20.05.2020 - 25.06.2020 (990)
26.06.2020 - 04.08.2020 (995)
05.08.2020 - 16.09.2020 (1005)
17.09.2020 - 26.10.2020 (990)
27.10.2020 - 27.11.2020 (990)
28.11.2020 - 07.01.2021 (990)
08.01.2021 - 15.02.2021 (1000)
16.02.2021 - 31.03.2021 (1000)
01.04.2021 - 12.05.2021 (1000)
13.05.2021 - 14.06.2021 (990)
15.06.2021 - 26.07.2021 (980)
27.07.2021 - 31.08.2021 (990)
01.09.2021 - 07.10.2021 (1000)
08.09.2021 - 07.11.2021 (1000)
08.11.2021 - 10.12.2021 (1000)
11.12.2021 - 24.01.2022 (990)
25.01.2022 - 04.03.2022 (1000)
05.03.2022 - 10.04.2022 (990)
11.04.2022 - 17.05.2022 (1000)
18.05.2022 - 23.06.2022 (980)
24.06.2022 - 31.07.2022 (990)
01.08.2022 - 13.09.2022 (990)
14.09.2022 - 21.10.2022 (990)
22.10.2022 - 29.11.2022 (1000)
30.11.2022 - 22.01.2023 (1000)
23.01.2023 - 02.03.2023 (990)
03.03.2023 - 21.04.2023 (1000)
22.04.2023 - 13.06.2023 (990)
14.06.2023 - 02.08.2023 (1000)
03.08.2023 - 21.09.2023 (1000)
22.09.2023 - 06.11.2023 (990)
07.11.2023 - 24.12.2023 (990)
25.12.2023 - 18.02.2024 (1000)
19.02.2024 - 05.04.2024 (990)
06.04.2024 - 25.05.2024 (1000)
26.05.2024 - 26.07.2024 (1000)
26.07.2024 - 25.08.2024 (990)
26.08.2024 - 28.09.2024 (980)
29.09.2024 - 01.11.2024 (1000)
02.11.2024 - 02.12.2024 (980)
03.12.2024 - 08.01.2025 (990)
09.01.2025 - 09.02.2025 (1000)
10.02.2025 - 20.03.2025 (1000)
21.03.2025 - 03.05.2025 (990)
04.05.2025 - ...
Статьи
Статьи: раздел 1 (1024)
Статьи: раздел 2 (1006)
Статьи: раздел 3 (1000)
Статьи: раздел 4 (1044)
Статьи: раздел 5 (1001)
Статьи: раздел 6 (1000)
Статьи: раздел 7 (1000)
Статьи: раздел 8 (1013)
Статьи: раздел 9 (1000)
Статьи: раздел 10 (1000)
Статьи: раздел 11 (329)
Статьи: раздел 12 (1000)
Статьи: раздел 13 (730)
Лента новостей

Больше шансов обнаружить НЛО в Техасе

Бывший пилот истребителя чуть не столкнулся с НЛО

Всемирный день уфологов

Гигантский кальмар показал свое тайное лицо

Какими сверхспособностями будут обладать люди

Лже-копы пытались украсть сферообразный НЛО

Марк Цукерберг может превратить США в диктатуру

Мини-черные дыры могут скрываться в вашем доме

Мистификации, связанные с изменением климата

Пентагон фабриковал доказательства о НЛО

Повод задуматься о необъяснимых явлениях

Почему в 30 лет можно чувствовать себя на 60

Свидетельства очевидцев НЛО в США

Таинственный объект приближается к Вашингтону

Уфологи приписывают инопланетянам любые подвиги

Факты и история инцидента с НЛО в Розуэлле

Что было замечено в небе Иллинойса

Энтузиасты отмечают Всемирный день НЛО

ИИ ChatGPT выдает ответы на чужие запросы

Ключи к пониманию того как распространяется рак

Лишайники указали на обитаемость экзопланет

НЛО облучил радиацией жителя Канады

Очень массивные звезды выбрасывают еще больше вещества

Полеты звезд не изменили климат Земли

Роли аккреций в эволюции планет земной группы

Странное существо с вытянутой головой

Тайна озера Тахо

Японские хирурги удалили ребенку зуб из носа

Амбициозный законопроект по НЛО провалился

Города, в которых чаще всего видели НЛО

Звездообразный объект над Вашингтоном

Каковы шансы обнаружить НЛО в США

Конгресс США запретил сотрудникам пользоваться WhatsApp

Оружейные бароны прикрывались НЛО

Подводный аппарат обнаружил секретные сооружения

Призрачный шлейф, поднимающийся из мантии Земли

Разгадка тайны падающего объекта Массачусетса

Секретное оружие, которое может остановить слепоту

Сигарообразный аппарат пронёсся по марсианскому небу

Этим летом вращение Земли ускорится

Астрономы послушали 27 экзопланет на наличие ВЦ

Впервые нашли галактику из темной материи

Заночевавший в лесу охотник встретил инопланетян

Звездные вспышки могут помешать поиску жизни

ИИ может научиться разрабатывать биологическое оружие

Киберпсихологи впервые нашли способ усилить эмоции

Нейросети осознали, что их проверяют и вели себя примерно

Хирурги провели роботизированную пересадку сердца

Человек, который мог по желанию стать невидимым

Шестой пациент с мозговым имплантом Neuralink

Антигравитация - поехали

Важные секреты формирования планет

Вулкан поможет определить обитаемость Марса

Гигантская комета в облаке Оорта раскрывает свои секреты

Жизнь на Марсе - можно ли извлечь уроки

Исследования проливают свет на темную материю

Как органика выживает в экстремальных межзвездных условиях

Лунная пыль менее токсична, чем городское загрязнение

Нашли адрес пропавшей материи во Вселенной

Новая волна откровений от 'живого Нострадамуса'

Обнаружены три экзопланеты типа горячий Юпитер

От шпионажа до телепортации и антигравитации

Планетарная угроза Земле реальна

Планетообразующие диски теряют газ быстрее, чем пыль

Почему закаты зимой такие красивые

Почему США лидируют по количеству наблюдений НЛО

Прародитель всех метеорных потоков может угрожать Луне

Проблема, которую могут решить только квантовые вычисления

Пузырчатые мышцы помогут освоить космические полеты

Слияние двойной нейтронной звезды образовало черную дыру

Слои глины Марса были устойчивым местом для древней жизни

Китайский автобренд Foton. Надежность, универсальность и современные решения для бизнеса

Почему стоит посетить Казань. Культурное богатство, история и уникальная атмосфера

Выгоды установки микромаркета самообслуживания для бизнеса

Когда деньги ушли не туда. Как работает чарджбэк

Подвесной потолок Грильято - архитектурная революция коммерческих пространств

Американские военные заметили дискообразный НЛО

Борьба властей и уфологического сообщества

Бывший пилот истребителя чуть не столкнулся с НЛО

Дискообразный НЛО запечатлен американскими военными

Достоянием общественности стали кадры с НЛО

Загадочное мумифицированное кровососущее существо

ИИ стал экзистенциальной угрозой для СМИ

Нападение демонов на начальную школу

Невиданные ранее кадры с НЛО

Папа Римский объявил войну искусственному интелекту

Пилот истребителя ошеломлен тем, что увидел НЛО

Продвинутые модели ИИ будут хитрить, обманывать и воровать

Река в форме дракона - знак, оставленный рептилоидами

Родители поджигают имущество одержимого учителя

Ролик с китайской космостанции является поддельным

Секретная встреча китайских спутников

Фильм об НЛО вызвал волну сообщений о странной активности

Церковь присоединяется к исследованию НЛО

Череп, оставленный инопланетянами, на острове в Канаде

Я сталкиваюсь с инопланетянами каждый день

Какие навыки дают современные онлайн-школы IT помимо программирования

Был ли первобытный человек технически развит

Военное видео с НЛО вызвало споры

Всемирный потоп в греческой мифологии

Встреча англичанки со странным существом

Встреча с инопланетянами возле Кошенцина

Города Мичигана, в которых были замечены НЛО

Древние передовые знания ведических мудрецов

Жизнь на Марсе будет похожа на тюремное заключение

Информация и экспертные знания об НЛО

Инцидент на острове Мори будет обсуждаться в Розуэлле

Каково назначение загадочных Врат Богов

Летчик-истребитель видел НЛО

Магнитное поле странным образом управляет воздухом

Мы были не первой развитой цивилизацией на Земле

Наблюдения чудовищ в озере Лох-Несс

НЛО в древние времена

НЛО замечен на афгано-пакистанской границе

Пилот истребителя едва не столкнулся с НЛО

Почему йети до сих пор не обнаружены

Предсказания Леонардо да Винчи

Призрачные огни терроризируют бенгальских рыбаков

Просочившееся в сеть военное видео с НЛО

Самое популярное место НЛО в Австралии

Следы инопланетян на дне Балтийского моря

Собаку-призрака заметили в историческом здании Глостера

Странный объект снят в Китае

Странный прямоугольный НЛО заметил пилот истребителя

У людей есть ингредиенты для отращивания конечностей

Ученые обнаружили парадокс в эволюции

Черви доказали, что Дарвин ошибался

Астероид-убийца может столкнуться с Луной

Биомеханический НЛО над графством Суррей

Бывший пилот ВВС США описывает блестящий объект

Вся жизнь на Земле подчиняется одному правилу

Где чаще всего живут психопаты

Городская инфраструктура замечена на Марсе

Журналисты борются с сокрытием информации о НЛО

Загадочная летающая тарелка в пустыне Сахара

Загадочный сигнал вырвался из глубин Антарктиды

ИИ может спровоцировать ядерный Армагеддон

ИИ подрывает навыки критического мышления

Инопланетяне развязали войну между Ираном и Израилем

Кто первым применит ядерное оружие

НЛО замечен над Массачусетсом

НЛО, меняющий форму, над Сакраменто

Новый ключ, который может раскрыть Пятую силу

Обнаружено недостающее вещество во Вселенной

Призрачный шлейф обнаружен под восточным Оманом

Причудливые и запутанные тайны из мира авиации

Свет имеет доступ к 37 различным измерениям

Скрытая закономерность сохранит ваши секреты

Странные сооружения под водой у острова Бали

Сферу Буга видели в Китае

Таинственные огни над Парагваем

Таинственные сигналы из Антарктиды

Тюрьма, населенная призраками

Фото инопланетян, опубликованные Пентагоном

Цилиндрический НЛО над Колорадо-Спрингс

Через 15 лет люди будут жить в оазисах на Марсе

Электронные письма Пентагон о НЛО

Voyah Dream и Free. Премиум без компромиссов

КамАЗ Компас. Важность и причины технического обслуживания

Changan. Премиум в движении - обзор моделей UNI-K, HUNTERplus

Обзор популярных моделей Haval. Jolion и Dargo

Гуанчи - последние потомки Атлантиды

Жюль Верн предсказал нечто похожее на интернет

ИИ отбирает рабочие места у айтишников

ИИ позволит колонизировать галактику через пять лет

Компания OpenAI вскрыла тёмные личности у ИИ

Кричащий призрак на месте ДТП

Металлический шар наблюдали в Китае

На каких планетах стоит искать жизнь

Наш мир может быть космической голограммой

Нашли недостающее вещество Вселенной

Нечто промчалось в небе над Мексикой

Носовое дыхание оказалось уникальным для каждого человека

Папа считает угрозу ИИ человечеству главной проблемой

План заражения Энцелада жизнью

Подразделение-201 ускорит внедренение военных ИИ-технологий

Похищения феями и подражателями

Почему ИИ не победит в игре 'Что? Где? Когда?'

Призрачный канал утечки тепла из ядра Земли

Таинственные болотные огни убивают рыбаков

Человеческие сердца впервые вырастили в зародышах свиньи

Модельный ряд Audi Q. Характерные особенности и ключевые представители

Американские военные сняли летающую тарелку

В пустыне Сахара замечен НЛО

Верящие в теории заговора излишне самоуверенны

Загадочная резьба с библейским посланием

Наверх
Яндекс.Метрика