Сколько данных нужно для искусственного интеллекта
Одна из фундаментальных проблем при создании эффективных моделей машинного обучения — определение необходимого и достаточного количества данных для их обучения. Слишком мало данных — модель будет неточной, слишком много — неоправданные затраты времени и ресурсов на сбор и обработку информации. Ученые из МФТИ предложили два новых метода для решения этой задачи, основанных на анализе функции правдоподобия с использованием техники бутстрэпа.
Работа опубликована в журнале Computational Mathematics and Mathematical Physics. Правдоподобием называют функцию, которая показывает, насколько вероятны наблюдаемые данные при заданных параметрах модели. В машинном обучении часто максимизируют эту функцию (или ее логарифм – логарифмическую функцию правдоподобия), чтобы найти наилучшие параметры модели.
Вопрос «сколько данных достаточно?» стар как само машинное обучение. От ответа на него напрямую зависит качество прогнозов модели, ее способность обобщать информацию и корректно работать на новых, ранее не просмотренных ею данных, а также экономическая целесообразность всего проекта.
Исторически сложилось несколько подходов к определению достаточного размера выборки. Во-первых, это классические статистические методы. Такие подходы часто опираются на проверку конкретных статистических гипотез о параметрах модели. Например, исследователи могут потребовать, чтобы модель достигала определенной статистической мощности (способности обнаружить эффект, если он есть) при заданном уровне ошибки первого рода (вероятности ложноположительного срабатывания). К таким методам относятся тест множителей Лагранжа, тест отношения правдоподобия, статистика Вальда. Основной их недостаток – они требуют сильных предположений о распределении данных и часто привязаны к конкретным гипотезам, что не всегда удобно на практике.
Во-вторых, это байесовские методы. В них размер выборки определяется, например, путем максимизации ожидаемой “полезности” модели, которая может учитывать как точность оценки параметров, так и штрафы за увеличение выборки. Используются различные критерии, такие как минимизация средней апостериорной дисперсии параметров, критерий среднего покрытия и другие. Эти методы гибки, но могут быть сложны в реализации и интерпретации, а также требуют задания априорных распределений для параметров модели, которые не всегда адекватно можно оценить.
В-третьих, используют множество эвристических методов, которые основаны на практическом опыте, эмпирических правилах (например, «10 объектов на каждую переменную») или методах вроде кросс-валидации (перекрестной проверки). Они просты, но не имеют строгого теоретического обоснования и не всегда гарантируют оптимальный результат.
Несмотря на разнообразие подходов, универсального, простого в применении и теоретически обоснованного метода для широкого класса задач до сих пор не существовало. Многие существующие техники либо сложны, либо требуют априорной информации, которой у исследователя может не быть на этапе планирования эксперимента. И все они не всегда гарантируют результат.
Именно проблему разработки более универсальных и практически применимых методов определения достаточного размера выборки решали исследователи из МФТИ. Их идея основана на интуитивном предположении: если данных уже достаточно, то добавление еще нескольких объектов не должно сильно менять ни саму модель, ни ее «уверенность» в данных, выраженную через функцию правдоподобия. Целью исследования ученых Физтеха была разработка критериев достаточности выборки, которые основаны на поведении функции правдоподобия при изменении размера обучающей подвыборки, и оценка их работоспособности в теории и на практике.
Авторы статьи предложили два критерия, основанных на анализе значений функции правдоподобия, вычисленной на подвыборках разного размера k, полученных с помощью бутстрэпа из исходной выборки некоторого размера m.
Первый критерий они назвали D-достаточностью, от слова “дисперсия”. Этот критерий проверяет, стабильны ли результаты при использовании разных подмножеств данных одного размера. Он заключается в том, чтобы считать выборку достаточной в том случае, если разброс значений правдоподобия между моделями, которые обучены на разных случайных подвыборках размера k, достаточно мал.
Второй критерий они назвали M-достаточностью, от «математическое ожидание». M-критерий проверяет, перестала ли модель существенно улучшаться при добавлении еще одного объекта данных. Если средний показатель правдоподобия при добавлении одного элемента данных почти не улучшился, то это значит, что выборка уже является достаточной.
Оба подхода используют бутстрэп для получения надежных оценок этой стабильности или улучшения. Бутстрэп — это статистический метод, позволяющий оценить различные характеристики некоторой статистики путем многократного извлечения подвыборок с возвращением из исходной выборки. Проще говоря, мы много раз «вытаскиваем наугад» объекты из нашего набора данных (причем один и тот же объект может быть выбран несколько раз в одну подвыборку), формируя множество «псевдо-выборок», и на них оцениваем интересующие нас величины.
Важным результатом работы является теоретическое доказательство корректности критерия M-достаточности для модели линейной регрессии при определенных условиях сходимости оценок параметров модели. Это придает методу дополнительную строгость, хотя бы для одного важного класса моделей.
Ученые провели вычислительные эксперименты как на синтетических данных (сгенерированных из моделей линейной и логистической регрессии), так и на реальных наборах данных (включая известный набор Liver Disorders и множество других).
Эмпирические результаты в виде численного моделирования использования метода подтвердили работоспособность обоих подходов. На практике оказалось, что предложенный подход можно эвристически применять даже в тех случаях, когда оптимизируется не функция правдоподобия, а некоторая другая функция потерь, что часто встречается в современном машинном обучении.
Эксперименты показали, что методы успешно применимы к разным типам данных и моделей (регрессия, классификация).
Хотя бутстрэп сам по себе известен, его применение для оценки именно стабильности правдоподобия как критерия достаточности выборки является новым. Предложенный учеными подход является универсальным, так как он не привязан к конкретным статистическим гипотезам и может быть применен к широкому кругу моделей, включая те, где оптимизируется произвольная функция потерь.
«Определение правильного объема данных — это вечный компромисс между затратами на сбор информации и качеством модели, – рассказал Андрей Грабовой, доцент кафедры интеллектуальных систем МФТИ. – Существующие методы часто либо слишком сложны в применении, либо опираются на специфические допущения о данных или модели, которые не всегда выполняются. Мы хотели предложить простой, но при этом имеющий под собой основания подход. Идея в том, чтобы посмотреть, насколько ‘устаканивается’ правдоподобие модели по мере добавления данных, используя для оценки этой стабильности бутстрэп. Наши эксперименты на синтетических и реальных данных показывают, что предложенные критерии D- и M-достаточности действительно сходятся к нулю при увеличении выборки, что подтверждает их адекватность. Мы надеемся, это поможет исследователям и практикам более уверенно планировать свои эксперименты и эффективнее использовать имеющиеся ресурсы».
Никита Киселев, студент 5-го курса МФТИ, добавил: «Наше исследование было вдохновлено эмпирическими наблюдениями: мы обнаружили, что в наших экспериментах функция правдоподобия переставала значимо изменяться при достижении определенного размера выборки. Это наблюдение побудило нас к глубокому теоретическому анализу проблемы, результаты которого представлены в данной статье. Наши выводы имеют широкое применение для различных моделей, хотя для современных нейронных сетей, включая генеративные модели, мы уже разработали более эффективные и выразительные методы, которые планируем подробно осветить в будущих работах».
Предложенные методы могут найти применение во множестве областей, где используется машинное обучение и остро стоит вопрос стоимости или возможности сбора данных. Такими являются, например, медицинские исследования, где крайне важно определить достаточное количество пациентов для клинических испытаний новых лекарств; финансовый анализ, для которого необходима оценка достаточного объема исторических данных для построения моделей кредитного скоринга, прогнозирования рынков или обнаружения мошенничества. Также предложенные методы могут иметь применения в обработке данных в социологии, маркетинге, промышленности, биоинформатике, в разработке систем искусственного интеллекта.
Работа ученых из МФТИ открывает несколько направлений для будущих исследований. Это и более углубленный теоретический анализ предложенных методов с целью строго доказать их корректность, и использование других метрик стабильности, разработка других похожих алгоритмов, сравнение с другими методами, исследование влияния гиперпараметров – как на эффективность метода влияют выбор порога и число используемых подвыборок для бутстрэпа.
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Меню
Архив материалов
Проекты наших читателей
Контакты исследователей
Подписка на новости
Проекты
Новости криптозоологии
Хроники природных катастроф
Новости
26.02.2002 - 05.07.2002
05.08.2002 - 23.10.2002 (562)
24.10.2002 - 17.01.2003 (585)
20.01.2003 - 07.04.2003 (709)
08.04.2003 - 01.08.2003 (709)
04.08.2003 - 18.11.2003 (763)
19.11.2003 - 31.03.2004 (721)
01.04.2004 - 13.08.2004 (825)
16.08.2004 - 22.11.2004 (782)
23.11.2004 - 28.03.2005 (756)
29.03.2005 - 29.07.2005 (807)
30.08.2005 - 02.12.2005 (927)
05.12.2005 - 21.04.2006 (912)
24.04.2006 - 23.10.2006 (999)
24.10.2006 - 03.05.2007 (999)
04.05.2007 - 28.01.2008 (999)
29.01.2008 - 12.01.2009 (999)
13.01.2009 - 07.07.2009 (966)
22.08.2009 - 21.01.2010 (996)
22.01.2010 - 22.06.2010 (1000)
23.06.2010 - 14.01.2011 (1042)
17.01.2011 - 31.05.2011 (1008)
01.06.2011 - 03.11.2011 (1003)
07.11.2011 - 16.03.2012 (996)
19.03.2012 - 09.06.2012 (1009)
13.06.2012 - 07.09.2012 (988)
10.09.2012 - 19.11.2012 (1004)
20.11.2012 - 14.01.2013 (1015)
15.01.2013 - 22.02.2013 (1000)
23.02.2013 - 08.04.2013 (991)
09.04.2013 - 31.05.2013 (1015)
01.06.2013 - 18.07.2013 (992)
19.07.2013 - 03.09.2013 (1014)
04.09.2013 - 20.10.2013 (1001)
21.10.2013 - 02.12.2013 (1001)
03.12.2013 - 18.01.2014 (997)
19.01.2014 - 07.03.2014 (994)
08.03.2014 - 24.04.2014 (1000)
25.04.2014 - 18.06.2014 (1005)
19.06.2014 - 15.08.2014 (1019)
16.08.2014 - 07.10.2014 (1006)
08.10.2014 - 16.11.2014 (995)
17.11.2014 - 25.12.2014 (1004)
26.12.2014 - 09.02.2015 (989)
10.02.2015 - 20.03.2015 (998)
21.03.2015 - 22.04.2015 (1001)
23.04.2015 - 29.05.2015 (997)
29.05.2015 - 30.06.2015 (995)
30.06.2015 - 29.07.2015 (990)
29.07.2015 - 26.08.2015 (998)
27.08.2015 - 24.09.2015 (988)
25.09.2015 - 22.10.2015 (991)
23.10.2015 - 18.11.2015 (1000)
18.11.2015 - 16.12.2015 (990)
17.12.2015 - 23.01.2016 (1000)
24.01.2016 - 25.02.2016 (1000)
26.02.2016 - 24.03.2016 (1000)
24.03.2016 - 16.04.2016 (990)
17.04.2016 - 19.05.2016 (999)
20.05.2016 - 22.06.2016 (993)
23.06.2016 - 01.08.2016 (995)
02.08.2016 - 12.09.2016 (990)
13.09.2016 - 25.10.2016 (989)
26.10.2016 - 05.12.2016 (995)
06.12.2016 - 15.01.2017 (995)
16.01.2017 - 23.02.2017 (990)
24.02.2017 - 03.04.2017 (994)
04.04.2017 - 18.05.2017 (1000)
19.05.2017 - 05.07.2017 (1000)
06.07.2017 - 24.08.2017 (1000)
25.08.2017 - 06.10.2017 (991)
07.10.2017 - 15.11.2017 (990)
16.11.2017 - 24.12.2017 (1000)
25.12.2017 - 04.02.2018 (990)
05.02.2018 - 17.03.2018 (1000)
18.03.2018 - 02.05.2018 (990)
03.05.2018 - 11.06.2018 (1000)
12.06.2018 - 18.07.2018 (990)
19.07.2018 - 24.08.2018 (1000)
25.08.2018 - 02.10.2018 (1000)
03.10.2018 - 07.11.2018 (990)
08.11.2018 - 13.12.2018 (990)
14.12.2018 - 23.01.2019 (1000)
24.01.2019 - 02.03.2019 (1000)
03.03.2019 - 12.04.2019 (1010)
13.04.2019 - 23.05.2019 (990)
24.05.2019 - 03.07.2019 (1000)
04.07.2019 - 11.08.2019 (1000)
12.08.2019 - 16.09.2019 (990)
17.09.2019 - 26.10.2019 (1000)
27.10.2019 - 12.12.2019 (1000)
13.12.2019 - 25.01.2020 (1000)
26.01.2020 - 06.03.2020 (990)
07.03.2020 - 16.04.2020 (1010)
17.04.2020 - 19.05.2020 (1000)
20.05.2020 - 25.06.2020 (990)
26.06.2020 - 04.08.2020 (995)
05.08.2020 - 16.09.2020 (1005)
17.09.2020 - 26.10.2020 (990)
27.10.2020 - 27.11.2020 (990)
28.11.2020 - 07.01.2021 (990)
08.01.2021 - 15.02.2021 (1000)
16.02.2021 - 31.03.2021 (1000)
01.04.2021 - 12.05.2021 (1000)
13.05.2021 - 14.06.2021 (990)
15.06.2021 - 26.07.2021 (980)
27.07.2021 - 31.08.2021 (990)
01.09.2021 - 07.10.2021 (1000)
08.09.2021 - 07.11.2021 (1000)
08.11.2021 - 10.12.2021 (1000)
11.12.2021 - 24.01.2022 (990)
25.01.2022 - 04.03.2022 (1000)
05.03.2022 - 10.04.2022 (990)
11.04.2022 - 17.05.2022 (1000)
18.05.2022 - 23.06.2022 (980)
24.06.2022 - 31.07.2022 (990)
01.08.2022 - 13.09.2022 (990)
14.09.2022 - 21.10.2022 (990)
22.10.2022 - 29.11.2022 (1000)
30.11.2022 - 22.01.2023 (1000)
23.01.2023 - 02.03.2023 (990)
03.03.2023 - 21.04.2023 (1000)
22.04.2023 - 13.06.2023 (990)
14.06.2023 - 02.08.2023 (1000)
03.08.2023 - 21.09.2023 (1000)
22.09.2023 - 06.11.2023 (990)
07.11.2023 - 24.12.2023 (990)
25.12.2023 - 18.02.2024 (1000)
19.02.2024 - 05.04.2024 (990)
06.04.2024 - 25.05.2024 (1000)
26.05.2024 - 26.07.2024 (1000)
26.07.2024 - 25.08.2024 (990)
26.08.2024 - 28.09.2024 (980)
29.09.2024 - 01.11.2024 (1000)
02.11.2024 - 02.12.2024 (980)
03.12.2024 - 08.01.2025 (990)
09.01.2025 - 09.02.2025 (1000)
10.02.2025 - 20.03.2025 (1000)
21.03.2025 - 03.05.2025 (990)
04.05.2025 - ...
Статьи
Статьи: раздел 1 (1024)
Статьи: раздел 2 (1006)
Статьи: раздел 3 (1000)
Статьи: раздел 4 (1044)
Статьи: раздел 5 (1001)
Статьи: раздел 6 (1000)
Статьи: раздел 7 (1000)
Статьи: раздел 8 (1013)
Статьи: раздел 9 (1000)
Статьи: раздел 10 (1000)
Статьи: раздел 11 (329)
Статьи: раздел 12 (1000)
Статьи: раздел 13 (730)
Лента новостей

Акула-молот упала с неба на поле для гольфа

Американские военные распространяли мифы об НЛО

Документы по реинжинирингу НЛО

Загадочный шар замечен над штатом Вашингтон

Исследования Филипа Мантла в области НЛО

Кто распространяет мифы об НЛО

Межпространственный бомбардировщик ВВС США

Металлическая сфера, покрытая причудливыми символами

Несколько огромных сооружений на Луне

НЛО пролетает над небоскребами Нью-Джерси

НЛО рискуют провалиться в паранормальную кроличью нору

От вампиров до оборотней и келпи

Открыли путь к сверхзрению для человека

Пентагон должен признаться во лжи об НЛО

Пентагон организовал уфологический заговор

Правда, стоящая за заговорами об НЛО

Правительство США использовало мифы об НЛО

Разбившийся НЛО откапывают в Алжире

Сокрытие секретных оружейных программ Пентагона

ЦРУ разжигает массовые беспорядки

GetRentacar.com – огромный выбор автомобилей для аренды по лучшим ценам

Божественный голос сказал, что мое время еще не пришло

Вендиго - зверь с ненасытной жаждой плоти

Виманы - летающие машины древней Индии

Военные США продвигали теории об НЛО

Второй город обнаружен под пирамидами Гизы

Выход из болота моделей теорий струн

Доисторический компьютер

Инопланетяне обезвредили ядерные боеголовки

История с мумией кошки и чередой загадочных катастроф

Могла ли вся культура НЛО подогреваться Пентагоном

Новая раса людей сделает обычных людей устаревшими

Пентагон и другие ведомства скрывали правду

Пентагон распространял мифы об НЛО

Правда о заговоре в Зоне 51

Распространение дезинформации об НЛО

Секретные оружейные программы Пентагона

Современный ИИ - туповат

Сражение НЛО в небе Земли в 1665 году

Сферический НЛО с инопланетными письменами

Туринская плащаница - загадка длиной в 2000 лет

Временная регистрация в Москве, что нужно знать гражданам РФ

ЭКО. Преимущества и особенности процедуры

Как выбрать мужские брюки. Советы по стилю, посадке и материалам

Военные США распространяли мифы об НЛО

Где скрываются секретные оружейные программы

Мифы об НЛО намеренно раздувались

Мы всего лишь переменные в коде

Неопознанные аэрокосмические и подводные явления

НЛО замечен в небе над Эдинбургом

НЛО появится на крупном спортивном событии

Одна инопланетянка из Перу была беременна

Охранник морга поведал жуткую историю

Папу призвали поделиться секретами Ватикана о НЛО

Пентагон распространил мифы об НЛО

Подростки из Мидлотии видели НЛО

Полковник ВВС США подбрасывал фотографии НЛО

Пришельцы приземлились в Воронеже

Расшифрована утерянная легенда о Мерлине и Артуре

Секреты Пентагона. Инопланетяне или шутка

США десятилетиями подпитывали слухи об НЛО

Таинственный туннель под пирамидами Теотиуакана

Теории заговора о Зоне 51 распространялись намеренно

Что на самом деле происходит после смерти

Сувениры с логотипом Тюмень

Акцент администрации Трампа на НЛО

Врата ада наконец-то закрываются

Дискообразный НЛО замечен над Тайванем

Душа никогда не умирает

Загадочный мегалит Сайвите

Засекреченная правда о происхождении Марса

Захватил ли ИИ контроль над нами

Земля никогда нам не принадлежала

Мужчина прожил на звездолете 10 дней

Обнаружили гигантские каменные сферы в Коста-Рике

Пентагон подпитывал уфологическую мифологию

Правда об НЛО и похищениях инопланетянами

Правительственное прикрытие или космический корабль

Признаки биологической активности на экзопланете K2-18b

Разоблачитель НЛО хвалит целевую группу Трампа по НЛО

Рядом с нашей Вселенной может существовать другая

Тайна инопланетных черепов, найденных в Мексике

Темный заговор в правительстве США

Физики создали самую маленькую скрипку

Экстрасенс предсказал эпическую дуэль Трампа и Маска

Адский огонь начинает угасать

Гватемальский эксперт рассказал о светящемся объекте

Загадочная смерть крупного рогатого скота в Колорадо

Изуродованное животное найдено в Корриентесе

Национальный архив Бразилии опубликовал документы о НЛО

НЛО в Гренландии вызывает много вопросов

Новый виток звездных войн

Обнаружили скрытые закономерности в Библии

Одержимый грузовик движется сам по себе

Пентагон сфабриковал мифологию НЛО в США

Подробности похищения инопланетянами в Аллагаше

Пророчество слепой ясновидящей Ванги на 2025 год

Расшифровка свитков Мертвого моря

Режиссер обнаружил местонахождение Святого Грааля

Серебряный шар появился над Ютой

Трамп может пролить свет на проблему НЛО

Фестиваль НЛО пройдет в Бурьене

Физики используют ИИ для поиска НЛО

ЦРУ обнаружило инопланетян на обратной стороне Луны

Человек, сделавший лучший снимок НЛО

Апокалипсис наступит через 10 лет

В Зоне 51 что-то происходит

Инопланетянка из Перу была беременна

Команда ученых из Института SETI изучает китов

Мир не готов к раскрытию правды об НЛО

Модель поглощения черной дырой нейтронной звезды

Насколько вероятна жизнь на Марсе

Отдаленные регионы мира полны невероятных тайн

Охлаждающий эффект дымки на Плутоне

Поиски лучшего способа отличить жизнь от нежизни

Полет на Марс может занять всего три месяца

Происхождение сверхгорячей экзопланеты

Развитие полетов с использованием ядерного двигателя

Реалистичный взгляд на терраформирование Марса

Суперземля обнаружена в обитаемой зоне звезды

Тайны химии межзвездного пространства

Трамп хочет привлечь частный сектор на Марс

Треугольный НЛО замечен над Торонто

Черные дыры можно использовать как суперколлайдеры

Японская Ванга предупредила о большом опустошении

Вампирами рождаются, а не становятся

Всего за 24ч в небольшом городке произошло 35 землетрясений

Доказательства реальности жизни после смерти

Жуткая памятка о крушении НЛО в Розуэлле

Загадка двух очень странных смертей в больницах

Загадочные кашмирские гиганты

И-Цзин - компьютер древних богов

Концепт тюрьмы будущего. Зоны отдыха и бутики

Мачу-Пикчу более 100 лет называют неправильным именем

Может ли Вселенная быть чьим-то мозгом

Наглядное подтверждение гипотезы 'Космического зоопарка'

Обнаружена потенциально обитаемая экзопланета

Пентагон автоматизирует изучение НЛО

Прорыв в области анализа свитков Мертвого моря

Сет - самый загадочный египетский бог

Симпозиум по НЛО стартует в округе Страткона

Тайна детей с черными глазами

Теория Большого взрыва неверна

Феномен странных дирижаблей 1896–1897 годов

Являются ли драконы мифическими существами

Какие документы должны быть на предприятии по охране труда

Бигфута сняли в лесах Колорадо

Города Нью-Джерси, где чаще всего видели НЛО

Девочке из мозга удалили 8-сантиметровый гвоздь

Как при слиянии нейтронных звезд образуются черные дыры

Кинорежиссёр видел НЛО

На каких отдаленных планетах может существовать жизнь

Находимся ли мы в галактическом зоопарке

Неразгаданная тайна Солвейского космонавта

Поиск экзопланет в обитаемых зонах их звезд

Пролетающие мимо звезды оказывают влияние на Землю

Пульсирующий шар замечен в Огайо

Путешествие на Марс и Цереру через Луну

Разоблачитель НЛО подает в суд на шерифа Вирджинии

Свидетельница 'Огней Феникса' все еще ищет ответы

Создатели НЛО могут скрываться в океанах Земли

У людей могут быть экстрасенсорные способности

Удалось ли астрономам найти исчезнувшую звезду

Ужасающие дома, управляемые злыми демонами

Чупакабра может быть результатом эксперимента

Электронные письма о НЛО и брифинги 'Пять глаз'

Доказательства того, что люди не все контролируют

Загадочная история одичавшего ребенка

Изучение загадочной Бетельгейзе

Как внеземные цивилизации путешествуют по Вселенной

Конкурент Neuralink имплантировал первый чип в мозг

Кусок арматуры пробил мужчину без серьезных последствий

Мозговой имплант впервые подключили к человеку

Озон не является хорошим биосигналом жизни

Охота за таинственной 'Девятой планетой' преподносит сюрприз

Поиск пригодных для жизни миров стал актуальной темой

Приповерхностный лед и горные породы Марса

Путь волны через пространство-время черной дыры

Самолет, с которого началась легенда о Зоне 51

Сверхгорячая экзопланета со сверхбыстрыми ветрами

Свидетельства существования черных дыр средней массы

Секреты предков классического периода майя

Спутниковые мегакомплексы угрожают астронаблюдениям

Тайная сторона космической гонки

Ученые защищают заявление о подземном городе в Гизе

Фирме Neuralink удалось привлечь ещё $650 млн

Наверх
Яндекс.Метрика