Обучили ИИ точнее распознавать неизвестные объекты
|
Ученые из лаборатории исследований искусственного интеллекта T-Bank AI Research совместно со студентами Университета МИСИС и МФТИ разработали новый метод, который помогает ИИ точнее распознавать на фотографиях ранее неизвестные ему объекты. Риск ошибки при обработке и анализе изображений снизился более чем на 20%, что уменьшает необходимость перепроверки и исправления неверных решений человеком. В перспективе метод поможет развить сферу беспилотных транспортных средств и медицинской диагностики, рассчитывают в Т-Банке |
Открытие было представлено на Международной конференции по обработке изображений (IEEE ICIP) в Абу-Даби в конце октября 2024 года — это одна из крупнейших научных конференций, посвященных обработке изображений и видео, а также компьютерному зрению. Метод, разработанный в T-Bank AI Research вместе со студентами МИСИС и МФТИ, получил название SDDE (Saliency-Diversified Deep Ensembles) и будет особенно востребован в сферах, требующих высокой точности анализа, рассказали Forbes в Т-Банке. В перспективе он поможет развить сферу беспилотных транспортных средств и медицинской диагностики, где важно различать неопознанные элементы и графические артефакты. |
Компьютерное зрение (Computer Vision, CV) — это область ИИ, которая занимается анализом изображений и видео. Для повышения эффективности распознавания объектов ученые применяют методы машинного обучения. В частности, глубокие ансамбли — это метод, который объединяет несколько нейронных сетей для решения задачи. Это похоже на сбор мнений разных экспертов для получения лучшего решения. |
«Предыдущие разработки в области CV сталкивались с проблемой однородности ансамблей, то есть они были слишком похожи друг на друга, что снижало качество и разнообразие их оценок, — поясняют в Т-Банке. — Ученые из лаборатории T-Bank AI Research нашли решение этой проблемы с помощью нового метода SDDE, который использует карты внимания, фокусирующиеся на разных аспектах данных. Это уменьшает схожесть моделей и повышает их общую точность, благодаря чему идентификация объектов становится более надежной и диверсифицированной». |
Также исследователи научили модель при работе с изображениями учитывать не только те наборы данных, которые использовались при ее обучении, но и незнакомую ей информацию. Такой подход улучшил работу модели в области обнаружения ранее неизвестных ей объектов и точности их идентификации. |
В исследовании был предложен метод, улучшающий способность нейронных сетей распознавать изображения, которые отличаются от их обучающих данных и с которыми они не могут работать, рассуждает младший научный сотрудник группы «ИИ в промышленности» Института AIRI Максим Голядкин. Этот вопрос важен, поскольку нейросети, по его словам, часто не распознают, когда сталкиваются с незнакомыми входными данными. «Вместо того, чтобы признать неопределенность, они могут уверенно выдавать неправильные прогнозы подобно тому, как некоторые языковые модели могут предоставлять вводящую в заблуждение информацию, известную как «галлюцинации», — продолжает Голядкин. — Различные варианты решения этой проблемы необходимы для безопасного использования нейронных сетей в критически важных областях, таких как автономное вождение или медицинская диагностика». |
Представленный метод основан на ансамблировании моделей, где несколько моделей совместно работают над предсказаниями, разъясняет Максим Голядкин из AIRI. Авторы заметили, что при традиционном обучении модели склонны фокусироваться на одних и тех же признаках внутри изображений, что ограничивает эффективность ансамбля, рассуждает он. Чтобы преодолеть это ограничение, исследователи разработали технику обучения, которая поощряет каждую модель в ансамбле обращать внимание на разные части изображения при прогнозировании. «Разнообразив фокус каждой модели, ансамбль становится лучше в распознавании тех входных данных, с которыми он ранее не сталкивался», — резюмирует эксперт. |
Мировой рынок компьютерного зрения переживает бурный рост с прогнозируемым увеличением с $25,8 млрд в 2024 до $47 млрд к 2030 году, оценивала Statista. В частности, объем рынка компьютерного зрения в здравоохранении, составлявший $986 млн в 2022 году, к 2031 году вырастет до $31 млрд с прогнозируемым ростом на 47% в год, подсчитывали в Straits Research. Такое быстрое развитие свидетельствует о растущей роли компьютерного зрения (CV) в улучшении медицинской диагностики, повышении точности лечения и стандартов ухода за пациентами. |
В России рынок также увеличивается: по итогам этого года Statista ожидала роста его объема до более чем $600 млн и далее по 10,5% в среднем в год до 2030-го, когда он превысит $1,1 млрд. |
Источник |
При использовании материалов с сайта активная ссылка на него обязательна
|