Данных для обучения ИИ перестало хватать
Несколько дней назад сообщалось, что разработчики ИИ столкнулись с нехваткой данных для обучения передовых моделей, в том числе о планах Open AI обучать GPT-5 на видео с YouTube. Согласно материалу The New York Times, в погоне за новыми данными корпорации забывают об этике и морали. К концу 2021 года OpenAI столкнулась с нехваткой авторитетных англоязычных текстов в интернете для обучения новейшей модели искусственного интеллекта — ей требовалось гораздо больше данных. Тогда разработчики OpenAI создали расшифровывающую аудиозаписи из видеороликов на YouTube систему распознавания речи Whisper, которая выдаёт текст для обучения ИИ. По словам нескольких сотрудников, в компании понимали, что такой шаг может противоречить правилам использования YouTube, запрещающим использовать видеоролики «независимо» от платформы. Это не остановило OpenAI, расшифровавшую более миллиона часов видеороликов с YouTube. Полученный текст использовался для обучения GPT-4 — одной из мощнейших систем искусственного интеллекта в основе последней версии ChatGPT.
В исследовании The New York Times говорится, что в гонку за данными включились все передовые разработчики ИИ, включая OpenAI, Google и Meta, причём компании зачастую игнорируют корпоративные политики, а иногда и закон. Разработчики ИИ всё сильнее упираются в нехватку материала. Передовые чат-боты обучались на массивах цифровых текстов объёмом до трёх триллионов слов, что примерно вдвое больше объёма материалов в Бодлианской библиотеке Оксфордского университета, в том числе датирующихся ещё 1602 годом. Наибольшую ценность для обучения ИИ представляют высококачественные данные из отредактированных профессионалами книг и статей. По данным исследовательского института Epoch, такие тексты могут закончиться уже в 2026 году. «Единственный практический способ существования таких инструментов — обучение на огромных массивах информации без разрешения её создателей. Объём необходимых данных настолько велик, что не поможет даже коллективное лицензирование», — говорит представляющий интересы венчурной компании Andreessen Horowitz Сай Дамле (Sy Damle).
OpenAI, Google и Meta не скрывают, что их модели ИИ обучаются на открытых данных, однако не все создатели соответствующего контента приветствуют данную инициативу, что уже стало причиной множества судебных разбирательств. В прошлом сама The New York Times подавала в суд на OpenAI и Microsoft за то, что компании обучали чат-ботов на защищённых авторским правом материалах без разрешения владельцев. Тогда Microsoft и OpenAI заявили, что «добросовестно используют» материалы для создания собственных работ, что не запрещено законом об авторском праве. В январе 2020 года физик-теоретик из Университета Джонса Хопкинса Джаред Каплан (Jared Kaplan) опубликовал работу об ИИ, которая разожгла аппетиты их разработчиков. Он высказался однозначно: чем больше данных используется для обучения языковой модели, тем лучше она работает, подобно тому, как студенты получают всё больше знаний из прочитанных книг. Языковые модели могут устанавливать закономерности и взаимосвязи, что позволяет точнее обрабатывать новую информацию.
«Все сильно удивились, что эти тенденции, или законы масштабирования, как мы их называем, не менее точны, чем физические и астрономические», — говорит ныне работающий в Anthropic Каплан. Разработчики ИИ уже давно используют огромные массивы публичных цифровых данных, в том числе статьи из «Википедии» и Common Crawl — базы данных из более чем 250 млрд интернет-страниц, собранных с 2007 года. Прежде чем «скормить» эти данные ИИ, их тщательно фильтровали на предмет «нежелательных» материалов. Объёмы необходимых для обучения ИИ в 2020 году данных сейчас кажутся смешными, ведь тогда массив из 30 тысяч картинок с Flickr казался огромным. Создание вышедшей в ноябре 2020 года GPT-3 ознаменовало начало эры погони за новыми данными — модель обучали на 300 млрд «токенов», представляющих отдельные слова или их фрагменты. Обучившись на этих данных, система генерировала посты в блогах, стихи и даже писала программы. В 2022 году подразделение Google Deepmind протестировало 400 ИИ-моделей, меняя объём данных для обучения и другие факторы. Оказалось, что Каплан прав, и чем больше входящих данных, тем лучше работает ИИ. Гонка продолжается: в 2023 году китайцы представили обученную ни 3,2 триллионах английских и китайских лексем модель Skywork, а PaLM 2 от Google «поглотила» 3,6 триллиона токенов.
Позднее Сэм Альтман (Sam Altman) из OpenAI заявил, что данные рано или поздно кончатся — он знает, о чём говорит, ведь компания годами собирала данные, обрабатывала и обучали на них ИИ. Среди использованных данных был программный код с GitHub, базы данных шахматных ходов, школьные тесты и домашние задания старшеклассников. К концу 2021 года они закончились. Помимо расшифровки аудио- и видеоматериалов, рассматривалась покупка компаний, имеющих доступ к огромным объёмам цифровых данных. Некоторые сотрудники Google знали, что OpenAI расшифровывает видео с YouTube, но бездействовали, потому что этим же занималась сама Google, а это потенциально нарушало авторские права создателей видеороликов. Подняв шумиху вокруг OpenAI, Google рискует привлечь общественное внимание и к своим разработкам. Впрочем, представители Google говорят, что правила использования сервиса позволяют использовать данные YouTube для разработки новых функций видеоплатформы. Специализирующийся на интеллектуальной собственности юрист Berger Singerman Джеффри Лоттенберг (Geoffrey Lottenberg) отмечает, что в своих правилах Google использует крайне расплывчатые формулировки. И это сделано намеренно.
Google хотела обучать свои модели на открытых данных Google Docs, Google Sheets и других продуктов. В политике конфиденциальности Google говорилось, что компания может использовать публичные данные для обучения языковых моделей Google и других продуктов вроде Google Translate. Теперь же перечень продуктов помимо Google Translate содержит упоминания Bard и «облачных ИИ». Сотрудников компании специально проинструктировали выпустить новую редакцию политики конфиденциальности перед Днём независимости США, когда мысли людей заняты предстоящими праздниками. Глава Meta Марк Цукерберг (Mark Zuckerberg) годами развивал ИИ-направление, но выход ChatGPT в конце 2022 года оставил его компанию далеко позади. Трое бывших и нынешних сотрудников Meta рассказали, что стремясь догнать OpenAI, он день и ночь донимал менеджеров и ведущих инженеров, чтобы те как можно скорее выпустили конкурирующий продукт. Но как и все остальные, Meta упёрлась лбом в стену нехватки данных.
По словам вице-президента по генеративным ИИ Ахмада Аль-Дахле (Ahmad Al-Dahle), его команда использовала почти все доступные англоязычные книги, эссе, поэмы и новостные статьи в интернете для обучения собственной ИИ-модели. В конце концов, Аль-Дахле заявил, что Meta не превзойти ChatGPT без большего количества данных. К марту-апрелю 2023 года руководство Meta обсуждало эту проблему почти ежедневно. В частности, высказывалось предложение платить по $10 за полное лицензирование каждой книги или приобрести издательство Simon & Schuster, сотрудничающее со множеством авторов, среди которых, например, Стивен Кинг. Обсуждалась и возможность использования интернет-материалов без разрешения авторов, несмотря на возможные нарушения законов об авторском праве. Цукерберг требовал решить проблему немедленно, но инженеры компании заявили, что это невозможно.На одном из записанных совещаний руководства Meta говорилось, что компания наняла субподрядчиков из Африки для сбора защищённых авторским правом материалов. «Мы не можем не собирать их», — сказали на одном из таких совещаний. Кроме того, подчёркивалось, что OpenAI тоже не стесняется использовать защищённые авторским правом материалы без разрешения их владельцев, и получать эти разрешения «слишком долго».
Сэм Альтман предложил решить проблему с помощью «синтетических данных», то есть обучать языковые модели на материалах других языковых моделей. По его словам, раз уж ИИ научились писать человекоподобные тексты, последние можно использовать для дальнейшего развития LLM, что к тому же позволит снизить зависимость от защищённых законом авторских произведений. «Пока ваши модели достаточно продвинуты, чтобы создавать качественные синтетические данные, всё нормально», — сказал Альтман. Однако обучение на данных других ИИ тоже не панацея — большие языковые модели могут попасть в цикл обработки ошибочных данных и недостатков технологии, которые будут нарастать на каждом его витке. «Обучать ИИ — всё равно что пробираться через джунгли. Если обучать ИИ на одних лишь синтетических данных, они заблудятся», — сказал по этому поводу бывший исследователь в OpenAI, а ныне преподаватель компьютерных наук в Университете Британской Колумбии Джефф Клун (Jeff Clune).
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Последние аномальные новости

Алмазные процессоры уже на подходе

Арахниды в городе Инков на Марсе

В Зоне 51 есть сверхзащищенная база внутри базы

В Ланкашире обнаружена своя Зона-51

Есть ли инопланетяне на экзопланете K2-18b

Инопланетяне путешествуют автостопом на астероидах

Китай создает свою версию мозгового чипа

Контактер получил послание от Бога

Музыкант стал первым пассажиром летающего автомобиля

Наблюдения НЛО над Мерсисайдом

Пауки замечены на Марсе

Пилот видел в небе четыре необъяснимых объекта

Подросток из Лас-Вегаса рассказал о пришельцах

Потомки птицоидов из Зимбабве

Почти 2000 наблюдений НЛО над Великобританией

США готовятся к войне в космосе

Ученый раскрыл причину проклятия фараона

Ходьба пешком повышает работоспособность мозга

Черные дыры препятствуют звездообразованию

Является ли ИИ ChatGPT сексистским

Бабайка похитила ребенка

В Сколково начали печь хлеб из насекомых

Вонючий дом шипящей ведьмы в Детройте

Вулканы на Ио непрерывно извергаются более 4,5 млрд лет

Женщина сорвала джекпот после предсказания гадалки

Жителей Самарской области напугали черные кольца в небе

Как лучше строить здания из реголита на Луне

Корональные выбросы массы в ионосфере Марса

Лазерный двигатель для сверхзвуковых подводных лодок

На шее женщины выросла огромная опухоль

Нашли неолитическую дорогу мертвых

Недоношенная девочка, признанная мертвой, ожила

Портал между мирами на горе Уррака

Психологи усомнились в существовании внутренних часов

Русский Нострадамус. В чем феномен Жириновского

Самые таинственные исторические артефакты

Сознание людей еще не готово к НЛО

Уфологические исследования во Франции

Ферменты, превращающие разные группы крови в первую

Физическая сила от природы способствует долголетию

Безотопливный двигатель бросает вызов законам физики

Близкие контакты с НЛО опасны

Женщина увидела НЛО из окна самолета над Нью-Йорком

Звездолет инопланетян вылетает из Солнца

Компании могут использовать ИИ в отношениях с клиентам

Летающий цилиндр замечен над нью-йоркским аэропортом

НАСА пересмотрит миссию по возвращению образцов с Марса

НЛО над Нью-Йорком поставил в тупик пассажира

Обнаружены новые структуры из сверхтяжелых кварков

Первый 3D-взгляд на магнитное поле нашей галактики

Подросток из Лас-Вегаса пострадал от демонического существа

Пришло время поговорить об НЛО

Радиотелескоп, изменивший наше представление о космосе

Самые убедительные наблюдения НЛО в истории Висконсина

Свет может испарять воду без нагрева

Странный цилиндр пролетел около аэропорта Ла Гуардиа

США действительно обнаружили разбившийся НЛО

Узнаем ли мы, есть ли жизнь на TRAPPIST-1e

Универсальная структура для пространственной биологии

Унификация концепции турбулентности звезд

Адмирал бьёт тревогу из-за НЛО

Альберта занимает третье место по аномальным зонам

Астероид Камо'Оалева был выброшен с Луны

ВВС США следят за внеземной деятельностью

Венера дает важные уроки о потенциале жизни

Вселенная и темная материя эволюционировали совместно

Город Богов, брошенный жителями

Дневник подробной хронологии грядущих столетий

Загадочная человеческая челюсть из коллекции Boy's rock

Инопланетяне отложили Судный день

Конгрессмен обвиняет правительство в сокрытии НЛО

Модель формирования экзопланет-изгоев

Новый Нострадамус выдал партию пророчеств

Первый миллисекундный пульсар в центре галактики

Подводные НЛО представляют реальную угрозу

Правительство не хочет рассекретить документы об НЛО

Приливные силы заставили экзопланету излучать тепло

Ранние галактики эволюционировали намного быстрее

Стивен Спилберг всю жизнь был очарован инопланетянами

Трехмерная структура вспышки вокруг черной дыры

В отчете об НЛО указаны две горячие точки

Гигантское озеро лавы на Ио

Давайте поговорим о НЛО

ИИ станет умнее любого человека в 2025 году

Как гамма-всплески порождают свет

МКС стала рассадником бактерий-мутантов

На дне Балтийского моря обнаружено НЛО

НЛО нарушают все законы физики

НЛО перевозят по пустынной дороге на прицепе

Обнаружили 13 штаммов бактерий-мутантов на МКС

Обнаружили самую крупную звездную черную дыру

Очень важно раскрыть данные об НЛО

Паломники сообщили об НЛО в небе Массачусетса

Почему на Марсе выделяется метан

Программа Kona Blue для реинжиниринга НЛО

Раскрытие проекта Aqua

Стоунхендж ориентирован как на Луну, так и на Солнце

Строительным элементам жизни легче формироваться в космосе

Такер Карлсон высмеял утверждения об инопланетянах

Хью Джекман был послан инопланетянами

Матовые стеклянные перегородки - особенности, виды, как выбрать

В районе Красной поляны обнаружили два дольмена

Два охотника стали первыми жертвами болезни оленей

Должно быть место для честного расследования НЛО

Древнейший вулканизм в Солнечной системе

Жители ХМАО засняли НЛО на фоне северного сияния

Загадка странных огней в ночном небе Вены

Китаец прожил 35 лет с просветом аорты

Люди эволюционировали как жуки, а не как позвоночные

Марсоход получил изображения окаменелостей людей

Нашли экзопланету-бродягу земного типа

НЛО в небе над Сызранью

НЛО, трансформации и откровения астронавтов

Ограничение калорий замедлило биологическое старение

Первая буква фамилии студентов определяет успеваемость

Полая Земля, летающие щиты и муравьиные боги

Почему умные люди верят в теории заговора

Сбывающиеся предсказания ясновидящей Ванги

Фрагменты белков могут возникать в космосе

Человек прилетевший с небес

Шамбала и полая Земля в древнем буддизме

Георадар будет искать водные объекты на Юпитере

Дьявольская комета наконец-то стала видна

Затерянный город найден на территории Тонгатапу

ИИ и НАСА борются с изменением климата

Инопланетное существо, выброшенное на австралийский пляж

Какова масса покоящегося нейтрино

НАСА предупреждает о военном присутствии Китая в космосе

НЛО пролетел над красотами Перта

Ортоклаз из свинца - это своего рода загадка

Отчет о программе Kona Blue

Паскагула устраивает вечеринку в честь похищения

Путешественник во времени показал фото из будущего

Самая глубокая дыра в земле была закрыта

Самые странные и неповторимые дома в Огайо

Случаи похищения людей инопланетянами будут изучены

Смертоносная пещера, которая может вызвать пандемию

Такер Карлсон видел свидетельства о подводных НЛО

У человека расплавились пальцы при встрече с НЛО

Увлечение внеземной жизнью восходит к 17-му веку

Черный зверь бродил по полю британского фермера

Встреча с НЛО в школе Ариэль в Зимбабве

Город-призрак, жители которого были вынуждены бежать

Горы и лавовые озера на Ио с высоты птичьего полета

Два неизвестных объекта пролетели мимо МКС

Документальный фильм о похищении в Паскагуле

ИИ VASA1, который может заставить изображения говорить

ИИ изучает планетарный пограничный слой Земли

Инопланетяне украли мои яйцеклетки

Китай осуществляет военные программы в космосе

Книга, предсказавшая катастрофу Титаника

Компания Boston Dynamics представила нового робота

Метеорологи предупреждают о погодных войнах между странами

НЛО залетел в действующий вулкан

Подводя черту под происхождением жизни

Прыщ превратился в опухоль размером с арбуз

Скрытый потенциал РНК в развитии биоинженерии будущего

Состоят ли дюны Титана из кометной пыли

Таинственная механика полета насекомых

Тайна аномалии Балтийского моря наконец-то раскрыта

Хаббл отправляется на поиски небольших астероидов

Гелиевая звезда с самым низким содержанием металлов

Екатеринбуржец выставил на продажу летающую тарелку

Жизнь может существовать в темных водных Европы

Загадка формирования массивных горячих субкарликов

ИИ способен революционизировать кредитование

Инопланетян следует искать на фиолетовых планетах

Инопланетяне похитили яйца у женщины

Метеорит пробил крышу дома

Непрерывные фейковые новости оказывают большее влияние

НЛО влетает в действующий вулкан-портал

НЛО пилотируются духовными сущностями

Океан Энцелада может поддерживать жизнь

Перуанские мумии не являются инопланетянами

Полицейская камера сняла аварийную посадку НЛО

Полярные сияния на холодных коричневых карликах

Попытки AARO вступить в контакт с Дэвидом Грушем

Правительство США намеренно скрывает информацию об НЛО

Разгадка тайн атмосферных рек

США провели испытания управляемого ИИ истребителя

Экстремальные холода в условиях потепления климата

В один прекрасный день ИИ сможет выполнять всю нашу работу

В сеть просочился отчет о встрече ВМС США с НЛО

Давайте поговорим о неопознанных подводных объектах

Доказательства существования инопланетной жизни

Жизнь нужно искать в пурпурных мирах

Подписка на новости
Наверх