Данных для обучения ИИ перестало хватать
Несколько дней назад сообщалось, что разработчики ИИ столкнулись с нехваткой данных для обучения передовых моделей, в том числе о планах Open AI обучать GPT-5 на видео с YouTube. Согласно материалу The New York Times, в погоне за новыми данными корпорации забывают об этике и морали. К концу 2021 года OpenAI столкнулась с нехваткой авторитетных англоязычных текстов в интернете для обучения новейшей модели искусственного интеллекта — ей требовалось гораздо больше данных. Тогда разработчики OpenAI создали расшифровывающую аудиозаписи из видеороликов на YouTube систему распознавания речи Whisper, которая выдаёт текст для обучения ИИ. По словам нескольких сотрудников, в компании понимали, что такой шаг может противоречить правилам использования YouTube, запрещающим использовать видеоролики «независимо» от платформы. Это не остановило OpenAI, расшифровавшую более миллиона часов видеороликов с YouTube. Полученный текст использовался для обучения GPT-4 — одной из мощнейших систем искусственного интеллекта в основе последней версии ChatGPT.
В исследовании The New York Times говорится, что в гонку за данными включились все передовые разработчики ИИ, включая OpenAI, Google и Meta, причём компании зачастую игнорируют корпоративные политики, а иногда и закон. Разработчики ИИ всё сильнее упираются в нехватку материала. Передовые чат-боты обучались на массивах цифровых текстов объёмом до трёх триллионов слов, что примерно вдвое больше объёма материалов в Бодлианской библиотеке Оксфордского университета, в том числе датирующихся ещё 1602 годом. Наибольшую ценность для обучения ИИ представляют высококачественные данные из отредактированных профессионалами книг и статей. По данным исследовательского института Epoch, такие тексты могут закончиться уже в 2026 году. «Единственный практический способ существования таких инструментов — обучение на огромных массивах информации без разрешения её создателей. Объём необходимых данных настолько велик, что не поможет даже коллективное лицензирование», — говорит представляющий интересы венчурной компании Andreessen Horowitz Сай Дамле (Sy Damle).
OpenAI, Google и Meta не скрывают, что их модели ИИ обучаются на открытых данных, однако не все создатели соответствующего контента приветствуют данную инициативу, что уже стало причиной множества судебных разбирательств. В прошлом сама The New York Times подавала в суд на OpenAI и Microsoft за то, что компании обучали чат-ботов на защищённых авторским правом материалах без разрешения владельцев. Тогда Microsoft и OpenAI заявили, что «добросовестно используют» материалы для создания собственных работ, что не запрещено законом об авторском праве. В январе 2020 года физик-теоретик из Университета Джонса Хопкинса Джаред Каплан (Jared Kaplan) опубликовал работу об ИИ, которая разожгла аппетиты их разработчиков. Он высказался однозначно: чем больше данных используется для обучения языковой модели, тем лучше она работает, подобно тому, как студенты получают всё больше знаний из прочитанных книг. Языковые модели могут устанавливать закономерности и взаимосвязи, что позволяет точнее обрабатывать новую информацию.
«Все сильно удивились, что эти тенденции, или законы масштабирования, как мы их называем, не менее точны, чем физические и астрономические», — говорит ныне работающий в Anthropic Каплан. Разработчики ИИ уже давно используют огромные массивы публичных цифровых данных, в том числе статьи из «Википедии» и Common Crawl — базы данных из более чем 250 млрд интернет-страниц, собранных с 2007 года. Прежде чем «скормить» эти данные ИИ, их тщательно фильтровали на предмет «нежелательных» материалов. Объёмы необходимых для обучения ИИ в 2020 году данных сейчас кажутся смешными, ведь тогда массив из 30 тысяч картинок с Flickr казался огромным. Создание вышедшей в ноябре 2020 года GPT-3 ознаменовало начало эры погони за новыми данными — модель обучали на 300 млрд «токенов», представляющих отдельные слова или их фрагменты. Обучившись на этих данных, система генерировала посты в блогах, стихи и даже писала программы. В 2022 году подразделение Google Deepmind протестировало 400 ИИ-моделей, меняя объём данных для обучения и другие факторы. Оказалось, что Каплан прав, и чем больше входящих данных, тем лучше работает ИИ. Гонка продолжается: в 2023 году китайцы представили обученную ни 3,2 триллионах английских и китайских лексем модель Skywork, а PaLM 2 от Google «поглотила» 3,6 триллиона токенов.
Позднее Сэм Альтман (Sam Altman) из OpenAI заявил, что данные рано или поздно кончатся — он знает, о чём говорит, ведь компания годами собирала данные, обрабатывала и обучали на них ИИ. Среди использованных данных был программный код с GitHub, базы данных шахматных ходов, школьные тесты и домашние задания старшеклассников. К концу 2021 года они закончились. Помимо расшифровки аудио- и видеоматериалов, рассматривалась покупка компаний, имеющих доступ к огромным объёмам цифровых данных. Некоторые сотрудники Google знали, что OpenAI расшифровывает видео с YouTube, но бездействовали, потому что этим же занималась сама Google, а это потенциально нарушало авторские права создателей видеороликов. Подняв шумиху вокруг OpenAI, Google рискует привлечь общественное внимание и к своим разработкам. Впрочем, представители Google говорят, что правила использования сервиса позволяют использовать данные YouTube для разработки новых функций видеоплатформы. Специализирующийся на интеллектуальной собственности юрист Berger Singerman Джеффри Лоттенберг (Geoffrey Lottenberg) отмечает, что в своих правилах Google использует крайне расплывчатые формулировки. И это сделано намеренно.
Google хотела обучать свои модели на открытых данных Google Docs, Google Sheets и других продуктов. В политике конфиденциальности Google говорилось, что компания может использовать публичные данные для обучения языковых моделей Google и других продуктов вроде Google Translate. Теперь же перечень продуктов помимо Google Translate содержит упоминания Bard и «облачных ИИ». Сотрудников компании специально проинструктировали выпустить новую редакцию политики конфиденциальности перед Днём независимости США, когда мысли людей заняты предстоящими праздниками. Глава Meta Марк Цукерберг (Mark Zuckerberg) годами развивал ИИ-направление, но выход ChatGPT в конце 2022 года оставил его компанию далеко позади. Трое бывших и нынешних сотрудников Meta рассказали, что стремясь догнать OpenAI, он день и ночь донимал менеджеров и ведущих инженеров, чтобы те как можно скорее выпустили конкурирующий продукт. Но как и все остальные, Meta упёрлась лбом в стену нехватки данных.
По словам вице-президента по генеративным ИИ Ахмада Аль-Дахле (Ahmad Al-Dahle), его команда использовала почти все доступные англоязычные книги, эссе, поэмы и новостные статьи в интернете для обучения собственной ИИ-модели. В конце концов, Аль-Дахле заявил, что Meta не превзойти ChatGPT без большего количества данных. К марту-апрелю 2023 года руководство Meta обсуждало эту проблему почти ежедневно. В частности, высказывалось предложение платить по $10 за полное лицензирование каждой книги или приобрести издательство Simon & Schuster, сотрудничающее со множеством авторов, среди которых, например, Стивен Кинг. Обсуждалась и возможность использования интернет-материалов без разрешения авторов, несмотря на возможные нарушения законов об авторском праве. Цукерберг требовал решить проблему немедленно, но инженеры компании заявили, что это невозможно.На одном из записанных совещаний руководства Meta говорилось, что компания наняла субподрядчиков из Африки для сбора защищённых авторским правом материалов. «Мы не можем не собирать их», — сказали на одном из таких совещаний. Кроме того, подчёркивалось, что OpenAI тоже не стесняется использовать защищённые авторским правом материалы без разрешения их владельцев, и получать эти разрешения «слишком долго».
Сэм Альтман предложил решить проблему с помощью «синтетических данных», то есть обучать языковые модели на материалах других языковых моделей. По его словам, раз уж ИИ научились писать человекоподобные тексты, последние можно использовать для дальнейшего развития LLM, что к тому же позволит снизить зависимость от защищённых законом авторских произведений. «Пока ваши модели достаточно продвинуты, чтобы создавать качественные синтетические данные, всё нормально», — сказал Альтман. Однако обучение на данных других ИИ тоже не панацея — большие языковые модели могут попасть в цикл обработки ошибочных данных и недостатков технологии, которые будут нарастать на каждом его витке. «Обучать ИИ — всё равно что пробираться через джунгли. Если обучать ИИ на одних лишь синтетических данных, они заблудятся», — сказал по этому поводу бывший исследователь в OpenAI, а ныне преподаватель компьютерных наук в Университете Британской Колумбии Джефф Клун (Jeff Clune).
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Последние аномальные новости

Астролог рассказала о ключевых изменениях в вашей жизни

Возникновение плоской Вселенной и ее зеркала из ничего

Геологическая карта пояса астероидов

Два НЛО замечены над Вьетнамом

Загадочная ударная структура в австралийской глубинке

Информатор Дэвид Груш был нанят в качестве советника

Истинная личность неуловимого Ди Би Купера

Кеннеди был убит бандой агентов ЦРУ

Люди по всей Ирландии были озадачены необычным объектом

Мы с женой видели гигантский НЛО

Насколько тяжелы нейтронные звезды при рождении

НЛО возле линии электропередач над Далласом

НЛО завис у острова Каталина

НЛО над Агуадильи были просто фонарями

НЛО скрывается в облаке Пенсильвании

Новая компания планирует исследовать Луну

Огромный город обнаружили под пирамидами Гизы

Опубликованы записи об убийстве Джона Кеннеди

Первые прямые снимки углекислого газа на экзопланете

Под пирамидами Гизы обнаружен загадочный комплекс

Размещение ракет-перехватчиков в космосе

Странные пузырькоподобные структуры во Вселенной

Существуют ли на самом деле НЛО

Треугольный НЛО диаметром полмили в кратере на Луне

Ты не похожа на жену астронавта

Фильм о наблюдении НЛО в Карбондейле

Что самое смертоносное при взрыве сверхновой

Шесть реальных близких встреч с инопланетянами

Я видел доказательства существования Рая и Ада

Я убежден, что инопланетяне похитили меня

Астероид-убийца приближается к Земле прямо сейчас

Астероиды Паллады обладают уникальными спектрами

Горячая точка НЛО в Таиланде

Жители Альберты часто бывают похищены инопланетянами

Зона 51 в Таиланде, место встречи с НЛО или миф

ИИ распознает массу частиц космического излучения

Инопланетяне могут скрываться в подземных океанах Марса

Карта Вселенной может раскрыть тайну темной энергии

Крупнейшие разоблачения в досье Джона Кеннеди

Может ли жизнь закончиться Большим взрывом

Момент, когда в небе Ирландии был замечен НЛО

Наблюдение за мощью сверхмассивных черных дыр

Навредит ли нам взрыв Бетельгейзе

Нейтрино могут дать ключ к пониманию квантовой гравитации

Оптимус готовится к полету на Марс

Открытие ставит под сомнение теорию происхождения человека

Полет вертолета над ледниками и каньонами Марса

Радиоизотопные генераторы для зондов дальнего действия

Размер и расположение субнептуновых объектов

Режиссер фильма о НЛО рассказал поддержке в Конгрессе

Саммит уфологов привлек сотни людей

Самые смелые теории заговора о убийстве Джона Кеннеди

Создание спутника солнечной энергии из лунной пыли

Сталкивались ли астронавты с НЛО в космосе

Таиланд привлекает уфологов со всего мира

Теория экстрасенса о странных шарах в смартфоне

Уфологи пишут книгу о горячих точках НЛО в Шотландии

Физики создали квазикристалл Времени

Черные дыры оказывают благоприятное воздействие на жизнь

Четыре маленькие планеты обнаружены у звезды Барнарда

Архив документов об убийстве Джона Кеннеди

Гарри Поттер голосует так же, как и вы

Где расположены самые тучные пастбища инопланетян

Жалоба Луиса Элизондо на генерального инспектора МО

Земля - разумное существо

Конспирологи утверждают, что приводнение космонавтов в окружении дельфинов выглядит неестественно

Космические струны как ключ к путешествиям во времени

Метеорит оказался частью давно разрушенной планеты

Можно ли распознать копию нашей планеты

Невидимое существо заставило женщину в ужасе бежать

Опасности, поджидающие на Титане

Пациент прожил 105 дней с титановым сердцем

Поиски темной материи продолжаются

Призрак спас мою мать от падения с лестницы

Пришельцы прописались в Таиланде

Самые необъяснимые видеозаписи НЛО

Скелеты гигантов как элемент декора базилики

Сознание возникло из группы обкуренных обезьян

Установлены строгие ограничения на квантовую гравитацию

Человекоподобные роботы скоро станут массовыми

Снегоболотоходы ХИЩНИК. Надежная техника для экстремальных условий

Ад гораздо страшнее, чем вы можете себе представить

Блогер посетил Зону-51 Таиланда

Где сходятся квантовая теория и теория относительности

Загадочный блазар стреляет в нас плазмой

Извержение супервулкана на спутнике Юпитера Ио

Инопланетяне должны существовать

Картирование космосдвига для освещения темной энергии

Микроосвещение вызвало появление жизни на Земле

Многообещающий способ обнаружения жизни

НЛО был замечен над Калифорнией

НЛО длиной в милю видели над ветряной электростанцией

Нью-Йорк занимает 5-е место в США по наблюдениям НЛО

Поведение блазара не поддается классификации

Пылевые облака искажают представление о Вселенной

Сверхновые вызвали два массовых вымирания на Земле

Светодиодный эхолот размещен на поверхности Луны

Субнептун обнаружен в системе из двух экзопланет

Удивительные встречи с летающими инопланетянами

Флотилия НЛО вблизи военной базы Каттерик

Шесть солнц появилось над Лас-Вегасом

Как надевать и снимать контактные линзы

Африканский целитель съел труп инопланетянина

Жена астронавта рассказала о его встречах с НЛО

Загадочное наблюдение в глубине Вселенной

Загадочные радиоимпульсы из космоса

Инопланетяне реальны и уже живут среди нас

Материалы, необходимые для колонизации Луны и Марса

Мужчина обратился в больницу с болью в заднице

Неопознанные объекты преследуют самолеты над Россией

НЛО, потерпевший крушение в Нью-Мексико

Новые снимки таинственного спутника Марса Деймоса

Обсуждение вопроса о воде на Марсе

Первые в мире беспилотные истребители

Первые снимки экзопланеты, содержащей углекислый газ

Полицейские Британии раскрывают меньше сообщений о НЛО

Пророк предостерегает от общения с инопланетянами

Редкие снимки спутника Марса

Сталкеры исследуют каждый дюйм озера Лох-Несс

США опубликовали документы об убийстве Кеннеди

Черные дыры - не конец, а начало

Черные дыры выбрасывают мощные струи

Шины для внедорожника. Виды и правила выбора

Классические и страшные квесты в Тамбове на любой вкус

Вращающиеся черные дыры насыщены энергией

Датчики квантовой запутанности могут проверить гравитацию

Загадочные кольца у планетарной туманности

Изучение темной энергии с помощью взрывающихся звезд

Конспирологическое мышление способствует принятию лжи

Наличие жидкой воды и жизни под поверхностью Марса

Неожиданные изменения в электронах у Ио

НЛО, похищения и многое другое в долине Гудзона

Новый класс ледяных межзвездных объектов

Первое доказательство нового квантового явления

Помните тот астероид, который не столкнется с Землей

Секреты фазовых переходов в квантовом оборудовании

Сложный химический состав в первобытной галактике

Смелый подход к воображаемым числам

Существуют и другие планеты, похожие на Землю

Таинственное явление в центре нашей галактики

Тайна того, как зарождаются звезды

Тайна того, как скопления галактик остаются горячими

Четыре крошечные планеты у звезды Барнарда

Шерстистые мыши - первый шаг к возрождению мамонтов

Всемирный день контактов-2025

Вторая по близости к Земли звезда имеет четыре субземли

Глубокого океана на Марсе не было

Госслужащих Великобритании скоро заменит ИИ

Жена рассказала о бесчисленных встречах мужа с НЛО

Жизнь на Земле возникла благодаря микроосвещению

ИИ-поисковики поймали на лжи

ИИ-помощник программиста предложил научиться писать код

Инопланетяне не только реальны, но и уже среди нас

Инопланетяне потерпели крушение на Земле

Моя сестра убила меня и я переродилась

На месте смертельной аварии заметили призрака

Обнаружены убедительные признаки жизни на Марсе

Российские пилоты все чаще встречают НЛО

Смертоносное лучевое оружие, опередившее свое время

Странное существо напугало аргентинцев

Странные объекты найдены на картах Google

США будет создавать живые космические сооружения

Энтузиасты хотят поймать инопланетные корабли

Этот бинокль поможет вам увидеть НЛО

Арсенал инопланетных артефактов и технологий

Артефакт инопланетян обнаружен на Марсе

Битва между атмосферой Марса и солнечным ветром

В салуне Белль Старр водятся привидения

Вера в конспирологию вызвана плохим сном

Загадочные патагонские живые камни

Загадочный артефакт обнаружен на Марсе

Загадочный каменный круг возрастом 3200 лет

Инновационное древнее захоронение типа Стоунхенджа

Космические частицы возбуждают вспышки молний

Кровавый дождь стекает с иранских гор

Найден старейший кратер от падения метеорита

НАСА успешно принимает сигналы GPS на Луне

Научный сотрудник НАСА опровергает теорию плоской земли

НЛО замечен над графством Дарем

Пересадка митохондрий астронавтам

Роботы с искусственным интеллектом испытывают стресс

Самолет-шпион совершает таинственный облет

Тайна инопланетного сигнала после падения метеорита

Что делает человеческое сознание уникальным

Как вовремя выявить болезни сердца у кошек и собак. Симптомы, диагностика, лечение

Беспроводное электроснабжение уже на горизонте

Подписка на новости
Наверх
Яндекс.Метрика