Данных для обучения ИИ перестало хватать
Несколько дней назад сообщалось, что разработчики ИИ столкнулись с нехваткой данных для обучения передовых моделей, в том числе о планах Open AI обучать GPT-5 на видео с YouTube. Согласно материалу The New York Times, в погоне за новыми данными корпорации забывают об этике и морали. К концу 2021 года OpenAI столкнулась с нехваткой авторитетных англоязычных текстов в интернете для обучения новейшей модели искусственного интеллекта — ей требовалось гораздо больше данных. Тогда разработчики OpenAI создали расшифровывающую аудиозаписи из видеороликов на YouTube систему распознавания речи Whisper, которая выдаёт текст для обучения ИИ. По словам нескольких сотрудников, в компании понимали, что такой шаг может противоречить правилам использования YouTube, запрещающим использовать видеоролики «независимо» от платформы. Это не остановило OpenAI, расшифровавшую более миллиона часов видеороликов с YouTube. Полученный текст использовался для обучения GPT-4 — одной из мощнейших систем искусственного интеллекта в основе последней версии ChatGPT.
В исследовании The New York Times говорится, что в гонку за данными включились все передовые разработчики ИИ, включая OpenAI, Google и Meta, причём компании зачастую игнорируют корпоративные политики, а иногда и закон. Разработчики ИИ всё сильнее упираются в нехватку материала. Передовые чат-боты обучались на массивах цифровых текстов объёмом до трёх триллионов слов, что примерно вдвое больше объёма материалов в Бодлианской библиотеке Оксфордского университета, в том числе датирующихся ещё 1602 годом. Наибольшую ценность для обучения ИИ представляют высококачественные данные из отредактированных профессионалами книг и статей. По данным исследовательского института Epoch, такие тексты могут закончиться уже в 2026 году. «Единственный практический способ существования таких инструментов — обучение на огромных массивах информации без разрешения её создателей. Объём необходимых данных настолько велик, что не поможет даже коллективное лицензирование», — говорит представляющий интересы венчурной компании Andreessen Horowitz Сай Дамле (Sy Damle).
OpenAI, Google и Meta не скрывают, что их модели ИИ обучаются на открытых данных, однако не все создатели соответствующего контента приветствуют данную инициативу, что уже стало причиной множества судебных разбирательств. В прошлом сама The New York Times подавала в суд на OpenAI и Microsoft за то, что компании обучали чат-ботов на защищённых авторским правом материалах без разрешения владельцев. Тогда Microsoft и OpenAI заявили, что «добросовестно используют» материалы для создания собственных работ, что не запрещено законом об авторском праве. В январе 2020 года физик-теоретик из Университета Джонса Хопкинса Джаред Каплан (Jared Kaplan) опубликовал работу об ИИ, которая разожгла аппетиты их разработчиков. Он высказался однозначно: чем больше данных используется для обучения языковой модели, тем лучше она работает, подобно тому, как студенты получают всё больше знаний из прочитанных книг. Языковые модели могут устанавливать закономерности и взаимосвязи, что позволяет точнее обрабатывать новую информацию.
«Все сильно удивились, что эти тенденции, или законы масштабирования, как мы их называем, не менее точны, чем физические и астрономические», — говорит ныне работающий в Anthropic Каплан. Разработчики ИИ уже давно используют огромные массивы публичных цифровых данных, в том числе статьи из «Википедии» и Common Crawl — базы данных из более чем 250 млрд интернет-страниц, собранных с 2007 года. Прежде чем «скормить» эти данные ИИ, их тщательно фильтровали на предмет «нежелательных» материалов. Объёмы необходимых для обучения ИИ в 2020 году данных сейчас кажутся смешными, ведь тогда массив из 30 тысяч картинок с Flickr казался огромным. Создание вышедшей в ноябре 2020 года GPT-3 ознаменовало начало эры погони за новыми данными — модель обучали на 300 млрд «токенов», представляющих отдельные слова или их фрагменты. Обучившись на этих данных, система генерировала посты в блогах, стихи и даже писала программы. В 2022 году подразделение Google Deepmind протестировало 400 ИИ-моделей, меняя объём данных для обучения и другие факторы. Оказалось, что Каплан прав, и чем больше входящих данных, тем лучше работает ИИ. Гонка продолжается: в 2023 году китайцы представили обученную ни 3,2 триллионах английских и китайских лексем модель Skywork, а PaLM 2 от Google «поглотила» 3,6 триллиона токенов.
Позднее Сэм Альтман (Sam Altman) из OpenAI заявил, что данные рано или поздно кончатся — он знает, о чём говорит, ведь компания годами собирала данные, обрабатывала и обучали на них ИИ. Среди использованных данных был программный код с GitHub, базы данных шахматных ходов, школьные тесты и домашние задания старшеклассников. К концу 2021 года они закончились. Помимо расшифровки аудио- и видеоматериалов, рассматривалась покупка компаний, имеющих доступ к огромным объёмам цифровых данных. Некоторые сотрудники Google знали, что OpenAI расшифровывает видео с YouTube, но бездействовали, потому что этим же занималась сама Google, а это потенциально нарушало авторские права создателей видеороликов. Подняв шумиху вокруг OpenAI, Google рискует привлечь общественное внимание и к своим разработкам. Впрочем, представители Google говорят, что правила использования сервиса позволяют использовать данные YouTube для разработки новых функций видеоплатформы. Специализирующийся на интеллектуальной собственности юрист Berger Singerman Джеффри Лоттенберг (Geoffrey Lottenberg) отмечает, что в своих правилах Google использует крайне расплывчатые формулировки. И это сделано намеренно.
Google хотела обучать свои модели на открытых данных Google Docs, Google Sheets и других продуктов. В политике конфиденциальности Google говорилось, что компания может использовать публичные данные для обучения языковых моделей Google и других продуктов вроде Google Translate. Теперь же перечень продуктов помимо Google Translate содержит упоминания Bard и «облачных ИИ». Сотрудников компании специально проинструктировали выпустить новую редакцию политики конфиденциальности перед Днём независимости США, когда мысли людей заняты предстоящими праздниками. Глава Meta Марк Цукерберг (Mark Zuckerberg) годами развивал ИИ-направление, но выход ChatGPT в конце 2022 года оставил его компанию далеко позади. Трое бывших и нынешних сотрудников Meta рассказали, что стремясь догнать OpenAI, он день и ночь донимал менеджеров и ведущих инженеров, чтобы те как можно скорее выпустили конкурирующий продукт. Но как и все остальные, Meta упёрлась лбом в стену нехватки данных.
По словам вице-президента по генеративным ИИ Ахмада Аль-Дахле (Ahmad Al-Dahle), его команда использовала почти все доступные англоязычные книги, эссе, поэмы и новостные статьи в интернете для обучения собственной ИИ-модели. В конце концов, Аль-Дахле заявил, что Meta не превзойти ChatGPT без большего количества данных. К марту-апрелю 2023 года руководство Meta обсуждало эту проблему почти ежедневно. В частности, высказывалось предложение платить по $10 за полное лицензирование каждой книги или приобрести издательство Simon & Schuster, сотрудничающее со множеством авторов, среди которых, например, Стивен Кинг. Обсуждалась и возможность использования интернет-материалов без разрешения авторов, несмотря на возможные нарушения законов об авторском праве. Цукерберг требовал решить проблему немедленно, но инженеры компании заявили, что это невозможно.На одном из записанных совещаний руководства Meta говорилось, что компания наняла субподрядчиков из Африки для сбора защищённых авторским правом материалов. «Мы не можем не собирать их», — сказали на одном из таких совещаний. Кроме того, подчёркивалось, что OpenAI тоже не стесняется использовать защищённые авторским правом материалы без разрешения их владельцев, и получать эти разрешения «слишком долго».
Сэм Альтман предложил решить проблему с помощью «синтетических данных», то есть обучать языковые модели на материалах других языковых моделей. По его словам, раз уж ИИ научились писать человекоподобные тексты, последние можно использовать для дальнейшего развития LLM, что к тому же позволит снизить зависимость от защищённых законом авторских произведений. «Пока ваши модели достаточно продвинуты, чтобы создавать качественные синтетические данные, всё нормально», — сказал Альтман. Однако обучение на данных других ИИ тоже не панацея — большие языковые модели могут попасть в цикл обработки ошибочных данных и недостатков технологии, которые будут нарастать на каждом его витке. «Обучать ИИ — всё равно что пробираться через джунгли. Если обучать ИИ на одних лишь синтетических данных, они заблудятся», — сказал по этому поводу бывший исследователь в OpenAI, а ныне преподаватель компьютерных наук в Университете Британской Колумбии Джефф Клун (Jeff Clune).
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Последние аномальные новости

Автор рассказывает о наблюдениях НЛО в Монтане

ИИ предсказывает структуру молекул живых организмов

ИИ формирует будущие стратегии продаж

Инопланетяне остановили военный конвой

Инструкции по классификации записей об НЛО

Квантовая биология для новых методов лечения

Космические истоки жизни

Костюм для выхода в открытый космос от SpaceX

Моя дочь играла с бигфутом

Не слишком ли много спутников у нашей галактики

Необычные явления в распределении количества электронов

Первое в мире судно, работающее на дровах

Почему мы не смогли установить контакт с инопланетянами

Представители разведки США интересовались НЛО в Канаде

Президент США Джимми Картер видел НЛО

Премьера фильма 'Бог против пришельцев' состоится в Каннах

Программа по реверс-инжинирингу НЛО в Лас-Вегасе

Создали пятиполосную супермагистраль для электронов

Что Венера может рассказать нам о жизни в других мирах

Что вызывает различные цвета полярного сияния

Волны невидимой материи могут нарушать орбиты звезд

Гидродинамический выход на экзопланетах с малой массой

Древнеегипетская богиня неба

Женщина сняла приведение в тюрьме

Звезда НФЛ говорит об анти-ваксе и демонических НЛО

Звездная теория, объясняющая происхождение фосфора

ИИ уже развил зловещие навыки

Марсоход следит за остатками марсианской реки

Мужчине удалили огромную опухоль на голове

НЛО замечен над Сток-он-Трентом

Обнаружено семь потенциальных сфер Дайсона

Одержимая девочка подверглась 67 экзорцизмам

Погода в Бразилии породила множество теорий заговора

Правительство США имело дело с внеземными существами

Самые удивительные и необъяснимые артефакты

Свидетельства правдивости библейских историй

Таинственный спутник Юпитера Амальтея

Усилия по сохранению жизни на Марсе

Уфолог заметил новые огни на горизонте

Экспансия человечества привела к разрушениям на Земле

В метеорите обнаружили ключевые признаки ДНК

В поисках жизни на Энцеладе

Голливудский публицист оказывает услуги уфологам

Загадочная болезнь унесла жизни четырех человек

Запущена платформа для оценки безопасности ИИ

Знание ИИ поможет вам пройти собеседование

Извержения черной дыры в центре Млечного Пути

ИИ GPT-4 приблизился к успешной сдаче теста Тьюринга

ИИ будет знать все о своих пользователях

Как определить, является ли теория заговора ложной

Космические силы США заказали спутники для звездных войн

Мертва ли теория о главном сопернике темной материи

НАСА назначило первого руководителя по ИИ

Оккультный договор Мадонны

Открыли новый метод поиска первых звезд

Пищевые привычки массивных черных дыр

Сотни НЛО замечено во время северного сияния

Установить контакт с инопланетянами не удалось из-за ИИ

Штат Вашингтон породил легенду о Людях в черном

Экзопланета WASP-69b имеет кометоподобный хвост

Трансфер из аэропорта на Кипре. Плюсы услуги

Армия складских роботов Amazon становится все больше

Астероид, взорвавшийся над Берлином, быстро вращался

Астероид-убийца Апофис приблизится к Земле в 2029 году

ИИ для проведения химического синтеза

Инопланетяне калечат скот в штате Колорадо

Исследование астероида Апофис с помощью спутников

Корабли взлетели в небо у берегов Греции

НЛО поднимается из озера Сенека

Очередное сооружение на Марсе

Пациент с ксенотрансплантом умер через два месяца

Пятьдесят оттенков Серых

Ресторан Chipotle тестирует роботов для нарезки

Самая большая угроза для миссии человека на Луну

Сверхмассивная черная дыра в соседней галактике

Скалистая экзопланета светится расплавленной лавой

Снежный человек убивает домашних животных

Сотни сообщений о наблюдениях НЛО в Бельгии

Стал доступен атомарный телеграф

Таинственный черный объект попал в объектив камеры

Тектоника плит возникла после космического столкновения

Роль экспертов в разрешении наследственных споров. Судебная экспертиза и ее значение

Последствия снятия брекетов. Как поддерживать здоровье зубов и десен после удаления аппаратуры

Самые красивые букеты цветов

Как подобрать идеальный протез. Секреты правильного выбора

Влияние озона на экзопланетный климат

Восстание роботов-убийц все ближе

Демоническое лицо появилось над поверхностью Солнца

Инопланетная жизнь скрывается в кольцах Сатурна

Использование ИИ для воскрешения близких людей

Как образуются некоторые гигантские экзопланеты

Ключевой признаки женщины-психопатки

Космический телескоп TESS возобновил поиск экзопланет

НАСА хочет построить лунный поезд

НЛО-медуза над военной базой, что нужно знать

Открыли новые правила молекулярного проектирования

Охота за первыми звездами во Вселенной

Поиск крошечных черных дыр от Большого взрыва

Сверхмассивная черная дыра извергается в сердце галактики

Столкновение SpaceX с неизвестным объектом

Столкновение с инопланетянами в Бразилии

Столкновения черных дыр

Ужасающая пещера кажется безобидной

Черные дыры вращаются по яйцеобразным орбитам

Экзопланеты, на которых может существовать жизнь

Великобритания находится под угрозой поглощения ИИ

Гигантская рука обнаружена в космосе

Доказательство наличия атмосферы у скалистых экзопланет

Журналисты отметили известного уфолога

Кадры с пришельцами из Лас-Вегаса реальны

Конгресс США настаивает на раскрытии НЛО

НАСА будет искать первичные черные дыры

НАСА хочет снять Уран крупным планом

НЛО замечен над провинцией Салерно

НЛО парил над Гавайями

Обнаружен аккрецирующий миллисекундный пульсар

Обнаружили загадочный вулканизм в лунном бассейне

Пародийный фильм о корнуоллских уфологах

Потерянный спутник-шпион нашли через 25 лет

Призраки могут путешествовать во времени

Путь к созданию мощных квантовых компьютеров

Серебристый НЛО замечен над Гонолулу

Следы железа обнаружили в близкой активной галактике

Уфологическая программа Kona Blue рассекречена

Я видел светящийся белый пылающий шар НЛО

Меламин - свойства соединения и применение в промышленности

Алмазная экзопланета потеряла свою атмосферу

Варп-двигатели действительно могут быть созданы

Видео из Лас-Вегаса с пришельцами не является подделкой

Вирусное видео встречи инопланетян в Лас-Вегасе подлинное

Илон Маск не видит свидетельств присутствия инопланетян

Инопланетяне наведались в Лас-Вегас

Марсианский самолет поможет разгадать тайну метана

На древнем Марсе была земная окружающая среда

Очевидец снял НЛО в небе

Пациент с имплантатом Neuralink побеждает в видеоиграх

Поиск скрытых частиц темной материи

Пришельцы посетили Лас-Вегас

Программа по НЛО-технологиям Kona Blue

Робот-прыгун для исследования астероидов

Руку Бога сняла камера темной энергии

Светящийся НЛО был замечен в нескольких штатах

Сенаторы считают, что США тайно обнаружили НЛО

Уфологический центр в Боумене уничтожен пожаром

Частный лунный модуль доставит на Луну диск памяти

Чему может научить нас молодая Земля в поисках жизни

Армада НЛО замечена после мощного землетрясения

Артефакты из Первого храма точно датированы

Археологи озадачены необычным артефактом

Астрономам удалось обойти возмущения ионосферы

В наш мозг встроен нейронный навигатор

Влияние эффектов перспективы на наблюдения НЛО

Галактика с ненасытной черной дырой

Жак Валле бросает вызов ограничениям знаний

Жуткое видео пришельцев из Лас-Вегаса является подлинным

Кадры с пришельцами из Лас-Вегаса реальны

Как Венера стала такой сухой

Как создать настоящий световой меч

Квантовая теория гравитации, теории поля и струны

Ответ на важный вопрос о крупнейшей планете

Первый в мире электрический человекоподобный робот

Придерживаются ли инопланетяне галактических правил

Пришельцы, замеченные в Лас-Вегасе, реальны

Разгадали тайну гигантской дыры в Антарктиде

Сверхсекретный сервис ИИ для разведки США

Это приложение позволяет вам загружать свои фото НЛО

Апокалипсис стал не только религиозной, но и светской темой

Визуализация черной дыры выводит зрителей за грань возможного

Вселенная заполнена сверхлегкими черными дырами

Древний свиток раскрывает новую историю смерти Платона

Ежегодный фестиваль НЛО в северной части штата Нью-Йорк

Загадочный древний предмет может быть просто игрушкой

Инопланетяне подписали договор с правительством США

Искусство может способствовать новому взгляду на будущее

Ключевая реакция в двойных нейтронных звездах

Медицинский ИИ Google превосходит врачей по эффективности

Неуловимый звездный свет, окружающий древние квазары

Обширные исследования НЛО в Пенсильвании

Ошеломляющее образование появилось над Калифорнией

Первый в мире геологический атлас Луны высокой четкости

Подводные НЛО надо изучать

Полеты НЛО над Калифорнией, Ютой, Невадой и Аризоной

Разоблачение НЛО совместно с астрономическим обществом

Скептическое отношение к недавним расследованиям НЛО

Студент Чикагского университета заметил НЛО

Уфолог использует лазеры и инфракрасное излучение

Подписка на новости
Наверх