Данных для обучения ИИ перестало хватать
Несколько дней назад сообщалось, что разработчики ИИ столкнулись с нехваткой данных для обучения передовых моделей, в том числе о планах Open AI обучать GPT-5 на видео с YouTube. Согласно материалу The New York Times, в погоне за новыми данными корпорации забывают об этике и морали. К концу 2021 года OpenAI столкнулась с нехваткой авторитетных англоязычных текстов в интернете для обучения новейшей модели искусственного интеллекта — ей требовалось гораздо больше данных. Тогда разработчики OpenAI создали расшифровывающую аудиозаписи из видеороликов на YouTube систему распознавания речи Whisper, которая выдаёт текст для обучения ИИ. По словам нескольких сотрудников, в компании понимали, что такой шаг может противоречить правилам использования YouTube, запрещающим использовать видеоролики «независимо» от платформы. Это не остановило OpenAI, расшифровавшую более миллиона часов видеороликов с YouTube. Полученный текст использовался для обучения GPT-4 — одной из мощнейших систем искусственного интеллекта в основе последней версии ChatGPT.
В исследовании The New York Times говорится, что в гонку за данными включились все передовые разработчики ИИ, включая OpenAI, Google и Meta, причём компании зачастую игнорируют корпоративные политики, а иногда и закон. Разработчики ИИ всё сильнее упираются в нехватку материала. Передовые чат-боты обучались на массивах цифровых текстов объёмом до трёх триллионов слов, что примерно вдвое больше объёма материалов в Бодлианской библиотеке Оксфордского университета, в том числе датирующихся ещё 1602 годом. Наибольшую ценность для обучения ИИ представляют высококачественные данные из отредактированных профессионалами книг и статей. По данным исследовательского института Epoch, такие тексты могут закончиться уже в 2026 году. «Единственный практический способ существования таких инструментов — обучение на огромных массивах информации без разрешения её создателей. Объём необходимых данных настолько велик, что не поможет даже коллективное лицензирование», — говорит представляющий интересы венчурной компании Andreessen Horowitz Сай Дамле (Sy Damle).
OpenAI, Google и Meta не скрывают, что их модели ИИ обучаются на открытых данных, однако не все создатели соответствующего контента приветствуют данную инициативу, что уже стало причиной множества судебных разбирательств. В прошлом сама The New York Times подавала в суд на OpenAI и Microsoft за то, что компании обучали чат-ботов на защищённых авторским правом материалах без разрешения владельцев. Тогда Microsoft и OpenAI заявили, что «добросовестно используют» материалы для создания собственных работ, что не запрещено законом об авторском праве. В январе 2020 года физик-теоретик из Университета Джонса Хопкинса Джаред Каплан (Jared Kaplan) опубликовал работу об ИИ, которая разожгла аппетиты их разработчиков. Он высказался однозначно: чем больше данных используется для обучения языковой модели, тем лучше она работает, подобно тому, как студенты получают всё больше знаний из прочитанных книг. Языковые модели могут устанавливать закономерности и взаимосвязи, что позволяет точнее обрабатывать новую информацию.
«Все сильно удивились, что эти тенденции, или законы масштабирования, как мы их называем, не менее точны, чем физические и астрономические», — говорит ныне работающий в Anthropic Каплан. Разработчики ИИ уже давно используют огромные массивы публичных цифровых данных, в том числе статьи из «Википедии» и Common Crawl — базы данных из более чем 250 млрд интернет-страниц, собранных с 2007 года. Прежде чем «скормить» эти данные ИИ, их тщательно фильтровали на предмет «нежелательных» материалов. Объёмы необходимых для обучения ИИ в 2020 году данных сейчас кажутся смешными, ведь тогда массив из 30 тысяч картинок с Flickr казался огромным. Создание вышедшей в ноябре 2020 года GPT-3 ознаменовало начало эры погони за новыми данными — модель обучали на 300 млрд «токенов», представляющих отдельные слова или их фрагменты. Обучившись на этих данных, система генерировала посты в блогах, стихи и даже писала программы. В 2022 году подразделение Google Deepmind протестировало 400 ИИ-моделей, меняя объём данных для обучения и другие факторы. Оказалось, что Каплан прав, и чем больше входящих данных, тем лучше работает ИИ. Гонка продолжается: в 2023 году китайцы представили обученную ни 3,2 триллионах английских и китайских лексем модель Skywork, а PaLM 2 от Google «поглотила» 3,6 триллиона токенов.
Позднее Сэм Альтман (Sam Altman) из OpenAI заявил, что данные рано или поздно кончатся — он знает, о чём говорит, ведь компания годами собирала данные, обрабатывала и обучали на них ИИ. Среди использованных данных был программный код с GitHub, базы данных шахматных ходов, школьные тесты и домашние задания старшеклассников. К концу 2021 года они закончились. Помимо расшифровки аудио- и видеоматериалов, рассматривалась покупка компаний, имеющих доступ к огромным объёмам цифровых данных. Некоторые сотрудники Google знали, что OpenAI расшифровывает видео с YouTube, но бездействовали, потому что этим же занималась сама Google, а это потенциально нарушало авторские права создателей видеороликов. Подняв шумиху вокруг OpenAI, Google рискует привлечь общественное внимание и к своим разработкам. Впрочем, представители Google говорят, что правила использования сервиса позволяют использовать данные YouTube для разработки новых функций видеоплатформы. Специализирующийся на интеллектуальной собственности юрист Berger Singerman Джеффри Лоттенберг (Geoffrey Lottenberg) отмечает, что в своих правилах Google использует крайне расплывчатые формулировки. И это сделано намеренно.
Google хотела обучать свои модели на открытых данных Google Docs, Google Sheets и других продуктов. В политике конфиденциальности Google говорилось, что компания может использовать публичные данные для обучения языковых моделей Google и других продуктов вроде Google Translate. Теперь же перечень продуктов помимо Google Translate содержит упоминания Bard и «облачных ИИ». Сотрудников компании специально проинструктировали выпустить новую редакцию политики конфиденциальности перед Днём независимости США, когда мысли людей заняты предстоящими праздниками. Глава Meta Марк Цукерберг (Mark Zuckerberg) годами развивал ИИ-направление, но выход ChatGPT в конце 2022 года оставил его компанию далеко позади. Трое бывших и нынешних сотрудников Meta рассказали, что стремясь догнать OpenAI, он день и ночь донимал менеджеров и ведущих инженеров, чтобы те как можно скорее выпустили конкурирующий продукт. Но как и все остальные, Meta упёрлась лбом в стену нехватки данных.
По словам вице-президента по генеративным ИИ Ахмада Аль-Дахле (Ahmad Al-Dahle), его команда использовала почти все доступные англоязычные книги, эссе, поэмы и новостные статьи в интернете для обучения собственной ИИ-модели. В конце концов, Аль-Дахле заявил, что Meta не превзойти ChatGPT без большего количества данных. К марту-апрелю 2023 года руководство Meta обсуждало эту проблему почти ежедневно. В частности, высказывалось предложение платить по $10 за полное лицензирование каждой книги или приобрести издательство Simon & Schuster, сотрудничающее со множеством авторов, среди которых, например, Стивен Кинг. Обсуждалась и возможность использования интернет-материалов без разрешения авторов, несмотря на возможные нарушения законов об авторском праве. Цукерберг требовал решить проблему немедленно, но инженеры компании заявили, что это невозможно.На одном из записанных совещаний руководства Meta говорилось, что компания наняла субподрядчиков из Африки для сбора защищённых авторским правом материалов. «Мы не можем не собирать их», — сказали на одном из таких совещаний. Кроме того, подчёркивалось, что OpenAI тоже не стесняется использовать защищённые авторским правом материалы без разрешения их владельцев, и получать эти разрешения «слишком долго».
Сэм Альтман предложил решить проблему с помощью «синтетических данных», то есть обучать языковые модели на материалах других языковых моделей. По его словам, раз уж ИИ научились писать человекоподобные тексты, последние можно использовать для дальнейшего развития LLM, что к тому же позволит снизить зависимость от защищённых законом авторских произведений. «Пока ваши модели достаточно продвинуты, чтобы создавать качественные синтетические данные, всё нормально», — сказал Альтман. Однако обучение на данных других ИИ тоже не панацея — большие языковые модели могут попасть в цикл обработки ошибочных данных и недостатков технологии, которые будут нарастать на каждом его витке. «Обучать ИИ — всё равно что пробираться через джунгли. Если обучать ИИ на одних лишь синтетических данных, они заблудятся», — сказал по этому поводу бывший исследователь в OpenAI, а ныне преподаватель компьютерных наук в Университете Британской Колумбии Джефф Клун (Jeff Clune).
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Последние аномальные новости

Где находится Планета X в нашей Солнечной системе

Захватывающее представление о далеком прошлом Вселенной

Многочисленные наблюдения НЛО ставят экспертов в тупик

НЛО могут быть из России или Китая

Новый взгляд на вращение протона

Обнаружена потенциально обитаемая экзо-Венера

Обнаружили новую экзопланету с массой Сатурна

Парад планет начнется в июне

Первый контакт с инопланетянами будет драматичным

Пользователь Neuralink работает в режиме многозадачности

Призрак собаки или кошки проходит сквозь машины

Роботы предоставят услуги, которые вам нужны

Россия общается с НЛО через радиостанцию Зуммер

Слой D Земли - реликт древних океанов и столкновений планет

Таинственное вторжение гуманоидов в Испанию

Тайна НЛО на дне Балтийского моря раскрыта

Тайны египетских гробниц

Тайны одиноких моаи острова Пасхи

Технологии ИИ так же опасны, как и ядерные бомбы

Штаб-квартира подготовки военно-космических сил США

Впервые обнаружено рождение самых ранних галактик

Гигантский НЛО был замечен над озером Цюрих

Женщина с самыми длинными ногтями не стригла их 27 лет

Житель Северной Каролины обнаружил НЛО

Земля 2.0 или ее зловещий двойник

Инопланетяне уже взаимодействуют с человечеством

Книга 'Без согласия' уже в продаже во французских магазинах

Мужчина заметил Тень у дома своей подруги

Нашли ключ к избавлению от ночных кошмаров навсегда

Неплохое место для миграции с Земли

Обнаружена Земля 2.0

Определение возраста контактного двойного астероида

Первое наблюдение плазменной волны на Солнце

Пророк назвал дату начала Третьей мировой войны

Пророчество Эдгара Кейси о кометном апокалипсисе

Разработали усилитель для охотников за темной материей

Робот собирает кубик Рубика за 0,305 секунды

Самый большой протопланетный диск

Сверхгорячие Юпитеры не так уж обречены

Теперь я могу мысленно управлять компьютерами

Bemo Investment Firm LTD: обзор и отзывы о компании

Впервые измерили вращение сверхмассивной черной дыры

Житель Северной Каролины нашел НЛО в горах

Инопланетное морское существо выбросило на берег

Использование ИИ для борьбы с системным расизмом

Источник магнитного поля Солнца находиться у поверхности

Могут ли инопланетные электростанции быть техносигналами

Мы могли бы без усилий плавать в океане Плутона

Нечеловеческий разум взаимодействует с человечеством

НЛО в небе над Бразилией, Аргентиной и Чили ставят в тупик

Оно может выглядеть как НЛО, но это не НЛО

Открытие парка 'Столица НЛО в Миссури'

Попытки заманить инопланетян на Землю

Представили обширный каталог странных новых миров

Представление о гибридном состоянии вещества

Самые населенные призраками острова - 4

Съемки фильма Стивена Спилберга о НЛО вот-вот начнутся

Теории заговора и суровая реальность OpenAI

Черные дыры похожи на Звезду смерти

Черные дыры стреляют лучами во все подряд

Экзопланета, которая является неплохим местом для жизни

Астролог Кумар предсказал начало третьей мировой войны

В небе над Ставропольем заметили неопознанный объект

Высадка землян на экзопланету

ЕС принял первый в мире закон об ИИ

Женщина 10 лет ничего не ест и не пьет

ИИ не достигнет уровня человеческого интеллекта

Инопланетян можно отследить по отражению их энергосистем

Конспирологи оказались любителями пофилософствовать

Методика расчета стоимости испытаний космической техники

Минусинский проект НЛО

НЛО, ИИ и столкновения с нечеловеческим разумом

Почему люди думают, что видят призраков

Природоподобные пространственные структуры в сверхпроводниках

Семь ожидаемых научно-фантастических книг

Социолог Йохан Галтунг предсказал крах США и Европы

Странный торнадо замечен в горах Китая

Умер известный уфолог Брюс Маккаби

Физики преодолели шум при квантовой телепортации

Чилийского сенатора похитили инопланетяне

Чудовище заместили в озере Лох-Несс

В Макминвилле ежегодно проводится фестиваль НЛО

Вглядываясь в океан Плутона с помощью математических моделей

Ведьма усыновила одержимого клоуна

Взрыв новой звезды, видимый невооруженным глазом

Дом-НЛО получил статус объекта культурного наследия

Железный снег может раскрыть секреты жизни на Европе

Жители японского города увидели девять жутких столбов света

Закон о прозрачности в отношении НЛО

Зонд Психея запускает свои фантастические двигатели

Инструмент НАСА готовится к съемке экзопланет

Кристаллы для усовершенствования квантовых компьютеров

Метеорологический спутник засек огненный шар

Предполагаемая посадка НЛО в Харрисонбурге

Радар зафиксировал загадочные показания на ранчо Скинуокер

Роботы отнимают у нас рабочие места и самоуважение

Самые населенные призраками острова - 3

Создание искусственных клеток для измерения потока энергии

Член экипажа Нимица упал за борт из-за НЛО

Экзозатменения можно использовать для выявления экзолун

Ярмарка НЛО в Пайн-Буше возвращается

Телескопы с автонаведением. Удобные инструменты для наблюдения звездного неба

Почему шумит холодильник

Возможно, скоро мы узнаем гораздо больше об НЛО

Вымерший тасманийский тигр попал на камеру

Высокоэнергетический мюонный пучок для поиска темной материи

Изучение экстремальных ситуаций в поисках жизни на Марсе

Марс может столкнуться с большим количеством астероидов

Мертвого робота сняли с орбиты Марса

Микроскопическое происхождение энтропии черных дыр

Моряк с Нимица рассказал об НЛО

На внешних планетах системы TRAPPIST-1 есть вода

Наилучшие доказательства древней жизни на Марсе

Нейтроны открывают окно для исследования космического стекла

НЛО приземлился рядом с военной базой ВВС США

Пирамиды построены вдоль давно исчезнувшей реки

План привлечения инопланетян на Землю

Пугающее предупреждение о портрете короля Чарльза

Путь к созданию более быстрых и гибких роботов

Телескоп впервые позволяет заглянуть внутрь экзопланеты

Технологии Star Trek могут сократить время полета на Марс

Фрагмент кометы взорвался над Испанией и Португалией

Экзопланета WASP-107 b слишком раздутая

Землеподобную планету нашил у сверххолодной звезды

ИИ ответит на сложные вопросы физики

Информация об НЛО станет достоянием общественности

Как материя погружается в черную дыру

Компания Neuralink надеется правильно установить имплантат

Мой прадедушка был лидером культа с дикими убеждениями

Наблюдение НЛО во время затмения вызвало интерес

НЛО приземлился на базе ВВС США Эллсуорт

НЛО пролетел мимо поля для гольфа в Абердине

Обнаружили сливающиеся квазары-близнецы

Обнаружили слияние самых удаленных черных дыр

Ответы на сложные вопросы о черных дырах

Подземная аномалия обнаружена вблизи пирамид в Гизе

Радар обнаружил НЛО над ранчо Скинуокер

Редкие нейтральные атомарно-углеродные поглотители

Робот из 'Черного зеркала' замечен на британской улице

Секреты, которые церковь скрывала десятилетиями

Формирование ключевого ингредиента для жизни

Формирование черных дыр с помощью натальных толчков

Четырехэтапное руководство по жизни на Марсе

Аниме. Жанры

Чикси - сеть ресторанов быстрого питания

Городок, где за детьми с привидениями гонятся призраки-убийцы

Гравитационные линзы могут фиксировать слияния черных дыр

Железо-сернистые минералы расскажут о первых микробах

Загадочный инцидент в Рендлшемском лесу

Закон заставит правительство рассекретить все фильмы об НЛО

Зарождение звезды, похожей на Солнце

Изображения ледяной оболочки Европы

ИИ раскроет секреты некодирующих генов

Искусственный интеллект может привести к гибели человечества

Люди будут жить в городах на Марсе в ближайшие 30 лет

Некоторые хитроумные способы поиска первичных черных дыр

Новые правила Папы не позволят наживаться на чудесах

Обнаружили три старейшие звезды во Вселенной

Почему полярные сияния так трудно предсказать

Сверхъестественные явления учащаются

У человечества нет значимой защиты от ИИ

Уфолог нашел нечто более тревожное, чем инопланетяне

Что Ватикан знает об инопланетянах

Экзопланета с плотностью как у сахарной ваты

Экзо-Сатурн теряет массу недостаточно быстро

Аниме. Отличительные особенности и причины популярности

Джордж Сорос. Финансист и благотворитель

Варп-двигатель возможен в рамках известной физики

Ватикан опубликовал руководство по сверхъестественному

Воскрешение людей подвергнутых криогенной заморозке

Доказательства существования инопланетян

Загадочный подземный вход рядом с Великой пирамидой

Западная Вирджиния является центром исследований НЛО

Захватывающие снимки ледяной Европы

Как древние египтяне строили пирамиды

Конференция Папы Франциска поднимает вопросы об НЛО

На кадрах НАСА видно, как НЛО разбился на Марсе

НАСА снабдит астронавтов роботизированными конечностями

НЛО заметили в Джайпуре

НЛО замечен над ранчо Скинуокер

Обнаружили признаки гигантских инопланетных электростанций

Разгадана ли, наконец, тайна египетских пирамид

Создали прозрачный бамбук

Сокрытие ключевой корреспонденции AATIP

Тайна пирамид, наконец, может быть разгадана

Уфологический туризм недалеко от горы Фудзи

Подписка на новости
Наверх