Как устроен ИИ ChatGPT
|
|
Редакция Nature включила в список 10 героев 2023 года Илью Суцкевера — одного из создателей ChatGPT. Чат-боту, который, по словам редакторов, может «открыть новую эру в науке», журнал отдал бонусное 11 место. В книге «Как устроен ChatGPT? Полное погружение в принципы работы и спектр возможностей самой известной нейросети в мире» (издательство «Манн, Иванов и Фербер»), переведенной на русский язык Еленой Быковой, математик Стивен Вольфрам рассказывает, что позволяет сервису, в основе которого лежит большая языковая модель, вести с пользователями беседы и генерировать тексты, которые вполне мог бы написать человек. Предлагаем вам ознакомиться с фрагментом о том, как обучаются нейронные сети.
|
Машинное обучение нейронных сетей
|
|
Ранее мы говорили о нейронных сетях, которые «уже знают», как выполнять определенные задачи. Но что делает нейронные сети настолько полезными, так это способность не только выполнять всевозможные задачи, но и постепенно обучаться на различных примерах (в этом нейросети очень похожи на нас).
|
|
Когда мы создаем нейронную сеть, способную отличать кошек от собак, нам не нужно писать программу, которая, скажем, обнаруживает усы. Вместо этого мы просто показываем множество примеров того, что такое кошка и что такое собака, а затем заставляем сеть «учиться» на этих примерах.
|
|
Обученная сеть «обобщает» приметы кошек и собак, исходя из конкретных примеров, которые мы ей даем. Как мы видели выше, дело не просто в том, что сеть распознаёт конкретный пиксельный рисунок изображения кошки. Скорее, нейронная сеть как-то умудряется различать изображения на основе того, что мы, люди, считаем общими кошачьими приметами.
|
|
Итак, как же на самом деле происходит обучение нейронной сети? По сути, то, что мы пытаемся сделать, — это найти веса, которые позволят нейронной сети успешно воспроизводить примеры, которые мы ей дали. И затем нейронная сеть интерполирует (обобщает) эти примеры «разумным» способом.
|
|
Подобно воде, стекающей с горы, эта процедура закончится на некотором локальном минимуме (так сказать, в горном озере), и вполне возможно, что мы так и не достигнем глобального минимума.
|
|
Не всегда очевидно, где находится самый крутой спуск на подобном весовом ландшафте. Но здесь нам на помощь приходит математический анализ. Как уже упоминалось выше, мы можем представить нейронную сеть как вычисление математической функции, которая зависит от ее входных данных и их весов. Но теперь давайте рассмотрим дифференциацию в зависимости от этих весов. Оказывается, цепное правило математического анализа позволяет нам распутывать операции, выполняемые последовательными слоями нейронной сети. И в результате мы можем — по крайней мере в некотором локальном приближении — инвертировать работу нейронной сети и постепенно находить веса, которые минимизируют потери выходных данных.
|
|
На рисунке выше показан вид минимизации, который нам, возможно, потребуется выполнить в нереалистично простом случае всего с двумя весами. Но оказывается, что даже при гораздо большем количестве весов (ChatGPT использует 175 миллиардов) все еще возможно выполнить минимизацию, по крайней мере до некоторого уровня приближения. И на самом деле большой прорыв в «глубоком обучении», произошедший примерно в 2012 году, был связан с открытием того, что в каком-то смысле легче выполнить минимизацию (по крайней мере, приблизительно), когда задействовано много весов, чем когда их мало.
|
|
Другими словами — несколько нелогично, — с помощью нейронных сетей легче решать более сложные задачи, чем простые. И причина, по-видимому, заключается в том, что, когда мы имеем много весовых переменных, у нас есть многомерное пространство со множеством направлений, которые могут привести нас к минимуму, тогда как при меньшем количестве переменных легче застрять в локальном минимуме («горном озере») без возможности из него выбраться.
|
|
Подробнее читайте:
|
Вольфрам, Стивен. Как устроен ChatGPT? Полное погружение в принципы работы и спектр возможностей самой известной нейросети в мире / Стивен Вольфрам ; пер. с англ. Елены Быковой ; науч. ред. А. Здоров. — Москва : МИФ, 2024. — 192 c. — (Цифровые технологии).
|
|
Источник
|