Один человеческий факт спасает ИИ от безумия

0
10

Словам приходит конец.

Настоящим. Тем, что написаны реальными людьми. По словам некоторых экспертов, сроки сжаты больше, чем мы думали: запасы могут иссякнуть уже к концу этого года. Тем, что произойдет далее, дали название катастрофа сходимости (model collapse). Машины начинают поедать свои собственные хвосты, синтезируя новые данные из старого мусора, и постепенно начинают лгать. Речь идет не просто о неверных ответах, а о полном вымысле.

Это не просто досадная неприятность для чат-бота.

Если языковая модель с большим контекстом (LLM), работающая в больнице, начнет ошибаться в диагнозах рака из-за того, что ее обучающие данные деградировали, вы столкнетесь с экзистенциальной угрозой. Яссер Руди из Королевского колледжа Лондона подчеркивает, что ставки здесь не могут быть выше.

«Если во время обучения новой модели произойдет катастрофа сходимости, эти машины могут поставить людям неверный диагноз».

Он сказал «могут» не как возможность, а как неизбежность.

Так как же остановить сползание к бреду? Ответ удивительно прост. Добавьте всего один человеческий пример данных.

Не миллиард. Один.

Сползание в абсурд

Мы уже замечаем первые признаки. ChatGPT выдает плоские, «сглаженные» ответы. Галлюцинации. Факты, которые звучат правдоподобно, но таковыми не являются. Когда LLM обучаются на данных, созданных другими LLM, все становится однородным. Исчезают специфические нюансы, вариативность уничтожается.

На ранних стадиях катастрофа выглядит как скучный, шаблонный текст. На поздних — как бессвязный бред.

Никому не нужна модель, которая утверждает, что солнце встает на западе, лишь бы заполнить лимит токенов. Но отслеживать этот процесс в массивных системах все равно что искать иголку в цифровом стоге сена. Система слишком огромна и хаотична.

Маленькие модели, большие истины

Исследователи — команды из Королевского колледжа Лондона, Норвежского университета науки и технологий и итальянского Центра Абдуса Салама — сделали шаг назад. Они не рассматривали «монстров». Они изучали экспоненциальные семейства — меньшие вероятностные модели.

Представьте подбрасывание монеты или колоколообразные кривые.

Математику, которую можно действительно постичь и контролировать.

Изучая эти управляемые модели, они нашли механизм, лежащий в основе деградации. Ответ на вопрос «почему». И они нашли лекарство. Не имеет значения, сколько синтетического шлака содержится в цикле обучения, даже если 99,9% данных создано машинами: система сохраняет рассудок, пока существует хотя бы один якорь, связывающий её с объективной реальностью.

Реальное изображение, классифицированное реальным человеком.

Всего одно.

Эта внешняя точка данных действует как гравитационная яма реальности. Она притягивает распределение вероятностей обратно к тому месту, где живет истина. Исследователи опубликовали эту работу в журнале Physical Review Letters еще в мае, математически доказав теорию.

Что дальше?

Реальное внедрение — это уже другая история. Мы еще не видели, чтобы крупный ИИ сошел с ума на публике. В основном мы сталкиваемся с странными стихами и вымышленными судебными делами. Но математика не врет. Сдвиг уже происходит.

Руди хочет протестировать эту гипотезу на более крупных моделях. На тех, что управляют интернетом. Если теория подтвердится, это изменит все для инженеров, создающих новое поколение ChatGPT. Им больше не нужны бесконечные наборы человеческих данных. Нужны лишь достаточные якоря.

Это странное спасение.

Один человеческий голос в хоре цифровых эхо足以, чтобы сохранить узнаваемость мелодии.

Но как долго сможем мы удерживать эту нить?