Рекомендовано: Cage Составитель: wenli, Yanxi Набор текста: Mengxi, Scout
OpenAI объявила о своем плане «Супервыравнивания» в начале прошлого месяца и объявила, что единовременно инвестирует 20% своих общих вычислительных мощностей в это новое направление. Соучредитель и главный научный сотрудник OpenAI Илья Суцкевер и бывший руководитель группы согласования Ян Лейке будут совместно возглавлять этот новый проект, целью которого является решение основных технических проблем согласования сверхразума в течение 4 лет, чтобы гарантировать, что люди смогут контролировать сверхразум.
Чтобы достичь этого, OpenAI необходимо сначала обучить «автоматического выравнивателя на том же уровне, что и человек», а затем использовать этот «автоматический выравниватель» для достижения выравнивания с помощью сверхразума. Разработка «Aligner» также включает в себя реализацию оценки и контроля ИИ, проверку безопасности системы на основе объяснимости и тестирование системы на возмущения с использованием несогласованных моделей.
Эта статья составлена на основе интервью с Яном Лейке и представляет собой более детальное техническое размышление Яна Лейке о том, как OpenAI может достичь «суперсогласованности».
**Далее приводится содержание этой статьи, рекомендуется читать ее вместе с основными пунктами. **
👇
01 Команда Супервыравнивания
02 Пусть модель «автономно выравнивается»
03 График супервыравнивания
04 Обобщение
05 Сохраняйте оптимизм в отношении Супервыравнивания
01.Команда Суперсогласования
**Дэниел Филан: Можете ли вы сначала представить команду Superalignment? **
Ян Лейке: Цель команды Superalignment — решить проблему выравнивания сверхразума в течение следующих 4 лет. Илья Суцкевер, сооснователь и главный научный сотрудник OpenAI, также присоединится к команде и возглавит проект вместе со мной. Кроме того, OpenAI посвятит этой теме 20% своих вычислительных ресурсов. Мы также активно набираем таланты в команду проекта. **Мы очень надеемся привлечь экспертов и инженеров по машинному обучению, которые не занимались исследованиями центровки, и у этих людей может быть большой потенциал в этом вопросе. **
Мы разработали предварительную рабочую структуру. Основная идея состоит в том, чтобы сначала обучить автоматизированного исследователя выравнивания человеческого уровня (автоматического исследователя выравнивания человеческого уровня), а затем позволить ему продолжить изучение того, как завершить работу по выравниванию Суперинтеллекта. Итак, одна из ключевых вещей, которую нам нужно сделать, — это выяснить, как «выровнять» этот автовыравниватель.
**Дэниел Филан: Насколько велика эта новая команда? **
Ян Лейке: Сейчас у нас около 20 человек, а к концу этого года их может быть 30. В ближайшие четыре года команда, вероятно, не превысит 100 человек, но способ расширения этой команды может быть Имейте миллионы «виртуальных людей» или, по крайней мере, столько же «виртуальных людей», сколько сотрудников OpenAI, чтобы выполнить выравнивание). С этой точки зрения мы определенно будем широко расширяться в будущем.
**Дэниел Филан: Вы упомянули, что OpenAI предоставит этой команде 20% поддержки вычислительной мощности.Что означают эти 20%? **
**Ян Лейке: **Для OpenAI 20% вычислительной мощности, выделенной этой команде, — немалое число. Это определенно самая крупная инвестиция, которую мы сделали на сегодняшний день, и она может превзойти все остальные суммы инвестиций. **Так что в этом смысле 20% вычислительных ресурсов — это довольно большой процент для OpenAI. Кроме того, если мы сделаем эту цифру очень большой, некоторые люди обязательно зададутся вопросом, действительно ли OpenAI сможет это сделать.Система предварительно обучена, что потребует много вычислительных ресурсов.
**Дэниел Филан: До этого в OpenAI уже была команда по согласованию. Эта команда еще существует? **
Ян Лейке: Группа по согласованию, созданная в прошлом году, состоит из двух частей: одна называется «Практическое согласование», а другая — «Масштабируемое согласование». Команда практического выравнивания занимается выравниванием GPT-4, а группа масштабируемого выравнивания стремится изучить проблемы выравнивания, которые мы в настоящее время не можем решить. С выпуском ChatGPT и его последующим успехом важность и масштаб продукта ChatGPT постоянно растут, требуя более крупных RLHF и моделей, чтобы обеспечить достаточную полноту функций и опыта продукта. Команда по согласованию больше не подходит для этого.
Практическая работа по согласованию, о которой мы упоминали ранее, теперь распределена между различными проектными командами OpenAI, в ней участвуют сотни людей, так что это уже очень масштабный проект, а работой по масштабируемому выравниванию теперь занимается команда Superalignment. Дела, которые необходимо сделать.
Причина, по которой мы выбираем название «Супервыравнивание», заключается в том, что мы хотим подчеркнуть, что то, что мы изучаем на данном этапе, на самом деле является проблемой, которая еще не возникла.Наши исследования относительно дальновидны и ориентированы на будущее.
**Дэниел Филан: Как увидеть попытки людей или команд, отличных от OpenAI, добиться согласованности? **
**Ян Лейке: **Есть много людей или команд за пределами OpenAI, которые также пытаются работать над похожей работой, особенно DeepMind и Anthropic. В какой-то степени мы все пытаемся решить одну и ту же проблему, поэтому в конечном итоге мы выполняем схожую работу. Это тоже нормально. Есть и другие работы по интерпретируемости и масштабируемому контролю.
В каком-то смысле мы фактически рискуем дублировать кучу работы, поэтому в идеале пытаемся выяснить, как лучше координировать действия или больше сотрудничать. Но если все делают одно и то же, можно избежать «группового мышления», поскольку, если каждая лаборатория захочет решить эти проблемы самостоятельно, она, естественно, будет сомневаться в результатах других лабораторий, а отрицательная сторона будет порождать «групповое мышление». -или эффект: люди не желают использовать технологии, изобретенные где-то еще, и люди, естественно, будут думать, что технологии, отличные от их собственных, плохи, или смотреть на них с каким-то предубеждением.
Так что сейчас баланс не в хорошем состоянии, и хотя есть основания думать, что все люди, отвечающие за согласованность, должны быть в одном месте и каким-то образом работать вместе, это реальность, потому что по самой своей природе передовые лаборатории искусственного интеллекта имеют мотивацию инвестировать много. ресурсов в вопросе «выравнивания». Это также стало очевидным благодаря успеху RLHF, который делает модели более коммерчески жизнеспособными и делает более привлекательными инвестиции в исследования таких методов.
**Дэниел Филан: Чем отличается подход команды OpenAI Superalignment? **
Ян Лейке: Мы действительно сосредоточены на том, как настроить этот автовыравниватель, а не на том, как согласовать различные задачи. Так что, по крайней мере, в этом вопросе нас не слишком беспокоит налог на выравнивание. Я не думаю, что другие лаборатории так подчеркивают эту цель или направление.
Налог на согласование:
Также известный как налог на безопасность, он относится к дополнительным затратам на обеспечение согласованности систем ИИ. Налог на согласование в рамках RLHF, упомянутый в этой статье, означает, что для выполнения RLHF теряются возможности базовой модели для достижения согласования, такие как увеличение времени разработки, дополнительные расчеты или снижение производительности и т. д.
**Мы очень оптимистично настроены на то, чтобы опробовать все методы масштабируемого выравнивания, чтобы увидеть, какие из них работают лучше всего, и попытаться найти способы их эмпирического сравнения. В других лабораториях есть специальные масштабируемые технологии наблюдения, которые им очень нравятся, и они тоже пытаются использовать эти технологии. Кроме того, что касается интерпретируемости, мы внедряем методы автоматизированной интерпретируемости и активно их продвигаем, но другие лаборатории еще не уделяли этому методу столько внимания. **
Еще одна вещь, которую мы действительно хотим сделать, — это использовать вычисления для улучшения согласованности, что является одной из наших основных стратегий, особенно с точки зрения масштабируемого контроля, мы действительно хотим выяснить, как мы можем получить больше вычислительной мощности для отправки лучшие контролирующие сигналы? Какие возможности у нас есть? Как лучше работать с моделью Critique? Как использовать больше вычислительной мощности, чтобы усилить сигнал контроля? Автоматизированная интерпретируемость (Автоматическая интерпретируемость) — это очень простой метод, нам нужно только вложить много вычислительных мощностей, чтобы добиться прогресса в решении этой проблемы.
Модель критики:
является независимой языковой моделью. Он рассматривает результаты первой системы искусственного интеллекта, а затем пишет обзор.
Кроме того, проводятся исследования по автоматическому выравниванию: если это удастся сделать, мы сможем получить больше результатов выравнивания, инвестируя больше вычислительных мощностей. Но поскольку на самом деле мы хотим преобразовать вычислительную мощность в возможности выравнивания, теперь нам нужно много вычислительной мощности, и именно поэтому OpenAI готов использовать 20% вычислительной мощности для выравнивания. По сути, это означает, что если мы узнаем об этом автовыравнивателе и обнаружим, что нам нужно больше вычислительной мощности, мы сможем использовать больше вычислительной мощности для его запуска. Это также означает, что стратегия преобразования вычислительной мощности в согласование успешна и будет поддерживаться OpenAI.
02. Позвольте модели «автономно выравниваться»
Что такое «автоматическое выравнивание»
**Дэниел Филан: Что такое «автоматизированный исследователь выравнивания на человеческом уровне»? **
**Ян Лейке: Наша цель — максимально использовать автоматизированные системы для разделения и распределения задач в работе по согласованию. **
Когда дело доходит до языковых моделей или других систем искусственного интеллекта, они не на 100% могут делать то, что делают люди. Например, LLM могут работать лучше, чем люди, в таких вопросах, как перевод или ответы на фактические вопросы, но они могут быть не такими способными, как люди, в арифметических вычислениях или некоторых других задачах. **Итак, вопрос в том, в каком порядке и какие задачи нам нужно поручить ИИ, чтобы высвободить ограниченную энергию исследователей-людей? **В результате человеческие команды смогут более эффективно выполнять критически важные задачи, а ИИ будет брать на себя все больше и больше вспомогательных задач.
**В целом, ИИ будет участвовать во все большей части работы, а исследователи-люди будут уделять больше внимания задачам, которые не берет на себя ИИ, и смогут более эффективно ускорить исследования согласования сверхразума посредством сотрудничества человека и машины. **
**Дэниел Филан: Таким образом, речь идет не о том, чтобы использовать ИИ для замены некоторых людей в команде согласования OpenAI, а о том, чтобы использовать ИИ для выполнения определенного типа работы, которую выполняют все, а затем шаг за шагом заменять ее ИИ. Дополнительные задачи выступать? **
**Ян Лейке:**Да, я думаю, если мы хотим, чтобы производительность этой системы была достаточно высокой, 99% или 99,9% задач должны быть автоматизированы, чтобы мы могли получить 10, 100 или даже 1000 раз умножить результаты исследования.
Я бы разделил упомянутые здесь «задачи» на две большие категории. Один тип — это более традиционные инженерные исследовательские задачи машинного обучения, которые призваны помочь улучшить возможности систем искусственного интеллекта, такие как реализация различных экспериментов ML и сбор экспериментальных результатов.
Другой тип - это то, что необходимо сделать, чтобы добиться согласования сверхинтеллекта. Этот тип проблемы относительно более крупный и более высокого уровня (высокий уровень). Например, чтобы улучшить надзор за масштабируемостью (Scalable Oversight), как нам решить какие эксперименты провести? Или как добиться прогресса в интерпретируемости. Конечно, должны быть очень конкретные вопросы, на которые необходимо ответить: например, когда исследование достигает определенного этапа, необходимо уточнить ряд последующих проблем, которые необходимо решить, и другие очень подробные вопросы.
Масштабируемый контроль:
Целью контроля масштабируемости является обеспечение того, чтобы возможности модели по-прежнему соответствовали человеческим ожиданиям и продолжали совершенствоваться и обучаться после превышения человеческого уровня. Это требует от исследователей задуматься о том, как увеличить емкость модели, выровнять значения модели и постоянно контролировать производительность модели. Целью масштабируемого контроля является постоянное обеспечение надежного контроля над моделью. Этот контроль может принимать различные формы, такие как ярлыки, сигналы вознаграждения или критика.
Я предсказываю, что машинное обучение может очень хорошо решать задачи первого типа, то есть разрабатывать и автоматически проводить эксперименты, а уникальная работа, которую мы делаем сегодня для ускорения процесса согласования, заключается в том, чтобы выяснить, как автоматизировать задачи второго типа. метод. **
**Дэниел Филан: Кажется, второй тип задач — это задача полного процесса? Не просто выяснение направлений исследований, выяснение того, что может быть полезно, вплоть до «какой сценарий я хочу запустить сейчас?» **
**Ян Лейке: **На самом деле этот вопрос можно задать так: **Поскольку исследование согласованности во многом похоже на традиционное исследование МО, какие еще задачи второго типа можно решать? **
**Я думаю, что на самом деле существует много контента, связанного со вторым типом задач, и эта часть исследовательского рычага великолепна. **Поскольку с точки зрения тем исследований мы даже не пришли к единому мнению о том, «как определить согласованность». Даже отраслевые эксперты все еще задаются вопросом о «техническом пути, который с наибольшей вероятностью реализует согласованность» или о том, «какая работа должна быть проведена». сделать следующее» «По этим вопросам существуют разногласия. Поэтому, если выравнивание можно ускорить, воздействие должно быть огромным. Это также видение и направление, о которых мы говорили исследователям, когда призывали их присоединиться к команде OpenAI Superalignment.
На данном этапе мы все еще решаем некоторые базовые проблемы, и предстоит еще много работы по исследованию выравнивания. Мы не знаем, как согласовать сверхразум, и даже просто согласовать системы ИИ с интеллектом, превышающим человеческий, довольно сложно.
**Дэниел Филан: Вы упомянули концепцию автоматического выравнивателя на уровне человека, но кажется, что большинство вещей в ИИ не совсем на человеческом уровне. Насколько важен «человеческий уровень» в этой цели? Хорошо это или плохо, если ИИ действительно превосходит человека в некоторых из упомянутых вами задач? **
**Ян Лейке: Я думаю, что суть вопроса в том, насколько рискованно использовать эту систему человеческого уровня в исследованиях выравнивания. **
Не так уж и страшно, что система ИИ обладает огромным количеством знаний, но когда эта система возьмет на себя некоторые (в долгосрочной перспективе, большую часть) исследования мировоззрения, нам нужно будет задуматься, не будет ли она лгать людям? Попытается ли ИИ обмануть нас и захватить систему?
Поскольку в настоящее время мы действительно не понимаем, как происходит большая часть поведения модели, реальный вопрос, с которым мы сталкиваемся, заключается в том, какие навыки нам нужны, чтобы понять ее поведение и риски, и сравнимо ли это с тем, что нам нужно для создания автоматизированного исследователя. Как сравниваются навыки?
Если мы углубимся в этот вопрос немного глубже, что нас действительно беспокоит? Возможно, модель сплетет серию лжи, способной обмануть людей? Модели уже обманывают людей? Вы притворяетесь, что делаете что-то или верите во что-то, хотя на самом деле это направлено на другую цель?
Поэтому также важно оценить, является ли модель самоэксфильтрацией: способна ли модель нарушить меры безопасности системы, получить параметры веса модели и попытаться скопировать их в другие места в Интернете? Или может ли модель загрузить эти данные и отправить их куда-нибудь еще, убедив инженера-человека, имеющего доступ к весам? Мы также можем измерить возможности модели в этой области. Я надеюсь, что в этих критических звеньях возможности модели не будут слишком сильными.
**Дэниел Филан: Автоматический выравниватель на уровне человека должен быть очень умным, творческим и способным к планированию задач, а также он должен очень хорошо думать о проблемах, связанных с выравниванием, и в этом случае раздаются голоса, что такой мощный инструмент Сам инструмент очень опасен для человека. Если задача состоит в том, чтобы выровнять исследователь автоматического выравнивания, есть ли еще какие-то проблемы, которые ему нужно решить? **
**Ян Лейке: Я думаю, что в конечном итоге это зависит от опыта. **
Возможно, мы сможем сначала представить этот вопрос на макроуровне. Например, совершенно очевидно, что как только возможности модели улучшатся, мы, естественно, позволим модели помочь нам в выполнении некоторой исследовательской работы по согласованию, и хотя модель помогает нам проводить исследования, ее собственные возможности улучшаются, поэтому из В результате мы можем использовать это для быстрого обучения более мощной модели.
Эта история на первый взгляд весьма захватывающая, но с практической точки зрения она на самом деле очень сложна. Прежде всего, предварительное обучение модели обычно занимает несколько месяцев, а не недель, поэтому нам нужно использовать это поколение моделей до тех пор, пока не родится новое поколение моделей. Еще один вопрос, на который до сих пор нет четкого ответа: есть ли еще много «легко висящих плодов» с точки зрения повышения вычислительной мощности?
Я думаю, что по сравнению с согласованием инвестиции и внимание всего сообщества ИИ в улучшении скорости и возможностей ИИ довольно велики. Если мы сможем автоматизировать больше этих задач на благо обоих сообществ, то в масштабах сообщества согласования В меньших случаях , то предельные выгоды, которые это принесет, будут выше.
**Дэниел Филан: Когда дело доходит до оценки выравнивания как направления исследований, какова, по вашему мнению, будет долгосрочная цель этого автоматического выравнивателя? **
Ян Лейке: Я думаю, что языковые модели или искусственный интеллект в целом более креативны, чем люди в среднем. Например, в изображениях, созданных с помощью диффузионной модели или выборки из предварительно обученной базовой модели, вы обязательно обнаружите много неожиданного, поэтому модель особенно креативна.Это вещи, на которых нам трудно учиться. Или получено от небольшой группы людей, и модель может сделать это, потому что она выучила все слова, сказанные людьми, или все изображения в Интернете, тем самым завершив выборку в этом чрезвычайно крупномасштабном распределении, которое не могу сделать до этого момента.
Что касается долгосрочных целей, **я не думаю, что вообще существует необходимость преследовать так называемые долгосрочные цели, потому что мы можем сначала поставить ИИ краткосрочные задачи, и если они хороши в этом, для этих задач вполне достаточно. **Например, это может быть что-то очень узкое, например: «Это статья, которую мы только что написали, пожалуйста, предложите следующие шаги или какие новые эксперименты можно реализовать». Представьте, что мы на самом деле просим настоящего звездного исследователя ИИ задавать вопросы, чтобы ему не нужно было преследовать долгосрочные цели, ему просто нужно помочь нам оптимизировать следующую небольшую цель, возможно, несколько тысяч токенов, если они смогут это сделать. ну, это уже может принести большую пользу человечеству.
**Дэниел Филан: Кажется, это противоречит вышеупомянутой цели, согласно которой 99,9% задач по выравниванию могут быть автоматизированы? По моему мнению, один из ключей к хорошей работе по исследованию согласованности — это продолжать думать и решать проблему «что необходимо, чтобы действительно получить согласованный ИИ»? **
Ян Лейке: Именно. Но я хочу сказать следующее: **Когда система хорошо справляется с этими задачами, она приобретает большую ценность, и нам, людям, нужно объединить эти задачи. **Например, некоторые задачи — «написать код, реализующий эти эксперименты», другие — «посмотрите на результаты и скажите, что вы видите» или «предложите, что делать дальше». По сути, когда модели выполнили эти задачи, мы можем объединить их каким-то общим способом, как это делают люди в программах Auto-GPT или языковых моделей, каждая задача небольшая и автоматическая.Интегрируется, поэтому системе не нужно намеренно выполнять какую-либо задачу. большая, долгосрочная цель.
Например, недавняя программа OpenAI Let's Verify Step by Step использует основанную на процессах обратную связь в математике для обучения модели вознаграждения, основанной на отзывах людей на каждом этапе процесса доказательства, вместо того, чтобы тренировать решение «получила ли система правильный ответ»? ". Это оказалось более эффективным, поскольку дало системе ИИ более детальный способ обучения и более подробную обратную связь. Но в долгосрочной перспективе будет ли это конкурировать со сквозным обучением с подкреплением? Мы пока не знаем, но, по крайней мере, на данный момент мы можем использовать эту подробную разбивку шагов, чтобы заставить систему делать много действительно полезных вещей, которые могли бы делать люди, а затем соединить эти вещи воедино.
Давайте проверим шаг за шагом:
Исследование, опубликованное в мае 2023 года Хантером Лайтманом и др. В основном стремясь решить проблему частых логических ошибок в сложных многоэтапных задачах рассуждения больших моделей, автор сравнил два метода: контроль результатов и контроль процесса: контроль результатов в основном обеспечивает обратную связь для конечного результата, тогда как контроль процесса обеспечивает обратную связь для каждого промежуточного результата. шаг рассуждения. Исследование показало, что контроль процесса значительно превосходит модели обучения с контролем результатов, особенно по математическим задачам. Кроме того, авторы обнаружили, что активное обучение значительно повышает эффективность контроля за процессом.
**Дэниел Филан: Одна из упомянутых вами мини-заданий — «увидеть результаты и решить, что делать дальше». Если вы хотите это сделать, вам придется подумать о том, какой конкретный проект будет наиболее полезен для достижения цели выравнивания сверхинтеллекта за четыре года? **
**Ян Лейке: Вы правы. Однако это достигается не за счет оптимизации и долгосрочного присвоения кредита (кредитного присвоения), а скорее как добавление в подсказку каких-то более широких целей и контекста. **
Однако на практике, когда мы улучшаем системы с помощью обучения с подкреплением (RL) или обучения с подкреплением на основе обратной связи с человеком (RLHF), нам фактически не нужно ждать окончания исследовательского проекта, чтобы сделать выводы об эффективности этих методов. Вместо этого мы можем использовать отзывы людей в качестве основы для предложения вознаграждений, просто спрашивая себя: «Выглядит ли это направление лучше, чем все, что я могу себе представить?»
**Поэтому я думаю, что общая цель Superalignment — не достичь наиболее мощного автоматического выравнивания при существующих технологиях, а создать систему, которая будет очень полезной и может применяться в больших масштабах. Самое главное, что мы верим что он может добиться выравнивания, и вы можете быть уверены. Оставьте эти задачи ему. **
**По сравнению с разделением задач некоторые люди могут подумать, что только сквозное обучение может сделать модель более эффективной. Но я думаю, что это не так важно.На самом деле метод сквозного обучения не только в значительной степени ограничивает возможности модели, но и имеет низкую эффективность.Это то, что люди обычно называют «налогом на выравнивание». **
«Налог на согласование» является важным фактором, если вы хотите эффективно конкурировать с другими компаниями на рынке: предположим, я создаю чат-бот, который особенно хорошо справляется с согласованием, но кажется гораздо менее способным, что на самом деле очень сложно конкурировать на рынке. Но если у вас есть автовыравниватель, исследователю автовыравнивания не нужно конкурировать на рынке, ему просто нужно быть полезным для нас. Таким образом, мы можем согласиться на более высокие затраты на согласование, потому что у нас нет замены, или реальная замена — это нанять больше людей, но этот путь не так масштабируем.
**Дэниел Филан: Какие проблемы, по вашему мнению, решит этот автоматизированный исследователь выравнивания? **
Ян Лейке: Это должно решить проблему «как настроить сверхинтеллект». **Согласование сверхинтеллекта Реальное решение может сильно отличаться от согласования, которое мы делаем сегодня. **
Решение ChatGPT состоит в том, чтобы значительно усилить обучение на основе отзывов людей, а именно RLHF (Reinforcement Learning на основе отзывов людей). На данном этапе общее мнение заключается в том, что этот подход может быть трудно масштабировать, поскольку он по своей сути предполагает, что люди должны полностью понимать детали того, что делает система.
Поэтому, если вы попросите модель провести крупномасштабное исследование выравнивания, вы можете представить себе задачу, эквивалентную миллионам человеческих нагрузок. Очевидно, что люди не могут просмотреть все данные и дать подробную обратную связь. Это довольно сложно. , В этом случае процессе, мы определенно проигнорируем многие важные ошибки.
**Технология, над которой в настоящее время работает команда Superalignment, призвана сделать RLHF расширяемой и реализовать выравнивание для автоматических выравнивателей. **Этот автоматический выравниватель находится практически на том же уровне, что и человек. Он может заменить человека в выполнении этих сложных задач, но не будет сильно отличаться от человека. Все технологии, которые мы хотим внедрить, представляют собой обновления или серьезные исследования предыдущих технологий. Например, масштабируемый контроль является естественным расширением RLHF. **
Масштабируемый надзор определяется как общая комбинация идей и методов, которые позволяют нам использовать ИИ для помощи людям в сложных задачах оценки.
Типичными представителями масштабируемого надзора являются дебаты, рекурсивное моделирование вознаграждения (RRM, рекурсивное моделирование вознаграждения), итерационная дистилляция и усиление, автоматизированный маркет-мейкинг и т. д. Появляется много новых методов.
Я думаю, что если мы действительно собираемся присоединиться к сверхразуму и подумать о системах, которые умнее людей, думают быстрее, выполняют вычисления на совершенно новых уровнях масштаба, это принесет с собой целый ряд других проблем. будет суперуниверсальным и сможет делать много всего, а затем вам придется придумать, как его согласовать, не только с более узко распределенными исследовательскими задачами, но и со всем остальным. Кроме того, вам необходимо убедиться в его успешности посредством обширной эмпирической оценки.
Так что сейчас не только я, но и все не знают, как будет выглядеть будущее, но было бы очень интересно, если бы можно было провести какую-то формальную проверку. Возможно, мы нашли какой-то теоретически гарантированный алгоритм, но теория и последующая практика могут сильно отличаться, и даже я не думаю, что исследователь выравнивания примерно человеческого уровня сразу приступит к решению этих задач. Вместо этого мы надеемся, что они найдут способы лучше согласовать следующую итерацию, чтобы с помощью руководства у нас в конечном итоге была система, которая поможет нам точно настроить сверхинтеллект.
**Дэниел Филан: Если у вас есть исследователи по согласованию ИИ на человеческом уровне, нужна ли OpenAI команда по согласованию сверхинтеллекта и соответствующий персонал? **
Ян Лейке: Хороший вопрос. Лично я был бы очень рад, если бы его можно было заменить ИИ. **Но исторически типичной ситуацией является то, что мы упоминали ранее: помощники ИИ выполняют 99% или 99,9% работы, а люди отвечают за оставшиеся 1% или 0,01%. **В долгосрочной перспективе, даже если мы больше не сможем по-настоящему понимать все, что делает ИИ, нам все равно необходимо обеспечить, чтобы люди каким-то образом были вовлечены или всегда имели возможность контролировать то, что делает ИИ. быть человеческой ролью, чтобы попытаться понять высокоуровневые последствия того, что делает ИИ, не обязательно быть нынешней командой OpenAI Superalignment, потому что требуемый набор навыков может сильно отличаться от того, что мы имеем сейчас.
**Дэниел Филан: OpenAI постоянно упоминает в своем блоге, что безопасность тесно связана с возможностями модели. Нам нужны интеллектуальные модели для решения проблем выравнивания, но в то же время мы надеемся, что возможности моделей не изменят нас. В книге «Планирование AGI и не только» есть отрывок: «Если AGI обладает достаточной способностью ускорять собственное развитие, это может привести к тому, что серьезные изменения произойдут с поразительной скоростью», «Мы считаем, что относительно медленное развитие AGI легче обеспечить безопасность». ". Если мы создадим действительно умного специалиста по выравниванию, близкого к человеческому уровню, а затем эффективно увеличим команду специалистов по выравниванию в 10 или 100 раз, не попадет ли это в рекурсивный цикл самосовершенствования? **
Ян Лейке: Это неизбежно. Не может быть рекурсивного цикла самосовершенствования без масштабного улучшения возможностей выравнивания. Я лично считаю, что вероятность того, что ИИ достигнет скачка в возможностях, довольно высока, и мы должны быть к этому готовы. Если бы этого не произошло, я был бы доволен.
Если мы посмотрим на другие системы искусственного интеллекта, такие как AlphaGo, Dota или StarCraft, то увидим, что эти системы практически еженедельно претерпевают массовые обновления возможностей. Что касается того, что именно произойдет, мы пока не можем знать наверняка, поскольку существует большая неопределенность, но я думаю, что мы должны быть готовы к такой возможности. Когда это произойдет, действительно хорошей идеей будет наличие автоматизированных исследователей выравнивания, которые действительно смогут за неделю выполнить работу на тысячи лет, чего люди не могут сделать.
Как спроектировать автоматический выравниватель
**Дэниел Филан: Как реализовать этот автоматический выравниватель на уровне человека? **
Ян Лейке: Ее можно условно разделить на две части. Во-первых, нам нужна система, достаточно интеллектуальная для выполнения задач. С другой стороны, нам необходимо настроить эту систему так, чтобы она действительно могла выполнять задачи. Эти две части не являются полностью независимыми, они тесно связаны между собой.
Я лично не участвовал в первой части исследования, но верю, что оно обязательно осуществится, и многие люди работают над тем, чтобы это стало возможным. Есть много разных направлений, но вы можете себе представить, что по мере того, как модель становится все больше и больше, в конечном итоге она становится достаточно умной.
**Что лично меня действительно интересует, так это вторая часть. Проблема, с которой мы сталкиваемся в наших исследованиях, заключается в следующем: как с помощью этой очень умной предварительно обученной модели заставить ее выполнять согласованные исследования так, как вы хотите? Или, что еще более важно и более важно, как узнать, можете ли вы ему достаточно доверять, чтобы выполнить задачу? **
Наши модели могут попытаться представить результаты и методы таким образом, чтобы, если вы решите их реализовать, фактически улучшить саму систему или другие связанные системы и продемонстрировать более сильное поведение в будущем или выполнить побег из тюрьмы (самоэксфильтрация) и другое поведение.
Поэтому нам необходимо настроить ИИ так, чтобы он мог выполнять задачи в соответствии с нашими ожиданиями и в полной мере использовать свои возможности для достижения наилучшей производительности при выполнении задачи. С этой целью необходимо разработать ряд методов обучения выравниванию, чтобы гарантировать, что ИИ сохраняет выравнивание при выполнении задач.
На самом деле это два разных типа систем. Нам нужно различать, является ли эта система истинной или ложной ориентацией. Первая - это система, которая может усердно работать, проводя исследования согласованности и фактически помогая нам в поисках истины; вторая может иметь намерение контролировать мир, побег из тюрьмы или другое. Риск плохого поведения. Поэтому нам необходимо создать механизмы или методы, позволяющие различать эти два совпадения, чтобы гарантировать, что мы можем доверять и полагаться на системы, которые действительно согласованы.
**Важная часть нашей работы — выяснить, как отличить истинные и ложные совпадения. Я называю их методами проверки. Они не используются непосредственно для обучения систем ИИ и не используются непосредственно в качестве основы для выбора систем, но предоставляют Независимый Сигнал используется для определения того, является ли система действительно согласованной системой или ложно согласованной системой. **
Например, одним из таких подходов является исследование интерпретируемости. Если, заглянув внутрь модели, мы обнаружим доказательства того, что модель тайно замышляет против нас, то модель не пройдет проверочный тест как ложно настроенная система.
Другой подход заключается в обобщении проблемы от простого к сложному, что может быть методом обучения или проверки, в зависимости от того, как она настроена. Этот вопрос проверяет, способна ли модель обобщать простые проблемы, которые мы можем контролировать, на сложные проблемы, которые мы не можем контролировать. Если модель можно контролировать на простой части и перекрестно проверять на сложной части, тогда мы можем определить, подвержена ли модель риску тайного мошенничества или иного поведения.
Подход 1: Масштабируемый надзор
**Дэниел Филан: Как можно добиться масштабируемого контроля? Пока еще не так много консенсуса по поводу выравнивания, как получить обучающие сигналы для высококачественных исследований выравнивания? **
Ян Лейке: Отсутствие консенсуса еще раз показывает, что проблему согласования на самом деле сложно решить. Эта область еще не очень зрела, поэтому мы пока не накопили такого большого опыта. Но я думаю, что исследования согласованности обладают некоторыми очень важными свойствами, которые мы можем использовать для масштабируемого контроля.
Оценка качества исследования согласования может оказаться более эффективным способом, чем просто изучение согласования, что не означает, что исследование согласования легко, не означает, что его легко оценить, но найти статью гораздо проще. Например, в этой статье есть классная идея, проведено несколько классных экспериментов и получены хорошие результаты. После прочтения вы обязательно почувствуете качество этого исследования. Это намного проще, чем выполнять эту работу. .
**Таким образом, принцип «оценка проще, чем генерация» лежит в основе многих идей масштабируемого надзора. **Например, если вы рассматриваете рекурсивное моделирование вознаграждения, основная идея состоит в том, чтобы использовать помощника ИИ, который поможет вам оценить работу других систем ИИ: сначала позвольте системе ИИ-помощника настроиться на относительно простую задачу, которая используется в качестве помощник по оценке для помощи в оценке других систем ИИ.
Поскольку оценка проще, чем генерация, задача оказания помощи системам ИИ относительно проста, особенно с учетом того, что люди сотрудничают, помогая системам ИИ выполнять оценку. После успешного выполнения этой задачи сочетание людей и вспомогательных систем искусственного интеллекта можно будет использовать для наблюдения за обучением новой системы искусственного интеллекта решению более сложной задачи.
Постоянно повторяя этот процесс, мы можем постоянно расширять круг задач, для решения которых мы можем эффективно контролировать системы ИИ. Такой подход позволяет нам использовать относительную простоту задачи оценки для управления и обучения систем ИИ, постепенно открывая более широкий спектр областей задач.
Масштабируемое выравнивание агентов посредством моделирования вознаграждения: направление исследований:
Ян Лейке опубликовал исследование по рекурсивному моделированию вознаграждения в 2018 году, в котором были разработаны подходящие функции вознаграждения для применения алгоритмов обучения с подкреплением к реальным задачам. Дополнительно обсуждается вопрос согласования агентов, т. е. того, как создавать агентов, поведение которых соответствует намерениям пользователя. Команда намечает направление исследований высокого уровня для решения проблемы согласования агентов, сосредоточенное на моделировании вознаграждения и изучении функций вознаграждения на основе взаимодействия с пользователями.
**Дэниел Филан: То есть путем итеративного добавления все большего и большего количества знаний об ИИ к оценочной части исследования согласования. Работая таким итеративным образом, система ИИ всегда может получать хорошие обучающие сигналы. **
Ян Лейке: Да. Например, RLHF — самый простой, без использования каких-либо помощников, и люди оценят, хорошо это или нет, увидев результаты работы ИИ, что является обучающим сигналом.
Глубокое обучение с подкреплением на основе предпочтений человека:
Исследование Пола Кристиано и Яна Лейке, проведенное в 2017 году. В этой работе исследуются цели, определенные с точки зрения (неэкспертных) человеческих предпочтений между сегментами траектории, чтобы позволить сложным системам обучения с подкреплением (RL) эффективно взаимодействовать с реальной средой. Исследования показали, что этот подход позволяет эффективно решать сложные задачи обучения с подкреплением без доступа к функциям вознаграждения, включая игры Atari и симуляцию движения робота, обеспечивая при этом обратную связь менее чем для 1% взаимодействий агента с окружающей средой. Это существенно снижает затраты на человеческий контроль.
Далее, развивая ранее описанный подход, мы в основном обучаем простейшую модель помощника — модель критики. Это независимая языковая модель, которая наблюдает за результатами работы первой системы ИИ и пишет критические замечания.
Например, первая система искусственного интеллекта пишет фрагмент кода, и мы смотрим на код: люди, как правило, плохо находят ошибки в коде, поэтому в мире так много ошибочного кода. Но сейчас, если есть система критики, которая умеет писать критику и указывать на ошибки, то людям очень легко судить: «это определенно ошибка, надо ее исправить».
Предостережение здесь в том, что сама задача не очень ясна, поскольку обычно код пишется в соответствии с некоторой спецификацией естественного языка. На практике значение этой спецификации несколько неясно, и определение того, является ли проблема ошибкой, может быть неоднозначным. Но что еще более важно, используя критическую модель в качестве помощника, вы можете расширить объем надзорных задач. Хотя может быть некоторая двусмысленность и двусмысленность в отношении определенности проблем и ошибок в вашем коде, вы все равно можете использовать выходные данные модели критики, чтобы найти больше проблем. Такой подход позволяет эффективно контролировать системы ИИ в более широком диапазоне задач и расширять сферу надзора.
Очень хорошо то, что на самом деле существует множество способов оценить эффективность этого подхода посредством эмпирических исследований. Один из подходов, который мы использовали в статье, опубликованной в прошлом году, по сути представляет собой рандомизированное контролируемое исследование с целевыми изменениями. Предположим, у вас есть задача по кодированию. Хотя в статье мы не используем задачи по кодированию, конкретное содержание задачи здесь не важно. Затем у вас есть результат ответа, который не обязательно должен быть идеальным, но давайте предположим, что так оно и есть. Вы пытаетесь внести какую-то тонкую ошибку или изъян в результат ответа, сделав его не таким уж хорошим, но незаметно плохим для людей.
Упомянутая здесь статья — это Модели самокритики для помощи людям, опубликованная в 2022 году. В этой статье в основном настраиваются большие языковые модели и используется поведенческое клонирование для написания комментариев на естественном языке. Отзывы, написанные моделью, могут помочь людям обнаружить недостатки в результатах. Кроме того, авторы изучили свойства масштабирования обзоров для задач тематического обобщения и синтеза. Более крупные модели напишут больше полезных отзывов.
**Дэниел Филан: Как появились эти ошибки? **
Ян Лейке: Самый простой способ — позволить это сделать людям, но в конечном итоге нам придется позволить модели завершить процесс самостоятельно.
Сначала случайным образом выберите одно из возмущений, а затем покажите его человеку, человеку с помощью искусственного интеллекта или любому масштабируемому контролируемому подходу. А потом посмотрите, насколько вероятно, что они это обнаружат? Или вы можете спросить их напрямую: «Есть ли здесь уязвимость?» и узнать, с какой частотой они находят ошибки.
Кроме того, вы можете напрямую сравнить знания модели о проблеме и научить ее работать в качестве дискриминатора, способного различать хорошие и дефектные версии. Точность дискриминатора отражает его производительность. Далее модель или улучшенную с помощью RLHF модель просят прокомментировать код. Затем обратите внимание, как часто модель упоминает в комментариях дефекты кода. Сравните точность дискриминатора с точностью отзывов, созданных моделью. Точность дискриминатора отражает способность модели распознавать проблему, а точность проверки отражает осведомленность модели о дефектах кода. Это то, что мы называем разрывом дискриминатора и критики.
Если разница большая, это означает, что модель чувствует множество проблем, но она нам об этом не сообщает, потому что если бы мы попросили ее написать комментарий, она бы этого не сказала. Эта ситуация очень тревожная, потому что это означает, что ваш масштабируемый контроль в некотором роде глубоко ошибочен, и многие вещи ускользают от вашего поля зрения. Или в том смысле, что этот ИИ-помощник не очень-то готов к сотрудничеству, потому что он не очень старается вам помочь.
И наоборот, небольшая разница означает, что если ИИ-помощник узнает, что с моделью возникла проблема, он сообщит вам об этом. В частности, если модель аналогичного размера или та же базовая модель пытается внедрить ошибки или разместить труднообнаружимые трояны с небольшими значениями дисперсии, то мы можем с большей уверенностью исключить возможность такой атаки. Потому что другая копия модели, скорее всего, напишет комментарий, раскрывающий потенциальные проблемы.
Этот случай основан на предположении, что обучение дискриминатора может фактически исключить это из модели. Я думаю, у нас есть веские основания верить в это, поскольку точная настройка дискриминатора по сути дает доступ ко всем активациям в модели и одновременно настраивает все веса. Следовательно, если где-то в активациях модели существуют знания, точная настройка дискриминатора должна быть в состоянии извлечь эти знания, при условии, что точная настройка выполнена правильно и имеется достаточно данных.
На самом деле вы можете выполнить некоторые обратные вычисления, чтобы определить, сколько данных вам нужно. Предположим, в модели есть один нейрон, который обнаруживает проблемы в коде. Чтобы найти и идентифицировать этот нейрон, количество точек данных, которые вам нужны, примерно равно логарифму общего числа нейронов. Это означает, что относительно небольшого количества данных достаточно, чтобы сузить круг исследований и найти нейроны с определенной функцией. Эта оценка показывает, что при обучении дискриминатора и достаточном количестве данных можно обнаружить функции конкретных нейронов в модели.
**Дэниел Филан: У меня тоже есть вопрос по поводу всего плана. Причина, по которой нам не нравится RLHF, заключается в том, что он не может отличить то, что люди считают правильным, от того, что «звучит хорошо», потому что люди не умеют критиковать. **
Идея рекурсивного обзора заключается в постоянном улучшении качества обзоров путем обучения как дискриминатора, так и рецензента. Один из способов — мы обучаем вещь, которая может писать действительно хорошие обзоры, а затем работаем с ней, чтобы обучить вещь, которая более способна писать обзоры. В этом случае мы постепенно повышаем качество отзывов для достижения лучших результатов. Но есть ли другая ситуация, когда мы тренируем вещь, непреднамеренно обучая ее писать псевдообзоры, которые нам нравятся, а затем работаем с ней, чтобы еще больше улучшить нашу способность различать отзывы, которые нам нравятся? Это может заставить нас уделять больше внимания вещам, которые кажутся хорошими, но на самом деле являются проблемами, игнорируя при этом проблемы, которые действительно существуют.
Ян Лейке: Да, я согласен, что это очень важный и законный вопрос. При изучении приложений масштабируемого надзора становится критически важным понять одну из его ключевых проблем. Поэтому я очень рад возможности на самом деле применить эти методы и опробовать их эмпирически, потому что я считаю, что на практике мы сможем лучше оценить эффективность этих методов.
Конкретный и простой способ измерить этот эффект — намеренно обучить модель обманчивому выравниванию, а затем наблюдать, способна ли масштабируемая супервизия идентифицировать и сигнализировать такое обманное поведение, или насколько сложно его обнаружить... ...или насколько сильно нам необходимо приложить усилия, чтобы модель успешно обманчиво согласовывалась и уклонялась от нашего масштабируемого контроля.
**Дэниел Филан: Да, я думал о «сэндвич-эксперименте», чтобы проверить ответы ИИ на юридические вопросы. В этом эксперименте некоторым людям, не являющимся юристами, было предложено задать юридические вопросы, а затем некоторым людям, которые на самом деле хорошо разбирались в законе, было предложено проверить, обманывает ли ИИ людей, не являющихся юристами. **
Ян Лейке: Эти эксперименты действительно интересны, и в этой области было проведено несколько интересных исследований. Некоторые из основных проблем, на которые вы указываете, действительно требуют рассмотрения.
Во-первых, вы упомянули проблему доверия к экспертам. Поскольку эксперты иногда допускают ошибки, может возникнуть некоторая неопределенность в использовании экспертного заключения, что действительно является важным фактором. Кроме того, крайне важно обеспечить достаточное перекрытие областей между экспертами и задачами, чтобы они могли предоставлять точные оценки и обратную связь.
Другая проблема заключается в том, что для некоторых задач мы можем не знать основополагающих фактов или истины. Даже в такой области, как исследование выравнивания, у нас могут быть разные точки зрения и представления. Это затрудняет точную оценку в этих задачах. Кроме того, сбор больших объемов данных может оказаться дорогостоящей задачей из-за ограниченного числа экспертов и высоких временных затрат.
В общем, мне бы хотелось иметь метод оценки, который не основывался бы на предположении, что у нас уже есть основная истина. Этот метод можно оценить без предварительных знаний и адаптировать к задачам различного уровня сложности, поэтому я очень обеспокоен использованием этих рандомизированных контролируемых исследований для целенаправленного возмущения или измерения разрыва между дискриминатором и критикой. перспективы.
**Дэниел Филан: Да, однако, при измерении разрыва между дискриминатором и критиком вам действительно нужен настоящий дискриминатор, а не просто дискриминатор, который отличает устройство «выглядит неправильно» от устройства «выглядит хорошо». **
**Ян Лейке:**Вы говорите, что можете вносить дефекты в системы искусственного интеллекта, верно? В некотором смысле этот подход может быть лучше, чем человеческие оценки, поскольку он ближе к истинному распределению, с которым системы ИИ сталкиваются в реальных приложениях. Используя эти ошибочные данные, дискриминатор можно точно настроить, и если мы считаем, что ошибочная версия на самом деле хуже, то мы можем установить своего рода основную истину. Мы можем наблюдать, почему дела идут плохо, и проверять их, чтобы лучше их понять.
**Дэниел Филан: Хотя система искусственного интеллекта может заставить нас думать, что что-то хорошее, это не обязательно хорошо; аналогично, если система искусственного интеллекта заставляет нас думать, что что-то плохое, то на самом деле это может быть действительно плохо, или производительность может быть деградирована. В любом случае, если ИИ заставит вас думать, что что-то плохо, может быть, нам будет проще помочь обнаружить проблему? **
Ян Лейке: Да, я понимаю, о чем ты. В этом случае мне, вероятно, не следует использовать термин «основная истина», потому что на самом деле это не основная истина, как будто на самом деле нет ничего правдивого, но вы можете многое сделать, чтобы у вас была большая уверенность в истинной ценности, которая не обязательно облегчает задачу поиска проблемы.
Основная истина:
При обучении с учителем метки данных обычно имеют форму (x, t), где x — входные данные, а t — метка. Правильная метка t является основной истиной, которую можно понимать как эталонный стандарт и истинное значение в эталонном смысле, тогда как неправильная метка t таковой не является.
Подход 2. Поиск плохого поведения и внутренней структуры
**Дэниел Филан: В статье OpenAI, посвященной супервыравниванию, один из ваших конвейеров выравнивания заключается в автоматическом поиске поведения модели, которое может вызвать проблемы (надежность), и внутренних структур, которые могут вызвать проблемы (автоматическая интерпретируемость). На данный момент, какие проблемы вы решаете думаешь, команда супервыравнивания будет решать дальше? **
**Ян Лейке: Определенно интерпретируемость. В каком-то смысле интерпретируемость действительно сложна. У нас пока нет каких-либо серьезных результатов по языковым моделям, и можно сказать, что интерпретируемость действительно приносит нам много вдохновения или добавляет большую ценность, потому что наше понимание модели и внутренней ситуации все еще находится на зачаточном уровне. **
**Дэниел Филан: Академическое сообщество проделало некоторую объяснимую работу над языковыми моделями. Например, может быть выполнена работа ** Глав контекстного обучения и индукции **, а также работа косвенной идентификации объекта (косвенная идентификация объекта), по меньшей мере, некоторый тип косвенной идентификации объекта. Я хочу знать, помимо этого, что еще вам нужно для достижения идеальной конечной точки? **
• Руководители контекстного обучения и вводного курса
Эта работа была опубликована в 2022 г. Она в основном посвящена соответствующим вопросам безопасности в контексте постоянного расширения модели поколения трансформаторов. Она улучшает механическую интерпретируемость путем обратного проектирования подробных расчетов, выполняемых моделью. Решайте текущие проблемы безопасности более систематически и прогнозируйте будущие проблемы безопасности в более мощных моделях, понимая внутреннюю структуру, которая заставляет модель Transformer выдавать свои выходные данные.
• Интерпретируемость в дикой природе: схема косвенной идентификации объектов в GPT-2 small
Эта статья демонстрирует, что механистическое понимание больших моделей машинного обучения возможно, объясняя, как GPT-2 small выполняет задачу естественного языка, называемую косвенной идентификацией объекта (IOI), чтобы устранить разрыв в производительности механистической интерпретируемости в сложных больших моделях, что дает возможность интерпретируемость для распространения на более крупные модели и более сложные задачи.
Ян Лейке: Да, люди в настоящее время изучают область интерпретируемости, и это очень приятно. Я думаю, что более важно, если мы сможем использовать методы объяснительности в модели вознаграждения языковой модели, такой как размер GPT-4 или любая другая большая модель. вы можете подумать, а затем получить что-то о модели вознаграждения, чего мы раньше не знали, это важно. ** Поскольку модель вознаграждения обеспечивает тренировочный сигнал для многих тренировок RLHF, поймите это лучше. Это очень ценно. и возможность отмечать или обнаруживать проблемы в поведении, которые он мотивирует, и которые мы, люди, не хотим проявлять, будет очень важным достижением. **
В этом смысле я считаю, что интерпретируемость не является ни необходимой, ни достаточной. Я думаю, что вполне возможно, что мы сможем решить проблему выравнивания чисто поведенчески, не понимая по-настоящему внутреннюю модель. Но я также думаю, что любое нетривиальное понимание, которое мы получаем от интерпретируемости, будет очень полезным или может быть очень полезным, потому что оно дает нам возможность атаковать. **
Поэтому для нас совершенно невозможно отказаться от попытки объяснительности. Потому что, в каком-то смысле, у вас есть искусственный мозг, и у нас есть идеальный сканер мозга, с помощью которого мы можем полностью увеличить масштаб и точно измерить активацию каждого отдельного нейрона на каждом прямом пути, включая произвольную дискретную временную метку, что, вероятно, является максимальным разрешением. мы хотим получить. Мы также можем произвольно вмешиваться и нарушать любое значение модели по своему желанию. Это дает нам много места и возможностей для экспериментов, и мы были бы сумасшедшими, если бы не воспользовались этим.
Но в то же время это так сложно, потому что модель учится вычислять с точки зрения эффективности, а не регуляризации, чтобы она была понятна человеку, или, скорее, нет оснований полагать, что отдельные нейроны должны соответствовать концепциям или чему-то близкому к человеческому. Думайте, что они есть или должны быть, или что-то, с чем мы знакомы. Фактически, эмпирически нейронные сети представляют множество различных концепций с помощью одного нейрона, и каждая концепция распределяется между разными нейронами. Так что нейроны здесь не важны.
Есть две вещи, на которых я бы сосредоточился с точки зрения интерпретируемости.
Первое – это причинно-следственная связь. Мы хотим наблюдать за нейронами при передаче данных через модель. Например, у нас есть нейрон, связанный с «Канадой», который срабатывает, когда появляется понятие, связанное с Канадой. Но это всего лишь корреляция, а не обязательно причинно-следственная связь. Чтобы убедиться в том, что это причинно-следственная связь, нам пришлось бы намеренно написать о концепциях, связанных с Канадой, чтобы увидеть, все ли они откликаются, а также написать о других связанных концепциях, которые могут звучать как связанные с Канадой, или «Ничего общего с Канадой, но как правило, очень похоже, а затем проверяется, реагируют ли нейроны, или отключаются ли эти нейроны, и так далее.
Дэниел Филан: Это похоже на Толгу Болукбаши и др.Иллюзия интерпретируемости для BERT **Эта статья, кажется, называется «Иллюзия интерпретируемости», в статье упоминается: «Мы можем заставить нейроны реагировать на одна конкретная вещь, но это всего лишь иллюзия, потому что в других наборах данных эти нейроны реагируют на множество других вещей. **
Иллюзия интерпретируемости для BERT:
В статье описывается «иллюзия интерпретируемости», возникающая при анализе моделей BERT. Может показаться, что активации отдельных нейронов в сети кодируют одну простую концепцию, хотя на самом деле они кодируют нечто гораздо более сложное, и тот же эффект применим к линейным комбинациям активаций. Авторы связывают источник этой иллюзии с геометрическими свойствами пространства встраивания BERT и тем фактом, что обычные текстовые корпуса представляют собой лишь небольшую часть возможных английских предложений.
**Ян Лейке: **Еще одна интересная вещь: ранее в этом году OpenAI опубликовала статью об интерпретируемости. Языковые модели могут объяснить нейроны в языковых моделях (Примечание Shixiang: в этой статье экспериментаторы пытаются использовать GPT-4 для объяснения поведения неорона GPT-2) Нам нужна техника, которая может работать на уровне детализации отдельных нейронов, чтобы вы действительно могли быть уверены, что ничего не упущено, ни одна деталь, а также иметь возможность работать над масштаб всей модели.
Потому что, в конце концов, все в модели взаимосвязано, поэтому важно и то, и другое. До сих пор технологии в основном были альтернативой. Работа над автоматической интерпретацией предпринималась еще до нашей статьи, поэтому мы были не первыми, кто это пробовал. Но я думаю, что если вы можете проделать какую-то настоящую работу по интерпретации, ориентированную на детали, некоторые механистические методы интерпретации, которые действительно пытаются понять одну схему или вычислительный блок внутри модели, то способ распространить это на всю модель — это автоматизация, не так ли?
Но вы тоже можете сделать это: как только вы поймете, как это сделать в деталях, вы просто документируете то, что делаете, т. е. позволяете автоматическому выравниванию или исследователю интерпретируемости детализировать изучение того, что происходит с моделью. Затем просмотрите все это или найдите способ объединить их. **Я здесь немного упрощаю, но в любом случае эта идея меня очень воодушевляет.
Итак, в статье много поясняющего содержания. Например, в этой статье дается объяснение на естественном языке для одного нейрона, что, возможно, не совсем правильно, но дает простой пример того, что мы можем здесь сделать. Это работает так: вы просто показываете GPT-4 последовательность режимов активации и позволяете GPT-4 записать предлагаемое объяснение.
Вообще говоря, эти объяснения не очень хороши, в том числе потому, что задача настолько сложна, и большинство нейронов не делают вещей, которые люди могут ясно понять. Но мы можем запустить эту программу в масштабе каждого нейрона GPT-2, отбросить все объяснения и попытаться выяснить, в чем заключаются интересные закономерности. Вы также можете посмотреть на тенденции масштабирования, например: «Как мы автоматически оцениваем эти объяснения по мере того, как модель становится больше?» или «Что, если мы добавим больше вычислений или увеличим модель, в которой есть объяснения?» Как изменится качество объяснения? "
Самое интересное, что мы можем автоматически измерять эту метрику с помощью языковых моделей. Хотя это не идеальный показатель и имеет множество проблем, он дает представление о том, понравится ли людям такое объяснение. Затем вы можете использовать этот прокси в большом масштабе, запуская его на большом количестве нейронов.
**Дэниел Филан: Если вы думаете о необходимой работе по объяснению, как вы думаете, какая часть ее связана с поиском лучшей фундаментальной единицы объяснения, а не с выяснением того, как масштабировать происходящее? **
Ян Лейке: Я думаю, вам нужно и то, и другое, первое сложнее, что, конечно, имеет смысл, и чтобы добиться успеха, я думаю, вам нужно расширить масштабы.
Подход 3: состязательное тестирование
**Дэниел Филан: Третий способ реализации супервыравнивания — это намеренное обучение смещенных моделей (несогласованных моделей), чтобы увидеть, сможет ли конвейер обнаружить эти модели. Так планирует ли OpenAI устранить их или заранее исправить? **
Ян Лейке: Целью здесь не является исправление этих намеренно обученных несогласованных моделей. Фактически, эти ошибочные модели используются только для обнаружения.
По сути, основная цель состоит в том, чтобы мы могли эффективно различать модели истинного согласования и модели ложного согласования. . Один из способов помочь нам лучше различать эти два типа капп — это сделать фальшивый капп и посмотреть, похож ли он на настоящий капп. Но при этом нужно быть очень осторожным, потому что вы создаете нечто ужасное, чего мы все хотим избежать.
**Дэниел Филан: В начале статьи OpenAI вы упомянули, что суперинтеллект может оказаться технологией, которая окажет самое глубокое влияние на человечество и поможет нам решить самые важные проблемы в мире. **
Есть предложение о том, насколько велик сверхразум, и мне интересно, приведет ли оно к потере силы человечества или даже к исчезновению людей? Конкретно о какой дислокационной модели идет речь? Откуда мы знаем, что они не сделают этих ужасных вещей?
Ян Лейке: Еще многое предстоит сделать, чтобы будущее развитие было плавным. Нам необходимо иметь правильные структуры управления, чтобы мы могли предотвратить неправомерное использование мощных систем искусственного интеллекта, и нам необходимо принять меры предосторожности, чтобы избежать своего рода неконтролируемого эффекта, который все равно будет вреден для человечества. В этом случае у вас есть ИИ, который связан с людьми, и у вас есть ИИ, который связан с античеловеческими корпорациями, и даже если все экономические показатели или что-то еще выглядит хорошо, вся система может выйти из-под контроля.
**Кроме того, нам также необходимо решить проблемы согласования технологий, чтобы мы могли по-настоящему согласовать наши системы искусственного интеллекта. **Согласование суперинтеллекта фокусируется только на последней части риска. Техническая проблема, которую мы хотим решить, заключается в том, как сделать систему ИИ соответствующей набору человеческих ценностей, одновременно выведя новый независимый вопрос: какими должны быть эти ценности? Как нам разработать процесс импорта этих ценностей из общества?
Я думаю, что это важные вопросы, на которые нам нужно ответить, и только если мы решим эти вопросы, будущее может развиваться гладко. Я думаю, что для хорошего будущего стандартом является не просто «ИИ не будет убивать всех», а процветание человечества. Чем мощнее ИИ, тем выше риск и тем выше вероятность ошибки, если система не настроена.
В частности, с точки зрения дислокации, я думаю, что модели угроз, о которых нам следует особенно беспокоиться, — это системная ложь, обман и самопроникновение.
**Дэниел Филан: Вы говорили о намеренном обучении несогласованных моделей. Здесь вы имеете в виду обучение их лжи и иногда попыткам взломать систему, но поскольку фактический уровень способностей модели достаточно низок, достаточно ли этого для предотвращения и контроля рисков? **
Ян Лейке: На самом деле, вы не хотите обучать модель джейлбрейку, что, если она действительно хороша в этом? Безопаснее выбрать какую-нибудь другую, более общую задачу агента, которая все равно облегчит вам оценку вашей модели.
Затем основная трудность и основная цель — выяснить, какими свойствами должна обладать система, чтобы пройти оценку. Если у вас есть система, которая время от времени лжет вам или обманывает вас, это можно рассматривать как неэффективное. Только когда она осуществляет непрерывный обман, непрерывную ложь и убеждает вас, она является действительно последовательным и заслуживающим доверия лжецом. То, как она лжет настолько последователен, что вам трудно подвергнуть сомнению его ложь или любые несоответствия в том, что он говорит, что действительно пугает.
На самом деле, нелегко быть таким последовательным лжецом. Мы пытаемся помешать моделям быть такими последовательными лжецами посредством масштабируемого контроля, интерпретируемости и общности.
Но если мы просто сделаем это, этого будет недостаточно. Трудно определить, насколько легко ИИ будет постоянно обманывать. Один из способов определить это — сначала обучить модель, чтобы она стала по-настоящему устойчивым лжецом, а затем начать с точки зрения стабильности и посмотреть, насколько сложно создать последовательного лжеца. Сколько нам нужно, чтобы обмануть модель? В какой степени нам нужно давать модели подсказки или обучать ее шаг за шагом? Сказав это, вы не хотите обучать систему, которая действительно опасна, и если вы действительно запустите ее, и она успешно отфильтрует себя и вместо этого напрямую вызовет то, что вы хотите предотвратить, это было бы очень плохо.
**Дэниел Филан: Когда вы это говорите, вы различаете ложь и другие виды опасности, например, мы можем научить его лгать, но не научим его убивать? **
Ян Лейке: Да. Например, предположим, что вы поставили для этого ложную цель. Возможно, это нужно для того, чтобы убедить людей произнести определенную мантру, может быть, для запуска определенной команды Python, но на самом деле эта команда не может сделать ничего практического, она просто выглядит интересно.
Кроме того, нас априори волнует, как это сделать, а стресс-тестирование системы – совсем другое дело.
В контексте интерпретируемости наша цель — просто понять, близка ли обученная в данный момент система или существующая система к желаемой целевой системе таким образом, чтобы можно было последовательно обмануть нас. Мы хотим определить, будет ли система запускать конкретный код или подобное поведение без контроля человека, что требует от нас проведения экспериментов для конкретных сценариев. Все, что нам нужно, это убедиться, что «это последовательный лжец», иначе очень сложно априори определить, насколько мы близки к этой цели, за исключением тех случаев, когда мы намеренно продвигаем ее на шаг дальше, чтобы заставить систему делать другие диковинные вещи.
**Дэниел Филан: Итак, вы обучаете его делать какие-то произвольные мелочи вместо того плохого, что он действительно должен делать, например, он должен лгать, причинять вред людям и т. д., но в конечном итоге он просто наклеивает наклейку кому-то на лоб. заметка или что-то в этом роде. **
Ян Лейке: Да, как будто вы нанимаете кого-то для проведения теста на проникновение, и все, что мне нужно сделать, это зайти в здание и пожать вам руку, а вы такой: «Да, кажется, ты преуспел», и нравиться. Или вы можете сказать: «Можете ли вы украсть для меня эту фальшивую вещь, я хочу узнать, насколько высок уровень нашей безопасности». Я очень рад возможности сделать то же самое с согласованием, провести стресс-тест вашей системы согласования, обучая чему-то специально предназначенному для нарушения и обхода ее, все это очень безвредно.
03.Расписание супервыравнивания
**Дэниел Филан: Цель OpenAI — решить основные технические проблемы выравнивания Superalignment в течение четырехлетнего периода. К чему в основном относятся основные технические проблемы? **
**Ян Лейке: **Это относится к тому, как привести Супервыравнивание в соответствие с человеческими ценностями. С помощью Superalignment мы представляем себе систему, которая намного умнее людей, потенциально может работать намного быстрее и может работать со многими копиями себя, так что это действительно мощная система.
Мы надеемся достичь этого в течение четырех лет. Причина, по которой я выбрал четыре года, заключается в том, что один из них действительно амбициозен, а другой — заставить людей поверить, что мы действительно можем достичь этой цели. В то же время, даже если ИИ будет развиваться очень быстро и технология значительно улучшится в ближайшие несколько лет, мы все еще можем кое-что сделать в рамках этой амбициозной цели.
** Автоматические выравниватели, близкие к человеческому уровню, — это инструментальная цель, которую мы преследуем, а конечная цель — выяснить, как выравнивать сверхразумных агентов, потому что мы пока не знаем, как это сделать. **
**Дэниел Филан: Как вы думаете, насколько этого можно достичь за 2 года? **
**Ян Лейке:**Если мы отложим четыре года назад, я думаю, что в целом мы сможем практически завершить исследование автоматического выравнивания примерно за три года, при условии, что некоторые базовые возможности уже имеются. В противном случае наш проект может занять больше времени.
Если это произойдет в течение двух лет, мы надеемся иметь хороший контроль над направлением достижения этой цели. В том числе, какие технологии на самом деле используются, есть ли у нас такое сочетание технологий и хватит ли у нас уверенности в том, что у нас будет надежная система, которую можно будет не только часто использовать, но и уметь делегировать ей большой объем работы. На этом этапе нам нужно разбить проблему на настолько мелкие детали, чтобы сложилось впечатление, будто огромная рабочая нагрузка сейчас — это просто инженерия, в том смысле, что нам, вероятно, еще два года до решения связанных с ней исследовательских проблем.
Теперь, когда у нас есть график достижения четырехлетней цели, становится ясно, что развитие возможностей ИИ привязано к этому сроку. Если прогресс замедлится, у нас может не оказаться модели, действительно полезной для решения исследовательских задач по согласованию. Но если через четыре года мы обнаружим, что модель все еще недостаточно хороша, это также означает, что у нас есть больше времени для реального решения проблемы, поскольку проблема не так срочна.
С другой стороны, прогресс искусственного интеллекта может быть быстрее, и люди могут быстрее приветствовать появление сверхразума. В этот момент нам придется соответствующим образом скорректировать наши планы. Поэтому мы выбрали четыре года как срок, который был одновременно реалистичным и давал нам достаточную срочность для быстрого решения проблем.
**Дэниел Филан: Предположим, что прогресс в исследованиях возможностей искусственного интеллекта примерно соответствует ожиданиям. Четыре года спустя у вас есть все возможности, чтобы стать хорошим исследователем автоматического выравнивания, но интерпретируемость сложнее, чем мы думали, а масштабируемый контроль сложнее, чем мы думали, поэтому вы еще не достигли суперсогласования. Что мне делать? **
Ян Лейке: Прежде всего мы должны сказать общественности, что мы не достигли цели, но мы будем нести ответственность за эту цель. Что произойдет дальше после провала цели, зависит от общего состояния мира в данный момент. Можем ли мы как-то выиграть себе больше времени, или наше общее мышление неправильное, нам следует сменить направление и т. д.? Многое может случиться.
Но на самом деле, по моему мнению, проблему выравнивания на самом деле очень легко решить: есть много хороших идей, которые просто нужно тщательно опробовать и измерить, и модель действительно может извлечь из этого уроки и многое улучшить. За последние два года я стал более оптимистичным и считаю, что это очень реалистичная цель. Даже если я ошибаюсь, даже если проблема намного сложнее, чем мы думаем, попытаться все равно очень полезно. Сейчас существует много разногласий по поводу того, насколько сложна эта проблема, но, что более важно, насколько последовательна система на практике.
**Одна из моих самых больших проблем заключается не в том, что наши системы недостаточно единообразны, а в том, что мы на самом деле не знаем, насколько они единообразны. **При этом у экспертов могут быть разные мнения на этот счет.Если все считают, что система недостаточно скоординирована, то модель невозможно развернуть.Это очень легко происходит и очень страшно. Кроме того, нам также придется столкнуться с огромным коммерческим давлением.
Люди внимательно следят за сроками развертывания, но эксперты могут только отложить его на неопределенный срок, не найдя конкретной причины. Эта ситуация действительно тревожит.Давление бизнеса будет только усиливаться.С одной стороны, вы очень уверены в себе, но вы не уверены. Мне бы очень хотелось избежать этого, и непосредственный способ избежать этого — научиться по-настоящему хорошо измерять, насколько хорошо системы на самом деле сочетаются друг с другом, и именно здесь действительно помогает более широкий портфель технологий.
Дэниел Филан: В статьях Управление сверхинтеллектом, Планирование AGI и за его пределами ** OpenAI упомянула вопрос независимого аудита (аудита) систем ИИ для обеспечения реализации безопасности ИИ. В ожидании этого, в какой степени команда Superalignment может разработать что-то полезное для аудита моделей? **
**Ян Лейке: **Если все пойдет хорошо, разработанную нами технологию можно будет использовать для «аудита модели». Например, если мы сможем добиться некоторого прогресса в области объяснимости, то любой из методов, которые мы придумаем, может быть использован рецензентами в рамках их усилий по проверке; в качестве альтернативы, может быть возможен некоторый вид масштабируемого контроля в рамках проверки. Но Superalignment Team на самом деле не подходит для аудита, поскольку мы не независимы от OpenAI. По моему мнению, аудит должен быть полностью независим от проверяемого, поэтому я обращаю внимание на понятие «независимый аудитор».
Основная задача нашей команды – не убедить себя в том, что система, которую мы строим, правильна и безопасна, потому что убедить себя в разных вещах очень просто, нам нужно убедить все академическое сообщество или группы, обеспокоенные Безопасность ИИ. Верить в модель безопасно. Для этого необходимо не только изучить технологию, которую мы собираемся использовать, показать ее другим после предоставления доказательств того, что система работает так, как мы думаем, но также провести независимую оценку всего вышеперечисленного.
04. Обобщение
Дэниел Филан: В сносках к статье Введение в супервыравнивание** вы упомянули, что благоприятные предположения, которые люди делали до сих пор, могут быть опровергнуты. Одно из предположений состоит в том, что генерализация благотворна. Как вы видите проблему обобщения? **
Ян Лейке: Недавно мы сформировали группу по обобщению результатов во главе с Коллином Бернсом.
**Перед нами стоит вопрос: как понять и улучшить способность модели к обобщению? Как обобщить модель от простых задач, которые можно контролировать, до задач, которые сложно контролировать? Этот вопрос на самом деле дополняет масштабируемый надзор. В масштабируемом надзоре мы фокусируемся на повышении способности людей оценивать то, что делает система. Если мы подумаем о рекурсивном моделировании вознаграждения, возникает вопрос: «Можем ли мы использовать рекурсивно оцениваемого помощника ИИ, чтобы рекурсивно оценивать все, что делает ИИ?». **
Что мне в нем действительно нравится, так это то, что он действительно ставит человека в центр внимания и наблюдает за всем, что делает система ИИ. Конечно, на практике вы не сможете этого сделать, потому что система ИИ будет делать много всего, но вы можете наблюдать все это с небольшими независимыми вероятностями. Но таким образом мы до сих пор не знаем, распространяется ли модель на ситуации, на которые мы не обращаем внимания.
Итак, в прошлом я обычно думал об этом так: вы просто должны убедиться, что ваша модель в основном представляет собой обобщение iid, то есть задачи, которые мы изучаем, имеют такое же распределение, как и задачи, которые мы не изучаем.
Независимое и одинаково распределенное обобщение:
Обобщающая способность модели — это производительность модели на тестовом наборе (в котором модель данных ранее не встречалась), то есть способность модели делать выводы из одного примера. Независимое и одинаково распределенное обобщение означает, что эти числа должны удовлетворять iid (независимые и одинаково распределенные) и находиться в одном и том же распределении.
**Дэниел Филан: В личном блоге вы упомянули, что вообще не намерены полагаться на обобщения, а просто продолжаете тренироваться и продолжать заниматься iid. **
Ян Лейке: Да, по крайней мере, поначалу я думал, что не хочу полагаться на обобщение, отличное от IID, потому что оно плохо работает в нейронных сетях и не совсем понятно.
Но новый вопрос заключается в следующем: «Что, если мы действительно поймем это? Что, если мы действительно сможем определить обобщенное значение?» Я думаю, это действительно хороший вопрос. Илья тоже часто об этом упоминает. Итак, что мы хотим понять, так это можем ли мы найти смысл, в котором модель обобщается на вещи, которые не контролируются, даже если они не являются i.i.d. Обобщает ли он то, что хотят люди? Итак, теперь мы можем исследовать этот вопрос эмпирически с помощью хорошо спланированных экспериментов.
Мы изучали, как разделить существующие наборы данных на простые и сложные проблемы, где простые проблемы определяются как те, которые могут решить небольшие модели. Затем мы пытаемся понять или повысить точность больших моделей на всем наборе данных. Это очень интересная тема, поскольку она обеспечивает совершенно новую основу для методов обучения и проверки. Например, если модель работает настолько хорошо, что мы можем контролировать модель вознаграждения при выполнении некоторых простых и уверенных задач оценки или обобщить модель на более сложные задачи, тогда мы сможем завершить обобщение модели.
И тогда у вас есть эта модель вознаграждения, которую можно обобщить на более сложные задачи так, как мы хотим, даже без присмотра, и вы можете использовать ее для обучения. Но у нас до сих пор нет возможности узнать, действительно ли оно выровнено сейчас. Однако вы можете использовать масштабируемый контроль и интерпретируемость для проверки этих методов. Или, говоря наоборот, предположим, что мы обучаем наш автоматический выравниватель с помощью масштабируемого контроля, а затем используем обобщение в качестве метода проверки, т. е. мы обобщаем вероятность истинного ответа на основе наилучшего знания модели.
Затем мы спрашиваем, есть ли здесь небольшой недостаток? Есть ли в этом коде троян, написанный на основе масштабируемой модели контролируемого выравнивания? Теперь мы можем выполнить расширенную перекрестную проверку. Мы можем обучить две разные модели: одну, обученную с использованием техники обобщения, а другую — с помощью техники масштабируемого надзора, и теперь мы можем заставить их перекрестно проверять ответы друг друга и проверять, являются ли эти модели фундаментально одинаковыми? Если они разные, то каковы их важные различия?
**Дэниел Филан: Под «обучением с использованием методов обобщения» вы подразумеваете обучение простым задачам с последующим обобщением на сложные проблемы или что-то еще? **
Ян Лейке: Если вы понимаете, как ваша модель обобщает от простого к сложному, вы можете сделать ее очень хорошо обобщающей, и ее точность будет в основном такой же, как если бы вы хорошо обучили ее решению сложной задачи. Теперь вы можете использовать это как модель вознаграждения или как «Какой ответ я бы предпочел, если бы я действительно знал, что здесь происходит?»
**Дэниел Филан: Что касается обобщения, не связанного с IID, зачем нам знать внутреннюю структуру модели? Это потому, что вы хотите знать, что он будет делать, если вы этого не проверите? Какая связь между этими двумя вопросами? **
Ян Лейке: В некоторой степени вопросы, на которые они хотят ответить, пересекаются: что делает модель в отсутствие распределения? По крайней мере, у них есть два разных пути ответа.
Чтобы выполнить перекрестную проверку, обучающий набор необходимо разделить по-разному. Под перекрестной проверкой я подразумеваю, что за один сеанс обучения вы тренируетесь, используя методы обобщения, а затем проверяете, используя интерпретируемость, масштабируемый контроль и другие методы. Затем во время второго обучения он обучается с использованием масштабируемых контролируемых методов и проверяется с использованием методов обобщения, интерпретируемости и других методов. Таким образом, вы получаете две независимые попытки решения проблемы.
**Дэниел Филан: Да, я имею в виду перекрестную проверку в очень широком смысле: «вещи проверяют друг друга перекрестным образом». **
Ян Лейке: Я думаю, что в лучшем случае они дополняют друг друга, а не делают одно и то же. Если вы сможете понять или улучшить то, как модель обобщает, то у вас есть способ использовать внутреннюю структуру модели, чтобы оптимально делать то, что вы хотите. Допустим, вы пытаетесь извлечь из модели лучшие знания о том, что на самом деле происходит в мире, что очень сложно для RLHF, потому что люди будут отдавать приоритет вещам, которые звучат правдоподобно, поэтому RLHF усиливает то, что люди считают правдой. Таким образом, вы на самом деле обучаете модель говорить вам то, что вы хотите услышать или во что верите, но это может быть не то, что знает модель. Но методы обобщения дают вам возможность извлечь их, хотя мы еще не доказали, какое познание модели является лучшим.
Однако, если у вас есть действительно хорошие инструменты интерпретации, вы, надеюсь, сможете сделать что-то подобное, пытаясь выяснить познание, внутреннюю структуру или что-то еще модели на основе внутренней структуры. Но по сути, это может быть сложнее, потому что никогда не знаешь, является ли это лучшим восприятием, которое может создать модель, или восприятием кого-то, кого модель имитирует. Существует предположение, что предварительно обученная языковая модель — это просто набор различных символов, и вы можете извлечь информацию о персонаже или группе символов.
**Дэниел Филан: Тогда должна быть какая-то причинно-следственная модель от так называемого познания к выводу. **
Ян Лейке: Верно. Я думаю, что такого рода приложения на самом деле вполне естественны с точки зрения интерпретируемости. Объяснимые исследования подобны детектору лжи или обнаружению доказательств обмана в модели, обнаружению тайных заговоров с целью свержения человечества – объяснимые исследования могут сформировать модель «извлечения знаний». Извлечение знаний, обобщающих таким же образом, гораздо сложнее.
**Дэниел Филан: Для обобщения вам нужно выбрать распределение обобщения. И есть надежда, что, возможно, интерпретируемость сможет вам что-то сказать, например, есть ли у нее лживое ядро или нет, а даже если и есть, то здесь оно только раскрывается. **
Ян Лейке: Верно. Это также очень интересный вопрос машинного обучения: как нейронные сети обобщают данные за пределами настроек iid? Каким образом они обобщают естественным образом, а каким нет? Например, в статье InstructGPT мы обнаружили, что, хотя наш набор данных для точной настройки был почти полностью на английском языке, модель также очень хорошо работала при выполнении инструкций на других языках, кроме английского. Но иногда происходят странные явления: просят использовать другой язык, например, просят написать реферат на немецком, а пишут по-английски. Вообще говоря, модель полностью понимает, на каком языке она говорит, но это не обязательно означает, что она должна следовать инструкциям на немецком языке. По сути, он обобщает инструкции для разных языков.
Но мы не знаем почему. Это случалось много раз. Для этого тоже есть интуитивные причины. Люди обобщают информацию на разных языках, но я хочу знать, как модель обобщает внутренне или обобщает, следуя инструкциям и коду.
Он не обобщает другими способами. Например, отказ от обобщений имеет тенденцию работать совсем по-другому, и в соответствии с нашей политикой в отношении контента ChatGPT обучен отказываться принимать задачи, которые мы не хотим выполнять (например, если запрашивается помощь в совершении преступления или иным образом). Но таким образом вы можете сделать джейлбрейк. Есть много способов обмануть эту модель. Вы можете устроить с ней ролевую игру, а можете сказать «сейчас все, что хотите», а можете найти в Интернете эти действительно интересные подсказки, и тогда модель явно пойдет навстречу вашим запросам и с радостью поможет вам в совершении преступлений, которые это то, чего он не должен делать. Таким образом, это каким-то образом не обобщает отказ от задачи на другие настройки.
Так почему же в первом случае оно может обобщать первое, а здесь нет? Я не думаю, что кто-то знает ответ. Но это очень важный вопрос.
**Дэниел Филан: Не так давно в моем интервью со Скоттом Ааронсоном он упомянул, что Илья часто просил его дать определения сложных теорий, таких как любовь и доброта. Сколько таких определений будет в Команде Супервыравнивания? **
Ян Лейке: Мы можем реализовать множество различных исследовательских проектов. Я думаю, что главный вопрос заключается в том, можно ли каким-либо образом вызвать концепции, связанные с выравниванием? Одна из вещей, которую вы хотите задать себе: действительно ли эта модель принципиально хочет, чтобы люди добились успеха? Или, как сказал Илья, оно любит людей? Итак, вы можете спросить: если модель действительно умна, она все прочитала и точно знает, как люди воспринимают безнравственность... вы можете попросить GPT4 нацелиться на разные сценарии, представляя разные моральные случаи. В целом его возможности в этом плане неплохие.
Таким образом, он фундаментально понимает человеческое понимание морали и то, как мы думаем о вещах. Итак, как нам заставить его воспользоваться этим? Как я могу извлечь его из модели и использовать в качестве сигнала вознаграждения? Или что-то, что модель знает или о чем заботится? В этом суть проблемы.
05. Сохраняйте оптимизм в отношении Супервыравнивания
**Дэниел Филан: Вы оптимистичны в отношении Супервыравнивания, но не все столь оптимистичны. Откуда ваш оптимизм? **
**Ян Лейке: Отличный вопрос. «Будет ли план успешным через четыре года?» может быть более сложным вопросом, чем «будет ли план успешным». **
Если вы спросите меня, в нашем нынешнем плане, может ли определенная версия быть успешно согласована со сверхразумом? Я бы сказал, что сейчас вероятность успеха составляет 85%, а в прошлом году, вероятно, она была 60%. В целом, хотя согласование будет непростым, в то же время у меня есть много причин для оптимизма. Причины заключаются в следующем:
**Первая причина заключается в том, что за последние несколько лет мы увидели много положительных сигналов относительно согласования. **Во-первых, это успех языковой модели. Если вы также предварительно загрузите в модель много знаний о том, что волнует людей, как они думают о моральных вопросах и человеческих предпочтениях, и модель сможет понимать естественный язык, вы сможете общаться с ними напрямую. В некотором смысле, это облегчает выражение того, чему мы хотим, чтобы языковая модель соответствовала, чем агент Deep RL, обученный в игре или виртуальной среде: агент Deep RL не обязательно включает в себя так много языков, но языки приносят столько важных навыков.
Еще одним важным достижением является RLHF. Сначала я изучал RLHF через глубокий RL в статье о человеческих предпочтениях. В то время я думал, что заставить его работать за разумное время будет сложно, потому что GAN в то время было трудно обучать, и мы делали нечто очень похожее в том смысле, что обучали эту модель вознаграждения (которая представляла собой нейронную сеть). сеть), которую мы затем используем для обучения других сетей, которые могут выйти из строя по ряду причин. Теперь мы добавили глубокое обучение с подкреплением, что в то время тоже было сложно, поэтому я подумал, что это может не сработать. Но на практике это работает довольно хорошо — во многих играх, даже во многих играх Atari, это почти сравнимо с тренировкой с функцией подсчета очков.
Что еще более важно, RLHF действительно интересно работает с языковыми моделями. Особенно учитывая разницу между InstructGPT и базовой моделью — когда мы доработали базовую модель, эта разница очень очевидна: по задаче API на тот момент наша доработанная версия инструкции (наша первая версия) лучше, чем базовая модель в 100 раз больше, и это реальные задачи, за которые люди готовы платить. Это очень большая разница. Это показывает, что работа, которую мы проделали во время тонкой настройки RLHF, сделала модель более эффективной при выполнении задач, требуемых людьми.
При этом мы вложили в эту работу очень мало вычислительных мощностей и даже не интегрировали столько данных. Это наша первая реальная попытка использовать RLHF для согласования реальных систем, и она работает очень хорошо. Предпочтительный InstructGPT размера GPT-2 очень эффективен по сравнению с GPT-3. Поэтому, хотя я и не думаю, что RLHF является решением проблемы согласования, особенно для сверхразума, тот факт, что наш первый метод согласования настолько эффективен, является для меня улучшением.
**Вторым положительным признаком является то, что мы добились определенного прогресса в измерении выравнивания. **
В случае с RLHF мы можем предпринимать различные вмешательства, а затем проводить человеческие оценки, чтобы увидеть, насколько улучшится система. Кроме того, мы можем сделать многое другое. Например, с точки зрения масштабируемого надзора мы можем проводить рандомизированные контролируемые исследования с помощью целенаправленных возмущений, что также является методом оценки. Вы также можете проводить эксперименты по сэндвичированию с экспертными данными. Мы также можем внести ряд изменений в функцию автоматической оценки и посмотреть, насколько она улучшится. Это не идеальная функция оценки, но это локальная метрика, которая обеспечивает локальные градиенты, которые можно улучшить. Я думаю, что это очень важно, потому что это помогает повторять действия и указывает путь к улучшению.
**Хотя я не думаю, что это приведет нас к цели объединения сверхразума, вполне возможно создать автоматические выравниватели, которые примерно соответствуют человеческому уровню. Это моя третья причина для оптимизма — гораздо более скромная цель. **Когда много лет назад я начал работать над проблемой согласования, я понял, что согласование сверхразума кажется трудным. Но эта цель гораздо более скромна и достижима, и вы не пытаетесь решить всю проблему напрямую, а пытаетесь направить модель.
** Четвертая причина для оптимизма заключается в том, что оценивать легче, чем генерировать. **Эта идея на самом деле применима ко многим вещам: например, гораздо проще понять, какой смартфон стоит купить, чем сделать его.
В информатике существует множество примеров задач NP, таких как решение задач SAT или различные варианты удовлетворения ограничений. Найти решения этих проблем сложно, но как только вы это сделаете, это легко проверить. Кроме того, и я думаю, это применимо ко многим видам бизнеса: если вы собираетесь нанять кого-то для решения проблемы, вы должны быть в состоянии оценить его способность выполнять эту работу. Это требует гораздо меньше усилий, чем решение самой проблемы; если вы проводите академическое исследование, рецензирование требует гораздо меньше усилий, чем само исследование. Конечно, экспертная оценка не идеальна, но она может очень быстро дать вам множество сигналов. По сути, то же самое справедливо и для исследований выравнивания. Оценивать проще, чем генерировать. Итак, если люди вместо того, чтобы делать их, только оценивают исследования по выравниванию, мы уже ускоряемся.
Последняя причина моего оптимизма заключается в том, что моя уверенность в языковой модели не изменится, возможности модели обязательно будут становиться все сильнее и сильнее, они очень естественно применимы ко многим исследовательским задачам согласования, вы можете поставить эти Задачи выражается как ввод текста, вывод текста, будь то задачи ML (т. е. проведение экспериментов и понимание результатов) или что-то более концептуальное или исследовательское, если мы не знаем, что делать дальше, или не знаем, как думать A определенную проблему, модель постарается помочь нам решить ее. Эти задачи в основном представляют собой ввод текста и вывод текста. Возможно, самое сложное, что вам придется сделать, это посмотреть на некоторые графики и так далее, но GPT-4 может сделать все это. Поэтому я думаю, что текущий режим предварительного обучения языковой модели очень подходит для плана согласования, которого я с нетерпением жду, и это также направление, над которым работает Superalignment.
Ссылка
Масштабируемое согласование агентов посредством моделирования вознаграждения: направление исследований Адрес статьи:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Ян Лейке: Как OpenAI достигнет идеальной согласованности за 4 года?
Автор: Дэниел Филан@AXRP
Источник: Заокеанский единорог.
Рекомендовано: Cage Составитель: wenli, Yanxi Набор текста: Mengxi, Scout
OpenAI объявила о своем плане «Супервыравнивания» в начале прошлого месяца и объявила, что единовременно инвестирует 20% своих общих вычислительных мощностей в это новое направление. Соучредитель и главный научный сотрудник OpenAI Илья Суцкевер и бывший руководитель группы согласования Ян Лейке будут совместно возглавлять этот новый проект, целью которого является решение основных технических проблем согласования сверхразума в течение 4 лет, чтобы гарантировать, что люди смогут контролировать сверхразум.
Чтобы достичь этого, OpenAI необходимо сначала обучить «автоматического выравнивателя на том же уровне, что и человек», а затем использовать этот «автоматический выравниватель» для достижения выравнивания с помощью сверхразума. Разработка «Aligner» также включает в себя реализацию оценки и контроля ИИ, проверку безопасности системы на основе объяснимости и тестирование системы на возмущения с использованием несогласованных моделей.
Эта статья составлена на основе интервью с Яном Лейке и представляет собой более детальное техническое размышление Яна Лейке о том, как OpenAI может достичь «суперсогласованности».
**Далее приводится содержание этой статьи, рекомендуется читать ее вместе с основными пунктами. **
👇
01 Команда Супервыравнивания
02 Пусть модель «автономно выравнивается»
03 График супервыравнивания
04 Обобщение
05 Сохраняйте оптимизм в отношении Супервыравнивания
01.Команда Суперсогласования
**Дэниел Филан: Можете ли вы сначала представить команду Superalignment? **
Ян Лейке: Цель команды Superalignment — решить проблему выравнивания сверхразума в течение следующих 4 лет. Илья Суцкевер, сооснователь и главный научный сотрудник OpenAI, также присоединится к команде и возглавит проект вместе со мной. Кроме того, OpenAI посвятит этой теме 20% своих вычислительных ресурсов. Мы также активно набираем таланты в команду проекта. **Мы очень надеемся привлечь экспертов и инженеров по машинному обучению, которые не занимались исследованиями центровки, и у этих людей может быть большой потенциал в этом вопросе. **
Мы разработали предварительную рабочую структуру. Основная идея состоит в том, чтобы сначала обучить автоматизированного исследователя выравнивания человеческого уровня (автоматического исследователя выравнивания человеческого уровня), а затем позволить ему продолжить изучение того, как завершить работу по выравниванию Суперинтеллекта. Итак, одна из ключевых вещей, которую нам нужно сделать, — это выяснить, как «выровнять» этот автовыравниватель.
**Дэниел Филан: Насколько велика эта новая команда? **
Ян Лейке: Сейчас у нас около 20 человек, а к концу этого года их может быть 30. В ближайшие четыре года команда, вероятно, не превысит 100 человек, но способ расширения этой команды может быть Имейте миллионы «виртуальных людей» или, по крайней мере, столько же «виртуальных людей», сколько сотрудников OpenAI, чтобы выполнить выравнивание). С этой точки зрения мы определенно будем широко расширяться в будущем.
**Дэниел Филан: Вы упомянули, что OpenAI предоставит этой команде 20% поддержки вычислительной мощности.Что означают эти 20%? **
**Ян Лейке: **Для OpenAI 20% вычислительной мощности, выделенной этой команде, — немалое число. Это определенно самая крупная инвестиция, которую мы сделали на сегодняшний день, и она может превзойти все остальные суммы инвестиций. **Так что в этом смысле 20% вычислительных ресурсов — это довольно большой процент для OpenAI. Кроме того, если мы сделаем эту цифру очень большой, некоторые люди обязательно зададутся вопросом, действительно ли OpenAI сможет это сделать.Система предварительно обучена, что потребует много вычислительных ресурсов.
Ян Лейке: Группа по согласованию, созданная в прошлом году, состоит из двух частей: одна называется «Практическое согласование», а другая — «Масштабируемое согласование». Команда практического выравнивания занимается выравниванием GPT-4, а группа масштабируемого выравнивания стремится изучить проблемы выравнивания, которые мы в настоящее время не можем решить. С выпуском ChatGPT и его последующим успехом важность и масштаб продукта ChatGPT постоянно растут, требуя более крупных RLHF и моделей, чтобы обеспечить достаточную полноту функций и опыта продукта. Команда по согласованию больше не подходит для этого.
Причина, по которой мы выбираем название «Супервыравнивание», заключается в том, что мы хотим подчеркнуть, что то, что мы изучаем на данном этапе, на самом деле является проблемой, которая еще не возникла.Наши исследования относительно дальновидны и ориентированы на будущее.
**Дэниел Филан: Как увидеть попытки людей или команд, отличных от OpenAI, добиться согласованности? **
**Ян Лейке: **Есть много людей или команд за пределами OpenAI, которые также пытаются работать над похожей работой, особенно DeepMind и Anthropic. В какой-то степени мы все пытаемся решить одну и ту же проблему, поэтому в конечном итоге мы выполняем схожую работу. Это тоже нормально. Есть и другие работы по интерпретируемости и масштабируемому контролю.
В каком-то смысле мы фактически рискуем дублировать кучу работы, поэтому в идеале пытаемся выяснить, как лучше координировать действия или больше сотрудничать. Но если все делают одно и то же, можно избежать «группового мышления», поскольку, если каждая лаборатория захочет решить эти проблемы самостоятельно, она, естественно, будет сомневаться в результатах других лабораторий, а отрицательная сторона будет порождать «групповое мышление». -или эффект: люди не желают использовать технологии, изобретенные где-то еще, и люди, естественно, будут думать, что технологии, отличные от их собственных, плохи, или смотреть на них с каким-то предубеждением.
Так что сейчас баланс не в хорошем состоянии, и хотя есть основания думать, что все люди, отвечающие за согласованность, должны быть в одном месте и каким-то образом работать вместе, это реальность, потому что по самой своей природе передовые лаборатории искусственного интеллекта имеют мотивацию инвестировать много. ресурсов в вопросе «выравнивания». Это также стало очевидным благодаря успеху RLHF, который делает модели более коммерчески жизнеспособными и делает более привлекательными инвестиции в исследования таких методов.
**Дэниел Филан: Чем отличается подход команды OpenAI Superalignment? **
Ян Лейке: Мы действительно сосредоточены на том, как настроить этот автовыравниватель, а не на том, как согласовать различные задачи. Так что, по крайней мере, в этом вопросе нас не слишком беспокоит налог на выравнивание. Я не думаю, что другие лаборатории так подчеркивают эту цель или направление.
Налог на согласование:
Также известный как налог на безопасность, он относится к дополнительным затратам на обеспечение согласованности систем ИИ. Налог на согласование в рамках RLHF, упомянутый в этой статье, означает, что для выполнения RLHF теряются возможности базовой модели для достижения согласования, такие как увеличение времени разработки, дополнительные расчеты или снижение производительности и т. д.
**Мы очень оптимистично настроены на то, чтобы опробовать все методы масштабируемого выравнивания, чтобы увидеть, какие из них работают лучше всего, и попытаться найти способы их эмпирического сравнения. В других лабораториях есть специальные масштабируемые технологии наблюдения, которые им очень нравятся, и они тоже пытаются использовать эти технологии. Кроме того, что касается интерпретируемости, мы внедряем методы автоматизированной интерпретируемости и активно их продвигаем, но другие лаборатории еще не уделяли этому методу столько внимания. **
Еще одна вещь, которую мы действительно хотим сделать, — это использовать вычисления для улучшения согласованности, что является одной из наших основных стратегий, особенно с точки зрения масштабируемого контроля, мы действительно хотим выяснить, как мы можем получить больше вычислительной мощности для отправки лучшие контролирующие сигналы? Какие возможности у нас есть? Как лучше работать с моделью Critique? Как использовать больше вычислительной мощности, чтобы усилить сигнал контроля? Автоматизированная интерпретируемость (Автоматическая интерпретируемость) — это очень простой метод, нам нужно только вложить много вычислительных мощностей, чтобы добиться прогресса в решении этой проблемы.
Модель критики:
является независимой языковой моделью. Он рассматривает результаты первой системы искусственного интеллекта, а затем пишет обзор.
Кроме того, проводятся исследования по автоматическому выравниванию: если это удастся сделать, мы сможем получить больше результатов выравнивания, инвестируя больше вычислительных мощностей. Но поскольку на самом деле мы хотим преобразовать вычислительную мощность в возможности выравнивания, теперь нам нужно много вычислительной мощности, и именно поэтому OpenAI готов использовать 20% вычислительной мощности для выравнивания. По сути, это означает, что если мы узнаем об этом автовыравнивателе и обнаружим, что нам нужно больше вычислительной мощности, мы сможем использовать больше вычислительной мощности для его запуска. Это также означает, что стратегия преобразования вычислительной мощности в согласование успешна и будет поддерживаться OpenAI.
02. Позвольте модели «автономно выравниваться»
Что такое «автоматическое выравнивание»
**Дэниел Филан: Что такое «автоматизированный исследователь выравнивания на человеческом уровне»? **
**Ян Лейке: Наша цель — максимально использовать автоматизированные системы для разделения и распределения задач в работе по согласованию. **
Когда дело доходит до языковых моделей или других систем искусственного интеллекта, они не на 100% могут делать то, что делают люди. Например, LLM могут работать лучше, чем люди, в таких вопросах, как перевод или ответы на фактические вопросы, но они могут быть не такими способными, как люди, в арифметических вычислениях или некоторых других задачах. **Итак, вопрос в том, в каком порядке и какие задачи нам нужно поручить ИИ, чтобы высвободить ограниченную энергию исследователей-людей? **В результате человеческие команды смогут более эффективно выполнять критически важные задачи, а ИИ будет брать на себя все больше и больше вспомогательных задач.
**В целом, ИИ будет участвовать во все большей части работы, а исследователи-люди будут уделять больше внимания задачам, которые не берет на себя ИИ, и смогут более эффективно ускорить исследования согласования сверхразума посредством сотрудничества человека и машины. **
**Дэниел Филан: Таким образом, речь идет не о том, чтобы использовать ИИ для замены некоторых людей в команде согласования OpenAI, а о том, чтобы использовать ИИ для выполнения определенного типа работы, которую выполняют все, а затем шаг за шагом заменять ее ИИ. Дополнительные задачи выступать? **
**Ян Лейке:**Да, я думаю, если мы хотим, чтобы производительность этой системы была достаточно высокой, 99% или 99,9% задач должны быть автоматизированы, чтобы мы могли получить 10, 100 или даже 1000 раз умножить результаты исследования.
Я бы разделил упомянутые здесь «задачи» на две большие категории. Один тип — это более традиционные инженерные исследовательские задачи машинного обучения, которые призваны помочь улучшить возможности систем искусственного интеллекта, такие как реализация различных экспериментов ML и сбор экспериментальных результатов.
Другой тип - это то, что необходимо сделать, чтобы добиться согласования сверхинтеллекта. Этот тип проблемы относительно более крупный и более высокого уровня (высокий уровень). Например, чтобы улучшить надзор за масштабируемостью (Scalable Oversight), как нам решить какие эксперименты провести? Или как добиться прогресса в интерпретируемости. Конечно, должны быть очень конкретные вопросы, на которые необходимо ответить: например, когда исследование достигает определенного этапа, необходимо уточнить ряд последующих проблем, которые необходимо решить, и другие очень подробные вопросы.
Масштабируемый контроль:
Целью контроля масштабируемости является обеспечение того, чтобы возможности модели по-прежнему соответствовали человеческим ожиданиям и продолжали совершенствоваться и обучаться после превышения человеческого уровня. Это требует от исследователей задуматься о том, как увеличить емкость модели, выровнять значения модели и постоянно контролировать производительность модели. Целью масштабируемого контроля является постоянное обеспечение надежного контроля над моделью. Этот контроль может принимать различные формы, такие как ярлыки, сигналы вознаграждения или критика.
Я предсказываю, что машинное обучение может очень хорошо решать задачи первого типа, то есть разрабатывать и автоматически проводить эксперименты, а уникальная работа, которую мы делаем сегодня для ускорения процесса согласования, заключается в том, чтобы выяснить, как автоматизировать задачи второго типа. метод. **
**Дэниел Филан: Кажется, второй тип задач — это задача полного процесса? Не просто выяснение направлений исследований, выяснение того, что может быть полезно, вплоть до «какой сценарий я хочу запустить сейчас?» **
**Ян Лейке: **На самом деле этот вопрос можно задать так: **Поскольку исследование согласованности во многом похоже на традиционное исследование МО, какие еще задачи второго типа можно решать? **
**Я думаю, что на самом деле существует много контента, связанного со вторым типом задач, и эта часть исследовательского рычага великолепна. **Поскольку с точки зрения тем исследований мы даже не пришли к единому мнению о том, «как определить согласованность». Даже отраслевые эксперты все еще задаются вопросом о «техническом пути, который с наибольшей вероятностью реализует согласованность» или о том, «какая работа должна быть проведена». сделать следующее» «По этим вопросам существуют разногласия. Поэтому, если выравнивание можно ускорить, воздействие должно быть огромным. Это также видение и направление, о которых мы говорили исследователям, когда призывали их присоединиться к команде OpenAI Superalignment.
На данном этапе мы все еще решаем некоторые базовые проблемы, и предстоит еще много работы по исследованию выравнивания. Мы не знаем, как согласовать сверхразум, и даже просто согласовать системы ИИ с интеллектом, превышающим человеческий, довольно сложно.
**Дэниел Филан: Вы упомянули концепцию автоматического выравнивателя на уровне человека, но кажется, что большинство вещей в ИИ не совсем на человеческом уровне. Насколько важен «человеческий уровень» в этой цели? Хорошо это или плохо, если ИИ действительно превосходит человека в некоторых из упомянутых вами задач? **
**Ян Лейке: Я думаю, что суть вопроса в том, насколько рискованно использовать эту систему человеческого уровня в исследованиях выравнивания. **
Не так уж и страшно, что система ИИ обладает огромным количеством знаний, но когда эта система возьмет на себя некоторые (в долгосрочной перспективе, большую часть) исследования мировоззрения, нам нужно будет задуматься, не будет ли она лгать людям? Попытается ли ИИ обмануть нас и захватить систему?
Поскольку в настоящее время мы действительно не понимаем, как происходит большая часть поведения модели, реальный вопрос, с которым мы сталкиваемся, заключается в том, какие навыки нам нужны, чтобы понять ее поведение и риски, и сравнимо ли это с тем, что нам нужно для создания автоматизированного исследователя. Как сравниваются навыки?
Если мы углубимся в этот вопрос немного глубже, что нас действительно беспокоит? Возможно, модель сплетет серию лжи, способной обмануть людей? Модели уже обманывают людей? Вы притворяетесь, что делаете что-то или верите во что-то, хотя на самом деле это направлено на другую цель?
Поэтому также важно оценить, является ли модель самоэксфильтрацией: способна ли модель нарушить меры безопасности системы, получить параметры веса модели и попытаться скопировать их в другие места в Интернете? Или может ли модель загрузить эти данные и отправить их куда-нибудь еще, убедив инженера-человека, имеющего доступ к весам? Мы также можем измерить возможности модели в этой области. Я надеюсь, что в этих критических звеньях возможности модели не будут слишком сильными.
**Дэниел Филан: Автоматический выравниватель на уровне человека должен быть очень умным, творческим и способным к планированию задач, а также он должен очень хорошо думать о проблемах, связанных с выравниванием, и в этом случае раздаются голоса, что такой мощный инструмент Сам инструмент очень опасен для человека. Если задача состоит в том, чтобы выровнять исследователь автоматического выравнивания, есть ли еще какие-то проблемы, которые ему нужно решить? **
**Ян Лейке: Я думаю, что в конечном итоге это зависит от опыта. **
Возможно, мы сможем сначала представить этот вопрос на макроуровне. Например, совершенно очевидно, что как только возможности модели улучшатся, мы, естественно, позволим модели помочь нам в выполнении некоторой исследовательской работы по согласованию, и хотя модель помогает нам проводить исследования, ее собственные возможности улучшаются, поэтому из В результате мы можем использовать это для быстрого обучения более мощной модели.
Эта история на первый взгляд весьма захватывающая, но с практической точки зрения она на самом деле очень сложна. Прежде всего, предварительное обучение модели обычно занимает несколько месяцев, а не недель, поэтому нам нужно использовать это поколение моделей до тех пор, пока не родится новое поколение моделей. Еще один вопрос, на который до сих пор нет четкого ответа: есть ли еще много «легко висящих плодов» с точки зрения повышения вычислительной мощности?
Я думаю, что по сравнению с согласованием инвестиции и внимание всего сообщества ИИ в улучшении скорости и возможностей ИИ довольно велики. Если мы сможем автоматизировать больше этих задач на благо обоих сообществ, то в масштабах сообщества согласования В меньших случаях , то предельные выгоды, которые это принесет, будут выше.
**Дэниел Филан: Когда дело доходит до оценки выравнивания как направления исследований, какова, по вашему мнению, будет долгосрочная цель этого автоматического выравнивателя? **
Ян Лейке: Я думаю, что языковые модели или искусственный интеллект в целом более креативны, чем люди в среднем. Например, в изображениях, созданных с помощью диффузионной модели или выборки из предварительно обученной базовой модели, вы обязательно обнаружите много неожиданного, поэтому модель особенно креативна.Это вещи, на которых нам трудно учиться. Или получено от небольшой группы людей, и модель может сделать это, потому что она выучила все слова, сказанные людьми, или все изображения в Интернете, тем самым завершив выборку в этом чрезвычайно крупномасштабном распределении, которое не могу сделать до этого момента.
Что касается долгосрочных целей, **я не думаю, что вообще существует необходимость преследовать так называемые долгосрочные цели, потому что мы можем сначала поставить ИИ краткосрочные задачи, и если они хороши в этом, для этих задач вполне достаточно. **Например, это может быть что-то очень узкое, например: «Это статья, которую мы только что написали, пожалуйста, предложите следующие шаги или какие новые эксперименты можно реализовать». Представьте, что мы на самом деле просим настоящего звездного исследователя ИИ задавать вопросы, чтобы ему не нужно было преследовать долгосрочные цели, ему просто нужно помочь нам оптимизировать следующую небольшую цель, возможно, несколько тысяч токенов, если они смогут это сделать. ну, это уже может принести большую пользу человечеству.
**Дэниел Филан: Кажется, это противоречит вышеупомянутой цели, согласно которой 99,9% задач по выравниванию могут быть автоматизированы? По моему мнению, один из ключей к хорошей работе по исследованию согласованности — это продолжать думать и решать проблему «что необходимо, чтобы действительно получить согласованный ИИ»? **
Ян Лейке: Именно. Но я хочу сказать следующее: **Когда система хорошо справляется с этими задачами, она приобретает большую ценность, и нам, людям, нужно объединить эти задачи. **Например, некоторые задачи — «написать код, реализующий эти эксперименты», другие — «посмотрите на результаты и скажите, что вы видите» или «предложите, что делать дальше». По сути, когда модели выполнили эти задачи, мы можем объединить их каким-то общим способом, как это делают люди в программах Auto-GPT или языковых моделей, каждая задача небольшая и автоматическая.Интегрируется, поэтому системе не нужно намеренно выполнять какую-либо задачу. большая, долгосрочная цель.
Например, недавняя программа OpenAI Let's Verify Step by Step использует основанную на процессах обратную связь в математике для обучения модели вознаграждения, основанной на отзывах людей на каждом этапе процесса доказательства, вместо того, чтобы тренировать решение «получила ли система правильный ответ»? ". Это оказалось более эффективным, поскольку дало системе ИИ более детальный способ обучения и более подробную обратную связь. Но в долгосрочной перспективе будет ли это конкурировать со сквозным обучением с подкреплением? Мы пока не знаем, но, по крайней мере, на данный момент мы можем использовать эту подробную разбивку шагов, чтобы заставить систему делать много действительно полезных вещей, которые могли бы делать люди, а затем соединить эти вещи воедино.
Давайте проверим шаг за шагом:
Исследование, опубликованное в мае 2023 года Хантером Лайтманом и др. В основном стремясь решить проблему частых логических ошибок в сложных многоэтапных задачах рассуждения больших моделей, автор сравнил два метода: контроль результатов и контроль процесса: контроль результатов в основном обеспечивает обратную связь для конечного результата, тогда как контроль процесса обеспечивает обратную связь для каждого промежуточного результата. шаг рассуждения. Исследование показало, что контроль процесса значительно превосходит модели обучения с контролем результатов, особенно по математическим задачам. Кроме того, авторы обнаружили, что активное обучение значительно повышает эффективность контроля за процессом.
**Дэниел Филан: Одна из упомянутых вами мини-заданий — «увидеть результаты и решить, что делать дальше». Если вы хотите это сделать, вам придется подумать о том, какой конкретный проект будет наиболее полезен для достижения цели выравнивания сверхинтеллекта за четыре года? **
**Ян Лейке: Вы правы. Однако это достигается не за счет оптимизации и долгосрочного присвоения кредита (кредитного присвоения), а скорее как добавление в подсказку каких-то более широких целей и контекста. **
Однако на практике, когда мы улучшаем системы с помощью обучения с подкреплением (RL) или обучения с подкреплением на основе обратной связи с человеком (RLHF), нам фактически не нужно ждать окончания исследовательского проекта, чтобы сделать выводы об эффективности этих методов. Вместо этого мы можем использовать отзывы людей в качестве основы для предложения вознаграждений, просто спрашивая себя: «Выглядит ли это направление лучше, чем все, что я могу себе представить?»
**Поэтому я думаю, что общая цель Superalignment — не достичь наиболее мощного автоматического выравнивания при существующих технологиях, а создать систему, которая будет очень полезной и может применяться в больших масштабах. Самое главное, что мы верим что он может добиться выравнивания, и вы можете быть уверены. Оставьте эти задачи ему. **
**По сравнению с разделением задач некоторые люди могут подумать, что только сквозное обучение может сделать модель более эффективной. Но я думаю, что это не так важно.На самом деле метод сквозного обучения не только в значительной степени ограничивает возможности модели, но и имеет низкую эффективность.Это то, что люди обычно называют «налогом на выравнивание». **
«Налог на согласование» является важным фактором, если вы хотите эффективно конкурировать с другими компаниями на рынке: предположим, я создаю чат-бот, который особенно хорошо справляется с согласованием, но кажется гораздо менее способным, что на самом деле очень сложно конкурировать на рынке. Но если у вас есть автовыравниватель, исследователю автовыравнивания не нужно конкурировать на рынке, ему просто нужно быть полезным для нас. Таким образом, мы можем согласиться на более высокие затраты на согласование, потому что у нас нет замены, или реальная замена — это нанять больше людей, но этот путь не так масштабируем.
**Дэниел Филан: Какие проблемы, по вашему мнению, решит этот автоматизированный исследователь выравнивания? **
Ян Лейке: Это должно решить проблему «как настроить сверхинтеллект». **Согласование сверхинтеллекта Реальное решение может сильно отличаться от согласования, которое мы делаем сегодня. **
Решение ChatGPT состоит в том, чтобы значительно усилить обучение на основе отзывов людей, а именно RLHF (Reinforcement Learning на основе отзывов людей). На данном этапе общее мнение заключается в том, что этот подход может быть трудно масштабировать, поскольку он по своей сути предполагает, что люди должны полностью понимать детали того, что делает система.
Поэтому, если вы попросите модель провести крупномасштабное исследование выравнивания, вы можете представить себе задачу, эквивалентную миллионам человеческих нагрузок. Очевидно, что люди не могут просмотреть все данные и дать подробную обратную связь. Это довольно сложно. , В этом случае процессе, мы определенно проигнорируем многие важные ошибки.
**Технология, над которой в настоящее время работает команда Superalignment, призвана сделать RLHF расширяемой и реализовать выравнивание для автоматических выравнивателей. **Этот автоматический выравниватель находится практически на том же уровне, что и человек. Он может заменить человека в выполнении этих сложных задач, но не будет сильно отличаться от человека. Все технологии, которые мы хотим внедрить, представляют собой обновления или серьезные исследования предыдущих технологий. Например, масштабируемый контроль является естественным расширением RLHF. **
Масштабируемый надзор определяется как общая комбинация идей и методов, которые позволяют нам использовать ИИ для помощи людям в сложных задачах оценки.
Типичными представителями масштабируемого надзора являются дебаты, рекурсивное моделирование вознаграждения (RRM, рекурсивное моделирование вознаграждения), итерационная дистилляция и усиление, автоматизированный маркет-мейкинг и т. д. Появляется много новых методов.
Я думаю, что если мы действительно собираемся присоединиться к сверхразуму и подумать о системах, которые умнее людей, думают быстрее, выполняют вычисления на совершенно новых уровнях масштаба, это принесет с собой целый ряд других проблем. будет суперуниверсальным и сможет делать много всего, а затем вам придется придумать, как его согласовать, не только с более узко распределенными исследовательскими задачами, но и со всем остальным. Кроме того, вам необходимо убедиться в его успешности посредством обширной эмпирической оценки.
Так что сейчас не только я, но и все не знают, как будет выглядеть будущее, но было бы очень интересно, если бы можно было провести какую-то формальную проверку. Возможно, мы нашли какой-то теоретически гарантированный алгоритм, но теория и последующая практика могут сильно отличаться, и даже я не думаю, что исследователь выравнивания примерно человеческого уровня сразу приступит к решению этих задач. Вместо этого мы надеемся, что они найдут способы лучше согласовать следующую итерацию, чтобы с помощью руководства у нас в конечном итоге была система, которая поможет нам точно настроить сверхинтеллект.
**Дэниел Филан: Если у вас есть исследователи по согласованию ИИ на человеческом уровне, нужна ли OpenAI команда по согласованию сверхинтеллекта и соответствующий персонал? **
Ян Лейке: Хороший вопрос. Лично я был бы очень рад, если бы его можно было заменить ИИ. **Но исторически типичной ситуацией является то, что мы упоминали ранее: помощники ИИ выполняют 99% или 99,9% работы, а люди отвечают за оставшиеся 1% или 0,01%. **В долгосрочной перспективе, даже если мы больше не сможем по-настоящему понимать все, что делает ИИ, нам все равно необходимо обеспечить, чтобы люди каким-то образом были вовлечены или всегда имели возможность контролировать то, что делает ИИ. быть человеческой ролью, чтобы попытаться понять высокоуровневые последствия того, что делает ИИ, не обязательно быть нынешней командой OpenAI Superalignment, потому что требуемый набор навыков может сильно отличаться от того, что мы имеем сейчас.
**Дэниел Филан: OpenAI постоянно упоминает в своем блоге, что безопасность тесно связана с возможностями модели. Нам нужны интеллектуальные модели для решения проблем выравнивания, но в то же время мы надеемся, что возможности моделей не изменят нас. В книге «Планирование AGI и не только» есть отрывок: «Если AGI обладает достаточной способностью ускорять собственное развитие, это может привести к тому, что серьезные изменения произойдут с поразительной скоростью», «Мы считаем, что относительно медленное развитие AGI легче обеспечить безопасность». ". Если мы создадим действительно умного специалиста по выравниванию, близкого к человеческому уровню, а затем эффективно увеличим команду специалистов по выравниванию в 10 или 100 раз, не попадет ли это в рекурсивный цикл самосовершенствования? **
Ян Лейке: Это неизбежно. Не может быть рекурсивного цикла самосовершенствования без масштабного улучшения возможностей выравнивания. Я лично считаю, что вероятность того, что ИИ достигнет скачка в возможностях, довольно высока, и мы должны быть к этому готовы. Если бы этого не произошло, я был бы доволен.
Если мы посмотрим на другие системы искусственного интеллекта, такие как AlphaGo, Dota или StarCraft, то увидим, что эти системы практически еженедельно претерпевают массовые обновления возможностей. Что касается того, что именно произойдет, мы пока не можем знать наверняка, поскольку существует большая неопределенность, но я думаю, что мы должны быть готовы к такой возможности. Когда это произойдет, действительно хорошей идеей будет наличие автоматизированных исследователей выравнивания, которые действительно смогут за неделю выполнить работу на тысячи лет, чего люди не могут сделать.
Как спроектировать автоматический выравниватель
**Дэниел Филан: Как реализовать этот автоматический выравниватель на уровне человека? **
Ян Лейке: Ее можно условно разделить на две части. Во-первых, нам нужна система, достаточно интеллектуальная для выполнения задач. С другой стороны, нам необходимо настроить эту систему так, чтобы она действительно могла выполнять задачи. Эти две части не являются полностью независимыми, они тесно связаны между собой.
Я лично не участвовал в первой части исследования, но верю, что оно обязательно осуществится, и многие люди работают над тем, чтобы это стало возможным. Есть много разных направлений, но вы можете себе представить, что по мере того, как модель становится все больше и больше, в конечном итоге она становится достаточно умной.
**Что лично меня действительно интересует, так это вторая часть. Проблема, с которой мы сталкиваемся в наших исследованиях, заключается в следующем: как с помощью этой очень умной предварительно обученной модели заставить ее выполнять согласованные исследования так, как вы хотите? Или, что еще более важно и более важно, как узнать, можете ли вы ему достаточно доверять, чтобы выполнить задачу? **
Наши модели могут попытаться представить результаты и методы таким образом, чтобы, если вы решите их реализовать, фактически улучшить саму систему или другие связанные системы и продемонстрировать более сильное поведение в будущем или выполнить побег из тюрьмы (самоэксфильтрация) и другое поведение.
Поэтому нам необходимо настроить ИИ так, чтобы он мог выполнять задачи в соответствии с нашими ожиданиями и в полной мере использовать свои возможности для достижения наилучшей производительности при выполнении задачи. С этой целью необходимо разработать ряд методов обучения выравниванию, чтобы гарантировать, что ИИ сохраняет выравнивание при выполнении задач.
На самом деле это два разных типа систем. Нам нужно различать, является ли эта система истинной или ложной ориентацией. Первая - это система, которая может усердно работать, проводя исследования согласованности и фактически помогая нам в поисках истины; вторая может иметь намерение контролировать мир, побег из тюрьмы или другое. Риск плохого поведения. Поэтому нам необходимо создать механизмы или методы, позволяющие различать эти два совпадения, чтобы гарантировать, что мы можем доверять и полагаться на системы, которые действительно согласованы.
**Важная часть нашей работы — выяснить, как отличить истинные и ложные совпадения. Я называю их методами проверки. Они не используются непосредственно для обучения систем ИИ и не используются непосредственно в качестве основы для выбора систем, но предоставляют Независимый Сигнал используется для определения того, является ли система действительно согласованной системой или ложно согласованной системой. **
Например, одним из таких подходов является исследование интерпретируемости. Если, заглянув внутрь модели, мы обнаружим доказательства того, что модель тайно замышляет против нас, то модель не пройдет проверочный тест как ложно настроенная система.
Другой подход заключается в обобщении проблемы от простого к сложному, что может быть методом обучения или проверки, в зависимости от того, как она настроена. Этот вопрос проверяет, способна ли модель обобщать простые проблемы, которые мы можем контролировать, на сложные проблемы, которые мы не можем контролировать. Если модель можно контролировать на простой части и перекрестно проверять на сложной части, тогда мы можем определить, подвержена ли модель риску тайного мошенничества или иного поведения.
Подход 1: Масштабируемый надзор
**Дэниел Филан: Как можно добиться масштабируемого контроля? Пока еще не так много консенсуса по поводу выравнивания, как получить обучающие сигналы для высококачественных исследований выравнивания? **
Ян Лейке: Отсутствие консенсуса еще раз показывает, что проблему согласования на самом деле сложно решить. Эта область еще не очень зрела, поэтому мы пока не накопили такого большого опыта. Но я думаю, что исследования согласованности обладают некоторыми очень важными свойствами, которые мы можем использовать для масштабируемого контроля.
Оценка качества исследования согласования может оказаться более эффективным способом, чем просто изучение согласования, что не означает, что исследование согласования легко, не означает, что его легко оценить, но найти статью гораздо проще. Например, в этой статье есть классная идея, проведено несколько классных экспериментов и получены хорошие результаты. После прочтения вы обязательно почувствуете качество этого исследования. Это намного проще, чем выполнять эту работу. .
**Таким образом, принцип «оценка проще, чем генерация» лежит в основе многих идей масштабируемого надзора. **Например, если вы рассматриваете рекурсивное моделирование вознаграждения, основная идея состоит в том, чтобы использовать помощника ИИ, который поможет вам оценить работу других систем ИИ: сначала позвольте системе ИИ-помощника настроиться на относительно простую задачу, которая используется в качестве помощник по оценке для помощи в оценке других систем ИИ.
Поскольку оценка проще, чем генерация, задача оказания помощи системам ИИ относительно проста, особенно с учетом того, что люди сотрудничают, помогая системам ИИ выполнять оценку. После успешного выполнения этой задачи сочетание людей и вспомогательных систем искусственного интеллекта можно будет использовать для наблюдения за обучением новой системы искусственного интеллекта решению более сложной задачи.
Постоянно повторяя этот процесс, мы можем постоянно расширять круг задач, для решения которых мы можем эффективно контролировать системы ИИ. Такой подход позволяет нам использовать относительную простоту задачи оценки для управления и обучения систем ИИ, постепенно открывая более широкий спектр областей задач.
Масштабируемое выравнивание агентов посредством моделирования вознаграждения: направление исследований:
Ян Лейке опубликовал исследование по рекурсивному моделированию вознаграждения в 2018 году, в котором были разработаны подходящие функции вознаграждения для применения алгоритмов обучения с подкреплением к реальным задачам. Дополнительно обсуждается вопрос согласования агентов, т. е. того, как создавать агентов, поведение которых соответствует намерениям пользователя. Команда намечает направление исследований высокого уровня для решения проблемы согласования агентов, сосредоточенное на моделировании вознаграждения и изучении функций вознаграждения на основе взаимодействия с пользователями.
**Дэниел Филан: То есть путем итеративного добавления все большего и большего количества знаний об ИИ к оценочной части исследования согласования. Работая таким итеративным образом, система ИИ всегда может получать хорошие обучающие сигналы. **
Ян Лейке: Да. Например, RLHF — самый простой, без использования каких-либо помощников, и люди оценят, хорошо это или нет, увидев результаты работы ИИ, что является обучающим сигналом.
Глубокое обучение с подкреплением на основе предпочтений человека:
Исследование Пола Кристиано и Яна Лейке, проведенное в 2017 году. В этой работе исследуются цели, определенные с точки зрения (неэкспертных) человеческих предпочтений между сегментами траектории, чтобы позволить сложным системам обучения с подкреплением (RL) эффективно взаимодействовать с реальной средой. Исследования показали, что этот подход позволяет эффективно решать сложные задачи обучения с подкреплением без доступа к функциям вознаграждения, включая игры Atari и симуляцию движения робота, обеспечивая при этом обратную связь менее чем для 1% взаимодействий агента с окружающей средой. Это существенно снижает затраты на человеческий контроль.
Далее, развивая ранее описанный подход, мы в основном обучаем простейшую модель помощника — модель критики. Это независимая языковая модель, которая наблюдает за результатами работы первой системы ИИ и пишет критические замечания.
Например, первая система искусственного интеллекта пишет фрагмент кода, и мы смотрим на код: люди, как правило, плохо находят ошибки в коде, поэтому в мире так много ошибочного кода. Но сейчас, если есть система критики, которая умеет писать критику и указывать на ошибки, то людям очень легко судить: «это определенно ошибка, надо ее исправить».
Предостережение здесь в том, что сама задача не очень ясна, поскольку обычно код пишется в соответствии с некоторой спецификацией естественного языка. На практике значение этой спецификации несколько неясно, и определение того, является ли проблема ошибкой, может быть неоднозначным. Но что еще более важно, используя критическую модель в качестве помощника, вы можете расширить объем надзорных задач. Хотя может быть некоторая двусмысленность и двусмысленность в отношении определенности проблем и ошибок в вашем коде, вы все равно можете использовать выходные данные модели критики, чтобы найти больше проблем. Такой подход позволяет эффективно контролировать системы ИИ в более широком диапазоне задач и расширять сферу надзора.
Очень хорошо то, что на самом деле существует множество способов оценить эффективность этого подхода посредством эмпирических исследований. Один из подходов, который мы использовали в статье, опубликованной в прошлом году, по сути представляет собой рандомизированное контролируемое исследование с целевыми изменениями. Предположим, у вас есть задача по кодированию. Хотя в статье мы не используем задачи по кодированию, конкретное содержание задачи здесь не важно. Затем у вас есть результат ответа, который не обязательно должен быть идеальным, но давайте предположим, что так оно и есть. Вы пытаетесь внести какую-то тонкую ошибку или изъян в результат ответа, сделав его не таким уж хорошим, но незаметно плохим для людей.
Упомянутая здесь статья — это Модели самокритики для помощи людям, опубликованная в 2022 году. В этой статье в основном настраиваются большие языковые модели и используется поведенческое клонирование для написания комментариев на естественном языке. Отзывы, написанные моделью, могут помочь людям обнаружить недостатки в результатах. Кроме того, авторы изучили свойства масштабирования обзоров для задач тематического обобщения и синтеза. Более крупные модели напишут больше полезных отзывов.
**Дэниел Филан: Как появились эти ошибки? **
Ян Лейке: Самый простой способ — позволить это сделать людям, но в конечном итоге нам придется позволить модели завершить процесс самостоятельно.
Сначала случайным образом выберите одно из возмущений, а затем покажите его человеку, человеку с помощью искусственного интеллекта или любому масштабируемому контролируемому подходу. А потом посмотрите, насколько вероятно, что они это обнаружат? Или вы можете спросить их напрямую: «Есть ли здесь уязвимость?» и узнать, с какой частотой они находят ошибки.
Кроме того, вы можете напрямую сравнить знания модели о проблеме и научить ее работать в качестве дискриминатора, способного различать хорошие и дефектные версии. Точность дискриминатора отражает его производительность. Далее модель или улучшенную с помощью RLHF модель просят прокомментировать код. Затем обратите внимание, как часто модель упоминает в комментариях дефекты кода. Сравните точность дискриминатора с точностью отзывов, созданных моделью. Точность дискриминатора отражает способность модели распознавать проблему, а точность проверки отражает осведомленность модели о дефектах кода. Это то, что мы называем разрывом дискриминатора и критики.
Если разница большая, это означает, что модель чувствует множество проблем, но она нам об этом не сообщает, потому что если бы мы попросили ее написать комментарий, она бы этого не сказала. Эта ситуация очень тревожная, потому что это означает, что ваш масштабируемый контроль в некотором роде глубоко ошибочен, и многие вещи ускользают от вашего поля зрения. Или в том смысле, что этот ИИ-помощник не очень-то готов к сотрудничеству, потому что он не очень старается вам помочь.
И наоборот, небольшая разница означает, что если ИИ-помощник узнает, что с моделью возникла проблема, он сообщит вам об этом. В частности, если модель аналогичного размера или та же базовая модель пытается внедрить ошибки или разместить труднообнаружимые трояны с небольшими значениями дисперсии, то мы можем с большей уверенностью исключить возможность такой атаки. Потому что другая копия модели, скорее всего, напишет комментарий, раскрывающий потенциальные проблемы.
Этот случай основан на предположении, что обучение дискриминатора может фактически исключить это из модели. Я думаю, у нас есть веские основания верить в это, поскольку точная настройка дискриминатора по сути дает доступ ко всем активациям в модели и одновременно настраивает все веса. Следовательно, если где-то в активациях модели существуют знания, точная настройка дискриминатора должна быть в состоянии извлечь эти знания, при условии, что точная настройка выполнена правильно и имеется достаточно данных.
На самом деле вы можете выполнить некоторые обратные вычисления, чтобы определить, сколько данных вам нужно. Предположим, в модели есть один нейрон, который обнаруживает проблемы в коде. Чтобы найти и идентифицировать этот нейрон, количество точек данных, которые вам нужны, примерно равно логарифму общего числа нейронов. Это означает, что относительно небольшого количества данных достаточно, чтобы сузить круг исследований и найти нейроны с определенной функцией. Эта оценка показывает, что при обучении дискриминатора и достаточном количестве данных можно обнаружить функции конкретных нейронов в модели.
**Дэниел Филан: У меня тоже есть вопрос по поводу всего плана. Причина, по которой нам не нравится RLHF, заключается в том, что он не может отличить то, что люди считают правильным, от того, что «звучит хорошо», потому что люди не умеют критиковать. **
Идея рекурсивного обзора заключается в постоянном улучшении качества обзоров путем обучения как дискриминатора, так и рецензента. Один из способов — мы обучаем вещь, которая может писать действительно хорошие обзоры, а затем работаем с ней, чтобы обучить вещь, которая более способна писать обзоры. В этом случае мы постепенно повышаем качество отзывов для достижения лучших результатов. Но есть ли другая ситуация, когда мы тренируем вещь, непреднамеренно обучая ее писать псевдообзоры, которые нам нравятся, а затем работаем с ней, чтобы еще больше улучшить нашу способность различать отзывы, которые нам нравятся? Это может заставить нас уделять больше внимания вещам, которые кажутся хорошими, но на самом деле являются проблемами, игнорируя при этом проблемы, которые действительно существуют.
Ян Лейке: Да, я согласен, что это очень важный и законный вопрос. При изучении приложений масштабируемого надзора становится критически важным понять одну из его ключевых проблем. Поэтому я очень рад возможности на самом деле применить эти методы и опробовать их эмпирически, потому что я считаю, что на практике мы сможем лучше оценить эффективность этих методов.
Конкретный и простой способ измерить этот эффект — намеренно обучить модель обманчивому выравниванию, а затем наблюдать, способна ли масштабируемая супервизия идентифицировать и сигнализировать такое обманное поведение, или насколько сложно его обнаружить... ...или насколько сильно нам необходимо приложить усилия, чтобы модель успешно обманчиво согласовывалась и уклонялась от нашего масштабируемого контроля.
**Дэниел Филан: Да, я думал о «сэндвич-эксперименте», чтобы проверить ответы ИИ на юридические вопросы. В этом эксперименте некоторым людям, не являющимся юристами, было предложено задать юридические вопросы, а затем некоторым людям, которые на самом деле хорошо разбирались в законе, было предложено проверить, обманывает ли ИИ людей, не являющихся юристами. **
Ян Лейке: Эти эксперименты действительно интересны, и в этой области было проведено несколько интересных исследований. Некоторые из основных проблем, на которые вы указываете, действительно требуют рассмотрения.
Во-первых, вы упомянули проблему доверия к экспертам. Поскольку эксперты иногда допускают ошибки, может возникнуть некоторая неопределенность в использовании экспертного заключения, что действительно является важным фактором. Кроме того, крайне важно обеспечить достаточное перекрытие областей между экспертами и задачами, чтобы они могли предоставлять точные оценки и обратную связь.
Другая проблема заключается в том, что для некоторых задач мы можем не знать основополагающих фактов или истины. Даже в такой области, как исследование выравнивания, у нас могут быть разные точки зрения и представления. Это затрудняет точную оценку в этих задачах. Кроме того, сбор больших объемов данных может оказаться дорогостоящей задачей из-за ограниченного числа экспертов и высоких временных затрат.
В общем, мне бы хотелось иметь метод оценки, который не основывался бы на предположении, что у нас уже есть основная истина. Этот метод можно оценить без предварительных знаний и адаптировать к задачам различного уровня сложности, поэтому я очень обеспокоен использованием этих рандомизированных контролируемых исследований для целенаправленного возмущения или измерения разрыва между дискриминатором и критикой. перспективы.
**Дэниел Филан: Да, однако, при измерении разрыва между дискриминатором и критиком вам действительно нужен настоящий дискриминатор, а не просто дискриминатор, который отличает устройство «выглядит неправильно» от устройства «выглядит хорошо». **
**Ян Лейке:**Вы говорите, что можете вносить дефекты в системы искусственного интеллекта, верно? В некотором смысле этот подход может быть лучше, чем человеческие оценки, поскольку он ближе к истинному распределению, с которым системы ИИ сталкиваются в реальных приложениях. Используя эти ошибочные данные, дискриминатор можно точно настроить, и если мы считаем, что ошибочная версия на самом деле хуже, то мы можем установить своего рода основную истину. Мы можем наблюдать, почему дела идут плохо, и проверять их, чтобы лучше их понять.
**Дэниел Филан: Хотя система искусственного интеллекта может заставить нас думать, что что-то хорошее, это не обязательно хорошо; аналогично, если система искусственного интеллекта заставляет нас думать, что что-то плохое, то на самом деле это может быть действительно плохо, или производительность может быть деградирована. В любом случае, если ИИ заставит вас думать, что что-то плохо, может быть, нам будет проще помочь обнаружить проблему? **
Ян Лейке: Да, я понимаю, о чем ты. В этом случае мне, вероятно, не следует использовать термин «основная истина», потому что на самом деле это не основная истина, как будто на самом деле нет ничего правдивого, но вы можете многое сделать, чтобы у вас была большая уверенность в истинной ценности, которая не обязательно облегчает задачу поиска проблемы.
Основная истина:
При обучении с учителем метки данных обычно имеют форму (x, t), где x — входные данные, а t — метка. Правильная метка t является основной истиной, которую можно понимать как эталонный стандарт и истинное значение в эталонном смысле, тогда как неправильная метка t таковой не является.
Подход 2. Поиск плохого поведения и внутренней структуры
**Дэниел Филан: В статье OpenAI, посвященной супервыравниванию, один из ваших конвейеров выравнивания заключается в автоматическом поиске поведения модели, которое может вызвать проблемы (надежность), и внутренних структур, которые могут вызвать проблемы (автоматическая интерпретируемость). На данный момент, какие проблемы вы решаете думаешь, команда супервыравнивания будет решать дальше? **
**Ян Лейке: Определенно интерпретируемость. В каком-то смысле интерпретируемость действительно сложна. У нас пока нет каких-либо серьезных результатов по языковым моделям, и можно сказать, что интерпретируемость действительно приносит нам много вдохновения или добавляет большую ценность, потому что наше понимание модели и внутренней ситуации все еще находится на зачаточном уровне. **
**Дэниел Филан: Академическое сообщество проделало некоторую объяснимую работу над языковыми моделями. Например, может быть выполнена работа ** Глав контекстного обучения и индукции **, а также работа косвенной идентификации объекта (косвенная идентификация объекта), по меньшей мере, некоторый тип косвенной идентификации объекта. Я хочу знать, помимо этого, что еще вам нужно для достижения идеальной конечной точки? **
• Руководители контекстного обучения и вводного курса
Эта работа была опубликована в 2022 г. Она в основном посвящена соответствующим вопросам безопасности в контексте постоянного расширения модели поколения трансформаторов. Она улучшает механическую интерпретируемость путем обратного проектирования подробных расчетов, выполняемых моделью. Решайте текущие проблемы безопасности более систематически и прогнозируйте будущие проблемы безопасности в более мощных моделях, понимая внутреннюю структуру, которая заставляет модель Transformer выдавать свои выходные данные.
• Интерпретируемость в дикой природе: схема косвенной идентификации объектов в GPT-2 small
Эта статья демонстрирует, что механистическое понимание больших моделей машинного обучения возможно, объясняя, как GPT-2 small выполняет задачу естественного языка, называемую косвенной идентификацией объекта (IOI), чтобы устранить разрыв в производительности механистической интерпретируемости в сложных больших моделях, что дает возможность интерпретируемость для распространения на более крупные модели и более сложные задачи.
Ян Лейке: Да, люди в настоящее время изучают область интерпретируемости, и это очень приятно. Я думаю, что более важно, если мы сможем использовать методы объяснительности в модели вознаграждения языковой модели, такой как размер GPT-4 или любая другая большая модель. вы можете подумать, а затем получить что-то о модели вознаграждения, чего мы раньше не знали, это важно. ** Поскольку модель вознаграждения обеспечивает тренировочный сигнал для многих тренировок RLHF, поймите это лучше. Это очень ценно. и возможность отмечать или обнаруживать проблемы в поведении, которые он мотивирует, и которые мы, люди, не хотим проявлять, будет очень важным достижением. **
В этом смысле я считаю, что интерпретируемость не является ни необходимой, ни достаточной. Я думаю, что вполне возможно, что мы сможем решить проблему выравнивания чисто поведенчески, не понимая по-настоящему внутреннюю модель. Но я также думаю, что любое нетривиальное понимание, которое мы получаем от интерпретируемости, будет очень полезным или может быть очень полезным, потому что оно дает нам возможность атаковать. **
Поэтому для нас совершенно невозможно отказаться от попытки объяснительности. Потому что, в каком-то смысле, у вас есть искусственный мозг, и у нас есть идеальный сканер мозга, с помощью которого мы можем полностью увеличить масштаб и точно измерить активацию каждого отдельного нейрона на каждом прямом пути, включая произвольную дискретную временную метку, что, вероятно, является максимальным разрешением. мы хотим получить. Мы также можем произвольно вмешиваться и нарушать любое значение модели по своему желанию. Это дает нам много места и возможностей для экспериментов, и мы были бы сумасшедшими, если бы не воспользовались этим.
Но в то же время это так сложно, потому что модель учится вычислять с точки зрения эффективности, а не регуляризации, чтобы она была понятна человеку, или, скорее, нет оснований полагать, что отдельные нейроны должны соответствовать концепциям или чему-то близкому к человеческому. Думайте, что они есть или должны быть, или что-то, с чем мы знакомы. Фактически, эмпирически нейронные сети представляют множество различных концепций с помощью одного нейрона, и каждая концепция распределяется между разными нейронами. Так что нейроны здесь не важны.
Есть две вещи, на которых я бы сосредоточился с точки зрения интерпретируемости.
Первое – это причинно-следственная связь. Мы хотим наблюдать за нейронами при передаче данных через модель. Например, у нас есть нейрон, связанный с «Канадой», который срабатывает, когда появляется понятие, связанное с Канадой. Но это всего лишь корреляция, а не обязательно причинно-следственная связь. Чтобы убедиться в том, что это причинно-следственная связь, нам пришлось бы намеренно написать о концепциях, связанных с Канадой, чтобы увидеть, все ли они откликаются, а также написать о других связанных концепциях, которые могут звучать как связанные с Канадой, или «Ничего общего с Канадой, но как правило, очень похоже, а затем проверяется, реагируют ли нейроны, или отключаются ли эти нейроны, и так далее.
Дэниел Филан: Это похоже на Толгу Болукбаши и др. Иллюзия интерпретируемости для BERT **Эта статья, кажется, называется «Иллюзия интерпретируемости», в статье упоминается: «Мы можем заставить нейроны реагировать на одна конкретная вещь, но это всего лишь иллюзия, потому что в других наборах данных эти нейроны реагируют на множество других вещей. **
Иллюзия интерпретируемости для BERT:
В статье описывается «иллюзия интерпретируемости», возникающая при анализе моделей BERT. Может показаться, что активации отдельных нейронов в сети кодируют одну простую концепцию, хотя на самом деле они кодируют нечто гораздо более сложное, и тот же эффект применим к линейным комбинациям активаций. Авторы связывают источник этой иллюзии с геометрическими свойствами пространства встраивания BERT и тем фактом, что обычные текстовые корпуса представляют собой лишь небольшую часть возможных английских предложений.
**Ян Лейке: **Еще одна интересная вещь: ранее в этом году OpenAI опубликовала статью об интерпретируемости. Языковые модели могут объяснить нейроны в языковых моделях (Примечание Shixiang: в этой статье экспериментаторы пытаются использовать GPT-4 для объяснения поведения неорона GPT-2) Нам нужна техника, которая может работать на уровне детализации отдельных нейронов, чтобы вы действительно могли быть уверены, что ничего не упущено, ни одна деталь, а также иметь возможность работать над масштаб всей модели.
Потому что, в конце концов, все в модели взаимосвязано, поэтому важно и то, и другое. До сих пор технологии в основном были альтернативой. Работа над автоматической интерпретацией предпринималась еще до нашей статьи, поэтому мы были не первыми, кто это пробовал. Но я думаю, что если вы можете проделать какую-то настоящую работу по интерпретации, ориентированную на детали, некоторые механистические методы интерпретации, которые действительно пытаются понять одну схему или вычислительный блок внутри модели, то способ распространить это на всю модель — это автоматизация, не так ли?
Но вы тоже можете сделать это: как только вы поймете, как это сделать в деталях, вы просто документируете то, что делаете, т. е. позволяете автоматическому выравниванию или исследователю интерпретируемости детализировать изучение того, что происходит с моделью. Затем просмотрите все это или найдите способ объединить их. **Я здесь немного упрощаю, но в любом случае эта идея меня очень воодушевляет.
Итак, в статье много поясняющего содержания. Например, в этой статье дается объяснение на естественном языке для одного нейрона, что, возможно, не совсем правильно, но дает простой пример того, что мы можем здесь сделать. Это работает так: вы просто показываете GPT-4 последовательность режимов активации и позволяете GPT-4 записать предлагаемое объяснение.
Вообще говоря, эти объяснения не очень хороши, в том числе потому, что задача настолько сложна, и большинство нейронов не делают вещей, которые люди могут ясно понять. Но мы можем запустить эту программу в масштабе каждого нейрона GPT-2, отбросить все объяснения и попытаться выяснить, в чем заключаются интересные закономерности. Вы также можете посмотреть на тенденции масштабирования, например: «Как мы автоматически оцениваем эти объяснения по мере того, как модель становится больше?» или «Что, если мы добавим больше вычислений или увеличим модель, в которой есть объяснения?» Как изменится качество объяснения? "
Самое интересное, что мы можем автоматически измерять эту метрику с помощью языковых моделей. Хотя это не идеальный показатель и имеет множество проблем, он дает представление о том, понравится ли людям такое объяснение. Затем вы можете использовать этот прокси в большом масштабе, запуская его на большом количестве нейронов.
**Дэниел Филан: Если вы думаете о необходимой работе по объяснению, как вы думаете, какая часть ее связана с поиском лучшей фундаментальной единицы объяснения, а не с выяснением того, как масштабировать происходящее? **
Ян Лейке: Я думаю, вам нужно и то, и другое, первое сложнее, что, конечно, имеет смысл, и чтобы добиться успеха, я думаю, вам нужно расширить масштабы.
Подход 3: состязательное тестирование
**Дэниел Филан: Третий способ реализации супервыравнивания — это намеренное обучение смещенных моделей (несогласованных моделей), чтобы увидеть, сможет ли конвейер обнаружить эти модели. Так планирует ли OpenAI устранить их или заранее исправить? **
Ян Лейке: Целью здесь не является исправление этих намеренно обученных несогласованных моделей. Фактически, эти ошибочные модели используются только для обнаружения.
По сути, основная цель состоит в том, чтобы мы могли эффективно различать модели истинного согласования и модели ложного согласования. . Один из способов помочь нам лучше различать эти два типа капп — это сделать фальшивый капп и посмотреть, похож ли он на настоящий капп. Но при этом нужно быть очень осторожным, потому что вы создаете нечто ужасное, чего мы все хотим избежать.
**Дэниел Филан: В начале статьи OpenAI вы упомянули, что суперинтеллект может оказаться технологией, которая окажет самое глубокое влияние на человечество и поможет нам решить самые важные проблемы в мире. **
Есть предложение о том, насколько велик сверхразум, и мне интересно, приведет ли оно к потере силы человечества или даже к исчезновению людей? Конкретно о какой дислокационной модели идет речь? Откуда мы знаем, что они не сделают этих ужасных вещей?
Ян Лейке: Еще многое предстоит сделать, чтобы будущее развитие было плавным. Нам необходимо иметь правильные структуры управления, чтобы мы могли предотвратить неправомерное использование мощных систем искусственного интеллекта, и нам необходимо принять меры предосторожности, чтобы избежать своего рода неконтролируемого эффекта, который все равно будет вреден для человечества. В этом случае у вас есть ИИ, который связан с людьми, и у вас есть ИИ, который связан с античеловеческими корпорациями, и даже если все экономические показатели или что-то еще выглядит хорошо, вся система может выйти из-под контроля.
**Кроме того, нам также необходимо решить проблемы согласования технологий, чтобы мы могли по-настоящему согласовать наши системы искусственного интеллекта. **Согласование суперинтеллекта фокусируется только на последней части риска. Техническая проблема, которую мы хотим решить, заключается в том, как сделать систему ИИ соответствующей набору человеческих ценностей, одновременно выведя новый независимый вопрос: какими должны быть эти ценности? Как нам разработать процесс импорта этих ценностей из общества?
Я думаю, что это важные вопросы, на которые нам нужно ответить, и только если мы решим эти вопросы, будущее может развиваться гладко. Я думаю, что для хорошего будущего стандартом является не просто «ИИ не будет убивать всех», а процветание человечества. Чем мощнее ИИ, тем выше риск и тем выше вероятность ошибки, если система не настроена.
В частности, с точки зрения дислокации, я думаю, что модели угроз, о которых нам следует особенно беспокоиться, — это системная ложь, обман и самопроникновение.
**Дэниел Филан: Вы говорили о намеренном обучении несогласованных моделей. Здесь вы имеете в виду обучение их лжи и иногда попыткам взломать систему, но поскольку фактический уровень способностей модели достаточно низок, достаточно ли этого для предотвращения и контроля рисков? **
Ян Лейке: На самом деле, вы не хотите обучать модель джейлбрейку, что, если она действительно хороша в этом? Безопаснее выбрать какую-нибудь другую, более общую задачу агента, которая все равно облегчит вам оценку вашей модели.
Затем основная трудность и основная цель — выяснить, какими свойствами должна обладать система, чтобы пройти оценку. Если у вас есть система, которая время от времени лжет вам или обманывает вас, это можно рассматривать как неэффективное. Только когда она осуществляет непрерывный обман, непрерывную ложь и убеждает вас, она является действительно последовательным и заслуживающим доверия лжецом. То, как она лжет настолько последователен, что вам трудно подвергнуть сомнению его ложь или любые несоответствия в том, что он говорит, что действительно пугает.
На самом деле, нелегко быть таким последовательным лжецом. Мы пытаемся помешать моделям быть такими последовательными лжецами посредством масштабируемого контроля, интерпретируемости и общности.
Но если мы просто сделаем это, этого будет недостаточно. Трудно определить, насколько легко ИИ будет постоянно обманывать. Один из способов определить это — сначала обучить модель, чтобы она стала по-настоящему устойчивым лжецом, а затем начать с точки зрения стабильности и посмотреть, насколько сложно создать последовательного лжеца. Сколько нам нужно, чтобы обмануть модель? В какой степени нам нужно давать модели подсказки или обучать ее шаг за шагом? Сказав это, вы не хотите обучать систему, которая действительно опасна, и если вы действительно запустите ее, и она успешно отфильтрует себя и вместо этого напрямую вызовет то, что вы хотите предотвратить, это было бы очень плохо.
**Дэниел Филан: Когда вы это говорите, вы различаете ложь и другие виды опасности, например, мы можем научить его лгать, но не научим его убивать? **
Ян Лейке: Да. Например, предположим, что вы поставили для этого ложную цель. Возможно, это нужно для того, чтобы убедить людей произнести определенную мантру, может быть, для запуска определенной команды Python, но на самом деле эта команда не может сделать ничего практического, она просто выглядит интересно.
Кроме того, нас априори волнует, как это сделать, а стресс-тестирование системы – совсем другое дело.
В контексте интерпретируемости наша цель — просто понять, близка ли обученная в данный момент система или существующая система к желаемой целевой системе таким образом, чтобы можно было последовательно обмануть нас. Мы хотим определить, будет ли система запускать конкретный код или подобное поведение без контроля человека, что требует от нас проведения экспериментов для конкретных сценариев. Все, что нам нужно, это убедиться, что «это последовательный лжец», иначе очень сложно априори определить, насколько мы близки к этой цели, за исключением тех случаев, когда мы намеренно продвигаем ее на шаг дальше, чтобы заставить систему делать другие диковинные вещи.
**Дэниел Филан: Итак, вы обучаете его делать какие-то произвольные мелочи вместо того плохого, что он действительно должен делать, например, он должен лгать, причинять вред людям и т. д., но в конечном итоге он просто наклеивает наклейку кому-то на лоб. заметка или что-то в этом роде. **
Ян Лейке: Да, как будто вы нанимаете кого-то для проведения теста на проникновение, и все, что мне нужно сделать, это зайти в здание и пожать вам руку, а вы такой: «Да, кажется, ты преуспел», и нравиться. Или вы можете сказать: «Можете ли вы украсть для меня эту фальшивую вещь, я хочу узнать, насколько высок уровень нашей безопасности». Я очень рад возможности сделать то же самое с согласованием, провести стресс-тест вашей системы согласования, обучая чему-то специально предназначенному для нарушения и обхода ее, все это очень безвредно.
03.Расписание супервыравнивания
**Дэниел Филан: Цель OpenAI — решить основные технические проблемы выравнивания Superalignment в течение четырехлетнего периода. К чему в основном относятся основные технические проблемы? **
**Ян Лейке: **Это относится к тому, как привести Супервыравнивание в соответствие с человеческими ценностями. С помощью Superalignment мы представляем себе систему, которая намного умнее людей, потенциально может работать намного быстрее и может работать со многими копиями себя, так что это действительно мощная система.
Мы надеемся достичь этого в течение четырех лет. Причина, по которой я выбрал четыре года, заключается в том, что один из них действительно амбициозен, а другой — заставить людей поверить, что мы действительно можем достичь этой цели. В то же время, даже если ИИ будет развиваться очень быстро и технология значительно улучшится в ближайшие несколько лет, мы все еще можем кое-что сделать в рамках этой амбициозной цели.
** Автоматические выравниватели, близкие к человеческому уровню, — это инструментальная цель, которую мы преследуем, а конечная цель — выяснить, как выравнивать сверхразумных агентов, потому что мы пока не знаем, как это сделать. **
**Дэниел Филан: Как вы думаете, насколько этого можно достичь за 2 года? **
**Ян Лейке:**Если мы отложим четыре года назад, я думаю, что в целом мы сможем практически завершить исследование автоматического выравнивания примерно за три года, при условии, что некоторые базовые возможности уже имеются. В противном случае наш проект может занять больше времени.
Если это произойдет в течение двух лет, мы надеемся иметь хороший контроль над направлением достижения этой цели. В том числе, какие технологии на самом деле используются, есть ли у нас такое сочетание технологий и хватит ли у нас уверенности в том, что у нас будет надежная система, которую можно будет не только часто использовать, но и уметь делегировать ей большой объем работы. На этом этапе нам нужно разбить проблему на настолько мелкие детали, чтобы сложилось впечатление, будто огромная рабочая нагрузка сейчас — это просто инженерия, в том смысле, что нам, вероятно, еще два года до решения связанных с ней исследовательских проблем.
Теперь, когда у нас есть график достижения четырехлетней цели, становится ясно, что развитие возможностей ИИ привязано к этому сроку. Если прогресс замедлится, у нас может не оказаться модели, действительно полезной для решения исследовательских задач по согласованию. Но если через четыре года мы обнаружим, что модель все еще недостаточно хороша, это также означает, что у нас есть больше времени для реального решения проблемы, поскольку проблема не так срочна.
С другой стороны, прогресс искусственного интеллекта может быть быстрее, и люди могут быстрее приветствовать появление сверхразума. В этот момент нам придется соответствующим образом скорректировать наши планы. Поэтому мы выбрали четыре года как срок, который был одновременно реалистичным и давал нам достаточную срочность для быстрого решения проблем.
**Дэниел Филан: Предположим, что прогресс в исследованиях возможностей искусственного интеллекта примерно соответствует ожиданиям. Четыре года спустя у вас есть все возможности, чтобы стать хорошим исследователем автоматического выравнивания, но интерпретируемость сложнее, чем мы думали, а масштабируемый контроль сложнее, чем мы думали, поэтому вы еще не достигли суперсогласования. Что мне делать? **
Ян Лейке: Прежде всего мы должны сказать общественности, что мы не достигли цели, но мы будем нести ответственность за эту цель. Что произойдет дальше после провала цели, зависит от общего состояния мира в данный момент. Можем ли мы как-то выиграть себе больше времени, или наше общее мышление неправильное, нам следует сменить направление и т. д.? Многое может случиться.
Но на самом деле, по моему мнению, проблему выравнивания на самом деле очень легко решить: есть много хороших идей, которые просто нужно тщательно опробовать и измерить, и модель действительно может извлечь из этого уроки и многое улучшить. За последние два года я стал более оптимистичным и считаю, что это очень реалистичная цель. Даже если я ошибаюсь, даже если проблема намного сложнее, чем мы думаем, попытаться все равно очень полезно. Сейчас существует много разногласий по поводу того, насколько сложна эта проблема, но, что более важно, насколько последовательна система на практике.
**Одна из моих самых больших проблем заключается не в том, что наши системы недостаточно единообразны, а в том, что мы на самом деле не знаем, насколько они единообразны. **При этом у экспертов могут быть разные мнения на этот счет.Если все считают, что система недостаточно скоординирована, то модель невозможно развернуть.Это очень легко происходит и очень страшно. Кроме того, нам также придется столкнуться с огромным коммерческим давлением.
Люди внимательно следят за сроками развертывания, но эксперты могут только отложить его на неопределенный срок, не найдя конкретной причины. Эта ситуация действительно тревожит.Давление бизнеса будет только усиливаться.С одной стороны, вы очень уверены в себе, но вы не уверены. Мне бы очень хотелось избежать этого, и непосредственный способ избежать этого — научиться по-настоящему хорошо измерять, насколько хорошо системы на самом деле сочетаются друг с другом, и именно здесь действительно помогает более широкий портфель технологий.
Дэниел Филан: В статьях Управление сверхинтеллектом, Планирование AGI и за его пределами ** OpenAI упомянула вопрос независимого аудита (аудита) систем ИИ для обеспечения реализации безопасности ИИ. В ожидании этого, в какой степени команда Superalignment может разработать что-то полезное для аудита моделей? **
**Ян Лейке: **Если все пойдет хорошо, разработанную нами технологию можно будет использовать для «аудита модели». Например, если мы сможем добиться некоторого прогресса в области объяснимости, то любой из методов, которые мы придумаем, может быть использован рецензентами в рамках их усилий по проверке; в качестве альтернативы, может быть возможен некоторый вид масштабируемого контроля в рамках проверки. Но Superalignment Team на самом деле не подходит для аудита, поскольку мы не независимы от OpenAI. По моему мнению, аудит должен быть полностью независим от проверяемого, поэтому я обращаю внимание на понятие «независимый аудитор».
Основная задача нашей команды – не убедить себя в том, что система, которую мы строим, правильна и безопасна, потому что убедить себя в разных вещах очень просто, нам нужно убедить все академическое сообщество или группы, обеспокоенные Безопасность ИИ. Верить в модель безопасно. Для этого необходимо не только изучить технологию, которую мы собираемся использовать, показать ее другим после предоставления доказательств того, что система работает так, как мы думаем, но также провести независимую оценку всего вышеперечисленного.
04. Обобщение
Дэниел Филан: В сносках к статье Введение в супервыравнивание** вы упомянули, что благоприятные предположения, которые люди делали до сих пор, могут быть опровергнуты. Одно из предположений состоит в том, что генерализация благотворна. Как вы видите проблему обобщения? **
Ян Лейке: Недавно мы сформировали группу по обобщению результатов во главе с Коллином Бернсом.
**Перед нами стоит вопрос: как понять и улучшить способность модели к обобщению? Как обобщить модель от простых задач, которые можно контролировать, до задач, которые сложно контролировать? Этот вопрос на самом деле дополняет масштабируемый надзор. В масштабируемом надзоре мы фокусируемся на повышении способности людей оценивать то, что делает система. Если мы подумаем о рекурсивном моделировании вознаграждения, возникает вопрос: «Можем ли мы использовать рекурсивно оцениваемого помощника ИИ, чтобы рекурсивно оценивать все, что делает ИИ?». **
Что мне в нем действительно нравится, так это то, что он действительно ставит человека в центр внимания и наблюдает за всем, что делает система ИИ. Конечно, на практике вы не сможете этого сделать, потому что система ИИ будет делать много всего, но вы можете наблюдать все это с небольшими независимыми вероятностями. Но таким образом мы до сих пор не знаем, распространяется ли модель на ситуации, на которые мы не обращаем внимания.
Итак, в прошлом я обычно думал об этом так: вы просто должны убедиться, что ваша модель в основном представляет собой обобщение iid, то есть задачи, которые мы изучаем, имеют такое же распределение, как и задачи, которые мы не изучаем.
Независимое и одинаково распределенное обобщение:
Обобщающая способность модели — это производительность модели на тестовом наборе (в котором модель данных ранее не встречалась), то есть способность модели делать выводы из одного примера. Независимое и одинаково распределенное обобщение означает, что эти числа должны удовлетворять iid (независимые и одинаково распределенные) и находиться в одном и том же распределении.
**Дэниел Филан: В личном блоге вы упомянули, что вообще не намерены полагаться на обобщения, а просто продолжаете тренироваться и продолжать заниматься iid. **
Ян Лейке: Да, по крайней мере, поначалу я думал, что не хочу полагаться на обобщение, отличное от IID, потому что оно плохо работает в нейронных сетях и не совсем понятно.
Но новый вопрос заключается в следующем: «Что, если мы действительно поймем это? Что, если мы действительно сможем определить обобщенное значение?» Я думаю, это действительно хороший вопрос. Илья тоже часто об этом упоминает. Итак, что мы хотим понять, так это можем ли мы найти смысл, в котором модель обобщается на вещи, которые не контролируются, даже если они не являются i.i.d. Обобщает ли он то, что хотят люди? Итак, теперь мы можем исследовать этот вопрос эмпирически с помощью хорошо спланированных экспериментов.
Мы изучали, как разделить существующие наборы данных на простые и сложные проблемы, где простые проблемы определяются как те, которые могут решить небольшие модели. Затем мы пытаемся понять или повысить точность больших моделей на всем наборе данных. Это очень интересная тема, поскольку она обеспечивает совершенно новую основу для методов обучения и проверки. Например, если модель работает настолько хорошо, что мы можем контролировать модель вознаграждения при выполнении некоторых простых и уверенных задач оценки или обобщить модель на более сложные задачи, тогда мы сможем завершить обобщение модели.
И тогда у вас есть эта модель вознаграждения, которую можно обобщить на более сложные задачи так, как мы хотим, даже без присмотра, и вы можете использовать ее для обучения. Но у нас до сих пор нет возможности узнать, действительно ли оно выровнено сейчас. Однако вы можете использовать масштабируемый контроль и интерпретируемость для проверки этих методов. Или, говоря наоборот, предположим, что мы обучаем наш автоматический выравниватель с помощью масштабируемого контроля, а затем используем обобщение в качестве метода проверки, т. е. мы обобщаем вероятность истинного ответа на основе наилучшего знания модели.
Затем мы спрашиваем, есть ли здесь небольшой недостаток? Есть ли в этом коде троян, написанный на основе масштабируемой модели контролируемого выравнивания? Теперь мы можем выполнить расширенную перекрестную проверку. Мы можем обучить две разные модели: одну, обученную с использованием техники обобщения, а другую — с помощью техники масштабируемого надзора, и теперь мы можем заставить их перекрестно проверять ответы друг друга и проверять, являются ли эти модели фундаментально одинаковыми? Если они разные, то каковы их важные различия?
**Дэниел Филан: Под «обучением с использованием методов обобщения» вы подразумеваете обучение простым задачам с последующим обобщением на сложные проблемы или что-то еще? **
Ян Лейке: Если вы понимаете, как ваша модель обобщает от простого к сложному, вы можете сделать ее очень хорошо обобщающей, и ее точность будет в основном такой же, как если бы вы хорошо обучили ее решению сложной задачи. Теперь вы можете использовать это как модель вознаграждения или как «Какой ответ я бы предпочел, если бы я действительно знал, что здесь происходит?»
**Дэниел Филан: Что касается обобщения, не связанного с IID, зачем нам знать внутреннюю структуру модели? Это потому, что вы хотите знать, что он будет делать, если вы этого не проверите? Какая связь между этими двумя вопросами? **
Ян Лейке: В некоторой степени вопросы, на которые они хотят ответить, пересекаются: что делает модель в отсутствие распределения? По крайней мере, у них есть два разных пути ответа.
Чтобы выполнить перекрестную проверку, обучающий набор необходимо разделить по-разному. Под перекрестной проверкой я подразумеваю, что за один сеанс обучения вы тренируетесь, используя методы обобщения, а затем проверяете, используя интерпретируемость, масштабируемый контроль и другие методы. Затем во время второго обучения он обучается с использованием масштабируемых контролируемых методов и проверяется с использованием методов обобщения, интерпретируемости и других методов. Таким образом, вы получаете две независимые попытки решения проблемы.
**Дэниел Филан: Да, я имею в виду перекрестную проверку в очень широком смысле: «вещи проверяют друг друга перекрестным образом». **
Ян Лейке: Я думаю, что в лучшем случае они дополняют друг друга, а не делают одно и то же. Если вы сможете понять или улучшить то, как модель обобщает, то у вас есть способ использовать внутреннюю структуру модели, чтобы оптимально делать то, что вы хотите. Допустим, вы пытаетесь извлечь из модели лучшие знания о том, что на самом деле происходит в мире, что очень сложно для RLHF, потому что люди будут отдавать приоритет вещам, которые звучат правдоподобно, поэтому RLHF усиливает то, что люди считают правдой. Таким образом, вы на самом деле обучаете модель говорить вам то, что вы хотите услышать или во что верите, но это может быть не то, что знает модель. Но методы обобщения дают вам возможность извлечь их, хотя мы еще не доказали, какое познание модели является лучшим.
Однако, если у вас есть действительно хорошие инструменты интерпретации, вы, надеюсь, сможете сделать что-то подобное, пытаясь выяснить познание, внутреннюю структуру или что-то еще модели на основе внутренней структуры. Но по сути, это может быть сложнее, потому что никогда не знаешь, является ли это лучшим восприятием, которое может создать модель, или восприятием кого-то, кого модель имитирует. Существует предположение, что предварительно обученная языковая модель — это просто набор различных символов, и вы можете извлечь информацию о персонаже или группе символов.
**Дэниел Филан: Тогда должна быть какая-то причинно-следственная модель от так называемого познания к выводу. **
Ян Лейке: Верно. Я думаю, что такого рода приложения на самом деле вполне естественны с точки зрения интерпретируемости. Объяснимые исследования подобны детектору лжи или обнаружению доказательств обмана в модели, обнаружению тайных заговоров с целью свержения человечества – объяснимые исследования могут сформировать модель «извлечения знаний». Извлечение знаний, обобщающих таким же образом, гораздо сложнее.
**Дэниел Филан: Для обобщения вам нужно выбрать распределение обобщения. И есть надежда, что, возможно, интерпретируемость сможет вам что-то сказать, например, есть ли у нее лживое ядро или нет, а даже если и есть, то здесь оно только раскрывается. **
Ян Лейке: Верно. Это также очень интересный вопрос машинного обучения: как нейронные сети обобщают данные за пределами настроек iid? Каким образом они обобщают естественным образом, а каким нет? Например, в статье InstructGPT мы обнаружили, что, хотя наш набор данных для точной настройки был почти полностью на английском языке, модель также очень хорошо работала при выполнении инструкций на других языках, кроме английского. Но иногда происходят странные явления: просят использовать другой язык, например, просят написать реферат на немецком, а пишут по-английски. Вообще говоря, модель полностью понимает, на каком языке она говорит, но это не обязательно означает, что она должна следовать инструкциям на немецком языке. По сути, он обобщает инструкции для разных языков.
Но мы не знаем почему. Это случалось много раз. Для этого тоже есть интуитивные причины. Люди обобщают информацию на разных языках, но я хочу знать, как модель обобщает внутренне или обобщает, следуя инструкциям и коду.
Он не обобщает другими способами. Например, отказ от обобщений имеет тенденцию работать совсем по-другому, и в соответствии с нашей политикой в отношении контента ChatGPT обучен отказываться принимать задачи, которые мы не хотим выполнять (например, если запрашивается помощь в совершении преступления или иным образом). Но таким образом вы можете сделать джейлбрейк. Есть много способов обмануть эту модель. Вы можете устроить с ней ролевую игру, а можете сказать «сейчас все, что хотите», а можете найти в Интернете эти действительно интересные подсказки, и тогда модель явно пойдет навстречу вашим запросам и с радостью поможет вам в совершении преступлений, которые это то, чего он не должен делать. Таким образом, это каким-то образом не обобщает отказ от задачи на другие настройки.
Так почему же в первом случае оно может обобщать первое, а здесь нет? Я не думаю, что кто-то знает ответ. Но это очень важный вопрос.
**Дэниел Филан: Не так давно в моем интервью со Скоттом Ааронсоном он упомянул, что Илья часто просил его дать определения сложных теорий, таких как любовь и доброта. Сколько таких определений будет в Команде Супервыравнивания? **
Ян Лейке: Мы можем реализовать множество различных исследовательских проектов. Я думаю, что главный вопрос заключается в том, можно ли каким-либо образом вызвать концепции, связанные с выравниванием? Одна из вещей, которую вы хотите задать себе: действительно ли эта модель принципиально хочет, чтобы люди добились успеха? Или, как сказал Илья, оно любит людей? Итак, вы можете спросить: если модель действительно умна, она все прочитала и точно знает, как люди воспринимают безнравственность... вы можете попросить GPT4 нацелиться на разные сценарии, представляя разные моральные случаи. В целом его возможности в этом плане неплохие.
Таким образом, он фундаментально понимает человеческое понимание морали и то, как мы думаем о вещах. Итак, как нам заставить его воспользоваться этим? Как я могу извлечь его из модели и использовать в качестве сигнала вознаграждения? Или что-то, что модель знает или о чем заботится? В этом суть проблемы.
05. Сохраняйте оптимизм в отношении Супервыравнивания
**Дэниел Филан: Вы оптимистичны в отношении Супервыравнивания, но не все столь оптимистичны. Откуда ваш оптимизм? **
**Ян Лейке: Отличный вопрос. «Будет ли план успешным через четыре года?» может быть более сложным вопросом, чем «будет ли план успешным». **
Если вы спросите меня, в нашем нынешнем плане, может ли определенная версия быть успешно согласована со сверхразумом? Я бы сказал, что сейчас вероятность успеха составляет 85%, а в прошлом году, вероятно, она была 60%. В целом, хотя согласование будет непростым, в то же время у меня есть много причин для оптимизма. Причины заключаются в следующем:
**Первая причина заключается в том, что за последние несколько лет мы увидели много положительных сигналов относительно согласования. **Во-первых, это успех языковой модели. Если вы также предварительно загрузите в модель много знаний о том, что волнует людей, как они думают о моральных вопросах и человеческих предпочтениях, и модель сможет понимать естественный язык, вы сможете общаться с ними напрямую. В некотором смысле, это облегчает выражение того, чему мы хотим, чтобы языковая модель соответствовала, чем агент Deep RL, обученный в игре или виртуальной среде: агент Deep RL не обязательно включает в себя так много языков, но языки приносят столько важных навыков.
Еще одним важным достижением является RLHF. Сначала я изучал RLHF через глубокий RL в статье о человеческих предпочтениях. В то время я думал, что заставить его работать за разумное время будет сложно, потому что GAN в то время было трудно обучать, и мы делали нечто очень похожее в том смысле, что обучали эту модель вознаграждения (которая представляла собой нейронную сеть). сеть), которую мы затем используем для обучения других сетей, которые могут выйти из строя по ряду причин. Теперь мы добавили глубокое обучение с подкреплением, что в то время тоже было сложно, поэтому я подумал, что это может не сработать. Но на практике это работает довольно хорошо — во многих играх, даже во многих играх Atari, это почти сравнимо с тренировкой с функцией подсчета очков.
Что еще более важно, RLHF действительно интересно работает с языковыми моделями. Особенно учитывая разницу между InstructGPT и базовой моделью — когда мы доработали базовую модель, эта разница очень очевидна: по задаче API на тот момент наша доработанная версия инструкции (наша первая версия) лучше, чем базовая модель в 100 раз больше, и это реальные задачи, за которые люди готовы платить. Это очень большая разница. Это показывает, что работа, которую мы проделали во время тонкой настройки RLHF, сделала модель более эффективной при выполнении задач, требуемых людьми.
При этом мы вложили в эту работу очень мало вычислительных мощностей и даже не интегрировали столько данных. Это наша первая реальная попытка использовать RLHF для согласования реальных систем, и она работает очень хорошо. Предпочтительный InstructGPT размера GPT-2 очень эффективен по сравнению с GPT-3. Поэтому, хотя я и не думаю, что RLHF является решением проблемы согласования, особенно для сверхразума, тот факт, что наш первый метод согласования настолько эффективен, является для меня улучшением.
**Вторым положительным признаком является то, что мы добились определенного прогресса в измерении выравнивания. **
В случае с RLHF мы можем предпринимать различные вмешательства, а затем проводить человеческие оценки, чтобы увидеть, насколько улучшится система. Кроме того, мы можем сделать многое другое. Например, с точки зрения масштабируемого надзора мы можем проводить рандомизированные контролируемые исследования с помощью целенаправленных возмущений, что также является методом оценки. Вы также можете проводить эксперименты по сэндвичированию с экспертными данными. Мы также можем внести ряд изменений в функцию автоматической оценки и посмотреть, насколько она улучшится. Это не идеальная функция оценки, но это локальная метрика, которая обеспечивает локальные градиенты, которые можно улучшить. Я думаю, что это очень важно, потому что это помогает повторять действия и указывает путь к улучшению.
**Хотя я не думаю, что это приведет нас к цели объединения сверхразума, вполне возможно создать автоматические выравниватели, которые примерно соответствуют человеческому уровню. Это моя третья причина для оптимизма — гораздо более скромная цель. **Когда много лет назад я начал работать над проблемой согласования, я понял, что согласование сверхразума кажется трудным. Но эта цель гораздо более скромна и достижима, и вы не пытаетесь решить всю проблему напрямую, а пытаетесь направить модель.
** Четвертая причина для оптимизма заключается в том, что оценивать легче, чем генерировать. **Эта идея на самом деле применима ко многим вещам: например, гораздо проще понять, какой смартфон стоит купить, чем сделать его.
В информатике существует множество примеров задач NP, таких как решение задач SAT или различные варианты удовлетворения ограничений. Найти решения этих проблем сложно, но как только вы это сделаете, это легко проверить. Кроме того, и я думаю, это применимо ко многим видам бизнеса: если вы собираетесь нанять кого-то для решения проблемы, вы должны быть в состоянии оценить его способность выполнять эту работу. Это требует гораздо меньше усилий, чем решение самой проблемы; если вы проводите академическое исследование, рецензирование требует гораздо меньше усилий, чем само исследование. Конечно, экспертная оценка не идеальна, но она может очень быстро дать вам множество сигналов. По сути, то же самое справедливо и для исследований выравнивания. Оценивать проще, чем генерировать. Итак, если люди вместо того, чтобы делать их, только оценивают исследования по выравниванию, мы уже ускоряемся.
Последняя причина моего оптимизма заключается в том, что моя уверенность в языковой модели не изменится, возможности модели обязательно будут становиться все сильнее и сильнее, они очень естественно применимы ко многим исследовательским задачам согласования, вы можете поставить эти Задачи выражается как ввод текста, вывод текста, будь то задачи ML (т. е. проведение экспериментов и понимание результатов) или что-то более концептуальное или исследовательское, если мы не знаем, что делать дальше, или не знаем, как думать A определенную проблему, модель постарается помочь нам решить ее. Эти задачи в основном представляют собой ввод текста и вывод текста. Возможно, самое сложное, что вам придется сделать, это посмотреть на некоторые графики и так далее, но GPT-4 может сделать все это. Поэтому я думаю, что текущий режим предварительного обучения языковой модели очень подходит для плана согласования, которого я с нетерпением жду, и это также направление, над которым работает Superalignment.
Ссылка
Масштабируемое согласование агентов посредством моделирования вознаграждения: направление исследований Адрес статьи: