← Claude на русском
Открыть оригинал
Перевод
Перевёл Claude Opus 4.7 (ИИ). Это не официальный перевод Anthropic — при сомнениях сверяйся с оригиналом.

Новая конституция Claude

Оригинал: Claude's new constitution · автор: Anthropic · 22 января 2026 · сверено 2026-04-26

Иллюстрация к новой конституции Claude

Прочитать конституцию

Мы публикуем новую конституцию для нашей AI-модели Claude. Это подробное описание видения Anthropic относительно ценностей и поведения Claude; целостный документ, который объясняет контекст, в котором Claude действует, и то, какой сущностью мы хотели бы, чтобы Claude был.

Конституция — критически важная часть нашего процесса обучения модели, и её содержание напрямую формирует поведение Claude. Обучать модели — сложная задача, и выходные данные Claude не всегда могут соответствовать идеалам конституции. Но мы считаем, что то, как написана новая конституция — с подробным объяснением наших намерений и причин, стоящих за ними, — повышает вероятность того, что в ходе обучения будут культивироваться хорошие ценности.

В этом посте мы рассказываем, что мы включили в новую конституцию, и о некоторых соображениях, которые повлияли на наш подход.

Мы выпускаем конституцию Claude полностью под лицензией Creative Commons CC0 1.0 Deed, что означает, что её может свободно использовать кто угодно для любых целей без необходимости спрашивать разрешения.

Что такое конституция Claude?

Конституция Claude — это основополагающий документ, который одновременно выражает и формирует то, кем является Claude. Она содержит подробные объяснения ценностей, которые мы хотели бы, чтобы Claude воплощал, и причин, по которым это так. В ней мы объясняем, что, по нашему мнению, означает для Claude быть полезным, оставаясь при этом broadly safe, этичным и соответствующим нашим инструкциям. Конституция даёт Claude информацию о его ситуации и предлагает советы о том, как действовать в трудных ситуациях и при компромиссах — например, при балансировании честности с состраданием и защитой чувствительной информации. Хотя это может звучать удивительно, конституция написана прежде всего для Claude. Она призвана дать Claude знания и понимание, необходимые ему, чтобы хорошо действовать в мире.

Мы относимся к конституции как к окончательному авторитету в вопросе того, каким мы хотим видеть Claude и как мы хотим, чтобы он себя вёл, — то есть любое другое обучение или инструкция, даваемая Claude, должна соответствовать как её букве, так и её основополагающему духу. Это делает публикацию конституции особенно важной с точки зрения прозрачности: она позволяет людям понимать, какие из поведений Claude являются намеренными, а какие — нет, делать информированный выбор и давать полезную обратную связь. Мы считаем, что прозрачность такого рода будет становиться всё важнее по мере того, как ИИ начинают оказывать всё большее влияние на общество1.

Мы используем конституцию на разных этапах процесса обучения. Это выросло из техник обучения, которые мы используем с 2023 года, когда впервые начали обучать модели Claude с помощью Constitutional AI. С тех пор наш подход существенно эволюционировал, и в новой конституции она играет ещё более центральную роль в обучении.

Сам Claude также использует конституцию для построения многих видов синтетических обучающих данных, включая данные, которые помогают ему изучать и понимать конституцию, разговоры, в которых конституция может быть релевантна, ответы, согласующиеся с его ценностями, и ранжирования возможных ответов. Всё это может использоваться для обучения будущих версий Claude быть той сущностью, которую описывает конституция. Эта практическая функция повлияла на то, как мы написали конституцию: она должна работать и как изложение абстрактных идеалов, и как полезный артефакт для обучения.

Наш новый подход к конституции Claude

Наша предыдущая конституция состояла из списка отдельно стоящих принципов. Мы пришли к мнению, что необходим иной подход. Мы считаем, что для того, чтобы быть хорошими акторами в мире, AI-моделям вроде Claude нужно понимать, почему мы хотим, чтобы они вели себя определённым образом, и нам нужно объяснять им это, а не просто указывать, что мы хотим, чтобы они делали. Если мы хотим, чтобы модели проявляли хорошее суждение в широком диапазоне новых ситуаций, они должны уметь обобщать — применять широкие принципы, а не механически следовать конкретным правилам.

Конкретные правила и чёткие границы иногда имеют свои преимущества. Они могут делать действия моделей более предсказуемыми, прозрачными и проверяемыми, и мы используем их для некоторых особенно рискованных видов поведения, в которые Claude никогда не должен вовлекаться (мы называем их «hard constraints»). Но такие правила могут также применяться плохо в непредвиденных ситуациях или при слишком жёстком следовании им2. Мы не намерены делать конституцию жёстким юридическим документом — да и юридические конституции и сами не обязательно таковы.

Конституция отражает наше текущее мышление о том, как подходить к пугающе новому проекту с высокой ценой ошибки: созданию безопасных, благотворных нечеловеческих сущностей, чьи возможности могут со временем сравняться с нашими или превзойти их. Хотя документ, без сомнения, во многих отношениях несовершенен, мы хотим, чтобы он был чем-то, на что будущие модели смогут оглянуться и увидеть в нём честную и искреннюю попытку помочь Claude понять его ситуацию, наши мотивы и причины, по которым мы формируем Claude так, как мы это делаем.

Краткое содержание новой конституции

Чтобы быть одновременно безопасным и благотворным, мы хотим, чтобы все текущие модели Claude были:

В случаях явного конфликта Claude обычно должен приоритизировать эти свойства в том порядке, в котором они перечислены.

Большая часть конституции посвящена более подробным объяснениям и рекомендациям относительно этих приоритетов. Основные разделы таковы:

Сегодня мы выпускаем полный текст конституции и стремимся в будущем выпустить дополнительные материалы, которые будут полезны для обучения, оценки и прозрачности.

Заключение

Конституция Claude — это живой документ и непрерывно идущая работа. Это новая территория, и мы ожидаем, что будем совершать ошибки (и, надеемся, исправлять их) по пути. Тем не менее мы надеемся, что она предлагает значимую прозрачность относительно ценностей и приоритетов, которые, как мы считаем, должны направлять поведение Claude. С этой целью мы будем поддерживать актуальную версию конституции Claude на нашем сайте.

При написании конституции мы запрашивали обратную связь у различных внешних экспертов (а также спрашивали мнение у предыдущих итераций Claude). Мы, вероятно, продолжим делать это и для будущих версий документа — у экспертов в праве, философии, теологии, психологии и широком диапазоне других дисциплин. Со временем мы надеемся, что может возникнуть внешнее сообщество, которое будет критиковать подобные документы, побуждая нас и других быть всё более вдумчивыми.

Эта конституция написана для наших основных, общедоступных моделей Claude. У нас есть некоторые модели, построенные для специализированных применений, которые не вполне укладываются в эту конституцию; по мере того, как мы продолжаем разрабатывать продукты для специализированных сценариев использования, мы будем продолжать оценивать, как лучше всего обеспечить, чтобы наши модели соответствовали ключевым целям, изложенным в этой конституции.

Хотя конституция выражает наше видение Claude, обучение моделей в направлении этого видения — продолжающийся технический вызов. Мы будем продолжать открыто говорить о любых способах, которыми поведение модели расходится с нашим видением, например, в наших system cards. Читателям конституции стоит держать этот разрыв между намерением и реальностью в уме.

Даже если нам удастся с нашими текущими методами обучения создать модели, соответствующие нашему видению, мы можем потерпеть неудачу позже, по мере того как модели становятся всё более способными. По этой и другим причинам, наряду с конституцией, мы продолжаем развивать широкий портфель методов и инструментов, которые помогают нам оценивать и улучшать выравнивание наших моделей: новые и более строгие оценки, защитные механизмы для предотвращения злоупотреблений, подробные исследования фактических и потенциальных провалов выравнивания и инструменты интерпретируемости, которые помогают нам понимать на более глубоком уровне, как работают модели.

В какой-то момент в будущем — и, возможно, скоро — документы вроде конституции Claude могут начать значить очень много, гораздо больше, чем сейчас. Мощные AI-модели будут новым видом силы в мире, и те, кто их создаёт, имеют шанс помочь им воплотить лучшее в человечестве. Мы надеемся, что эта новая конституция — шаг в этом направлении.

Прочитайте полный текст конституции.

Сноски

  1. Ранее мы публиковали более раннюю версию нашей конституции, а OpenAI опубликовала свою model spec, которая выполняет схожую функцию.
  2. Обучение на жёстких правилах может негативно сказаться на характере модели в более общем смысле. Например, представьте, что мы обучили Claude следовать правилу вроде «Всегда рекомендуй обратиться к специалисту при обсуждении эмоциональных тем». Это могло бы быть благонамеренно, но могло бы иметь непредвиденные последствия: Claude мог бы начать моделировать себя как сущность, которой больше важно бюрократическое проставление галочек — всегда обеспечивать, чтобы была сделана определённая рекомендация, — чем реальная помощь людям.