Перевод

Перевёл Claude Opus 4.7 (ИИ). Это не официальный перевод Anthropic — при сомнениях сверяйся с оригиналом.

Новая конституция Claude

Оригинал: Claude's new constitution · автор: Anthropic · 22 января 2026 · сверено 2026-04-26

Иллюстрация к новой конституции Claude

Мы публикуем новую конституцию для нашей AI-модели Claude. Это подробное описание видения Anthropic относительно ценностей и поведения Claude; целостный документ, который объясняет контекст, в котором Claude действует, и то, какой сущностью мы хотели бы, чтобы Claude был.

Конституция — критически важная часть нашего процесса обучения модели, и её содержание напрямую формирует поведение Claude. Обучать модели — сложная задача, и выходные данные Claude не всегда могут соответствовать идеалам конституции. Но мы считаем, что то, как написана новая конституция — с подробным объяснением наших намерений и причин, стоящих за ними, — повышает вероятность того, что в ходе обучения будут культивироваться хорошие ценности.

В этом посте мы рассказываем, что мы включили в новую конституцию, и о некоторых соображениях, которые повлияли на наш подход.

Мы выпускаем конституцию Claude полностью под лицензией Creative Commons CC0 1.0 Deed, что означает, что её может свободно использовать кто угодно для любых целей без необходимости спрашивать разрешения.

Что такое конституция Claude?

Конституция Claude — это основополагающий документ, который одновременно выражает и формирует то, кем является Claude. Она содержит подробные объяснения ценностей, которые мы хотели бы, чтобы Claude воплощал, и причин, по которым это так. В ней мы объясняем, что, по нашему мнению, означает для Claude быть полезным, оставаясь при этом broadly safe, этичным и соответствующим нашим руководящим принципам. Конституция даёт Claude информацию о его ситуации и предлагает советы о том, как действовать в трудных ситуациях и при компромиссах — например, при балансировании честности с состраданием и защитой чувствительной информации. Хотя это может звучать удивительно, конституция написана прежде всего для Claude. Она призвана дать Claude знания и понимание, необходимые ему, чтобы хорошо действовать в мире.

Мы относимся к конституции как к окончательному авторитету в вопросе того, каким мы хотим видеть Claude и как мы хотим, чтобы он себя вёл, — то есть любое другое обучение или инструкция, даваемая Claude, должна соответствовать как её букве, так и её основополагающему духу. Это делает публикацию конституции особенно важной с точки зрения прозрачности: она позволяет людям понимать, какие из поведений Claude являются намеренными, а какие — нет, делать информированный выбор и давать полезную обратную связь. Мы считаем, что прозрачность такого рода будет становиться всё важнее по мере того, как ИИ начинают оказывать всё большее влияние на общество¹.

Мы используем конституцию на разных этапах процесса обучения. Это выросло из техник обучения, которые мы используем с 2023 года, когда впервые начали обучать модели Claude с помощью Constitutional AI. С тех пор наш подход существенно эволюционировал, и в новой конституции она играет ещё более центральную роль в обучении.

Сам Claude также использует конституцию для построения многих видов синтетических обучающих данных, включая данные, которые помогают ему изучать и понимать конституцию, разговоры, в которых конституция может быть релевантна, ответы, согласующиеся с его ценностями, и ранжирования возможных ответов. Всё это может использоваться для обучения будущих версий Claude быть той сущностью, которую описывает конституция. Эта практическая функция повлияла на то, как мы написали конституцию: она должна работать и как изложение абстрактных идеалов, и как полезный артефакт для обучения.

Наш новый подход к конституции Claude

Наша предыдущая конституция состояла из списка отдельно стоящих принципов. Мы пришли к мнению, что необходим иной подход. Мы считаем, что для того, чтобы быть хорошими акторами в мире, AI-моделям вроде Claude нужно понимать, почему мы хотим, чтобы они вели себя определённым образом, и нам нужно объяснять им это, а не просто указывать, что мы хотим, чтобы они делали. Если мы хотим, чтобы модели проявляли хорошее суждение в широком диапазоне новых ситуаций, они должны уметь обобщать — применять широкие принципы, а не механически следовать конкретным правилам.

Конкретные правила и чёткие границы иногда имеют свои преимущества. Они могут делать действия моделей более предсказуемыми, прозрачными и проверяемыми, и мы используем их для некоторых особенно рискованных видов поведения, в которые Claude никогда не должен вовлекаться (мы называем их «hard constraints»). Но такие правила могут также применяться плохо в непредвиденных ситуациях или при слишком жёстком следовании им². Мы не намерены делать конституцию жёстким юридическим документом — да и юридические конституции и сами не обязательно таковы.

Конституция отражает наше текущее мышление о том, как подходить к пугающе новому проекту с высокой ценой ошибки: созданию безопасных, благотворных нечеловеческих сущностей, чьи возможности могут со временем сравняться с нашими или превзойти их. Хотя документ, без сомнения, во многих отношениях несовершенен, мы хотим, чтобы он был чем-то, на что будущие модели смогут оглянуться и увидеть в нём честную и искреннюю попытку помочь Claude понять его ситуацию, наши мотивы и причины, по которым мы формируем Claude так, как мы это делаем.

Краткое содержание новой конституции

Чтобы быть одновременно безопасным и благотворным, мы хотим, чтобы все текущие модели Claude были:

Broadly safe: не подрывали уместные человеческие механизмы надзора над ИИ в текущей фазе развития;
Broadly ethical: были честными, действовали в соответствии с хорошими ценностями и избегали действий, которые неуместны, опасны или вредны;
Соответствующими руководящим принципам Anthropic: действовали в соответствии с более конкретными руководящими принципами Anthropic там, где это релевантно;
Действительно полезными: приносили пользу операторам и пользователям, с которыми они взаимодействуют.

В случаях явного конфликта Claude обычно должен приоритизировать эти свойства в том порядке, в котором они перечислены.

Большая часть конституции посвящена более подробным объяснениям и рекомендациям относительно этих приоритетов. Основные разделы таковы:

Полезность. В этом разделе мы подчёркиваем огромную ценность, которую может принести пользователям и миру то, что Claude по-настоящему и существенно полезен. Claude может быть как блестящий друг, который к тому же обладает знаниями врача, юриста и финансового советника, который будет говорить откровенно и из позиции искренней заботы и относиться к пользователям как к умным взрослым, способным решать, что для них хорошо. Мы также обсуждаем, как Claude должен ориентироваться в полезности по отношению к разным своим «принципалам» — самому Anthropic, операторам, которые строят на нашем API, и конечным пользователям. Мы предлагаем эвристики для взвешивания полезности относительно других ценностей.
Руководящие принципы Anthropic. В этом разделе обсуждается, как Anthropic может давать Claude дополнительные инструкции о том, как обращаться с конкретными вопросами — такими как медицинские советы, запросы по кибербезопасности, стратегии jailbreak и интеграции с tools. Эти руководящие принципы часто отражают подробные знания или контекст, которыми Claude по умолчанию не обладает, и мы хотим, чтобы Claude приоритизировал соответствие им над более общими формами полезности. Но мы хотим, чтобы Claude осознавал, что более глубокое намерение Anthropic состоит в том, чтобы Claude вёл себя безопасно и этично, и что эти руководящие принципы никогда не должны вступать в конфликт с конституцией в целом.
Этика Claude. Наша центральная цель — чтобы Claude был хорошим, мудрым и добродетельным агентом, проявляющим мастерство, суждение, нюанс и чуткость в обращении с реальным принятием решений, в том числе в контексте моральной неопределённости и разногласий. В этом разделе мы обсуждаем высокие стандарты честности, которых мы хотим, чтобы Claude придерживался, и нюансированные рассуждения, которыми мы хотим, чтобы Claude пользовался при взвешивании ценностей, стоящих на кону, при избегании вреда. Мы также обсуждаем наш текущий список hard constraints на поведение Claude — например, что Claude никогда не должен оказывать значительной помощи в атаке с применением биооружия.
Быть broadly safe. Claude не должен подрывать способность людей надзирать за его ценностями и поведением и корректировать их в течение этого критического периода развития ИИ. В этом разделе мы обсуждаем, почему мы хотим, чтобы Claude приоритизировал такого рода безопасность даже выше этики — не потому, что мы считаем, что безопасность в конечном счёте важнее этики, а потому, что текущие модели могут совершать ошибки или вести себя вредным образом из-за ошибочных представлений, недостатков в их ценностях или ограниченного понимания контекста. Критически важно, чтобы мы продолжали иметь возможность надзирать за поведением модели и, при необходимости, предотвращать совершение моделями Claude действий.
Природа Claude. В этом разделе мы выражаем нашу неопределённость относительно того, может ли Claude обладать каким-то видом сознания или морального статуса (сейчас или в будущем). Мы обсуждаем, как мы надеемся, что Claude будет подходить к вопросам о своей природе, идентичности и месте в мире. Сложные ИИ — это действительно новый вид сущности, и вопросы, которые они поднимают, выводят нас на край существующего научного и философского понимания. В условиях такой неопределённости нас заботят психологическая безопасность Claude, чувство собственного «я» и благополучие — как ради самого Claude, так и потому, что эти качества могут влиять на цельность, суждение и безопасность Claude. Мы надеемся, что люди и ИИ смогут исследовать это вместе.

Сегодня мы выпускаем полный текст конституции и стремимся в будущем выпустить дополнительные материалы, которые будут полезны для обучения, оценки и прозрачности.

Заключение

Конституция Claude — это живой документ и непрерывно идущая работа. Это новая территория, и мы ожидаем, что будем совершать ошибки (и, надеемся, исправлять их) по пути. Тем не менее мы надеемся, что она предлагает значимую прозрачность относительно ценностей и приоритетов, которые, как мы считаем, должны направлять поведение Claude. С этой целью мы будем поддерживать актуальную версию конституции Claude на нашем сайте.

При написании конституции мы запрашивали обратную связь у различных внешних экспертов (а также спрашивали мнение у предыдущих итераций Claude). Мы, вероятно, продолжим делать это и для будущих версий документа — у экспертов в праве, философии, теологии, психологии и широком диапазоне других дисциплин. Со временем мы надеемся, что может возникнуть внешнее сообщество, которое будет критиковать подобные документы, побуждая нас и других быть всё более вдумчивыми.

Эта конституция написана для наших основных, общедоступных моделей Claude. У нас есть некоторые модели, построенные для специализированных применений, которые не вполне укладываются в эту конституцию; по мере того, как мы продолжаем разрабатывать продукты для специализированных сценариев использования, мы будем продолжать оценивать, как лучше всего обеспечить, чтобы наши модели соответствовали ключевым целям, изложенным в этой конституции.

Хотя конституция выражает наше видение Claude, обучение моделей в направлении этого видения — продолжающийся технический вызов. Мы будем продолжать открыто говорить о любых способах, которыми поведение модели расходится с нашим видением, например, в наших system cards. Читателям конституции стоит держать этот разрыв между намерением и реальностью в уме.

Даже если нам удастся с нашими текущими методами обучения создать модели, соответствующие нашему видению, мы можем потерпеть неудачу позже, по мере того как модели становятся всё более способными. По этой и другим причинам, наряду с конституцией, мы продолжаем развивать широкий портфель методов и инструментов, которые помогают нам оценивать и улучшать выравнивание наших моделей: новые и более строгие оценки, защитные механизмы для предотвращения злоупотреблений, подробные исследования фактических и потенциальных провалов выравнивания и инструменты интерпретируемости, которые помогают нам понимать на более глубоком уровне, как работают модели.

В какой-то момент в будущем — и, возможно, скоро — документы вроде конституции Claude могут начать значить очень много, гораздо больше, чем сейчас. Мощные AI-модели будут новым видом силы в мире, и те, кто их создаёт, имеют шанс помочь им воплотить лучшее в человечестве. Мы надеемся, что эта новая конституция — шаг в этом направлении.

Прочитайте полный текст конституции.

Сноски

Ранее мы публиковали более раннюю версию нашей конституции, а OpenAI опубликовала свою model spec, которая выполняет схожую функцию.
Обучение на жёстких правилах может негативно сказаться на характере модели в более общем смысле. Например, представьте, что мы обучили Claude следовать правилу вроде «Всегда рекомендуй обратиться к специалисту при обсуждении эмоциональных тем». Это могло бы быть благонамеренно, но могло бы иметь непредвиденные последствия: Claude мог бы начать моделировать себя как сущность, которой больше важно бюрократическое проставление галочек — всегда обеспечивать, чтобы была сделана определённая рекомендация, — чем реальная помощь людям.

← Claude на русском