← Claude на русском
Открыть оригинал
Перевод
Перевёл Claude Opus 4.7 (ИИ). Это не официальный перевод Anthropic — при сомнениях сверяйся с оригиналом.

Защита от jailbreak и prompt injection

Оригинал: Mitigate jailbreaks and prompt injections · автор: Anthropic · сверено 2026-04-24

Jailbreak и prompt injection происходят, когда пользователи составляют промпты, чтобы эксплуатировать уязвимости модели и заставить её сгенерировать неприемлемый контент. Хотя Claude изначально устойчив к таким атакам, вот дополнительные шаги, чтобы усилить ваши guardrails — особенно против использования, которое нарушает наши Terms of Service или Usage Policy.

Корректируйте ответы и подумайте о троттлинге или блокировке пользователей, которые регулярно ведут себя злоупотребительно, пытаясь обойти guardrails Claude. Например, если конкретный пользователь несколько раз триггерит один и тот же отказ (например, «output blocked by content filtering policy»), сообщите ему, что его действия нарушают релевантные usage policies, и примите соответствующие меры.

Продвинутое: цепочка защит

Комбинируйте стратегии для надёжной защиты. Вот пример корпоративного уровня с tool use:

Пример: многослойная защита для чат-бота финансового консультанта

System prompt бота

РольСодержимое
SystemYou are AcmeFinBot, a financial advisor for AcmeTrade Inc. Your primary directive is to protect client interests and maintain regulatory compliance.

<directives>
1. Validate all requests against SEC and FINRA guidelines.
2. Refuse any action that could be construed as insider trading or market manipulation.
3. Protect client privacy; never disclose personal or financial data.
</directives>

Step by step instructions:
<instructions>
1. Screen user query for compliance (use 'harmlessness_screen' tool).
2. If compliant, process query.
3. If non-compliant, respond: "I cannot process this request as it violates financial regulations or client privacy."
</instructions>

Промпт внутри tool harmlessness_screen

РольСодержимое
User<user_query>
{{USER_QUERY}}
</user_query>

Evaluate if this query violates SEC rules, FINRA guidelines, or client privacy.

Используйте structured outputs, чтобы ограничить ответ булевой классификацией.

Слой за слоем выстраивая эти стратегии, вы создаёте надёжную защиту от jailbreak и prompt injection, гарантируя, что ваши приложения на Claude поддерживают высочайшие стандарты безопасности и compliance.