AI-гайд

Как работают LLM

AI-гайд · 2026-04-27

Когда вы пишете код через Claude Code Desktop, легко относиться к модели как к магии: задал вопрос — получил ответ, попросил поправить файл — поправила. Этот гайд снимает магию. Не до уровня математики (про трансформеры и формулы тут не будет ни слова), а до уровня, которого хватит, чтобы понимать, почему модель иногда «забывает», что вы говорили час назад, почему придумывает несуществующий метод библиотеки и почему её не надо настраивать «потемпературнее».

Речь пойдёт про LLM в целом — large language model, большая языковая модель. Claude от Anthropic, GPT от OpenAI, Gemini от Google устроены по одним и тем же базовым принципам. Различия между конкретными моделями Claude — Opus, Sonnet, Haiku, режимы «подумать дольше» — в следующем гайде.

Что вообще такое LLM

LLM — это очень большая нейросеть, обученная на гигантском объёме текста (книги, статьи, код, форумы, документация) одной простой задаче: предсказывать следующий кусочек текста. Дали ей начало предложения «Столица Франции — » — она должна выдать «Париж». Дали кусок Kotlin-кода без последней строки — она должна догадаться, какой там должен быть закрывающий вызов.

Звучит примитивно, но именно эта задача, повторённая триллионы раз на огромном корпусе текста, заставляет модель внутри себя «выучить» грамматику, факты, стиль, логику рассуждений, синтаксис языков программирования. Не потому что её этому учили специально, а потому что без этого нельзя хорошо предсказывать следующий кусочек текста.

Поэтому модель «знает» вещи: она прочитала их в обучающих данных и они «впечатались» в её веса (миллиарды чисел внутри сети). Но знает она их не как база данных — там нет точной цитаты, отдельной записи «Париж — столица Франции». Это знание размазано по сети, и модель «вспоминает» его, генерируя текст. Из этого следуют две важные вещи: модель не помнит, откуда она это взяла (нет ссылки на источник), и модель может «вспомнить» неправильно, особенно если речь о редких или новых вещах. К этому ещё вернёмся в разделе про галлюцинации.

После базового обучения на тексте модель дополнительно тренируют быть полезным ассистентом: следовать инструкциям, отвечать вежливо, отказываться от опасного. Это слой поверх «предсказывать следующий токен». Но фундамент остаётся тем же: каждый ваш ответ Claude — это длинная цепочка предсказаний «какой токен идёт следующим, какой ещё, какой ещё».

Токены

Модель работает не с буквами и не со словами, а с токенами (token — кусочек текста). Перед тем как что-то отдать модели, текст разбивается на токены специальным алгоритмом — токенизатором.

Токен — это часто целое короткое английское слово («the», «code», «order»), но длинные слова разбиваются на куски, а в русском разбиение более агрессивное: одно русское слово часто превращается в 2–4 токена, потому что токенизатор обучен в основном на английском и латинице. Грубая оценка:

1 токен ≈ 0.75 слова на английском.
1 токен ≈ 0.5–0.6 слова на русском (то есть на одно русское слово уходит примерно в 1.5–2 раза больше токенов, чем на английское).

Зачем вам это знать. Во-первых, всё, что вы и модель пишете в диалоге, измеряется в токенах — и контекст (сколько модель помнит), и стоимость API считаются в токенах, не в символах. Во-вторых, русский «дороже» английского по токенам — на одно и то же содержание уходит в 1.5–2 раза больше места в контексте. Если вы общаетесь с Claude Code на русском, это нормально, просто имейте в виду: код в файлах в основном на английском (имена методов, ключевые слова Kotlin), но переписка и комментарии — на русском, и они «весят» больше.

Контекстное окно

Контекстное окно (context window) — это сколько токенов модель может одновременно держать «перед глазами»: ваш запрос, системный промпт, содержимое файлов, которое Claude Code подгрузил, история диалога, ответ модели. Всё это вместе должно влезть в окно.

Модель	Контекстное окно
Claude Opus 4.7	1 000 000 токенов
Claude Sonnet 4.6	1 000 000 токенов
Claude Haiku 4.5	200 000 токенов

Миллион токенов — это очень много. Это примерно несколько крупных книг. Для вашего проекта со стеком Kotlin + Ktor + JDBI + PostgreSQL + React в такое окно влезает практически весь репозиторий целиком, ещё и с историей обсуждения.

Но окно конечно. И когда говорят, что модель «забыла», что вы ей сказали в начале сессии — это редко настоящая «забывчивость». Чаще всего одно из двух:

Старое сообщение вышло за окно. Когда диалог слишком длинный, начало просто не помещается в контекст и физически не доходит до модели. Она не «забыла» — ей этого не показали.
Окно ещё не переполнено, но информации в нём слишком много. Модель видит всё, но плохо находит важное среди шума. Про это — раздел про lost-in-the-middle ниже.

Что делает Claude Code Desktop, когда контекст начинает переполняться: он либо подрезает старые сообщения (и тогда они действительно теряются), либо запускает компактирование — сжимает предыдущий разговор в краткое summary. После компактирования модель помнит «о чём говорили», но детали могут потеряться.

Подробнее про дисциплину работы с контекстом — когда чистить диалог, как использовать CLAUDE.md, что делать перед тем как окно переполнится — в гайде «Дисциплина с Claude Code». Здесь только концепция.

Knowledge cutoff

Модель училась на данных, собранных до какой-то даты. После этой даты она ничего не «прочитала». Это называется knowledge cutoff — граница знаний.

Модель	Knowledge cutoff
Claude Opus 4.7	январь 2026
Claude Sonnet 4.6	август 2025
Claude Haiku 4.5	февраль 2025

Что это значит на практике. Если в марте 2026 вышла новая версия Ktor с изменённым API, и вы её используете, Opus 4.7 (cutoff — январь 2026) про эти изменения ничего не знает. Он будет предлагать вам код по старому API, потому что других данных у него нет. Это не баг, это устройство.

Что делать:

Подсунуть документацию в контекст. Если вы работаете со свежей библиотекой, скиньте Claude Code актуальную страницу документации (или попросите её прочитать через web-fetch). Тогда модель будет опираться на конкретный текст перед глазами, а не на смутное воспоминание из обучения.
Не верить версиям и числам на слово. Если Claude говорит «в Kotlin 2.x появилась такая-то фича» — а вам это критично — проверьте. Cutoff не гарантирует, что модель знает все актуальные версии даже до своего cutoff.
Помнить, что код, который запускает модель в Claude Code, реальный. Если модель запускает ./gradlew build и видит ошибку компиляции — это уже не из обучающих данных, это свежая информация в контексте. На неё опираться безопасно.

Температура и почему её обычно не трогают

На каждом шаге генерации модель не выбирает «один правильный следующий токен» — она получает распределение вероятностей по всем возможным токенам. «Париж» — 92%, «Лион» — 3%, «город» — 1% и так далее. Температура (temperature) — это параметр, регулирующий, насколько строго модель придерживается самого вероятного варианта.

Температура 0 — модель почти всегда берёт самый вероятный токен. Ответы воспроизводимые, скучноватые, «правильные».
Температура 1 — стандартный режим, модель сэмплирует с настоящим распределением. Ответы разнообразнее.
Температура выше 1 — модель чаще берёт менее вероятные варианты. Ответы становятся «креативнее», но и сильно менее связными; на высоких значениях — вплоть до бессмыслицы.

В Claude Code Desktop температуру вам менять не приходится. Дефолт подобран Anthropic так, чтобы и код был связным, и не было полной зацикленности на одном варианте. Никаких советов в духе «поставь температуру 0.2, будет точнее» применять не нужно — для повседневной работы дефолт работает.

Знать про температуру полезно по одной причине: понимать, что одинаковый промпт не обязан давать одинаковый ответ. Это нормально, это не баг. Если вы дважды попросили Claude переписать одну и ту же функцию и получили два разных варианта — оба могут быть валидны.

Галлюцинации

Галлюцинация (hallucination) — это когда модель уверенно выдаёт что-то, чего нет: несуществующий метод библиотеки, выдуманную ссылку, неверную цитату, неправильное число. Не «иногда», а регулярно. Это не баг конкретной модели — это следствие того, как LLM устроены.

Вспомним начало: модель обучена предсказывать правдоподобный следующий токен. Не правдивый — правдоподобный. Если у Ktor никогда не было метода routing { restApi { … } }, но модель видела миллион похожих DSL-конструкций в Kotlin-коде, она спокойно выдаст вам этот несуществующий метод — он же правдоподобный. Текст связный, синтаксис валидный, логика знакомая. Только метода такого нет.

Типичные ситуации, в которых модель галлюцинирует чаще:

Точные имена методов и сигнатуры в малознакомых библиотеках. Особенно после knowledge cutoff или в редких библиотеках, по которым в обучающих данных мало кода.
Числа и версии. «В JDBI 3.x появилась такая-то аннотация» — может быть правда, может быть выдумкой.
Цитаты и ссылки. Модель может «вспомнить» URL, которого не существует, или приписать цитату не тому автору.
Узкоспециальные факты. Что-то, что встречалось в обучении один-два раза.

Что делать:

Подсовывать документацию в контекст. Когда перед глазами модели лежит реальная страница доков Ktor или JDBI, она опирается на неё, а не на смутные воспоминания.
Запускать код. Это главное преимущество Claude Code перед чатом: предложил метод — пусть запустит сборку или тест. Если метода нет — компилятор сразу скажет, и модель исправит. Не верьте «на словах» в код, который не запускали.
Просить процитировать источник. Если модель утверждает факт, попросите её показать кусок документации, на который она опирается. Если она «не может найти» — повод перепроверить вручную.
Проверять числа и версии руками. Особенно если от них что-то зависит.

Lost-in-the-middle

Известная эвристика про большие контексты: lost-in-the-middle («потерянное в середине»). Если дать модели очень длинный контекст, она лучше запоминает то, что в самом начале и в самом конце, а информация из середины может «не заметиться». Эффект описали в 2023 году на ранних моделях, и тогда он был выраженным.

На современных Opus эффект сильно смягчён. На стандартном тесте needle in a haystack («иголка в стоге сена» — проверяют, найдёт ли модель одну специально вставленную фразу в большом тексте) Opus справляется почти идеально, около 100%, на длине в сотни тысяч токенов. То есть в чистом тесте модель видит всё и помнит всё.

Но эвристика всё равно жива, потому что в реальной работе у вас не «один факт в стоге шума», а много пересекающейся информации, на которую модель должна обращать внимание одновременно. Чем больше шума и чем меньше структуры — тем выше шанс, что что-то затеряется. Поэтому несколько практических правил, которые продолжают работать:

Критичные инструкции в CLAUDE.md — в начале и в конце. Если в файле есть железные правила (например, «всегда писать тесты на реальной БД, не на моках»), продублируйте ключевые в самом начале и в самом конце. То, что висит только посередине длинного файла, имеет больше шансов «провалиться».
Не сваливайте в чат 10 файлов скопом. Лучше добавлять контекст по одному и работать с ним: открыли файл — обсудили — поправили. Когда вы скидываете гигантскую кучу контекста, модель видит её всю, но эффективно использовать всю одновременно ей сложнее.
Структура помогает. Заголовки, списки, явные маркеры «это правило», «это пример» — всё это помогает модели ориентироваться в большом контексте лучше, чем сплошная стена текста.

Без алармизма: миллион токенов у Opus и Sonnet — это реально рабочий миллион, не «на бумаге». Просто не относитесь к нему как к бесконечной памяти, в которую можно сваливать всё подряд и надеяться, что модель сама разберётся.

Дальше

Это была общая теория про LLM — она применима и к Claude, и к GPT, и к Gemini. Конкретно про модели Anthropic — Opus, Sonnet, Haiku, в чём между ними разница на практике, и про режимы «подумать дольше» (extended thinking) — следующий гайд.

← Роадмэп Следующая: модели Claude и thinking →