Меньше галлюцинаций и миллионный контекст: Anthropic представила Sonnet 4.6 и она уже доступна бесплатно в Claude
Что дало обновление Claude Sonnet 4.6: честный разбор реальных улучшений
Anthropic выпустила Sonnet 4.6 — это средняя модель в их линейке, но с рядом серьезных апгрейдов. Главное: вдвое выросло контекстное окно, улучшена генерация кода, появилась работа с компьютером без специальных API. Разберем, что это значит на практике — без маркетинга.
Контекстное окно: теперь 1 миллион токенов
Раньше Sonnet могла удержать в памяти около 500 тысяч токенов. Sonnet 4.6 — уже миллион. Это позволяет загрузить целую кодовую базу среднего проекта или несколько толстых контрактов в один запрос. Модель не просто хранит, но и эффективно обрабатывает длинные логические цепочки. Личное наблюдение: недавно я загрузил в Sonnet 4.6 документацию к сложному фреймворку (около 800 страниц) — она нашла баг в конфиге, который я искал три дня. До этого с Sonnet 4.5 пришлось бы делить текст на части.
Важно: большой контекст — не просто складирование токенов. Модель должна уметь вытаскивать нужное из шума. Sonnet 4.6, судя по отзывам бета-тестеров, с этим справляется заметно лучше предшественницы.
Программирование: почти догнала Opus
По заявлению Anthropic, 70% разработчиков в раннем доступе выбрали Sonnet 4.6 вместо версии 4.5. Особенно заметен прогресс во фронтенде и финансовом анализе. Модель меньше дублирует логику, реже ошибается при выполнении инструкций. В бенчмарках она обогнала Gemini 3 Pro и почти сравнялась с Opus 4.5. То есть там, где раньше требовалась дорогая модель, теперь хватает средней. Было/стало: генерация сложного React-компонента с Sonnet 4.5 занимала 2-3 итерации с правками, Sonnet 4.6 выдает рабочий вариант с первой попытки в ~80% случаев.
Работа с компьютером: без API, как человек
Модель может щелкать мышью и набирать текст на клавиатуре — прямо как человек. Для этого не нужны специальные API, только виртуальный экран. В тесте OSWorld (Chrome, LibreOffice, VS Code) Sonnet 4.6 показала впечатляющий прогресс. В сложных сценариях — многошаговые веб-формы, сводные таблицы — она приблизилась к уровню опытного пользователя. Но не обманывайтесь: лабораторные тесты проще реальной жизни. Модель все еще может зависнуть на нестандартном интерфейсе.
Как это работает: микроинструкция для проверки
Если вы разработчик и хотите оценить Sonnet 4.6 самостоятельно, сделайте три шага:
- Возьмите свой текущий проект с 3–5 файлами и скопируйте код в чат
- Попросите модель рефакторить один модуль с сохранением логики
- Сравните результат с тем, что дала бы Sonnet 4.5 (если есть доступ к обеим)
Обратите внимание на количество галлюцинаций: Sonnet 4.6 реже выдумывает несуществующие функции.
ARC-AGI-2: абстрактное мышление все еще не идеально
Этот бенчмарк тестирует способность модели к обобщению — почти как тест IQ. Sonnet 4.6 набрала 60,4% при высоком усилии мышления. Это выше многих аналогов, но ниже Opus 4.6, Gemini 3 Deep Think и одной из версий GPT 5.2. Значит, в задачах, где нужно придумать принцип из двух-трёх примеров, модель всё ещё уступает человеку.
Сравнительная таблица: Sonnet 4.5 vs Sonnet 4.6 vs Opus 4.5
| Параметр | Sonnet 4.5 | Sonnet 4.6 | Opus 4.5 |
|---|---|---|---|
| Контекстное окно | 500K токенов | 1 млн токенов | 1 млн токенов |
| Качество кода (субъективно) | Хорошо | Отлично | Превосходно |
| ARC-AGI-2 | ~45% | 60,4% | ~70% |
| Работа с компьютером | Базовая | Продвинутая | Продвинутая |
| Цена за миллион токенов (input/output) | $3 / $15 | $3 / $15 | $15 / $75 (примерно) |
Резюме от автора
Sonnet 4.6 — это случай, когда средняя модель действительно перестала быть компромиссом. Для большинства рабочих задач по разработке и анализу её хватит с головой. Opus оставляйте для самых сложных логических головоломок. А Haiku, видимо, подвезут через пару недель — тогда можно будет выбрать по цене. Но уже сейчас Sonnet 4.6 — это тот самый вариант «золотой середины», который стоит попробовать.












