Программирование с помощью ИИ агентов локально: Qwen 3.5 27B в VS Code + Kilo Code без интернета
#175 понедельник, 30 марта 2026 г. понедельник, 30 марта 2026 г. 10 минут(ы) 861 слово
📺 VK видео
Использование локальных ИИ-агентов для написания кода — это новый стандарт для разработчиков, которым важна абсолютная приватность, независимость от платных API и безопасность данных. Модель Qwen 3.5 27B, запущенная на домашнем ПК (например, с видеокартой RTX 4090 24 ГБ), отлично справляется с ролью автономного ИИ-программиста.
Ниже приведен подробный разбор того, как работает эта связка в закрытом контуре.
1. Как работает связка VS Code + Kilo Code + Ollama
Для работы ИИ-агента без интернета используется следующая архитектура:
- Ollama: Выступает в роли локального сервера, который загружает и выполняет веса модели Qwen 3.5 27B.
- VS Code: Основная среда разработки.
- Kilo Code: Продвинутое расширение (ИИ-агент) для VS Code. В его настройках в качестве провайдера указывается локальный адрес машины (например,
0.0.0.0:9117), что замыкает систему — код никуда не отправляется и остается строго на вашем ПК.
Агентский подход Kilo Code: В отличие от простых автодополнений, агент способен анализировать объемные проекты (например, игру на языке C объемом около 650 КБ). Получив задачу, агент самостоятельно читает нужные файлы, составляет подробный план модификации (ToDo-лист) и даже рисует текстовые диаграммы логики перед тем, как писать код. После генерации кода Kilo Code показывает удобное окно сравнения (Diff), где добавленные строки подсвечены зеленым, а удаленные — красным, позволяя разработчику вручную перенести нужные изменения в проект, чтобы ничего не сломать. Кроме того, агент умеет «сжимать» контекстное окно, удаляя старые логи, чтобы избегать переполнения памяти.
2. Мультимодальность: ИИ, который видит баги
Одной из самых сильных сторон локальной Qwen 3.5 является ее способность распознавать изображения. Если в процессе тестирования программы выявляется визуальная ошибка (например, некорректный вывод текста и процентов в UI), достаточно отправить агенту скриншот. Модель проанализирует картинку, найдет проблему и предложит исправление в коде.
3. Оптимизация под 24 ГБ видеопамяти (RTX 4090)
Чтобы «тяжелая» модель на 27 миллиардов параметров работала быстро, тихо (с температурой видеокарты не выше 50°C) и не выдавала ошибок нехватки памяти, необходимо правильно настроить системные переменные Ollama.
Оптимальные системные переменные (Environment Variables):

OLLAMA_KV_CACHE_TYPE = q4_0— Ключевой параметр. Это 4-битное квантование (сжатие) кэша модели. Изначально использование 8-битного квантования (q8_0) замедляет работу, а стандартное (F16) вызывает перерасход памяти. Переход наq4_0радикально ускоряет генерацию ответов при практически незаметном падении качества кода.OLLAMA_FLASH_ATTENTION = 1— Включение этой опции значительно снижает расход видеопамяти.OLLAMA_CONTEXT_LENGTH = 128000— Устанавливает лимит контекста в 128 000 токенов. Попытки увеличить его (например, до 256k или 1 млн) приведут к сильным тормозам на 24 ГБ видеопамяти. (С включенным Q4 квантованием потенциально можно пробовать расширять до 200 000).OLLAMA_NUM_PARALLEL = 1— Ограничивает сервер обработкой только одного запроса за раз, исключая резкие скачки потребления памяти.OLLAMA_MAX_LOADED_MODELS = 1— Запрещает загрузку нескольких моделей одновременно.OLLAMA_KEEP_ALIVE = 60m— Удерживает модель в видеопамяти 60 минут при бездействии, избавляя от долгой загрузки при новых запросах.
4. Отключение автодополнений в Kilo Code
Отключение автодополнений в Kilo Code — это важный шаг для экономии токенов и обеспечения бесплатной работы Kilo Code.

Дело в том, что даже если вы настроили основного ИИ-агента на локальную модель (Ollama), система автодополнений Kilo Code по умолчанию может использовать внешнего провайдера. На скриншоте видно, что в разделе Model для автодополнений указан провайдер Kilo Gateway и облачная модель mistralai/codestral-2508. Фоновые запросы к ней при наборе текста расходовали бы платные токены.
Чтобы полностью отключить эти функции и работать бесплатно, необходимо выполнить следующие настройки в интерфейсе расширения:
Шаги по отключению автодополнений:
- Откройте настройки Kilo Code и перейдите в раздел Autocomplete в левом боковом меню.
- В блоке Code Editor Suggestions (Подсказки в редакторе кода) снимите галочку с пункта Auto-trigger Suggestions. Это запретит расширению автоматически генерировать и показывать варианты кода каждый раз, когда вы делаете паузу при печати.
- В этом же блоке вы можете снять галочку с Trigger on Keybinding (Ctrl+L), чтобы отключить даже ручной запрос подсказок по нажатию горячих клавиш.
- В блоке Chat Suggestions (Подсказки в чате) снимите галочку с пункта Enable Chat Autocomplete. Это отключит генерацию вариантов продолжения текста, пока вы пишете промпт в окне чата агента.
Итог: Сняв эти три галочки (как это показано на скриншоте), вы полностью отключите фоновую отправку фрагментов вашего кода на внешние серверы Kilo Gateway. В связке с локально запущенной моделью Qwen 3.5 через Ollama, это позволит вам программировать абсолютно бесплатно, сохраняя полную приватность и не сжигая бюджет на токены.
5. Почему за этим будущее (Безопасность и экономия)
Разработка в полностью закрытом контуре (без доступа в интернет) решает две главные проблемы современного программирования:
- Защита приватных данных: Ваши ключи, архитектура и секретные данные организации никуда не утекают.
- Экономия бюджета: Использование облачных API обходится дорого. Запуск локальной ИИ-модели позволяет не платить за токены. По словам автора, лучше инвестировать эти деньги в мощное железо, получив полностью независимую и бесплатную в использовании среду разработки.
Где скачать все инструменты из видео (Ссылки):
- Ollama (Локальный сервер для моделей): https://ollama.com/
- Среда разработки Visual Studio Code (VS Code): https://code.visualstudio.com/
- ИИ-агент Kilo Code: Устанавливается прямо внутри редактора VS Code. Перейдите во вкладку Extensions (Расширения) и введите в поиск Kilo Code.
- Модель Qwen 3.5 27B: Скачивается автоматически через терминал после установки Ollama. Найти доступные версии и команды для скачивания (например,
ollama run qwen3.5:27bили специфичные теги) можно в официальной библиотеке: https://ollama.com/library/qwen3.5