Программирование с помощью ИИ агентов локально: Qwen 3.5 27B в VS Code + Kilo Code без интернета

#175  понедельник, 30 марта 2026 г.  понедельник, 30 марта 2026 г.  10 минут(ы)  861 слово

📺 YouTube видео

📺 VK видео

Использование локальных ИИ-агентов для написания кода — это новый стандарт для разработчиков, которым важна абсолютная приватность, независимость от платных API и безопасность данных. Модель Qwen 3.5 27B, запущенная на домашнем ПК (например, с видеокартой RTX 4090 24 ГБ), отлично справляется с ролью автономного ИИ-программиста.

Ниже приведен подробный разбор того, как работает эта связка в закрытом контуре.

1. Как работает связка VS Code + Kilo Code + Ollama

Для работы ИИ-агента без интернета используется следующая архитектура:

  • Ollama: Выступает в роли локального сервера, который загружает и выполняет веса модели Qwen 3.5 27B.
  • VS Code: Основная среда разработки.
  • Kilo Code: Продвинутое расширение (ИИ-агент) для VS Code. В его настройках в качестве провайдера указывается локальный адрес машины (например, 0.0.0.0:9117), что замыкает систему — код никуда не отправляется и остается строго на вашем ПК.

Агентский подход Kilo Code: В отличие от простых автодополнений, агент способен анализировать объемные проекты (например, игру на языке C объемом около 650 КБ). Получив задачу, агент самостоятельно читает нужные файлы, составляет подробный план модификации (ToDo-лист) и даже рисует текстовые диаграммы логики перед тем, как писать код. После генерации кода Kilo Code показывает удобное окно сравнения (Diff), где добавленные строки подсвечены зеленым, а удаленные — красным, позволяя разработчику вручную перенести нужные изменения в проект, чтобы ничего не сломать. Кроме того, агент умеет «сжимать» контекстное окно, удаляя старые логи, чтобы избегать переполнения памяти.

2. Мультимодальность: ИИ, который видит баги

Одной из самых сильных сторон локальной Qwen 3.5 является ее способность распознавать изображения. Если в процессе тестирования программы выявляется визуальная ошибка (например, некорректный вывод текста и процентов в UI), достаточно отправить агенту скриншот. Модель проанализирует картинку, найдет проблему и предложит исправление в коде.

3. Оптимизация под 24 ГБ видеопамяти (RTX 4090)

Чтобы «тяжелая» модель на 27 миллиардов параметров работала быстро, тихо (с температурой видеокарты не выше 50°C) и не выдавала ошибок нехватки памяти, необходимо правильно настроить системные переменные Ollama.

Оптимальные системные переменные (Environment Variables):

Установка OLLAMA SET

  • OLLAMA_KV_CACHE_TYPE = q4_0Ключевой параметр. Это 4-битное квантование (сжатие) кэша модели. Изначально использование 8-битного квантования (q8_0) замедляет работу, а стандартное (F16) вызывает перерасход памяти. Переход на q4_0 радикально ускоряет генерацию ответов при практически незаметном падении качества кода.
  • OLLAMA_FLASH_ATTENTION = 1 — Включение этой опции значительно снижает расход видеопамяти.
  • OLLAMA_CONTEXT_LENGTH = 128000 — Устанавливает лимит контекста в 128 000 токенов. Попытки увеличить его (например, до 256k или 1 млн) приведут к сильным тормозам на 24 ГБ видеопамяти. (С включенным Q4 квантованием потенциально можно пробовать расширять до 200 000).
  • OLLAMA_NUM_PARALLEL = 1 — Ограничивает сервер обработкой только одного запроса за раз, исключая резкие скачки потребления памяти.
  • OLLAMA_MAX_LOADED_MODELS = 1 — Запрещает загрузку нескольких моделей одновременно.
  • OLLAMA_KEEP_ALIVE = 60m — Удерживает модель в видеопамяти 60 минут при бездействии, избавляя от долгой загрузки при новых запросах.

4. Отключение автодополнений в Kilo Code

Отключение автодополнений в Kilo Code — это важный шаг для экономии токенов и обеспечения бесплатной работы Kilo Code.

Отключение Kilo Code автодополнений

Дело в том, что даже если вы настроили основного ИИ-агента на локальную модель (Ollama), система автодополнений Kilo Code по умолчанию может использовать внешнего провайдера. На скриншоте видно, что в разделе Model для автодополнений указан провайдер Kilo Gateway и облачная модель mistralai/codestral-2508. Фоновые запросы к ней при наборе текста расходовали бы платные токены.

Чтобы полностью отключить эти функции и работать бесплатно, необходимо выполнить следующие настройки в интерфейсе расширения:

Шаги по отключению автодополнений:

  1. Откройте настройки Kilo Code и перейдите в раздел Autocomplete в левом боковом меню.
  2. В блоке Code Editor Suggestions (Подсказки в редакторе кода) снимите галочку с пункта Auto-trigger Suggestions. Это запретит расширению автоматически генерировать и показывать варианты кода каждый раз, когда вы делаете паузу при печати.
  3. В этом же блоке вы можете снять галочку с Trigger on Keybinding (Ctrl+L), чтобы отключить даже ручной запрос подсказок по нажатию горячих клавиш.
  4. В блоке Chat Suggestions (Подсказки в чате) снимите галочку с пункта Enable Chat Autocomplete. Это отключит генерацию вариантов продолжения текста, пока вы пишете промпт в окне чата агента.

Итог: Сняв эти три галочки (как это показано на скриншоте), вы полностью отключите фоновую отправку фрагментов вашего кода на внешние серверы Kilo Gateway. В связке с локально запущенной моделью Qwen 3.5 через Ollama, это позволит вам программировать абсолютно бесплатно, сохраняя полную приватность и не сжигая бюджет на токены.

5. Почему за этим будущее (Безопасность и экономия)

Разработка в полностью закрытом контуре (без доступа в интернет) решает две главные проблемы современного программирования:

  1. Защита приватных данных: Ваши ключи, архитектура и секретные данные организации никуда не утекают.
  2. Экономия бюджета: Использование облачных API обходится дорого. Запуск локальной ИИ-модели позволяет не платить за токены. По словам автора, лучше инвестировать эти деньги в мощное железо, получив полностью независимую и бесплатную в использовании среду разработки.

Где скачать все инструменты из видео (Ссылки):

  • Ollama (Локальный сервер для моделей): https://ollama.com/
  • Среда разработки Visual Studio Code (VS Code): https://code.visualstudio.com/
  • ИИ-агент Kilo Code: Устанавливается прямо внутри редактора VS Code. Перейдите во вкладку Extensions (Расширения) и введите в поиск Kilo Code.
  • Модель Qwen 3.5 27B: Скачивается автоматически через терминал после установки Ollama. Найти доступные версии и команды для скачивания (например, ollama run qwen3.5:27b или специфичные теги) можно в официальной библиотеке: https://ollama.com/library/qwen3.5