Использование Ollama - запуск LLM моделей и настройка локально на Windows 10

#92 среда, 17 июля 2024 г. четверг, 18 июля 2024 г. 9 минут(ы) 763 слова

Инструкции по установке и запуску Ollama на Windows 10

Следуя этим инструкциям, вы сможете установить и запустить Ollama на Windows 10, а также настроить его основные параметры.

Установка Ollama

Скачайте установочный файл Ollama для Windows с официального сайта. https://ollama.com/download/windows
Запустите установочный файл и следуйте инструкциям мастера установки.
По умолчанию Ollama будет установлен в каталог: c:\users\%username%\AppData\Local\Programs\Ollama\

Загрузка моделей Ollama из библиотеки ollama.com/library

Вы можете легко загружать модели из библиотеки Ollama, используя интерфейс командной строки Ollama:

Откройте командную строку (Command Prompt).
Перейдите в каталог, где установлен Ollama:

cd c:\users\%username%\AppData\Local\Programs\Ollama\

Используйте команду ollama pull <имя_модели>, чтобы загрузить модель. Замените <имя_модели> на имя модели, которую вы хотите загрузить. Например, чтобы загрузить модель llama2, выполните:

ollama pull llama2

Вы можете найти список доступных моделей на странице https://ollama.com/library.

Дождитесь завершения загрузки. Ollama отобразит ход загрузки. Размер моделей может варьироваться, поэтому загрузка может занять некоторое время.
После завершения загрузки модель будет доступна для использования. Вы можете запустить ее с помощью команды ollama run <имя_модели>:

ollama run llama2

Дополнительные опции

Загрузка определенной версии модели:
Чтобы загрузить определенную версию модели, укажите ее после имени модели, разделенных двоеточием. Например:

ollama pull llama2:13b-chat

Просмотр списка загруженных моделей: Чтобы просмотреть список всех загруженных моделей, используйте команду:

ollama list

Удаление модели: Чтобы удалить модель, используйте команду ollama delete, указав имя модели:

ollama delete llama2

Важно

Убедитесь, что у вас достаточно свободного места на диске перед загрузкой больших моделей.
Загрузка моделей может занять некоторое время в зависимости от скорости вашего интернет-соединения.

Запуск Ollama

Откройте командную строку (Command Prompt).
Перейдите в каталог, где установлен Ollama:

cd c:\users\%username%\AppData\Local\Programs\Ollama\

Запустите Ollama командой:

ollama serve

Расположение моделей

macOS: ~/.ollama/models
Linux: /usr/share/ollama/.ollama/models
Windows: C:\Users\%username%\.ollama\models

Переменные окружения

OLLAMA_MODELS

Указывает путь к каталогу с моделями:

set OLLAMA_MODELS = D:\MY_OLLAMAS

OLLAMA_HOST

Указывает хост и порт для Ollama:

set OLLAMA_HOST = 0.0.0.0:9117

OLLAMA_KEEP_ALIVE

По умолчанию модели хранятся в памяти в течение 5 минут перед выгрузкой. Это позволяет ускорить время отклика, если вы делаете много запросов к LLM. Однако вы можете захотеть освободить память до истечения 5 минут или держать модель загруженной неограниченное время. Используйте OLLAMA_KEEP_ALIVE или параметр keep_alive с конечными точками API /api/generate и /api/chat, чтобы контролировать, как долго модель будет оставаться в памяти.

Устанавливает, как долго модели хранятся в памяти перед выгрузкой в секундах, если без 'm или 'h:

set OLLAMA_KEEP_ALIVE = 50m

OLLAMA_MAX_LOADED_MODELS

Максимальное количество моделей, которые могут быть загружены одновременно. По умолчанию это 3 * количество GPU или 3 для вычислений на CPU.

set OLLAMA_MAX_LOADED_MODELS = <значение>

OLLAMA_NUM_PARALLEL

Максимальное количество параллельных запросов, которые каждая модель будет обрабатывать одновременно. По умолчанию автоматически выбирается 4 или 1 в зависимости от доступной памяти.

set OLLAMA_NUM_PARALLEL = <значение>

OLLAMA_MAX_QUEUE

Максимальное количество запросов, которые Ollama будет ставить в очередь при загрузке перед отклонением дополнительных запросов. По умолчанию это 512.

set OLLAMA_MAX_QUEUE = <значение>

Использование Ollama

После запуска Ollama будет доступна по адресу, указанному в OLLAMA_HOST. Вы можете отправлять запросы к API Ollama, используя любой HTTP-клиент.

curl http://localhost:9117/api/generate -d '{
  "model": "phi3:medium-128k",
  "prompt": "Why is the sky blue?",
  "options": {
    "num_ctx": 4096
  }
}'

Пример .bat файла под Windows 10 запуска ollama с установкой OLLAMA_HOST и OLLAMA_NUM_PARALLEL

start_ollama.bat:

@echo off

:: Добавляем папку с Ollama в переменную PATH
set "PATH=%PATH%;C:\Users\%username%\AppData\Local\Programs\Ollama"

:: Устанавливаем OLLAMA_HOST
set OLLAMA_HOST=0.0.0.0:9117

:: Устанавливаем OLLAMA_NUM_PARALLEL
set OLLAMA_NUM_PARALLEL=2

:: Запускаем Ollama
ollama serve

pause

Объяснение:

@echo off: Отключает вывод команд в консоль.
set OLLAMA_HOST=0.0.0.0:9117: Устанавливает переменную окружения OLLAMA_HOST на адрес 0.0.0.0 и порт 9117. Это означает, что Ollama будет доступна по адресу http://localhost:9117/.
set OLLAMA_NUM_PARALLEL=2: Устанавливает переменную окружения OLLAMA_NUM_PARALLEL на значение 2. Это ограничивает количество одновременных запросов, обрабатываемых каждой моделью, до 2.
ollama serve: Запускает сервер Ollama.
pause: Приостанавливает выполнение bat-файла, чтобы окно консоли не закрылось сразу после запуска Ollama.

Обратите внимание, что адрес 0.0.0.0 также означает, что Ollama будет принимать запросы с любого другого IP-адреса вашей сети, поэтому вы можете получить доступ к Ollama на этой машине с любого из ваших компьютеров из той же сети.

Важно:

Перед запуском bat-файла убедитесь, что Ollama установлен на вашем компьютере.
Вы можете изменить значения OLLAMA_HOST и OLLAMA_NUM_PARALLEL в соответствии с вашими потребностями.
Чтобы остановить Ollama, закройте окно консоли.

Сохраните этот код в файл с расширением .bat (например, start_ollama.bat) и запускайте его двойным щелчком.

Web: https://d00m4ace.com/

GitHub: https://github.com/d00m4ace/

YouTube: https://www.youtube.com/c/@d00m4ace

Telegram: https://t.me/d00m4ace_blog