d00m4ace AI toolchain на Windows 10

#138  четверг, 28 ноября 2024 г.  пятница, 29 ноября 2024 г.  11 минут(ы)  992 слова

Вся установка выполняется автоматически в один клик (точнее, запуск одного файла setup.bat сделает все автоматически)!

Важно: Установка d00m4ace AI toolchain производится на диск C:. Базовая установка(по умолчанию без редактирования файлов установки) займет на диске C: ~44Gb. Установка всех моделей используемых в d00m4ace AI toolchain займет на диске C: ~692Gb. Установка на другой диск или в другую директорию в данный момент недоступна.

Установка d00m4ace AI toolchain

  1. Загрузить d00m4ace AI toolchain как архив d00m4ace_toolchain.zip
  2. Распакуйте содержимое архива в корень диска C:
  3. Откройте командную строку (cmd.exe).
  4. Перейдите в корневой каталог c:\d00m4ace_toolchain: cd c:\d00m4ace_toolchain
  5. Запустите файл установки setup.bat d00m4ace AI toolchain: setup.bat
  6. Дождитесь завершения процесса установки.

Cкрипт setup.bat создает портативную сборку размещая все файлы только в каталоге c:\d00m4ace_toolchain и настраивает окружение для работы с AI инструментами на Windows 10. Он создает необходимую структуру директорий, устанавливает портативную сборку Git, FFmpeg, Python 3.10.11 и создает четыре виртуальных окружения Python с различными наборами библиотек. В первом окружении устанавливаются базовые ML библиотеки (PyTorch, Transformers и др.), во втором добавляется поддержка TTS (Text-to-Speech), в третьем устанавливаются инструменты для работы с диффузионными моделями (Diffusers, Invisible Watermark и др.), а в четвертом - инструменты для распознавания речи (CTranslate2, Faster-Whisper). Скрипт также загружает необходимые модели нейросетей и настраивает переменные окружения. Все компоненты устанавливаются в директорию C:\d00m4ace_toolchain.

Кроме того, проверяется наличие в системе Visual C++ Redistributable, и при необходимости он автоматически загружается и устанавливается в систему, поскольку эти компоненты необходимы для работы многих библиотек.

Вся дальнейшая работа с инструментарием d00m4ace AI toolchain будет осуществляться только с использованием Python 3.10.11, установленным в директории C:\d00m4ace_toolchain\python310\, и не должна влиять на другие версии Python, уже установленные в системе.

Загрузка дополнительных моделей нейронных сетей

После установки вы также можете открыть файл download_llms.bat и удалить символы комментариев '::' у дополнительных моделей нейронных сетей, которые вы хотите загрузить и использовать вместе с инструментарием d00m4ace AI toolchain.

Все модели нейронных сетей из download_llms.bat загружаются в каталог C:\d00m4ace_toolchain\llms\ и создают дополнительные каталоги: [название компании][название модели].

Например:

Если вы используете Stable Audio Open 1.0 для создания небольших аудиофайлов в соответствии с вашими запросами, то найдите в download_llms.bat строчку:

::huggingface-cli download stabilityai/stable-audio-open-1.0 --local-dir "%LLMS_DIR%\stabilityai/stable-audio-open-1.0" --local-dir-use-symlinks False

удалите символы комментария '::', оставив строку в таком виде:

huggingface-cli download stabilityai/stable-audio-open-1.0 --local-dir "%LLMS_DIR%\stabilityai/stable-audio-open-1.0" --local-dir-use-symlinks False

сохраните файл download_llms.bat и запустите заново файл установки setup.bat.

Вы не должны использовать download_llms.bat напрямую, так как setup.bat определяет дополнительные переменные окружения и использует переносимую версию Python для загрузки всех моделей.

Более подробную информацию о моделях можно найти на их личных пространствах на сайте https://huggingface.co, например, адресс личного пространства любой сети из download_llms.bat начинается сразу после huggingface-cli download, и для Stable Audio Open 1.0 это будет stabilityai/stable-audio-open-1.0, которую можно открыть как https://huggingface.co/stabilityai/stable-audio-open-1.0.

Размер всей модели можно уточнить на вкладке Files and versions, которая находится сразу после открывшейся по умолчанию Model card. К сожалению, полный размер сразу не указывается, и вам придется обратить внимание на размер всех файлов или узнать точный размер после загрузки модели на компьютер. Для примера stabilityai/stable-diffusion-xl-base-1.0 в итоге будет занимать на вашем диске ~72Gb.

Установка и Использование Ollama

Вместе с инструментарием ИИ d00m4ace вы можете установить Ollama для локального запуска других моделей нейронных сетей.

Полные инструкции по установке Ollama в Windows 10

После установки Ollama вы также можете открыть файл download_ollama.bat и удалить символы комментариев '::' у дополнительных моделей нейронных сетей, которые вы хотите загрузить и использовать вместе с инструментарием d00m4ace AI toolchain.

По умолчанию для работы с инструментарием d00m4ace AI toolchain в файле download_ollama.bat загружаются в Ollama:

ollama pull llama3.2-vision:latest
ollama pull llama3.1:8b-instruct-fp16
ollama pull nomic-embed-text

Вы можете запустить download_ollama.bat напрямую, например, щелкнув на нем в File Explore Windows. Или вызвать его из командной строки (cmd.exe) в директории c:\d00m4ace_toolchain.

Этот файл можно использовать для периодического обновления всех загруженных моделей нейронных сетей и не заниматься мониторингом и обновлением каждой модели по отдельности.

Установка CUDA под Windows 10 для Python

Чтобы использовать GPU при работе с моделями нейронных сетей, вам также потребуется установить поддержку CUDA в Windows 10 для Python и C++:

Полные инструкции по установке поддержки CUDA в Windows 10

Запуск и использование d00m4ace AI toolchain

Вся работа с d00m4ace AI toolchain осуществляется путем запуска bat-файлов из директории c:\d00m4ace_toolchain с окончанием _serv.bat.

  1. Откройте командную строку (cmd.exe).
  2. Перейдите в директорию c:\d00m4ace_toolchain: cd c:\d00m4ace_toolchain
  3. Выберите желаймы файл сервер из d00m4ace AI toolchain, например whisper_serv.bat и запустите данный файл: whisper_serv.bat.

В случае успеха вы увидите в консоли следующий текст:

Microsoft Windows [Version 10.0.19045.5011]
(c) Microsoft Corporation. All rights reserved.

C:\d00m4ace_toolchain>whisper_serv.bat
model: ./llms/Systran/faster-whisper-medium/
Running server on: 192.168.2.12:8062
Сервер whisper запущен на порту 8062

Здесь вы можете увидеть, какая модель используется в этом whisper сервере:

model: ./llms/Systran/faster-whisper-medium/

А также узнать адрес серевера и его порт:

Running server on: 192.168.2.12:8062

Работа с этим сервером осуществляется, как и с любым другим AI-сервером из d00m4ace AI toolchain, с помощью HTTP json-запросов:

# полный код см.: c:\d00m4ace_toolchain\d00m4lib\dm_reqs.py

async def request_whisper(url, file_audio, lang):   
    with open(file_audio, 'rb') as file:
        file_data = base64.b64encode(file.read()).decode('utf-8')

    data = {'audio': file_data, 'lang': lang, 'ext': get_file_extension(file_audio) }  

    # Начало отсчета времени
    start_time = time.time()    

    response = await send_request(url, data)

    # Окончание отсчета времени
    end_time = time.time()

    # Подсчет времени
    elapsed_time = end_time - start_time
    print(f"elapsed: {elapsed_time:.2f} sec")

    if response['status'] == 'success' and 'file' in response:
        return response['file']

    return '***ERROR***'

Список текущих серверов из d00m4ace AI toolchain:

  1. whisper_serv.bat - сервер whisper для распознавания речи из аудиофайлов
  2. stable_audio_serv.bat - сервер stable audio генерация небольших аудиофайлов
  3. sdxl_serv.bat - сервер для генерации изображений stable-diffusion-xl, включая другие модели на основе SDXL, и использования LoRA.
  4. sd35_serv.bat - сервер для генерации изображений stable-diffusion-3.5, и использования LoRA.
  5. phi3vision_serv.bat - сервер машинного зрения для работы с изображениями на основе модели microsoft/Phi-3-vision-128k-instruct
  6. musicgen_serv.bat - сервер генерация небольших музыкальных аудиофайлов
  7. flux_serv.bat - сервер для генерации изображений FLUX.1-dev/FLUX.1-schnell, и использования LoRA.
  8. florence2_serv.bat - сервер машинного зрения для работы с изображениями на основе модели microsoft/Florence-2-large
  9. coqui_serv.bat - сервер Text-to-Speech для генерации речи на основе модели coqui/XTTS-v2

Позже будут и другие модели и ИИ сервера. Следите за обновлением!