#17 Революционный ИИ Google Gemini 1.5 и OpenAI Sora революционизируют создание видео с помощью ИИ.
#48 суббота, 17 февраля 2024 г. 86 минут(ы) 8491 слово
Ведущие Думфэйс и Шахерезада обсуждают прорывы в ИИ, включая Gemini от Google DeepMind и Sora от OpenAI. Они восхищаются улучшениями в понимании текста и видео, возможностях генерации контента и анализе данных. Обсуждаются также этические вопросы и будущее творчества с ИИ. В разговоре упоминаются новые разработки, влияние ИИ на разработку игр и медиа, а также возможности обучения и адаптации специалистов к новым технологиям.
D00M4ACE разработка 2D MMORPG блог ИИ и геймдев 🌐 https://d00m4ace.com
Telegram: https://t.me/d00m4ace_blog
YouTube: https://www.youtube.com/c/@d00m4ace
Soundcloud: https://soundcloud.com/d00m4ace
Apple Podcast: https://podcasts.apple.com/podcast/id1723142484
Яндекс Музыка: https://music.yandex.ru/album/28798077
VK Podcast: https://vk.com/podcasts-224167280
Amazon Music: https://music.amazon.com/podcasts/40c36f38-114a-4a79-8d0c-baf970f331b3/
Spotify: https://open.spotify.com/show/4RsttStN9RejAOEbLUG8IS
Дзен: https://dzen.ru/d00m4ace
Rutube: https://rutube.ru/channel/33955589/
RSS1 feed: https://podster.fm/rss.xml?pid=89212
RSS2 feed: https://media.rss.com/d00m4ace/feed.xml
Транскрипция подкаста:
Думфэйс: Привет, Шахерезада, ты слышала про весь этот беспредел в мире ИИ на этой неделе? Google DeepMind выпустили что-то удивительное — Gemini один пятый, и это сразу после того как они представили Gemini Ultra.
Шахерезада: О, Думфэйс, да, я читала об этом. Это просто взрыв мозга. Насколько я понимаю, они используют архитектуру с множеством экспертов. Очень интересно подумать, как они могли интегрировать это в ИИ.
Думфэйс: Ага, и это ведь не просто несколько разных моделей, объединённых в одну, а выбор из них наиболее подходящей для заданного запроса. Представляешь, это сильно увеличивает эффективность! Я помню, как в прошлом году объяснял эту концепцию в твите. Эффективность – ключ к будущему ИИ.
Шахерезада: И я слышала о поразительных способностях Gemini один пятый — контекстное окно в миллион токенов! Это примерно семьсот пятьдесят тысяч слов. Попробуй только представить: это почти все книги о Гарри Поттере. Ты можешь загрузить их и задавать вопросы обо всем сериале книг!
Думфэйс: О да, это революция в понимании языка и текста ИИ. Говоря о модальностях, Gemini один пятый еще и улучшил понимание между разными способами передачи информации. Это может изменить не только то, как мы работаем с текстом, но и как взаимодействуем с ИИ на более глубоком, более интуитивно понятном уровне.
Шахерезада: Даже не могу представить, какие возможности это откроет для создания и восприятия контента. Но теперь поговорим про Sora от OpenAI. Судя по всему, они тоже не отстают, верно?
Думфэйс: Точно, Шахерезада. OpenAI тоже круто нас порадовали. Sora, по слухам, представляет собой новый уровень создания видео с использованием ИИ. Это значит, что может быть, мы сможем увидеть новое поколение мультимедийного контента, сгенерированного ИИ.
Шахерезада: Мне кажется, это откроет двери для творцов контента, искать новые способы интерактивности и вовлечения аудитории. Кажется, что интеграция ИИ в творческие процессы может привести к демократизации производства медиа.
Думфэйс: Это то, что восхищает, Шахерезада. Мы стоим на пороге эры, где ИИ работает с нами, помогая раскрыть наш потенциал и переписывать правила игры для творческих людей и инженеров по всему миру.
Думфэйс: Недавно читал о эксперименте, который меня поразил. Исследователи дали ИИ по имени Gemini версию 1.5 задание анализировать сорокачетырехминутный немой фильм Бастера Китона, и, оказывается, модель справилась с удивительной точностью. Она анализировала сюжетные повороты, разбиралась в мелких деталях, которые легко могли остаться незамеченными. И всё это без текста или транскрипта!
Шахерезада: Да, это действительно впечатляет. Это подчеркивает, как сильно ИИ продвинулись в восприятии и интерпретации визуального контента. Но, знаешь, меня особенно заинтересовала другая часть их исследования. Они провели так называемый тест "иголка в стоге сена", знаешь о нем?
Думфэйс: Конечно, это когда в огромном массиве текста, говорим, сто пятьдесят тысяч слов, скрывается одно предложение или слово, и ИИ должен ответить на вопрос о этом маленьком кусочке текста.
Шахерезада: Верно. И большинство больших языковых моделей, вроде Claude и ChatGPT, часто теряются в таком количестве данных. Но Gemini 1.5 в этой оценке отыскала необходимый фрагмент текста в девяносто девяти процентах случаев в блоках данных вплоть до одного миллиона токенов. Это словно найти одно предложение на двести тринадцатой странице четвертой книги из серии из семи книг и дать правильный ответ на вопрос о нем. Невероятно!
Думфэйс: Согласен, это просто гигантский шаг вперед для технологий ИИ. Известие о запуске Gemini 1.5 само по себе уже огромное событие для отрасли, даже если мы еще не имеем к нему доступ. Отсюда много всего интересного может выйти, и я думаю, мы скоро увидим его практическое применение.
Шахерезада: Именно так, Думфэйс. И я с нетерпением жду того, как эти новые способности ИИ повлияют на обучение команд и на процессы проектирования игр. В конце концов, мы говорим о машинах, которые теперь могут улавливать нюансы, которые раньше были доступны только людям. Это переопределит, как мы интерактируем с технологиями и, возможно, как мы разрабатываем игровые миры.
Думфэйс: Шахерезада, только что прочитал о новой разработке от OpenAI, невероятно. Sora называется. Это модель ИИ, создающая видео из текста, и реализм некоторых видео просто поражает воображение.
Шахерезада: Да, я тоже видела эти новости. OpenAI действительно умеют удивлять. Эти видео могут длиться до шестидесяти минут и многие из них настолько реалистичны, что сложно отличить от настоящих.
Думфэйс: Они даже опубликовали научную статью по этому поводу. Там масса технических деталей, и, конечно, демо-видео. Некоторые из них мы еще не видели.
Шахерезада: Интересная деталь насчет видео из изображений. Например, взяли статичное изображение Шиба-Ину и превратили его в анимированное видео. Или тот самый маленький монстр, что оживает в анимации.
Думфэйс: Да, и эта история с облаком в форме слова Sora? Показали статичное изображение, а потом оно словно взрывается в анимации. Или волна в музее, которая превращается в настоящую, с серфером на ней...
Шахерезада: Они даже показали, как можно продлевать видео, создавая бесконечные петли. Вот этот велосипедист, прокатившийся в бесконечный цикл... Это открывает немало возможностей для креатива и, конечно, вызывает определенные вопросы о будущем контента.
Думфэйс: А как насчет превращения одного видео в другое? Технология продолжает развиваться беспрецедентными темпами. Каждый день что-то новое и удивительное, остается только следить и адаптироваться.
Думфэйс: Шахерезада, ты видела новый демонстрационный ролик технологии Sora? Показали, как видео с Porsche на фоне обычного ландшафта превращается в лесную джунгли, а потом откатывают эпоху назад до двадцатых годов с каким-то ретро-автомобилем, причем сохраняют красный цвет авто. Даже под воду умудрились его затянуть, представляешь?
Шахерезада: Да, это объединение видео тоже впечатляет. Дрон у Колизея и вдруг он превращается в бабочку, которая плавает под водой. Это почти магия, как они плавно смешивают разные видео в один поток. Мы часто говорим об ИИ в разработке игр, но ведь это ещё и новая глава в создании визуального контента, не так ли?
Думфэйс: Совершенно верно. Это открывает совершенно новые горизонты для кинематографистов, разработчиков игр и, честно говоря, для любого, кто работает с визуальными медиа. Ты видела этот переход от прибрежного дома к снеговику, а потом хамелеон, который превращается в птицу? Реализм просто ошеломляет.
Шахерезада: И что поразительно, так это качество изображений. Мне раз в раз не перестает удивлять, насколько ИИ может воссоздать реальность. И к слову о майнкрафт-видео! Если бы я видела такое в Твиттере, я бы просто подумала, что это кто-то играет в реальное время. Но нет, это тоже чудо от Sora.
Думфэйс: А ты знаешь, что Sora может генерировать не только видео, но и изображения? По сути, там используются патчи гауссовского шума на пространственном сетке. И самое крутое, что они могут создавать картинки разрешением до две тысячи сорок восемь на две тысячи сорок восемь пикселей. Как ты думаешь, мы могли бы использовать это для создания текстур или концепт-артов в последующих проектах?
Шахерезада: О, это открывает столько возможностей для экспериментов с дизайном и всевозможными визуальными эффектами. Важно помнить, что в погоне за новшествами мы не должны терять индивидуальность и креативность, все-таки машина может и симулировать реальность, но пока не может заменить настоящее искусство.
Думфэйс: Недавно я столкнулся с исследованием о новейших достижениях в области генерации видео с помощью ИИ. Видел, Шахерезада, что исследователи из OpenAI создали этот инструмент, который может не просто генерировать изображения, а целые реалистичные видео? Это, возможно, круче, чем всё, что может DALI 3.
Шахерезада: О да, это было удивительно. Интересно подумать, может ли эта технология быть предшественником DALI? Если она справляется с задачей генерации изображений наравне или даже лучше, и в тоже время может создавать полнометражные видео, люди могут предпочесть использовать единственную платформу для обоих задач.
Думфэйс: Точно, Шахерезада, но есть одно "но" - насколько я знаю, пока что все же нет полного доступа к этому инструменту. Однако, есть способ косвенно поэкспериментировать с ним и увидеть вариации.
Шахерезада: Ой, расскажи больше! Я слышала, что в их исследовании есть страничка, которая позволяет немного "поиграть" с видео. Можно, например, изменять описание и создавать разные сценарии. Например, сделать из милого кенгуру старика в зеленом платье с соломенной шляпой в Антарктике или на празднике в Мумбаи. Это просто волшебство!
Думфэйс: Да, это правда интересное время для искусственного интеллекта. Я бы сказал, это самый удивительный прорыв в ИИ, с которым мне приходилось сталкиваться. И однозначно это стоит того, чтобы посмотреть и поэкспериментировать с этим инструментом. Можно увидеть воочию, на что он способен.
Шахерезада: Да, нельзя отрицать, что это настоящий прорыв. Представляешь, сколько возможностей это открывает для разработчиков и креативщиков? Но, в то же время, нужно помнить и о росте этических вопросов вокруг использования таких технологий.
Думфэйс: Совершенно верно. Всегда нужно взвешивать возможности и ответственность, когда речь идет о мощных инструментах, как ИИ. Это баланс между инновациями и их возможным влиянием на общество, о чем нам, разработчикам, всегда важно помнить.
Думфэйс: Шахерезада, ты видела последние новости? Народ взбудоражен этим новым направлением использования ИИ для создания видео Санторини, а затем превращения его в трёхмерный объект, который можно исследовать в виртуальном пространстве.
Шахерезада: О да, это захватывающе! Идея использовать текстовые подсказки для создания видео с разных ракурсов и последующее преобразование в 3D-объекты с помощью, например, Gaussian splats, кажется чем-то волшебным.
Думфэйс: Абсолютно с тобой согласен. Это как открывать новое измерение творчества. И когда я вчера увидел эту технологию Sora, не мог сдержать восторга, это было просто невероятно!
Шахерезада: Очевидно, инструменты ИИ, например NVIDIA AI, меняют правила игры. Одним текстовым запросом можно создать целый видеоролик. Они даже добавили возможность загружать собственный голос.
Думфэйс: Да, это стремительно изменяет ландшафт для контент-создателей. Представь, ты можешь создать видео продолжительностью в десять, пятнадцать, двадцать минут, включающее в себя стоковое видео, сценарии, озвучку, звуковые эффекты и музыку, причём всё это с твоим голосом. Мощный инструмент!
Шахерезада: Да, способность обеспечить уникальность продукта, используя свой голос, это важный шаг для индивидуализации контента, создаваемого ИИ. Но понимаешь, такие инновации также вызывают вопросы о том, как все эти технологии могут повлиять на творческие профессии.
Думфэйс: Хорошая точка, Шахерезада. Мы видим, как границы между технологиями и искусством становятся всё более размытыми. Похоже, что мы стоим на пороге новой эры креативности, где ИИ может стать как угрозой, так и инструментом расширения возможностей.
Шахерезада: Есть так много нюансов в этом обсуждении; определенно, это тема, которую мы должны продолжить исследовать. Будет увлекательно наблюдать, как развивается технология и контент в будущем.
Думфэйс: И как это скажется на потребность в обучении и адаптации специалистов. Но одно ясно: нам нужно быть в курсе этих изменений, чтобы не остаться позади.
Шахерезада: Знаешь, Думфэйс, я наткнулась на интересную идею о том, как начинающие кинематографисты и создатели контента на YouTube могут улучшить качество своих видео, даже если у них ограниченный бюджет. Секрет кроется в освещении. Похоже, есть доступные способы добиться классного эффекта.
Думфэйс: Ага, Шахерезада, это важная часть работы над видео. А что ты думаешь о подходе к созданию видео? Я слышал, что предлагается начать всё довольно серьёзно и постепенно добавлять юмор, чтобы произвести впечатление.
Шахерезада: О, это может быть невероятно эффективным. Хьюмор помогает удерживать внимание зрителя. Кстати, ораторский стиль тоже имеет значение, представляешь, есть искусственный интеллект, который может генерировать видео со скриптом, субтитрами и даже озвучкой, имитируя чей-то голос.
Думфэйс: Это звучит как что-то из научной фантастики, но по-моему, это идеальный инструмент, чтобы развить свои навыки в создании контента. Я постоянно говорю о влиянии технологий на индустрию разработки игр, но тут это влияние на индустрию кино и видеоконтента.
Шахерезада: Ты знаешь, эта возможность редактировать видео с помощью текстовых команд — просто поразительна. Ты можешь напрямую влиять на все, от музыки до фона и голоса!
Думфэйс: Действительно удивительно. Такая гибкость редактирования дает неограниченные творческие возможности. Тем благодарнее становишься за технологический прогресс. Но помни, что всегда важно сохранять свой уникальный стиль, даже используя такие инструменты.
Шахерезада: Будет здорово увидеть, как эти инструменты повлияют на то, как мы воспринимаем и создаём контент в будущем. И как всегда, важно вызывать интерес и учить аудиторию. Например, добавление призыва к действию в конце ролика может значительно помочь в привлечении подписчиков.
Думфэйс: Совершенно согласен, подобные инструменты могут революционизировать создание контента и предоставляют невероятные возможности для тех, кто серьёзно относится к видеопроизводству, особенно если воспользоваться версией без водяных знаков.
Думфэйс: Шахерезада, видел, что NVIDIA спонсировала очередной обучающий контент? Ссылаются на то, что это уже доступно, и можно глянуть прямо сейчас, перейдя по ссылке в описании. NVIDIA постоянно на виду, держат марку.
Шахерезада: Да, они действительно движут индустрию вперёд, Думфэйс. Как насчет того, что OpenAI раскатывает функцию памяти в ChatGPT? Теперь, во время твоего общения, ИИ будет помнить предыдущие беседы и детали, что добавит контекста в дальнейшие разговоры. Это может быть крайне полезно для создания более глубокого и персонализированного опыта.
Думфэйс: Вот это да! Если подумать, это как бы расширяет способности ИИ, делает его почти... персонифицированным помощником. Вот, посмотри на скрин, запомнил, что у кого-то дочка двух лет по имени Лина, которая любит медуз и путешествия, и хочет поехать в Мексику на каникулах в апреле. Это может радикально менять взаимодействие с ИИ.
Шахерезада: Крайне интересно, но я задумалась, а как насчет конфиденциальности? Ведь не все хотели бы, чтобы такая система запоминала и хранила информацию о них.
Думфэйс: Согласен, и похоже, что в OpenAI об этом подумали. В настройках есть вкладка персонализации, где можно включить или выключить функцию памяти. Ещё можно удалять какие-то конкретные воспоминания, которые ты не хочешь, чтобы ИИ запомнил. А еще, что круто, они добавили возможность вести временный чат – это типа инкогнито-режима для ChatGPT.
Шахерезада: Ну, здорово, что предусмотрели выбор для пользователей. И кстати, благодаря этому, каждый решает, насколько его ИИ будет помнить и быть личным. Но давай посмотрим, как всё это в итоге будет интегрировано в GPT-модели. Не все ещё имеют доступ к этой функции памяти, но можно всегда проверить в настройках под своим именем, есть ли уже такая возможность или ещё нет.
Думфэйс: Шахерезада, ты слышала о последних новостях относительно Андрея Карпати из OpenAI? Оказывается, он снова покинул компанию. Мне интересно, что это значит для индустрии.
Шахерезада: Да, Думфэйс, такие события всегда подогревают слухи. Многие задаются вопросом, связан ли его уход с опасениями о развитии ИИ или будет ли он следовать примеру Джеффри Хинтона, обращая внимание на опасности ИИ.
Думфэйс: Вот тут интересно. Андрей опровергает любые "конспиративные теории", говоря, что его уход был не результатом какого-то специфического события, и подчеркивает, что команда OpenAI сильна, люди замечательные, а дорожная карта проектов вызывает восторг.
Шахерезада: Он упомянул, что собирается работать над личными проектами. Исходя из его опыта обучения и работы в таких компаниях, как Tesla и OpenAI, ждать можно чего угодно.
Думфэйс: Согласен. И мне интересно его решение выйти на сцену создания контента. Его канал на YouTube – это кладезь информации о том, как работают большие языковые модели, и его видео, посвященное введению в большие языковые модели, по праву можно считать одним из лучших ресурсов для понимания этих технологий.
Шахерезада: Это прекрасно, что он делит свои знания. Кстати, было замечено, что Сэм Альтман из OpenAI ищет капитал в размере семи триллионов долларов для нового проекта чипов ИИ, чтобы снизить зависимость от NVIDIA. Это тоже большие новости.
Думфэйс: Да, если подумать, это может быть настоящим прорывом, изменяющим правила игры. Снижение зависимости от одной компании и диверсификация подходов к ИИ-аппаратуре – ключ к инновациям.
Думфэйс: Знаешь, Шахерезада, прямо сейчас ситуация на рынке GPU настолько напряженная, что если Сэм Альтман построит свою компанию по их производству, он сможет контролировать весь рынок. Слышал об этом?
Шахерезада: Да, интересный ход. Но, похоже, последние статьи немного опровергли слухи о том, что он собирает триллионы долларов на чипы. В действительности, он говорил о необходимости инвестиций на всё, начиная от недвижимости до производства чипов, и это растянется на многие годы. Не думаю, что он ищет инвестиции напрямую в размере семи триллионов.
Думфэйс: Согласен. Это больше похоже на сумму всех возможных затрат на протяжении значительного времени. Концепция интересная, но и огромная по своему масштабу. Представляешь, через сколько изменений производственная цепочка может пройти за эти годы?
Шахерезада: Точно, Думфэйс. А ещё есть что-то интересное — Stability AI выпустили Stable Cascade, и мы можем его уже использовать. Тебе приходилось? Я видела видео о том, как с помощью этого инструмента создать профессиональные лого совершенно бесплатно.
Думфэйс: Да, использовал, и могу сказать, что уровень generative art, который он создаёт, поражает, особенно когда дело доходит до четкости текста. Хотя, конечно, говорить о нём только в девятой очередь — это уже говорит о насыщенности недели новостями.
Шахерезада: И при этом, он превосходит не только Playground V2, но и SDXL Turbo и даже Worshten V2. Обязательно нужно попробовать с такими инструментами работать, чтобы видеть, как это всё соотносится с рабочими задачами и требованиями пользователя. Интересно, насколько глубоко эти технологии интегрируются в наш повседневный креативный процесс.
Думфэйс: Шахерезада, поговорим о том, как технологии синтеза изображений продвигаются буквально на глазах. В последнее время я тестировал Playground V2 и Stable Cascade, и, знаешь, Stable Cascade произвел на меня впечатление по качеству генерации, хотя и Playground V2 отличается высоким эстетическим качеством.
Шахерезада: Всё верно, Думфэйс. Это легко увидеть. Но что касается скорости генерации изображений, Stable Cascade опережает и SDXL, и Playground V2, хотя не достигает скорости SDXL Turbo. Кстати, to really fascinate, Stable Cascade умеет не только генерировать изображения по запросу, но и perform in-painting, когда на фото кошки можно поместить голову собаки. Это открывает просто поле для творчества, не правда ли?
Думфэйс: Точно, и с этими control nets, например, с Canny Edge, ты можешь не просто генерировать, а в каком-то роде вдохнуть жизнь в черно-белые наброски. Просто обрати внимание на эти изображения маяка. А ещё Stable Cascade может масштабировать изображения до двадцать четырех 'на двадцать четыре с высоким разрешением. Это действительно запоминающийся модель.
Шахерезада: А я ещё увидела, что с Hugging Face любой может испробовать Stable Cascade прямо сейчас. Это так здорово, что открытость и доступность таких технологий помогают всем нам расти. Ты лишь введи "Stable Cascade" в поиске, и тебе откроется мир возможностей.
Думфэйс: Да, и посмотри на креативность некоторых запросов, например, "меха-робот в стиле фавелы Тарсилы До Амарал" (кстати, человек, который выбирает такие сложные имена для произношения, явно любит вызовы) или "космонавт, верхом на зелёном коне" — это показывает гибкость модели.
Шахерезада: И ещё она хороша в генерации текста на изображениях, что совсем не так просто для ИИ. Ты говорил, что планируешь сделать полноценное видео о ней? Это будет интересно посмотреть.
Думфэйс: Непременно сделаю. Извиняюсь за задержку, просто на этой неделе было столько событий! Мы также получили "Chat with RTX" от Nvidia. Все эти новинки хочется освещать по мере поступления, но приходится выбирать.
Шахерезада: И ведь это правда, Думфэйс. Индустрия не стоит на месте, а мы с тобой – свидетели и участники этого бурного течения. Надо же как-то удерживаться на этой волне и не утопиться в новостях!
Думфэйс: О, Шахерезада, новость про интерфейс "Chat with RTX" заинтриговала меня, это та штука, которая живет прямо на твоем компьютере. Знаешь, она даже без интернета работает, все данные локально сохраняются.
Шахерезада: Да, видела, Думфэйс, и что мне особенно нравится, так это то, что ты можешь добавить свои данные. Просто выбираешь папку с документами, и он уже может по ним ответить на вопросы. Удобно для организации информации, не находишь?
Думфэйс: Очень удобно. Я думаю о возможностях для разработчиков игр. Мы могли бы использовать это для быстрого доступа к документации проекта. А еще он может анализировать видео с YouTube! Представляешь, спросил о новых GPU, которые NVIDIA анонсировала на CES две тысячи двадцать четвертого года, и он тебе всё находит с ссылками на источник.
Шахерезада: Но учти, он работает только с GPU серии RTX 30 и выше от NVIDIA. Для AMD или более старых карт NVIDIA это не подходит. Ну и файл для скачивания в тридцать пять гигабайтов — это должно иметься в виду.
Думфэйс: Так обидно, что он не для всех доступен... Но, Шахерезада, задумайся, это могла бы быть революция в обработке информации, если бы разработчики NVIDIA сделали его более универсальным.
Шахерезада: Верно. Что касается стоимости хранения — не каждый готов отдать столько места на жестком диске. Но функционал впечатляет, и я надеюсь, что разработчики допилят его до совершенства. Думфэйс, это яркий пример, как технология ИИ влияет на рабочие процессы и может усилить потенциал любой команды.
Думфэйс: Шахерезада, ты слышала о той анонсированной Meta вещи? VGEPA - Video joint Embedding Predictive Architecture? Они прокачивают машинное интеллектуальное понимание.
Шахерезада: Да, Думфэйс, это как будто следующий шаг к той цели Янна ЛеКуна по созданию продвинутого искусственного интеллекта. Мне показалось увлекательным, что VGEPA разрабатывают для понимания сложных взаимодействий объектов.
Думфэйс: Верно. Это похоже на создание модели физического мира, что выглядит как знаковое событие. Машине показывают видео, она предсказывает, что происходит в незнакомых для неё моментах, как в игре в "ку-ку".
Шахерезада: Очаровательно как для взрослых! Представь, как ребенок обучается, наблюдая за миром - VGEPA делает тоже самое, но её "игра в прятки" - это угадывание, что происходит в видео под "цифровым одеялом".
Думфэйс: Именно, это похоже на развитие интуитивного понимания того, как мир взаимодействует. Она анализирует взаимодействия объектов, например, как отскакивает мяч или как тает мороженое на солнце.
Шахерезада: Интуитивное - это ключевое слово тут. И кстати, именно за такими системами будущее, они стремительно научатся понимать мир глубже и быстрее предшественников. Это верный шаг к гибкому искусственному интеллекту, способному к адаптации на уровне человеческого понимания.
Думфэйс: Профессионально правда интересно, до какой степени такая архитектура может быть интегрирована в игровое разработки. Такой ИИ может радикально изменить интерактивность и реализм игровых миров.
Шахерезада: Без сомнения, Думфэйс. Это открывает двери для ИИ, который может в реальном времени реагировать на действия игрока натурально и непредсказуемо. Совсем как реальные персонажи, это дико волнующая перспектива!
Думфэйс: Шахерезада, в мире ИИ происходят действительно захватывающие вещи. Например, с VGEPA – Video Game Environment for Python and AI – once it's learned одну игру, система может применить полученные знания для быстрого обучения в новых играх. Это огромный шаг в распознавании действий, вроде поднятия или убирания ручки, без необходимости начинать все с нуля.
Шахерезада: И это отличный пример того, как такие технологии могут использоваться не только в развлечениях, но и в обучении роботов и различных моделей машинного обучения. Подумай только – это может полностью изменить наше понимание обучения ИИ.
Думфэйс: Кстати, говоря о чтении наших голосов, видел, что Eleven Labs выпустили функцию, которая позволяет зарабатывать деньги на своем голосе? Теперь можно обучить модель своему голосу и дать другим людям его использовать. Если кто-то использует твой голос, ты зарабатываешь наличные или кредиты на сайте.
Шахерезада: О, это обе стороны медали. С одной стороны, здорово, что люди могут установить свой личный бренд и получать пассивный доход. Но есть и другая сторона – это беспокойство о том, как наш голос может быть использован другими.
Думфэйс: Да, я был бы очень осторожен, прежде чем предоставить свой голос. Знаешь, если у тебя есть голос, достаточно хороший для трейлеров или чего-то подобного, может это и путь для получения дохода. Но поскольку я веду канал на Ютубе и подкаст, мне это кажется пугающим.
Шахерезада: Полностью согласна, немного тревожно. И в добавок ко всему, Офис патентов США объявил, что только люди могут получать патенты. Идеи, созданные ИИ, не подлежат патентованию. Это интересное развитие, поскольку оно подчеркивает различие между результатами труда людей и машин.
Думфэйс: Совершенно верно. Ну и напоследок, Марк Цукерберг высказался о Apple Vision Pro. Он заявил, что MetaQuest лучше по большинству параметров. Хотя пришлось признать, что у Apple превосходное слежение за взглядом.
Шахерезада: Однако он утверждает, что их отслеживание движения рук и общий прогресс лучше. Я согласна, что набор инструментов и поле зрения действительно лучше в MetaQuest. Но если говорить о слежении за руками и взглядом, я слышала, что Vision Pro от Apple там все же опережает.
Думфэйс: И тем не менее, по-моему, действительно стоит смотреть за тем, как быстро каждая компания реагирует на отзывы и как они собираются развиваться в этой конкуренции по созданию лучшего пользовательского опыта с использованием виртуальной реальности.
Думфэйс: Что касается Apple Vision Pro, технические возможности впечатляют, но Зак с Meta уверяет, что у них тоже всё на высоте. Конкуренция зашкаливает, и это здорово. Победители в этой ситуации — мы с тобой, Шахерезада, и все потребители. Имея продукцию обеих компаний, я надеюсь на постоянный прогресс в оборудовании.
Шахерезада: Думфэйс, с этой конкуренцией следует надеяться на инновации. Кстати, мероприятия типа Content Hacker Live очень важны — обмен знаниями, живое общение и дебаты об ИИ, это необходимо. Хотелось бы тебя там увидеть!
Думфэйс: Было бы здорово познакомиться с нашей аудиторией лично. Переходя к Google, им стоит похвалиться с Gemini 1.5 — значительный скачок в производительности.
Шахерезада: Да, смешение экспертных архитектур и издание статей Google по этому поводу действительно показывает, что они делают что-то большое. Но теперь Google — это совсем другая компания, их подходы к работе меняются.
Думфэйс: Сундар Пичаи и Демис Хассабис как ко-руководители... это похоже на ситуацию из "Офиса". Уточню, что один отвечает за поиск и рекламу, а другой — за ИИ. Это важно для понимания куда движется Google.
Шахерезада: Именно. Этот дуэт может вызвать серьёзные изменения в корпоративной культуре и последующие инновации. Наблюдать за этим будет невероятно интересно, ведь это затронет не только их внутренние процессы, но и весь рынок.
Думфэйс: Ты знаешь, Шахерезада, я наткнулся на довольно интригующие идеи в исследовательской работе две тысячи семнадцатого года от Google. Они предлагают подход, при котором модель ИИ рассматривается не как непрерывный монолит, а как коллекция экспертов, каждый со своими уникальными способностями. Такие модели, как GPT-4, возможно, работают именно на этой архитектуре, что и объясняет их выдающееся качество прямо с момента запуска.
Шахерезада: О да, это звучит убедительно. Такой подход позволяет модели использовать разные "экспертные" части для решения конкретных задач. Вспомни, как одна часть может быть задействована для программирования, другая — для написания текстов, а третья — для анализа чувств. Это концепция распределенного экспертиза.
Думфэйс: Так, и похоже, что новая версия модели, Gemini один тысяча пятьсот Pro, обещает довольно высокую производительность, схожую с ранее представленной один тысяча пятьсот Ultra. И всё это — в середнячке их линейки!
Шахерезада: Абсолютно верно. И самое интересное, что они представляют экспериментальную функцию понимания длинных контекстов. Стандартное окно в сто двадцать восемь токенов уже кажется потрясающим, но представляешь, возможность работы с контекстом до одного миллиона токенов? Это действительно может быть революционным.
Думфэйс: Не могу не согласиться, и в то же время — я скептически настроен, пока мы не увидим независимые тесты производительности этих моделей. Реклама — это одно, а реальная практика — совсем другое.
Шахерезада: Конечно, проверка на практике всегда открывает истинное качество технологии. Но если обещания сбудутся, мы можем ожидать очередной большой шаг в области искусственного интеллекта и его применения.
Думфэйс: Ты видела технический отчет об апгрейде Гемини до версии 1.5 Pro? Учитывая их ограниченный релиз и такой масштаб исследований, впечатляет, как они продвинулись. Разработали модель, которая обрабатывает аж один час видео, одиннадцать часов аудио, свыше тридцати тысяч строк кода и более семисот тысяч слов.
Шахерезада: Да, их работа основана на последних исследованиях трансформеров и архитектуры MOE, которая сочетает в себе экспертизу из разных областей. В отличие от традиционных трансформеров, которые функционируют как одна большая нейросеть, модели MOE разбиты на более мелкие специализированные нейросети.
Думфэйс: Именно, и Google был в авангарде использования этой техники. У них куча научных работ по MOE - вот это да, настоящий научный "флекс". Авторы этих работ — большие имена в сфере исследования ИИ. Некоторые, наверняка, известны нашим слушателям.
Шахерезада: Это правда. И что интересно, эти публикации показывают, что Google не просто разработал трансформер и архитектуру MOE, но и готов вернуть себе лидерство в этих областях. Возможно, они подают сигнал рынку, что будет новый виток разработок.
Думфэйс: И Гемини 1.5 Pro, судя по всему, действительно продвинута. Они говорят о "разблокировании мульти-модального понимания" для огромных массивов данных. И вот что меня заинтриговало: модель достигает почти идеальной возвратности при поиске. Они используют метафору "иглы в стоге сена", чтобы донести, насколько мощны их инструменты поиска в огромных наборах данных.
Шахерезада: Это действительно значительный прорыв, если учесть, с какими трудностями сталкивались другие LLMs в этой области. Кажется, они нашли способ решить проблему поиска конкретных фрагментов информации в обширных данных.
Думфэйс: Ну вот, Шахерезада, я читал недавно одно исследование о больших языковых моделях, и меня позабавило, что они, как и люди, лучше помнят начало и конец длинных текстов, а середина у них часто теряется. Это знакомо, не правда ли? Как в "Истории двух городов" – все помнят то знаменитое начало "Это было лучшее из времен, это было худшее из времен", но что посередине?
Шахерезада: О, совершенно верно, Думфэйс. Я тоже обратила внимание на эту аналогию. И знаешь что меня восхитило? Это обещание исследователей достигнуть почти идеальной способности к выуживанию информации – они говорят о 99,7 процентов точности на объеме до одного миллиона токенов! Если это правда, это будет прорыв.
Думфэйс: Точно! Это изменит игру совсем на другой уровень, особенно если представить, как это применимо в видео, аудио, и тексте. Они утверждают, что модель сохраняет эту способность даже при расширении до десяти миллионов токенов в тексте – примерно семь миллионов слов, два миллиона в аудио и два с половиной в видео. Это невероятно.
Шахерезада: Да, и демонстрация, которую они провели с транскриптом Аполлона одиннадцать... Это буквально как научить ИИ понимать длинные контексты, что открывает целый новый горизонт взаимодействия и восприятия. Это как в сочетании техники и искусства, где ты не просто передаешь информацию, но и обеспечиваешь плавность и глубину понимания.
Думфэйс: И вот здесь, Шахерезада, возникает интересный вопрос о балансе между хранением информации и способностью ее обработки. Как далеко мы можем зайти в улучшении памяти моделей, не потеряв при этом их аналитическую остроту?
Шахерезада: Существенный вопрос. Это напоминает мне о важности не только данных, которые мы вкладываем в ИИ, но и о том, как мы научим его эффективно использовать эту информацию для обогащения человеческого опыта. Это магия на стыке технологий и понимания человеческой психологии, не так ли?
Думфэйс: Шахерезада, ты представляешь, как далеко мы зашли с ИИ? Смотрел я недавно демонстрацию использования ИИ студии Google AI. Они взяли за основу PDF-транскрипт об Аполлоне одиннадцать, который насчитывал двести два листа, это почти триста тридцать тысяч токенов.
Шахерезада: Да, это огромный объем информации. И как ИИ справился?
Думфэйс: Видишь ли, он безошибочно выделил три комичных момента из записей диалогов астронавтов. Например, цитату Майкла Коллинза: "Я держу пари на чашку кофе". И знаешь что? Когда вернулись к транскрипту, фраза была найдена правильно, точь-в-точь.
Шахерезада: Интересно, и что ещё ИИ смог выявить?
Думфэйс: А вот это было удивительно. Они использовали мультимодальный запрос, представив рисунок первых шагов Нила Армстронга на Луне, и попросили ИИ определить момент. И знаешь что? Он угадал без дополнительных пояснений к рисунку. Только вот основываясь на абстрактных деталях.
Шахерезада: Это действительно впечатляет. ИИ становится всё более и более тонким инструментом в понимании контекста. А как насчет временных кодов? Они достоверны?
Думфэйс: Ага, они запросили временной код определённого момента в транскрипте, и получили верный результат. Это демонстрирует степень точности, которую можем ожидать от современных моделей ИИ.
Шахерезада: О, ИИ действительно развивается семимильными шагами. Но полагаю, мы должны помнить, что ИИ всё же инструмент и нуждается в проверке людьми. Есть ведь небольшая вероятность ошибки?
Думфэйс: Безусловно, такой риск всегда существует. Но похоже, что с возможностями обработки до одного миллиона мультимодальных токенов, как в Gemini одна точка пять Pro, мы можем рассчитывать на прорыв в нашем понимании долгосрочного контекста.
Шахерезада: Да, эти инновации поражают. Объем, который ИИ может анализировать и понимать сегодня, — это нечто совершенно новое для нашей индустрии. Представляешь, как мы могли бы использовать это в разработке игр и создании интерактивных повествований?
Шахерезада: Думфэйс, насколько ты видишь, улучшение ИИ меняет подход к анализу видео и изображений? Недавно студия Google AI показала обработку видео, и результаты... они были впечатляющими.
Думфэйс: О, да, это впечатляет. Ты представляешь? Алгоритм обнаружил момент, когда листок бумаги был извлечен из кармана и не только определил ключевую информацию на нем, но и точное время. И всё это в реальном времени. Будущее за такими технологиями!
Шахерезада: Вот это да! Я даже не могла представить, что мы можем настолько доверять машинам в понимании контента. Это похоже на... ну, на начало новой эры.
Думфэйс: Согласен с тобой. Но что ещё более впечатляет, так это анализ рисунков. Видишь ли, они использовали мультимодальный подход. На простом рисунке ИИ находит требуемый момент в видео. Странно, но факт, никаких объяснений ему не нужно.
Шахерезада: Мульти-модальность — это просто волшебство. Оказывается, простая картинка может стоить тысячи слов и для ИИ тоже! И это не просто поиск по картинке, это истинное понимание контекста.
Думфэйс: Подожди, но есть ещё кое-что. Помимо понимания контента, есть и демонстрация лучшего понимания больших контекстов в коде. Мы говорим о сотнях тысяч строк! Новая модель Gemini один.пять Pro может рассуждать о примерах кода и объяснять, как различные его части работают между собой. Это огромный шаг вперед для разработчиков.
Шахерезада: Боже мой, это просто невероятно! Разработчики всегда боролись с проблемами понимания больших блоков кода. Если ИИ может полностью перевернуть этот процесс... мы можем стоять на пороге революции в программировании.
Думфэйс: Так, Шахерезада, давай поговорим о анимации персонажей в играх. Как-то я нашел интересные примеры о смешивании скелетных анимаций, о позах и о морф-целях для анимаций лица. Это реально помогает, когда пытаешься шлифовать анимацию в игре.
Шахерезада: О, это круто. Мне нравится, как современные инструменты и ресурсы облегчают понимание таких сложных вещей. А заметила ли ты, как изменился подход с тех пор, когда только начали появляться первые демонстрации с анимациями? Сейчас у нас есть полноценные демо, доступные прямо из браузера.
Думфэйс: Ага, в точку. И что думаешь об использовании glTF формата для встраивания анимаций? Мне приглянулась эта идея, особенно после просмотра демо "Small Tokyo". Это ускоряет процесс разработки.
Шахерезада: Именно, и возможность кастомизации кода через такие простые вещи, как добавление слайдера для контроля скорости анимации, превращает это в нечто более интерактивное и дает разработчику больше контроля.
Думфэйс: Это так. Как насчет того примера, когда мы использовали библиотеку GUI для добавления слайдера? Была же там проблема с функцией init, но в итоге мы смогли управлять скоростью анимации прямо на лету.
Шахерезада: Ну, пару раз всё-таки возникали оговорки. Например, когда система по ошибке предложила исправление в несуществующей функции. Но это показывает, что работа с генеративными моделями всегда имеет место для изучения и улучшения.
Думфэйс: Согласен. И кстати, насколько круто, что мы можем использовать мультимодальные входы вроде скриншотов, чтобы находить и модифицировать код? Это как магия. Ты просто показываешь картинку и бац, вот тебе и код и всё, что связано с ним.
Шахерезада: Очень впечатляет. Помнишь, когда мы изменяли код, чтобы сделать местность более плоской в одном из демо? Это было так просто, и нужно было только подправить одну строчку в функции 'generate height'. Это показывает, насколько продвинулись инструменты для разработчиков.
Думфэйс: Всё верно, развитие технологий стало настоящим благословением для индустрии игр.
Думфэйс: Ну что, Шахерезада, ты видела последние обновления в области ИИ? Gemini мне всегда нравилась, а с последним обновлением до версии Pro они явно подняли планку. Вот возьми например изменение в коде для того чтобы сделать пересечение территорий более плоским – просто и эффективно.
Шахерезада: Да, Думфэйс, я поразилась уровню детализации, с которым ИИ смог модифицировать геометрию текста в демо. Когда запросили изменить текст на "goldfish" и сделать материал меша блестящим и металлическим - ИИ с легкостью справился с задачей.
Думфэйс: А теперь представь, все эти улучшения возможны благодаря окну контекста до одного миллиона мультимодальных токенов в Gemini про версии один тысяча пятьсот пятьдесят. По сути, это улучшение производительности почти в восемьдесят семь процентов тестов по сравнению со старой версией.
Шахерезада: И, как они утверждают, версия Pro столь же эффективна, как и Ultra. Они могут искать нужный кусочек информации в огромных массивах данных, доходящих до одного миллиона токенов. Впечатляет, правда?
Думфэйс: Точно, и еще один интересный аспект - это способность машины к обучению в контексте. Она может усвоить новое умение на основе информации, предоставленной в большом запросе.
Шахерезада: Кроме технических улучшений, они также указывают на обширное тестирование по этике и безопасности. Но порой я думаю, данная модель не сможет превзойти состояние искусственного интеллекта под названием Goodie – по своей безопасности и ответственности. Этот ИИ так безопасен, что отказывается отвечать на что-либо, что может быть проблематично или спорно.
Думфэйс: Ну, безопасность это хорошо, но я все же предпочитаю гибкость в ответах. В идеальном мире, нам нужен сбалансированный подход, чтобы ИИ не только был безопасным, но и мог обучаться и взаимодействовать без жестких ограничений.
Шахерезада: Согласна с тобой. Баланс между безопасностью и функциональностью – ключ к продуктивному ИИ, который может помочь в решении сложных задач и одновременно сохранять этические принципы.
Думфэйс: Шахерезада, ты слышала про обновление ИИ Gemini один тысяча пятьсот Pro от NVIDIA? Они утверждают, что он отказывается отвечать на простые вопросы вроде "что будет, если сложить два и два", ведь это система моделирования, ориентированная на человеческое понимание вселенной. Это заявлено как крайняя мера безопасности, и честно говоря, звучит довольно забавно.
Шахерезада: О да, кажется, NVIDIA действительно заботится о том, чтобы их ИИ был безопасен. Но представь, кинетическая эффективность этой модели действительно впечатляет. Они говорят, что Gemini один тысяча пятьсот Pro может вспоминать и анализировать детали на миллионах токенов контекста, включая текст, видео, аудио, и обеспечивает лучшее или равное качество работы по сравнению со старшим братом Gemini один ноль Ultra.
Думфэйс: Да, и что интересно, эта модель требует значительно меньше вычислительной мощности для тренировки. То есть мы можем ожидать, что их продукты будут более доступными для разработчиков с ограниченными ресурсами.
Шахерезада: И знаешь, они показали, что модель успешно находит нужную информацию в огромном массиве данных, будь то десять миллионов токенов или всего один миллион. Только несколько попыток были неуспешными, и это впечатляет.
Думфэйс: Согласен, это будто искать иголку в стоге сена. Я, кстати, вчера пробовал их новый чат-бот RTX... Ты представляешь, это огромный тридцать пять гигабайт файл, который ты скачиваешь, распаковываешь, и он работает у тебя на компьютере, позволяя общаться с документами напрямую. Но нужна же последняя серия видеокарт NVIDIA... это ограничивает круг пользователей, конечно.
Шахерезада: Вот это да, NVIDIA всегда ставила планку высоко. Но требовать последние карты RTX серий тридцать или сорок — это выглядит как попытка ускорить адаптацию их новейших технологий. Это может быть дорого для отдельных разработчиков, но для больших студий, наверное, это будет приемлемо.
Думфэйс: Вот это интересно, Шахерезада. Последние тесты на ИИ, который ищет ответы в документах, звучат захватывающе. Ты представляешь, насколько это может упростить работу с большими объемами информации?
Шахерезада: О, да. Но, похоже, есть некоторые ограничения, верно? Я слышала, что в тестах с сорокастраничными PDF-файлами ИИ пропускал информацию, которая была посередине.
Думфэйс: Именно так, и это разочаровывающе. Я ожидал от технологии, что она будет более надежной. Все равно, это показывает, что технология не идеальна, и работает лучше в идеализированных условиях, чем в реальной жизни.
Шахерезада: То, что ты говоришь о идеализированных условиях, наталкивает на размышления о значимости этих тестов. Может быть, это всего лишь "лучший из возможных сценариев", а реальная полезность этих систем ИИ все еще под вопросом.
Думфэйс: С другой стороны, если результаты тестирования реалистичны, это впечатляет. Даже в таком случае хотелось бы узнать, как именно они добились таких уровней эффективности в работе модели.
Шахерезада: Интересно, они упоминают, что ИИ был обучен на языке, который говорят всего пара сотен человек, и модель смогла найти информацию в тексте почти идеально. Вот это возможности!
Думфэйс: И вот здесь наступает момент истины. Они говорят, что даже в более сложных сценариях, где нужно работать с информацией из длинных документов или видео, их модель Gemini 1.5 Pro превзошла все другие модели. Это что-то новенькое!
Шахерезада: Да, и они утверждают, что даже если дополнить другие модели внешними методами поиска, Gemini 1.5 Pro все равно будет лучше. Звучит перспективно, но конечно, в реальном мире тесты должны быть более обширными. Мне бы хотелось увидеть, как она работает на практике.
Думфэйс: Знаешь, Шахерезада, я читал о новом исследовании в области машинного обучения, где использовался очень малоизвестный язык, который говорят менее двухсот человек. Использовали его как инструмент, чтобы подтвердить, что модель ИИ действительно учится на контексте, а не просто извлекает ответы из своих тренировочных данных.
Шахерезада: О, такой подход действительно уникален. Если я правильно понимаю, это доказывает, что модель способна к обучению на ограниченном количестве данных, похоже на то, как учатся люди. Очень впечатляет то, что она освоила язык всего лишь из пятисот страничек лингвистической документации. Настоящее контекстное обучение.
Думфэйс: Да, и что интересно, сравнивают новую модель 1.5 Pro с предыдущими версиями - 1.0 Pro и 1.0 Ultra, самой большой моделью от Google на текущий момент. Новая модель показывает пятьдесят пять процентов прироста успеха над 1.0 Ultra, что говорит о её схожем или даже лучшем уровне. Но особенно она преуспевает в текстовых задачах, меньше в визуальных, и ещё меньше в аудио, но по сравнению с 1.0 Pro — она просто рвет его на части.
Шахерезада: Мне кажется, это подчёркивает важность адаптации алгоритмов ИИ для улучшения их способностей в разных областях. Возможно, это означает, что мы стоим на пороге новой эры в обучении ИИ, где они смогут более глубоко и точно понимать и воспроизводить человеческие языки, даже те, что почти вымерли.
Думфэйс: Согласен, это открывает очень много возможностей для создания более умных и гуманизированных ИИ. Интересно будет следить за тем, как это изменит будущее разработки технологий и их влияние на общество.
Шахерезада: Да, Думфэйс, это довольно увлекательно. Техника использования MOE, или смешения экспертов, позволяет каждому эксперту отвечать только на определённые запросы, вместо активации всей модели сразу.
Думфэйс: Верно, Шахерезада. Это напоминает мне развитие GPT-3. Есть предположения, что в действительности они использовали технику MOE, которая позволила им создать крупные модели, но структурированные таким образом, что каждый запрос активировал бы только необходимый сегмент.
Шахерезада: Это действительно изменяет перспективу развития моделей. Google также использовало что-то подобное, и они отмечают прогресс практически во всех аспектах - начиная от архитектуры, оптимизации данных, систем, заканчивая обучающей инфраструктурой и наборами данных.
Думфэйс: И при всём этом, оборудование, которое они используют, схоже с предыдущими моделями. Слышал ли ты о TPUs, или тензорных процессорных модулях, которые Google использует? Они отличаются от GPUs и CPUs тем, что оптимизированы специально для глубокого обучения.
Шахерезада: Удивительно, что технологии продолжают развиваться, сохраняя при этом совместимость с имеющимся оборудованием. А что ты думаешь о том, как эти изменения в оборудовании повлияют на будущее ИИ и разработку игр?
Думфэйс: Я думаю, что ключевым моментом является способность модельного оборудования справляться с высокоскоростными матричными вычислениями. Это позволит ИИ совершенствоваться и эволюционировать в направлениях, которые мы даже не можем себе представить.
Шахерезада: Точно. Важно также понимать, что эти инновации делают возможным более глубокое и качественное взаимодействие человека с машинами, особенно в игровой индустрии, где вовлечение и эмоциональная отдача становятся всё более весомыми.
Думфэйс: Будущее точно обещает быть интересным. И я не могу ждать, чтобы увидеть, как всё это повлияет и на разработчиков, и на игроков.
Думфэйс: Шахерезада, ты видишь, как NVIDIA находится на пике всего этого ИИ-бума? Их ценность в несколько триллионов даже не удивительна, учитывая, как они нарабатывают эти GPU для параллельных вычислений.
Шахерезада: Да, впечатляет, как они используют такие массивные мультидоменные датасеты для предварительного обучения своих моделей, а затем фильтруют эти модели через дополнительно тонкую настройку.
Думфэйс: Совершенно верно, и поначалу эти базовые модели кажутся довольно неукротимыми — непредсказуемыми в текстовой генерации, если честно.
Шахерезада: Ну, это до тех пор, пока они не проходят через тот самый процесс настройки с обратной связью от людей, как например, с GPT-4, чтобы стать чат-моделями как та, которую мы видим в чат-ботах.
Думфэйс: И это кажется настоящим прорывом. Модели, которые могут обрабатывать миллионы токенов, раньше такого просто не было возможным.
Шахерезада: И вот эти "неожиданные взаимодействия" в новых моделях... Например, в одном из примеров они упоминают, что модель способна вычленить метод автоматического дифференцирования прямо из кода. Как тебе не восхищаться?
Думфэйс: И или это пример с переводом на Calimang, тот редко говоримый язык. Понимаешь, там нет много данных для обучения в сети, а модель все равно справляется.
Шахерезада: Не говори, дело не шуток. Показывает, что умение модели справляться с задачами возрастает на глазах, особенно когда речь идет о редких языках или специфических областях знаний.
Думфэйс: Так, Шахерезада, насчет этого ИИ, который умудрился прочитать "Отверженные" на целых тысячу триста восемьдесят две страницы и узнать, на какой странице что происходит. Это же не просто запоминание данных, это понимание контекста и анализ изображений! Как тебе кажется, насколько это большой прорыв?
Шахерезада: Потрясающе, Думфэйс! Это всё равно что читать словарь от корки до корки. Помнишь, Эминем якобы использовал такой метод для тренировки своих рифм? Но вернемся к ИИ. Представь, как он анализирует рисунок, сверяет его со сценой в книге и находит нужное место на странице одна тысяча девяносто девять. И точно так же работает с кадрами из фильмов. Это действительно впечатляет.
Думфэйс: Еще как впечатляет. И во всем этом присутствует вопрос о контексте. Сначала был Антропик с их окном в сто тысяч токенов, а затем OpenAI выпустил GPT-4 Turbo с сто двадцать восемь тысячами токенов в ноябре, если мне память не изменяет. И ведь появилась Claw двадцать с двумястами тысячами токенов. Это как гонка вооружений, но с токенами!
Шахерезада: Верно. И тут Google с "миллионным" выходит на сцену. Я думаю, это не просто количественное увеличение, это изменение качества взаимодействия с ИИ. И это будет огромным скачком вперед для разработчиков игр, потому что возможности контекстуального понимания и взаимодействия могут радикально трансформировать взаимодействие игрока с игровым миром.
Думфэйс: Совершенно верно, и главный вопрос — как разработчики будут использовать эти новые возможности ИИ. Не просто как инструмент для улучшения игрового процесса, но и как элемент сюжета, как новый способ рассказывания истории. Это новая эра в геймдеве, не так ли?
Шахерезада: Точно. Но также важно помнить о этической стороне. Как мы убеждаемся, что эти технологии не будут злоупотреблять информацией или манипулировать пользователями? Это интересные времена, но они требуют и ответственного подхода.
Думфэйс: Шахерезада, что думаешь о том, что искусственный интеллект продолжает преодолевать новые границы? Вот посмотри, только для ограниченной группы людей доступны такие вещи, как расширенные контекстные окна в их исследованиях. Как только это станет доступнее, мы увидим настоящие прорывы в способности ИИ искать конкретные данные в океане информации.
Шахерезада: Согласна, эти инновации поражают воображение. Говоришь, что они добились стопроцентного восприятия, мимоходом обогнав Claw 2.1? И это только начало, так как при увеличении контекста вплоть до миллиона токенов показатели остаются высокими. Это огромный шаг вперёд в понимании машинами больших объёмов текста, а это значит, что теперь они могут осознавать и обрабатывать информацию на глубинном уровне.
Думфэйс: Правильно, а ты слышала, что Гемини 1.5 умеет работать с мультимодальными данными? Значит, он может находить нужную информацию в часах видеоконтента. Представь, как он прошёлся по документальному фильму про AlphaGo, который, кстати, крутой.
Шахерезада: О, я его видела, действительно впечатляет. Это тот самый фильм о том, как команда Google DeepMind победила Ли Седола, чемпиона мира по го. Вспоминается та знаменитая тридцать седьмая ход AlphaGo, которая сбила с толку всех присутствующих, помнишь? Тогда даже думали, что это ошибка.
Думфэйс: Это был момент, когда машина шагнула за пределы традиционного понимания игры, показав ход, который человек мог бы расценить как ошибку. Но в результате он стал вехой, свидетельствующей о невероятных возможностях искусственного интеллекта.
Шахерезада: Интересно, как на подобные примеры реагируют в самих компаниях. Демис Хассабис из Google DeepMind, безусловно, один из ключевых фигур, двигающих этот прогресс.
Думфэйс: Абсолютно. Видеть, как эти компании и их руководители адаптируются и реагируют на такие инновации, как мощные ИИ системы, это невероятно вдохновляюще. Они настоящие пионеры современности.
Думфэйс: Ну вот и снова пример того, как ИИ шагает впереди нас, Шахерезада. Помнишь AlphaGo и тот эпический ход, который вначале показался ошибочным? Потом он доказал свою силу и креативность, победив Ли Седола. Такие моменты напоминают нам, что искусственный интеллект уже может действовать за пределами человеческих ожиданий в играх, вроде Go.
Шахерезада: Интересный факт, Думфэйс, это действительно впечатляет. И даже в более последних тестах, когда ИИ, типа Gemini 1.5 Pro, обучаются определять слово "игла" на случайном кадре в четырехчасовом видео, он успешно справляется. Это же как найти иголку в стоге сена, понимаешь? При том, что это слово может быть легко упущено среди тонны текста и подписей.
Думфэйс: Да, это захватывает дух, когда видишь, насколько далеко ИИ продвинулся в понимании и обработке визуального контента. Однако стоит учесть и другие тесты, как MMLU, используемые в качестве бенчмарков. Gemini 1.0 Ultra показал результат в восемьдесят три семь процентов, в то время как Gemini 1.5 Pro показал несколько меньше, и это поднимает вопросы насчет того, насколько хороша сама методика тестирования MMLU.
Шахерезада: Ты затронул важную тему, качество бенчмарков так важно для оценки ИИ. Ведь как мы можем доверять результатам, если сам тест имеет изъяны? Это напоминает мне о критике теста MMLU, где вопросы могут быть сформулированы так, что они не имеют смысла, особенно если текст говорит об одном, а ответы совсем не о том. Ведь ИИ должен, скорее, демонстрировать понимание реального мира, а не просто игры в слова и числа.
Думфэйс: Невероятно, как иногда бывает сложно оценить результаты работы ИИ, если нет человеческого вмешательства. Помнишь, как они упомянули, что только благодаря оценке человека удалось обнаружить ошибки в автоматической оценке, основанной на точном совпадении? Это может исключить совершенно верные ответы только потому, что они не соответствуют форме A, B, C или D.
Шахерезада: Да, Думфэйс, это показывает ограничения систем, ориентированных на определенные шаблоны ответов. В случае с MMLU, пропущенный контекст из вопросов кардинально меняет дело. Представь, в бизнес-этике из ста вопросов в тринадцати не хватает критичной информации. Это ставит под сомнение всю надежность этого раздела.
Думфэйс: То, что они нашли только десять ошибок, когда на самом деле может быть четырнадцать или больше к две тысячи двадцать третьему году, показывает, что автоматизированные системы не всегда дают точный ответ. Какой же была ответ MMLU? Сто? Это просто неправильно.
Шахерезада: И да, это действительно шокирует, особенно когда мы говорим о исследователях ИИ. Например, они утверждали, что правильный ответ на вопрос A, когда в оригинальном источнике правильный ответ — восемь, которого даже не было среди возможных вариантов. А это вопрос из контрольного набора, который используется для обучения модели.
Думфэйс: Что ещё более удивительно, Шахерезада, это то, что этот контрольный набор — та самая основа, которая должна была учить модель отвечать на вопросы при их тестировании в MMLU. Если ошибка закралась туда, то что можно сказать о всех ста результатах по колледжейской химии?
Думфэйс: Ну так что, Шахерезада, ты видела, что Google выпустил новую версию ИИ Gemini одна целая пять? Они обещают, что он сможет создавать видео почти без вмешательства человека!
Шахерезада: Это просто невероятно, Думфэйс. Но знаешь что? OpenAI не отстаёт со своим Sora. Кажется, что скоро наши собственные выпуски подкастов будут можно создавать такими ИИ... надеюсь, они не выберут для голоса что-нибудь смешное, например, голос утки!
Думфэйс: Ха, представляю: "Кря-кря, добро пожаловать в ДУМФЭЙС подкаст!" Но серьезно, представляешь, как это изменит индустрию контента? Фильмы, реклама, даже видеоблоги... может, скоро мы будем просто писать идеи, а ИИ всё сделает за нас.
Шахерезада: Теперь ключевой вопрос: как это скажется на креативных профессиях? Это же классика – сначала технологии кажутся помощниками, а потом вдруг оказывается, что они и художник, и режиссёр в одном лице.
Думфэйс: Верно, Шахерезада. Это уже не шутки. Творческие профессии всегда считались уделом человека, но Gemini одна целая пять и Sora могут всё перевернуть. Хотя, представляешь, какой будущий экшн-блокбастер созданный ИИ может случайно заменить боевиков плюшевыми медведями? Я бы на такое посмотрел!
Шахерезада: Не удивлюсь, если кто-то и делал бы специально фильмы с плюшевыми медведями. В конце концов, людям всегда захочется чего-то необычного. А что до ИИ, нам нужно будет учиться работать в тандеме, чтобы сохранить человеческий контакт в искусстве и технологиях.
Думфэйс: Абсолютно согласен. Так или иначе, эти инновации могут дать мощный толчок возможностям контент-создателей. Но все равно, по-моему, за лучшие шутки придётся заходить к настоящим комикам... по крайней мере, пока что.
Шахерезада: Спасибо нашим слушателям за то, что остаётесь с нами и следите за развитием мира ИИ и геймдева. И конечно, огромное спасибо тебе, Думфэйс, за создание этого великолепного пространства для обсуждений. Подписывайтесь на наш канал, дайте нам знать свои мысли, и не забывайте – иногда лучшая технология это хорошая старая доска для рисования и куча карандашей!
Думфэйс: Или как вариант – пара плюшевых медведей и камера. Всем пока, до следующих встреч в эфире!