2024 год стал эпохой вдохновляющих технологических открытий, раздвинул границы возможного и перевернул представления о взаимодействии с цифровым миром. Каждое достижение этого года не просто впечатляет, оно прокладывает путь к еще более захватывающему будущему, вдохновляя на новые свершения.
Рассмотрим технологии, которые появились только в прошлом году и уже стали незаменимыми.
Весной 2024 г. появились сервисы, которые по текстовой подсказке могли создавать музыку и видеоролики. Они достаточно быстро прошли путь от концептов до вполне продуктовых решений. Например, Melobytes, AIVA и Suno позволяют превращать текстовые описания в музыкальные композиции в разных стилях, и вы можете буквально за пару минут написать вполне качественную песню в стиле рок на стихи Пушкина, от вас при этом не потребуется никаких профессиональных навыков.
И хотя подобным решениям нет еще и года, AIVA уже активно применяется для создания фоновой музыки к короткометражным фильмам, а Melobytes интегрируется в маркетинговые кампании. Эти технологии делают музыкальное творчество доступным для всех.
Text2Video преобразует текстовые сценарии в видеоролики с использованием передовых алгоритмов, основанных на представлении нейросетью латентных пространств. Эти технологии позволяют анализировать текст и создавать визуальный контент, используя сложные модели, которые интерпретируют данные как множество взаимосвязанных атрибутов.
Kapwing, Modelscope AI, Sora и Kling – одни из лидеров в этой области. Например, Sora генерирует видеоконтент, основываясь на концепции персонализированного подхода, анализируя предпочтения пользователя и предлагая уникальный визуальный ряд. Kling использует схожую архитектуру, предоставляя инструменты для создания интерактивных видео, где пользовательские данные включаются в динамическую анимацию. Эти подходы активно применяются в образовании, маркетинге и создании контента для социальных сетей, что раньше требовало существенных ресурсов продакшн-команд.
Хотя точные данные о числе созданных в 2024 г. видео неизвестны, технологии Text2Video уже доказали свою ценность, предлагая решения, которые значительно упрощают процессы контент-генерации, помогая создавать эффективные решения для маркетинга, обучения и блогинга.
В 2024 г. мы уже писали о выходе Apple Vision Pro – виртуального шлема, реализующего концепцию пространственного компьютера. Он принципиально изменил подход к взаимодействию с цифровым контентом, задав новый стандарт качества. Устройство активно используется в архитектуре и медицине, например для 3D-моделирования зданий или симуляций хирургических операций. По оценкам, оно уже заняло 5% рынка устройств для виртуальной реальности. Широкому распространению пока мешают высокая цена и отсутствие приложений, которые помогли бы в полной мере воспользоваться его техническими возможностями. Но есть слухи, что Apple работает над более дешевой альтернативой.
Несмотря на отсутствие точных данных о количестве реализованных проектов, Vision Pro стал универсальным инструментом для профессионалов и любителей, устраняя барьеры между физическим и цифровым пространством.
В 2024 г. снова появился интерес к роботам-гуманоидам, связанный с тем, что теперь они оснащены большими языковыми моделями (LLM), – это позволяет перейти от их программирования к обучению, давая им возможность легко интегрироваться в повседневную жизнь. Tesla со своим проектом Optimus, а также Figure AI с моделями Figure 01 и Figure 02 активно продвигают это направление. Tesla Optimus демонстрирует улучшенную подвижность и способность к выполнению рутинных задач, включая работу на производственных линиях и помощь в быту.
Figure AI представила модели Figure 01 и Figure 02, которые применяются в логистике, складировании и розничной торговле. Эти роботы уже проходят тестирование на таких предприятиях, как завод BMW в Спартанберге, демонстрируя высокую эффективность.
Хотя конкретные данные о масштабах их применения в 2024 г. недоступны, все эти роботы успешно решают задачи, требующие точности и автоматизации, что помогает оптимизировать рабочие процессы.
Летом 2024 г. OpenAI представила новый вид моделей Logical Reasoning Models (LRM), которые являются эволюцией LLM-моделей o1-mini, o1-preview. LRM – это новый тип искусственного интеллекта, способный рассуждать и принимать решения на основе сложных данных. Он используется в задачах, где требуется анализ большого количества факторов и построение причинно-следственных связей. Например, модели OpenAI серии o1 активно применяются для автоматизации сложных процессов, таких как анализ большого объема данных в реальном времени.
В тестовом режиме OpenAI o1 продемонстрировала способность строить сложные логические выводы в задачах прогнозирования рыночных трендов и анализа юридической документации.
Благодаря своей способности к логическому мышлению LRM превосходит обычные чат-боты, которые ограничиваются стандартными скриптами. В реальных приложениях он используется для оценки кредитных рисков, анализа юридической документации или создания стратегий в области инвестиций. Это делает его ключевым инструментом для отраслей, где критически важны точность и надежность решений.
Ключевое преимущество LRM – это способность адаптироваться и использовать логические правила, имитируя человеческое мышление. Например, в банковском секторе он помогает автоматизировать процесс кредитной оценки, учитывая множество переменных, таких как кредитная история, рыночные условия и экономические показатели. Эти модели активно внедряются крупнейшими мировыми банками, что подтверждает их надежность и эффективность в реальной практике.
Используя LRM, исследователи смогли предсказать результаты выборов в США еще в сентябре (309:229 – прогноз, 312:226 – реальность) на основе моделирования поведения основных групп населения. В декабре OpenAI анонсировала новое поколение моделей o3, которые по тестам значительно превосходят o1 и могут решать научные задачи на уровне доктора наук.
Некоторые исследователи даже считают, что это уже AGI-модели, то есть общий искусственный интеллект. Опубликовать их для общего доступа планируют в I квартале 2025 г.
В 2024 г. появился термин "AI-агент". Это автономные программы или системы, способные самостоятельно выполнять задачи, взаимодействовать с окружающей средой и принимать решения на основе полученной информации.
Они могут обучаться на своем опыте, адаптироваться к изменениям и улучшать свою производительность со временем, способны автоматически производить действия, требующие когнитивных навыков, таких как понимание языка, анализ данных и принятие решений. AI-агенты работают на базе больших языковых моделей (LLM), которые используют обработку естественного языка (NLP) и машинное обучение для выполнения поставленных задач.
Принцип их работы основан на создании и поддержании контекста взаимодействия. Например, если пользователь запрашивает аналитический отчет, AI-агент сначала интерпретирует запрос, затем извлекает данные из доступных источников и структурирует их в понятной форме. Такие программы также могут самостоятельно обращаться к другим ИТ-системам, включая базы данных и облачные сервисы, чтобы получать дополнительные сведения, необходимые для выполнения задания. Более того, AI-агенты способны оценивать результаты своей работы, анализировать ошибки и оптимизировать алгоритмы, улучшая свою эффективность с течением времени.
Популярность AI-агентов растет, так как они способны адаптироваться к специфическим нуждам бизнеса, предлагая интеллектуальные решения для сложных задач. Можно предположить, что в 2025 г. это будет основной тренд на рынке.
По принципу человекоподобных роботов, которые могут работать, используя инфраструктуру, предназначенную для людей, сейчас появился целый класс нативных программ, взаимодействующих с компьютером, имитируя действия пользователя. Эти системы способны самостоятельно открывать браузеры, окна терминалов или среды разработки для выполнения сложных задач.
Например, GitHub Copilot активно помогает разработчикам, автоматически генерируя код и оптимизируя процессы программирования. На октябрь 2024 г. у сервиса 1,8 млн платных пользователей, причем 50% их кода создано с помощью Copilot. Но наиболее популярным средством у разработчиков становится Cursor – программа, построенная на основе VS Code, которая может писать, рефакторить код целого проекта. Приятно, что существуют и российские разработки, например GigaCode от Сбера, которые как плагины могут встраиваться в существующие IDE.
Кроме программирования (здесь не работает поговорка "сапожник без сапог", разработчики наиболее часто используют ИИ в своей работе), такие инструменты находят применение в повседневных задачах, например при планировании путешествий. AI-агенты виде таких программ могут самостоятельно искать и бронировать билеты, выбирать отели, анализировать отзывы и оптимизировать маршрут, используя браузер, или сохранять ваши заметки в Apple Notes и многое другое.
В 2024 г. голосовые интерфейсы совершили революционный скачок, значительно расширив возможности взаимодействия. Одним из ключевых преимуществ этих систем является возможность прерывать их в любой момент, что делает взаимодействие более гибким и приближенным к человеческому диалогу. Кроме того, голоса ИИ теперь способны выражать эмоции – радость, удивление, сочувствие, придавая общению естественность и глубину.
Эти усовершенствования открывают новые горизонты для применения голосовых интерфейсов в повседневной жизни, делая взаимодействие с технологиями более интуитивным и человечным. Более подробно мы уже писали об этом.
Применение таких интерфейсов разнообразно. Например, в здравоохранении они помогают пациентам не только напоминать о приеме лекарств, но и эмоционально поддерживать их в сложные периоды. В повседневной жизни голосовые ассистенты могут найти что-то в Интернете, поддержать разговор, рассказать сказку ребенку или проконсультировать по какому-то вопросу. Это делает их незаменимыми помощниками, стирающими границы между человеком и машиной.
2024 год стал переломным моментом для множества технологий. Мы наблюдаем, как ИИ и сопутствующие решения трансформируют нашу жизнь, устраняя барьеры между идеей и ее реализацией. Эти достижения не просто инновации, это шаг в будущее, где границы возможного расширяются с каждым днем.
На основе достижений 2024 г. можно выделить несколько ключевых прогнозов на год:
1. В 2025 г. генеративные технологии выйдут на новый уровень, радикально меняя подход к созданию музыки, видео и интерактивного контента. Вместо простых текстовых команд системы смогут улавливать эмоциональный фон и реакции пользователя, подстраивая результат под индивидуальные вкусы и даже физиологические показатели.
2. Параллельно устройства смешанной реальности, подобные Apple Vision Pro, еще глубже проникнут в профессию врача, архитектора и инженера, позволяя им управлять виртуальными объектами исключительно движениями глаз и рук, а также без труда совмещать цифровые модели с физическим миром.
3. На производстве и в сфере обслуживания все чаще будут появляться гуманоидные роботы с большими языковыми моделями, способные не только выполнять рутинную работу, но и принимать самостоятельные решения. Роботы станут доступнее для малого и среднего бизнеса, освобождая сотрудников от монотонных процессов и уменьшая расходы на персонал. Интересный факт, что Китай планирует внедрить миллион роботов в 2025 г. во все сферы жизни, от производства до быта, что должно изменить глобальное производство и автоматизацию
4. Голоса ИИ станут более "человечными": они научатся распознавать эмоции собеседника и реагировать на них с использованием различных интонаций, переходя на уровень практически незаметного для человека диалога.
5. 2025 год станет годом AI-агентов. Они будут самостоятельно координировать действия с другими системами и сервисами, беря на себя задачи, которые прежде требовали участия человека. В корпоративном секторе такие помощники получат особое распространение в финансах и страховании, где им предстоит быстро анализировать большие массивы данных и формировать обоснованные рекомендации по инвестициям или оценке рисков. В логистике и производстве они будут прогнозировать спрос и управлять складскими запасами, уменьшая простой и повышая эффективность цепочек поставок.
По мере того как AI-агенты обретут способность к непрерывному самообучению и еще более тесному взаимодействию между собой, они будут все меньше напоминать "инструмент", а все больше – самостоятельного оператора, на которого можно переложить рутинные и даже сложные задачи. В то же время общество столкнется с вызовами, связанными с безопасностью данных и этикой принятия решений, что неизбежно приведет к ужесточению регуляций и поиску новых подходов к контролю за деятельностью таких цифровых помощников.
6. Основой для AI-агентов станут LRM-модели. Особенно заметным будет их влияние в научно-исследовательской деятельности. LRM станут не просто формировать гипотезы на основе имеющихся данных и опубликованных работ, но и обосновывать последовательность действий, необходимых для проверки этих гипотез. Это может ускорить появление важных открытий, например, в фармацевтике, биотехнологиях и материаловедении.
В корпоративном секторе LRM начнут активно встраиваться в системы поддержки принятия решений, помогая руководителям и аналитикам оценивать сложные бизнес-сценарии, от планирования производственных процессов до ведения международных переговоров. При этом сами компании будут заинтересованы в создании "заказных" LRM, обученных на узкопрофильных данных, – это позволит повысить точность прогнозов и снизить риск типичных для обобщенных моделей ошибок.
Таким образом, в 2025 г. LRM перестанут быть лишь любопытной экспериментальной разработкой и превратятся в фундаментальный инструмент для бизнеса, науки и государственных структур. Их основные отличия от нынешних систем будут заключаться в умении анализировать, объяснять и доказывать: не просто выдавать ответ, но и демонстрировать логику, лежащую в его основе.
Эти прогнозы подчеркивают, что 2025 год может стать годом активного внедрения технологий, которые еще недавно казались фантастикой.
Опубликовано в журнале "Системы безопасности" № 6/2024
Все статьи журнала "Системы безопасности"
доступны для скачивания в iMag >>
Изображение от jcomp на Freepik