Между цифрой и реальностью. Новая эра взаимодействия с устройствами

Алексей Коржебин 17/04/24

Представьте, что совсем скоро вы сможете бесконечно долго читать понравившийся роман, который будет иллюстрирован картинками, озвучен персональной сгенерированной музыкой и по желанию визуализирован в виде кинофильма, причем сюжетная линия будет развиваться по наиболее интересному для вас сценарию, а, если добавить возможность интерактива, то в этом случае получится персональная игра с вашим участием.

Мы все привыкли к пользовательскому интерфейсу компьютера и смартфона – открывать окна приложений, кликая мышкой или нажимая пальцем на иконку, выбирать пункты меню, нажимать на кнопки, скролить страницы. Все это обобщенно называется "графический пользовательский интерфейс", или GUI.

Интерфейс нужен для того, чтобы мы могли взаимодействовать с компьютером (здесь под словом "компьютер" я понимаю не только десктопные компьютеры и ноутбуки, но и шире – все современные вычислительные устройства, например смартфоны и планшеты), максимально удобным и быстрым способом.

Компьютеры становятся все более мощными, появляются возможности, которые мы еще недавно и представить себе не могли. Задавались ли вы когда-нибудь вопросом, как будет выглядеть наше взаимодействие с компьютерами в будущем?

К этому размышлению меня подтолкнули два события, произошедшие совсем недавно: выход очков расширенной реальности Apple Vision Pro и появление целого ряда новых нейросетей, генерирующих по текстовому описанию видео и музыку, в том числе анонсированную OpenAI нейросеть Sora, которая создает совершенно революционные по качеству видеоролики.

Эволюция взаимодействия

На заре развития первые компьютеры работали только с одной программой пользователя, код и данные которой загружали через перфокарты. Программа пользователя, помимо самих пользовательских вычислений, должна была работать напрямую с железом на самом низком уровне.

Программы эволюционировали, их части, которые работали напрямую с оборудованием, были выделены в отдельные – системные. Потом на их основе стали создавать операционные системы, а пользовательские программы назвали приложениями. Это концепция сохранилась до сих пор, мы и сейчас устанавливаем приложения (те же пользовательские программы) из AppStore, Google Play и др.

С появлением мониторов можно было впервые говорить о появлении интерактивного взаимодействия с пользователем, или, другими словами, пользовательского интерфейса, который представлял собой командную строку, где пользователь мог вызывать программы с различными параметрами. Такой интерфейс сложно было назвать дружелюбным, и пользоваться им могли только специалисты. Прорыв произошел в начале 80-х, когда Apple выпустила компьютер Macintosh, где был представлен графический интерфейс системы, который мы все знаем, – окна, менюшки, использование мыши. Концептуально именно этот интерфейс мы используем до сих пор.

Следующий важный этап произошел в 2007 г., когда вышел первый iPhone. Снова Apple задала тренды. Это был первый пользовательский интерфейс, оптимизированный под пальцы. В отличие от конкурентов (смартфоны появились в начале нулевых, но интерфейс был просто скопирован с настольных компьютеров, поэтому массового распространения они не получили), он стал революцией, позволив пользователям всегда и везде быть онлайн. Но цифровой мир пользователи тогда еще видели, да и до сих пор видят только через "форточку" экрана смартфона.

В конце десятых годов появление дополненной реальности на смартфонах позволило впервые совмещать виртуальные (цифровые) объекты и объекты реального мира и даже организовывать какое-то взаимодействие с ними. Тогда это не стало массовым продуктом, потому что смотреть через щелку на другой мир оказалось не так удобно.

Apple Vision Pro – новейший способ взаимодействия с пользователем

Apple в третий раз совершает революцию, теперь со своими очками виртуальной реальности, хотя сама компания старается избегать этого термина, который уже ассоциируется с шлемами виртуальной реальности, так и не получившими массовое признание, и называет свое устройство Apple Vision Pro – пространственный компьютер.

Летом на страницах журнала мы уже разбирали анонсируемые функции, и с выходом самого устройства, судя по многочисленным обзорам, они соответствуют обещаниям, что действительно восхищает. В устройстве предусмотрено все, чтобы человек ощущал себя естественно в этой смешанной реальности, взаимодействуя с объектами наиболее естественным образом – управляя глазами, жестами пальцев и голосом, при этом имея возможность подключить и клавиатуру, и мышь. Apple Vision Pro можно использовать не только дома, в специально выделенной зоне, как большинство шлемов виртуальной реальности, но быть с ним везде – дома, на работе, на улице, в магазине и кафе.

Важный момент – то, как проработано в гаджете взаимодействие с другими людьми: на передней стороне очков рисуется голограмма лица человека и передаются его эмоции, а если он полностью погружен в виртуальное окружение, то при обращении к нему другого человека появляется "дырка", в которой он видит того, кто с ним общается, то есть человек не вырывается из среды, а постоянно остается на связи.

Можно сказать, что, несмотря на некоторые шероховатости, это в целом революционное устройство, которое наиболее естественно погружает пользователя в смешанное цифровое-физическое окружение.

Любое устройство – это лишь технологическая платформа, и я думаю, что сейчас появятся множество его клонов, как у Macintosh появился Windows, а у iPhone – Android, но важно другое: контент, который отображается, – именно те цифровые объекты.

Эра искусственного интеллекта: мультимодальная диалоговая среда

Революция искусственного интеллекта (ИИ) началась год назад с появлением ChatGPT (LLM – большой языковой модели) в виде коммерческого продукта. Сначала это был текстовый диалог, а уже сейчас – мультимодальная диалоговая среда, где и вопросы, и ответы системы могут быть не только в виде текста, но и в виде картинки или звука. Особенно удивляет анонс возможностей нейросети Sora от OpenAI, которая может создавать короткие ролики кинематографического качества по текстовому описанию и которая, скорее всего, будет работать на основе ChatGPT.

Ключевая возможность продвинутых LLM – это умение писать программный код. Более того, модель умеет самостоятельно запускать его для выполнения тех вычислений, которые потребуются в запросе пользователя, то есть создавать и выполнять приложения под запрос. А это серьезное изменение нашего опыта работы с компьютером (или уже правильнее сказать – с пространственной вычислительной средой?) и возможность создания персонализированных приложений под конкретного пользователя.

Новые возможности, естественно, не отменяют старые, а включают их в себя, как и командная строка, сохранившаяся в Windows.

Когда наступит будущее

Можно предположить, что в будущем мы, скорее всего, будем работать в смешанной реальности, где есть цифровые и реальные объекты, и основой нашего взаимодействия с вычислительной средой будет диалог между пользователем и ИИ. Причем взаимодействие будет происходить не только в виде прямых запросов, но и на более тонком уровне, за счет отслеживания эмоции пользователя (не зря в Apple Vision Pro 12 камер и пять датчиков отслеживания рук), мгновенной адаптации к его реакции и работы с персонализированными приложениями и контентом, созданным на основе эмоциональной реакции.

Я думаю, что все это будет возможно в достаточно близком будущем, потому что большинство элементов такой среды уже существуют или находятся в разработке. Подобный интерфейс позволит компьютеру стать вашим личным универсальным помощником на все случае жизни, неважно, на каком устройстве он будет запускаться, это будет влиять лишь на качество визуализации и интерактивность.

Настолько глубокое понимание вас и ваших эмоций вызывает серьезные опасения по поводу приватности, поэтому можно предположить, что в основном ИИ будет запускаться и хранить ваши данные локально, например на смартфоне. Появление смартфона Samsung S25 со встроенным ИИ выглядит первой ласточкой этого тренда, но вскоре вполне возможно появление и новых классов устройств с локальным искусственным интеллектом.

Опубликовано в журнале "Системы безопасности" № 1/2024

Все статьи журнала "Системы безопасности"
доступны для скачивания в iMag >>

Фото: ru.freepik.com

Темы: Цифровая трансформация Колонка эксперта Искусственный интеллект Журнал "Системы безопасности" №1/2024

Поделитесь вашими идеями

Подписаться на новости

19 августа | 11:00

Автоматизация жилых комплексов и умное управление недвижимостью

14 августа | 11:00

Критерии выбора систем защиты периметра

12 августа | 11:00

Между цифрой и реальностью. Новая эра взаимодействия с устройствами

Эволюция взаимодействия

Apple Vision Pro – новейший способ взаимодействия с пользователем

Эра искусственного интеллекта: мультимодальная диалоговая среда

Когда наступит будущее

Подписаться на новости

Автоматизация жилых комплексов и умное управление недвижимостью

Критерии выбора систем защиты периметра

Что могут цифровые двойники? Отраслевые кейсы

Регистрация на

Журнал "Системы безопасности"
Издается компанией Гротек с 1995 года

Между цифрой и реальностью. Новая эра взаимодействия с устройствами

Эволюция взаимодействия

Apple Vision Pro – новейший способ взаимодействия с пользователем

Эра искусственного интеллекта: мультимодальная диалоговая среда

Когда наступит будущее

Подписаться на новости

Автоматизация жилых комплексов и умное управление недвижимостью

Критерии выбора систем защиты периметра

Что могут цифровые двойники? Отраслевые кейсы

Регистрация на

Журнал "Системы безопасности"Издается компанией Гротек с 1995 года

Журнал "Системы безопасности"
Издается компанией Гротек с 1995 года