Мимика и очки

И. Иванов
(«ХиЖ», 2023, №9)

Большинство видеотехнологий распознавания беззвучных команд, поданных движением губ человека, несовершенно — строго ограничен набор мимических сообщений, которые может уяснить программное обеспечение камеры. Да и сам их источник должен находиться рядом с видеокамерой или носить ее, например, прикрепленной к своим очкам.

Часть этих недостатков устраняет технология, которую предложили исследователи Корнеллского университета. Под руководством профессора Жанг Чена (Cheng Zhang) они создали интерфейс, управляемую интеллектуальную систему, которая распознает до 31 беззвучной команды. Для обучения мимике владельца прибору под названием EchoSpeech (ЭхоРечь) достаточно всего нескольких минут. ИИ распознает сообщения в 95% случаев. Программное обеспечение легко установить на смартфон. Работа была представлена на гамбургской конференции, посвященной человеческому фактору в компьютерных системах.

Система не требует много энергии, так как работает не на видео, а на акустических датчиках. Фактически это звуковой радар, сонар, который зондирует лицо и по отраженным волнам восстанавливает его мимику. Небольшие, диаметром меньше сантиметра, излучатели звука и приемные микрофоны укреплены на дужках очков. Постоянное облучение лица звуковыми волнами профессор Жанг никак не комментирует.

Аудиоданные, с которыми работает система EchoSpeech, занимают много меньше места, чем видеоинформация. Их просто передавать на смартфон в режиме реального времени. Для этого нужен лишь радиоканал блютуз интерфейса. Систему можно использовать для коммуникации через смартфон в шумных местах. Она также сможет стать заменой компьютерной мыши или другой управляющей периферии.

Один из авторов, аспирант Жанг Руйдонг (Ruidong Zhang), отмечает, что EchoSpeech может служить источником сигнала синтезаторов речи для немых людей. И, как профессор Жанг, особо подчеркивает, насколько новая технология способствует приватности владельца и сохранности его личных данных.

Очевидно, дешевую и эффективную технологию легко воспроизвести массово и удобно встроить, например, в систему социального контроля. Дополнительное распознавание звуков речи потребует лишь небольшой модификации программного обеспечения.

Разные разности
Полимеры из метана
Очередную идею, как улавливать и преобразовывать метан, недавно опубликовали инженеры-химики Массачусетского технологического института. И не только придумали, но и успешно испробовали.
Пишут, что...
…европейское сообщество энтомологов избрало насекомым 2025 года древесную осу-паразита Rhyssa persuasoria, которая уничтожает личинки древесных ос, поедающих древесину, и тем самым спасает деревья… …астрономы впервые обнаружили космически...
Стеклянные яблоки
Коробки с елочными игрушками есть, пожалуй, в каждой семье. Порой это настоящее собрание редкостей. Ведь любая игрушка — предмет материальной культуры. Она, как зеркало, отражает эпоху, в которой родилась. Поэтому по елочным игрушкам, как, напри...
Подъемная сила
Мы привыкли к лифтам и не задумываемся о значимости этих подъемных устройств. А между тем лифты перевозят в сутки в 100 раз больше людей, чем весь остальной транспорт, вместе взятый.