Большинство видеотехнологий распознавания беззвучных команд, поданных движением губ человека, несовершенно — строго ограничен набор мимических сообщений, которые может уяснить программное обеспечение камеры. Да и сам их источник должен находиться рядом с видеокамерой или носить ее, например, прикрепленной к своим очкам.
Часть этих недостатков устраняет технология, которую предложили исследователи Корнеллского университета. Под руководством профессора Жанг Чена (Cheng Zhang) они создали интерфейс, управляемую интеллектуальную систему, которая распознает до 31 беззвучной команды. Для обучения мимике владельца прибору под названием EchoSpeech (ЭхоРечь) достаточно всего нескольких минут. ИИ распознает сообщения в 95% случаев. Программное обеспечение легко установить на смартфон. Работа была представлена на гамбургской конференции, посвященной человеческому фактору в компьютерных системах.
Система не требует много энергии, так как работает не на видео, а на акустических датчиках. Фактически это звуковой радар, сонар, который зондирует лицо и по отраженным волнам восстанавливает его мимику. Небольшие, диаметром меньше сантиметра, излучатели звука и приемные микрофоны укреплены на дужках очков. Постоянное облучение лица звуковыми волнами профессор Жанг никак не комментирует.
Аудиоданные, с которыми работает система EchoSpeech, занимают много меньше места, чем видеоинформация. Их просто передавать на смартфон в режиме реального времени. Для этого нужен лишь радиоканал блютуз интерфейса. Систему можно использовать для коммуникации через смартфон в шумных местах. Она также сможет стать заменой компьютерной мыши или другой управляющей периферии.
Один из авторов, аспирант Жанг Руйдонг (Ruidong Zhang), отмечает, что EchoSpeech может служить источником сигнала синтезаторов речи для немых людей. И, как профессор Жанг, особо подчеркивает, насколько новая технология способствует приватности владельца и сохранности его личных данных.
Очевидно, дешевую и эффективную технологию легко воспроизвести массово и удобно встроить, например, в систему социального контроля. Дополнительное распознавание звуков речи потребует лишь небольшой модификации программного обеспечения.