Oculus Quest (2): Facebook улучшает отслеживание рук с помощью ИИ

С момента появления отслеживания рук для Oculus Quest исследователи искусственного интеллекта Facebook добились определенного прогресса. В исследовательском проекте они показывают, насколько хорошо работает текущее отслеживание рук.

 

На примере Quest Facebook показал, что надежное отслеживание рук у автономных очков виртуальной реальности возможно с помощью искусственного интеллекта. Отслеживание рук — техническая проблема, особенно для таких VR-очков, как Quest и Quest 2: у них нет специальных камер глубины, сравнительно небольшая вычислительная мощность, приходится справляться с разными условиями освещения — и у каждого пользователя разные руки.

 

Первая версия отслеживания рук появилась в Oculus Quest в декабре 2019 года. Через шесть месяцев функция вышла из бета-тестирования (28 мая 2020 года). Но исследователи искусственного интеллекта Facebook продолжали работать над этой технологией: текущая научная публикация показывает, как они могут улучшить отслеживание рук.

 

MEgATrack!

 

Для хорошего отслеживания рук требуется низкая задержка, небольшой тремор (дрожь) и надежное отслеживание, даже в случае сокрытия или взаимодействия рук.

 

Facebook не решил все проблемы текущего отслеживания рук с помощью нового подхода MEgATrack (Монохромное эгоцентрическое отслеживание сочлененных рук). Запутанные пальцы или взаимодействие с объектами по-прежнему приводят к сбоям в отслеживании. Но благодаря новому методу сбора данных и своего рода памяти рук исследователи смогли еще больше улучшить качество отслеживания по сравнению со старым методом.

 

Как ИИ помогает отслеживать руки?

 

Отслеживание Facebook в основном происходит в четыре этапа: во-первых, нейронная сеть (DetNet) идентифицирует руки пользователя с помощью четырех монохромных изображений камеры и кадрирует их с помощью так называемых ограничивающих рамок. Следующая нейронная сеть (KeyNet) затем накладывает так называемую «оценку ключевых точек», своего рода искусственный скелет, который представляет пальцы, кончики пальцев, суставы и ладони с 21 точкой.

 

На основе этой информации Facebook затем реконструирует искусственную руку, которая накладывается на модель ключевых точек и, следовательно, на настоящую руку в виртуальном пространстве. Затем Facebook использует последние два изображения виртуальной руки для поддержки DetNet: сеть анализа изображений использует только изображения с одной из четырех камер, а система отслеживания сравнивает свой прогноз ограничивающей рамки с прогнозом DetNet. Это экономит вычислительную мощность. Если нет диспропорции, KeyNet начинает работать, в противном случае DetNet выполняется снова для всех четырех записей камер.

 

Надежное отслеживание рук практически в любых условиях освещения

 

Прогнозирование, основанное на предыдущих положениях руки, является основным нововведением новой системы и имеет три основных преимущества: система слежения требует меньшей вычислительной мощности, дрожание предсказания ключевой точки значительно уменьшается, и если палец скрыт на короткое время, система слежения может тем не менее правильно спрогнозировать его положение.

 

Чтобы отслеживание работало и при различных условиях освещения, Facebook разработал специальный метод сбора данных для обучения ИИ: исследователи создали своего рода экзоскелет камеры, который испытуемые могут прикрепить к себе на спину. К штанге прикреплены шесть монохромных камер и камера глубины. После этого испытуемый может свободно двигать руками. Это позволяет производить запись под разными углами, с разным фоном и в различных условиях освещения. Именно эта дисперсия данных необходима Facebook для улучшения обучения искусственному интеллекту, что затем приводит к более надежной производительности отслеживания.

 

Система отслеживания ИИ Facebook все еще имеет проблемы

 

Благодаря улучшенному обучению искусственного интеллекта новая система Facebook может точно отслеживать даже минимальные движения рук, например, касание ладони второй руки указательным пальцем или поднятие объекта хорошо видимой рукой. По словам исследователей, это лучшая мобильная система отслеживания рук на рынке из-за ее точности, низкого энергопотребления и скорости 30 Гц.

 

Примеры успешного отслеживания рук

 

Но как только отдельные пальцы скрыты несколько дольше, две руки вступают в прямой контакт или предметы закрывают руку, отслеживание Facebook перестает работать. По словам исследователей, отказ от взаимодействия руки и руки с предметом показывает ограничения дизайна слежения и фундаментальную сложность этих задач.

 

Ошибки отслеживания рук

 

Решение должно касаться обеих проблем: взаимодействия между руками и рукой и объектом. Оба являются «критически важными для погружения» и, следовательно, являются важным направлением исследований для будущей работы.

 

Источник