Facebook инвестирует в искусственный интеллект, который может создавать трехмерные модели из изображений объектов. Это должно помочь с VR и AR.
Когда мы видим чашку спереди, мы думаем о задней части — будь то перед нами или на фотографии. Мы понимаем, что наш мир имеет три пространственных измерения.
Эта способность помогает нам идентифицировать объекты, даже когда они движутся. Это, в свою очередь, является основой для ориентации и навигации в нашей среде.
Поэтому искусственный интеллект, который рассматривает объекты на фотографии как трехмерные, является важным шагом на пути к более точному распознаванию объектов, роботизированной навигации или лучшим приложениям дополненной реальности.
Facebook демонстрирует новый ИИ, который, подобно человеческому мозгу, может вывести 3D-форму из 2D-изображения. «Сетка R-CNN» идентифицирует объект на изображении и генерирует подходящую элементарную 3D-модель.
Сначала ИИ создает грубую модель вокселей (Voxel — образовано из слов: объёмный (англ. volumetric) и пиксель (англ. pixel) — элемент объёмного изображения, содержащий значение элемента растра в трёхмерном пространстве), которая затем преобразует ее в более точную модель многоугольника на втором этапе. Это также работает для более сложных объектов, таких как ножка стула или мебель, скрывающая друг друга.
ИИ был обучен с использованием подходящих пар изображений и полигонов из набора данных ShapeNet. Он включает в себя различные предметы, такие как предметы интерьера и электронные устройства.
Но обучающие наборы данных для 3D-моделей, таких как ShapeNet, сложно построить. Не каждый реальный объект имеет 3D цифровую модель. Это отражено в объеме наборов данных: ShapeNet охватывает чуть менее 3000 категорий. Набор данных ImageNet, который обычно используется для распознавания 2D-объектов, содержит 21 800 категорий.
У Facebook может быть ответ на эту проблему обучения с помощью Канонической сети 3D поз (кратко: C3DPO): ИИ может выводить так называемые 3D ключевые точки для различных объектов из изображений. Эти точки вместе образуют своего рода трехмерный скелет объекта. Исследователи успешно проверили ИИ на 14 категориях объектов, включая птиц, людей и автомобили.
3D-реконструкция из 2D-изображений до сих пор не была возможна, пишет Facebook. Технология позволяет даже вычислять 3D-модели больших объектов, для которых аппаратная 3D-съемка не так проста, таких как здания или самолеты.
Facebook хочет продолжать исследования, потому что цифровой мир меняется в сторону 3D-фотографий и опыта AR и VR. Согласно сообщению в блоге, прогресс ИИ абсолютно необходим для лучшего понимания и взаимодействия с 2D-контентом.