Подразделение Google, занимающееся исключительно искусственным интеллектом, Google AI выпустили набор коротких объектно-ориентированных видеоклипов, которые сопровождаются AR метаданными – Objectron.

В Google надеются, что этот набор данных поможет раздвинуть границы машинного понимания геометрии трехмерных объектов, что может ускорить развитие таких приложений, как дополненная реальность, робототехника и машинное понимание изображений.


В чем особенность этих в данных

Как сообщает Syncedreview данных Objectron содержит 15 тысяч видео, в каждом из которых  размечены трехмерные ограничительные рамки, описывающие положение, ориентацию и размеры каждого объекта. Клипы сопровождаются AR-метаданными: позицией камеры, облаком точек и характеристикой плоских поверхностей.

Набор данных в настоящее время включает в себя велосипеды, книги, бутылки, камеры, ящики, стулья, чашки, ноутбуки, обувь и доступен на GitHub.

Наряду с набором данных исследователи также поделились софтом для обнаружения обуви, стульев, кружек и камер в трехмерном пространстве. Модели обучаются с помощью набора данных Objectron и были выпущены в MediaPipe (платформе Google с открытым исходным кодом для кросс-платформенных настраиваемых решений машинного обучения).

Как эти данные помогут разработчикам

Понимание объектов в 3D остается сложной задачей во многом из-за отсутствия больших наборов реальных 3D-данных. Исследователи Google считают, что сообщество машинного обучения остро нуждается в объектно-ориентированных наборах видеоданных, которые захватывают больше трехмерной структуры объекта, но при этом соответствуют формату данных, используемому для многих задач зрения, и поэтому решили выпустить набор данных Objectron, чтобы помочь в обучение и тестирование моделей машинного обучения.

«Понимание объектов в 3D остается сложной задачей из-за отсутствия больших наборов реальных данных по сравнению с задачами 2D. Чтобы дать исследовательскому сообществу возможность продолжать продвижение в понимании трехмерных объектов, существует острая потребность в выпуске объектно-ориентированных наборов видеоданных, которые захватывают больше трехмерной структуры объекта, при этом соответствуя формату данных, используемому для таких задач», – отметили в Google.