Die Fotogrammetrie war seit langem ein Grundnahrungsmittel in der 3D -Szene -Rekonstruktion, aber seine traditionelle Pipeline, die dichten Bildanforderungen, die nicht verbundenen Verarbeitungsphasen und der kumulative Fehler waren ein hartnäckiger Engpass. Apples neues Matrix3d -Modell von Appledetailliert in einem kürzlich veröffentlichten Forschungspapierpräsentiert ein einheitliches Gerüst, das diese Barrieren entfernen soll, indem mehrere Photogrammetrieaufgaben in ein einzelnes generatives System integriert werden.
Im Gegensatz zu herkömmlichen Photogrammetrie -Workflows, die sich auf separate Tools für die Poseschätzung, die Tiefenvorhersage und die neuartige Ansichtssynthese verlassen, übernimmt Matrix3D alle diese Funktionen innerhalb eines Modells. Diese Verschiebung ist mehr als eine technische Konsolidierung. Es repräsentiert eine philosophische Entwicklung in Richtung anpassungsfähiger End-to-End-Systeme, die in der Lage sind, die 3D-Rekonstruktion mit minimaler Eingabe anzugehen. manchmal sogar aus einem einzigen Bild.
Ein All-in-One-Ansatz zur Photogrammetrie
Matrix3d basiert auf a Multimodal Diffusionstransformator (Dit) Architektur. Dies bedeutet, dass es nicht nur aus RGB -Bildern lernt, sondern auch aus Tiefenkarten und Kamera -Posen, die alle in eine einheitliche 2D -Darstellung codiert sind. Beispielsweise wandelt es die 3D -Geometrie in 2,5D -Tiefenkarten um und stellt Kamerainformationen unter Verwendung von Plücker -Strahlenkarten dar. Mit diesem Design kann es Techniken anwenden, von modernen generativen Bildmodellen auf die 3D-Generierung von Multi-View-Generation anwenden.
Das Modell arbeitet, indem er lernt, fehlende Modalitäten von maskierten Eingaben vorherzusagen. Während des Trainings ist Matrix3D teilweise vollständige Datensätze ausgesetzt-einige mit nur Bildposepaaren, andere mit Bildtiefepaaren. Die Maskierungsstrategie erweitert den nutzbaren Trainingspool erheblich und lehrt das Modell, über die Eingabekonfigurationen hinweg zu verallgemeinern. Durch die Beseitigung der Abhängigkeit von vollständigen Datensätzen verbessert es auch die Robustheit des Modells in praktischen, realen Anwendungen.

Leistung über Aufgaben hinweg
Die Forscher von Apple haben Matrix3D über mehrere Datensätze hinweg untersucht, einschließlich CO3D, DTU und GSO. Für die Pose-Schätzung unter spärlichen Eingangsbedingungen übertraf Matrix3D hochmoderne Modelle wie Raydiffusion und Dust3r. Die Fähigkeit, Kamera -Posen aus nur zwei oder drei Bildern zu schätzen, erwies sich sowohl in der Rotation als auch in der Übersetzungsgenauigkeit überlegen.
In New View -Synthese erzielte das Modell wettbewerbsfähige PSNR- und SSIM -Ergebnisse in verschiedenen Kamerakonfigurationen. Bei getestet gegen führende Systeme wie SynchronisationstreamerAnwesend Wonder3dUnd Zero123xlAnwesend Matrix3d lieferte konsequent höhere Ergebnisse. Die Zugabe von Tiefenkarten verbesserte diese Metriken weiter und zeigte die Stärke der hybriden Modalitätsbehandlung.
Für die Tiefenschätzung hat Matrix3d seine Anpassungsfähigkeit erneut bewiesen. Obwohl das Modell in mehreren Ansichten trainiert wurde, hat es bei monokularen Aufgaben gut abschneidet, was spezielle Tiefenmodelle wie Metric3d V2 und Tiefe alles übertrifft. Dies zeigte sich besonders in komplexen Szenen aus dem DTU -Datensatz, in denen Matrix3D einen niedrigeren relativen Fehler und die Quadratabweichungsbewertungen der Stammwertquadratoren erzeugte.

Eine der herausragenden Funktionen von Matrix3d ist seine Fähigkeit, die 3D -Geometrie aus extrem begrenzten Eingängen zu rekonstruieren. Das Modell kann mit einem einzelnen Bild starten, fehlende Kamera -Posen und Tiefenkarten schätzen und zusätzliche Ansichten synthetisieren, die zur Initialisierung einer 3DGS -Pipeline (3D Gaußsche Splating) erforderlich sind. Diese Schritte erforderten zuvor separate Tools oder umfangreiche Eingabedaten. Jetzt können sie in einem einheitlichen Framework ausgeführt werden, das den gesamten Rekonstruktionsprozess vereinfacht.
Bei Matrix3d werden sogar nicht entzündete, spärliche Bildsätze für die 3D -Rekonstruktion realisierbar. Das Modell schätzt die autonome Pose, füllt fehlende Ansichten aus und bereitet die Eingabe für das Rendern von Motoren vor. Die Ergebnisse wurden gegen Benchmarks und visuelle Vergleiche validiert, was trotz weniger Ressourcen als konkurrierende Methoden vielversprechende Genauigkeit zeigte. Matrix3d liefert vergleichbare Ergebnisse an Multi-GPU-Systeme wie Cat3D, während sie effizient auf einer einzelnen GPU ausgeführt werden.

Bei Hybridaufgaben ist Matrix3d einzigartig positioniert. Es kann willkürliche Kombinationen von RGB-, Pose- und Tiefeneingängen aufnehmen und die entsprechenden Ausgänge erzeugen, ohne dass Umschulung oder architektonische Änderungen erforderlich sind. Diese Fähigkeit eröffnet Türen für eine breitere Anwendung im interaktiven 3D-Design, in der Erzeugung von AR/VR-Inhalten und in der Umgebung in Echtzeit.
- QuantitativMatrix3d setzt neue Benchmarks in mehreren Fotogrammetrieaufgaben. Bei der Einschätzung der Pose erreicht es mit nur zwei Ansichten über 96 Prozent der relativen Rotationsgenauigkeit. Für die neuartige Ansichtsynthese liefert es überlegene SSIM- und PSNR -Ergebnisse über mehrere Konfigurationen hinweg. In der Tiefenvorhersage werden im Vergleich zu spezialisierten Baselines niedrigere absolute relative Fehler und höhere Inlierverhältnisse aufgezeichnet.
- QualitativDie Verbesserungen sind gleichermaßen auffällig. Die visuellen Ausgänge zeigen eine schärfere Geometrie, weniger Artefakte und eine bessere Konsistenz über die Aussichtspunkte hinweg. Im Vergleich zu früheren Modellen liefert Matrix3d auch unter schwierigen Eingabebeschränkungen stabile Renderings. Dies verstärkt die Nützlichkeit einer einheitlichen, diffusionsbasierten Photogrammetriepipelines als nächste Grenze in der 3D-Generation.