Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten

byAytun Çelebi
Mai 14, 2025
in Research
Home Research

Die Fotogrammetrie war seit langem ein Grundnahrungsmittel in der 3D -Szene -Rekonstruktion, aber seine traditionelle Pipeline, die dichten Bildanforderungen, die nicht verbundenen Verarbeitungsphasen und der kumulative Fehler waren ein hartnäckiger Engpass. Apples neues Matrix3d ​​-Modell von Appledetailliert in einem kürzlich veröffentlichten Forschungspapierpräsentiert ein einheitliches Gerüst, das diese Barrieren entfernen soll, indem mehrere Photogrammetrieaufgaben in ein einzelnes generatives System integriert werden.

Im Gegensatz zu herkömmlichen Photogrammetrie -Workflows, die sich auf separate Tools für die Poseschätzung, die Tiefenvorhersage und die neuartige Ansichtssynthese verlassen, übernimmt Matrix3D alle diese Funktionen innerhalb eines Modells. Diese Verschiebung ist mehr als eine technische Konsolidierung. Es repräsentiert eine philosophische Entwicklung in Richtung anpassungsfähiger End-to-End-Systeme, die in der Lage sind, die 3D-Rekonstruktion mit minimaler Eingabe anzugehen. manchmal sogar aus einem einzigen Bild.

Ein All-in-One-Ansatz zur Photogrammetrie

Matrix3d ​​basiert auf a Multimodal Diffusionstransformator (Dit) Architektur. Dies bedeutet, dass es nicht nur aus RGB -Bildern lernt, sondern auch aus Tiefenkarten und Kamera -Posen, die alle in eine einheitliche 2D -Darstellung codiert sind. Beispielsweise wandelt es die 3D -Geometrie in 2,5D -Tiefenkarten um und stellt Kamerainformationen unter Verwendung von Plücker -Strahlenkarten dar. Mit diesem Design kann es Techniken anwenden, von modernen generativen Bildmodellen auf die 3D-Generierung von Multi-View-Generation anwenden.

Das Modell arbeitet, indem er lernt, fehlende Modalitäten von maskierten Eingaben vorherzusagen. Während des Trainings ist Matrix3D teilweise vollständige Datensätze ausgesetzt-einige mit nur Bildposepaaren, andere mit Bildtiefepaaren. Die Maskierungsstrategie erweitert den nutzbaren Trainingspool erheblich und lehrt das Modell, über die Eingabekonfigurationen hinweg zu verallgemeinern. Durch die Beseitigung der Abhängigkeit von vollständigen Datensätzen verbessert es auch die Robustheit des Modells in praktischen, realen Anwendungen.

Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten
(Bildnachweis)

Leistung über Aufgaben hinweg

Die Forscher von Apple haben Matrix3D über mehrere Datensätze hinweg untersucht, einschließlich CO3D, DTU und GSO. Für die Pose-Schätzung unter spärlichen Eingangsbedingungen übertraf Matrix3D hochmoderne Modelle wie Raydiffusion und Dust3r. Die Fähigkeit, Kamera -Posen aus nur zwei oder drei Bildern zu schätzen, erwies sich sowohl in der Rotation als auch in der Übersetzungsgenauigkeit überlegen.

In New View -Synthese erzielte das Modell wettbewerbsfähige PSNR- und SSIM -Ergebnisse in verschiedenen Kamerakonfigurationen. Bei getestet gegen führende Systeme wie SynchronisationstreamerAnwesend Wonder3dUnd Zero123xlAnwesend Matrix3d ​​lieferte konsequent höhere Ergebnisse. Die Zugabe von Tiefenkarten verbesserte diese Metriken weiter und zeigte die Stärke der hybriden Modalitätsbehandlung.

Für die Tiefenschätzung hat Matrix3d ​​seine Anpassungsfähigkeit erneut bewiesen. Obwohl das Modell in mehreren Ansichten trainiert wurde, hat es bei monokularen Aufgaben gut abschneidet, was spezielle Tiefenmodelle wie Metric3d V2 und Tiefe alles übertrifft. Dies zeigte sich besonders in komplexen Szenen aus dem DTU -Datensatz, in denen Matrix3D einen niedrigeren relativen Fehler und die Quadratabweichungsbewertungen der Stammwertquadratoren erzeugte.

Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten
(Bildnachweis)

Eine der herausragenden Funktionen von Matrix3d ​​ist seine Fähigkeit, die 3D -Geometrie aus extrem begrenzten Eingängen zu rekonstruieren. Das Modell kann mit einem einzelnen Bild starten, fehlende Kamera -Posen und Tiefenkarten schätzen und zusätzliche Ansichten synthetisieren, die zur Initialisierung einer 3DGS -Pipeline (3D Gaußsche Splating) erforderlich sind. Diese Schritte erforderten zuvor separate Tools oder umfangreiche Eingabedaten. Jetzt können sie in einem einheitlichen Framework ausgeführt werden, das den gesamten Rekonstruktionsprozess vereinfacht.

Bei Matrix3d ​​werden sogar nicht entzündete, spärliche Bildsätze für die 3D -Rekonstruktion realisierbar. Das Modell schätzt die autonome Pose, füllt fehlende Ansichten aus und bereitet die Eingabe für das Rendern von Motoren vor. Die Ergebnisse wurden gegen Benchmarks und visuelle Vergleiche validiert, was trotz weniger Ressourcen als konkurrierende Methoden vielversprechende Genauigkeit zeigte. Matrix3d ​​liefert vergleichbare Ergebnisse an Multi-GPU-Systeme wie Cat3D, während sie effizient auf einer einzelnen GPU ausgeführt werden.

Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten
(Bildnachweis)

Bei Hybridaufgaben ist Matrix3d ​​einzigartig positioniert. Es kann willkürliche Kombinationen von RGB-, Pose- und Tiefeneingängen aufnehmen und die entsprechenden Ausgänge erzeugen, ohne dass Umschulung oder architektonische Änderungen erforderlich sind. Diese Fähigkeit eröffnet Türen für eine breitere Anwendung im interaktiven 3D-Design, in der Erzeugung von AR/VR-Inhalten und in der Umgebung in Echtzeit.

  • QuantitativMatrix3d ​​setzt neue Benchmarks in mehreren Fotogrammetrieaufgaben. Bei der Einschätzung der Pose erreicht es mit nur zwei Ansichten über 96 Prozent der relativen Rotationsgenauigkeit. Für die neuartige Ansichtsynthese liefert es überlegene SSIM- und PSNR -Ergebnisse über mehrere Konfigurationen hinweg. In der Tiefenvorhersage werden im Vergleich zu spezialisierten Baselines niedrigere absolute relative Fehler und höhere Inlierverhältnisse aufgezeichnet.
  • QualitativDie Verbesserungen sind gleichermaßen auffällig. Die visuellen Ausgänge zeigen eine schärfere Geometrie, weniger Artefakte und eine bessere Konsistenz über die Aussichtspunkte hinweg. Im Vergleich zu früheren Modellen liefert Matrix3d ​​auch unter schwierigen Eingabebeschränkungen stabile Renderings. Dies verstärkt die Nützlichkeit einer einheitlichen, diffusionsbasierten Photogrammetriepipelines als nächste Grenze in der 3D-Generation.

Ausgewähltes Bildnachweis

Tags: ApfelMatrix3d

Related Posts

KI -Forschungsinstrumente führen möglicherweise mehr Probleme als sie lösen

KI -Forschungsinstrumente führen möglicherweise mehr Probleme als sie lösen

Mai 14, 2025
Ist Ihr super hilfreicher generativer KI -Partner heimlich Ihre Arbeit langweilig?

Ist Ihr super hilfreicher generativer KI -Partner heimlich Ihre Arbeit langweilig?

Mai 14, 2025
Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

Mai 14, 2025
Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

Microsofts Adele möchte Ihrer KI ein C -kognitiver Profil geben

Mai 14, 2025
Forschung: Der Goldstandard für die Genai -Bewertung

Forschung: Der Goldstandard für die Genai -Bewertung

Mai 12, 2025
KI löst endlich das härteste Puzzle der Biologie

KI löst endlich das härteste Puzzle der Biologie

Mai 6, 2025

Recent Posts

  • KI -Forschungsinstrumente führen möglicherweise mehr Probleme als sie lösen
  • Ist Ihr super hilfreicher generativer KI -Partner heimlich Ihre Arbeit langweilig?
  • Microsofts Adele möchte Ihrer KI ein kognitives Profil geben
  • Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten
  • Microsofts Adele möchte Ihrer KI ein C -kognitiver Profil geben

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.