Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Instella ist hier: AMDs 3B-Parameter-Modell übernimmt Lama und Gemma

byKerem Gülen
März 7, 2025
in Artificial Intelligence, News
Home Artificial Intelligence

AMD hat enthüllt Instella, eine Familie vollständig Open-Source-Sprachmodelle mit 3 Milliarden Parametern, die von Grund auf am AMD Instinct ™ Mi300x GPUs trainiert wurden. Instella-Modelle übertreffen vorhandene offene Modelle ähnlicher Größen und konkurrieren effektiv mit führenden Open-Gewicht-Modellen, einschließlich Lama-3,2-3b, Gemma-2-2b und Qwen-2.5-3B, einschließlich ihrer Anweisungsversionen.

AMD enthüllt Instella: Open-Source-Sprachmodelle übertreffen Konkurrenten

Instella verwendet eine autoregressive Transformatorarchitektur, die aus 36 Decoder -Schichten und 32 Aufmerksamkeitsköpfen besteht, sodass sie lange Sequenzen von bis zu 4.096 Token verarbeiten können. Das Modell verwendet einen Vokabular von ungefähr 50.000 Token, der vom Olmo -Tokenizer verwaltet wird, wodurch es geschickt ist, Text über verschiedene Domänen hinweg zu erzeugen und zu interpretieren.

Das Schulungsverfahren für Instella zeigt die Zusammenarbeit zwischen Hardware- und Software -Innovationen von AMD. Dieses neue Modell baut auf den Grundlagen auf, die durch AMDs frühere 1-Milliarden-Parameter-Modelle festgelegt wurden und vom Training auf 64 AMD-Instinkt-MI250-GPUs mit 1,3 Billionen Token auf 128 Instinkt-MI300-x-GPUs mit 4,15 Billionen Token für das aktuelle 3-Million-Parameter-Modell übertragen werden.

Instella-is-Here-AMD-3B-Parameter-Model-Takes-on-Llama-und-Gemma
Bild: AMD

Durch den Vergleich von Instella mit früheren Modellen berichtet AMD, dass es nicht nur vorhandene vollständig offene Modelle übertrifft, sondern auch die Wettbewerbsleistung gegen hochmoderne Modelle auf dem neuesten Stand der Technik erzielt, was einen signifikanten Meilenstein im Bereich der natürlichen Sprachverarbeitung markiert. Diese Initiative entspricht dem Engagement von AMD, fortschrittliche Technologie zugänglicher zu machen und die Zusammenarbeit und Innovation in der KI -Community zu fördern.


AMD RX 9000 -Preisgestaltung kann dazu führen, dass Sie diesen RTX 5090 -Kauf überdenken lassen


Instella -Modellphasen und Trainingsdaten

Diese Veröffentlichung enthält mehrere Versionen der Instella -Modelle, die jeweils unterschiedliche Trainingsphasen darstellen:

Modell Bühne Trainingsdaten (Token) Beschreibung
Instella-3B-Stufe1 Vorausbildung (Stufe 1) 4,065 Billionen Erste Stufe vor der Ausbildung zur Entwicklung von Kenntnissen in der natürlichen Sprache.
Instella-3b Vorausbildung (Stufe 2) 57,575 Milliarden Zweite Stufe vor der Ausbildung zur Verbesserung der Fähigkeiten zur Problemlösung.
Instella-3b-Sft Sft 8,902 Milliarden (x3 Epochen) Überwachung der Feinabstimmung (SFT), um die Funktionen für Anweisungen zu ermöglichen.
Instella-3B-Instruktur DPO 760 Millionen Ausrichtung auf menschliche Präferenzen und Verbesserung der Chat -Funktionen mit direkter Präferenzoptimierung (DPO).

In der mehrstufigen Trainingspipeline verwendete die erste Stufe vor dem Training 4,065 Billionen Token aus verschiedenen Datensätzen, um ein grundlegendes Sprachverständnis festzulegen. Das anschließende Training mit zusätzlichen 57,575 Milliarden Token hat die Leistung des Modells über verschiedene Aufgaben und Domänen hinweg weiter verbessert.

Während der beaufsichtigten Feinabstimmung wurde Instella-3B-SFT mit 8,9 Milliarden Token geschult, wodurch die interaktiven Reaktionsfunktionen verbessert wurden. Die letzte Phase, Instella-3B-Instruction, absolvierte eine Ausrichtungsschulung mit direkter Präferenzoptimierung unter Verwendung von 0,76 Milliarden Token, um sicherzustellen, dass die Ausgaben des Modells auf menschliche Werte und Präferenzen ausgerichtet sind.

AMD hat alle Artefakte gemacht, die mit Instella-Modellen vollständig offen sind, einschließlich Modellgewichten, Schulungskonfigurationen, Datensätze und Code, Förderung der Zusammenarbeit und Innovation in der KI-Community. Diese Ressourcen können über zugegriffen werden Umarmtes Gesicht Modellkarten und Github Repositorys.


Ausgewähltes Bildnachweis: AMD

Tags: AiAMDInstella

Related Posts

Apple entwickelt neue Chips für AI -Smart -Brillen und Macs

Apple entwickelt neue Chips für AI -Smart -Brillen und Macs

Mai 9, 2025
Chrome setzt lokale KI bereit, um neue aufstrebende Webbetrugs zu erkennen

Chrome setzt lokale KI bereit, um neue aufstrebende Webbetrugs zu erkennen

Mai 9, 2025
Implizite Caching zielt darauf ab, die Kosten der Gemini -API -Kosten um 75% zu senken

Implizite Caching zielt darauf ab, die Kosten der Gemini -API -Kosten um 75% zu senken

Mai 9, 2025
Chatgpt kann jetzt Ihre Github -Repositories analysieren

Chatgpt kann jetzt Ihre Github -Repositories analysieren

Mai 9, 2025
Meta-Threads haben gerade ein bisschen x-mehr bekommen

Meta-Threads haben gerade ein bisschen x-mehr bekommen

Mai 9, 2025
Dieser Amazon -Roboter hat ein Gefühl des Gefühls

Dieser Amazon -Roboter hat ein Gefühl des Gefühls

Mai 8, 2025

Recent Posts

  • Apple entwickelt neue Chips für AI -Smart -Brillen und Macs
  • Skymizer startet einen Hyperthought AI IP für Smart Edge -Geräte
  • Top 5 AI -Forschungsassistenten, die mit ChatGPT konkurrieren
  • Nextdoor-Anzeigen erhalten einen KI-angetriebenen Sicherheitsschild vor IAS
  • Sigenergy Flexes Full AI Energy Suite in Intersolar Europe

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.