Mistral AI hat angekündigt die Veröffentlichung seiner neuen Content-Moderations-API. Diese API, die bereits den Le Chat-Chatbot von Mistral unterstützt, dient der Klassifizierung und Verwaltung unerwünschter Texte über eine Vielzahl von Sicherheitsstandards und spezifischen Anwendungen hinweg. Das Moderationstool von Mistral nutzt ein fein abgestimmtes Sprachmodell namens Ministral 8B, das mehrere Sprachen, darunter Englisch, Französisch und Deutsch, verarbeiten und Inhalte in neun verschiedene Typen kategorisieren kann: sexuelle Inhalte, Hass und Diskriminierung, Gewalt und Drohungen, gefährlich oder kriminell Aktivitäten, Selbstverletzung, Gesundheit, finanzielle, rechtliche und persönlich identifizierbare Informationen (PII).
Die Moderations-API ist vielseitig und bietet Anwendungen sowohl für Rohtext als auch für Konversationsnachrichten. „In den letzten Monaten haben wir in der Industrie und in der Forschungsgemeinschaft eine wachsende Begeisterung für neue KI-basierte Moderationssysteme festgestellt, die dazu beitragen können, die Moderation anwendungsübergreifend skalierbarer und robuster zu machen“, teilte Mistral kürzlich in einem Blogbeitrag mit. Das Unternehmen beschreibt seinen Ansatz als „pragmatisch“ und zielt darauf ab, Risiken durch modellbedingte Schäden wie unqualifizierte Beratung und PII-Lecks durch die Anwendung differenzierter Sicherheitsrichtlinien zu begegnen.
Die Moderations-API befasst sich mit Voreingenommenheitsproblemen und Anpassungsanforderungen
KI-gesteuerte Content-Moderationssysteme bergen Potenzial für ein effizientes, skalierbares Content-Management, sind jedoch nicht ohne Einschränkungen. Ähnliche KI-Systeme hatten in der Vergangenheit mit Vorurteilen zu kämpfen, insbesondere bei der Erkennung von Sprachstilen, die mit bestimmten Bevölkerungsgruppen verbunden sind. Studien zeigen beispielsweise, dass Sprachmodelle Phrasen im African American Vernacular English (AAVE) häufig als unverhältnismäßig giftig kennzeichnen und Beiträge, in denen es um Behinderungen geht, fälschlicherweise als übermäßig negativ kennzeichnen.
Generative KI vs. prädiktive KI: Vollständiger Vergleich
Mistral erkennt die Herausforderungen bei der Entwicklung eines unvoreingenommenen Moderationstools an und erklärt, dass ihr Moderationsmodell zwar sehr genau ist, sich aber noch weiterentwickelt. Das Unternehmen muss die Leistung seiner API noch mit etablierten Tools wie der Perspective API von Jigsaw oder der Moderations-API von OpenAI vergleichen. Mistral möchte sein Tool durch kontinuierliche Zusammenarbeit mit Kunden und der Forschungsgemeinschaft verfeinern und erklärt: „Wir arbeiten mit unseren Kunden zusammen, um skalierbare, leichte und anpassbare Moderationstools zu entwickeln und zu teilen.“
Batch-API reduziert Verarbeitungskosten um 25 %
Mistral führte außerdem eine Batch-API ein, die für die Bearbeitung großer Anfragen konzipiert ist. Durch die asynchrone Verarbeitung dieser Anfragen kann Mistral mit der Batch-API die Verarbeitungskosten um 25 % senken. Diese neue Funktion steht im Einklang mit ähnlichen Stapelverarbeitungsoptionen anderer Technologieunternehmen wie Anthropic, OpenAI und Google, die darauf abzielen, die Effizienz für Kunden zu steigern, die umfangreiche Datenströme verwalten.
Die Inhaltsmoderations-API von Mistral soll an eine Reihe von Anwendungsfällen und Sprachen anpassbar sein. Das Modell ist darauf trainiert, Text in mehreren Sprachen zu verarbeiten, darunter Arabisch, Chinesisch, Italienisch, Japanisch, Koreanisch, Portugiesisch, Russisch und Spanisch. Diese Mehrsprachigkeit stellt sicher, dass das Modell unerwünschte Inhalte in verschiedenen Regionen und Sprachkontexten behandeln kann. Das Tool von Mistral bietet zwei Endpunkte, die entweder auf Rohtext oder Konversationskontexte zugeschnitten sind und den unterschiedlichen Benutzeranforderungen gerecht werden. Das Unternehmen stellt Benutzern detaillierte technische Dokumentationen und Benchmarks zur Verfügung, um die Leistung des Modells zu beurteilen.
Während Mistral sein Tool weiter verfeinert, bietet die API ein einzigartiges Maß an Anpassungsmöglichkeiten, sodass Benutzer Parameter basierend auf bestimmten Inhaltssicherheitsstandards anpassen können.
Hervorgehobener Bildnachweis: Mistral