Auf der letzten KI-Konferenz hatten wir die Gelegenheit, uns mit Roman Shaposhnik und Tanya Dadasheva, den Mitbegründern von Ainekko/AIFoundry, zusammenzusetzen und mit ihnen ein zweideutiges Thema des Datenwerts für Unternehmen im Zeitalter der KI zu diskutieren. Eine der Schlüsselfragen, mit denen wir begonnen haben, war: Führen die meisten Unternehmen die gleichen KI-Modelle der Spitzenklasse aus? Ist die Einbindung ihrer Daten die einzige Möglichkeit, sich zu differenzieren? Sind Daten wirklich ein Graben für Unternehmen?
Roman erinnert sich: „Als er 2009 in die Big-Data-Community einstieg, sprachen alle darüber, wie sich Unternehmen durch die Nutzung von Daten verändern würden. Damals waren sie noch nicht einmal digitale Unternehmen; Die digitale Transformation hatte noch nicht stattgefunden. Dabei handelte es sich größtenteils um analoge Unternehmen, die jedoch bereits den Wert der von ihnen gesammelten Daten betonten – Daten über ihre Kunden, Transaktionen, Lieferketten und mehr. Die Menschen verglichen Daten mit Öl, etwas mit einem inhärenten Wert, das gefördert werden musste, um sein wahres Potenzial auszuschöpfen.“
Allerdings ist Öl ein Rohstoff. Wenn wir also Daten mit Öl vergleichen, deutet das darauf hin, dass jeder Zugriff auf die gleichen Daten hat, wenn auch in unterschiedlichen Mengen und für manche einfacher zu gewinnen. Durch diesen Vergleich wirken Daten wie eine Ware, die jedem zur Verfügung steht, aber auf unterschiedliche Weise verarbeitet wird.
Wenn Daten in ihrer rohen Form in einem Unternehmens-Data-Warehouse liegen, sind sie wie ein amorpher Klecks – ein Gebrauchsgegenstand, den jeder hat. Sobald Sie jedoch mit der Verfeinerung beginnen, kommt der wahre Wert zum Tragen. Es geht nicht nur um die Erfassung von Daten, sondern um den Aufbau eines Prozesses von der Extraktion bis zur Verfeinerung des gesamten Werts durch die Pipeline.
„Interessanterweise erinnert mich das an etwas, was mir einmal ein Manager eines Ölkonzerns gesagt hat” – teilt Roman mit. „Dieser Manager beschrieb das Geschäft nicht als Ölförderung, sondern als Neukonfiguration von Kohlenstoffmolekülen. Für sie war Öl lediglich eine Kohlenstoffquelle. Sie hatten Lieferketten aufgebaut, die in der Lage waren, diese Kohlenstoffmoleküle in Produkte umzuwandeln, die auf die Marktanforderungen an verschiedenen Standorten zugeschnitten waren – Kunststoffe, Benzin, was auch immer der Bedarf war. Er stellte sich softwaredefinierte Raffinerien vor, die ihre Ergebnisse an die Marktbedürfnisse in Echtzeit anpassen könnten. Dieses Konzept hat mich umgehauen, und ich denke, es entspricht dem, was wir derzeit bei Daten sehen – Rechenleistung auf Daten zu übertragen und sie so zu verfeinern, dass man das bekommt, was man braucht, und zwar dort, wo man es braucht“ – war Romans Einsicht.
Wenn Sie in Unternehmen mit dem Sammeln von Daten beginnen, stellen Sie fest, dass diese fragmentiert sind und sich an vielen Stellen befinden – manchmal stecken sie in Großrechnern fest oder sind über Systeme wie Salesforce verstreut. Selbst wenn es Ihnen gelingt, es einzusammeln, gibt es so viele Silos, und wir brauchen einen Fracking-ähnlichen Ansatz, um die wertvollen Teile zu extrahieren. So wie Fracking Öl an Orten fördert, die zuvor unerreichbar waren, brauchen wir Methoden, um an Unternehmensdaten zu gelangen, die sonst unter Verschluss gehalten würden.
Viele Unternehmensdaten befinden sich immer noch auf Großrechnern, und es ist eine Herausforderung, sie herauszuholen. Hier ist eine lustige Tatsache: Wenn Sie heute einen Flug buchen, stößt das Backend mit hoher Wahrscheinlichkeit immer noch auf einen Mainframe. Es geht nicht nur darum, diese Daten einmal zu extrahieren; Sie benötigen ständigen Zugriff darauf. Viele Unternehmen machen daraus ein Geschäft, indem sie ihnen dabei helfen, Daten aus alten Systemen herauszuholen, und Tools wie Apache Airflow tragen dazu bei, diese Prozesse zu rationalisieren.
Aber selbst wenn Daten nicht mehr auf Mainframes stecken bleiben, sind sie immer noch fragmentiert über Systeme wie Cloud-SaaS-Dienste oder Data Lakes verteilt. Das bedeutet, dass Unternehmen nicht alle ihre Daten an einem Ort haben und diese sicherlich nicht so zugänglich oder aktuell sind, wie sie es benötigen. Sie denken vielleicht, dass es Ihnen einen Vorteil verschaffen würde, ganz von vorne zu beginnen, aber selbst neuere Systeme sind von mehreren Partnern abhängig, und diese Partner kontrollieren Teile der Daten, die Sie benötigen.
Die gesamte Vorstellung von Daten als Burggraben erweist sich dann als irreführend. Konzeptionell sind Unternehmen Eigentümer ihrer Daten, es fehlt ihnen jedoch häufig der tatsächliche Zugriff. Beispielsweise ist ein Unternehmen, das Salesforce nutzt, Eigentümer der Daten, die tatsächliche Kontrolle und der Zugriff auf diese Daten werden jedoch durch Salesforce eingeschränkt. Der Unterschied zwischen Besitz und Besitz von Daten ist bedeutsam.
„Noch komplizierter wird es, wenn die KI ins Spiel kommt” – sagt Tanya Dadasheva, eine weitere Mitbegründerin von AInekko und AIFoundry.org. „Ein Unternehmen verfügt möglicherweise über Daten, aber das bedeutet nicht unbedingt, dass ein Unternehmen wie Salesforce diese zum Trainieren von Modellen verwenden kann. Es gibt auch eine Debatte darüber, ob anonymisierte Daten für Schulungen verwendet werden dürfen – rechtlich gesehen ist das eine Grauzone. Im Allgemeinen gilt: Je mehr Daten anonymisiert werden, desto geringer ist ihr Wert. Irgendwann ist das Einholen einer ausdrücklichen Erlaubnis der einzige Weg nach vorne“.
Diese Eigentumsfrage geht über Unternehmen hinaus; es betrifft auch Endbenutzer. Benutzer stimmen häufig der Weitergabe von Daten zu, sind jedoch möglicherweise nicht damit einverstanden, dass diese für Trainingsmodelle verwendet werden. Es gab Fälle von Reverse Engineering von Daten aus Modellen, was zu potenziellen Verletzungen der Privatsphäre führen konnte.
In einem frühen Stadium des Gleichgewichts zwischen Datenproduzenten, Datenkonsumenten und den Einheiten, die Daten veredeln, ist es rechtlich und technisch äußerst komplex, herauszufinden, wie diese Beziehungen funktionieren werden. In Europa gelten beispielsweise im Vergleich zu den USA viel strengere Datenschutzbestimmungen (https://artificialintelligenceact.eu/). In den USA klärt das Rechtssystem die Dinge oft im Handumdrehen, während Europa es vorzieht, Gesetze im Voraus zu erlassen.
Tanya geht hier auf die Datenverfügbarkeit ein: „Dies hängt alles mit dem Wert der verfügbaren Daten zusammen. Die umfangreichen Sprachmodelle, die wir erstellt haben, sind dank öffentlicher und halböffentlicher Daten beeindruckend geworden. Allerdings sind viele der neueren Inhalte mittlerweile in „Walled Gardens“ wie WeChat, Telegram oder Discord gefangen, wo sie für Schulungen unzugänglich sind – echtes Dark Web! Dies bedeutet, dass die Modelle möglicherweise veraltet sind und nicht mehr in der Lage sind, aus neuen Daten zu lernen oder neue Trends zu verstehen.
Am Ende laufen wir Gefahr, Modelle zu schaffen, die in der Vergangenheit feststecken und keine Möglichkeit haben, neue Informationen aufzunehmen oder sich an neue Gesprächsstile anzupassen. Sie enthalten weiterhin ältere Daten und das Verhalten und die Kultur der neueren Generation werden nicht dargestellt. Es wird wie ein Gespräch mit Großeltern sein – interessant, aber definitiv aus einer anderen Zeit.”
Doch wer sind die internen Nutzer der Daten in einem Unternehmen? Roman erinnert sich an die drei Epochen des Datennutzungskonzepts in den Unternehmen: „Offensichtlich wird es für viele Entscheidungen verwendet, weshalb es den gesamten Business-Intelligence-Teil gibt. Eigentlich fing alles mit Business Intelligence an. Die Unternehmen mussten Vorhersagen treffen und den Aktienmärkten signalisieren, was sie im nächsten Quartal oder in einigen Quartalen in der Zukunft erwarten. Viele dieser Entscheidungen waren lange Zeit datengesteuert. Das ist die erste Ebene der Datennutzung – sehr unkompliziert und geschäftsorientiert.
Die zweite Ebene begann mit der Vorstellung von digital definierten Unternehmen oder der digitalen Transformation. Unternehmen haben erkannt, dass es auf die Art und Weise ankommt, wie sie mit ihren Kunden interagieren, und nicht unbedingt auf das tatsächliche Produkt, das sie gerade verkaufen. Die Beziehung zum Kunden ist der Wert an sich. Sie wollten, dass diese Beziehung so lange wie möglich währt, manchmal sogar bis zum Äußersten, dass man so lange wie möglich an den Bildschirm fesselt. Es geht darum, das Verhalten des Verbrauchers zu beeinflussen und ihn dazu zu bringen, bestimmte Dinge zu tun. Das geht nur, indem man viele verschiedene Dinge über dich analysiert – deinen sozialen und wirtschaftlichen Status, deine Geschlechtsidentität und andere Datenpunkte, die es ihnen ermöglichen, diese Beziehung so lange wie möglich aufrechtzuerhalten.
Jetzt kommen wir zur dritten Ebene oder Stufe, wie Unternehmen von Datenprodukten profitieren können. Diese Agentensysteme sind in aller Munde, denn Unternehmen wollen mittlerweile nicht nur durch menschliche Arbeitskräfte unterstützt werden. Obwohl es futuristisch klingt, ist es oft so einfach, herauszufinden, wann ein Meeting stattfinden soll. Wir waren schon immer in Situationen, in denen fünf verschiedene E-Mails und drei Anrufe nötig waren, um herauszufinden, wie sich zwei Leute zum Mittagessen treffen können. Es wäre viel einfacher, wenn ein elektronischer Agent das alles für uns aushandeln und dabei helfen könnte. Das ist ein einfaches Beispiel, aber Unternehmen haben noch viele andere. Jetzt geht es darum, bestimmte Seiten des Unternehmens in diese Agenten zu externalisieren. Dies ist nur möglich, wenn Sie einem KI-Agenten viele Arten von Mustern beibringen können, mit denen das Unternehmen in der Vergangenheit gearbeitet hat.“
Um noch einmal darauf zurückzukommen, wer Daten sammelt, wer sie besitzt und schließlich davon profitiert: Der erste Blick darauf, den Roman erhielt, als er bei Pivotal an einigen Projekten arbeitete, an denen Fluggesellschaften und Unternehmen, die Triebwerke herstellen, beteiligt waren:
„Was ich damals noch nicht wusste, ist, dass man den Motor offenbar gar nicht kauft; Sie leasen den Motor. Das ist das Geschäftsmodell. Und die Unternehmen, die die Motoren herstellen, verfügten über all diese Daten – die gesamte Telemetrie, die sie zur Optimierung des Motors benötigten. Aber dann sagte die Fluggesellschaft: „Moment mal. Das sind genau die Daten, die wir zur Optimierung der Flugrouten benötigen. Und wir sind diejenigen, die diese Daten für Sie sammeln, weil wir das Flugzeug tatsächlich fliegen. Ihr Motor bleibt am Boden, bis ein Pilot im Cockpit sitzt, der das Flugzeug tatsächlich steuert. Wer profitiert also von den Daten? Wir zahlen den Motorenleuten bereits viel zu viel für die Wartung dieser Motoren. Sie sagen uns also jetzt, dass wir Ihnen die Daten kostenlos zur Verfügung stellen? Nein, nein, nein.“
Dieses ganze Argument ist wirklich überzeugend, denn genau das wiederholt sich jetzt zwischen OpenAI und allen großen Unternehmen. Große Unternehmen finden OpenAI großartig; Sie können diesen Chatbot in wenigen Minuten erstellen – das ist großartig. Aber können sie tatsächlich die Daten an OpenAI senden, die für die Feinabstimmung und all diese anderen Dinge erforderlich sind? Und zweitens: Angenommen, diese Unternehmen könnten es überhaupt. Angenommen, es ist die Art von Daten, die in Ordnung ist, aber es sind ihre Daten – die von diesen Unternehmen gesammelt werden. Sicherlich ist es OpenAI etwas wert. Warum also lassen sie die Rechnung nicht auf der Inferenzseite für Unternehmen fallen, die sie eingezogen haben?
Und hier stellt sich die zentrale Frage der heutigen Datenwelt: Ist das auch bei KI der Fall?
In gewisser Weise ist es das, aber mit wichtigen Nuancen. Wenn wir eine Zukunft haben können, in der der Kernmotor eines Flugzeugs, das Modell, von diesen größeren Unternehmen hergestellt wird und die Unternehmen dann ihre Daten nutzen, um diese Modelle zu verfeinern oder zu erweitern, dann wird es ein sehr harmonisches Zusammenleben geben eine wirklich komplexe Sache und darüber hinaus eine höher spezialisierte, vielleicht weniger komplexe Sache. Wenn dies geschieht und technologisch erfolgreich ist, wird es auf wirtschaftlicher und politischer Ebene viel einfacher, darüber zu sprechen, was wem gehört und wie wir die Datensätze aufteilen.
Als Beispiel zitiert Roman sein Gespräch mit einem Experten, der seinen Lebensunterhalt mit dem Entwerfen von Autos verdient: „Er sagte, dass es im Grunde zwei Arten von Autodesignern gibt: Einer, der ein Auto für einen Motor entwirft, und der andere, der ein Auto entwirft und dann einen Motor kauft. Wenn Sie heute ein Auto produzieren, ist es viel einfacher, den Motor zu bekommen, weil der Motor der komplexeste Teil des Autos ist. Es definiert jedoch definitiv nicht das Produkt. Aber trotzdem funktioniert die Branche so: Es ist viel einfacher zu sagen: Nun ja, wenn man einige Einschränkungen hat, wähle ich einen Motor aus und entwerfe dann eine ganze Reihe von Autos rund um diesen Motor oder zumindest diesen Motortyp.”
Dies treibt uns zu folgendem Konzept: Wir glauben, dass die KI-gesteuerte Datenwelt so aussehen wird. Es wird ein „Google“-Camp und ein „Meta-Camp“ geben, und Sie werden eines dieser offenen Modelle auswählen – alle werden gut genug sein. Darauf bauen dann all die Dinge auf, die Sie als Unternehmen interessieren, nämlich die Anwendung Ihrer Daten und Ihr Know-how, wie man sie verfeinert und diese Modelle aus verschiedenen „Lagern“ kontinuierlich aktualisiert. . Wenn das technisch und wirtschaftlich klappt, wird eine schöne neue Welt entstehen.