Eine Diskussion in San Francisco über „ethische“ KI -Anbieter hat die wachsende Spannung zwischen KI -Unternehmen und Website -Verlage hervorgehoben. Die Debatte konzentriert sich darauf, wie KI -Unternehmen Webdaten ernten, um ihre Modelle zu schulen und ihre Chatbots zu versorgen, ohne den Verkehr wieder an die ursprünglichen Inhaltsquellen zu senden.
Messung des Ungleichgewichts mit einem Crawl-zu-Refer-Verhältnis
Seit Jahren arbeitet das Web mit einer ungeschriebenen Vereinbarung: Websites ermöglichen es Suchmaschinenbots, ihre Inhalte im Austausch für den Empfehlungsverkehr zu kriechen, der Benutzer und Einnahmen treibt. Generative AI -Chatbots stören dieses Modell, indem Sie direkte Antworten bereitstellen und die Notwendigkeit reduzieren, dass Benutzer die Source -Website besuchen müssen. Um diese Verschiebung zu quantifizieren, hat CloudFlare, die etwa 20% der weltweiten Websites unterstützt, mit der Verfolgung eines „Crawl-to-Refer-Verhältnisses“ begonnen. Diese Metrik vergleicht, wie oft der Bots eines Unternehmens auf eine Website für Daten gegen die Anzahl der menschlichen Benutzer zugreifen, die er auf diese Website zurückgibt. Ein hohes Verhältnis zeigt an, dass ein Unternehmen weit mehr Daten nimmt als der Wert, den es im Verkehr zurückgibt.
Wie verschiedene KI -Unternehmen vergleichen
Die Daten aus der ersten Septemberwoche ergaben signifikante Unterschiede zwischen Unternehmen. Anthropisch, der Hersteller des Claude-Chatbots, zeigte ein besonders hohes Crawl-zu-Refer-Verhältnis. Als Reaktion auf die Ergebnisse sagte Anthropic, es könne die Zahlen von Cloudflares nicht bestätigen und stellte fest, dass eine neue Web -Search -Funktion, die Anfang dieses Jahres gestartet wurde, eine schnell wachsende Menge an Empfehlungsverkehr erzeugt. OpenAI antwortete nicht auf Anfragen nach Kommentaren. Verwirrung, ein weiterer KI -Antwortmotor, gab eine detaillierte Erklärung zu dieser Angelegenheit.
Im Falle von öffentlichen Inhalten können sich Verlage dafür entscheiden, ihren Inhalt nicht öffentlich zu machen. Im Falle von Tatsachen hat das Urheberrecht, wie Sie wissen, immer eine Grenze zwischen Fakten und Ausdruck gezogen. Das ist eine Grundlage für menschliche Untersuchungen selbst.
In einem methodischen Hinweis heißt es, dass diese Verhältnisse nur die Webaktivität verfolgen und den Datenverkehr von nativen Apps ausschließen, was die Gesamtzahlen senken könnte. Die Methodik wird jedoch konsequent auf alle Unternehmen angewendet.
Die Auswirkungen auf Website -Eigentümer und die sich ändernde Rolle von Google
Diese groß angelegte Datenerfassung hat direkte Kosten für Website-Eigentümer. In einem Bericht von Business Insider von vor etwa einem Jahr wurde festgestellt, dass das Kriechen von anthropischen und Openai-Bots für einige Websites erhebliche Zuschauerkosten verursachte. Ein Entwickler meldete die Cloud-Computer-Rechnungen ihres Kunden. Das Crawl-zu-Referenz-Verhältnis von Google ist derzeit niedriger als bei vielen Unternehmen, vor allem, weil die traditionellen Suchergebnisse immer noch auf Websites verknüpfen. Da Google jedoch direktere KI -Antworten durch Funktionen wie KI -Übersichten integriert, schwankt das Verhältnis. CloudFlare -Daten zeigten, dass das Verhältnis von Google von 3,3: 1 im Januar auf 18: 1 im April gestiegen ist, bevor sie sich um 9: 1 im Juli niederließen. Google hat erklärt, dass es sich weiterhin verpflichtet hat, den Datenverkehr an das Web zu senden.





