Bluesky kämpft nach einer Million öffentlicher Beiträge mit einem erheblichen Datenschutzproblem wurden abgekratzt von seiner Plattform für KI-Training, laut a 404Medien Bericht. Der Datensatz, zusammengestellt von Bibliothekar für maschinelles Lernen Daniel van Strien vom KI-Unternehmen Hugging Face war für den Einsatz in der Forschung im Zusammenhang mit der Verarbeitung natürlicher Sprache und der Analyse sozialer Medien gedacht. Obwohl die Vertreter von Bluesky behaupten, dass die Plattform niemals generative KI auf Benutzerdaten trainieren wird, macht die offene Natur ihrer API sie anfällig für externe Scraper.
Bluesky hat Datenschutzbedenken wegen gelöschter Benutzerbeiträge
Der betreffende Datensatz wurde von Bluesky’s bezogen Firehose-APIdas einen aggregierten Strom öffentlicher Datenaktualisierungen bereitstellt, einschließlich Beiträgen, Likes und Followern. Van Strien hatte sich zum Ziel gesetzt, diesen Datensatz zu nutzen, um die Forschung zum maschinellen Lernen voranzutreiben. Es enthielt jedoch nicht nur den Text der Beiträge, sondern auch die dezentralen Identifikatoren (DIDs) und Metadaten der Benutzer. Nachdem Medienberichte das Problem hervorgehoben hatten, wurde der Datensatz aufgrund der Gegenreaktion hinsichtlich der Privatsphäre der Benutzer und der fehlenden Einwilligung umgehend aus Hugging Face entfernt.
Bluesky-Benutzer haben der Verwendung ihrer Beiträge auf diese Weise nicht ausdrücklich zugestimmt, obwohl die Richtlinien von Bluesky solche Aktionen nicht kategorisch verbieten. Der Kern der Kontroverse liegt in der offenen Struktur der API von Bluesky, die es Drittentwicklern ermöglicht, frei auf seine öffentlichen Daten zuzugreifen. Laut einer Erklärung eines Bluesky-Vertreters „möchten wir eine Möglichkeit für Bluesky-Benutzer finden, mit externen Organisationen/Entwicklern zu kommunizieren, ob sie damit einverstanden sind“, was auf Bemühungen hindeutet, die Benutzerkontrolle über den Datenaustausch in Zukunft zu verbessern.
Bluesky gewinnt nach der Wahl 1,25 Millionen Nutzer hinzu
Nach der Entfernung des Datensatzes räumte van Strien den Verstoß gegen Transparenz und Einwilligung in seinem Datenerfassungsansatz ein. „Ich entschuldige mich für diesen Fehler“, erklärte er in einem Folgebeitrag auf Bluesky. Dieser Vorfall dient den Benutzern als Anlass, besser zu verstehen, dass alle öffentlich auf der Plattform geteilten Inhalte für externe Einheiten zugänglich sind. Da die Plattform weiter wächst – sie hat kürzlich die Marke von 20 Millionen Nutzern überschritten – wird Bluesky wahrscheinlich einer zunehmenden Prüfung hinsichtlich seiner Datenschutzmaßnahmen und der Privatsphäre der Nutzer ausgesetzt sein.
Bluesky diskutiert derzeit über Mechanismen, die es Nutzern ermöglichen könnten, ihre Einwilligungspräferenzen gegenüber Dritten auszudrücken. Allerdings bleibt die Durchsetzung eine Herausforderung; Wie die Plattform anmerkt, liegt es letztendlich an externen Entwicklern, sich an diese Präferenzen zu halten. Die Vertreter von Bluesky teilten außerdem mit, dass sie zwar Gespräche mit Ingenieuren und Rechtsteams anstreben, jedoch keine unmittelbaren Lösungen verfügbar seien.
Hervorgehobener Bildnachweis: Bluesky