Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

KI -Forschungsinstrumente führen möglicherweise mehr Probleme als sie lösen

byEmre Çıtak
Mai 14, 2025
in Research
Home Research

Eine neue Studie hat entdeckt Ein alarmierender Anstieg der formelhaften Forschungsarbeiten aus der Nationalen Umfrage zur Gesundheits- und Ernährungsprüfung (NHANES), die darauf hindeutet, dass künstliche Intelligenzwerkzeuge missbraucht werden, um die wissenschaftliche Literatur zu statistisch schwach und möglicherweise irreführend. Die Autoren weisen auf einen Anstieg der Einzelfaktoranalysen hin, die die multifaktorielle Komplexität missachten, die Daten selektiv öffnen und robuste statistische Korrekturen umgehen.

Zwischen 2014 und 2021Jedes Jahr wurden nur vier solcher Papiere veröffentlicht. Allein im Jahr 2024, bis zum 9. Oktober, hatte die Bilanz auf 190 gestiegen. Dieses exponentielle Wachstum, gepaart mit einer Verschiebung der Veröffentlichungsursprünge und der Abhängigkeit von der Automatisierung, zeigt, dass AI-unterstützte Pipelines möglicherweise die Herstellung von Manuskription von geringer Qualität beschleunigen. Im Zentrum des Problems steht der Missbrauch von Nhanes, einem angesehenen und kI-fähigen Datensatz der US-Regierung, der ursprünglich entwickelt wurde, um die Trends der öffentlichen Gesundheit in der gesamten Bevölkerung zu bewerten.

Das NHANES -Problem auspacken

Nhanes bietet einen außergewöhnlich reichhaltigen Datensatz, der klinische, verhaltensbezogene und Labordaten über Tausende von Variablen kombiniert. Es ist über APIs zugänglich und verfügt über standardisierte Python- und R -Bibliotheken, sodass Forscher die Daten effizient extrahieren und analysieren können. Dies macht es zu einem wertvollen Instrument für Forscher und KI -Entwickler im Bereich der öffentlichen Gesundheit. Aber genau diese Bequemlichkeit schafft auch eine Verwundbarkeit: Sie ermöglicht es den Forschern, schnell Ergebnisse zu erzielen und mit minimaler Aufsicht zu entsprechen, was zu einer Explosion der formelhaften Forschung führt.

Die neue Studie analysierte 341 in NHANES ansässige Papiere, die zwischen 2014 und 2024 veröffentlicht wurden und sich auf ein Variable-Korrelationen stützten. Diese Papiere traten im Durchschnitt in Zeitschriften mit mittlerem Einfluss auf (durchschnittlicher Auswirkungen von 3,6) und konzentrierten sich häufig auf Erkrankungen wie Depressionen, Diabetes oder Herz-Kreislauf-Erkrankungen. Anstatt die multifaktorielle Natur dieser Bedingungen zu untersuchen, stellten die Studien typischerweise statistische Signifikanz aus einer einzelnen unabhängigen Variablen, um die falsche Entdeckungskorrektur zu umgehen und sich häufig auf unerklärliche Daten zu stützen.

Ein Hauptanliegen ist, dass multifaktorielle Gesundheitszustände – wie z. Tatsächlich zeigten diese Studien Ergebnisse, die die Nuance abfielen und die Realität ignorierten, dass gesundheitliche Ergebnisse selten von einem einzigen Faktor angetrieben werden.

Depressionen wurden als Fallstudie verwendet, wobei 28 einzelne Papiere Assoziationen zwischen dem Zustand und verschiedenen unabhängigen Variablen behaupteten. Allerdings blieben nur 13 dieser Assoziationen statistisch signifikant, nachdem die Korrektur falscher Entdeckungsrate (FDR) angewendet wurde. Ohne ordnungsgemäße Korrektur riskieren diese Veröffentlichungen ein hohes Volumen an Typ I Fehler in die wissenschaftliche Literatur. In einigen Fällen schienen die Forscher Variablen als Prädiktoren und Ergebnisse über Papiere hinweg zu recyceln, was das Wasser weiter verwirrte.


Microsofts Adele möchte Ihrer KI ein kognitives Profil geben


Selektiver Data Mining und Hacking

Ein weiteres Problem, das von den Autoren aufgedeckt wurde ungerechtfertigte Datenuntergruppen. Obwohl NHANES eine breite Zeitleiste der Gesundheitsdaten aus dem Jahr 1999 anbietet, haben viele Forscher enge Analysefenster ausgewählt, ohne die Begründung zu offenbaren. Zum Beispiel verwendeten einige Studien nur die 2003 bis 2018 Fenster zur Analyse von Diabetes und Entzündungen trotz breiterer Datenverfügbarkeit. Die Praxis deutet auf das Datenbagger oder die Hellung hin, die nach den Ergebnissen bekannt sind, ein methodisch fehlerhafter Ansatz, der die Reproduzierbarkeit und Transparenz untergräbt.

Die mittlere Studie analysierte nur vier Jahre NHANES -Daten, obwohl die Datenbank über zwei Jahrzehnte Informationen anbot. Diese selektive Stichprobe ermöglicht es den Autoren, die Wahrscheinlichkeit zu erhöhen, signifikante Ergebnisse zu erzielen, ohne die Komplexität des vollständigen Datensatzes zu berücksichtigen und Manuskripte in hohem Volumen zu produzieren und zu veröffentlichen.

Von den 341 überprüften Papieren stammten mehr als 50 Prozent aus nur drei Verlagsfamilien: Grenzen, Biomed Central und Springer. Insbesondere hat sich das Herkunftsland dramatisch verändert. Vor 2021 waren nur 8 Prozent der Primärautoren in China ansässig. Zwischen 2021 und 2024 stieg dies auf 92 Prozent. Dies könnte zwar die sich ändernden Forschungsprioritäten oder politischen Anreize widerspiegeln, doch die Größenordnung und das Zeitpunkt deuten darauf hin, dass automatisierte Pipelines, die möglicherweise mit Papiermühlenbetrieb verbunden sind, eine koordinierte Verwendung automatisierter Pipelines widerspiegeln.

Die Ergebnisse stellen eine ernsthafte Herausforderung für die Integrität der wissenschaftlichen Literatur dar. Einzelvariablenstudien, in denen komplexe Interdependenzen nicht berücksichtigt werden, sind eher irreführend. Wenn solche Forschungen im Maßstab wiederholt werden, überflutet das akademische Ökosystem mit Papieren, die die Veröffentlichungsschwellen erfüllen, aber wenig neue Einblicke bieten. Dies wird durch eine schwache Peer Review und den wachsenden Druck auf die Forscher, häufig und schnell veröffentlichen, verstärkt.

Die Autoren warnen davor, dass diese Praktiken, wenn sie deaktiviert bleiben, das Gleichgewicht in einigen Unterfeldern verändern könnten, in denen hergestellte Papiere legitim zahlenmäßig sind. Die Verwendung von KI zur Beschleunigung der Manuskripterzeugung verstärkt dieses Risiko nur. Wenn generative Modelle zugänglicher werden, ermöglichen sie eine schnelle Umwandlung statistischer Ausgänge in Manuskripte in voller Länge und verringern die Zeit und das Fachwissen, die für die Veröffentlichung wissenschaftlicher Artikel erforderlich sind.

Empfehlungen für Stakeholder:

Um die Risiken von AI-fähigen Datenbagger- und Massenproduktionsforschungen zu mildern, schlagen die Autoren mehrere konkrete Schritte vor:

  • Für Forscher: Bestätigen Sie die Einschränkungen von Einzelfaktorstudien und berücksichtigen Sie gegebenenfalls multifaktorielle Analysen. Begründen Sie die Datenunterbrechung oder Hypotheseveränderungen klar.
  • Für Datenanbieter: Führen Sie über API -Schlüsseln oder Anwendungs ​​-IDs über den prüfbaren Zugriff ein, um den wahllosen Bergbau zu entmutigen. Verlangen, dass jede Veröffentlichung, die unter Berufung auf ihre Datensätze zitiert, den vollständigen Datenextraktionsverlauf offenlegen.
  • Für Verlage: Erhöhen Sie die Ablehnungsraten der Schreibtisch für formelhafte Papiere. Beschäftigten Sie engagierte statistische Gutachter. Verwenden Sie Vorlagen, um Manuskripte mit identischen Pipelines mit nur variablen Swaps zu identifizieren.
  • Für Peer -Rezensenten: Behandeln Sie die Verwendung einer Einzelvariablenanalyse für komplexe Bedingungen als rote Fahne. Erläuterung anfordern, wenn statistische Strenge fehlen oder Datenuntergruppen schlecht gerechtfertigt sind.
  • Für die breitere wissenschaftliche Gemeinschaft: Überprüfung nach der Veröffentlichung. Plattformen wie Pubpeer sollten aktiv verwendet werden, um fragwürdige Praktiken zu kennzeichnen, selbst wenn die statistischen Methoden oberflächlich Klang aussehen.

Ausgewähltes Bildnachweis

Tags: Ai

Related Posts

Ist Ihr super hilfreicher generativer KI -Partner heimlich Ihre Arbeit langweilig?

Ist Ihr super hilfreicher generativer KI -Partner heimlich Ihre Arbeit langweilig?

Mai 14, 2025
Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

Mai 14, 2025
Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten

Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten

Mai 14, 2025
Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

Microsofts Adele möchte Ihrer KI ein C -kognitiver Profil geben

Mai 14, 2025
Forschung: Der Goldstandard für die Genai -Bewertung

Forschung: Der Goldstandard für die Genai -Bewertung

Mai 12, 2025
KI löst endlich das härteste Puzzle der Biologie

KI löst endlich das härteste Puzzle der Biologie

Mai 6, 2025

Recent Posts

  • KI -Forschungsinstrumente führen möglicherweise mehr Probleme als sie lösen
  • Ist Ihr super hilfreicher generativer KI -Partner heimlich Ihre Arbeit langweilig?
  • Microsofts Adele möchte Ihrer KI ein kognitives Profil geben
  • Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten
  • Microsofts Adele möchte Ihrer KI ein C -kognitiver Profil geben

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.