31 January 2026, 00:24

Neue PURGE-Methode löscht sensible Daten aus KI-Modellen – ohne Leistungsverlust

Ein Blatt Papier mit der Aufschrift "Nehmen Sie nicht an, dass der Inhalt das aktuelle wissenschaftliche Wissen, die Politik oder die Praxis wiederspiegelt."

Neue PURGE-Methode löscht sensible Daten aus KI-Modellen – ohne Leistungsverlust

Forscher haben eine neue Methode namens PURGE vorgestellt, mit der sich sensible oder urheberrechtlich geschützte Daten aus großen Sprachmodellen (Large Language Models, LLMs) entfernen lassen. Im Gegensatz zu bestehenden Ansätzen vermeidet sie ein vollständiges Neutraining und stellt gleichzeitig sicher, dass die Daten sicher und wirksam "vergessen" werden. Tests mit dem Real World Knowledge Unlearning (RWKU)-Benchmark zeigen, dass die Methode eine 11-prozentige Löschwirksamkeit erreicht – und das ohne nennenswerte Leistungseinbußen.

PURGE geht das "Vergessen" anders an: Es behandelt den Prozess als überprüfbare Aufgabe. Das Team entwickelte ein Framework auf Basis der Group Relative Policy Optimization, bei dem das Modell gezielt bestimmte Kenntnisse "verlernt", während seine allgemeinen Fähigkeiten erhalten bleiben. Ein intrinsisches Belohnungssystem bestraft das Modell für die Erwähnung verbotener Konzepte, wodurch der Löschvorgang messbar und kontrollierbar wird.

Die Methode ist zudem effizienter als bestehende Techniken. Im Vergleich zu aktuellen Verfahren reduziert PURGE den Token-Verbrauch pro Ziel um bis zu das 46-Fache. Gleichzeitig steigert es die Flüssigkeit des Sprachausdrucks um 5,48 Prozent und erhöht die robuste Widerstandsfähigkeit gegen adversariale Angriffe um 12,02 Prozent gegenüber dem Originalmodell. Theoretische Analysen bestätigen, dass die Wahrscheinlichkeit für verbotene Tokens geometrisch abnimmt – bei gleichzeitig hohen Garantien für den Erhalt der Nutzbarkeit.

Die Tests mit dem RWKU-Benchmark untermauern die Wirksamkeit von PURGE: Die Methode entfernte unerwünschte Daten erfolgreich, während 98 Prozent der ursprünglichen Modellleistung erhalten blieben. Damit umgeht sie gängige Probleme wie Datenlecks, Leistungsverluste oder die Abhängigkeit von teuren externen Belohnungsmodellen.

PURGE bietet eine effizientere und zuverlässigere Lösung, um sensible Informationen aus LLMs zu entfernen. Die Kombination aus reduziertem Token-Verbrauch, verbesserter Flüssigkeit und höherer Robustheit – zusammen mit formalen Garantien – hebt die Methode von früheren Ansätzen ab. Der Ansatz könnte für Organisationen, die Datenschutzvorgaben einhalten müssen, ohne Modelle komplett neu trainieren zu wollen, eine praktikable Lösung darstellen.

Cashback bei deinen
Lieblingsrestaurants und Services

Kaufe Gutscheine und spare in deinen Lieblingsorten in deiner Nähe

Schwarz-weiß-Karte von München, Deutschland, mit Straßennamen und Sehenswürdigkeiten auf einem dunklen Hintergrund.

PLZ 80: Münchens lebendiges Herz zwischen Stadtleben und Naturidyll

Von Allach-Untermenzing bis zur Innenstadt: Hier pulsiert das Leben zwischen Tradition und Moderne. Entdecken Sie, warum die Region so begehrt ist.

Ein Mann in einer grünen Jacke und einem weißen Helm bedient einen Gabelstapler in einer industriellen Umgebung mit anderen Menschen im Hintergrund.

StaplerCup 2024: Aschaffenburg wird zur Bühne für Deutschlands Gabelstapler-Elite

Präzision, Tempo und Teamgeist: Beim StaplerCup 2024 messen sich Logistikprofis aus ganz Deutschland – inklusive internationaler Debütanten. Wer holt sich den Sieg?

Essen Sie in Ihren
Lieblingsrestaurants
günstiger

Exklusive Gutscheine für Abendessen, Frühstück und Kaffee

Frau mit LiberSave App auf dem Smartphone

Neue PURGE-Methode löscht sensible Daten aus KI-Modellen – ohne Leistungsverlust