Neue PURGE-Methode löscht sensible Daten aus KI-Modellen – ohne Leistungsverlust
Johanna MüllerNeue PURGE-Methode löscht sensible Daten aus KI-Modellen – ohne Leistungsverlust
Forscher haben eine neue Methode namens PURGE vorgestellt, mit der sich sensible oder urheberrechtlich geschützte Daten aus großen Sprachmodellen (Large Language Models, LLMs) entfernen lassen. Im Gegensatz zu bestehenden Ansätzen vermeidet sie ein vollständiges Neutraining und stellt gleichzeitig sicher, dass die Daten sicher und wirksam "vergessen" werden. Tests mit dem Real World Knowledge Unlearning (RWKU)-Benchmark zeigen, dass die Methode eine 11-prozentige Löschwirksamkeit erreicht – und das ohne nennenswerte Leistungseinbußen.
PURGE geht das "Vergessen" anders an: Es behandelt den Prozess als überprüfbare Aufgabe. Das Team entwickelte ein Framework auf Basis der Group Relative Policy Optimization, bei dem das Modell gezielt bestimmte Kenntnisse "verlernt", während seine allgemeinen Fähigkeiten erhalten bleiben. Ein intrinsisches Belohnungssystem bestraft das Modell für die Erwähnung verbotener Konzepte, wodurch der Löschvorgang messbar und kontrollierbar wird.
Die Methode ist zudem effizienter als bestehende Techniken. Im Vergleich zu aktuellen Verfahren reduziert PURGE den Token-Verbrauch pro Ziel um bis zu das 46-Fache. Gleichzeitig steigert es die Flüssigkeit des Sprachausdrucks um 5,48 Prozent und erhöht die robuste Widerstandsfähigkeit gegen adversariale Angriffe um 12,02 Prozent gegenüber dem Originalmodell. Theoretische Analysen bestätigen, dass die Wahrscheinlichkeit für verbotene Tokens geometrisch abnimmt – bei gleichzeitig hohen Garantien für den Erhalt der Nutzbarkeit.
Die Tests mit dem RWKU-Benchmark untermauern die Wirksamkeit von PURGE: Die Methode entfernte unerwünschte Daten erfolgreich, während 98 Prozent der ursprünglichen Modellleistung erhalten blieben. Damit umgeht sie gängige Probleme wie Datenlecks, Leistungsverluste oder die Abhängigkeit von teuren externen Belohnungsmodellen.
PURGE bietet eine effizientere und zuverlässigere Lösung, um sensible Informationen aus LLMs zu entfernen. Die Kombination aus reduziertem Token-Verbrauch, verbesserter Flüssigkeit und höherer Robustheit – zusammen mit formalen Garantien – hebt die Methode von früheren Ansätzen ab. Der Ansatz könnte für Organisationen, die Datenschutzvorgaben einhalten müssen, ohne Modelle komplett neu trainieren zu wollen, eine praktikable Lösung darstellen.