Datenqualität beim maschinellen Lernen im Fokus

Die CONiX Data Processing Solution im Test

 

Das Verständnis der Auswirkungen von Problemen bei der Annotation auf die Leistung des maschinellen Lernens ist entscheidend. Annotationsprobleme können die Effizienz von überwachten KI-Systemen erheblich beeinträchtigen, da sie in hohem Maße von der Qualität der Datensätze abhängen. Eine bemerkenswerte Diskussion auf diesem Gebiet wird in dem IEEE-Papier "Classification in the Presence of Label Noise: A Survey" gegeben, in dem die Herausforderungen und die Bedeutung der Minimierung von Label Noise in Datensätzen hervorgehoben werden. Dies ist besonders wichtig bei kritischen Anwendungen wie dem autonomen Fahren, wo die Zuverlässigkeit des Systems der Schlüssel zur Vermeidung von Fehlfunktionen ist.

Unser vorrangiges Ziel bei b-plus ist es, die Zuverlässigkeit und Robustheit von KI durch Qualitätssicherung (QA) zu verbessern. Wir bieten QA SaaS an, um die Erzeugung qualitativ hochwertiger Datensätze und eine optimierte KI-Systemleistung zu gewährleisten. Unsere Expertise liegt in der Verfeinerung von Datensätzen zur Steigerung der KI-Fähigkeiten.

Häufig gibt es Probleme beim 2D-Bounding-Box-Labeling, einem Standard bei Objekterkennungsaufgaben. Dazu gehören u. a. falsch gelabelte Objekte, falsche Klassifizierungen und Ungenauigkeiten bei den Objektabmessungen oder -positionen. Die Anreicherung von Labels ist ein kostspieliger und arbeitsintensiver Prozess, dessen Komplexität mit der Größe des Datensatzes und der Komplexität der Labels zunimmt. Sowohl automatisierte als auch manuelle Labeling Prozesse können ein Label-Rauschen verursachen, das sich auf die Klassifizierungsleistung von KI-Modellen auswirkt und möglicherweise zu erhöhten Datenanforderungen, Komplexität und Kosten führt.

 

 

Setup

Wir zeigen den Einfluss fehlerhafter Daten auf die Modellleistung durch einfache, praktische Experimente. Unter Verwendung des beliebten KITTI-Datensatzes für autonomes Fahren, der von Tensorflow bereitgestellt wird, haben wir ein neuronales Netzwerk mit progressiv mehr beschädigten Daten für 10 Epochen mit einer Bogengröße von 2, was 63470 Schritten entspricht, trainiert. Zu den häufig getesteten Labeling Problemen gehörten partielle Objektabdeckung, Fehlklassifizierung und fehlende Labels. Wir haben absichtlich einen bestimmten Prozentsatz des Datensatzes beschädigt und die Auswirkungen auf die Leistung des Netzwerks anhand von Metriken wie dem F1-Score und der mittleren durchschnittlichen Genauigkeit (mAP) beobachtet.

 

Erkenntnisse

Unsere Ergebnisse (siehe Abbildungen) zeigen einen deutlichen Rückgang sowohl des F1-Scores als auch des mAP mit zunehmender Anzahl von Labeling Problemen. Selbst eine Verfälschungsrate von 5 % verringerte die Leistung merklich. Wir haben genauer untersucht, wie sich die Leistung des neuronalen Netzes mit der Einführung von beschädigten Daten verändert. Dabei konzentrierten wir uns auf die Erkennungswahrscheinlichkeit für die Klasse "Auto", das häufigste Objekt im KITTI-Datensatz. In Übereinstimmung mit anderen Metriken nahm die Zuverlässigkeit des Netzwerks mit zunehmender Datenverfälschung ab. Dieser Trend ist entscheidend für Anwendungen wie autonome Fahrzeuge, bei denen die Detection Sicherheit von größter Bedeutung ist.

 

Im Einklang mit früheren Metriken ist ein deutlicher Rückgang des Werts festzustellen, wenn der Anteil der kompromittierten Daten steigt. Dieser Trend ist besonders wichtig für Anwendungen wie autonome Fahrzeuge, bei denen die Leistung kritisch beeinflusst werden kann, wenn höhere Schwellenwerte festgelegt oder diese Werte in Entscheidungsalgorithmen integriert werden. Eine interessante Beobachtung aus unserer Studie ist die Gleichmäßigkeit der Auswirkungen der verschiedenen Arten von Problemen. Diese Einheitlichkeit unterstreicht die Notwendigkeit einer sorgfältigen und gründlichen Prüfung aller Daten, bei der jedes potenzielle Problem mit der gleichen Bedeutung behandelt wird, um die Datenintegrität zu gewährleisten.

In einem praktischen Szenario untersuchen wir eine Reihe von Herausforderungen, denen b-plus in realen Anwendungen, insbesondere beim autonomen Fahren, begegnet. Um diese Herausforderungen zu simulieren, haben wir absichtlich verschiedene Probleme in die Daten eingebracht, wie in der folgenden Übersicht dargestellt:

 

Fallstudie und iterative Verbesserung

Anschließend führten wir eine praktische Fallstudie durch, um typische Probleme zu simulieren, die bei autonomen Fahrdaten auftreten. Nachdem verschiedene Labeling Probleme simuliert wurden, wendeten wir den QA-Prozess der CONiX Data Processing Solution an, um die Verbesserung der Modellleistung zu sehen.

Unser hauseigenes QA-Tool identifiziert fehlerhafte Labels effizient und ermöglicht so erhebliche Verbesserungen nach nur zwei QA-Zyklen. Dieser Prozess steigert nicht nur die Leistung des Modells, sondern hilft auch den Etikettenherstellern bei der Verbesserung der Gesamtqualität, angeleitet durch unser detailliertes Feedback und unsere Erkenntnisse.

Ursprünglich waren über 70 % der identifizierten Probleme nach dem ersten QA-Zyklus behoben. Bei der zweiten Iteration lag die Fehlerquote fast bei Null. Die anschließenden Verbesserungen der Modellleistung waren erheblich, wie unsere Ergebnisse zeigen.

 

Zusammenfassend lässt sich sagen, dass unsere Experimente und QS-Prozesse die Bedeutung hochwertiger Datensätze für die Verbesserung der KI-Modellleistung unterstreichen. b-plus setzt sich weiterhin dafür ein, effiziente und qualitativ hochwertige Prozesse zur Erstellung von Datensätzen zu liefern, um eine überragende Leistung für unsere Kunden zu gewährleisten.

 

Abschließende Erkenntnisse

Unsere Forschung zeigt eindeutig, dass qualitativ hochwertige Datensätze entscheidend zur Verbesserung der KI-Modellleistung beitragen. Der CONiX Data Processing Solution-Prozess von b-plus verbessert nicht nur die Datengenauigkeit, sondern unterstützt auch unsere Labeling-Partner bei der Verfeinerung ihrer Methoden auf der Grundlage unseres umfassenden Feedbacks. Dieser kollaborative Ansatz gewährleistet die Erstellung von Datensätzen höchster Qualität, die kostengünstige und leistungsstarke KI-Systeme ermöglichen.

Durch unsere fortschrittlichen QA-Tools und unser Fachwissen ist b-plus bestrebt, die Datenintegrität zu verbessern und so unseren Kunden zuverlässige und effiziente KI-Lösungen zu bieten.

Zurück