3.3 Trainingsdaten und Algorithmen
Die Daten als Grundlage des Wissens einer Künstlichen Intelligenz (KI) kommen aus verschiedenen Quellen und sind essenziell für den Trainingsprozess. Es sind große Mengen an Trainingsdaten notwendig, um einem KI-Modell zu helfen, Muster und Zusammenhänge zu erkennen. Diese Daten können aus öffentlichen Datensätzen, speziell erstellten Datensätzen oder realen Datenquellen stammen.
Der Trainingsprozess ist mehrstufig. Zunächst wird ein untrainiertes Modell, meist ein neuronales Netzwerk, aufgesetzt. Diesem Modell werden die gesammelten Trainingsdaten zugeführt. Der Algorithmus lernt durch diese Daten, Vorhersagen zu treffen und deren Genauigkeit zu bewerten. In einem weiteren Schritt wird das trainierte Modell validiert, indem es mit neuen, unbekannten Daten getestet wird, um zu sehen, wie gut es in der Praxis funktioniert.
ChatGPT (OpenAI) zum Beispiel erhält seine Daten aus einer Vielzahl von Quellen, die für das Training eines großen Sprachmodells zusammengestellt wurden. Dieses Training basiert auf einer umfangreichen Grundlage von Textdaten, der Folgendes umfassen kann:
-
Literarische Werke, Lehrbücher und andere schriftliche Materialien.
-
Artikel, Blogs, Forenbeiträge und andere schriftliche Inhalte aus dem Internet.
-
Veröffentlichungen aus verschiedenen wissenschaftlichen Disziplinen.
-
Konversationen und Dialoge, die helfen, das Modell auf natürliche Sprachinteraktionen zu trainieren.
-
Nachrichtenartikel, technische Dokumentationen, gesetzliche Texte und mehr, um eine breite Palette von Sprachstilen und -kontexten abzudecken.
Das Modell wird mit diesen Daten in einem Prozess trainiert, der als überwachtes Lernen bekannt ist.
Das Modell anhand von Beispielen lernt, Text zu generieren und auf Anfragen zu antworten. Die Daten werden jedoch vor dem Training sorgfältig ausgewählt und vorbereitet, um sicherzustellen, dass das Modell genaue und zuverlässige Informationen liefert und um die Eingabe von unerwünschten oder voreingenommenen Informationen zu minimieren.
Smart-Action: Mit KI ist alles möglich! 🚀
In diesem Video wird das Training noch einmal von Ari Seff dargestellt. Er ist senior research scientist bei Waymo, einem Unternehmen im Bereich der selbstfahrenden Autos. Forschungschwerpunkte seit seiner Doktorandenzeit an der Princeton University sind unter anderem neuronale Netzwerke und machine learning.
Quelle: https://www.youtube-nocookie.com/embed/VPRSBzXzavo?si
Nun ist auch klar, weshalb wir uns jetzt mit dem Thema Ethik und Herausforderungen beschäftigen. In dieser komplexen Welt, in der nicht alles sofort durchschaubar ist, steht die Verantwortung der Personen, die mit der KI arbeiten, an erster Stelle.