Iris Flower Data Set
Das Iris Flower Data Set ist ein bekannter Datensatz in der Welt der maschinellen Lern- und Statistikforschung. Es wurde erstmals von dem britischen Biologen und Statistiker Ronald A. Fisher im Jahr 1936 eingeführt. Fisher sammelte die Daten durch Vermessung von Blütenmerkmalen von drei verschiedenen Arten der Iris-Blume: Setosa, Versicolor und Virginica. Dieser Datensatz diente ursprünglich dazu, die Anwendbarkeit statistischer Methoden zur Klassifizierung und Identifikation von Pflanzenarten zu demonstrieren.
Aufgrund seiner klaren Struktur und der gut definierten Klassifikationsaufgabe wird das Iris Flower Data Set oft als Einstiegspunkt für Anfänger in maschinellem Lernen verwendet. Forscher und Entwickler nutzen ihn als Benchmark, um die Leistung verschiedener Klassifikationsalgorithmen zu vergleichen. Der Datensatz hat somit einen bedeutenden Beitrag zur Entwicklung und Evaluation von Klassifikationsalgorithmen geleistet und ist nach wie vor ein beliebtes Instrument in der maschinellen Lerngemeinschaft.
Dataset Übersicht
Das Iris Flower Data Set besteht aus 150 Datenpunkten, jeweils 50 für jede der drei Iris-Arten. Jeder Datenpunkt enthält vier Merkmale: Sepal Length (Kelchlänge), Sepal Width (Kelchbreite), Petal Length (Blütenblattlänge) und Petal Width (Blütenblattbreite), alle gemessen in Zentimetern. Diese Merkmale dienen als Eingabevariablen für maschinelle Lernalgorithmen. Das Hauptziel besteht darin, anhand dieser Merkmale die Iris-Art korrekt zu klassifizieren.