Logo

Datasets

Discover our collection of datasets

In the future, we want to provide you with the widest possible range of high-quality datasets. Use them to put what you have learnt into practice or to carry out your own projects. We will continue to expand this catalogue and add new topics.

Blue cubes

Basic Automobile Information

Der Datensatz “Basic Automobile Information” bietet über 300 verschiedene Einträge von Automodellen und ihren Eigenschaften. Es handelt sich hierbei vorwiegend um amerikanische Modelle von 1970 bis 1982. Der Datensatz eignet sich insbesondere für einfache Auswertungen und Visualisierungen.

Tic-Tac-Toe Endgame

Das Tic-Tac-Toe Endgame Dataset ist eine wertvolle Ressource für Forscher und Enthusiasten, die an der Entwicklung von Algorithmen zur Spielstrategieoptimierung interessiert sind. Der Datensatz wurde erstellt, um Modelle im Bereich des maschinellen Lernens und der künstlichen Intelligenz zu trainieren und zu testen.

Vergleich von Gesichtsausdrücken

Bei diesem Datensatz handelt es sich um einen groß angelegten Gesichtsausdrucksdatensatz, der aus Gesichtsbildtripletts zusammen mit menschlichen Anmerkungen besteht, die angeben, welche zwei Gesichter in jedem Triplett das ähnlichste Paar in Bezug auf den Gesichtsausdruck bilden.

Netflix Filme und Fernsehshows

Netflix ist eine der beliebtesten Streaming-Plattformen weltweit. Auf der Plattform sind über 8000 Filme und Fernsehsendungen verfügbar, und Mitte 2021 hatte Netflix weltweit über 200 Millionen Abonnenten. Dieser tabellarische Datensatz besteht aus Auflistungen aller auf Netflix verfügbaren Filme und Fernsehsendungen, zusammen mit Details wie Besetzung, Regisseure, Bewertungen, Erscheinungsjahr, Dauer, usw.

AI4I 2020 Predictive Maintenance Dataset

Das AI4I 2020 Predictive Maintenance Dataset ist eine bedeutende Datensammlung, die sich auf das Feld der vorbeugenden Instandhaltung (Predictive Maintenance) im industriellen Kontext konzentriert. Die Daten stammen aus realen industriellen Prozessen und bieten eine wertvolle Grundlage für die Entwicklung von prädiktiven Modellen zur Verbesserung der Anlagenverfügbarkeit und Reduzierung von ungeplanten Stillstandzeiten.

Iris Flower Data Set

Das Iris Flower Data Set ist ein bekannter Datensatz in der Welt der maschinellen Lern- und Statistikforschung. Aufgrund seiner klaren Struktur und der gut definierten Klassifikationsaufgabe wird der Datensatz oft als Einstiegspunkt für Anfänger in maschinellem Lernen verwendet.

Statlog (German Credit Data)

Der Statlog (German Credit Data) Datensatz ist ein bedeutsamer Datensatz im Bereich der Kreditrisikobewertung und wurde erstmals Ende der 1980er Jahre im Rahmen des Statlog-Projekts vorgestellt. Seine Entstehung war ein Meilenstein in der Anwendung von maschinellem Lernen auf die Finanzwelt, da er als Grundlage für die Entwicklung und Evaluierung von Kreditrisikomodellen dient.

Energy Efficiency

Das Energy Efficiency Dataset ist eine umfassende Datensammlung, die sich auf die Bewertung der Energieeffizienz von Gebäuden konzentriert. Dieser Datensatz wurde entwickelt, um Einblicke in die Faktoren zu gewinnen, die den Energieverbrauch von Gebäuden beeinflussen, und um prädiktive Modelle zur Verbesserung der Energieeffizienz zu ermöglichen.

Seoul Bike Sharing Demand

Das Seoul Bike Sharing Demand Dataset bietet einen detaillierten Einblick in die Nutzung von Fahrradverleihsystemen in der südkoreanischen Metropole Seoul. Neben Informationen, welche direkt mit der Ausleihe in Verbindung stehen umfasst dieses Dataset auch Daten zu Wetterbedingungen wie Temperatur, Luftfeuchtigkeit und Windgeschwindigkeit.