Wo? IT Center, RWTH Aachen University
Wann? Dienstag, 19. März 2024, 13-16 Uhr
Viele wissenschaftliche Experimente, die über Jahre hinweg durchgeführt werden, erfassen Daten von verschiedenen Versionen von Sensor- und Messgeräten. Ebenso müssen historische Daten aus vergangenen Messungen berücksichtigt werden. Alle diese Daten sind fragmentiert und können unterschiedliche Speicherformate, Datenlayouts und Datenformate haben.
Die Herausforderung für Forscher besteht darin:
- Wie können wir all diese Daten in ein einzigartiges Format bringen und eine konsolidierte Datenbank aufbauen, die gefiltert oder nach bestimmten Informationen durchsucht werden kann?
- Welche dieser Daten können auf einem lokalen Computer gespeichert und/oder verarbeitet werden und welche Faktoren können den Wechsel zu einer stärker zentralisierten serverbasierten oder Cluster-basierten Infrastruktur erforderlich machen?
In diesem Workshop erkunden wir gemeinsam Möglichkeiten, diese Herausforderungen anzugehen, indem wir reale Beispiele aus unserer täglichen Arbeit analysieren. Wir stellen zwei Beispiele vor, eines aus der Umweltsensorik zur Überwachung (nicht so intelligenter) Gebäude und eines aus einem Forschungsprojekt aus der technischen Textilproduktion.
- Ersteres umfasst nicht nur viele Datenpunkte, sondern auch mehrere Sensorgeräte und Datenpfade.
- Letzteres erzeugt große Mengen an Bilddaten, die nicht für den Transport über Weitverkehrsnetzwerkverbindungen geeignet sind.
Wir stellen Jupyter-Notebooks und Datensätze zur Verfügung, mit denen die Workshop-Teilnehmer verschiedene Ansätze wie Datenzusammenführung, Neuformatierung und Filterung großer Datensätze ausprobieren können. Darüber hinaus zeigen wir unsere Infrastruktur für die Langzeitspeicherung und den schnellen Zugriff auf große Datensätze.