Auf der Plattform mCLOUD stellt das Bundesministerium für Verkehr und digitale Infrastruktur (BMVI) offene Daten aus dem Bereich Mobilität zur Verfügung. Die verfügbaren Datensätze werden von verschiedenen Anbietern bereitgestellt und sind damit zunächst voneinander unabhängig. Zur Suche relevanter Daten bietet mCloud die Möglichkeit zur Filterung nach Kategorien, Datenanbietern, Lizenzen und Datenformaten an. Eine Möglichkeit zur Verbesserung einer solchen Suchfunktion ist die Aufbereitung und Vernetzung der Metadaten.
Das Projekt Open Data Portal Germany (OPAL) verfolgt das Ziel der Veredlung und Verknüpfung von Metadaten, um die Auffindbarkeit von Datensätzen zu verbessern. Dabei stehen öffentliche Datenquellen aus Deutschland im Mittelpunkt. Eine Besonderheit des Projekts ist die Fokussierung auf Metadaten. Zur Analyse werden nicht die eigentlichen Datensätze, sondern deren Beschreibungen verwendet.
Eine Ansatz zur Gewinnung von Informationen aus Beschreibungen ist die Extraktion verlinkter, semantischer Daten aus unstrukturierten, natürlichsprachlichen Texten. Hierzu können bestehende Lösungen weiterentwickelt werden, z.B. AGDISTIS, FOX oder REX. Hier kommt die Frage auf, welche Daten dazu genutzt werden können.
Offene Daten, die auf mCLOUD bereitgestellt werden, sind überwiegend mit Beschreibungstexten versehen. Um eine erste Übersicht der verfügbaren Daten zu erhalten, haben wir einen pragmatisches Vorgehen gewählt. Es wurden 856 Beschreibungstexte heruntergeladen. Jeder Text wurde durch Leerzeichen getrennt, so dass sich eine Annäherung der Anzahl verwendeter Wörter ergibt. Eine Übersicht zeigt die folgende Grafik.
Am häufigsten werden Beschreibungstexte mit 10 Wörtern verwendet. Zur besseren Unterscheidung der Punkte wurden die Häufigkeiten aggregiert. Auf der folgenden Grafik sind die Häufigkeiten nach einer Zusammenfassung der Größe 10 dargestellt. Es stehen z.B. 183 Datensätze zur Verfügung, deren Wortanzahl zwischen 1 und 10 liegt. Zwischen 251 und 260 Wörtern wurde kein Datensatz gefunden.
Zusammenfassend stellt mCLOUD aus dieser quantitativen Sichtweise (ohne die Semantik der Daten zu betrachten) eine erste Grundlage zur Analyse unstrukturierter Daten zur Verfügung. Für rund 89 Prozent der Datensätze wird ein Beschreibungstext von mindestens 5 Wörtern bereitgestellt. Rund 6 Prozent der Datensätze sind nicht mit Beschreibungen versehen. In 9 Fällen besteht die Beschreibung aus einem Wort; häufig ist dies der Name einer Applikation. Die umfangreichste Beschreibung mit 289 Wörtern ist der Datensatz “Parkdaten Stadt Düsseldorf”.
Auf Twitter informieren @DiceResearch und @akswgroup über Neuigkeiten in den Bereichen Data Science und Semantic Web.
Alle Angaben ohne Gewähr.