mCLOUD: Beschreibungstexte

Auf der Plattform mCLOUD stellt das Bundesministerium für Verkehr und digitale Infrastruktur (BMVI) offene Daten aus dem Bereich Mobilität zur Verfügung. Die verfügbaren Datensätze werden von verschiedenen Anbietern bereitgestellt und sind damit zunächst voneinander unabhängig. Zur Suche relevanter Daten bietet mCloud die Möglichkeit zur Filterung nach Kategorien, Datenanbietern, Lizenzen und Datenformaten an. Eine Möglichkeit zur Verbesserung einer solchen Suchfunktion ist die Aufbereitung und Vernetzung der Metadaten.

Das Projekt Open Data Portal Germany (OPAL) verfolgt das Ziel der Veredlung und Verknüpfung von Metadaten, um die Auffindbarkeit von Datensätzen zu verbessern. Dabei stehen öffentliche Datenquellen aus Deutschland im Mittelpunkt. Eine Besonderheit des Projekts ist die Fokussierung auf Metadaten. Zur Analyse werden nicht die eigentlichen Datensätze, sondern deren Beschreibungen verwendet.

Eine Ansatz zur Gewinnung von Informationen aus Beschreibungen ist die Extraktion verlinkter, semantischer Daten aus unstrukturierten, natürlichsprachlichen Texten. Hierzu können bestehende Lösungen weiterentwickelt werden, z.B. AGDISTISFOX oder REX. Hier kommt die Frage auf, welche Daten dazu genutzt werden können.

Offene Daten, die auf mCLOUD bereitgestellt werden, sind überwiegend mit Beschreibungstexten versehen. Um eine erste Übersicht der verfügbaren Daten zu erhalten, haben wir einen pragmatisches Vorgehen gewählt. Es wurden 856 Beschreibungstexte heruntergeladen. Jeder Text wurde durch Leerzeichen getrennt, so dass sich eine Annäherung der Anzahl verwendeter Wörter ergibt. Eine Übersicht zeigt die folgende Grafik.

Am häufigsten werden Beschreibungstexte mit 10 Wörtern verwendet. Zur besseren Unterscheidung der Punkte wurden die Häufigkeiten aggregiert. Auf der folgenden Grafik sind die Häufigkeiten nach einer Zusammenfassung der Größe 10 dargestellt. Es stehen z.B. 183 Datensätze zur Verfügung, deren Wortanzahl zwischen 1 und 10 liegt. Zwischen 251 und 260 Wörtern wurde kein Datensatz gefunden.

Zusammenfassend stellt mCLOUD aus dieser quantitativen Sichtweise (ohne die Semantik der Daten zu betrachten) eine erste Grundlage zur Analyse unstrukturierter Daten zur Verfügung. Für rund 89 Prozent der Datensätze wird ein Beschreibungstext von mindestens 5 Wörtern bereitgestellt. Rund 6 Prozent der Datensätze sind nicht mit Beschreibungen versehen. In 9 Fällen besteht die Beschreibung aus einem Wort; häufig ist dies der Name einer Applikation. Die umfangreichste Beschreibung mit 289 Wörtern ist der Datensatz “Parkdaten Stadt Düsseldorf”.

Auf Twitter informieren @DiceResearch und @akswgroup über Neuigkeiten in den Bereichen Data Science und Semantic Web.

Alle Angaben ohne Gewähr.

OPAL beim Auftakt-Workshop der mFUND-Begleitforschung

Am 7. Dezember fand in Bonn der Auftakt-Workshop der mFUND-Begleitforschung statt. Das Wissenschaftliche Institut für Infrastruktur und Kommunikationsdienste (WIK) veranstaltete diesen gemeinsam mit dem BMVI. Das Treffen stellt den Auftakt für die Begleitforschung des Modernitätsfonds dar.

Gruppenbild mFUND Auftakt-Workshop der Begleitforschung, ©WIK/Axel Vogel
©WIK/Axel Vogel

In insgesamt fünf Arbeitsgruppen diskutierten die Teilnehmer verschiedene Themen, die für fast alle Projekte von Bedeutung sind. OPAL beteiligte sich durch Dr. Matthias Wauer in der Arbeitsgruppe 2 zum Thema Offene Verwaltungsdaten als Grundlage für mFUND-Projekte. Darin wurden auch Herausforderungen und Anforderungen im Zusammenhang mit dem Portal mCLOUD erfasst. Diese werden derzeit in die finale Fassung des Berichts zur Anforderungsanalyse integriert.