OPAL auf der mFUND-Konferenz 2018 in Berlin

Zweite mFUND-Konferenz

“Daten als Motor für die Mobilität 4.0” – unter diesem Motto stand die mFUND-Konferenz 2018. Das BMVI richtete die Veranstaltung am 16. und 17. Oktober 2018 im Berliner WECC aus. In insgesamt 20 Foren und 6 Workshops wurden die Ergebnisse der geförderten Projekte präsentiert. Die rund 400 Teilnehmer nutzten auch intensiv die Möglichkeit, sich miteinander zu vernetzen.

Dr. Matthias Wauer diskutiert mit Dr. Roland Goetzke über OPAL
Dr. Matthias Wauer (links) diskutiert mit Dr. Roland Goetzke (Referat DG 25 des BMVI) über OPAL © Dirk Michael Deckbar / Event Consult GmbH

Präsentation von OPAL

Gleich im ersten Forum “Datenplattformen und Standardisierung” präsentierte Dr. Matthias Wauer das OPAL-Projekt und die Zwischenergebnisse. Dazu gehören die Architektur des Systems, Qualitätskriterien, ein erster Crawler-Prototyp und die Vokabulare, die zur Beschreibung der Metadaten notwendig sind. In der folgenden Diskussion bestätigte das Publikum die Einschätzung, dass hochqualitative Metadaten von großer Bedeutung für das Finden geeigneter offener Daten sind. Die kürzliche Veröffentlichung von Google Dataset Search zeigt, dass OPAL ein sehr aktuelles Forschungsfeld bearbeitet. Während Google jedoch auf bereits strukturiert vorliegende Daten (in schema.org-Metadaten und z.B. aus CKAN) setzt, untersucht OPAL darüber hinaus die Extraktion aus Webseiten.

Weitere verwandte Projekte

Neben OPAL wurden im ersten Forum weitere Projekte wie LIMBO und WEKOVI vorgestellt. Beide Projekte setzen ebenso auf eine semantische Darstellung von offenen Daten, betrachten jedoch konkrete Datensätze, während OPAL sich explizit mit Metadaten beschäftigt. Leider fiel der letzte Vortrag “MetaOpenData” wegen Krankheit aus.

Anwendungsnahe Projekte

In den weiteren Foren und Workshops lag der Schwerpunkt der mFUND-Konferenz 2018 auf der konkreten Anwendung von Datensätzen, beispielsweise im Fahrrad- und Schiffsverkehr. Hinzu kamen zahlreiche Beiträge zu innovativen Mobilitätslösungen, Verkehrssicherheit und Umweltfragen wie Luftqualität.

mCLOUD: Beschreibungstexte

Auf der Plattform mCLOUD stellt das Bundesministerium für Verkehr und digitale Infrastruktur (BMVI) offene Daten aus dem Bereich Mobilität zur Verfügung. Die verfügbaren Datensätze werden von verschiedenen Anbietern bereitgestellt und sind damit zunächst voneinander unabhängig. Zur Suche relevanter Daten bietet mCloud die Möglichkeit zur Filterung nach Kategorien, Datenanbietern, Lizenzen und Datenformaten an. Eine Möglichkeit zur Verbesserung einer solchen Suchfunktion ist die Aufbereitung und Vernetzung der Metadaten.

Das Projekt Open Data Portal Germany (OPAL) verfolgt das Ziel der Veredlung und Verknüpfung von Metadaten, um die Auffindbarkeit von Datensätzen zu verbessern. Dabei stehen öffentliche Datenquellen aus Deutschland im Mittelpunkt. Eine Besonderheit des Projekts ist die Fokussierung auf Metadaten. Zur Analyse werden nicht die eigentlichen Datensätze, sondern deren Beschreibungen verwendet.

Eine Ansatz zur Gewinnung von Informationen aus Beschreibungen ist die Extraktion verlinkter, semantischer Daten aus unstrukturierten, natürlichsprachlichen Texten. Hierzu können bestehende Lösungen weiterentwickelt werden, z.B. AGDISTISFOX oder REX. Hier kommt die Frage auf, welche Daten dazu genutzt werden können.

Offene Daten, die auf mCLOUD bereitgestellt werden, sind überwiegend mit Beschreibungstexten versehen. Um eine erste Übersicht der verfügbaren Daten zu erhalten, haben wir einen pragmatisches Vorgehen gewählt. Es wurden 856 Beschreibungstexte heruntergeladen. Jeder Text wurde durch Leerzeichen getrennt, so dass sich eine Annäherung der Anzahl verwendeter Wörter ergibt. Eine Übersicht zeigt die folgende Grafik.

Am häufigsten werden Beschreibungstexte mit 10 Wörtern verwendet. Zur besseren Unterscheidung der Punkte wurden die Häufigkeiten aggregiert. Auf der folgenden Grafik sind die Häufigkeiten nach einer Zusammenfassung der Größe 10 dargestellt. Es stehen z.B. 183 Datensätze zur Verfügung, deren Wortanzahl zwischen 1 und 10 liegt. Zwischen 251 und 260 Wörtern wurde kein Datensatz gefunden.

Zusammenfassend stellt mCLOUD aus dieser quantitativen Sichtweise (ohne die Semantik der Daten zu betrachten) eine erste Grundlage zur Analyse unstrukturierter Daten zur Verfügung. Für rund 89 Prozent der Datensätze wird ein Beschreibungstext von mindestens 5 Wörtern bereitgestellt. Rund 6 Prozent der Datensätze sind nicht mit Beschreibungen versehen. In 9 Fällen besteht die Beschreibung aus einem Wort; häufig ist dies der Name einer Applikation. Die umfangreichste Beschreibung mit 289 Wörtern ist der Datensatz “Parkdaten Stadt Düsseldorf”.

Auf Twitter informieren @DiceResearch und @akswgroup über Neuigkeiten in den Bereichen Data Science und Semantic Web.

Alle Angaben ohne Gewähr.

OPAL beim Auftakt-Workshop der mFUND-Begleitforschung

Am 7. Dezember fand in Bonn der Auftakt-Workshop der mFUND-Begleitforschung statt. Das Wissenschaftliche Institut für Infrastruktur und Kommunikationsdienste (WIK) veranstaltete diesen gemeinsam mit dem BMVI. Das Treffen stellt den Auftakt für die Begleitforschung des Modernitätsfonds dar.

Gruppenbild mFUND Auftakt-Workshop der Begleitforschung, ©WIK/Axel Vogel
©WIK/Axel Vogel

In insgesamt fünf Arbeitsgruppen diskutierten die Teilnehmer verschiedene Themen, die für fast alle Projekte von Bedeutung sind. OPAL beteiligte sich durch Dr. Matthias Wauer in der Arbeitsgruppe 2 zum Thema Offene Verwaltungsdaten als Grundlage für mFUND-Projekte. Darin wurden auch Herausforderungen und Anforderungen im Zusammenhang mit dem Portal mCLOUD erfasst. Diese werden derzeit in die finale Fassung des Berichts zur Anforderungsanalyse integriert.