Am 6. April 2020 fand der OPAL Open Data Hackathon als Remote-Veranstaltung statt. Im Fokus standen Mobilitätsdaten, zu denen die Teilnehmer Ideen und Softwarelösungen entwickelten. Dafür wurden auf der Hackathon-Webseite Informationen zu möglichen Aufgabenstellungen, Datenformaten und -sammlungen bereitgestellt, mit denen die Teilnehmer sich eigenständig mit dem Semantic Web und Beschreibungssprachen auseinandersetzen konnten. Unter den eingereichten Lösungen wurden zwei Gewinner ermittelt.
Gewinner: Räumliche Visualisierung verfügbarer Datensätze
Nikit Srivastava entwickelte seine Lösung Show-Geo zur Anzeige von Datensätzen auf einer Karte. Dazu werden von einer Softwarekomponente Datensätze und zugehörige räumliche Daten im DCAT-Format per SPARQL abgefragt. Die verarbeiteten zugehörigen Polygone werden über Webservices über eine REST-Schnittstelle für einen Online-Zugriff bereitgestellt. Eine weitere Komponente regelt anschließend die Datenaufbereitung zur Anzeige in Webbrowsern. Nutzer können auf einer Karte weltweite Daten betrachten, wobei die jeweilige Anzahl verfügbarer Datensätze in verschiedenen Regionen angezeigt wird. Je nach Vergrößerung der Karte wird die Anzahl von Datensätze in Clustern zusammengefasst angezeigt. Zur Verwendung kommen dabei außerdem Java, Spring Boot, Apache Jena sowie JavaScript, Node, React (in Entwicklung zunächst Angular) und Mapbox.
Gewinner: Klassifizierung von Datensätzen zur Zuordnung von Kategorien
Ana Alexandra Morim da Silva stellt mit ihrem Beitrag Theme-Classify ein Verfahren zur Verfügung, mit dem Datensätze klassifiziert werden. Aktuelle Datensammlungen enthalten Datensätze, die teilweise keiner Kategorie zugeordnet sind. Um automatisch Kategorien zuzuordnen werden die Beschreibungstexte von Datensätzen analysiert. Es wird dabei davon ausgegangen, dass sich verwendete Wörter in Beschreibungen von Datensätzen gleicher Kategorie ähneln. Basierend auf dieser Annahme wird für Datensätze ohne Kategorie ermittelt, welche Wortkombinationen von bereits kategorisierten Datensätzen statistisch am ähnlichsten sind.
Im Beitrag werden über eine SPARQL Anfrage Namen, Beschreibungstexte und Kategorien von Datensätzen ermittelt. Danach findet eine Unterteilung der Daten in Trainings- und Testdaten statt. Nach einer Normalisierung der Wörter und Entfernung von Stopwords werden Vektoren berechnet. Bei der Analyse kommen TF-IDF (Vorkommenshäufigkeit von Termen und inverse Dokumenthäufigkeit) sowie Entscheidungsbäume zum Einsatz. Nutzer können dabei angeben, ob J48 oder Naive Bayes verwendet wird sowie zwischen der Größe von n-Grammen wählen. Abschließend ist eine Evaluierung zur Korrektheit der Zuordnungen inbegriffen. Die entwickelte Software verwendet unter anderem Java, WEKA, Apache Jena, SPARQL und Stanford NLP.
Abschluss der Veranstaltung
Wir bedanken uns herzlich bei allen Teilnehmern. Für alle Studierende, die ein Hackathon Ergebnis eingereicht haben, wird eine Teilnahmebescheinigung ausgestellt. Die beiden Gewinner teilen sich zudem einen Preis, der vorzugsweise in Form von Hasentalern vergeben wird, um die lokale Wirtschaft in Paderborn zu unterstützen. Links zu offenen Daten für den Raum Paderborn sind weiterhin auf der Webseite zu finden. Vielleicht können sie bei einer zukünftigen Veranstaltung verwendet werden. Bei Nachfragen zur Veranstaltung können Sie sich an Adrian Wilke wenden, Kontaktdaten sind auf der DICE Webseite zu finden. Diese Veranstaltung fand im Rahmen des Projektes OPAL statt, das vom Bundesministerium für Verkehr und digitale Infrastruktur (BMVI) gefördert wird (Förderkennzeichen 19F2028A).