Metadatenstruktur für Daten in Deutschland

Der Katalog

Eine der wichtigsten Eigenschaften offener Daten ist der leichte Zugang zu ihnen. Datenjournalisten und Anwendungsentwickler können Daten schneller und besser erschließen, wenn diese in zentralen Portalen auffindbar sind. Da eine zentrale Datenhaltung über Verwaltungs- und Domänengrenzen hinweg aus verschiedenen Gründen kaum umsetzbar auch wenig sinnvoll ist, wird in der Regel eine dezentrale Datenhaltung mit einem zentralen Metadatenportal genutzt. An prominenter Stelle – etwa Open.NRW – werden Informationen zu und Verweise auf die Daten der Datenbereitsteller gesammelt und präsentiert.

Was aber wird neben Name, Beschreibung und Autor in den Metadaten offener Datensätze festgehalten? Diese Frage stellt sich beim Erfassen der Metadaten als auch beim automatischen Austausch von Metadatensätzen, dem sogenannten Harvesting. Nur wenn Struktur und Bedeutung ausreichend einheitlich oder selbsterklärend sind, lässt sich ein zentrales Portal realisieren, das verschiedene Datenangebote und die Inhalte bestehender Datenkataloge vereinigt.

Einheitliche Metadaten werden in vielen Domänen mit unterschiedlichen Ansätzen und Prioritäten vorgehalten, beispielsweise für Umweltdaten oder bibliographische Daten. Für Open Data hat es sich in Europa und Amerika bewährt, als Grundlage der Datenhaltung den Metadatenkatalog von  CKAN (Comprehensive Knowledge Archive Network) der OKFN zu nutzen.

Das Metadatenmodell

Um eine verbindliche Grundlage für den Metadatenaustausch zwischen deutschen Open Data Portalen zu finden, wurde im November 2016 von der Fachgruppe GovData der Beschluss gefasst, eine standardkonforme deutsche Ableitung von DCAT-AP als Metadatenstandard zu erarbeiten. DCAT-AP.de wurde als Lösung des 2013 angemeldeten und 2017 formalisiert beschriebenen Standardisierungsbedarfs „Metadatenstruktur zum Austausch von Metadaten über offene Verwaltungsdaten“ im Jahr 2018 beim IT-Planungsrat eingereicht.

DCAT-AP.de fungiert nach dem Beschluss des IT-Planungsrates vom 28.06.2018 ab 2019 als gemeinsame verbindliche Grundlage für den Metadatenaustausch zwischen deutschen Open Data-Portalen.

DCAT-AP und damit die deutsche Ableitung DCAT-AP.de ist ein RDF-Vokabular. Die zugehörige Spezifikation wird von der Geschäfts- und Koordinierungsstelle GovData (GKSt) weiter gepflegt und in die Bearbeitung des beim IT-Planungsrat geltend gemachten Standardisierungsbedarfs einfließen. Sie regelt verbindlich, wie Daten auf dezentraler Seite auszuzeichnen und zur zentralen deutschlandweiten Bereitstellung im GovData-Portal anzuliefern sind.

Das deutsche Schema DCAT-AP.de basiert auf DCAT-AP, dem europäischen Application Profile, welches in Zusammenarbeit zwischen „DG Informatics“, „DG Connect“ und dem „Publications Office of the EU“ entstand und als eine der Aktivitäten des „ISA Programmes“ weiter gepflegt wird.

Die Beschreibung des Standards DCAT-AP.de besteht aus 3 Bausteinen:

  1. Spezifikation: Die Spezifikation trifft semantische Regelungen für die Kommunikation von und zum GovData-Portal sowie für die Kommunikation mit dem europäischen Datenportal und im GovData-Portalverbund und übernimmt dazu die Regeln des europäischen Metadatenaustauschschemas DCAT-AP mit einzelnen Einschränkungen und Erweiterungen.

  2. URI-Konzept: Das DCAT-AP.de URI-Konzept schränkt den Gestaltungsspielraum der Kommunikationspartner hinsichtlich der Namensgebung von URIs ein und bietet URIs im Namensraum „dcat-ap.de und govdata.de“ an, um Verweise auf Vokabulare zu ermöglichen, die über die durch DCAT und DCAT-AP bereitgestellten Verweise hinausgehen.

  3. Konventionenhandbuch: Für GovData wurde zur weiteren Steigerung der Interoperabilität das DCAT-AP.de-Konventionenhandbuch erstellt, welches die Kommunikation mit GovData durch Regeln weiter vereinheitlicht. Hier sind zusätzliche Wertelisten und URIs definiert, für die die DCAT-AP.de-Spezifikation zugunsten der Kompatibilität mit DCAT-AP Datentypen mit größerem Freiheitsgrad vorsieht, als dies für Deutschland notwendig erscheint oder für die ein von DCAT-AP.de abweichender Releasezyklus gelten soll (z.B. Literals für Lizenzen). Dort wo DCAT-AP bewusst Freiräume lässt, um unterschiedliche Verfahrensweisen in den europäischen Staaten zu berücksichtigen, wird – sofern möglich – für Deutschland eine verbindliche Handhabung vereinbart.

Alle verfügbaren Dokumente, Dateien und Vokabulare zum Standard DCAT-AP.de finden Sie unter:  dcat-ap.de/def

Über Feedback freuen wir uns sehr! Beteiligen Sie sich an der Weiterentwicklung und bringen Sie Ihre Änderungsvorschläge für DCAT-AP.de bei GitHub ein.


(Stand: 29.05.2019)