Datenqualität als EU-Diskussionsthema

Vom 16. – 17. 3. fand in Timisoara das dritte SharePSI treffen zum Thema Open Data Priorities and Engagement statt. Mehrere Themen des Workshops waren dem Thema Qualität offener Daten gewidmet.

12613244714_e8aeaae99c_m

(c) https://www.flickr.com/photos/dreamsjung/

Ausgehend von den Qualitätsdimensionen offener Daten wurde breiter Raum der Richtung der Qualitätsmessung gewidmet. Qualität sollte primär eine Metrik sein, die von den Nutzern selbst bestimmt wird und drückt sich beispielsweise durch eine niedrige Anzahl von Fehlerberichten gegenüber dem Datenbereitsteller im Verhältnis zur Verwendung aus. Neben diesem ausschließlich durch die NutzerIn bestimmten Qualitätsbegriff existieren einige Versuche Datenqualität greifbar zu machen.

Das Open Data Institute (ODI) veröffentlichte 2014 das Open Data Certificate, das eine Reihe von Qualitätsindikatoren beschreibt. Zu diesen zählen die Bereitstellung der Daten in einer offenen Lizenz oder die Tatsache, dass die Daten keine personenbezogenen Informationen enthalten. Zusätzlich wird noch die Beständigkeit der Daten ausgewiesen und wie rasch Datensätze nach Erhebung tatsächlich veröffentlicht werden. Besonders interessant ist die Tatsache, dass die Einbindung der Öffentlichkeit ebenfalls als Qualitätskriterium herangezogen wird, so beispielsweise ob Fehler nachvollziehbar und öffentlich einsehbar gemeldet werden können oder ob es ein Forum zur Diskussion über den Datensatz gibt.

Ein weiterer Aspekt von Qualität ist die Relevanz, die ausdrückt, wie oft ein Datensatz verwendet wird und welche Art von Lösungen daraus entstehen. Als schwierig zu erhebenden Qualitätsbegriff stellt sich die Vollständigkeit dar, da die Vollständigkeit von Daten  vom jeweiligen Anwendungsfall abhängig ist. Die Diskussion identifizierte weiters, dass der Qualitätsbegriff sowie der Nutzen von im Verlauf der Zeit Änderungen unterworfen ist. Abschließend wurde festgehalten, dass Linked Data bzw. das 5-Sterne-Modell von Tim Berners-Lee zwar einen guten Anhaltspunkt im Bezug zu Qualität geben kann, aber nicht ausreichend ist, um Datenqualität umfassend zu beschreiben. Linked Data sind Datensätze, die mit URIs verbunden werden. Die Verarbeitbarkeit von offenen Daten hängt aber maßgeblich von der Granularität der beschriebenen Entitäten innerhalb der Daten selbst ab und wird nicht nur durch die Tatsache bestimmt, dass einzelne Datensätze miteinander verbunden werden.

Als Ergebnis des Workshops zu Datenqualität wurden im Bezug zu Datenqualität Prioritär diese drei Themenbereiche identifiziert:

  1. Verfügbarkeit
    Ist der Datensatz im Zeitverlauf verfügbar?
    Sind Lizenzinformationen zum Datensatz verfügbar?
    Gibt der Datenbereitsteller Angaben zur Absicht der langfristigen Verfügbarkeit der Daten?
    Ist die BenutzerIn gezwungen eine Form der Authentifizierung durchzuführen oder gibt es sonstige Zugriffsbeschränkungen wie Captchas?
    Erlaubt der Datensatz eine freie Weiterverwendung?
  2. Maschinelle Verarbeitbarkeit
    Das 5-Sterne-Modell von Tim Berners-Lee zwar einen guten Anhaltspunkt im Bezug zu Qualität geben kann, aber nicht ausreichend ist, um Datenqualität umfassend zu beschreiben.
  3. Exaktheit (accuracy), Konsistenz (consistency) und Relevanz (relevance)

Das Zentrum für E-Governance beschäftigt sich im Rahmen der Cooperation OGD Östereich intensiv mit dem Thema Datenqualität von offenen Datenportalen und wird dazu im Rahmen des kommenden 4. Treffens des SharePSI-Projektes in Krems (co-located mit der CeDEM15) einen Workshop abhalten.

Ein Kommentar

  1. Pingback: ODI Summit 2015 |

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s