Recoding Germany – Out in the Open Februar 2024

02.03.2024 von Jörg Reichert (Code for Leipzig), Tim Fangmeyer (Code for Berlin), et al.

Kaufen Kaufen Kaufen

Das Anfang Januar in Kraft getretene europäische Datengesetz formuliert Bedingungen für den Zugang, Austausch und Nutzung von in der EU generierten Daten für alle Wirtschaftszweige. Dabei konstruiert es aber eine Art Eigentumsrecht an Fakten, stellt Friederike von Franqué in ihrem Artikel auf Netzpolitik fest, und fordert stattdessen freiere Lizenzen für nicht-personenbezogene Daten und damit die Prinzipien der 2019 erlassenen Open-Data-Richtlinie konsequent fortzuführen.

Bianca Kastl erinnert in diesem Zusammenhang daran, dass beispielsweise die Geodaten von Postleitzahlen, Straßen und Hausnummern, die die einzelne Kommunen eigentlich auch alle selbst erheben und als Open Data bereitstellen, sowohl bei der Deutschen Post als auch bei Firmen wie geodaten-deutschland.de gesammelt zu stattlichen Preisen käuflich erworben werden können, bei der Post sogar mit einer Mindestvertragslaufzeit von 2 Jahren, die sich automatisch verlängert, wenn man nicht rechtzeitig kündigt. Ermöglicht werden solche Geschäftsmodelle nur durch den grassierenden Daten-Föderalismus in Deutschland.

Daher hier die unbedingte Empfehlung, Recoding America: Why Government Is Failing in the Digital Age and How We Can Do Better, geschrieben von der Code for America-Gründerin Jennifer Pahlka, zu lesen. Das Buch ist ein Aufruf, die starre bürokratische Verwaltungskultur zu rekodieren. Dabei brauche es nicht einmal besonders viel Geld oder neue Technologien wie KI, sondern besonders ein Umdenken in der Verwaltung und eine Mitdenken des Digitalen von Beginn an. Zwar bezieht sich das Buch besonders auf die amerikanische Verwaltung, kann allerdings auch Anreize für den deutschen Apparat bieten.

Politik

Nur, wenn man stetig die Gelder für die Verwaltungsdigitalisierung kürzt, wird das natürlich nichts. Wie Netzpolitik aufführt, werden zum Beispiel dem Zentrum für digitale Souveränität (ZenDiS) statt den ursprünglichen 48 Millionen Euro nur noch 25 Millionen Euro Budget zur Verfügung gestellt. Damit werden die Bemühungen, sich aus der Abhängigkeit von großen Software-Herstellern zu lösen und Open-Source-Software einzusetzen – im Sinne einer angeblich angestrebten Digitalen Souveränität –, zur reinen Makulatur.

Dafür gibt sich Deutschland erstmals eine “Internationale Digitalstrategie”, wie bei heise nachzulesen ist. Im entsprechenden Strategiepapier möchte man dabei auch Interessengruppen wie Vertreter des Mittelstands und die Zivilgesellschaft an den internationalen technischen Standardisierungsverfahren beteiligen.

Offene Daten

Greenpeace bringt ein eigenes Open Data Portal an den Start. Auf dem Datenportal möchte die NGO in Zukunft eigene wissenschaftliche Messdaten sowie Rohdaten zu Studien veröffentlichen. Zum Start finden sich neun Datensätze auf der Plattform, beispielsweise über das Fischsterben in der Oder und Strahlenmessungen in Tschornobyl von 2022.

Die meisten Vorschriften des Gesetzes über digitale Dienste (Digital Services Act (DSA)) sind jetzt seit Mitte Februar anwendbar. Um die Entscheidungen der Content-Moderation von Online-Plattform in Echtzeit nachvollziehbar zu machen, bietet nun die DSA Transparency Database diverse Mechanismen, um eben auf solche Informationen zuzugreifen, sie zu analysieren (in einem Dashboard) und auch herunter zu laden.

Das statistische Bundesamt bietet seit Neustem eine experimentelle Konjunkturstatistik auf Basis der Supermarkt-Scannerkassen-Daten. So lassen sich wochenweise die Lebensmittel-Konsumgewohnheiten nachvollziehen. Die Daten werden jeden zweiten Freitag aktualisiert. Der Nutzer wahlatlas hat zu Demonstrationszwecken ein Notebook auf Github geteilt, das zeigt, wie man die Daten auswerten kann.

Dirk Holtwick dankt auf Mastodon dem CCC Essen, dass man jetzt die Artikel des Grundgesetzes als einzelne Markdown-Dateien ebenfalls auf Github finden kann. Das Besondere dabei: In der Commit-Historie entsprechen die Namen der “Committer” und die Zeitpunkte der “Commits” den damals handelnden Bundespräsidenten und den tatsächlichen historischen Gesetzesänderungsdaten.

Wer sich für die Abgeordneten deutscher Landesparlamente und -regierungen interessiert, findet in der neuen öffentlichen Datenbank StatePol detaillierte Informationen, die von 1990 bis 2020 reichen.

Offene Bibliografiedaten

Teil wissenschaftlicher Publikationsarbeit ist das Finden und das systematische Auswerten bereits vorhandener Forschungsliteratur. Mit alexandria3k ist eine Python-Bibliothek verfügbar (die aber auch alternativ als fertiges Kommandozeilen-Werzeug nutzbar ist), mit der man performante Abfragen auf den Metadatensätzen von Publikationen ausführen kann. Der größte Datensatz stammt dabei von Crossref, der die Metadaten von etwa 134 Millionen Veröffentlichungen aggregiert (1 Terrabyte Daten unkomprimiert, 157 Gigabyte komprimiert), 60 Millionen davon mit vollständigen Quellenverzeichnisdaten. Weitere Datensätze stammen aus der Biomedizin-Literaturverzeichnis-Datenbank PubMed, die 36 Millionen Einträge hat.

In Frankreich dagegen startet das Forschungsministerium eine Kooperation mit OpenAlex, ebenfalls eine offene Bibliografie-Datenbank, die Ende 2023 250 Millionen Einträge von 90 Millionen Autoren enthielt. Die Datenbank nutzt dabei offene Daten aus Crossref, RoR, ORCID, DOAJ und Wikidata, um einen Wissensgraph aus Publikationen, Autoren, Zugehörigkeiten und Förderungen aufzubauen.

Offene Standards

Was macht einen Standard erfolgreich? Wie koordiniert man eine grundlegende Aktualisierung eines Standards? Diese Fragen beantwortete Sara Petti in ihrem Vortrag auf der FOSDEM anhand der Frictionless Data Spezifikation, deren neue Version v2 Mitte 2024 veröffentlicht werden soll.

Bei einem mit künstlicher Intelligenz generierten Bild hat man in der Regel das Problem, kaum nachvollziehen zu können, aus welchen Quellen es sich speist. Mit dem Standard C2PA soll es nun möglich sein, eben diese Information in den Metadaten einer Bilddatei abzulegen. Wie heise berichtet, sind diese bei Bildern von ChatGPT und Dall-E 3 seit dem 12. Februar standardmäßig enthalten.

Auch bei der Umsetzung hochwertiger Datensätze spielen Standards eine wichtige Rolle. So ist die Kennzeichnung als hochwertiger Datensatz sowie die Angabe der jeweiligen Kategorie sowie die jeweils dazugehörigen auszuweisenden Eigenschaften in den Metadaten in der DVO-HVD festgelegt. Die Eigenschaften selbst können dabei mit domänenrelevante Standards wie z.B. INSPIRE beschrieben werden. Generell wird eine DCAT-AP-konforme Kennzeichnung empfohlen. GovData begleitet zudem die Entstehung des neues Metadatenstandards DCAT-AP HVD, um eine abgestimmte und europäisch einheitliche Auszeichnung in den Metadaten sicherzustellen. Weitere Fragen und Antworten zu Hochwertigen Datensätzen beantworten die FAQ von Govdata.

Visualisierungen

Eine aktualisierte interaktive Karte des statistischen Bundesamtes zeigt das Maß der potenziellen Betroffenheit vom Mindestlohn (aktuell 12 € pro Stunde) von Vollzeitbeschäftigten in den verschiedenen Regionen in Deutschland an (Stand April 2023). Ein hoher Kaitz-Index ist somit ein Indikator, dass der mittlere Brutto­stundenverdienst kaum über den Mindestlohn liegt.

Die Grafiken, die die zunehmende Erwärmung des Nordpols dokumentieren, wurden um die Daten aus Januar 2024 ergänzt. Die monatlichen Auswertungen der Temperaturen für 2023 wurden in diesem Blog-Post zusammengefasst.

Viele Vorträge auf der NIAM-Tagung im Januar beschäftigten sich ebenfalls damit, welche Visualisierungsformen sich für eine verständliche Vermittlung von Erkenntnissen aus Datenanalysen eignen. Die Folien und Vortragsvideos stehen nun online bereit.

Visualisierungen von Mobilitätsdaten

Ein Schweizer Verkehrsplaner störte sich an der offiziellen Netzplan-Darstellung der ICE- und IC-Verbindungen und arbeitet seit einigen Jahren an seiner eigenen Darstellung, die Relevanz und Häufigkeit von Verbindungen stärker betont.

Wie man die Häufigkeiten von Verkehrsflüssen (Start-Ziel-Kombinationen) geeignet auf einer Karte als Cluster visualisieren kann, haben Studierende beispielhaft für die Stadt Leeds gezeigt.

In einem Hackathon wurden zudem weitere Möglichkeiten Verkehrsnetz-Graphen automatisch zu erzeugen, zu modellieren und zu optimieren, ausprobiert.

Aber auch für die Lesbarkeit klassischer Offline-Fahrpläne besteht durchaus Optimierungspotenzial. Dominic Stucki stellt in seinem Mastodon-Thread einige Verbesserungsvorschläge vor.

Routenplanung für den öffentlichen Verkehr

Proprietäre Fahrplanauskunftsdienste einzelner Mobilitätsanbieter beschränken sich meist auf das eigene Einzugsgebiet, blenden alternative Angebote von Wettbewerbern aus und unterbinden in diesem Zuge auch anderen Diensten den Zugriff auf die eigenen Daten.

So werden beispielsweise immer noch nicht zwischen allen europäischen Nachbarländern Echtzeit-Daten ausgetauscht, mit dem Effekt, dass die Deutsche Bahn nicht weiß, wo sich ihre Züge gerade im Ausland befinden.

Aus Nutzerperspektive braucht es also neben den Open Data Fahrplan- und Echtzeitverspätungsdaten FOSS-Navigationsdienste und Menschen, die diese Dienste betreiben und pflegen. Ein geeignetes Thema für die diesjährige FOSDEM-Konferenz also. Und tatsächlich wird nun auf Basis bestehender Standards und existierenden OpenSource-Bibliotheken mit transitous ein internationaler, Community betriebenen Routing-Dienst entwickelt. Volker Krause hat chronologisch das Zustandekommen der Initiative während der Konferenz dokumentiert.

Wer die dort erwähnten Vorträge nochmal als Video sehen möchte, findet diese auf der Seite der Open Rail Association neben anderen Sessions des FOSDEM Railways and Open Transport devroom verlinkt.

Bereits in der Out in the Open Dezember Ausgabe stellten wir die Mobilitäts-Daten-Genossenschaft aus der Schweiz vor, nun soll das Projekt laut dieses Perspektive-Daily-Artikels auch in Deutschland starten.

Karten

OpenStreetMap verkündet das Jahr der Vector Maps: Während traditionelle Raster Tiles nur statische Bilder aus Pixeln sind, bieten Vector Tiles die Flexibilität von SVGs, was Styling und Nutzerinteraktion betrifft. Zusätzlich bringen sie aber noch viele weitere Möglichkeiten und Verbesserungen (kontinuierliche Daten-Aktualisierung, 3D-Karten, stufenloser Zoom, Verschneiden mit anderen Datensätzen) mit.

Viele Antworten gab es im Mastodon-Thread auf die Frage, wie man mittels Open Data Ladestationen mit weiteren Informationen, z.B. auch mit Bewertungen, anreichern kann. Dabei wurde unter anderem auf die OpenChargeMap verwiesen.

Open Source

Zwei kürzlich veröffentlichte Harvard-Studien zeigen, dass sowohl Zivilgesellschaft und einzelne Unternehmen, als auch die Volkswirtschaft als Ganzes, von der Unterstützung des Open-Source-Ökosystems profitieren, wie die Open Source Business Alliance auf ihren Seiten schreibt (und ebenfalls auch auf heise berichtet wird). So untersuchte die Langzeitstudie Open source software and global entrepreneurship den Zusammenhang zwischen Unternehmens-Neugründungen in einem Land und den lokalen Beiträgen zu Open-Source-Software. Und die Studie The Value of Open Source Software befasste sich mit dem monetären Wert von Open-Source-Software für Unternehmen.

Dazu passt auch der Slogan “Nutzen - Verbessern - Veröffentlichen” auf dem Open-Source-Portal der Stadt München, auf den uns Matti Schneider aufmerksam macht.

Umso besser also, im Sinne einer schnellen, effizienten und nachhaltigen Verwaltungsdigitalisierung, dass die neue Fassung des Onlinezugangsgesetzes festlegt, dass die Bundesbehörden zukünftig vorrangig Open-Source-Software beschaffen und auf offene Standards setzen sollen.

Das Berkeley Protocol on Digital Open Source Investigations gibt Ermittelnden nun Leitlinien an die Hand, die sie für die Sammlung, Überprüfung und Aufbewahrung von in Online-Recherchen zusammengetragenen Informationen für die Aufdeckung möglicher Menschenrechtsverletzungen anwenden können, wie Reset berichtet.

Das Internet ist über 30 Jahre alt, ein langer Zeitraum, in dem viele Entscheidungen getroffen wurden und Open-Source-Software kam und ging. Detlef Borchers weist darauf hin, dass John Graham-Cumming in seinem Blog zeigt, wie man mit “Digitalarchäologie” noch anhand alter Dokumente und Seiten im Netz Entwicklungen und Entscheidungsprozesse nachvollziehen kann.

Audacity, ein beliebter, quelloffener Audio-Editor und -Rekorder, bekommt mit Intels OpenVINO AI effects, KI gestützte Audio-Transkription und intelligente Rauschunterdrückung als nützliche Erweiterungen, die dabei 100 Prozent lokal laufen, also nicht heimlich den Hersteller kontaktieren.

Informationsfreiheit

Das Verkehrsministerium (BMDV) hatte sich über ein Jahr geweigert, den E-Mail-Verkehr zu einem geplanten Gespräch zwischen Verkehrsminister Volker Wissing und Porsche-Chef Oliver Blume zu veröffentlichen, mit der fadenscheinigen Begründung, dass dieser besonders schutzwürdig sei. Am 4. Dezember 2023 beauftragte abgeordnetenwatch.de daher eine Anwältin damit, beim Berliner Verwaltungsgericht eine Untätigkeitsklage gegen das Verkehrsministerium einzureichen. Zudem drohte der Bundesbeauftragte für den Datenschutz mit einer Beanstandung. Um eine Blamage abzuwenden, entschloss sich das Ministerium nun doch, die Korrespondenz herauszugegeben. Diese selbst stellte sich als wenig brisant heraus, belegt aber die Vertrautheit zwischen den Beteiligten.

Die Angelegenheit zeigt aber, dass man sich immer noch gegen die Versuche, die Einflussnahme von Lobbyisten auf politische Entscheidungsprozesse zu verschleiern, aktiv wehren muss.

Auch deswegen ist die Reform des Lobbyregister-Gesetzes, die jetzt am 1. März in Kraft getreten ist, zu begrüßen. So sind ab sofort Angaben zur Finanzierung und zu Lobbyausgaben künftig für alle verpflichtend. Lobbydienstleister müssen außerdem nun genau aufschlüsseln, was ihre Tätigkeiten für die jeweiligen Kunden sind und wie diese entlohnt werden. Leider bestehen aber weiterhin Ausnahmen von der Registrierungspflicht. Eine Auflistung aller weiteren wichtigen Änderungen finden sich in der Pressemitteilung von Lobbycontrol.

Und sonst so

Was passiert, wenn man bedenkenlos auf “Alle akzeptieren” im Cookie-Banner klickt: die Online-Ausstellung Your day in data zeigt, welche persönlichen Datenspuren man an einem Tag im Internet hinterlässt. Weitere solcher Ausstellungen sind auf The Glass Room zu finden, einem Projekt der NGO Tactical Tech. Wie man aus ihrem letzten monatlichen Newsletter erfährt, kann man sich die Ausstellung auch offline anschauen, z.B. in der Burg Giebichenstein Kunsthochschule Halle vom 18. März bis 19. April.

Veranstaltungen