If you can't fix it, you don't own it! – Out in the Open Januar 2024

02.02.2024 von Jörg Reichert (Code for Leipzig), Tim Fangmeyer (Code for Berlin), et al.

Wie auch in dieser Blogreihe schon mehrfach berichtet, müssen öffentliche Verwaltungen hochwertige Daten ab dem 9. Juni 2024 gemäß den Vorgaben der Durchführungsverordnung zu Hochwertigen Datensätzen (EU) 2023/138 der Europäischen Kommission verpflichtend bereitstellen. Für alle, die sich fragen, was das für die Verwaltungen konkret bedeutet und wie man bei der Veröffentlichung vorgehen kann, ist die Handreichung (pdf) des Open-Data-Teams Bayern das geeignete Nachschlagewerk.

Einen Schritt weiter geht das nationale Schweizer Datenportal opendata.swiss, das nun flächendeckend für alle seine CSV-Dateien Programmierschablonen anbietet, um so den Einstieg in die Programmierung mit den Datensätzen zu erleichtern.

Um überhaupt systematisch offene Daten veröffentlichen zu können, braucht es eine gute Grundlage. Das hat auch das Land Schleswig-Holstein erkannt und arbeitet momentan an einer modular aufgebauten Infrastruktur für offene Daten. Aus welchen Komponenten diese konkret besteht, erläutert Mister Open Data in seinem neuen Blogbeitrag und gibt dabei einen lehrreichen Einblick die Open-Data-Infrastruktur des nördlichsten Bundeslandes.

Am 9. Juni stehen, parallel zur Europawahl in 8 Bundesländern, auch Kommunalwahlen an. Code for Magdeburg hat dafür mit magdeburg-waehlt.de die technische Infrastruktur für einen eigenen WAHL-O-MAT geschaffen. Allerdings fehlen der Wahlhilfe noch aktuelle Inhalte – die gerne beigesteuert werden dürfen. Weiterhin steht das Angebot von Code for Magdeburg, den Wahl-Assistenten auch für die Stadt Halle umzusetzen.

Séan Fobbe hat Anfang Januar den Datensatz Corpus des Deutschen Bundesrechts, eine möglichst vollständige Sammlung der konsolidierten Fassungen aller Gesetze und Verordnungen auf Bundesebene, wieder auf den aktuellen Stand gebracht. Der Datensatz ist mit CC0 lizenziert, also gemeinfrei.

Alles, was unter den Sammelbegriff Künstliche Intelligenz fällt

Benjamin Paaßen, Juniorprofessor für Wissensrepräsentation und Maschinelles Lernen an der Universität Bielefeld, setzt sich dafür ein, dass deutsche Universitäten eigene Sprachmodelle, sogenannte Large Language Models, auf ihren Servern bereit stellen sollten, um zukünftige Abhängigkeiten von kommerziellen KI-Anbietern wie OpenAI zu vermeiden. Laut Paaßen stärkten sie damit als zukünftige Anbieter freier Sprachmodelle Lehre, Forschung und digitale Autonomie.

Daniel Erenrichs Jupyter Notebook Beispiel, Anfragen an die Wikidata-Datenbank in natürlicher Sprache zu stellen, nutzt leider ebenfalls die OpenAI-Schnittstelle. Wie Gleiches mit einem Open-Source-LLM, Mistral 7B, erreicht werden kann, zeigt Robert Timm mit seinem Prototypen in einer Präsentation auf der Semantic MediaWiki Conference vom letzten Herbst, deren Mitschnitt jetzt veröffentlicht wurde.

Auch der neue Prototyp des CityLab Berlin nutzt ein KI-Sprachmodell. Mit Parla kann man die Informationen in den Dokumenten der Hauptausschusssitzungen sowie den Schriftlichen Anfragen an das Berliner Abgeordnetenhaus nach Suchanfragen filtern, um am Ende die inhaltlich passenden Dokumente angezeigt und kurze Antworten generiert zu bekommen. Mehr zu den technischen Umsetzungsdetails erläutert Jonas Jaszkowic und verschweigt dabei auch nicht die Herausforderungen, die das CityLab bei der Qualitätssicherung und den sprachlichen Halluzinationen des Sprachmodels hatten und immer noch haben. Der Quellcode der Anwendung steht offen auf Github. Auch er erwähnt das zukünftige Ziel, statt der OpenAI-Lösung lieber Open-Source-Sprachmodelle nutzen zu wollen, merkt aber an, dass es derzeit kaum welche gäbe, die eine akzeptable Qualität bei der Formulierung von Antworten in deutscher Sprache lieferten.

Wie wichtig es ist, unabhängig von einzelnen Anbietern zu sein, sieht man an den Anstrengungen, die bei der Bekämpfung von Geldwäsche in Deutschland unternommen werden. So erhofft man sich mit den Informationen aus dem Transparenzregister – und auch mit dem Einsatz von Machine Learning – leichter verdächtigen Finanztransaktionen auf die Spur zu kommen.

Global Fishing Watch ist es bereits gelungen, mit Hilfe von KI-Technik illegale Aktivitäten aufzudecken. So hat man mit der Auswertung von zwei Millionen Gigabyte an Satellitenbildern aus den Jahren 2017 bis 2021 so genannte “Dunkle Flotten”, also Fischfänger, die ihre Positionen nicht melden, identifizieren können. Aus den Daten, die auch offen heruntergeladen werden können, konnte man beispielsweise ablesen, dass in Asien siebenmal mehr Fischereischiffe im Einsatz sind als in Europa. Es wurden zahlreiche Schiffe gefunden, die in geschützten Gewässern aktiv waren.

KI-Bildgeneratoren sind oftmals mit Bildmaterial gefüttert worden, das zwar frei zugänglich im Internet stand, aber dessen Lizenz geflissentlich ignoriert wurde. Mit Nightshade steht nun, wie heise berichtet, ein Werkzeug zur Verfügung, das Bilddateien, visuell vom menschlichen Auge nicht zu erkennen, so verändert, dass es die Trainingsdaten von KI-Modellen in unvorsehbarer Weise unbrauchbar macht. Es ist geplant, den Quellcode von Nightshade bald auch offen zu legen. Dann könnte neben den massenweisen Plagiaten, Fakenews, und anderen Spam, die jetzt schon durch generative KI mutwillig erzeugt werden, die Qualität von Chatbots weiter absenken.

Kultur

Eine neue Online-Plattform will Plattdeutsch mit einer interaktiven Landkarte im öffentlichen Raum sichtbarer machen. Interessierte können sich beteiligen und gerne ihre Fundstücke eintragen.

Wie die Bayerische Staatsbibliothek froh verkündet, stellt sie über 4 Millionen Digitalisate online!

Dennoch bestehen beim Abfotografieren gemeinfreier Werke, z.B. beim Museumsbesuch, immer noch rechtliche Unsicherheiten, wie Dominik Scholl in seiner Kolumne anlässlich des Public Domain Days erinnert.

Ihre Eindrücke von der “Provenance loves Wiki“-Konferenz schildert Franziska Kelch in folgendem Wikimedia-Blogbeitrag. Über 70 Provenienzforschende und Wiki-Aktive diskutieren an den beiden Tagen, wie man offene und freie Wiki-Projekte wie Wikidata, Wikibase oder Wikipedia nutzen kann, um Kulturdaten zu organisieren, zu vernetzen und für die Allgemeinheit zu öffnen. Die vielen Beispiele aus der Praxis und generell eine große Hilfsbereitschaft halfen dabei, auch Neulinge gut zu integrieren.

Gemeinfreie Filme von Wikimedia Commons, Internet Archive und anderen Quellen können dank Magnus Manske nun auf dem Portal WikiFlix gesucht (und hoffentlich auch gefunden) werden. Mit einer ersten Adaption namens WikiVibes ist dies ebenfalls für Audio-Dateien möglich. Eine prima Ergänzung zu schon bestehenden Community-Projekten wie Musicbrainz (sammelt Musikmetadaten) oder auch Listenbrainz (analysiert die eigenen Hörgewohnheiten).

Linked Open Data

Julia Schabos von der Berliner Finanzverwaltung kündigt im Interview mit der Technologiestiftung Berlin an, dass die von der Open Data Stelle Berlin (ODIS) entwickelte Auswertung der Berliner Haushaltsdaten auch 2024 weiter verbessert und erweitert werden soll. Helfen soll dabei, dass 2023 begonnen wurde die Berliner Haushaltsdaten als Linked Open Data umzusetzen. Im Rahmen des 4. Nationalen Aktionsplans des Bundes wird dazu in Zusammenarbeit mit der Staatskanzlei Schleswig-Holstein ein gemeinsames Vokabular für Haushaltsdaten erarbeitet, Voraussetzung für die Vergleichbarkeit und Verknüpfbarkeit der Datensätze. Wir warten gespannt auf die erste Veröffentlichung der Daten im entsprechenden Format.

Auf Bundesebene kann man nun mit bundeshaushalt.de die Soll- und Ist-Haushalte der letzten Jahre sowie den aktuellen Soll-Haushalt über Dashboards erkunden. Die Daten werden unter anderem auch als CSV-Dateien auf dem Download-Portal angeboten, allerdings noch nicht als Linked Open Data.

Das Umweltbundesamt hat ebenfalls den Wert einer normierten Begrifflichkeit erkannt und bietet mit dem Semantische Netzwerkservice (SNS) Unterstützung für das Informationsmanagement im Umweltbereich. Durch die Verwendung einheitlicher Schlagwörter (bzw. das automatische Auflösen von Synonymen/semantisch ähnlicher Begriffe über die Mittel von Linked Data und des Semantic Web) soll sich das Auffinden und der Zugang zu Umweltinformationen insgesamt verbessern und verteilt vorliegende Informationen miteinander vernetzt werden.

Mobilität und Kartendaten

Wer sich für öffentliche Bücherschränke in Laufnähe interessiert, kann sich diese nun auf OpenBookCase auf einer Karten anzeigen lassen und, wie geoObserver auf seinem Blog hinweist, auch selbst um noch nicht erfasste Schränke ergänzen.

Wie man mit offenen Daten des Zensus die Heizungsarten im 100m-Gitter kartieren kann, um damit die kommunale Wärmeplanung zu unterstützen, hat Wahlatlas auf der NIAM 2024 (von der es hoffentlich bald auch die Video-Mitschnitte geben wird) gezeigt. Die dazugehörige Präsentation sowie die Links zu den Karten und Daten hat er hier veröffentlicht.

Edward Betts macht uns darauf aufmerksam, dass man mit dem noch im Beta-Status befindlichen Werkzeug OWL Map Einträge in WikiData mit den passenden Elemente auf OpenStreetMap verknüpfen kann.

Terence Eden zeigt auf seinem Blog eine weitere interessante Integrationsmöglichkeit mit OpenStreetMap: Indem man den Kartendienst mit dem Protokoll ActivityPub kombiniert, kann man soziale Check-ins und Standort-Empfehlungen im Fediverse publizieren, ähnlich wie es der kommerzielle Dienst Foursquare vorgemacht hat.

Auch wenn es verlockend ist, die Dienste von OpenStreetMap intensiv zu nutzen, sollte man sich an die Fair-Use Regeln halten. Denn der Betrieb der Server kostet Zeit und Geld. Einige Seite nutzen dennoch die OpenStreetMap-Kartendaten, ohne ihre Herkunft richtig zu attributieren. Viele nutzen zudem noch direkt die OSMF Tile-Server, statt die Infrastruktur selbst zu hosten. Man hat daher einen Issue-Tracker eingerichtet eingerichtet, um solche Seite blocken zu können.

Auf Deviantart wurde eine detaillierte (inoffizielle) Karte des Regional-Schienennetzes der Deutschen Bahn veröffentlicht, die in mühevoller Detailarbeit von @cstmrii erstellt wurde. Auf der Karte sind selbst kleine und nicht häufig frequentierte Bahnhöfe abgebildet.

In Wien kann man sich mit der neuen data.gv.at Open-Data Anwendung wl-transit alle Abfahrtszeiten der öffentlichen Verkehrsmittel in einem bestimmten Radius anzeigen lassen

Eine Umfrage der Bitkom hat ergeben, dass 43 Prozent der über 16-jährigen das Teilen von Auto, Fahrrad oder E-Scooter als Service nutzen.

Um so betrüblicher die Nachricht vom Unfalltod des Pforzheimer Radfahraktivisten Andreas Mandalka, besser bekannt als natenom, am Abend des 30. Januar. Er hatte sich unter anderem in den Bereichen Open Source, OpenStreetMap, Verkehrswende und OpenBikeSensor engagiert – er dokumentierte selbst mit Videos die gefährlichen Überholmanöver, denen er als Radfahrer ausgesetzt war.

Open Source

Bruce Perens, Mitgründer der Open-Source-Bewegung, möchte eine Rückbesinnung auf die ursprünglichen Werte von Open-Source-Software. Es müsse sichergestellt werden, dass Unternehmen einen angemessenen Geldbetrag zahlen, den sie für die Vorteile, frei verfügbare Software nutzen zu können, erhalten. In den letzten Jahren wurde die Einhaltung der Bedingungen, die z.B. GPL oder AGPL lizenzierte Software mit sich bringt, immer weiter verwässert, sodass kommerzielle Webanwendungen zum Teil auf mit AGPL lizenzierten Software-Bausteinen basieren, aber dennoch ihren Quellcode nicht offenlegen müssen, obwohl die AGPL grundsätzlich auch für Webanwendungen gilt.

Die Studie Open Source Software in Kommunen des BBSR klärt an Hand von Akteuren, die sich in der kommunalen Praxis intensiv mit Open-Source-Anwendungen auseinandersetzen, die grundlegende Begriffe und Zusammenhänge. Damit sollen Entscheidungsträgerinnen und -träger in Städten und Regionen bei der Planung, Beschaffung und Implementierung von Hard- und Softwarelösungen unterstützt werden. Ergänzend dazu helfen interkommunale Kooperationen und das Zusammenspiel von mit IT-Dienstleistern und Open-Source-Communitys den Kommunen.

In die gleiche Kerbe schlägt die sächsische Open-Source-Strategie, über die MdL Dr. Daniel Gerber im Datenradio beim Offenen Kanal Jena Mitte Januar sprach.

Eine weitere umfassende Gesprächsrunde zum Thema eGovernment, aber auch Open Source, gibt es in der eGovernment Podcast Monatsschau 01/24. Dort wurde unter anderem erwähnt, dass das ZDF zentrale Teile des Quellcodes seines Empfehlungssystems in der ZDFmediathek auf Github veröffentlicht hat.

Einen Satz, den Andy Piper aufgeschnappt hat, als er auf einer Open-Source-Veranstaltung im britischen Parlament war, passt hier perfekt als Abschluss: “Open Source is the Right to Repair, for software.”

Und sonst so

Neue Aufnahmen des Weltraumteleskops James Webb zeigen Sterne und Staub in 19 Galaxien. Wie auf der Homepage zu lesen ist, sind die Fotos, sofern nicht anders angegeben, mit der passenden Attribution frei nutzbar.

Termine

Veranstaltungen