A Fool With A Tool Is Still A Fool – Out in the Open März 2023

Foto von Peggy_Marco auf Pixabay
04.04.2023 von Klara Juhl (Code for Osnabrück), Jörg Reichert (Code for Leipzig), Stefan Kaufmann (Code for Ulm), Anastasia Gilz (Code for Niederrhein) et al.

Spätestens seit ChatGPT sind Chatbots in aller Munde: Die Technologie soll es Nutzer erlauben, über natürliche Sprache mit einem technischen System zu kommunizieren. Das bedeutet: Es sind keine Kenntnisse über spezielle Abfragesprachen nötig. Im Optimalfall kommuniziert der Nutzer mit dem System wie mit einem menschlichen Gegenüber.

Das hinter ChatGPT / OpenAPI steckende Modell ist keine Open Source-Ressource. Dabei ist gerade in diesem Bereich Transparenz enorm wichtig. Denn die Kommunikation mit einer künstlichen Intelligenz sollte auch für die menschliche Seite möglichst nachvollziehbar bleiben. Die Entwicklung von Open Source-Chatbots ist allerdings ungleich schwerer als im kommerziellen Bereich, wie Joram Schwartzmann bei Protoype Fund schreibt. Das liegt nicht zuletzt am hohen Kostenaufwand. Trotzdem wächst die Anzahl an Open Source- bzw. Open Data-Chatbots kontinuierlich. So gibt es beispielsweise CensusGPT, einen Chatbot für die vereinfachte Abfrage von Zensusdaten aus den USA.

Das vorhandene Potenzial von ChatGPT können wir uns darüber hinaus zunutze machen. Sindre Wimberger beschreibt in den Folien seines Workshops “ChatGPT und Open Data” zahlreiche nützliche Anwendungsfälle. ChatGPT kann außerdem Abfragen in Overpass schreiben, der Abfragesprache für OpenStreetMap. Der GeoObserver zeigt ein Beispiel für eine solche Abfrage und verweist weiter auf ChatGeoPT: Ein Projekt im Proof of Concept-Status, welches Geo-Anfragen in natürlicher Sprache verarbeiten kann.

Wie immer gibt es aber auch eine Kehrseite hinter dieser vermeintlich bahnbrechenden Technologie. Modelle, die hinter ChatGPT und Co stecken, müssen trainiert werden. Und das geschieht u. a. mit Datenannotation: Menschen sichten dabei Datensätze und etikettieren diese, um Maschinen anzulernen. Diese Arbeit wird häufig durch unterbezahlte Kräfte unter teils unmenschlichen Arbeitsbedingungen durchgeführt. Chris Köver von netzpolitik.org sprach im Interview mit der Forscherin Milagros Miceli über die problematischen Zustände.

Wikimedia Deutschland veröffentlichte passend zum Thema KI eine Einordnung von Wikidata und Linked Open Data. Das strukturierte Wissen, beispielsweise bei Wikidata, kann Grundlage für Symbolic AI sein: Die maschinenlesbaren Fakteninformationen können als logische Schlussfolgerungen verkettet und daraus Text generiert werden. Das ist ein Gegenmodell zu sogenannten Large Language Models (LLMs) wie ChatGPT. LLMs werden mit großen Datenmengen trainiert und können mittlerweile verblüffend eloquente Texte schreiben – die aber nicht immer inhaltlich korrekt sind. Das Konzept von Symbolic AI basiert dagegen auf expliziten, beweisbaren logischen Schlüssen und den zugehörigen Fakten. Und wenn diese Fakten als Linked Open Data vorliegen, gehört dieses Wissen auch der gesamten Menschheit anstelle einzelner Silicon-Valley-Milliardäre.

Politisches aus der Open-Welt

Noch immer monetarisieren zahlreiche öffentliche Stellen ihren Datenschatz. Dahinter steckt die Befürchtung, die Datenbereitstellung selbst sei bei kostenloser Herausgabe nicht mehr finanzierbar. Stefan Kaufmann erläutert in einem Blogbeitrag auf netzpolitik.org, warum die Diskussion um die kostenfreie Veräußerung von Daten häufig nicht richtig geführt wird.

Die Friedrich-Ebert-Stiftung veröffentlichte einen Ratgeber für digitales Ehrenamt mit einem besonderen Fokus auf kommunale Verwaltung. Neben grundsätzlichen Begriffserklärungen und einer Potenzialanalyse werden ausgewählte Gruppen vorgestellt (auch Verschwörhaus e. V. ist darunter zu finden). Zum Schluss gibt die Veröffentlichung Empfehlungen darüber, wie eine Kommune selbstorganisierte Gruppen fördern kann.

Während der Corona-Pandemie mangelte es häufig an strukturiert zur Verfügung gestellten Daten. Die Süddeutsche Zeitung stellte nun Wissenschaftler:innen und Expert:innen die interessante Frage, welche Daten sie sich für die nächste Pandemie wünschen würden. Herausgekommen ist eine lange und detaillierte Wunschliste, die auf GitHub einzusehen ist.

Was Berlin liest, was es verbraucht

Die Stadtbibliothek Pankow veröffentlichte im Jahr 2022 offene Daten der Berliner Bibliotheken inklusive vielerlei anonymisierter Angaben zum Ausleihverhalten der Berliner:innen. In Zusammenarbeit mit der ODIS Berlin entstand so ein übersichtliches Dashboard mit Ausleihstatistiken.

Daneben gibt es neuerdings den Berliner EnergieCheckpoint, eine interaktive Karte, welche den Stromverbrauch öffentlicher Gebäude visualisiert. Ein Blog-Artikel der ODIS beschreibt die Methode sowie die Datengrundlage des Projekts. Die Rohdaten stehen in strukturierter Form auf GitHub zur Verfügung.

Fast wie Ostereier suchen: Versteckte APIs finden

Die Suche nach offenen Daten und Transparenz kann zuweilen eine ganz schöne Detektivarbeit sein. Auch APIs sind häufig nicht korrekt oder gar nicht dokumentiert. Ob gewollt oder nicht, diese “versteckten” APIs bergen das Potenzial, an scheinbar unerreichbare Daten zu gelangen. Leon Yin gibt daher Tipps, wie versteckte APIs gefunden und sinnvoll genutzt werden können.

Rückblick auf den Hackday Niederrhein

Der Hackday Niederrhein fand am 18. und 19. März statt. Ca. 120 Personen kamen ins Moerser Rathaus, einige nahmen per Big Blue Button teil. Nach drei Jahren Pandemie und kleiner Ausgaben des Hackdays hat es diesmal wieder richtig gerockt. Die Stimmung war gut und wie gewohnt familiär. Neben den “üblichen Verdächtigen” aus der Open-Data-Community gab es ein paar neue Gesichter, unter anderem auch Verwaltungmenschen und verhältnismäßig viele Jugendliche. Bei den Vorträgen ging es um Mastodon, Tourismusdaten, ChatGPT und Bürgerbeteiligung. Bei den Workshops wurden Umweltdaten verarbeitet, kleine Roboter gebaut, ChatGPT-Anwendungsdemos gezeigt. Beim Linked Open Data - Workshop von Mila Frerichs wurden HandsOn Daten verlinkt und intensiv diskutiert. Neben der Begeisterung von Menschen die zum ersten Mal dabei waren hat die Veranstaltung auch eine gute Resonanz in den Medien bekommen. Berichte gibt’s bei der WDR Lokalzeit, auf den Seiten der Bertelsmann-Stiftung, im Tagesspiegel (Paywall) und in der NRZ (Paywall). Bilder vom Hackday gibt es hier. Es lohnt sich auch im Nachhinein noch ein Blick ins Programm, die meisten Vortragsfolien sind online, eventuell kommt noch etwas nach.

Rückblick auf die Open Data Days 2023

Anfang März fanden bundesweit die Open Data Days statt - die “wichtigsten Feiertage der Bubble”. In zahlreichen Städten wurden Vorträge gehalten, Workshops veranstaltet und Interessierte tauschten sich aus. Ein kurzer Rückblick zeichnet ein positives Bild:

Veranstaltungen