Datengewäsch – Out in the Open Juli 2024

12.08.2024 von Jörg Reichert (Code for Leipzig)

Open Data

Philip Heltweg listet in seinem Blogbeitrag all die Dinge, mit denen man die Nutzer von offenen Daten vergraulen kann. Eine noch umfangreichere Sammlung solcher Anti-Patterns, also was man beim Veröffentlichen von Open Data alles falsch machen kann, gibt es bereits vom Transportkollektiv. Gleich das erste Anti-Pattern dort, “Noch ein Datenportal erstellen”, wird nun “vorbildlich” von Wiesbaden umgesetzt, das bis Anfang 2025 eine eigene Open-Data-Plattform einführen möchte. Wobei die damit ebenfalls verbundenen Entscheidung für “Open by Default” positiv zu sehen ist.

Auch das zu gründende Dateninstitut entwickelt sich immer mehr zu einem Anti-Pattern. So findet beispielsweise eine Gemeinwohlorientierung im aktuellen Konzept keine Erwähnung mehr. Aline Blankertz und Henriette Litta nennen in ihrer gemeinsamen Stellungnahme noch weitere Gründe, warum sich sowohl die Wikimedia Deutschland als auch die Open Knowledge Foundation Deutschland gegen eine Beteiligung an dem Bewerbungsverfahren entschieden haben.

Es gibt natürlich aber auch positive Patterns. Die Einträge auf der Checkliste, die Kristin Briney vorschlägt abzuarbeiten, wenn man tabellarische Daten maschinenlesbar veröffentlicht, gehören dazu.

Als weiteres Positivbeispiel ist die Schleswig-Holsteiner “Förderrichtlinie Open Data” zu nennen, über die kommunale Einrichtungen die Entwicklungsaufwände für die Anbindung ihrer IT-Anwendungen bzw. auch neuer Fachverfahren an das Open Data Portal des Landes sich finanzieren lassen können, mit dem Ziel, dass die Daten über Schnittstellen dieser Systeme an das OpenData-Portal automatisiert geliefert werden.

In einer Homestory gibt das Team der Open Data Informationstelle Berlin (ODIS) einen Einblick in seine Arbeit, also z.B. Beratungen, Workshops und Schulungen für Verwaltungsmitarbeitende zur Vorbereitung von Datenveröffentlichung. Auch das Erstellen eigener Visualisierungen, Fallstudien und Anwendungen gehört zu ihren Aufgaben. Mit ihnen lassen sich die Potenziale offener Daten demonstrieren, aber auch Hürden auf Grund fehlender Daten bzw. nicht ausreichend qualitativer Daten identifizieren.

Die Zensusdatenbank mit ersten Daten zu Demografie, Gebäuden und Wohnungen wurde vom Statistischen Bundesamt online genommen. Mit ihr kann man Ergebnisse in Tabellen für Bund, Länder, Kreise, Gemeinden und Bezirke abrufen und mit anderen Merkmalen kombinieren.

Open Data Tools

Nachdem letzten Monat der Open-Data-Katalog-Standard DCAT-AP auf europäischer Ebene in der Version 3.0 freigegeben wurde, hat der deutsche Ableger DCAT-AP.de nachgezogen. Der Entwurf kann hier noch kommentiert werden.

Bob DuCharme stellt SPARQL Anything vor, ein Open-Source-Werkzeug, mit dem man mit der Abfragesprache SPARQL Inhalte nicht nur aus RDF-Formaten sondern auch aus XML, JSON, CSV, HTML, Excel, Text, Binär, EXIF, Datensystem, Zip/Tar, Markdown, YAML, Bibtex, DOCx und PPTx extrahieren kann (in dem es diese Formate unter der Haube nach RDF konvertiert).

Geodaten / Karten

Dass man die Pflege und die Neuanlage von offenen Daten gezielt fördern kann, hat der internationale Wettbewerb “Coordinate Me” gezeigt. Anliegen des Wettbewerbs, der von Anfang bis Ende Mai 2024 lief, war es, die Wikidata-Einträgen innerhalb von 16 Fokusländern, die Geodaten aufweisen, zu verbessern. Wie Wikimedia Österreich berichtet, dass von den 3228 Teilnehmenden 129.102 Wikidata-Einträge bearbeitet worden sind, davon 15.261 komplett neu angelegt.

Die Mobilitätsorganisation VCÖ ruft die Bevölkerung in Österreich dazu auf, Hitze-Hotspots in ihre Online-Karte VCÖ CHECK einzutragen. Mit dieser Aktion sollen Gemeinden motiviert werden, mehr Bäume auf Großparkplätzen und entlang Straßen zu pflanzen, um Menschen in Autos aber auch auf Gehwege vor der prallen Sonne zu schützen.

Dass das auch eine Frage der Flächengerechtigkeit ist, zeigt die Anwendung von Hans Hack. In ihr lassen sich für einen gewählten Kartenausschnitt in Berlin die Anteile von Parkplätzen, Spielplätzen und Grünanlagen berechnen. Grundlage bilden die gleichen Daten, die die Senatsverwaltung für Mobilität nun auch selbst als Kartierung sämtlicher öffentlicher Straßenparkplätze im Innenstadtbereich bereitstellt.

Um eine anderen Aspekt von Gerechtigkeit geht es dem Projekt Wheelmap zurück. Seit nunmehr 14 Jahren kartieren Ak­ti­vis­t:in­nen, welche Orte (durch z.B. Treppen, Rampen, Aufzüge) in der Stadt rollstuhlgerecht sind (oder gerade eben nicht). Nun soll im Rahmen des bürgerwissenschaftlichen Projekts IncluScience die App für weitere Nutzergruppen erschlossen werden.

Für alle angehenden Taxifahrer und alle, die ihre Straßenverortungsfähigkeiten auf die Probe stellen möchten, ist das auf OSM-Daten basierende Spiel “Back of your Hand” der richtige Zeitvertreib. Ein ähnliches Prinzip also wie bei Click that ‘hood’, nur mit Straßen statt Stadtbezirken.

Auf Mastodon hat ein Nutzer nach Möglichkeiten gesucht, alte Stände in OpenStreetMap miteinander visuell vergleichen zu können. Empfohlen wurden ihm achavi, OSMCha und OSM Deep History.

In der Anwendung Luftbilder Berlin des OKLabs Berlin sind nun die brandneuen Luftaufnahmen aus dem Geoportal Berlin vom laufenden Jahr integriert. Diese lassen sich nun interaktiv mit alten Bildern seit 1928 vergleichen.

Schon 2022 hat die Stadt Zürich 3D-Stadt-Modelle der Pfahlbauten des Neolithikums (um 3000 v. Chr.) sowie die neuzeitliche Stadt um das Jahr 1800 veröffentlicht. Seit 11. Juli gibt es einen weiteren Datensatz der das spätmittelalterliche Zürich um 1500 zeigt.

Eine möglichst vollständige Erfassung aller Kölner Denkmäler als 3D Modelle möchte das Projekt Denkmal 4D Köln des OKLab Kölns erreichen. Auf der Online-Karte werden daher nicht nur alle bereits erfassten 3D-Modelle verortet, sondern auch gezielt dazu aufgerufen, fehlende (Meta-)Daten beizusteuern.

Mobilität

Wie unterscheidet sich weltweit der Modal Split, also die Verteilung auf die verschiedene Verkehrsmittel? Mit “Cities Moving” lassen sich 877 Städte über 61 Ländern vergleichen. Man kann abschätzen, welchen Einfluss Land, Region, Einkommensverteilung und Einwohnerzahl der jeweilige Stadt haben könnte.

Die Europäische Union (EU) will für verschiedene Sektoren gemeinsame europäische Datenräume schaffen. Mit der Initiative für einen gemeinsamen europäischen Mobilitätsdatenraum, soll es laut EU-Kommision möglich werden, “Daten zu erheben, miteinander zu verknüpfen und verfügbar zu machen, um so die EU-Ziele von der Nachhaltigkeit bis hin zur Multimobilität zu verwirklichen.” Zusätzlich gibt es mit dem Mobility Data Space (MDS) einen virtuellen Marktplatz zum Austausch von Mobilitätsdaten. Der MDS somit kein Open-Data-Portal und die Daten kein Open Data. Der Verein D64 kommt in seiner Analyse daher zum Schluss, dass es immer noch eine Vielzahl sich auch inhaltlich teilweise überschneidender Plattformen und Datenportale gibt und dass diese Fragmentierung der Datenquellen weiterhin ein große Unübersichtlichkeit hinterlässt. Innovationen werden nach seiner Einschätzung nicht durch neue Geschäftsmodelle auf Datenmarktplätzen entstehen, sondern durch nur gesamtgesellschaftliche freie und offene Nutzbarkeit der Daten.

Reset legt den Finger in die gleiche Wunde, denn grenzübergreifende Zugreisen in Europa zu buchen ist nach wie vor durch die Fragmentierung eine Wissenschaft für sich. Eigentlich bestehende Verbindungen werden nicht gefunden oder lassen sich nicht als Ganzes buchen, von intermodalen Kombinationen ganz zu schweigen. So wird der Umstieg vom Flugzeug oder Auto auf die Bahn weiter behindert. Jon Worth bringt es auf den Punkt: es fehlt eine gesetzliche Verordnung für EU-Zugticket-System.

Um EU-weit auch an jeder Bus-Haltestelle leichten Zugang zu den Echtzeit-Abfahrten zu bekommen (z.B. durch Scannen eines QR-Codes), dafür setzt sich die Petition “EU Live Bus Stop Info” ein.

Die öffentlich zugängliche strecken.info ist eine Online-Karte des Schienennetzes, die aktuelle Streckensperrungen, Bauarbeiten oder Zugausfällen zeigt. Die neue Version läuft jetzt flüssiger.

Verkehrssicherheit

Das statistische Bundesamt hat Verkehrunfall-Daten für 2023 veröffentlicht, die sich auch im offiziellen Unfallatlas Deutschland für die Anzeige auswählen lassen. Die Mitfahrzentrale hat ebenfalls die neuen Daten in seine Web-Anwendung Heatview eingepflegt.

Die Stuttgarter Zeitung und Stuttgarter Nachrichten haben in Zusammenarbeit mit dem investigativen Recherchenetzwerk CORRECTIV eine Webseite an den Start gebracht, auf der man Gefahrenstellen rund um Schulen in Stuttgart melden kann.

Ein ähnliche Anwendung, die aber bundesweit funktioniert, ist gefahrenstellen.de. Sie nutzt den OpenRouteService und die Informationen zu Gefahrenstellen, um einen sicheren Schulweg berechnen zu können.

Wie man Daten-basiert effektiv die Fahrradwege-Infrastruktur verbessern kann, zeigt Mark Stosberg in seinem Blogbeitrag.

Wirtschaft

Wie ntv informiert, haben Wissenschaftle mehr als zwei Millionen Preisdaten des “Billion Prices Project” von mehr als 90 Einzelhandelsketten in 19 Ländern ausgewertet. Danach sind im Zeitraum zwischen Januar 2020 und Mai 2024 vor allem die Preise der günstigsten Lebensmittelmarken (also meist die Eigenmarken der Supermärkte und Discounter selbst) deutlich schneller gestiegen, in Deutschland um 29 Prozent. Diese “Cheapflation” trifft somit vor allem die Schwachen, die so schon teure Markenprodukte gemieden haben. Als Gründe für die stärkere Teuerung werden die gestiegene Nachfrage, der geringer Puffer bei der Marge und der größere Anteil der gestiegenen Energie- und Rohstoffpreise am Gesamtpreis genannt.

Mit OpenSupplyHub.org lassen sich weltweite Lieferketten-Daten nachvollziehen.

Die EU plant mit dem Vermögensregister eine umfassende Datenbank zum Vermögen aller Bürger aufzubauen, um so Geldwäsche und Terrorismusfinanzierung besser bekämpfen zu können.

Klima

Am 1. Juli ist das Klimaanpassungsgesetz in Kraft getreten. Es verpflichtet unter anderem Bund und Länder dazu, Klimarisikoanalysen zu erstellen. Mit der “Klimawirkungs- und Risikoanalyse” des Umweltbundesamts (UBA) gibt es ein solches Instrument bereits auf Bundesebene. Zudem soll alle vier Jahre ein Monitoringbericht auf einer soliden Datengrundlage die Folgen des Klimawandels und den Stand der Klimaanpassungsstrategie bilanzieren und so auch eine Kontrolle durch die Öffentlichkeit ermöglichen.

Ebenfalls vom UBA bzw. konkret vom Nationalen Zentrum für Umwelt- und Naturschutzinformationen in Merseburg stammt die Suchmaschine für Umwelt- & Naturschutz-Wissen. Wie in der zugehörigen Mitteilung zu entnehmen ist, umfasst die erste Ausbaustufe des umwelt.info Portals zunächst 100 Datenquellen. Bis Herbst 2025 sollen dann bis 300 Quellen angebunden sein. Der Quellcode des Portals liegt bei OpenCoDE. Es gibt eine aktuelle Terminabfrage, um sich das Portal näher vorstellen zu lassen und auch schon erstes Feedback, Verbesserungs- und Erweiterungswünsche zu formulieren. Mit der Karte zu allen Grundwassermessstellen in Deutschland gibt es einen ersten redaktionell aufbereiteten Anwendungsfall.

Auch noch Beta ist der Relaunch vom Climate Data Store vom europäischen Copernicus Programm. Die Daten sind weiterhin alle Open Data.

Zum neuen Online-Magazin “Neue Zukunft”, das über aktuelle Entwicklungen in den Klimabewegungen in der D-A-CH-Region berichtet, gehört auch ein interaktives Datentool (welches auch Open Source ist), das die Klimaberichterstattung in überregionalen Medien beobachtet.

Auch wenn schon der Corporate Social Responsiblity (CSR) ein marketinglastiger White-Washing-Verdacht anhing, gibt es nun mit Corporate Digital Responsibility (CDR) auch Pendant für die freiwillige Selbstverpflichtung zur digitalen Nachhaltigkeit im Unternehmens-Kontext, wie Reset in einem Artikel vorstellt. Kodex und Berichte mögen nett klingen, und generelles , aber schon Initiativen wie die zum Digitalen Datenputz wirken lächerlich und verlogen, in Anbetracht dessen, wo an anderer Stelle systematisch weiterhin Energie, Wasser und andere Ressourcen verschwendet werden (mehr Rechenzentren werden gebaut, Massendatenspeicherung und -verarbeitung für KI-Training). Ähnlich wie beim CO2-Fußabdruck werden Maßnahmen individualisiert und für Seht-wir-machen-doch-was-fürs-Klima-Marketing-Berichte ausgeschlachtet. Reines Green-Washing, nur um verbindlicheren rechtlichen Vorgaben vorzubeugen.

Energie

An Hand von 10 ausgewählten Grafiken aus 10 Jahren Energy-Charts kann man die Entwicklung der Energiewende in diesem Zeitraum nachvollziehen. Am 1. Juli wurde vermeldet, dass im ersten Halbjahr 2024 erneuerbare Energien rund 58 Prozent des Stromverbrauchs in Deutschland deckten. Auch beim NDR wird der aktuelle Stand des Ausbaus erneuerbarer Energien kontinuierlich dokumentiert, auch der Aufbau von Batteriespeichern bleibt nicht unerwähnt.

Transparenz

Julia Trautendorfer, Lisa Hohensinn, Dennis Hilgers haben 100.000 Informationsfreiheits-(IFG)-Anfragen über FragDenStaat analysiert, und konnten so bestimmen, wo Behörden am zuverlässigsten antworten (nämlich dort, wo es überhaupt Informationsfreiheitsgesetze und faire Gebührenverordnungen gibt).

Während bei Bürgergeld-Missbrauch sehr genau hingeschaut wird, bleibt der Staat bei der Aufklärung von CumCum- und CumEx-Geschäften weitestgehend untätig bzw. behindern sie aktiv sogar. So haben die Finanzbehörden Nordrhein-Westfalens Auskünfte verweigert, mit der unglaublichen Begründung, dass den Involvierten “bei Bekanntwerden ihrer Beteiligung ein nicht unerheblicher Imageschaden, der zudem wirtschaftliche Auswirkungen haben kann” drohe.

Open Access und Open Science

Um Schülern, unabhängig von der finanziellen Ausstattung ihres Elternhaushaltes, eine gleichberechtigte Vorbereitung auf ihre Abschlussprüfungen zu ermöglichen, fordert eine Petition von Wikimedia Deutschland und FragDenStaat, alte Prüfungsaufgaben kostenfrei zugänglich zu machen. Einzelne Bundesländer beweise bereits, dass dies möglich ist.

Im Open Economics Guide vom ZBW – Leibniz-Informationszentrum Wirtschaft in Kiel gibt es ein freies Lernmodul zum Thema Open Code, speziell an Wirtschaftswissenschafter gerichtet.

Sowohl das Balkonsolar Buch als auch das Handbuch zur Planung flexibler Bedienungsformen im ÖPNV vom BBSR stehen als Open Access frei zur Verfügung. Das ÖPNV-Handbuch zeigt dabei, wie Rufbusse, Anrufsammeltaxis und andere On-Demand-Verkehre in Räumen mit geringer ÖPNV-Nachfrage geplant werden können.

Zur Stärkung der Open-Access-Bewegung wurde das Projekt Open Access Datenpraxis von der Deutsche Forschungsgemeinschaft (DFG) gestartet.

Wie man Forschungsdatensätze im Wissensgraph von OpenAlex auswerten kann, wird in diesem Webinar erklärt.

Der Online-Speicherdienst für wissenschaftliche Datensätze, Zenodo, wird 11 Jahre alt.

Open Source

Der Prototypfund widmet sich in den Folgen der neuen Staffel des Public Interest Podcasts speziell dem Thema “Open Source und Geld”. In der ersten Folge ist das Prototypfund-Team selbst zu Gast, in den anschließenden Folgen sind Heiko Rintelen von FixMyCity, Mehan Jayasuriya vom Mozilla Technology Fund (MTF), Leah Oswald von chaos.social und Erik Albers von foss.events die Interviewten.

Wie kann Open Source Software als Gemeingut nachhaltig erhalten bleiben? Ploum schlägt in seinem Blog vor, Software generell nur noch unter einer Copyleft-Lizenz, wie z.B. AGPL, zu veröffentlichen, damit Software, die von dieser Software ableitet, auch wieder frei veröffentlicht werden muss. Damit könne man dem Entstehen von Monopolen entgegen wirken, die zwar auf freier Software basieren, selbst aber ihren Code proprietär unter Verschluss halten, um ihn kommerziell exklusiv zu verwerten und das Abhängigkeitsverhältnis (und ihre Machtposition) aufrechtzuerhalten. Die einzelnen Maintainer zu bezahlen, hält er auch für keine gute Idee, weil es damit die alleinige Verantwortung auf den ursprünglichen Entwickler verlagert, statt die Verantwortung bei allen zu sehen, die Interesse an diesem Gemeingut haben (nicht nur den Feuerwehrmann bezahlen, wenn das eigene Haus brennt). Generell machen wir uns es viel zu bequem, wenn wir uns auf die Monopolisten verlassen.

Der weltweite IT-Ausfall offenbarte, wie verletzlich uns Monopole wie Microsoft machen, befindet auch Titus Blome auf Zeit Online. Denn Infrastruktur ist nur solange unsichtbar, bis sie ausfällt.

In der Hinsicht war auch das xkcd-Cartoon irreführend, da es nur eine einzige Abhängigkeit zeigte. Tatsächlich gibt es vieler solcher kleinen Bausteine, weswegen die Darstellung des Comics als Fraktal der Realität viel näher kommt.

Das Team vom Prototypfund erklärt, was der Begriff Nachhaltige Softwareentwicklung für sie bedeutet. Sie beziehen ihn bewusst auf das komplette Ökosystem der Open Source Software, also auch die Community und Infrastruktur um die eigentliche Software herum.

Im Podcast “Digital leben” findet der Autor Stefan Mey, dass die Philosophie offener Software das Internet freundlicher macht. Außerdem wird eine Schule im Harz vorgestellt, die voll auf Open Source setzt.

Nur wie kann eine dauerhafte Finanzierung von FOSS gewährleistet werden, fragt sich auch Christian Nähle, Geschäftsführer von Do-FOSS, der Initiative für den Einsatz Freier und Open-Source-Software bei der Stadt Dortmund. Denn Förderprogramme für FOSS können auslaufen und es droht die Verlagerung der Weiterentwicklung ins Ehrenamt.

So sieht es auch aktuell auch beim EU-Open-Source-Förderprogramm Next Generation Internet aus, dessen Finanzierung die EU wohl einstellen wird.

Derweil wird an anderer Stelle das Geld aus dem Fenster geworfen, findet zu mindestes Bert Hubert auf seinem Blog und meint, man solle die Europäische Cloud Initiative Gaia-X einstampfen, weil sie nur vorgeben, etwas Sinnvolles zu tun, tatsächlich sind für die geflossenen Millionen bisher nur ein ein paar Standards und Zertifizierungen entstanden, die niemanden weiterhelfen.

Im ZENDIS Positionspapier - Digitale Souveränität im Vergaberecht wird der Vorrang für Open-Source-Software als erforderlich und rechtskonform angesehen. Dennoch spielen Open-Source-Lösungen in der Beschaffungspraxis kaum eine Rolle. Die anstehende Reform des Vergaberechts muss aus Sicht der Autoren sich diesem Problem annehmen.

In der Schweiz ist man da schon viel weiter: deren Regierung hat nun verfügt, dass alle Software die durch und für öffentliche Stellen entwickelt wird, Open Source sein muss, sofern Rechte Dritter oder Sicherheitsbedenken nicht dagegen sprechen.

Da der Prototype Fund auf eine Laufzeit von acht Jahren ausgelegt war, die sich nun dem Ende neigen, wird nun reflektiert, wie die Förderlogik des Funds gewirkt hat.

KI

Mit dem neuen Prototypen GeoExplorer der Open Data Informationsstelle Berlin (ODIS) können Nutzer über eine Freitexteingabe ohne (Fach-)Vorkenntnisse das Geodatenangebot des Landes durchsuchen. Die zurückgelieferte Ergebnisse werden durch das zu Grunde liegende KI-Sprachmodell nach Relevanz der Datensätze zur Suchanfrage in einem Graphen angeordnet. Relevantere Datensätzen liegen dabei näher am Mittelpunkt, einander ähnliche Ergebnisse liegen auch im Graphen nahe bei einander. Der Blog geoObserver hat das Tool getestet und ist mit den Suchergebnissen zufrieden.

Eine Artikelserie bei heise beschäftigt sich damit, wie Ontologien in der Medizin die aktuellen KI-Modelle zuverlässiger und sicherer machen können. Der erste Teil zeigt zunächst, wie sich Sprache in der Medizin formalisieren lässt. Im zweiten Teil erfährt man, wie Terminologien aufgebaut sind und algorithmisch angewendet werden können. Im abschließenden Teil werden konkrete Anwendungsbeispiele vorgestellt.

Auf KI-Kompass, dem kostenlosen Vergleichsportal für Large Language Models (LLM), lassen sich rund 40 KI-Sprachmodelle gegenüberstellen. In der LMSYS Chatbot Arena gibt es sogar 71 Sprachmodelle, die gegeneinander antreten können.

Das Kölner Unternehmen DeepL hat ein neues Large Language Model (LLM) für seinen Übersetzungsdienst vorgestellt.

Microsofts KI Aurora kann neben dem Wetter nun auch die Luftverschmutzung vorhersagen und kann so auch als Frühwarnsystem genutzt werden.

(Fehlende) Regeln für KI

Dennoch: “Die Schere zwischen dem rasant wachsenden Einsatz von KI-Systemen und den dafür notwendigen Kompetenzen, Standards und Strukturen geht immer weiter auseinander.”, befindet Anke Domscheit-Berg, nachdem aus einer kleinen Anfrage herausgekommen ist, dass der Bund zwar 2,5 Milliarden Euro für KI-Vorhaben ausgibt, dafür bei Dreiviertel der 212 KI-Anwendungen im Bund Nachhaltigkeitskriterien keinerlei Rolle spielen.

Auch der D64 sieht die Notwendigkeit klarer Regeln für den verantwortungsvollen Einsatz von KI, gerade weil Regelungen wie die gerade am 1. August in Kraft getretene KI-Verordnung (AI Act) noch viel zu viele Leerstellen lassen. Für den Gebrauch von KI-Anwendungen speziell durch die Zivilgesellschaft selbst möchte der Verein deswegen diese diskursiv in seinem Projekt “Code of Conduct Demokratische KI” erarbeiten.

KI - ohne Rücksicht auf Verluste

Im seinem ct-Standpunkt vergleicht Wilhelm Drehling den aktuellen KI-Hype mit der Goldgräberstimmung vor 128 Jahren. Es “profitieren nicht die Goldgräber, sondern die, die Schaufeln verkaufen”. Wurden damals aus purer Gier Wälder abgeholzt und Flüsse verunreinigt, schaden heute unnötige KI-Projekte im großen Maße der Umwelt, indem sie weiter Energie und Wasser verschlingen.

Dabei wird das Wasser auch ganz aus dem Kreislauf gezogen, da es, bevor es zur Kühlung von Datenzentren zum Einsatz kommt, erst noch chemisch behandelt wird, um Korrosion und Bakterienwachstum vorzubeugen.

Ohne Millionen Datenarbeiter:innen würden weder sogenannte Künstliche Intelligenz noch Content-Moderation funktionieren. In einem neuen Projekt erzählen sie ihre Geschichten.

Weitere Opfer des KI-Hypes sind

  • das Urheberrecht (seien es Texte oder Bilder, denn für immer leistungsfähigere und ausgefeiltere Sprachmodelle werden Unmengen an Trainingsdaten benötigt)
  • Persönlichkeitsrechte, so ist nach Meinung des Hamburger Datenschutzbeauftragten, der Einsatz eines KI-Modells, das mit personenbezogenen Daten trainiert wurde, trotzdem rechtmäßig, da LLMs selbst ja keine Daten speichern - also, wie Bianca Kastl ironisch anmerkt, schnell die Ausgangsdaten loswerden und keine Spuren hinterlassen - man könnte das Verfahren analog zur Geldwäsche auch Datenwäsche nennen
  • die IT-Security, wie z.B. bei Angriffen über Prompt Injections

Eine Nature-Studie sagt voraus, dass bald die im Internet frei verfügbaren Inhalte zu schlecht werden, um mit ihnen KI-Modelle trainieren zu können. Denn das Internet wird inzwischen von KIs erzeugten synthetischen Daten geflutet. Damit werden die tatsächlichen Wahrscheinlichkeiten verzerrt, die aus realen, qualitätsgesicherten Daten abgeleitet worden wären.

Datenhandel

Der unkontrollierte Datenhandel der Online-Werbeindustrie stellt eine Gefahr für den Datenschutz von Bürgern als auch für die nationale Sicherheit dar. Nach Recherchen von netzpolitik.org und BR Data haben Datenhändler Standortdaten von Millionen Menschen in Deutschland geteilt. Ein Datensatz mit 3,6 Milliarden Standorten offenbart genaue Bewegungsprofile und eine neue Dimension der kommerziellen Massenüberwachung. Ein laufend aktualisierte Sammlung von Artikeln und Berichte, die zu den Recherchen entstanden sind, findet man hier.

Auch auf einem belgischer Datenmarktplatz standen versehentlich Passdaten von tausenden Menschen unverschlüsselt im Netz.

Xandr, das 2022 von Microsoft aufgekauft wurde, ist neben Google ein Werbegigant, über den viel zu wenig gesprochen wird. Datenschutzbehörden wollten nun deren Praktiken untersuchen, aber Xandr verweigert systematisch die Auskunft nach Datenschutzgrundverordnung (DSGVO). Auf dem Online-Angebot der Neuen Züricher Zeitung (NZZ) kann man inzwischen nicht mehr Xandr als 3rd-Party-Cookie ausstellen.

Aus Daten wie z.B. Browserverlauf, Hardware, Aufenthaltsort, Bonität, bisherige Einkäufe und sogar der Akkustand lässt sich ableiten, welchen Preis man für ein bestimmtes Produkt wohl zu zahlen bereit wäre. Firmen wie Accenture, McKinsey und Mastercard haben entsprechende Datensammlungen und Algorithmen kombiniert und bieten dies als “Surveillance Pricing” an. Händler, die diese Dienstleistung einkaufen, erlangen somit einen Wettbewerbsvorteil gegenüber datenschutzfreundlicherer Konkurrenz, da sie dadurch die Konsumentenrente besser abschöpfen können. Die US-Behörde FTC versucht nun die Anbieter solcher Dienstleistungen zu mehr Transparenz zu verpflichten.

Ein weiteres Problem: der Online-Zahlungsmarkt wird quasi von Paypal beherrscht und auch bei Kreditkarten gibt es mit Mastercard und Visa nur zwei relevante große Anbieter. Und sie alle teilen die Daten, die bei den Zahlungstransaktionen anfallen mit anderen Firmen, damit diese personalisierte Werbeanzeigen schalten können.

Wahlen

Am 1.9. stehen Landtagswahlen sowohl in Sachsen als auch in Thüringen an. Um die Wahlentscheidung zu erleichtern gibt es diverse Wahlhelfer für beide Bundesländer:

Für die Landtagswahlen Brandenburg am 22.9. hat die OSB Alliance mit Wahlprüfsteinen die Standpunkte der Parteien hinsichtlich digitale Souveränität, Open Source und offene Standards abgeklopft.

Wer interaktiv mit den Wahlprogrammen chatten möchte, kommt bei der KI-basierten Lösung Wahlweise auf seine Kosten. In einem zweiten KI-Modus kann man sich alternativ aber auch mit flexiblen Antworten führen lassen.

Auf dem OpenSource-Framework Open Election Compass fußt der Kommunal-o-Mat für Halle an der Saale. In kleinen Workshops mit dem Kinder- und Jugendrat sowie dem Stadtschülerrat wurden Anliegen und Fragen an die Kommunalpolitik gesammelt und diese mit dann erhaltenen Antworten der Parteien in das Tool eingepflegt.

Recap

Zusammenfassungen / Mitschnitte vergangener Veranstaltungen:

Veranstaltungen

Call for participation