Damit auch noch mal hallo von uns in die Runde. Genau, ich bin Zoé. Ich bin Geschäftsführerin und Bildungsreferentin bei CorrelAid. Ich habe selbst vor einigen Jahren CorrelAid als Ehrenamtliche entdeckt, in einem Workshop zum Thema Daten. Als ich mal studiert habe – Politik und Verwaltung – habe ich mich danach sogar entschieden, Data Science zu studieren. Also CorrelAid hat in einem Workshop einen kleinen Unterschied gemacht – zum Thema Daten. Deshalb freue ich mich umso mehr, heute auf der anderen Seite zu sitzen und diesen Workshop heute mit Jonas zusammen zu machen. Jonas, magst du dich kurz selbst vorstellen?
Ja, super. Dankeschön. Und auch hallo von mir. Ja, ich bin Jonas, ich bin jetzt Werkstudent bei CorrelAid und studiere in Chemnitz Soziologie im Master. Es geht um Konfliktlösung und gesellschaftlichen Zusammenhalt. Und ich habe auch ein bisschen mit Daten zu tun und war in ein paar Organisationen unterwegs. Deswegen hoffe ich, dass ich auch ein bisschen was dazu beitragen kann. Ja, genau. Und wie von Selin schon angekündigt: das Thema Datendschungel – und wie ihr am besten mit euren Daten arbeitet und sie organisiert. Und dazu haben wir eine kleine Agenda für euch mitgebracht, für die nächsten dreiviertel Stunde ungefähr.
Wir fangen an mit dem Thema Datenmanagement, mit einer kleinen Einführung, gucken uns an, wieso es dann meistens in Vereinen leider doch häufig im Datenchaos endet und was da für Ursachen sein können. Und dann schauen wir einmal in die Praxis. Also, wir haben einen kleinen Datensatz mitgebracht, wie ihr ihn sicherlich alle kennt, und gucken da einfach mal ganz praktisch rein, wie man sich den in ersten Schritten angucken kann oder auch mit ein paar Excel-Funktionen arbeiten kann. Genau, das ist der Plan.
Wer gestern schon dabei war, kennt vielleicht auch schon die beiden Sachen, die wir sonst mitgebracht haben, nämlich die kleine Toolbox. Manche Slides sind gelb, da findet ihr dann Tools oder heute auch tatsächlich Funktionen, die ihr nutzen könnt, um eure Daten zu bereinigen. Und kleine Hausaufgaben haben wir auch noch mit dabei, wie es einfach weitergehen kann mit dem Thema nach dem Workshop.
Warum sind wir aber eigentlich da? Wir sind CorrelAid. Wir unterstützen euch, wir unterstützen zivilgesellschaftliche Organisationen mit euren Daten. Wir sind dabei eine Community, ein gemeinnütziger Verein aus über 2000 Leuten, die sich in irgendeiner Form für Daten begeistern und z. B. irgendwas zum Thema Daten studieren oder in dem Bereich arbeiten und die nebenher eben ihre Fähigkeiten und ihre Skills einsetzen wollen, die Welt mit Hilfe von Daten ein klein wenig besser zu machen. Dafür haben wir für euch, für Nonprofits, einerseits Bildungskurse und Workshops – so wie heute. Wir haben aber auch ein niedrigschwelliges Sprechstundenformat, wo ihr mit euren Fragen vorbeikommen könnt. Also, wenn ihr beispielsweise einen unsortierten Datensatz habt, könnt ihr da auch einfach gerne mal vorbeischauen. Und etwas größer gedacht haben wir auch Datenprojekte, wo unsere Ehrenamtlichen in kleinen, mehrmonatigen Projekten euch unterstützen, mit euren Daten zu arbeiten. Generell: Schaut gerne mal auf unserer Website vorbei, da findet ihr die ganzen Angebote. Und ansonsten erreicht ihr uns auch immer per E-Mail. Genau. Aber damit direkt ins Thema und damit übergebe ich erst mal an Jonas.
Super. Ja, vielen Dank. Ich hoffe mal, dass bei mir nicht mehr so viele Hintergrundgeräusche sind, aber ich versuche einfach, ein bisschen drüber zu reden und würde mit der Einführung in Datenmanagement ein bisschen anfangen und versuchen, euch zu erklären, warum das vielleicht wichtig ist und was die Nachteile davon sein können, wenn wir das nicht ein bisschen ernster nehmen. Und ja, ich schaue einfach mal, dass wir da einen ersten Überblick drüber haben.
Wenn wir uns jetzt in der nächsten dreiviertel Stunde mit Datenmanagement auseinandersetzen, ist es vielleicht auch mal ganz gut zu klären, was wir überhaupt darunter verstehen oder was man generell darunter versteht. Im Grunde sind das alle Prozesse, die zur Erfassung, Speicherung, Organisation, Sicherung und Nutzung von Daten zählen. Also alles, was uns dabei hilft, dass wir Daten effizient und sicher nutzen können. Aber auch die Aufbewahrung ist natürlich ganz wichtig, und los geht das mit der Erfassung. Im Grunde genommen legen wir Prozesse fest, mit denen wir das Ziel verfolgen, dass wir einmal leicht an unsere Daten rankommen, dass sie zuverlässig sind – also dass sie regelmäßig geupdatet werden – und dass sie gut geschützt sind. Damit nicht alle möglichen Personen von außerhalb oder auch innerhalb unserer Organisation unstrukturiert Zugriff haben, sondern wir eine klare Struktur festlegen, wer worauf Zugriff hat. Das ist eine grobe Erklärung, was wir darunter verstehen, wenn wir uns in den nächsten Minuten darüber unterhalten.
Wie gesagt, es hat natürlich – ich glaube, das liegt auf der Hand – ein paar Vorteile. Spannend wird’s auch gleich, wenn wir uns angucken, was passieren kann, wenn wir das nicht geordnet und sortiert machen. In erster Linie geht es uns mit einem guten Datenmanagement darum, effizient zu arbeiten. Das ist bei ziemlich kleinen Organisationen vielleicht nicht das Wichtigste, aber wenn das mal ein bisschen größer wird oder auch mehr Daten und mehr Personen involviert sind, ist es doch ganz wichtig, dass wir alle ungefähr wissen, wo was ist und wie wir darauf zugreifen können.
Ja, es trägt zur Transparenz bei – vor allem innerhalb unserer Organisation. In den verschiedenen Hierarchien, die es meistens gibt, sollten doch alle ungefähr wissen, wo was liegt und was für Daten das sind. Wenn wir da regelmäßig reingucken und das auf dem neuesten Stand halten, sorgen wir auch dafür, dass wir Fehler minimieren. Z. B. veraltete Einträge, wenn es um alte Mitgliederlisten geht: Leute sind noch drin, die schon lange nicht mehr dort wohnen, wo sie sich angemeldet hatten, oder möglicherweise gar nicht mehr Mitglied sind. Natürlich sollten wir auch gucken, dass nicht ein und dieselbe Person zwei- oder dreimal vorkommt. Deswegen schauen wir da immer mal wieder rein.
Der Datenschutz und die Rechtssicherheit spielen natürlich eine immer größere Rolle: sich an die DSGVO – die Datenschutz-Grundverordnung – zu halten, ist vor allem für die Speicherung der Daten entscheidend. Gerade in Bereichen, wo es viel um personenbezogene Daten geht, müssen wir uns rechtlich absichern und natürlich auch die betroffenen Personen schützen. Daten und Datenmanagement helfen uns grundsätzlich dabei, gute oder hoffentlich bessere Entscheidungen zu treffen als ohne. Wenn wir unsere Vereinsstrategie in einen groben Rahmen bringen wollen, hilft es, in unsere Daten zu schauen und sie zu nutzen – idealerweise aktuelle und nicht veraltete Daten.
Wichtig ist auch, sich anzuschauen, was passiert, wenn wir ein eher schlechtes Datenmanagement haben oder sogar gar keins. Das ist natürlich nicht so cool. Man kennt das vielleicht vom eigenen Rechner – mit mehreren Personen wird es noch unübersichtlicher. Irgendwann ergibt sich pures Chaos: Wir wissen nicht mehr, wo was liegt, wie wir es finden oder wonach wir überhaupt suchen müssen. Das ist in Organisations- oder Vereinsstrukturen natürlich semioptimal.
Wie schon angesprochen: doppelte oder veraltete Einträge führen zu Fehlern. Wenn wir unsere Mitgliederdaten nicht aktuell haben und die Mitgliederzahlen scheinbar steigen, wir uns aber nicht anschauen, wer austritt, und dann nach ein paar Jahren sagen, wir haben so und so viele Mitglieder – dabei ist die Hälfte gar nicht mehr dabei – dann ist das fehlerhaft und sollte nicht passieren.
Innerhalb von Datensätzen oder Tabellen – das schauen wir uns gleich noch an – ist die Formatierung ganz wichtig. Wenn wir etwas suchen wollen und es hat fünf verschiedene Schreibweisen, ist es schwer, das Richtige zu finden. Deswegen ist es gut, sich vorher für die eigene Organisation Standards, Regeln oder Normen festzulegen, wie wir Formate ablegen wollen.
Wenn wir Verantwortlichkeiten nicht geklärt haben oder veraltete Daten haben, kann es auch zu Datenlücken kommen. Uns fehlen nach einer gewissen Zeit viele und teilweise wichtige Informationen – was in der Arbeit schwierig ist, gerade bei Kontaktdaten. Wie wollen wir unsere Leute erreichen, wenn wir gar nicht mehr wissen, wie die Mailadresse oder die Anschrift der Person ist? Deswegen ist es superwichtig, dass wir da regelmäßig reingucken. Um noch mal das Thema Rechtsschutz und Rechtssicherheit aufzugreifen: Wenn wir in unserer Organisation nicht festgelegt haben, wer wofür verantwortlich ist, ist das schwierig. Wenn Daten fehlen oder verändert werden und wir gar nicht wissen, wer worauf zugreift oder was verändert hat, ist es schwer, Prozesse zu kontrollieren und zu strukturieren. Das ist auf jeden Fall eine Hürde, die man nicht vernachlässigen sollte.
Ich würde im zweiten Teil auf das – ich nenne es mal – Negativbeispiel „Datenchaos“ eingehen und die Ursachen davon anschauen, damit wir einen groben Überblick bekommen: Was können Gründe dafür sein, dass bei uns alles etwas uneinheitlich oder chaotisch abläuft? Ich würde da ein paar gängige, häufige Ursachen besprechen.
Der erste Punkt ist das System, wo und wie wir Daten generell abspeichern. Das haben wir auch gestern besprochen, ist aber heute auch relevant, weil jede Person Daten ein bisschen anders speichert. Für Vereine gilt das genauso. Manche Daten haben wir in der Cloud, andere liegen lokal oder auf einem USB-Stick. Das ist schwierig, wenn wir mit möglichst vielen verschiedenen Systemen arbeiten. Es ist gut, wenn wir ein einheitliches System haben und eine Ordnerstruktur sowie die Benennung der Dateien vereinheitlichen – damit die Suche leichter ist und wir alle ungefähr wissen, wonach wir gucken müssen. Wir wollen nicht immer bei einzelnen Personen nachfragen müssen: Unter welchem Namen hast du die Tabelle abgespeichert – und wo überhaupt? Das sollte nicht sein.
Das Thema Verantwortlichkeiten habe ich eben schon angesprochen. Es ist schwierig, wenn keine Person faktisch verantwortlich ist oder sich verantwortlich fühlt. Wenn mal irgendwas mit unseren Daten passieren sollte und sich Mitglieder melden, wir aber nicht wissen, wer in unserer Organisation überhaupt verantwortlich ist, wen wir fragen können oder müssen – dann ist das problematisch. Wenn es keine Personen gibt, die sich verantwortlich fühlen, erhöht das die Wahrscheinlichkeit, dass fehlerhafte, veraltete oder doppelte Daten unbemerkt bleiben – was das ganze Chaos mitbedingt.
Wichtig ist eine Datenpflege, die im Idealfall regelmäßig stattfindet. Wenn das nicht passiert – durch eine verantwortliche Person oder mehrere, es muss ja nicht immer eine Person alleine sein –, entsteht ein unkontrolliertes Datenwachstum, das man bis zu einem gewissen Teil vermeiden möchte. Wir wollen Überblick und Kontrolle über die Daten behalten. Veraltete Einträge, die nicht gelöscht oder aktualisiert werden, spielen dabei eine große Rolle.
Wenn wir uns anschauen, wie so etwas noch weiter entsteht, kommen wir um das Thema Regeln und Standards nicht herum. Es ist superwichtig, dass wir für uns und unsere Mitarbeitenden oder Freiwilligen klare Regeln festlegen, die für alle einheitlich gelten, damit die Daten konsistent genutzt und nutzbar sind. Da geht es um Schreibweisen von Namen oder Adressen. Wenn die uneinheitlich sind, gibt das Chaos. Unterschiedliche Datumsformate – je nach Sprache und manchmal abhängig vom verwendeten Programm – sind ein Klassiker. Wenn das jedes Mal anders ist, wird es lästig. Das kennen viele von euch. Gleiches gilt für Telefonnummern und Kontaktdaten. Am besten einigt man sich auf ein Format. Im Grunde gilt: Wenn man ein Format hat und es einheitlich verwendet, gibt es kein „richtig“ oder „falsch“. Ob bei Telefonnummern mit +49 oder mit 0 vorne – entscheidend ist Einheitlichkeit und Klarheit. Und auch bei Begrifflichkeiten für Informationen: Wenn alle den gleichen Begriff für dieselbe Sache verwenden, ist das leichter, weil klar ist, dass wir über dasselbe sprechen.
Das sind Fehlermöglichkeiten, die es gibt – etwas strukturell bedingt und, wenn sie sich eingeschlichen haben, schwerer zu beheben. Wir haben hier noch ein paar alltägliche Fehler. Fehler können passieren und sind grundsätzlich nicht schlecht. Wir sind alle nur Menschen und da gehören Fehler dazu. Wenn wir wissen, woher sie kommen, hilft uns das im Umgang damit. In der alltäglichen Arbeit – viel wird abends nach der Arbeit geleistet, wo man vielleicht nicht mehr bei 100% ist – passieren Tippfehler oder Copy-Paste-Fehler. Das kann passieren. Da hilft es, wenn noch mal eine zweite Person drüberguckt.
Falsche Formatierung schauen wir uns gleich noch an. Häufig betrifft das Kontaktdaten. Bei sehr großen Datensätzen verliert man sonst Informationen, vergisst Leute – oder es ist schlicht nervig, wenn man nicht weiß, welches Format für Datum oder Telefonnummern gilt und viermal suchen muss, ob man alle Leute erreicht hat. Fehlendes Wissen ist auch ein Thema – genau da setzt dieser Workshop an: Sensibilisierung und praktische Aspekte. Für viele ist nicht so bekannt, welche Möglichkeiten es gibt, um Daten zusammenzuhalten, zu filtern und welche Funktionen man verwenden kann. Das versuchen wir heute anzugehen. Grundsätzlich ist das Thema Daten und Datenqualität etwas, das uns bei Coral Aid am Herzen liegt – dass man ein organisationsübergreifendes Verständnis dafür hat. Es hilft, sich eine kleine Strategie zurechtzulegen. Das sind alltägliche Fehler, die sich einschleichen und die wir vermeiden wollen.
Wie kann man das vermeiden? Es gibt verschiedene Möglichkeiten. Was wir heute machen, würde ich unter Schulung/Workshop packen – Sensibilisierung und praktische Umsetzung: Wie unsere Mitgliederliste z. B. gut aussieht und wir den Überblick behalten. Klare Regeln – das habe ich schon erwähnt – helfen der ganzen Organisation und den Menschen, deren Daten wir verwalten. Wichtig ist, dass wir uns auf eine Strategie festlegen, diese gemeinsam definieren, Input von allen einholen – und dann den definierten Regeln auch folgen. Sonst bringen Regeln nichts.
Was bei größeren Datenmengen hilfreich ist, sind Automatisierungspotenziale oder -möglichkeiten, die es in Excel gibt – z. B. Regeln/Funktionen –, die uns helfen, Fehler zu vermeiden. Man muss sich zuerst in diese Regeln eindenken, sie dokumentieren und sich mit den Daten intensiv beschäftigen. Aber wenn das sitzt und die Regeln festgelegt sind, ist Automatisierung sehr hilfreich, um Fehler zu vermeiden.
Wir werden uns gleich Excel und ein paar Regeln anschauen. Es gibt natürlich nicht nur Excel, sondern auch Google Sheets oder von LibreOffice das Kalkulationstool. AirTable, Smartsheet oder OnlyOffice sind im Endeffekt auch Tabellenprogramme, die aber noch eine systematische Einbettung ermöglichen. Wenn ihr die Folien bekommt, sind die Links hinterlegt. Hier an der Seite: RStudio. Das ist eher etwas für fortgeschrittene Nutzerinnen, die sich mit Datenanalyse auskennen. Es wird häufig in der Wissenschaft verwendet. Vielleicht etwas weniger geeignet für den alltäglichen Vereinsgebrauch der Mitgliederverwaltung. Aber wenn man Daten auswerten möchte, geht das damit gut.
Wir haben neben den Tools noch eine kleine Übung/Hausaufgabe. Wir werden die nicht einsammeln oder kontrollieren, sondern wollen euch Input für nach dem Workshop geben, damit das hier nicht verpufft, sondern für eure Organisation nachhaltig wirkt. Es geht darum, dass ihr in eurer Organisation die aktuelle Datenlage reflektiert, gerne aufschreibt, inwiefern ihr mit Daten arbeitet, welche positiven Folgen es hat oder wo Nachteile/Risiken durch ein ausbaufähiges Datenmanagement liegen. Das könnt ihr auf einen konkreten Bereich runterbrechen, euch mit Fehlerquellen beschäftigen und Ideen sammeln, was sich verbessern lässt. Das wären Gedankengänge für zu Hause.
Damit würde ich meine Freigabe stoppen und an Soe übergeben. Ihr müsst mir eine Sekunde geben, bis ich meinen Bildschirm geteilt habe. So, ich glaube, jetzt hat es geklappt und ihr seht meine Folien. Genau. Wir machen da weiter mit sauberen Daten in der Praxis.
Bevor ich eine Folie weitergehe und wir gleich wirklich in die Daten gucken: Was sind denn eigentlich saubere Daten, über die wir die ganze Zeit reden? Wir haben fünf Merkmale mitgebracht, die trivial klingen, aber es hilft, sie sich vorab in Erinnerung zu rufen.
Gute Datenqualität bedeutet:
- korrekte Daten – keine Fehler in den Daten. Beispiel: Eine Person tritt dem Verein 2015 bei, dann sollte da 2015 stehen und nicht 2017. Es gibt auch offensichtliche Fehler, die sich einschleichen, z. B. wenn in einem Datensatz plötzlich steht, dass eine Person dem Verein 2030 beigetreten ist – was offensichtlich nicht sein kann. 2015 vs. 2017 ist weniger auffällig. Schaut also, dass eure Daten korrekt sind.
- vollständige Daten – wenn ihr z. B. einen Mitgliedsdatensatz habt, wollt ihr, dass alle relevanten Daten drinstehen und nicht Informationen fehlen. Fehlen z. B. die Hälfte der E-Mails, ist das ungünstig.
- konsistente Daten – das ist einfach, wenn ihr nur eine Tabelle habt, in der jedes Mitglied einmal vorkommt. Wenn ihr mehrere Dateien/Tabellen habt (eine mit E-Mails, eine mit Telefonnummern), kann es sein, dass der Name mal falsch geschrieben ist – „Müller“ einmal mit Ü, einmal mit UE. Achtet auf Konsistenz zwischen Tabellen.
- aktuelle Daten – bleibt bei der Mitgliedertabelle: Tritt ein neues Mitglied bei, tragt es ein. Haltet die Daten auf dem neuesten Stand; Aktualisierung ist ein Prozess.
- einheitliche Daten – vor allem bei Formaten. Klassisches Beispiel: Datumsangaben können in vielen Varianten angegeben werden. Achtet auf ein einheitliches Format, zumindest innerhalb einer Tabelle.
Also: saubere Daten sind korrekt, vollständig, konsistent, aktuell und einheitlich.
Schauen wir uns das genauer in der Praxis an. Ich habe die ganze Zeit über Mitgliederdaten gesprochen. Dafür haben wir gleich einen Beispieldatensatz dabei, der hoffentlich nicht ganz so schlimm aussieht wie bei euch. Er ist ein bisschen chaotisch geraten, und wir versuchen, ihn gemeinsam aufzuräumen.
Dazu haben wir ein paar Schritte mitgebracht:
- Als Allererstes: den Datensatz verstehen. Das ist meist einfach, wenn es euer eigener Datensatz ist oder etwas Klare(s) wie ein Mitgliedsdatensatz. Bei komplexeren Daten – gerade wenn sie von anderen aus eurem Verein kommen – kann es komplexer werden. Also: Guckt zuerst, was steht im Datensatz?
- Schritt 1: Dubletten finden. Habt ihr doppelte Einträge? Könnt ihr die entfernen? Sind es wirklich doppelte Einträge oder heißen einfach zwei Personen gleich?
- Einheitliche Schreibweisen herstellen: „Müller“ mit Ü, mit UE und Co.
- Fehlende Daten: Fehlen E-Mail-Adressen, Telefonnummern etc.? Versucht sie aufzufüllen. Gibt es die Informationen irgendwo, nur nicht im Datensatz – oder habt ihr sie tatsächlich gar nicht und müsst sie erst in Erfahrung bringen?
Das sind die Schritte, die wir uns gleich angucken wollen. Ich springe jetzt in den Datensatz. Wenn Dinge zu schnell gehen: nicht wundern und keine Panik. Ihr bekommt die Folien im Nachgang, und da haben wir die Schritte auch auf den Folien, die ihr euch noch mal angucken könnt. Ich zeige sie jetzt nicht, sondern springe direkt in den Datensatz.
Hier seht ihr den fiktiven Beispieldatensatz – keine echten Daten, keine Sorge. Erst mal kurzer Hinweis noch auf gestern: Da hatten wir viel über Dateibenennungen. Hier seht ihr, wie wir ihn benannt haben, damit von vornherein klar ist, worum es in diesem Datensatz geht.
Schritt eins: Wir verstehen, was drinsteht. Der Name ist schon selbsterklärend, aber gucken wir genauer rein. Welche Datenstruktur haben wir? In den Spalten stehen unsere Variablen: der Name unserer Mitglieder, die Adresse, Kontaktdaten, das Geburtsdatum, das Beitrittsdatum und der Status (aktiv/inaktiv). Vorn die Mitgliedsnummer ist eine laufende Nummer. Es ist kein riesiger Datensatz – in dem Fall 70 Einträge, also überschaubar. Zum Zeigen und Anpassen aber gut.
Wir haben die Variablen (Spalten), die Beobachtungen (Zeilen) – jede Zeile entspricht einer Person/einem Mitglied – und in den Zellen stehen die Werte. Normalerweise soll genau eine Information in einer Zelle stehen. Das funktioniert bei Vorname/Nachname gut – getrennte Zellen. Weniger glücklich ist es bei der Straße: Das könnte man in Straße und Hausnummer aufteilen, sodass nur eine Information pro Spalte steht. Für Analysen hilft es sehr, wenn nicht mehrere Informationen in einer Spalte stehen. Ihr findet auch schneller heraus, ob eine Information fehlt – dann ist die Zelle leer.
Ihr habt jetzt lange genug auf den Datensatz geschaut, um einen groben Überblick zu haben. Meine Frage an euch für den Chat: Seht ihr direkt Probleme mit dem Datensatz, weshalb er chaotisch ist? Was sollte man sich angucken, überarbeiten, wo ist Datenbereinigung notwendig? Gerne in den Chat schreiben, was euch ins Auge springt, was ihr direkt angehen würdet.
Ja, ich sehe: Umlaute, Rechtschreibung, Telefonnummern, Dubletten. Guter Blick! Wir haben doppelte Namen, Groß- und Kleinschreibung, Telefonnummern in unterschiedlichen Formaten, leere Zellen, fehlende Werte. Perfekt.
Wir haben versucht, uns einen Überblick zu verschaffen, welche Probleme dieser Datensatz hat – kein Anspruch auf Vollständigkeit. Ich habe mal bunt markiert: Rot sind fehlende Werte – hoffentlich sind eure Datensätze nicht so leer. Weniger offensichtlich, lila markiert, bei den Straßen: Es fehlen bei zwei Straßen die Hausnummern – schwieriger zu entdecken. Dann diese „Error“-Geschichten: fehlerhafte Formeln bzw. Inhalte, die vom Tool als Formel interpretiert werden. Dubletten: Wir haben zwei Personen, die zweimal drin sind. Max Müller ist identisch, nur der Status unterscheidet sich (einmal aktiv, einmal inaktiv). Gleiches bei Lisa Weber – einmal aktiv, einmal inaktiv. Uneinheitliche Schreibweisen, z. B. bei Telefonnummern: mal mit Leerzeichen, mal mit Bindestrich, mal mit Slash; könnte auch mit +49 statt 0 stehen – viel Uneinheitlichkeit.
Was hier tatsächlich sehr schön ist – was sonst oft durcheinanderläuft – sind Datumsformate. Gerade in Excel/Google Sheets werden Zahlen gern zu Daten oder umgekehrt. Achtet drauf, dass ihr das richtig interpretiert.
Soweit zu den Problemen. Wenn ihr mit Daten arbeitet, verschafft euch einen Überblick und guckt, was Probleme sein könnten – hoffentlich nicht so viele wie hier.
Ein paar Sachen schauen wir uns an, was man dagegen tun könnte. Ich bin hier in Google Sheets unterwegs. Wir haben auf den Slides auch Erklärungen für Excel. Es ist meist ähnlich in den Tools – nehmt es als Inspiration.
Zuerst die Dubletten: doppelte Mitgliedseinträge. Wir haben festgestellt, der Status ist zufällig. Was aber auf jeden Fall übereinstimmen muss, wenn es die gleichen Mitglieder sind, sind die personenbezogenen Daten wie Geburtsdatum, Adresse usw. Das heißt, wir markieren die relevanten Spalten, klicken auf Daten > Datenbereinigung > Duplikate entfernen. Dann werden wir gefragt, ob wir etwas anpassen wollen – wollen wir nicht – und entfernen Dubletten. Es wurden zwei doppelte Zeilen gefunden und entfernt. Das ist eine Möglichkeit, Dubletten loszuwerden. Bei 70 Zeilen ginge das noch manuell; je länger euer Datensatz, desto weniger wollt ihr das manuell machen.
Einheitliche Schreibweisen: Groß- und Kleinschreibung. In den Nachnamen ist mal etwas klein, mal alles groß – nicht einheitlich. Das können wir einfach beheben, indem wir eine neue Spalte anlegen und mit einer Funktion arbeiten (z. B. PROPER/TEXT.KLEIN etc.). Eingeben, Zelle referenzieren, runterziehen bzw. für die komplette Spalte anwenden: erster Buchstabe groß, Rest klein.
Umlaute: „Müller“ mit Ü/UE – überhaupt nicht einheitlich. Hier funktioniert „Suchen und Ersetzen“ sehr gut (Strg/Cmd+F oder Bearbeiten > Suchen und Ersetzen). Sucht „Ü“, ersetzt durch „UE“, achtet auf Groß-/Kleinschreibung, wählt den Bereich, ersetzen – fertig. Geht natürlich auch andersrum. So könnt ihr schnell Umlaute vereinheitlichen. Generell ist „Suchen und Ersetzen“ eine sehr hilfreiche Funktion.
Straßen: Es ist kein sauberes Format, wenn Straße und Hausnummer in einer Zelle stehen. Ein „tidy“ Datensatz hätte separate Spalten – eine für Straße, eine für Hausnummer. Das macht Probleme (fehlende Hausnummern) leichter sichtbar. In Google Sheets: Bereich markieren > Daten > Text in Spalten aufteilen > Trennzeichen wählen (z. B. Leerzeichen oder benutzerdefiniert). Dann teilt ihr in Straße und Hausnummer – fehlende Werte fallen schneller auf.
Fehlende Daten finden: Wenn ihr nur die Übersicht wollt, wo eine Zelle leer ist, könnt ihr filtern – z. B. in der Spalte „Straße“ nur „(Leer)“ anzeigen lassen. Manchmal wollt ihr fehlende Werte nur farblich hervorheben: Markiert den Datenbereich, Rechtsklick > Weitere Aktionen > Bedingte Formatierung. Regel „Zelle ist leer“, Farbe wählen – und alle leeren Zellen sind markiert. Bedingte Formatierung ist generell sehr hilfreich: z. B. in Finanzplänen 0,00 € ausgrauen, Datumsbereiche hervorheben usw.
Pivottabellen: super einfach. Einfügen > Pivottabelle > Datenbereich auswählen (z. B. die ganze Tabelle) > einfügen. Dann z. B. „Status“ in die Zeilen und als Wert die Anzahl – zack, Auswertung, wie viele Mitglieder aktiv/inaktiv sind, inklusive leerer Felder.
Das war ein kurzer Überblick, was mit Excel/Sheets geht, um schnell Dinge zu sehen und aufzuräumen. Wenn das schnell ging, kein Stress – ihr findet alles im Anschluss in den Folien. Da sind auch zwei Slides zum Thema „Daten vereinheitlichen“ in Excel (bzw. ähnlichen Tools). Die Funktionen können anders heißen, aber ihr habt eine Übersicht, mit welchen Funktionen ihr Dinge bereinigen und umschichten könnt.
Zweite Toolbox – ebenfalls in den Slides. Eure Hausaufgabe: Sehen hilft, aber Üben hilft mehr. Probiert es selbst mit einem kleinen, übersichtlichen Datensatz aus – nicht zu viele Zeilen/Spalten. So könnt ihr nachvollziehen, ob eure Funktion funktioniert oder Fehler hat. Startet z. B. mit einer Mitglieder- oder Teilnehmendenliste und räumt mit ein paar Funktionen durch oder analysiert, ob es Probleme gibt. Spielt mit bedingter Formatierung und Co. Dokumentiert eure Schritte, damit andere nachvollziehen können, was ihr gemacht habt.
Ein kleiner wilder Ritt durch die Möglichkeiten des Datenaufräumens. Was solltet ihr mitnehmen?
- Prüft eure Daten im ersten Schritt: Versteht, was die Daten aussagen. Es gibt wilde Beispiele, wie Gensequenzen plötzlich zu Datumsformaten wurden. Versteht, was da stehen soll und was tatsächlich steht.
- Schaut nach Duplikaten. Nutzt „Suchen und Ersetzen“ für Umlaute, Textfunktionen etc. Korrigiert und vereinheitlicht, denn nur mit aufgeräumten Daten lässt sich weiterarbeiten.
- Einheitlichkeit ist zentral: bei Dateibenennungen, Formatierungen (z. B. Datumsformate), ggf. auch mit Dropdown-Menüs. Die besten Daten sind die, die ihr gar nicht mehr bereinigen müsst – weil sie schon bei der Eingabe sauber sind (z. B. nur Zahlen erlauben, Datumspflichtfelder).
- Struktur schafft Auswertbarkeit: logische Struktur, ein Wert pro Zelle, sinnvolle Sortierungen (z. B. nach Beitrittsdatum oder Status) – mit wenigen Klicks große Erleichterungen.
Wir haben auch eine kleine Checkliste für eure nächsten Schritte:
- Überprüft eure Daten regelmäßig, haltet sie aktuell.
- Sucht nach Fehlern und Dubletten.
- Wenn ihr fehlende Daten findet, beschafft sie – entweder liegen sie irgendwo vor, oder ihr müsst sie recherchieren.
- Achtet auf einheitliche Schreibweisen (Namen, Adressen, Telefonnummern).
- Markiert leere Felder, denn auch fehlende Werte können etwas aussagen, wenn sie systematisch auftreten.
- Fangt Eingabefehler direkt ab (z. B. bei Feedback-Umfragen mit Validierungen).
- Sichert eure Daten regelmäßig (Backups) und achtet auf Löschfristen.
Achtet auf Standards bei der Datenerfassung und überlegt gemeinsam im Team, welche Formate Sinn ergeben. Habt ihr intern standardisiert, wie ihr Dateien benennt, wie ihr Daten sortiert? Gibt es eine Regel, dass Felder, die in Datentabellen eingegeben werden, eine bestimmte Farbe haben? Legt gerne einen kleinen Styleguide fest, wie ihr mit Datentabellen umgeht, damit es eine Struktur gibt, die alle nutzen können.