Datenabruf aus mehreren CSV-/EXCEL-Tabellen
a) Einfache Abfrage gleichnamiger Tabellenspalten aus mehreren EXCEL-Dateien:
XLSX_analysing-multiple-files.py
Anwendungsfälle:
- Identifikation von Zeitverläufen in Datensätzen
- Datenvergleich
- Datenbereinigung und Datennormalisierung
Output-Beispiel für das obige Skript:
XLSX_multiple-files_sample-output.md
b) Skript für die Identifikation biographischer Ereignisse pro Person und ihre Sortierung nach Ereignis-Wert und Zeit:
XLSX_select-and-sort-events.py
Anwendungsfälle:
- experimentelle Rekonstruktion biographischer Abfolgen in Fällen, in denen viele Lebensereignissen keine oder nur vage Datierungen haben
- Errechnung möglicher Ereigniszeiträume auf Basis vorausgehender oder nachfolgender Ereignisse
- Zusammenführung identischer Ereignisse / Anpassung von Ereigniszeiträumen auf der Grundlage von Informationen aus verschiedenen Quellen
Die derzeitige Sortierung der Daten im Skript ist vier-stufig und beginnt mit der Ereignisklassifikation. Dies kann entsprechend im Code geändert werden.
res_sorted=res_df.sort_values(by =['event_value','event_after-date','event_start','event_before-date',])
c) Relationship Tracer:
Anwendungsfälle:
- Konsolidierung genealogischer Informationen aus der Spalte
rel_pers
in Factoid-Listen - Rekonstruktion von Geschwisterbeziehungen basierend auf bekannten Eltern-Kind-Verbindungen
- Rekonstruktion von impliziten Großeltern-Enkel-Beziehungen
d) Erweitertes Script zur Abfrage mehrerer Tabellenspalten aus mehreren EXCEL Dateien
Abfrage von ODER Bedingungen: XSLX_multiple-conditions_OR.py
- Aus dem Standard-Ordner
DigiKAR_DATEN\\Python\\InputLists
werden alle dort abgelegten EXCEL-Dateien (in Factoid-Struktur) in einen gemeinsamen Dataframe gelesen. - User kann für Personenname, Datum, Institution, Titel, Funktion und “related person” (Erweiterung auf andere Spalten jederzeit möglich) einen oder mehrere Suchbegriffe / Zeitangaben mit Komma getrennt eingeben.
- User kann wählen, ob nach konkreten Daten, Zeitraum oder “before” / “after” gesucht wird.
- Skript analysiert zuerst die Zeit und erstellt aus allen Matches im passenden Zeitraum einen neuen Dateframe, auf den via “numpy condition list” die übrigen Bedingungen angewandt werden. Je nach Condition-List-Operator werden die Bedingungen für die einzelnen Zellen mit “UND” oder mit “ODER” verbunden. Das Skript auf GITHUB behandelt nur “ODER”. Im GUI soll es dann eine Auswahlmöglichkeit geben.
- Ergebnisse werden in eine neue Datei geschrieben, deren Name der User frei wählen kann und die auf DigiKAR_DATEN\Python\Results abgelegt wird.
- Das Zeit-Management verarbeitet sowohl “YYYY” als auch “YYYY-MM” und “YYYY-MM-DD” Eingaben verarbeitet, und das Skript berücksichtigt z.B. bei der Suche nach “before” und “after” auch die entsprechenden “before” und “after” Spalten.
Anwendungsfälle:
- Beispiel für die Erstellung komplexerer boolescher Abfragen über mehrere Tabellenkalkulationen hinweg
- Anpassung an verschiedene Tabellenformate möglich
- Experimentieren mit dem Parsen von Zeitangaben und potenziellen Problemen, die durch frühneuzeitliche Datumsangaben entstehen