Skip to content

2) Extrahieren strukturierter Informationen aus TXT Dateien

a) TXT_replaceWORDwithREGEX.py

  • Trennzeichen nach “regular expression” in Text einfügen
  • Vorbereitung des Texts für Aufteilung in einzelne Abschnitte

b) TXT_splitUPPERCASE.py

  • Identifizierung von Personeneinträgen durch Großschreibung der Namen

c) UniversityRecordsMainz_identifyPLACEofORIGIN.py

d) TransferPROFData

  • Übertragung der semi-strukturierten Textdaten, die via OCR aus den mit Schreibmaschine erstellten Mainzer Universitätsmatrikeln extrahiert wurden
  • Aufteilen der Information in Name, Information und Quellenangabe
  • Weitere Verfeinerung der Eintrage durch Abgleichen der “Information” mit Ontologielisten
  • Identifikation von Ereignisbezeichnungen, Titeln, Funktionen, Ortsnamen und Daten

drawing

Der folgende Blogpost beschreibt die Verwendung einiger oben genannter Skripte im Arbeitspaket “Kurmainz”:

Monika Barget, “Disambiguating people and places in dirty historical data,” in INSULAE, last updated 26/10/2021