2) Extrahieren strukturierter Informationen aus TXT Dateien

a) TXT_replaceWORDwithREGEX.py

  • Trennzeichen nach “regular expression” in Text einfügen
  • Vorbereitung des Texts für Aufteilung in einzelne Abschnitte

b) TXT_splitUPPERCASE.py

  • Identifizierung von Personeneinträgen durch Großschreibung der Namen

c) UniversityRecordsMainz_identifyPLACEofORIGIN.py

d) TransferPROFData

  • Übertragung der semi-strukturierten Textdaten, die via OCR aus den mit Schreibmaschine erstellten Mainzer Universitätsmatrikeln extrahiert wurden
  • Aufteilen der Information in Name, Information und Quellenangabe
  • Weitere Verfeinerung der Eintrage durch Abgleichen der “Information” mit Ontologielisten
  • Identifikation von Ereignisbezeichnungen, Titeln, Funktionen, Ortsnamen und Daten