2) Extrahieren strukturierter Informationen aus TXT Dateien
a) TXT_replaceWORDwithREGEX.py
- Trennzeichen nach “regular expression” in Text einfügen
- Vorbereitung des Texts für Aufteilung in einzelne Abschnitte
- Identifizierung von Personeneinträgen durch Großschreibung der Namen
c) UniversityRecordsMainz_identifyPLACEofORIGIN.py
- Identifizierung der Herkunftsorte aufgrund der Tokenposition im Text
- Beispielergebnis des Skripts für die Mainzer Universitätsmatrikel: UniversityRecordsMainz_output_place-names.txt
- Übertragung der semi-strukturierten Textdaten, die via OCR aus den mit Schreibmaschine erstellten Mainzer Universitätsmatrikeln extrahiert wurden
- Aufteilen der Information in Name, Information und Quellenangabe
- Weitere Verfeinerung der Eintrage durch Abgleichen der “Information” mit Ontologielisten
- Identifikation von Ereignisbezeichnungen, Titeln, Funktionen, Ortsnamen und Daten
Der folgende Blogpost beschreibt die Verwendung einiger oben genannter Skripte im Arbeitspaket “Kurmainz”: