Sessions

Einführungsvortrag zu theoretischen Grundlagen und Begriffen | Georg Marko | Mo 9:30-11:00

Diese Veranstaltung führt überblicksweise in die theoretischen Grundlagen, die praktischen Umsetzungen und die direkten und indirekten Anwendungen der computergestützten Analyse von elektronischen Textsammlungen (= Korpuslinguistik) ein. Dabei beschäftigt sich die Vorlesung auch mit fundamentalen Fragen wie: Was ist die Beziehung zwischen Sprache und Information/Inhalt und zwischen Sprache und Weltsicht? Was sind sprachliche Muster, wie können wir sie definieren und in Texten identifizieren, und was können sie uns über die zuerst genannten Beziehungen sagen? Welche Typen von Texten gibt es und inwiefern sind jene durch solche sprachlichen Muster charakterisiert und wie können wir Typen mit korpuslinguistischen Mitteln finden? Wie können wir selbst Korpora zusammenstellen und wie können wir jene mit Information anreichern (= annotieren), um auch komplexere Muster aufzuspüren? (Um nur ein paar solche Fragen zu nennen.

Einführung und praktische Übungen mit Python | Gerlinde Schneider, Tobias Schrank, Gunter Vasold | Mo 11:15-12:30, 14:00-15:30, 16:00-17:30

Vorverarbeitung von Text: Tokenisierung, Lemmatisierung, POS-Tagging | Tobias Schrank | Di 9:00-10:30

Zu den grundlegenden Techniken bei der Verarbeitung von geschriebenen Texten zählen unter anderem die Tokenisierung – die Zerlegung von Text in Konstituenten wie Sätze und Wörter --, das automatische Auszeichnen mit Parts-of-Speech-Tags und die Lemmatisierung -- die Identifikation der Grundform von flektierten Wörtern. Sie sind Grundbedingung für viele Methoden der Textanalyse. Es werden Programmierkenntnisse (Umgang mit bestehenden und eigenen Textressourcen, Reguläre Ausdrücke, ...) und Softwarepakete (nltk, re, ...) eingeführt, die es erlauben, diese Verarbeitungsschritte zu bewerkstelligen.

Vorverarbeitung von Text: von NLP-Output zu Bag-of-Words und Features | Ulrike Henny-Krahmer| Di 11:00-12:30

Viele Text Mining-Methoden operieren nicht auf einer vollständigen digitalen Repräsentation eines Textes in seiner ursprünglichen Sprachfassung, sondern auf weiter vorbereiteten oder formalisierten Darstellungen von Text. Gerade wenn den Text Mining-Verfahren selbst keine linguistische Analyse zugrunde liegt, kann je nach Textgrundlage, Frage- und Zielstellung eine Vorverarbeitung des Textes mit Hilfe computerlinguistischer Werkzeuge nützlich sein (z.B. Tokenisierung, PoS-Tagging, Lemmatisierung). Außerdem kann es vor der Anwendung statistischer Verfahren erforderlich sein, den Text in eine numerische Darstellung wie dem Bag-of-words-Modell zu überführen, bei dem Wortvorkommen für jeden Text gezählt werden. In dieser Session soll mit Hilfe des Python-Moduls pandas praktisch geübt werden, wie Texte für eine weitere Analyse mit Text Mining-Verfahren (z.B. Clustering, Klassifikation) vorbereitet werden können.

Clustering von Texten| Ulrike Henny-Krahmer| Di 14:00-15:30

Clustering ist eine Text Mining-Methode, die dem unüberwachten Maschinellen Lernen zuzuordnen ist: auf der Grundlage des Textmaterials werden verschiedene Texte automatisch unterschiedlichen Gruppen zugeordnet, indem ermittelt wird, welche Texte sich besonders ähnlich sind und welche sich stärker voneinander unterscheiden. In den DH wird dieses Verfahren z.B. für die Autorschaftsattribution eingesetzt. Inhalt dieser Session ist neben einem Überblick über Clustering als Verfahren für Textanalyse der praktische Umgang mit Clustering-Algorithmen, wie sie im Python-Modul scikit-learn über einfache Schnittstellen zur Verfügung gestellt werden.

Klassifikation von Texten| Ulrike Henny-Krahmer| Di 16:00-17:30

Wie Clustering ist auch Klassifikation ein Verfahren des Maschinellen Lernens, mit dem Unterschied, dass die Gruppenzugehörigkeit der Texte z.B. zu Autoren, literarischen Gattungen/Textsorten, Epochen, usw. für einen Teil der Texte bereits bekannt ist. Auf der Grundlage der bekannten Zuordnungen kann gelernt werden, welche Texteigenschaften für die Gruppen(„Klassen“)-Zugehörigkeit wesentlich sind. Es wird ein Modell trainiert, das anschließend auf neue Texte angewandt werden kann, bei denen die Zugehörigkeit im Vorfeld unklar oder unbekannt ist. Auf diese Weise können Texte automatisch gruppiert, „klassifiziert“ werden. Mit dem Python-Modul scikit-learn sollen Methoden zur Textklassifikation in dieser Session praktisch angewandt werden.

Einführung "Datenextraktion" | Jürgen Hermes | Mi 9:00-10:30

In der Session wird ein kurzer Überblick anhand spezifischer Anwendungen zu Ansätzen der Datenextraktion gegeben. Als Anwendungen werden Named Entity Recognition, Temporal Expression Detektion und Domain Specific Information Extraction thematisiert, als Methoden Machine-Learning-Verfahren, regelbasierte Ansätze und Mischformen aus beiden vorgestellt.

Hands-on “Temporal Expression Detection“ | Jürgen Hermes | Mi 11:00-12:30

In dieser Session wird die Extraktion temporaler Ausdrücke thematisiert und anhand verfügbarer Online-Tools an konkreten Daten (z.B. Wikipedia-Artikeln, Texten aus dem Projekt Gutenberg) ausprobiert. Je nach Wunsch der Teilnehmer/innen kann auch eine produktive Anwendung für die Extraktion von Zeitausdrücken - der Wikipedia-Import von autoChirp (https://autochirp.spinfo.uni-koeln.de) vorgestellt und genutzt werden.

Topic Modeling | Steffen Pielström | Do 9:00 – 10:30, 11:00-12:30

LDA-Topic-Modeling ist eine Methode zur inhaltlichen Erschließung von Textsammlungen. Sie erlaubt es, aus großen Corpora eine vorgegebene Zahl von semantisch-zusammenhängenden Wortgruppen, sogenannten "Topics" zu extrahieren, und dann die Verteilung dieser Topics im Corpus zu untersuchen. Die Methode stößt in den textorientierten Geisteswissenschaften zunehmend auf Interesse, die technischen Hürden sind aber teilweise noch recht hoch. Die Programmbibliothek "Topics", die im Projekt DARIAH-DE entwickelt wird, zielt darauf ab, Geisteswissenschaftlern die Nutzung dieser Methode und ihre Anpassung an spezifische Forschungsfragen zu erleichtern. Im Rahmen dieser Session werden die Teilnehmer nach einer theoretischen Einführung lernen, die Methode zunächst mit Hilfe einer graphischen Benutzeroberfläche zu nutzen, und dann über ein Jupyter-Notebook direkt auf die Funktionen der Programmbibliothek zuzugreifen, um Topic Modeling im Rahmen ihrer eigenen Forschung nutzbringend einsetzen zu können.

Stilometrie | Gabriel Viehhauser | Do 14:00-15:30, 16:00-17:30

Die Stilometrie, also die Klassifizierung von Texten nach stilistischen Eigenschaften, hat in den letzten Jahren einen erstaunlichen Aufschwung genommen und ist zu den wichtigsten Feldern der computerunterstützten Textanalyse im Rahmen der Digital Humanities avanciert. Im Kurs werden gängige stilometrische Verfahren in ihren Grundlagen erklärt, angewandt und reflektiert. Neben der Klassifizierung von Texten nach Autorschaft sollen dabei Möglichkeiten zur Bestimmung von Texten nach Genres ebenso zur Sprache kommen wie die Frage untersucht werden, ob sich zwischen männlichen und weiblichen Autorinnen mit Hilfe des Computers stilistische Unterschiede auffinden lassen.

Public Lecture: Generative Models and the Digital Humanities | Mike Kestemont | Do 18:00

Theoretical studies in Digital Humanities have paid ample attention to the concepts of "models" and "modelling". A relatively recent addition to this line of inquiry are so-called "generative" models, where algorithms are optimized to generate new, "synthetic" data, rather than describe or analyse pre-existing, "authentic" data. Many applications of this rapidly evolving technology (e.g. adversarial networks) are exciting and trigger the collective imagination, ranging from generating artifical bedroom images to generating cooking recipes and hiphop lyrics. The epistemologic status of these models, nevertheless remains problematic (i.e. we have a new tool, but we don't know yet what to use it for). This talk will introduce the notion of generative (or "predictive") models and further explore a series of applications in the Digital Humanities.

Named Entity Recognition, Entity Linking, Relation Extraction | Katalin Lejtovic, Matthias Schlögl | Fr 9:00-10:30, 11:00-12:30

Named Entity Recognition (NER), Entity Linking und Relation Extraction sind drei zentrale Techniken um aus unstrukturiertem Fließtext strukturierte Daten zu generieren. Named entity recognizer finden sogenannte "Named Entities" - Orte, Personen, Institutionen etc. - in Texten. Dies geschieht meist mit Hilfe auf großen Corpora trainierter machine learning Modelle und beschränkt sich auf den String. Beim Entity Linking wird dann in einem zweiten Schritt versucht dem gefundenen String einen Uniform Resource Identifier (URI) zuzuweisen und die Entität somit eindeutig zu identifizieren. In einem weiteren Schritt können Verbindungen zwischen identifizierten Entitäten mit Hilfe des Relation Extraction aus dem Text geholt werden.

Im Rahmen der Session werden die TeilnehmerInnen lernen Named Entities mit Hilfe von Python aus biographischen Beispieltexten zu extrahieren und zu verschiedenen Reference Ressources zu verlinken. Des Weiteren wird ein erster Einblick in das weite Feld des Relation Extraction (wieder anhand biographischer Beispieltexte) vermittelt.