mobile icon
Projekt

ArchiveGPT: Psychologische und technische Perspektiven für den Einsatz multimodaler großer Sprachmodelle in Archiven

ArbeitsgruppeWahrnehmung und Handlung
Laufzeit9/2024-offen
FörderungIWM-Hausmittel
Projektbeschreibung

Multimodale Large Language Models (LLMs) generieren Texte basierend auf Bildinputs. Dies macht sie attraktiv für eine Vielzahl von Anwendungen, bei denen eine große Menge an Bilddaten verarbeitet werden muss. Eine dieser Anwendungen ist die Katalogisierung von Archivbildern. ArchiveGPT konzentriert sich daher auf die Anwendung eines multimodalen LLM auf archäologisches Fotomaterial, das vom Leibniz-Zentrum für Archäologie (LEIZA) in Mainz bereitgestellt wird.


Wir untersuchen dabei folgende Fragen: Wie ist die Performanz eines multimodalen LLM, wenn es mit – für das Modell oft unbekannten – archäologischen Objekten und Begriffen konfrontiert wird? Wie beurteilen Archivalienexpert:innen (im Vergleich zu Nicht-Expert:innen) die Qualität der Bildbeschreibungen des Modells? Können sie überhaupt zwischen diesen KI-generierten Beschreibungen und von Archivalienexpert:innen erstellten Beschreibungen unterscheiden? Und wie gut können sie im Voraus einschätzen, wie gut sie diese unterscheiden können? Welche Rolle spielt Vertrauen in die KI?
Für die erste Studie zu diesen Fragen haben wir das Experimentalmaterial in enger Zusammenarbeit mit dem LEIZA erstellt. Ausgehend von Fotokarten aus dem Bildarchiv wurde für jede Fotokarte eine Metadatenvorlage erstellt, die im Rahmen eines archivarischen Katalogisierungsprozesses verwendet werden kann – sowohl durch das multimodale LLM als auch durch die Expert*innen des LEIZA.

Kooperationen
  • Mag. Dominik Kimmer, Leibniz-Zentrum für Archäologie (LEIZA), Mainz