Die meisten KI-Systeme verarbeiten entweder Bilder oder Sprache. Interessant wird es, wenn man beides kombiniert.
Dieser Workshop behandelt multimodale Architekturen – Systeme, die mehrere Datentypen gleichzeitig verstehen. Du lernst, wie man visuelle und auditive Features fusioniert, warum Cross-Attention-Mechanismen dabei helfen und wie man mit zeitlicher Synchronisation umgeht.
Die Anwendungsfälle sind vielfältig:
Ein großer Teil ist praktisches Arbeiten. Du implementierst ein System, das Videoinhalte analysiert – visuelle Objekte erkennt, gesprochene Inhalte transkribiert und beides semantisch verknüpft. Das ist technisch anspruchsvoll, weil Audio und Video unterschiedliche zeitliche Auflösungen haben und Informationen oft asynchron sind.
Wir schauen uns auch bestehende Modelle an – CLIP für Vision-Language-Tasks, AudioCLIP für audiovisuelle Aufgaben und wie man diese Architekturen für eigene Zwecke anpasst. Du lernst, wann es sinnvoll ist, Modalitäten früh zu fusionieren und wann späte Fusion besser funktioniert.
Die größte Herausforderung ist nicht die Technologie, sondern zu verstehen, welche Informationen sich gegenseitig ergänzen.
Der Workshop ist intensiv und setzt solide Kenntnisse in Deep Learning voraus. Du solltest bereits Erfahrung mit Computer Vision oder Speech Processing haben.