Kombinierte Bild- und Sprachverarbeitung

Multimodal AI Experten 7 Min. Lesezeit 703 Aufrufe 371 2025 08 11

Anmeldung und Konditionen

Investition

2.190 EUR

Intensiv-Workshop mit individueller Projektbetreuung

Dauer

2 Wochen Vollzeit

Verfügbare Plätze

Inklusive Zugang zu multimodalen Datensätzen und High-Performance Computing. Kleingruppen max. 8 Teilnehmer.

Jetzt anmelden

Programmübersicht

Workshop-Programm

Tag 1-2: Grundlagen multimodaler Systeme. Feature-Extraktion aus verschiedenen Modalitäten. Early vs. Late Fusion Strategien implementieren.
Tag 3-4: Cross-Modal-Attention und Joint Embeddings. Arbeiten mit CLIP und ähnlichen Architekturen. Training auf paired Datasets.
Tag 5-6: Audiovisuelle Sprachverarbeitung. Lip-Reading kombiniert mit Audio für robuste Erkennung. Umgang mit Missing-Modality Problemen.
Tag 7-8: Video Understanding Systeme. Implementierung von Video-Captioning mit zeitlicher Modellierung. Action Recognition durch multimodale Features.
Tag 9-10: Praxisprojekt: Vollständiges audiovisuelles Analysesystem entwickeln. Deployment und Performance-Optimierung für Echtzeit-Inferenz.

Details zum Programm

Die meisten KI-Systeme verarbeiten entweder Bilder oder Sprache. Interessant wird es, wenn man beides kombiniert.

Dieser Workshop behandelt multimodale Architekturen – Systeme, die mehrere Datentypen gleichzeitig verstehen. Du lernst, wie man visuelle und auditive Features fusioniert, warum Cross-Attention-Mechanismen dabei helfen und wie man mit zeitlicher Synchronisation umgeht.

Die Anwendungsfälle sind vielfältig:

Video-Untertitelung in Echtzeit
Audiovisuelle Sprecheridentifikation
Szenenverständnis durch kombinierte Analyse
Assistenzsysteme für Hör- oder Sehbehinderte

Ein großer Teil ist praktisches Arbeiten. Du implementierst ein System, das Videoinhalte analysiert – visuelle Objekte erkennt, gesprochene Inhalte transkribiert und beides semantisch verknüpft. Das ist technisch anspruchsvoll, weil Audio und Video unterschiedliche zeitliche Auflösungen haben und Informationen oft asynchron sind.

Wir schauen uns auch bestehende Modelle an – CLIP für Vision-Language-Tasks, AudioCLIP für audiovisuelle Aufgaben und wie man diese Architekturen für eigene Zwecke anpasst. Du lernst, wann es sinnvoll ist, Modalitäten früh zu fusionieren und wann späte Fusion besser funktioniert.

Die größte Herausforderung ist nicht die Technologie, sondern zu verstehen, welche Informationen sich gegenseitig ergänzen.

Der Workshop ist intensiv und setzt solide Kenntnisse in Deep Learning voraus. Du solltest bereits Erfahrung mit Computer Vision oder Speech Processing haben.

Kontaktieren Sie uns für weitere Informationen

Beskorav

Kombinierte Bild- und Sprachverarbeitung

Anmeldung und Konditionen

Programmübersicht

Workshop-Programm

Details zum Programm

Cookie-Einstellungen