Beskorav

Marktpl. 5, 71131 Jettingen

Kombinierte Bild- und Sprachverarbeitung

Multimodal AI Experten 7 Min. Lesezeit 703 Aufrufe 371 2025 08 11
Kombinierte Bild- und Sprachverarbeitung

Anmeldung und Konditionen

Investition
2.190 EUR
Intensiv-Workshop mit individueller Projektbetreuung
Dauer
2 Wochen Vollzeit
Verfügbare Plätze
2
Inklusive Zugang zu multimodalen Datensätzen und High-Performance Computing. Kleingruppen max. 8 Teilnehmer.

Programmübersicht

Workshop-Programm

  1. Tag 1-2: Grundlagen multimodaler Systeme. Feature-Extraktion aus verschiedenen Modalitäten. Early vs. Late Fusion Strategien implementieren.
  2. Tag 3-4: Cross-Modal-Attention und Joint Embeddings. Arbeiten mit CLIP und ähnlichen Architekturen. Training auf paired Datasets.
  3. Tag 5-6: Audiovisuelle Sprachverarbeitung. Lip-Reading kombiniert mit Audio für robuste Erkennung. Umgang mit Missing-Modality Problemen.
  4. Tag 7-8: Video Understanding Systeme. Implementierung von Video-Captioning mit zeitlicher Modellierung. Action Recognition durch multimodale Features.
  5. Tag 9-10: Praxisprojekt: Vollständiges audiovisuelles Analysesystem entwickeln. Deployment und Performance-Optimierung für Echtzeit-Inferenz.

Details zum Programm

Die meisten KI-Systeme verarbeiten entweder Bilder oder Sprache. Interessant wird es, wenn man beides kombiniert.

Dieser Workshop behandelt multimodale Architekturen – Systeme, die mehrere Datentypen gleichzeitig verstehen. Du lernst, wie man visuelle und auditive Features fusioniert, warum Cross-Attention-Mechanismen dabei helfen und wie man mit zeitlicher Synchronisation umgeht.

Die Anwendungsfälle sind vielfältig:

  • Video-Untertitelung in Echtzeit
  • Audiovisuelle Sprecheridentifikation
  • Szenenverständnis durch kombinierte Analyse
  • Assistenzsysteme für Hör- oder Sehbehinderte

Ein großer Teil ist praktisches Arbeiten. Du implementierst ein System, das Videoinhalte analysiert – visuelle Objekte erkennt, gesprochene Inhalte transkribiert und beides semantisch verknüpft. Das ist technisch anspruchsvoll, weil Audio und Video unterschiedliche zeitliche Auflösungen haben und Informationen oft asynchron sind.

Wir schauen uns auch bestehende Modelle an – CLIP für Vision-Language-Tasks, AudioCLIP für audiovisuelle Aufgaben und wie man diese Architekturen für eigene Zwecke anpasst. Du lernst, wann es sinnvoll ist, Modalitäten früh zu fusionieren und wann späte Fusion besser funktioniert.

Die größte Herausforderung ist nicht die Technologie, sondern zu verstehen, welche Informationen sich gegenseitig ergänzen.

Der Workshop ist intensiv und setzt solide Kenntnisse in Deep Learning voraus. Du solltest bereits Erfahrung mit Computer Vision oder Speech Processing haben.

Cookie-Einstellungen

Wir verwenden Cookies, um Ihre Erfahrung auf unserer Website zu verbessern. Sie können Ihre Einstellungen jederzeit anpassen.