Hintergrund
Der globale Musikmarkt ist nicht nur von einer unermesslichen Anzahl an Musiktiteln, sondern auch von einer enormen Vielfalt an musikalischen Ausdrucksformen geprägt. Neben den kommerziellen Labels drängen nun zunehmend auch unabhängige Künstler aus allen Regionen der Welt auf die Online-Portale, um ihre Produktionen global zu vermarkten. Für die allermeisten Künstler bleibt dabei der kommerzielle Erfolg aufgrund der fehlenden überregionalen Bekanntheit allerdings weit hinter den theoretischen Möglichkeiten zurück. Eine Ursache sind die begrenzten, rein textbasierten Suchinterfaces auf den heutigen Musikportalen (z.B. Titel, Künstler, Genre, etc.), die wenig geeignet sind, globale Musik aussagekräftig zu beschreiben oder unbekannte Musik anhand von entsprechenden Vorgaben zu finden. Musikempfehlungstechnologien können hier Abhilfe schaffen, was im Bereich der populären Musik bereits heute ansatzweise gelingt. So können beispielsweise auf Basis der akustischen Eigenschaften oder basierend auf nutzer- bzw. itembezogenen Verkaufsstatistiken Ähnlichkeiten zwischen Musikaufnahmen geschätzt werden. Diese Verfahren sind heute jedoch noch nicht in der Lage, semantische Eigenschaften und Beziehungen ausreichend präzise und flexibel zu modellieren („Semantic Gap“). Darüber hinaus ist Musik als Ausdruck menschlicher Kreativität beständiger Veränderung unterworfen. Es entstehen neue Musik-Genres oder es spalten sich Untergenres ab. Der globale Musikmarkt als ein dynamischer „Long-Tail“ Markt erfordert daher erweiterte, mitlernende Konzepte der Musikkategorisierung und –empfehlung, um den regionalen, kulturellen oder altersbedingten Nutzerkontexten gerecht werden zu können. Gemeinschaftliches Indexieren (Collaborative Tagging) wird verwendet, um im Internet Dokumente zu verschlagworten und damit besser auffindbar zu machen. Dabei sind die Kategorien durch die Nutzer frei wählbar. Die Gesamtheit aller vergebenen Schlagworte sowie deren Beziehungen untereinander wird als Folksonomie (Folk Taxonomie) bezeichnet. Eine Folksonomie wird also von Laien und/oder Experten erzeugt und repräsentiert die sich ständig erweiternde Wissensbasis der Gemeinschaft bezüglich der indexierten Dokumente.
ZielsetzungEin Regisseur sitzt vor dem Rohschnitt seines Filmes und sucht die Musik für eine ganz bestimmte Szene. Der Creative Director einer Werbeagentur braucht einen Sound für einen Werbespot. Die Planer eines TV-Senders müssen einen neuen Trailer für eine kurzfristige Programmänderung vertonen. Drei typische Fälle für das immer gleiche Problem: Eine gut passende Tonspur herzustellen, erforderte Zeit und Geld. Selbst erfahrene Music Supervisor können große Musikkataloge nicht überschauen und haben Besseres zu tun, als tausende Stücke nach z.B. einer Stelle zu durchsuchen, in der brasilianischer Gesang plötzlich abbricht und nach genau 3,5 Sekunden lauter wieder anhebt, nun aber mit einer „fröhlicheren Begleitung“.
Die Suche, Aufbereitung und Lizenzierung von Musik für Film, Fernsehen und Werbung, das sogenannte „Sync-Licensing“ stellt eine attraktive Verwertungsmöglichkeit für Musikproduzenten dar. Der eigentlichen Lizenzierung geht dabei oft ein sehr aufwändiger manueller Auswahl- und Editierprozess voraus, in dessen Verlauf ein Music Supervisor nach bestimmten Kriterien Musik aus einem Katalog auswählt und dem Videomaterial zeitlich synchron zuordnet. Die angewandten Kriterien der Musikauswahl sind dabei sowohl inhaltlicher als auch wirtschaftlicher Art. Die Musik soll im Video eine bestimmte dramaturgische Aufgabe bestmöglich erfüllen und eine Stimmung oder Aussage transportieren bei gleichzeitig wirtschaftlich vertretbaren Lizenzierungsbedingungen. Heute steht weltweit für diesen Zweck eine unüberschaubare Menge und Diversität an Musikaufnahmen zu den unterschiedlichsten Lizenzbedingungen zur Verfügung, was die optimale manuelle Selektion nahezu unmöglich macht und den Einsatz entsprechender softwaretechnischer Lösungen nahelegt.
Das Projekt SyncGlobal zielt darauf ab, eine Technologie zu entwickeln, die Musik nach dramaturgischen Kriterien durchsucht und die gefundenen Musikausschnitte automatisch zu einem Video synchronisiert. Auf Basis dieser Technologie soll eine Anwendung prototypisch umgesetzt werden, welche den kreativen Prozess beim Sync-Licensing durch Einsatz erweiterter Verfahren der semantischen Musiksuche und audiovisuellen Synchronisation unterstützt. Nachfolgend werden zunächst die wesentlichen Funktionalitäten einer Sync-Search Anwendung beschrieben, wie sie in einer Betaversion im Projektvorhaben beispielhaft entwickelt werden soll. Anschließend wird auf die dafür zu lösenden Forschungsfragen detaillierter eingegangen.
SyncGlobal-Demonstrator
Bei dieser Anwendung handelt es sich um ein lernfähiges Autorenwerkzeug, das die Auswahl und zeitliche Zuordnung von Musik zu einem beliebigen Videoclip ermöglicht und softwaretechnisch unterstützt. Dazu soll das Video zunächst hinsichtlich verschiedener Kriterien automatisch segmentiert werden, um dessen zeitliche Struktur zu definieren. Anschließend wird eine Art „Regieanweisung“ für die Musikauswahl vorgegeben, die im Projekt zu konzipieren ist und die Grundlage für entsprechende Suchanfragen an das Musikarchiv bilden wird. Dabei werden 3 unterschiedliche Strategien verfolgt:
Explizite (manuelle) Beschreibung der gewünschten Musik über Angabe der Ereignisse, Eigenschaften, Eigenschaftsverläufe und Übergänge je Zeitpunkt oder Zeitspanne.
Implizite Beschreibung der gewünschten Musik anhand manuell zugeordneter Beispielmusik. Alternative Musikvorschläge werden dann über ‚Query by Example’ Anfragen gefunden.
Auf Basis einer inhaltsbasierten Videoanalyse bezüglich visueller Rhythmik, Stimmung, usw. soll die cross-modale Musikzuordnung von der Software gelernt und automatisiert werden.
Die Regieanweisung für die Musikauswahl wird nun in entsprechende Suchanfragen an das SyncGlobal-Backend-System übersetzt. In der Folge übernimmt die Anwendung zwei Arbeitsschritte, welche mit derzeit auf dem Markt befindlichen Technologien/Anwendungen nur manuell und damit sehr zeit- und kostenaufwändig durchgeführt werden können. Mit SyncGlobal werden automatisch entlang der Zeitachse des Videos passende Musiktitel sowie deren bevorzugte zeitliche Ausschnitte aus dem Datenbestand vorgeschlagen. Ein Synchronisationsmodul übernimmt anschließend die Feinjustierung (optimale Anordnung) der Musikausschnitte entlang der Zeitachse des Videoclips für alle vorgeschlagenen Kombinationen. Dabei wird einerseits ein Konfidenz-Maß als Indikator für die inhaltliche Übereinstimmung mit der Regieanweisung berechnet und andererseits anhand hinterlegter Lizenzierungsdaten ein Kosten-Maß geliefert, das die Lizenzierungsaufwände bereits während des kreativen Prozesses zusammenfasst. Alle vorgeschlagenen Kombinationen können vorgehört und auch manuell verändert werden.
SyncGlobal-Backend-System
Die Zielanwendung erfordert eine leistungsfähige Musik-Suchmaschine, die in der Lage ist, zu einer Suchanfrage passende zeitliche Ausschnitte/Segmente aus umfangreichen Musikarchiven zu liefern. Grundlage einer solchen Suchmaschine müssen auf den zeitlichen Verlauf der Musik bezogene, semantische Beschreibungen sein, die auf Basis einer inhaltsbasierten Analyse des Audiosignals gewonnen werden. Ein entsprechendes Basissystem wurde vom beantragenden Konsortium im vorangegangenen KMU-Innovativ-Forschungsprojekt ‚Globalmusic2one’ entwickelt und soll in diesem Forschungsvorhaben mit neuen Leistungsmerkmalen ausgestattet werden. Das Interface der adaptiven Suchplattform ermöglicht das Lernen personalisierter nutzer- oder kulturkreisspezifischer Beschreibungen für die automatisierte Verschlagwortung globaler Musik. Darüber hinaus sollen im vorliegenden Forschungsvorhaben maschinelle Lernverfahren auch dazu eingesetzt werden, cross-modale Zuordnungen Video-Musik personalisiert zu lernen.
Forschungsschwerpunkte
Die folgenden Forschungsschwerpunkte sollen im Einzelnen bearbeitet werden:
Zeitsynchrone Musikannotation und -Suchanfragen: Bislang wurden musikalische Eigenschaften für grobe zeitliche Segmente klassifiziert. Der SyncGlobal Ansatz erfordert jedoch eine feingranulare zeitliche Beschreibung der Eigenschaftsverläufe, sowie die Detektion von kurzzeitigen musikalischen Ereignissen und Eigenschaftsübergängen. Rhythmische Beschreibungen wie Beat-Zeitpunkte und Tempoverläufe sind erforderlich, um die zeitlichen Zuordnungen zu ermöglichen. Ein universelles aber verständliches System der Verlaufsbeschreibung muss entwickelt werden. Entsprechende komplexe Suchanfragen müssen formulierbar sein und von der Suchmaschine unterstützt werden.
Wortsuche aus Audioaufnahmen: Die Aussage/Semantik eines Musikstücks wird sehr stark durch den gesungenen Text (Lyrics) definiert. Eine Technologie zur Transkription der Lyrics ist international noch nicht verfügbar, so dass Lyrics bisher als Suchkriterium nicht erfassbar sind. Es sollen daher Ansätze zur Transkription der Lyrics aus Audioaufnahmen untersucht werden, mit dem Ziel zunächst einzelne Worte, welche in der Sync-Licensing-Branche besonders gefragt sind, aus gesungenen Passagen zu finden (Word-Spotting).
Adaptive Verfahren zur cross-modalen Video-Musik-Zuordnung: Die inhaltlichen Kriterien für die synchrone Zuordnung von Musikaufnahmen zu beliebigen Videoclips sollen zunächst vom Nutzer über ein entsprechendes grafisches Nutzerinterface vorgegeben werden. Hierfür muss ein cross-modal kompatibles Beschreibungssystem entwickelt werden. Diese Nutzervorgaben (Drehbuch) sollen dazu verwendet werden, bestimmte cross-modale Zuordnungen (Mappings) anhand der aus dem Video extrahierten Merkmale durch Videoanalyse und maschinelle Verfahren zu erlernen.
Konkatenation / Synchronisation von Musikausschnitten: Strategien zur musikalisch sinnvollen zeitlichen Synchronisation und Aneinanderreihung von Musikausschnitten unterschiedlicher Aufnahmen müssen gefunden und evaluiert werden. Dafür muss das branchentypische Nutzerverhalten und Hörverständnis erforscht und ein entsprechendes Modul entwickelt werden, welches die zeitliche Feinjustierung und Überblendung auf der Grundlage einer Detailsuche zwischen zwei Aufnahmen und anhand einer Übergangsbeschreibung (beatsynchrone Überblendung, etc. ) realisiert.
Die Lösung der genannten Forschungsfragen wird den Stand der Technik im Bereich der semantischen Musiksuche und cross-modalen Verknüpfung von Medieninhalten (Content-Fusion) erweitern und damit die Grundlage für eine Reihe innovativer Anwendungen schaffen, welche auf zeitbezogenen Metadaten und synchronisierten Suchergebnissen aufsetzen, wie kommerzielles Sync-Licensing, Studio-Software, Vertonung privater Videos, oder Musik-Lernsoftware.