Zwischen Bild und Ton – Kritische Bewertung der Masterarbeit “Automatic Sonification of Video Sequences” von Andrea Corcuera Marruffo

Grundlegendes

Autorin: Andrea Corcuera Marruffo
Titel: Automatic Sonification of Video Sequences through Object Detection and Physical Modelling
Hochschule: Aalborg University Copenhagen
Studiengang: MSc Sound and Music Computing
Jahr: 2017

Die Arbeit von Andrea Corcuera Marruffo untersucht die automatische Erzeugung von Foley-Sounds aus Videosequenzen. Ziel ist es, audiovisuelle Inhalte algorithmisch zu sonifizieren, indem visuelle Informationen, z.B. Materialeigenschaften oder Objektkollisionen, mithilfe von Convolutional Neural Networks (nutzung des YOLO models) analysiert und anschließend physikalisch modellierte Klänge synthetisiert werden. Damit positioniert sich die Arbeit an der Schnittstelle von Klangsynthese, teilweise software und coding und Wahrnehmung, ein Feld, das in der Medienproduktion wie auch in der künstlerischen Forschung zunehmende Relevanz besitzt und entsprechend auch überschneidungen zum Grundkonzept meiner vorstehenden Masterarbeit.

Das „Werkstück“ besteht aus einem funktionalen Prototypen, der Videos analysiert, Objekte klassifiziert und deren Interaktionen in synthetisierte Klänge übersetzt. Ergänzt wird dieses Tool durch eine Evaluation, in der audiovisuelle Stimuli hinsichtlich ihrer Plausibilität und wahrgenommenen Qualität getestet werden.

Bewertung

systematisch anhand der Beurteilungskriterien des Studiengangs CMS

(1) Gestaltungshöhe

Die Arbeit zeigt eine sehr gute technische Tiefe und eine klare methodische Struktur. Der Aufbau ist logisch, die Visualisierungen (z. B. Flussdiagramme, Spektrogramme) sind nachvollziehbar und unterstützen das Verständnis des Prozesses.

(2) Innovationsgrad

Der Ansatz, Foley-Sound automatisch (unter dem Einsatz von „physical modelling“) zu generieren, wurde zum Zeitpunkt der Veröffentlichung (2017) nur vereinzelt erforscht. Die Verbindung von Object Detection und Physical Modelling stellt daher einen innovativen Beitrag im Bereich „Computational Sound Design“ dar.

(3) Selbstständigkeit

Die Arbeit zeigt eine deutliche Eigenleistung. Die Autorin erstellt ein eigenes Dataset, modifiziert Trainingsdaten und implementiert das YOLO Model in einer angepassten Form. Auch die Syntheseparameter werden experimentell abgeleitet. Die Eigenständigkeit ist daher sowohl konzeptionell als auch technisch vorhanden.

(4) Gliederung und Struktur

Die Struktur folgt einem klassischen wissenschaftlichen Aufbau. Theorie, Implementierung, Evaluation, Schlussfolgerung. Kapitel sind klar fokussiert, jedoch teils stark technisch geprägt, was die Lesbarkeit für fachfremde Leser einschränken kann. Eine visuellere Darstellung der Evaluationsmethodik hätte das eventuell verbessert.

(5) Kommunikationsgrad

Die Arbeit ist insgesamt verständlich und präzise formuliert. Fachtermini werden sorgfältig eingeführt, Abbildungen sind beschriftet und logisch eingebunden. Der sprachliche Stil ist sachlich, allerdings manchmal zu stark an technischer Dokumentation orientiert. Narrative Reflexionen zu Designentscheidungen oder ästhetischen Überlegungen fehlen weitgehend, was anhand des Studiengangs, welcher sich nicht hauptsächlich an design orientiert verständlich und nachvollziehbar ist.

(6) Umfang der Arbeit

Mit über 30 Seiten Haupttext und zusätzlichem Anhang ist der Umfang angemessen. Die Balance zwischen Theorie, Umsetzung und Evaluation ist gelungen. Die empirische Studie mit 15 Proband bleibt jedoch relativ klein, wodurch die statistische Aussagekraft begrenzt ist.

(7) Orthographie, Sorgfalt und Genauigkeit

Die Arbeit ist durchgängig formal korrekt und methodisch sorgfältig dokumentiert. Kleinere sprachliche Unschärfen („he first talkie film“) mindern den Gesamteindruck kaum. Zitate und Quellenverweise sind konsistent.

(8) Literatur Das Literaturverzeichnis zeigt eine solide theoretische Fundierung. Es werden gängige Quellen zu Sound Synthesis, Modal Modelling und Neural Networks verwendet (Smith, Farnell, Van den Doel). Allerdings wären aktueller Medien- oder Wahrnehmungsforschung (durch z. B. Sonic Interaction Design, Embodied Sound Studies) noch eine spannende Ergänzung hinsichtlich Forschungsliteratur gewesen.

Abschließende Einschätzung

Insgesamt überzeugt die Arbeit durch ihren innovativen Ansatz, die methodische Präzision und die gelungene Umsetzung eines komplexen Systems. Die Evaluation zeigt kritisch die Grenzen des Modells auf (Objektgenauigkeit und Synchronisationsprobleme), was die Autorin reflektiert und nachvollziehbar einordnet.

Stärken: klare Struktur, hohes technisches Niveau, origineller Forschungsansatz, eigenständige Implementierung.
Schwächen: begrenzte ästhetische Reflexion, kleine Stichprobe in der Evaluation, eingeschränkte Materialvielfalt.

Review of a NIME paper

Listening to the Climate” : A Reflection on ClimaSynth

Climate change has become an overwhelming topic, often measured in numbers, graphs, and satellite images. But what if we could hear its effects instead? That’s the core question behind ClimaSynth, a web-based sonic interface developed by Eleni-Ira Panourgia, Bela Usabaev, and Angela Brennecke. Their paper, presented at NIME 2024, explores how environmental perception can be enhanced through real-time audio interaction, using granular synthesis to sonify future climate scenarios.

As someone researching the intersections of sound, interaction design, and environmental awareness, I found ClimaSynth to be both conceptually rich and technically compelling.

Link to a pdf: ClimaSynth: Enhancing Environmental Perception through Climate Change Sonic Interaction

Where ClimaSynth Shines

ClimaSynth isn’t just a tech demo, it’s a poetic instrument. Users interact with environmental recordings through a minimalistic web interface, manipulating sounds that morph depending on climate data and speculative futures. For instance, a serene “birds near water” recording can gradually transform into insect-heavy textures, mimicking a sonic shift tied to rising temperatures and drought. These transformations are not just aesthetic, they’re emotional cues for users to reflect on environmental degradation.

The choice to make ClimaSynth a web application is a smart one. It emphasizes accessibility, allowing anyone with a browser to engage with the experience, regardless of device or platform. This aligns beautifully with the ethos of broadening climate awareness beyond academia and into more public, participatory domains.

Another aspect I appreciated was how the team uses climate storytelling prompts in the interface. These small bits of narrative—like “trees readjusting their flexibility”—help ground the abstract sound manipulations in relatable ecological imagery. It’s a great example of how interface design can nudge user interpretation without being didactic.

Also worth highlighting is a thoughtful and often overlooked section: the ethical standards. The authors openly acknowledge the environmental cost of building web and cloud-based tools—specifically their energy demands and carbon footprint. It’s refreshing to see this kind of transparency and accountability in a digital art and research project. They even reflect on how publishing the app on GitHub (a platform supporting sustainable software practices) contributes to a more positive “handprint.” This attention to how the work is made—not just what it does—adds another layer of credibility and care to the project.

Where the Paper Left Me Wondering

While the system and concept are well-executed, I couldn’t help but feel a bit of a gap in understanding who exactly ClimaSynth is for. Is it a tool for public engagement? An artistic instrument? An educational platform? The authors mention “communicating climate change impacts,” but more clarity around the target audience or use-case scenarios could strengthen the work’s purpose.

Defining a user persona or community—whether that’s students, environmental activists, museum visitors, or musicians—might guide future iterations and also offer pathways for more impactful deployment. For example, if ClimaSynth is intended to foster awareness among high school students, it might benefit from a more guided interface or educational context. If it’s for artists, perhaps more export and remix functionality would be useful.

Similarly, I’m curious how ClimaSynth would perform in a collaborative or public setting. Could this be scaled into an installation? Could multiple users interact with it simultaneously? Could it be a live performance tool? These are all exciting possibilities that hint at ClimaSynth’s potential, but aren’t fully explored in this first prototype.

Final Thoughts

Overall, ClimaSynth is an inspiring step forward in the space where sonic interaction meets climate awareness. It reminds us that listening is a powerful way of knowing—and that sound can be both data and emotion, fact and feeling. In an age where climate anxiety often paralyzes, interactive tools like ClimaSynth offer a more intuitive, embodied way to reconnect with the world around us—and imagine what it might become.

As the project evolves, I’d love to see deeper engagement with users, clearer audience intentions, and expanded sonic possibilities. But as it stands, ClimaSynth is a meaningful addition to the growing field of eco-acoustic design.