Proseminar Master’s Thesis – Benjamin Pohler

Sprachverständlichkeit im Broadcast:
Masterarbeit von Elias Thomas Weißenrieder (HdM Stuttgart, 2024)

Arbeit (https://curdt.home.hdm-stuttgart.de/PDF/Weissenrieder.pdf)

Theoretische Ausarbeitung eines Programmtools zur Sprachverständlichkeitsanalyse von Sprachsignal-Audiodateien aus dem Broadcastumfeld
Elias Thomas Weißenrieder, Master of Engineering, Hochschule der Medien Stuttgart, Studiengang: Audiovisuelle Medien.

Warum für mich interessant

Sprachverständlichkeit ist im TV-Broadcast eines der wichtigsten Forschungsfelder überhaupt. Die Arbeit entwickelt theoretisch, aber praxisnah ein Programmkonzept zur automatisierten Verständlichkeitsanalyse und prüft dafür etablierte Verfahren gegeneinander. Fokus: Was taugt im echten Broadcast-Use Case? Dazu gehören ein Versuch mit Hörtest und die Ableitung einer GUI/Workflow-Skizze für ein späteres Tool.

Abbildung: GUI Skizze

Abbildung: GUI Skizze vom entwickelten Tool

Werkstück/Dokumentation

Es gibt kein ausgeliefertes Tool, aber klar dokumentierte Bausteine: Auswahl und Implementierungswege (Python Code) für akustische Metriken der Sprachverständlichkeitsmessung STOI, PESQ und NISQA, ein Hörversuch zur Validierung, Skizzen der Oberfläche, Blockschaltbilder zweier Varianten (intrusiv mit Referenz vs. non-intrusiv), plus Nutzerinterview mit einem Broadcast-Toningenieur (13 Jahre Praxis).
Die Versuchsdaten sind typisch Broadcast: Kommentar Beyerdynamic DT797 PV über RIEDEL CCP-1116, Atmo mit SCHOEPS ORTF-3D (8 Kanäle). Aufzeichnung u. a. mit Reaper und RME MADIface USB, Routing „Direct Out“ aus LAWO; spätere Bearbeitung/Export u. a. in Nuendo 12, Loudness auf −23 LUFS normiert. Das “Werkstück” ist somit eine simulierte Stadionatmosphäre “in the Box” nachgestellt.

Abbildung: Aufbau eines ORTF 3D


1. Gestaltungshöhe

Die gestalterische Leistung liegt hier im Design eines belastbaren Mess-Workflows statt in Klangkunst. Sound Design Aspekte fanden hier dennoch seinen Platz für die Simulation für den Hörversuch. Positiv hervorzuheben ist: sauberer Use Case (Live-Kommentar im Stadion), realistische Testsignale, und eine Oberfläche, die Durchschnitts- und Worst-Block-Werte ausweist (für den schnellen Check und den gezielten Drill-down). Das ist genau der Blick, den man in der Sendezentrale braucht. Ein ästhetisches Sound-Narrativ schlüssig.

2. Innovationsgrad, Neuigkeitswert und Beitrag

Nicht neu ist, dass man die Metriken STOI/PESQ/NISQA kennt, neu ist die konsequente Einbettung in Broadcast-Praxis inkl. Hörtest-Abgleich und GUI-Konsequenzen für die Programmierung (Blockgrößen, Sortierung, Ergebnisdarstellung). Das ist ein relevanter, kleiner Schritt Richtung operationalisierbares Tool. In der Zukunft wäre eine offene Referenz-Datenbank (Audio + Ground Truth) nötig, aber für eine Masterarbeit ist der gewählte Umfang und Scope realistisch und umfangreich genug.

3. Selbstständigkeit und Eigenleistung

Die Arbeit zeigt eigenständige Entscheidungen: Versuchsdesign (auch wenn es hier Kritikpunkte von mir gibt, da ein ITU-genormtes Design nicht einghalten wurde), Auswahl und Implementierungspfade der Algorithmen, Norm-Lautheit, Testsignal-Kuratorik (z. B. keine Eigennamen, um Bias zu vermeiden). Auch das Nutzerinterview ist selbst erhoben und floss in die GUI-Anforderungen ein (z. B. einfache Tabellen-View, blockweise Detailansicht).

4. Gliederung und Struktur, Logik und Nachvollziehbarkeit

Wießenrieder hält sich klar: Grundlagen, Vergleich, Versuch, Tool-Konzept, Hypothesen-Check und alles mündet in einem Fazit mit Implementierungsvorschlag. Es kann schnell herausgefunden werden, was wo begründet ist. Für meinen Geschmack könnte der Methoden-Teil teils kompakter sein, dafür glänzen die Blockschaltbilder und die GUI-Skizzen als Orientierungsanker.

5. Kommunikationsgrad, Verständlichkeit, Ausdruck und Darstellungsweise

Die Sprache ist sachlich, gut lesbar. Wichtig für mich war Einordnung und Konsequenz, dies wird durchgezogen (z. B. MOS-Skala für Hörtest, Mapping der Verfahren). Was ich mir als Leser wünschen würde: Audio-Beispiele/QR-Links und 1-2 Plots (z. B. Block-STOI über Zeit), um die Argumente des Autors der Masterarbeit hör- und sichtbar zu machen.

6. Umfang und Angemessenheit

Umfang passt zum Ziel einer theoretische Ausarbeitung und Validierung auf einen Datensatz. Der Hörtest ist okay skaliert (MOS-Skala definiert aber abgewandelt, Setup beschrieben), Hörversuch hat zu wenig Teilnehmer, ist okay für eine Masterarbeit, limitiert aber die Generalisierbarkeit bzw. kann sich negativ auf die statistische Auswertung auswirken.

7. Orthographie, Sorgfalt & Genauigkeit, Formale Präzision

Formal sauber, konsistente Terminologie, klare Verweise. Die Lautheits-Normierung (-23dB LUFS), die Samplerate-Grenzen (PESQ-Limit bei 16 kHz) und der Export-Workflow sind präzise dokumentiert. Pluspunkt für Reproduzierbarkeit. Ein vollständiger Tech-Appendix (Kanal-Matrizen, Skript-Versionen, REAPER Session) wären vorteilhaft gewesen.

8. Literatur, Qualität, Relevanz, Vollständigkeit

Die Kernverfahren (STOI, PESQ, POLQA, NISQA, STI/SII, etc.) sind eingeführt und sinnvoll verortet. Für ein produktives Tool bräuchte es perspektivisch mehr Breite bei Non-Intrusive Methoden und Domain-Spezifika (z. B. codec-spezifische Fehlerbilder im TV-Chain). Für die gewählte Fragestellung reicht diese Auswahl aber mehr als genug aus. Alle die schonmal mit der Messung solcher akustischen Metriken arbeiteten wissen, wie aufwändig dies ist auszuwerten und zu einem Hörversuch zusammenzuschüren.

Ergebnisdiskussion und Kernresultate

Im direkten Abgleich mit dem Hörtest schneidet STOI am besten ab. PESQ liegt spürbar dahinter, NISQA weicht am stärksten ab. Unter anderem weil das Modell in diesem Setup sogar das Referenzsignal zu schlecht bewertet und dadurch die Skalierung kippt. Für Live-Kommentar und Stadion-Atmo ist STOI daher die naheliegende Wahl: Das Maß reagiert robust auf maskierende Umgebungsgeräusche; PESQ misst eher allgemeine Qualität als Verständlichkeit.

Für die Bedienung würde ich für meinen Geschmack und für die Übersichtlichkeit so aufziehen: Balkendiagramm für den schnellen Vergleich mehrerer Dateien, dazu eine Tabelle mit Gesamtwert und dem schwächsten Zeitfenster inkl. Position, für die Detailprüfung eine zeitliche Fensterung mit Wellenform. Das ist im Sendebetrieb schnell lesbar und spart Zeit.

Das Test-Setup spiegelt reale TV-Bedingungen (Headset, ORTF-3D-Atmo, -23dB LUFS, LAWO-Kette). Die Ergebnisse sind damit gut auf ähnliche Livesituationen übertragbar. Grenzen sehe ich bei anderen Störprofilen und immersiven Ausspielungen. Nächste Schritte wären für mich: nicht-intrusive Modelle gezielt mit Broadcast-Daten nachtrainieren und kanal/stem-getrennte Auswertungen prüfen, um Maskierung in komplexeren Mischungen besser zu sehen.


Stärken/Schwächen der Masterarbeit

Die Stärke von Weißenrieders Masterarbeit liegt in der praktischen Umsetzung: getestet wird mit echten Broadcast-Signalen (Kommentar gegen Stadion-Atmo), nicht mit Labor-Pink-Noise. Der Weg von Versuch zu Entscheidung ist stringent: Hörtest und Algorithmusvergleich führen nachvollziehbar zu STOI als Leitgröße, daraus folgen klare UI-/Prozess-Konsequenzen (Schnellübersicht, schwächstes Zeitfenster mit Positionsangabe, einfache Sortierung). Der Nutzerfokus wirkt echt und sendetauglich.

Schwachstellen gibt es trotzdem: Die Hörtest-Stichprobe ist offenbar klein, und das dominierende Szenario (Fußball + Kommentar) lässt offen, wie stabil die Befunde in ruhigeren Formaten wären. Die ITU Norm für den MOS Hörversuch wurde modifiziert, was die Auswertbarkeit so nicht schlüssig macht. Hörbeispiele oder Zeitverlaufs-Plots hätten die Argumente zusätzlich tragfähig gemacht.

Für meine Praxis nehme ich mit: STOI als Default, aber blockweise auswerten (nicht nur Mittelwerte). Ablauf zuerst denken: Tabelle mit Gesamt- und Minimumwert, Balkenvergleich über Files, dazu eine einfache Timeline mit Wellenform. Und Daten wie on-air kuratieren (-23dB LUFS, Headsets, reale Atmo). Perspektivisch lohnt sich der Blick auf Immersive/Stem-basierte Auswertung.
Fazit: eine fokussierte, praxistaugliche Arbeit mit echtem Mehrwert für den Sendebetrieb.

EP #12: Toward a Sonic Ecology – The Ethics and Aesthetics of Acoustic Documentation

As the system becomes more capable, so do the questions. What does it mean to preserve the sound of a space?
Is it documentation, art, or something in between?

Acoustic photography offers a poetic and perceptual lens: it asks us to listen with care. A recorded impulse response is not just a technical artefact — it’s an invitation to reimagine space through sound. A stairwell becomes a resonator, a forest a filter, a cathedral a delay line for memory.

In this way, the project intersects with acoustic ecology, preservation, and sonic activism. Who gets to decide which spaces are worth hearing? What stories can be told through reverberation?

These are not only technical questions, but artistic and ethical ones — and they shape how I see the work ahead.

EP #11: Learning by Doing – From SwiftUI to Spatial Systems

One of the most rewarding parts of this phase was the technical deep dive into the Apple ecosystem. From Swift and AVAudioEngine to sensor fusion and FFT algorithms, I learned how to architect complex audio apps natively.

Challenges included:

  • Managing multichannel audio in real time
  • Implementing head tracking across threads
  • Creating reactive user interfaces with SwiftUI
  • Performing spectral deconvolution on mobile hardware

These skills are transferable to other platforms — Unity, Unreal, WebXR — but more importantly, they changed my understanding of how sound design tools are built. Not just for artists, but by artists who code.

EP #10: Mapping the Invisible – Building a Global Soundmap

Alongside the app, I prototyped a web-based soundmap that displays recorded locations and lets users hear the acoustics of real-world spaces. Built with Leaflet.js, the soundmap shows markers where impulse responses were captured. Clicking them reveals:

  • Metadata (location, date, mic type)
  • A photo of the space
  • Audio preview of a dry sound convolved with that space’s IR

In the future, this could evolve into a public archive: a platform where users all over the world can contribute and explore acoustic identities. Think of it as Google Street View for sound — an acoustic memory atlas, built one snapshot at a time.

EP #9: Headtracking and Spatial Playback with AirPods Pro

Spatial sound isn’t just about how rooms behave — it’s about how listeners move. To simulate this in real time, I integrated Apple’s CMHeadphoneMotionManager into the app. This allows the orientation data (yaw, pitch, roll) from AirPods Pro to be sent via OSC (Open Sound Control) to spatial audio engines like Reaper with the IEM Plugin Suite.

With this data, users can rotate their head and hear the soundfield respond — just like in real acoustic environments. A calibration feature lets users define their “neutral” forward direction, while rate-limiting and reconnection logic ensure stable use in real setups.

This is more than a feature. It’s a step toward interactive listening, where movement, sound, and space become part of one fluid experience.

EP #8: Real-Time Sound Shaping – Convolution and the Lambert-W Sweep

At the core of the app’s audio processing lies a precise method: convolution. By recording an impulse response of a space, we can digitally place any dry signal within it. But this only works if the IR is accurate.

To achieve this, I implemented an exponential sine sweep generator with Lambert-W phase correction, ensuring high signal-to-noise ratio and spectral clarity. Deconvolution is then performed using regularized FFT division — a mathematically stable way to reverse-engineer the system response.

This combination allows fast, portable IR measurement without sacrificing detail. The result? Any sound — a whisper, a field recording, a voiceover — can be spatialized with the unique acoustic fingerprint of a room.

EP #7: MEMS Microphones – Miniaturizing the Soundfield

Traditional Ambisonics arrays are bulky and expensive. In contrast, MEMS (Micro-Electro-Mechanical Systems) microphones offer a promising alternative: they are tiny, digital, and energy-efficient.

This semester, I investigated how a tetrahedral MEMS array could be integrated into a mobile system. Calibrated for gain and phase alignment, and paired with head orientation data, such a rig could offer a portable first-order Ambisonics input for spatial field recording.

The challenge lies in the signal integrity: capsule mismatch, noise floors, and synchronization need to be addressed. But the vision is clear — a pocket-sized array that records the world in full 3D sound, for music, XR, and soundscape preservation.

EP #6: Building the Tools – A Mobile App to Record and Experience Space

The heart of the project is a custom Swift-based iOS application I developed: a tool to record impulse responses, estimate acoustic parameters like RT60, and apply spatial convolution in real time. The app consists of several modular components:

  1. A mic selector that supports mono, stereo, and (planned) Ambisonics input.
  2. A recording module that captures signals from sweep tones or balloon pops.
  3. A deconvolution processor that transforms recorded responses into usable IRs.
  4. A convolution engine that allows users to load external sounds and place them in the captured space.
  5. A visual interface that shows waveforms, energy decay, and export options.

Built using AVAudioEngine and SwiftUI, the app runs entirely on-device, making spatial recording accessible to artists, researchers, and designers

EP #5: Listening Like a Camera – Redefining Field Recording through Acoustic Photography

This semester, my research expands on a deceptively simple question: What if we could photograph sound?
In the age of mobile spatial computing, we no longer need heavy microphones or studio rigs to capture acoustic character. Instead, we can begin to treat spaces as sonic images — snapshots not of light, but of reflection, decay, and depth.

Through the combination of impulse response recording, real-time convolution, and MEMS microphone arrays, I’m developing a system that captures and reconstructs spatial audio impressions in real-world environments. Using mobile tools and 3D sound formats like Ambisonics, the project proposes a new workflow: lightweight, precise, and perceptually informed.

But more importantly, this shift is artistic. Just like a photographer frames a scene, we as sound designers can frame how a space sounds — and how it feels. This opens up new territory between documentation, storytelling, and sonic composition.

EP #4: The Future of Spatial Audio – Accessible, Crowdsourced, Real

The long-term vision of my project is simple:
– Record space.
– Upload it.
– Use it anywhere.

With enough participants, the Soundmap will become a searchable database of real-world acoustics – a kind of Google Street View for sound. Artists, researchers, and developers could then place sounds into acoustically true locations without ever going there.

Whether you want to preserve the sonic fingerprint of a historic building or make your VR app sound real, this approach makes spatial audio design more perceptual, democratic, and creative.

Just as photography changed how we see the world, acoustic photography could change how we hear it.