Sound Design – Page 8

by David Adlberger - 10. November 202515. December 2025

Product II: Image Extender

Dual-Model Vision Interface – OpenAI × Gemini Integration for Adaptive Image Understanding

Following the foundational phase of last week, where the OpenAI API Image Analyzer established a structured evaluation framework for multimodal image analysis, the project has now reached a significant new milestone. The second release integrates both OpenAI’s GPT-4.1-based vision models and Google’s Gemini (MediaPipe) inference pipeline into a unified, adaptive system inside the Image Extender environment.

Unified Recognition Interface

In The current version, the recognition logic has been completely refactored to support runtime model switching.
A dropdown-based control in Google Colab enables instant selection between:

Gemini (MediaPipe) – for efficient, on-device object detection and panning estimation
OpenAI (GPT-4.1 / GPT-4.1-mini) – for high-level semantic and compositional interpretation

Non-relevant parameters such as score threshold or delegate type dynamically hide when OpenAI mode is active, keeping the interface clean and focused. Switching back to Gemini restores all MediaPipe-related controls.
This creates a smooth dual-inference workflow where both engines can operate independently yet share the same image context and visualization logic.

Architecture Overview

The system is divided into two self-contained modules:

Image Upload Block – handles external image input and maintains a global IMAGE_FILE reference for both inference paths.
Recognition Block – manages model selection, executes inference, parses structured outputs, and handles visualization.

This modular split keeps the code reusable, reduces side effects between branches, and simplifies later expansion toward GUI-based or cloud-integrated applications.

OpenAI Integration

The OpenAI branch extends directly from Last week but now operates within the full environment.
It converts uploaded images into Base64 and sends a multimodal request to gpt-4.1 or gpt-4.1-mini.
The model returns a structured Python dictionary, typically using the following schema:

{

“objects”: […],

“scene_and_location”: […],

“mood_and_composition”: […],

“panning”: […]

}

A multi-stage parser (AST → JSON → fallback) ensures robustness even when GPT responses contain formatting artifacts.

Prompt Refinement

During development, testing revealed that the English prompt version initially returned empty dictionaries.
Investigation showed that overly strict phrasing (“exclusively as a Python dictionary”) caused the model to suppress uncertain outputs.
By softening this instruction to allow “reasonable guesses” and explicitly forbidding empty fields, the API responses became consistent and semantically rich.

Debugging the Visualization

A subtle logic bug was discovered in the visualization layer:
The post-processing code still referenced German dictionary keys (“objekte”, “szenerie_und_ort”, “stimmung_und_komposition”) from Last week.
Since the new English prompt returned English keys (“objects”, “scene_and_location”, etc.), these lookups produced empty lists, which in turn broke the overlay rendering loop.
After harmonizing key references to support both language variants, the visualization resumed normal operation.

Cross-Model Visualization and Validation

A unified visualization layer now overlays results from either model directly onto the source image.
In OpenAI mode, the “panning” values from GPT’s response are projected as vertical lines with object labels.
This provides immediate visual confirmation that the model’s spatial reasoning aligns with the actual object layout, an important diagnostic step for evaluating AI-based perception accuracy.

Outcome and Next Steps

The project now represents a dual-model visual intelligence system, capable of using symbolic AI interpretation (OpenAI) and local pixel-based detection (Gemini).

Next steps

The upcoming development cycle will focus on connecting the openAI API layer directly with the Image Extender’s audio search and fallback system.

by elina.dorzhieva - 9. November 2025

Proseminar Master’s Thesis. Task III

Author: Nadina Husidic

Title: Immersive technology applications in the museum environment, Challenges and opportunities

Year of Publication: 2022

University: Halmstadt University
Degree: Master Thesis in Informatics, 30 credits

Overall presentation quality:

The thesis is well structured and readable: it contains a clear abstract, introduction of the field, literature review, methods, empirical findings, discussion and conclusion. Headings and flow are logical; methodology and analyses are presented in a conventional academic format. The writing is generally clear and scholarly.

Degree of innovation:

The thesis addresses a recognized gap: much prior research focuses on visitor experience, while this study centers strategic stakeholders’ perspectives (museum directors, curators, municipal/institutional reps) on immersive technology adoption. Framing the question from a stakeholder/organizational perspective is a meaningful contribution for practitioners and IS (information systems) researchers. The synthesis of challenges vs opportunities (innovation management, design value, organizational model; and operational efficiency, social sustainability, experience design) provides an original, practice-oriented thematization.

Independence:

The project demonstrates independent critical thinking: the author designed interview guides (informed by literature), carried out primary interviews (Mar–May 2022), coded and thematized results into conceptually meaningful clusters, and related findings back to literature. The work appears to be student-led with appropriate academic supervision.

Organization and structure:

The structure is logical and the document follows a coherent path from literature to methods to findings and discussion. Themes are explicitly described and supported with interview excerpts, and the discussion links themes back to theoretical sources. The RQ is clearly stated and the findings map directly to it.

Communication:

Language is generally precise and academic. Interview quotes are used effectively to illustrate themes (e.g., “You must make something more of an artifact with technology.” and concerns about complexity and resources). A couple of spots would benefit from tighter editing (minor language slips, occasional long paragraphs), but readability is high overall.

Scope:

For a 30-credit Master’s thesis the scope is appropriate: the literature review and the focused empirical interview study match the expected depth. The author makes sensible delimitations (stakeholder perspective, Swedish cultural heritage context). If anything, some areas (e.g., more systematic sampling detail or deeper methodological reflexivity) could be expanded, but this is within normal limits for this credit level.

Accuracy and attention to detail:

Citations are present, arguments are referenced to literature, and interview evidence is carefully quoted. There are few formal errors; referencing seems adequate. A more explicit account of coding procedures (how many coders, inter-coder reliability, coding software, or a codebook appendix) would strengthen methodological transparency.

Literature:

The literature review draws on appropriate, current sources across XR/immersive tech, museum studies, narratology and digital transformation. The author used Scopus and Google Scholar to identify relevant studies and anchored the thesis in contemporary debates (visitor experience vs organizational adoption). A systematic PRISMA-style search is not claimed; the literature appears curated rather than exhaustive — adequate for the study’s aims.

Overall assessment:

This is a solid Master’s thesis that meets academic standards for a 30-credit Informatics project. It is especially valuable for its practitioner-oriented thematization of strategic challenges and opportunities for immersive technologies in museums. The work demonstrates independent thinking, a clear structure, adequate literature integration, and credible empirical data collection and analysis.

The main limitation relative to some CMS expectations is the absence of a hands-on artifact, the thesis’s contribution is analytic and strategic rather than a demonstrable interactive prototype. If your assessment rubric gives heavy weight to produced artifacts, deduct accordingly; if the rubric prioritizes critical analysis and scholarly contribution, this thesis scores well.

Disclaimer: This blog post was written with the help of AI (ChatGPT) for better structure and phrasing.

by dominik.bluemel - 8. November 2025

03.02: Warum ich jetzt ganz was anderes machen möchte – und was das ist

Schon an meinem ersten Blogpost in diesem Semester, für den Kurs von Ursula Lagger, in dem ich die Masterarbeit “Horror Movie Aesthetics” bewertet habe, hätte der ein oder andere aufmerksame Leser dieses Weblogs erahnen können, dass von meiner ursprünglichen Idee, mich mit Datenvisualisierungen zu beschäftigen, nach den Sommerferien wohl nicht allzu viel übrig geblieben ist. Und hier steh ich nun ich armer Tor, denn ich bin tatsächlich so schlau wie ein Jahr zuvor, als ich das erste mal überhaupt die Ehre hatte einen dieser Blogposts zu verfassen. Doch seither ist viel passiert und vielleicht, aber wirklich nur vielleicht, habe ich jetzt das gefunden was mir wirklich Spaß macht. Was mich wirklich dazu bringen könnte, gern an meiner Masterarbeit zu arbeiten. Doch lest selbst.

In allerkritischster Selbstbetrachtung ist mir während der vorlesungsfreien Zeit (sorry für den Fachjargon) nämlich eines bewusst geworden. Ich habe nicht ein einziges Mal an Datenvisualisierungen gedacht. Wohl aber jeden Tag meine Kamera in Händen gehalten. Selbst wenn meine Synapsen nicht mehr derart schnell Verbindungen herstellen können, wie in der Zeit als ich noch keinen uneingeschränkten Zugang zu alkoholischen Getränken hatte, so hat sogar mir das eines gelehrt: Ich mach das falsche Thema.

Viel eher sollte ich filmen. Das machen was ich sowieso ständig mache. Das machen worüber ich mir sowieso ständig Tutorials anschaue. Das machen, wo ich mich sowieso ständig weiterbilden möchte. Und so ware eine Idee geboren: Warum nicht den Horrorfilm, den ich seit Beginn des Studiums unbedingt am Ende drehen will zu meiner Bachelorarbeit machen. Und einmal in den Kopf gesetzt ging diese Idee die letzten Monate auch nicht mehr raus, womit ich nun weiß, okay das wirds.

Aber was genau möchte ich analysieren, worüber möchte ich forschen, welche jahrtausende alten Fragen möchte ich mit meiner unnachahmlichen Recherche ein für alle mal beantworten? Im Grunde weiß ich das noch nicht so genau, aber ich hab eine Idee. Je mehr ich filme, desto mehr wird mir nämlich bewusst, dass nicht die Kamera, oder der Kameramann das Bild bestimmen, sondern das Licht. Dass auch eine Arri Alexa dir keinen Hollywood Streifen filmen kann, wenns finster ist. Deshalb möchte ich mich in meiner Masterarbeit mit Lichtkomposition auseinandersetzen. Genauer mit gezielter Lichtsetzung in Horrorfilmen. Eine mögliche Forschungsfrage, die ich mir dazu überlegt habe, ist wie sehr klassische Prinzipien in der Lichtsetzung (ich denke da gerne an Lighting Ratios, da ich den Ansatz unfassbar interessant finde) auf die Wahrnehmung von Charakteren in Horrorfilmen auswirken. In meinem eigenen Film könnte ich dann basierend auf dieser Theorie zum Beispiel alle Charaktere durchgehend individuell leuchten.

Um diesen Rechercheprozess nun aber gar nicht weiter hinauszuzögern und ins Tun zu kommen, habe ich die letzte Aufgabe von Ursula Lagger, in der es darum ging erstmals ein paar Quellen zu suchen gleich genutzt um eine etwas umfassendere Bibliographie zum Thema zu erstellen, die ich nun in den kommenden Blogposts abarbeiten kann. Da ich viele der Bücher erst bestellen muss (vielleicht lass ich sie mir auch unter den Christbaum legen, falls ich den Platz dort nicht für eine neue Linse frei halte), werde ich in den nächsten Blogposts erst einmal mit aktuellen Papers anfangen, in denen genau jene Wahrnehmung von Lichttechniken an Probanden erprobt wurden, um mir einen Überblick darüber zu verschaffen was ist state of the art knowledge und was wurde quasi schon erforscht. Erst dann werden wohl nach der Reihe die gebundenen Standardwerke bei mir eintrudeln, und ich kann mich mit diesen befassen.

Als Abschluss kopiere ich noch die gesamte Bibliographie hier rein, die quasi der Grundstein meiner Master Arbeit werden soll. Für Buchvorschläge oder andere Anregungen bin ich natürlich stets dankbar.

Bibliographie

Bücher und E-Books:

Hart, John: Lighting for Action. Professional Techniques for shooting Video and Film. New York: Amphoto Books 1992.

Brown, Blain: Motion Picture and Video Lighting. 4^th Edition. New York: Routledge 2024.

Alton, John: Painting with Light. Berkely und Los Angeles: University of California Press 1995.

Mullen, Merritt David (Hrsg.) und Hummel, Rob (Hrsg.): American Cinematographer Manual. Eleventh Edition. Los Angeles: The ASC Press 2023.

Malkiewicz, Kris J.: Film Lighting: Talks with Hollywood´s Cinematographers and Gaffers. Second Edition. New York: Touchstone 2012.

Landau, David: Lighting for Cinematography: A Practical Guide to the Art and Craft of Lighting for the Moving Image. London: Bloomsbury Academic 2014 (= The CineTech Guides to the Film Crafts, Nummer 1).

Online-Quellen:

Pizzello, Stephen (30.10.2023): Terror Through Lighting. In: The ASC, https://theasc.com/articles/terror-through-lighting (zuletzt aufgerufen am 7.11.2025).

Studiobinder (13.06.2020): Lighting Ratios Explained – And Why They Matter. In: Studiobinder, https://www.studiobinder.com/blog/lighting-ratios/ (zuletzt aufgerufen am 7.11.2025).

Papers:

Huttunen, Sampsa: Faces in shadows: silhouette light, underlight and toplight elicit increased early posterior negativity. In: Frontiers in Neuroscience 2025, Volume 19, https://doi.org/10.3389/fnins.2025.1553977.

Wisessing, Pisut [et al.]: Enlighten Me: Importance of Brightness and Shadow for Character Emotion and Appeal. In: ACM Transactions on Graphics 2020, Volume 39, Issue 3, https://doi.org/10.1145/3383195.

Bhatii, Zubeda [et al.]: LIGHT MANIPULATION AND LENS CHOICES: INFLUENCE THE MOOD AND LOOK OF SCENES. In: Insights-Journal of Life and Social Sciences 2025, Volume 3, Issue 1, https://doi.org/10.71000/n4nvr719.

Niazi, Mahira [et al.]: Illuminating the Cinematic Palette: A Comparative Analysis of Lightning Techniques and their Emotional Impact in Horror Films. In: Human Nature Journal of Social Sciences 2024, Volume 5, Issue 4, https://doi.org/10.71016/hnjss/1td3wd35.

Ammer, Sawsan Mohammed Ezzat Ibrahim: Content Analysis of Lighting and Color in the Embodiment of Fear Concept in Horror Movies: A Semiotic Approach. In: Information Sciences Letters 2020, Volume 9, Issue 2, http://dx.doi.org/10.18576/isl/090210.

by David Adlberger - 30. October 202515. December 2025

Product I: Image Extender

OpenAI API Image Analyzer – Structured Vision Testing and Model Insights

Adaptive Visual Understanding Framework
In this development phase, the focus was placed on building a robust evaluation framework for OpenAI’s multimodal models (GPT-4.1 and GPT-4.1-mini). The primary goal: systematically testing image interpretation, object detection, and contextual scene recognition while maintaining controlled cost efficiency and analytical depth.

upload of image (image source: https://www.trumau.at/)

Combined Request Architecture
Unlike traditional multi-call pipelines, the new setup consolidates image and text interpretation into a single API request. This streamlined design prevents token overhead and ensures synchronized contextual understanding between categories. Each inference returns a structured Python dictionary containing three distinct analytical branches:
• Objects – Recognizable entities such as animals, items, or people
• Scene and Location Estimation – Environment, lighting, and potential geographic cues
• Mood and Composition – Aesthetic interpretation, visual tone, and framing principles

For each uploaded image, the analyzer prints three distinct lists per modelside by side. This offers a straightforward way to assess interpretive differences without complex metrics. In practice, GPT-4.1 tends to deliver slightly more nuanced emotional and compositional insights, while GPT-4.1-mini prioritizes concise, high-confidence object recognition.

results of the image object analysis and model comparison

Through the unified format, post-processing can directly populate separate lists or database tables for subsequent benchmarking, minimizing parsing latency and data inconsistencies.

Robust Output Parsing
Because model responses occasionally include Markdown code blocks (e.g., python {…}), the parsing logic was redesigned with a multi-layered interpreter using regex sanitation and dual parsing strategies (AST > JSON > fallback). This guarantees that even irregularly formatted outputs are safely converted into structured datasets without manual intervention. The system thus sustains analytical integrity under diverse prompt conditions.
Model Benchmarking: GPT-4.1-mini vs. GPT-4.1
The benchmark test compared inference precision, descriptive richness, and token efficiency between the two models. While GPT-4.1 demonstrates deeper contextual inference and subtler mood detection, GPT-4.1-mini achieves near-equivalent recognition accuracy at approximately one-tenth of the cost per request. For large-scale experiments (e.g., datasets exceeding 10,000 images), GPT-4.1-mini provides the optimal balance between granularity and economic viability.
Token Management and Budget Simulation
A real-time token tracker revealed an average consumption of ~1,780 tokens per image request. Given GPT-4.1-mini’s rate of $0.003 / 1k tokens, a one-dollar operational budget supports roughly 187 full image analyses. This insight forms the baseline for scalable experimentation and budget-controlled automation workflows in cloud-based vision analytics.

The next development phase will integrate this OpenAI-driven visual analysis directly into the Image Extender environment. This integration marks the transition from isolated model testing toward a unified generative framework.

by Gregor Schmitz - 20. October 202520. October 2025

Beurteilung der Masterarbeit von Stefanie Nina Steinbichl

Die Klanglichkeit des Sterbens – Untersuchung zur Anwendung und Wahrnehmung klanglicher Todessymbolik und –stereotypen im Sound Design am Beispiel ausgewählter Filmszenen

Hochschule der Medien Stuttgart – Studiengang Elektronische Medien
Erstprüfer: Prof. Oliver Curdt
Zweitprüfer: Prof. Thomas Görne
28. Februar 2011

Die forliegende Masterarbeit von Stefanie Nina Steinbichl beschäftigt sich mit der klanglichen Dimension des Todes im Medium Film und untersucht, wie sich Todessymbole und -stereotype im Sound Design manifestieren und auf die Wahrnehmung des Publikums auswirken. Aufbauend auf theoretischen Grundlagen aus Film-, Medien- und Musikforschung entwickelt die Stefanie Steinbichl eine eigenständige Analyse klanglicher Ausdrucksformen und verknüpft diese mit einem Hörversuch, der die emotionale Wirkung spezifischer Klänge überprüft.

Die Gestaltungshöhe dieser Arbeit ist auf einem hohen ästhetischen Niveau. Die Autorin analysiert zahlreiche filmische und klangliche Gestaltungselemente mit großer Sorgfalt und zeigt ein gutes Verständnis für die komplexe Wechselwirkung zwischen Ton, Emotion und Narration. Die Darstellung der Beispiele und die Einbindung des empirischen Materials sind formal wie inhaltlich gut gelungen. Hervorzuheben ist auch die Gestaltung des eingereichten Textes. Das Format ist ungewöhnlich, überzeugt aber durch ein ansprechende und gut lesbare Erscheinung.

Die Beschäftigung mit Todessymbolik ist an sich soweit ich das beurteilen kann bereits unzählige Male erfolgt. Der Innovationsgrad der Arbeit liegt hier eher in der Verknüpfung verschiedenster Blickwinkel. Die Untersuchung verbindet unter anderem Ansätze aus der filmwissenschaftliche Theorie, Sound Studies und Wahrnehmungspsychologie. Der empirische Hörversuch stellt eine wertvolle Erweiterung des theoretischen Ansatzes dar.

Hinsichtlich der Selbstständigkeit zeigt die Arbeit ein hohes Maß an Eigeninitiative und Reflexionsvermögen. Konzept, Methodik und empirische Umsetzung sind klar eigenständig entwickelt, und die Quellenarbeit ist sorgfältig dokumentiert. Besonders positiv fällt auf, dass im Anschluss auch eine Reflexion der eigenen Forschungsmethodik efolgt.

Die Gliederung und Struktur der Arbeit sind logisch aufgebaut. Der Übergang von der theoretischen Fundierung über die analytische Untersuchung bis hin zum empirischen Teil ist nachvollziehbar und gut balanciert. Die Kapitel bauen sinnvoll aufeinander auf und führen die Leser*innen Stück für Stück zu den Ergebnissen.

Auch der Kommunikationsgrad der Arbeit ist hoch. Trotz der vielen Ansätze gelingt es der Autorin, ihre Argumentation klar verständlich zu formulieren. Wissenschaftliche Terminologie wird häufig eingesetzt, ohne aber dabei die Lesbarkeit einzuschränken.

Der Umfang der Arbeit ist sehr groß. Der Text enthält eine detaillierte Analyse, umfangreiche empirische Auswertungen sowie ergänzende Materialien in Form von Diagrammen, Fotografien und einer beigelegten DVD (die mir leider nicht vorlegt).

Bezüglich Orthografie, Sorgfalt und Genauigkeit zeigt die Arbeit eine hohe sprachliche und formale Qualität. Zitierweise, Layout und Quellenangaben sind korrekt umgesetzt und die Darstellung der Forschungsergebnisse ist präzise. Der Zitierstil ist jedoch ein anderer als der an unserem Institut präferierte.

Das Literaturverzeichnis bzw. Filmverzeichnis könnte evtl. ein klein wenig umfangreicher sein aber ist insgesamt sauber aufgebaut und spiegelt eine sorgfältige, interdisziplinäre Recherche wider.

by Lukas Rieder - 20. October 202520. October 2025

Kritische Beurteilung der Masterarbeit – Proseminar Master’s Thesis Gruppe A

Titel: Objektbasierte Musikproduktion – Entwicklung eines kombinierten Workflows für Dolby Atmos Music und 360 Reality Audio auf Basis einer bereits bestehenden Stereo-Mischung
Autorin: Daniela Rieger
Erscheinungsjahr: 2020
Studiengang: Masterstudiengang Audiovisuelle Medien
Hochschule: Hochschule der Medien Stuttgart (HdM)
Betreuung: Betreuung (Praxispartner Fraunhofer IIS, Erlangen): Dr. Ulli Scuda, M.Eng. Philipp Eibl

Zur Masterarbeit

Allgemeiner Überblick

Die Masterarbeit von Daniela Rieger wurde im Studiengang Audiovisuelle Medien an der Hochschule der Medien Stuttgart verfasst und befasst sich mit einem Thema, welches sehr nahe zu meinem aktuell geplanten Masterarbeitsthema ist: der objektbasierten Musikproduktion in den Formaten Dolby Atmos Music und 360 Reality Audio. Ziel der Arbeit ist es, einen kombinierten Workflow zu entwickeln, der auf einer bereits bestehenden Stereo-Produktion aufbaut und für beide Formate funktioniert. Dies ist im Grunde eine gute Grundlage, wie ich die Stereo-Produktionen (die ich jetzt schon habe), in 3D Audio übertragen kann.

Die Arbeit ist klar und nachvollziehbar aufgebaut. Nach einer Einführung folgen theoretische Grundlagen zu objektbasiertem Audio, eine technische Beschreibung der beiden Systeme, die Entwicklung des Workflows sowie die praktische Umsetzung anhand eines realen Songs (Kentia Danca von RIAD & J.K.Rollin’). Das Werkstück besteht also aus einer konkreten Produktion in beiden Formaten, die in der Arbeit ausführlich dokumentiert wird.

Gestaltungshöhe

Die Arbeit überzeugt durch ihren hohen technischen Anspruch. Rieger zeigt ein sehr gutes Verständnis für komplexe Produktionsabläufe und schafft es, diese in einen strukturierten, praxisnahen Workflow zu übersetzen. Die Darstellung ist detailliert, mit vielen Abbildungen und Beispielen, wodurch die technische Umsetzung nachvollziehbar wird.
Was etwas zu kurz kommt, ist die gestalterisch-ästhetische Bewertung des Ergebnisses. Die Autorin beschreibt zwar die klanglichen Unterschiede zwischen den beiden Formaten, führt aber keine systematische Höruntersuchung oder vergleichende Evaluation durch (Hörtests?).

Innovationsgrad

Das Thema war zum Zeitpunkt der Veröffentlichung (2020) sehr aktuell und relevant. Objektbasierte Musikformate befanden sich damals im Aufschwung, und ein kombinierter Workflow war bisher kaum dokumentiert. Der Neuigkeitswert liegt also vor allem in der praxisorientierten Kombination beider Systeme, nicht in einer theoretischen Neuentwicklung.

Selbstständigkeit

Die Arbeit zeigt ein hohes Maß an Eigenständigkeit. Rieger hat sich intensiv in beide Systeme eingearbeitet, die Workflows eigenständig aufgebaut. Besonders positiv fällt auf, dass sie bei technischen Schwierigkeiten eigene Lösungen entwickelt und direkt mit Dolby in Kontakt stand, um Detailfragen zu klären.

Gliederung und Struktur

Der Aufbau ist logisch und gut nachvollziehbar. Die Kapitel sind klar voneinander abgegrenzt und führen schrittweise von der Theorie zur Praxis. Abbildungen, Tabellen und Screenshots unterstützen die Struktur und helfen beim Verständnis.
Manche theoretische Abschnitte sind recht textlastig und hätten etwas kürzer ausfallen können. Auch methodische Entscheidungen (z. B. Parameterwahl bei den Exporten) könnten stellenweise übersichtlicher zusammengefasst werden.

Kommunikationsgrad

Riegers Schreibstil ist sachlich, präzise und technisch korrekt. Sie erklärt komplexe Sachverhalte verständlich und belegt ihre Aussagen mit anschaulichen Beispielen. Besonders hilfreich sind die zahlreichen Screenshots und Diagramme, die ihre Beschreibungen unterstützen.
Teilweise ist der Text recht dicht und setzt technisches Vorwissen voraus, was für ein Fachpublikum aber angemessen ist. Für Leser*innen außerhalb unseres Studiengangs wäre ein kurzes Glossar oder eine Zusammenfassung am Ende der Kapitel hilfreich gewesen.

Umfang der Arbeit

Die Arbeit hat einen sehr passenden Umfang. Sie behandelt alle relevanten Aspekte des Themas und geht dabei sowohl theoretisch als auch praktisch in die Tiefe. Der Aufwand der praktischen Umsetzung wird deutlich, und der Umfang ist für eine Masterarbeit angemessen und ausgewogen.

Orthographie, Sorgfalt und Genauigkeit

Die Arbeit ist formal sehr sauber. Sprache, Rechtschreibung und Layout sind größtenteils fehlerfrei. Zitate und Quellenangaben sind korrekt formatiert, und die Verzeichnisse sind vollständig. Nur gelegentlich finden sich längere Schachtelsätze, die man für eine noch bessere Lesbarkeit etwas vereinfachen könnte.

Literatur

Das Literaturverzeichnis ist umfangreich und enthält sowohl wissenschaftliche als auch praxisnahe Quellen. Neben Fachartikeln und AES-Publikationen nutzt Rieger auch aktuelle Dokumentationen der Hersteller Dolby und Sony, die für das Thema unerlässlich sind.

Beurteilung des Werkstücks

Das Werkstück ist der zentrale praktische Teil der Arbeit. Es besteht aus der Umsetzung eines Songs in Dolby Atmos Music und 360 Reality Audio und wird detailliert beschrieben. Rieger zeigt alle Schritte von der Session-Struktur über die Plugin-Konfiguration bis hin zu den Exporten und Lautheitsmessungen.
Die Umsetzung ist technisch überzeugend und praxisnah. Theorie und Praxis greifen sinnvoll ineinander, und die Arbeit zeigt klar, welche Unterschiede und Herausforderungen in den beiden Formaten bestehen. Zwar sind die fertigen Produktionen selbst (also die Audiofiles) nicht direkt zugänglich (was leider sehr schade ist), doch die Dokumentation ist so detailliert, dass der Prozess vollständig nachvollziehbar bleibt.
Insgesamt entspricht die Qualität des Werkstücks eindeutig den Anforderungen einer Masterarbeit auf unserer FH: Es ist technisch sauber, innovativ und zeigt einen klaren Erkenntnisgewinn.

Meine persönliche Gesamtbewertung

Daniela Rieger hat mit dieser Arbeit eine sehr gelungene und praxisorientierte Masterarbeit vorgelegt. Sie verbindet theoretisches Wissen mit praktischer Umsetzung auf hohem Niveau und liefert einen Workflow, der auch für andere Produzenten und Toningenieur*innen relevant ist.
Besonders positiv ist die technische Präzision und die klare Struktur. Etwas ausbaufähig wäre noch die klangliche bzw. ästhetische Bewertung des Ergebnisses, etwa durch eine kleine Hörstudie oder eine Reflexion der wahrgenommenen Räumlichkeit.

Insgesamt überzeugt die Arbeit durch ihre Sorgfalt, Tiefe und Praxisnähe. Ich würde sie im oberen Notenbereich einstufen – zwischen 1 und 2

Empfehlung / Inspiration für mein 3D Audio Master-Projekt

Es könnte wirklich noch spannender sein, die Hörwahrnehmung stärker in den Fokus zu rücken – etwa durch kleine Vergleichstests oder Feedbackrunden mit Hörer*innen (wie das bei anderen Masterarbeiten, die ich in diesem Bereich gelesen hatte, auch schon getan wurde).

by David Adlberger - 19. October 2025

Zwischen Bild und Ton – Kritische Bewertung der Masterarbeit “Automatic Sonification of Video Sequences” von Andrea Corcuera Marruffo

Grundlegendes

Autorin: Andrea Corcuera Marruffo
Titel: Automatic Sonification of Video Sequences through Object Detection and Physical Modelling
Hochschule: Aalborg University Copenhagen
Studiengang: MSc Sound and Music Computing
Jahr: 2017

Die Arbeit von Andrea Corcuera Marruffo untersucht die automatische Erzeugung von Foley-Sounds aus Videosequenzen. Ziel ist es, audiovisuelle Inhalte algorithmisch zu sonifizieren, indem visuelle Informationen, z.B. Materialeigenschaften oder Objektkollisionen, mithilfe von Convolutional Neural Networks (nutzung des YOLO models) analysiert und anschließend physikalisch modellierte Klänge synthetisiert werden. Damit positioniert sich die Arbeit an der Schnittstelle von Klangsynthese, teilweise software und coding und Wahrnehmung, ein Feld, das in der Medienproduktion wie auch in der künstlerischen Forschung zunehmende Relevanz besitzt und entsprechend auch überschneidungen zum Grundkonzept meiner vorstehenden Masterarbeit.

Das „Werkstück“ besteht aus einem funktionalen Prototypen, der Videos analysiert, Objekte klassifiziert und deren Interaktionen in synthetisierte Klänge übersetzt. Ergänzt wird dieses Tool durch eine Evaluation, in der audiovisuelle Stimuli hinsichtlich ihrer Plausibilität und wahrgenommenen Qualität getestet werden.

Bewertung

systematisch anhand der Beurteilungskriterien des Studiengangs CMS

(1) Gestaltungshöhe

Die Arbeit zeigt eine sehr gute technische Tiefe und eine klare methodische Struktur. Der Aufbau ist logisch, die Visualisierungen (z. B. Flussdiagramme, Spektrogramme) sind nachvollziehbar und unterstützen das Verständnis des Prozesses.

(2) Innovationsgrad

Der Ansatz, Foley-Sound automatisch (unter dem Einsatz von „physical modelling“) zu generieren, wurde zum Zeitpunkt der Veröffentlichung (2017) nur vereinzelt erforscht. Die Verbindung von Object Detection und Physical Modelling stellt daher einen innovativen Beitrag im Bereich „Computational Sound Design“ dar.

(3) Selbstständigkeit

Die Arbeit zeigt eine deutliche Eigenleistung. Die Autorin erstellt ein eigenes Dataset, modifiziert Trainingsdaten und implementiert das YOLO Model in einer angepassten Form. Auch die Syntheseparameter werden experimentell abgeleitet. Die Eigenständigkeit ist daher sowohl konzeptionell als auch technisch vorhanden.

(4) Gliederung und Struktur

Die Struktur folgt einem klassischen wissenschaftlichen Aufbau. Theorie, Implementierung, Evaluation, Schlussfolgerung. Kapitel sind klar fokussiert, jedoch teils stark technisch geprägt, was die Lesbarkeit für fachfremde Leser einschränken kann. Eine visuellere Darstellung der Evaluationsmethodik hätte das eventuell verbessert.

(5) Kommunikationsgrad

Die Arbeit ist insgesamt verständlich und präzise formuliert. Fachtermini werden sorgfältig eingeführt, Abbildungen sind beschriftet und logisch eingebunden. Der sprachliche Stil ist sachlich, allerdings manchmal zu stark an technischer Dokumentation orientiert. Narrative Reflexionen zu Designentscheidungen oder ästhetischen Überlegungen fehlen weitgehend, was anhand des Studiengangs, welcher sich nicht hauptsächlich an design orientiert verständlich und nachvollziehbar ist.

(6) Umfang der Arbeit

Mit über 30 Seiten Haupttext und zusätzlichem Anhang ist der Umfang angemessen. Die Balance zwischen Theorie, Umsetzung und Evaluation ist gelungen. Die empirische Studie mit 15 Proband bleibt jedoch relativ klein, wodurch die statistische Aussagekraft begrenzt ist.

(7) Orthographie, Sorgfalt und Genauigkeit

Die Arbeit ist durchgängig formal korrekt und methodisch sorgfältig dokumentiert. Kleinere sprachliche Unschärfen („he first talkie film“) mindern den Gesamteindruck kaum. Zitate und Quellenverweise sind konsistent.

(8) Literatur Das Literaturverzeichnis zeigt eine solide theoretische Fundierung. Es werden gängige Quellen zu Sound Synthesis, Modal Modelling und Neural Networks verwendet (Smith, Farnell, Van den Doel). Allerdings wären aktueller Medien- oder Wahrnehmungsforschung (durch z. B. Sonic Interaction Design, Embodied Sound Studies) noch eine spannende Ergänzung hinsichtlich Forschungsliteratur gewesen.

Abschließende Einschätzung

Insgesamt überzeugt die Arbeit durch ihren innovativen Ansatz, die methodische Präzision und die gelungene Umsetzung eines komplexen Systems. Die Evaluation zeigt kritisch die Grenzen des Modells auf (Objektgenauigkeit und Synchronisationsprobleme), was die Autorin reflektiert und nachvollziehbar einordnet.

Stärken: klare Struktur, hohes technisches Niveau, origineller Forschungsansatz, eigenständige Implementierung.
Schwächen: begrenzte ästhetische Reflexion, kleine Stichprobe in der Evaluation, eingeschränkte Materialvielfalt.

by Benjamin Pohler - 13. October 202512. October 2025

Proseminar Master’s Thesis – Benjamin Pohler

Sprachverständlichkeit im Broadcast:
Masterarbeit von Elias Thomas Weißenrieder (HdM Stuttgart, 2024)

Arbeit (https://curdt.home.hdm-stuttgart.de/PDF/Weissenrieder.pdf)

Theoretische Ausarbeitung eines Programmtools zur Sprachverständlichkeitsanalyse von Sprachsignal-Audiodateien aus dem Broadcastumfeld
Elias Thomas Weißenrieder, Master of Engineering, Hochschule der Medien Stuttgart, Studiengang: Audiovisuelle Medien.

Warum für mich interessant

Sprachverständlichkeit ist im TV-Broadcast eines der wichtigsten Forschungsfelder überhaupt. Die Arbeit entwickelt theoretisch, aber praxisnah ein Programmkonzept zur automatisierten Verständlichkeitsanalyse und prüft dafür etablierte Verfahren gegeneinander. Fokus: Was taugt im echten Broadcast-Use Case? Dazu gehören ein Versuch mit Hörtest und die Ableitung einer GUI/Workflow-Skizze für ein späteres Tool.

Abbildung: GUI Skizze vom entwickelten Tool

Werkstück/Dokumentation

Es gibt kein ausgeliefertes Tool, aber klar dokumentierte Bausteine: Auswahl und Implementierungswege (Python Code) für akustische Metriken der Sprachverständlichkeitsmessung STOI, PESQ und NISQA, ein Hörversuch zur Validierung, Skizzen der Oberfläche, Blockschaltbilder zweier Varianten (intrusiv mit Referenz vs. non-intrusiv), plus Nutzerinterview mit einem Broadcast-Toningenieur (13 Jahre Praxis).
Die Versuchsdaten sind typisch Broadcast: Kommentar Beyerdynamic DT797 PV über RIEDEL CCP-1116, Atmo mit SCHOEPS ORTF-3D (8 Kanäle). Aufzeichnung u. a. mit Reaper und RME MADIface USB, Routing „Direct Out“ aus LAWO; spätere Bearbeitung/Export u. a. in Nuendo 12, Loudness auf −23 LUFS normiert. Das “Werkstück” ist somit eine simulierte Stadionatmosphäre “in the Box” nachgestellt.

Abbildung: Aufbau eines ORTF 3D

1. Gestaltungshöhe

Die gestalterische Leistung liegt hier im Design eines belastbaren Mess-Workflows statt in Klangkunst. Sound Design Aspekte fanden hier dennoch seinen Platz für die Simulation für den Hörversuch. Positiv hervorzuheben ist: sauberer Use Case (Live-Kommentar im Stadion), realistische Testsignale, und eine Oberfläche, die Durchschnitts- und Worst-Block-Werte ausweist (für den schnellen Check und den gezielten Drill-down). Das ist genau der Blick, den man in der Sendezentrale braucht. Ein ästhetisches Sound-Narrativ schlüssig.

2. Innovationsgrad, Neuigkeitswert und Beitrag

Nicht neu ist, dass man die Metriken STOI/PESQ/NISQA kennt, neu ist die konsequente Einbettung in Broadcast-Praxis inkl. Hörtest-Abgleich und GUI-Konsequenzen für die Programmierung (Blockgrößen, Sortierung, Ergebnisdarstellung). Das ist ein relevanter, kleiner Schritt Richtung operationalisierbares Tool. In der Zukunft wäre eine offene Referenz-Datenbank (Audio + Ground Truth) nötig, aber für eine Masterarbeit ist der gewählte Umfang und Scope realistisch und umfangreich genug.

3. Selbstständigkeit und Eigenleistung

Die Arbeit zeigt eigenständige Entscheidungen: Versuchsdesign (auch wenn es hier Kritikpunkte von mir gibt, da ein ITU-genormtes Design nicht einghalten wurde), Auswahl und Implementierungspfade der Algorithmen, Norm-Lautheit, Testsignal-Kuratorik (z. B. keine Eigennamen, um Bias zu vermeiden). Auch das Nutzerinterview ist selbst erhoben und floss in die GUI-Anforderungen ein (z. B. einfache Tabellen-View, blockweise Detailansicht).

4. Gliederung und Struktur, Logik und Nachvollziehbarkeit

Wießenrieder hält sich klar: Grundlagen, Vergleich, Versuch, Tool-Konzept, Hypothesen-Check und alles mündet in einem Fazit mit Implementierungsvorschlag. Es kann schnell herausgefunden werden, was wo begründet ist. Für meinen Geschmack könnte der Methoden-Teil teils kompakter sein, dafür glänzen die Blockschaltbilder und die GUI-Skizzen als Orientierungsanker.

5. Kommunikationsgrad, Verständlichkeit, Ausdruck und Darstellungsweise

Die Sprache ist sachlich, gut lesbar. Wichtig für mich war Einordnung und Konsequenz, dies wird durchgezogen (z. B. MOS-Skala für Hörtest, Mapping der Verfahren). Was ich mir als Leser wünschen würde: Audio-Beispiele/QR-Links und 1-2 Plots (z. B. Block-STOI über Zeit), um die Argumente des Autors der Masterarbeit hör- und sichtbar zu machen.

6. Umfang und Angemessenheit

Umfang passt zum Ziel einer theoretische Ausarbeitung und Validierung auf einen Datensatz. Der Hörtest ist okay skaliert (MOS-Skala definiert aber abgewandelt, Setup beschrieben), Hörversuch hat zu wenig Teilnehmer, ist okay für eine Masterarbeit, limitiert aber die Generalisierbarkeit bzw. kann sich negativ auf die statistische Auswertung auswirken.

7. Orthographie, Sorgfalt & Genauigkeit, Formale Präzision

Formal sauber, konsistente Terminologie, klare Verweise. Die Lautheits-Normierung (-23dB LUFS), die Samplerate-Grenzen (PESQ-Limit bei 16 kHz) und der Export-Workflow sind präzise dokumentiert. Pluspunkt für Reproduzierbarkeit. Ein vollständiger Tech-Appendix (Kanal-Matrizen, Skript-Versionen, REAPER Session) wären vorteilhaft gewesen.

8. Literatur, Qualität, Relevanz, Vollständigkeit

Die Kernverfahren (STOI, PESQ, POLQA, NISQA, STI/SII, etc.) sind eingeführt und sinnvoll verortet. Für ein produktives Tool bräuchte es perspektivisch mehr Breite bei Non-Intrusive Methoden und Domain-Spezifika (z. B. codec-spezifische Fehlerbilder im TV-Chain). Für die gewählte Fragestellung reicht diese Auswahl aber mehr als genug aus. Alle die schonmal mit der Messung solcher akustischen Metriken arbeiteten wissen, wie aufwändig dies ist auszuwerten und zu einem Hörversuch zusammenzuschüren.

Ergebnisdiskussion und Kernresultate

Im direkten Abgleich mit dem Hörtest schneidet STOI am besten ab. PESQ liegt spürbar dahinter, NISQA weicht am stärksten ab. Unter anderem weil das Modell in diesem Setup sogar das Referenzsignal zu schlecht bewertet und dadurch die Skalierung kippt. Für Live-Kommentar und Stadion-Atmo ist STOI daher die naheliegende Wahl: Das Maß reagiert robust auf maskierende Umgebungsgeräusche; PESQ misst eher allgemeine Qualität als Verständlichkeit.

Für die Bedienung würde ich für meinen Geschmack und für die Übersichtlichkeit so aufziehen: Balkendiagramm für den schnellen Vergleich mehrerer Dateien, dazu eine Tabelle mit Gesamtwert und dem schwächsten Zeitfenster inkl. Position, für die Detailprüfung eine zeitliche Fensterung mit Wellenform. Das ist im Sendebetrieb schnell lesbar und spart Zeit.

Das Test-Setup spiegelt reale TV-Bedingungen (Headset, ORTF-3D-Atmo, -23dB LUFS, LAWO-Kette). Die Ergebnisse sind damit gut auf ähnliche Livesituationen übertragbar. Grenzen sehe ich bei anderen Störprofilen und immersiven Ausspielungen. Nächste Schritte wären für mich: nicht-intrusive Modelle gezielt mit Broadcast-Daten nachtrainieren und kanal/stem-getrennte Auswertungen prüfen, um Maskierung in komplexeren Mischungen besser zu sehen.

Stärken/Schwächen der Masterarbeit

Die Stärke von Weißenrieders Masterarbeit liegt in der praktischen Umsetzung: getestet wird mit echten Broadcast-Signalen (Kommentar gegen Stadion-Atmo), nicht mit Labor-Pink-Noise. Der Weg von Versuch zu Entscheidung ist stringent: Hörtest und Algorithmusvergleich führen nachvollziehbar zu STOI als Leitgröße, daraus folgen klare UI-/Prozess-Konsequenzen (Schnellübersicht, schwächstes Zeitfenster mit Positionsangabe, einfache Sortierung). Der Nutzerfokus wirkt echt und sendetauglich.

Schwachstellen gibt es trotzdem: Die Hörtest-Stichprobe ist offenbar klein, und das dominierende Szenario (Fußball + Kommentar) lässt offen, wie stabil die Befunde in ruhigeren Formaten wären. Die ITU Norm für den MOS Hörversuch wurde modifiziert, was die Auswertbarkeit so nicht schlüssig macht. Hörbeispiele oder Zeitverlaufs-Plots hätten die Argumente zusätzlich tragfähig gemacht.

Für meine Praxis nehme ich mit: STOI als Default, aber blockweise auswerten (nicht nur Mittelwerte). Ablauf zuerst denken: Tabelle mit Gesamt- und Minimumwert, Balkenvergleich über Files, dazu eine einfache Timeline mit Wellenform. Und Daten wie on-air kuratieren (-23dB LUFS, Headsets, reale Atmo). Perspektivisch lohnt sich der Blick auf Immersive/Stem-basierte Auswertung.
Fazit: eine fokussierte, praxistaugliche Arbeit mit echtem Mehrwert für den Sendebetrieb.

by Verena Schneider - 11. October 2025

Critical Review: “Sound response to physicality – Artistic expressions of movement sonification” by Aleksandra Joanna Słyż (Royal College of Music, 2022)

by Verena Schneider, CMS24 Sound Design Master

The master thesis “Sound Response to Physicality: Artistic Expressions of Movement Sonification” was written by Aleksandra Joanna Słyż in 2022 at the Royal College of Music in Stockholm (Kungliga Musikhögskolan; Stockholm, Sweden).

Introduction

I chose Aleksandra Słyż’s master thesis because her topic immediately resonated with my own research interests. In my master project I am working with the x-IMU3 motion sensor to track surf movements and transform them into sound for a surf documentary.
During my research process, the question of how to sonify movement data became central, and Słyż’s work gave me valuable insights into which parameters can be used and how the translation from sensor to sound can be conceptually designed.

Her thesis, Sound response to physicality, focuses on the artistic and perceptual dimensions of movement sonification. Through her work Hypercycle, she explores how body motion can control and generate sound in real time, using IMU sensors and multichannel sound design. I found many of her references—such as John McCarthy and Peter Wright’s Technology as Experience—highly relevant for my own thesis.

Gestaltungshöhe – Artistic Quality and Level of Presentation

Słyż’s thesis presents a high level of artistic and conceptual quality. The final piece, Hypercycle, is a technically complex and interdisciplinary installation that connects sound, body, and space. The artistic idea of turning the body into a musical instrument is powerful, and she reflects deeply on the relation between motion, perception, and emotion.

Visually, the documentation of her work is clear and professional, though I personally wished for a more detailed sonic description. The sound material she used is mainly synthesized tones—technically functional, but artistically minimal. As a sound designer, I would have enjoyed a stronger exploration of timbre and spatial movement as expressive parameters.

Innovationsgrad – Innovation and Contribution to the Field

Using motion sensors for artistic sonification is not entirely new, yet her combination of IMU data, embodied interaction, and multichannel audio gives the project a strong contemporary relevance. What I found innovative was how she conceptualized direct and indirect interaction—how spectators experience interactivity even when they don’t control the sound themselves.

However, from a technical point of view, the work could have been more transparent. I was missing a detailed explanation of how exactly she mapped sensor data to sound parameters. This part felt underdeveloped, and I see potential for future work to document such artistic systems more precisely.

Selbstständigkeit – Independence and Original Contribution

Her thesis clearly shows independence and artistic maturity. She worked across disciplines—combining psychology, music technology, and perception studies—and reflected on her process critically. I especially appreciated that she didn’t limit herself to the technical side but also integrated a psychological and experiential perspective.

As someone also working with sensor-based sound, I can see how much self-direction and experimentation this project required. The depth of reflection makes the work feel authentic and personal.

Gliederung und Struktur – Structure and Coherence

The structure of the thesis is logical and easy to follow. Each chapter begins with a quote that opens the topic in a poetic way, which I found very effective. She starts by explaining the theoretical background, then moves toward the technical discussion of IMU sensors, and finally connects everything to her artistic practice.

Her explanations are written in clear English, and she carefully defines all important terms such as sonification, proprioception, and biofeedback. Even readers with only basic sound design knowledge can follow her reasoning.

Kommunikationsgrad – Communication and Expression

The communication of her ideas is well-balanced between academic precision and personal reflection. I like that she uses a human-centered language, often describing how the performer or spectator might feel within the interactive system.

Still, the technical documentation of the sonification process could be more concrete. She briefly shows a Max/MSP patch, but I would have loved to understand more precisely how the data flow—from IMU to sound—was built. For future readers and practitioners, such details would be extremely valuable.

Umfang – Scope and Depth

The length of the thesis (around 50 pages) feels appropriate for the topic. She covers a wide range of areas: from sensor technology and perception theory to exhibition practice and performance philosophy.
At the same time, I had the impression that she decided to keep the technical parts lighter, focusing more on conceptual reflection. For me, this makes the thesis stronger as an artistic reflection, but weaker as a sound design manual.

Orthography, Accuracy, and Formal Care

The thesis is very carefully written and proofread. References are consistent, and the terminology is accurate. She integrates both scientific and artistic citations, which gives the text a professional academic tone.
The layout is clear, and the visual elements (diagrams, performance photos) are well placed.

Literature – Quality and Relevance

The literature selection is one of the strongest aspects of this work. She cites both technical and philosophical sources—from G. Kramer’s Sonification Report to McCarthy & Wright’s Technology as Experience and Tanaka & Donnarumma’s The Body as Musical Instrument.
For me personally, her bibliography became a guide for my own research. I found new readings that I will also include in my master thesis.

Final Assessment – Strengths, Weaknesses, and Personal Reflection

Overall, Sound response to physicality is a well-balanced, thoughtful, and inspiring thesis that connects technology, perception, and art.
Her biggest strength lies in how she translates complex sensor-based interactions into human experience and emotional resonance. The way she conceptualizes embodied interaction and indirect interactivity is meaningful and poetic.

The main weakness, in my opinion, is the lack of detailed technical documentation—especially regarding how the IMU data was mapped to sound and multichannel output. As someone building my own sonification system with the x-IMU3 and contact microphones, I would have loved to see the exact data chain from sensor to audio.

Despite that, her work inspired me profoundly. It reminded me that the psychological and experiential dimensions of sound are just as important as the data itself. In my own project, where I sonify the movement of a surfboard and the feeling of the ocean, I will carry this understanding forward: that sonification is not only about data translation but about shaping human experience through sound.

by dominik.bluemel - 4. July 2025

02.10: Finale, ooooh

Und da sind wir nun, 90 Minuten vor der eh schon verlängerten Deadline. Aber: wir sind hier. Und haben was zu zeigen!

Mithilfe all dessen, was ich in den letzten neun Blogposts an theoretischem Input über Statistiken und praktischen Fähigkeiten in After Effects gelernt habe, habe ich mich nämlich an die Arbeit gesetzt. Mein Ziel: ich möchte in Zukunft meine journalistischen Videos komplett selbst produzieren können, also nicht nur filmen und schneiden, sondern auch animieren. Schon in der Vergangenheit, bei einer großen Reportage, die ich gedreht habe, ist mir das nämlich zum Verhängnis geworden. Als Endprodukt wollte ich also einen kurzen animierten Film machen, der in einer langen live action Reportage als kurzes Erklärvideo vorkommen könnte, um Fakten und Zahlen zu veranschaulichen. Als Thema habe ich dafür eine ehemalige Recherche von mir genommen, die nur online und nicht im Videoformat erschienen ist und habe aus dieser von null auf ein Video produziert. Das Ergebnis? Seht ihr ganz am Schluss! Vorher möchte ich noch kurz in einer auflisten, warum ich Dinge so gemacht habe wie ich sie gemacht habe, um dem ganzen noch einen wissenschaftlichen Background zu geben.

Da der erste Fakt, die Anzahl der Vereine, nur eine einzige Zahl ist, habe ich mich entschieden, wie von Few empfohlen, diese nicht als Graphen, sondern als Text darzustellen, genauer mit einem Slider.
Die zweite Darstellung ist eine Aufteilungsdarstellung, da sie näher zeigt wie sich diese Vereine zusammensetzen. Auch wenn Few wie im neunten Blogpost erwähnt von Pie-Charts abrät, habe ich mich dennoch für einen entschieden. Dies hat mehrere Gründe. Erstens war dies die einzige Aufteilungsdarstellung im gesamten Video, daher die einzige Chance einen Pie Chart zu verwenden und damit mehr Abwechslung zu ermöglichen. Zweitens traf in diesem Fall jene Regel zu, die ich wie in Post 9 erwähnt, im Bachelor gelernt habe, nämlich, dass maximal drei Werte dargestellt werden. Und drittens, hat sich die grafische Darstellung durch den Mittelkreis des Fußballfeldes gut ergeben.
Die dritte ist eine ordnende Darstellung, da diese nur über Balken funktioniert habe ich Balken verwendet und von links nach rechts geordnet.
Die nächsten sind geografische Darstellungen, deshalb habe ich eine Karte verwendet. Wie Few empfiehlt, mit Punkten für einzelne Werte, und Linien für Strecken.
Die letzte Darstellung ist eine Abweichungsdarstellung. Wie Few empfiehlt habe ich hierfür gruppierte Balken verwendet und den Soll vom Ist-Wert durch die Füllfarbe getrennt.

Nun möchte ich euch aber nicht länger aufhalten und hoffe ihr verzeiht mir mein schlechtes Sounddesign… die Zeit hat gedrängt! Viel Spaß!