Sphere of Sound — R&D Rapport VR-CBT

Research & Development Report

Sphere of Sound

Voice Transformation Engine

DSP-onderzoek, Neurale Stemconversie & Unity Implementatieroadmap
Project VR-CBT — ten behoeve van VRelax

Opgesteld door Sphere of Sound Opgesteld voor VRelax — Developmentteam (ontwikkelaars & product owner) Project VR-CBT — Virtual Reality Cognitive Behavioural Therapy Subsidie VIA Groningen 2025–2026 — Versneller Innovatieve Ambities Verstrekker SNN — Samenwerkingsverband Noord-Nederland (Just Transition Fund / JTF) Versie 1.0 — Vertrouwelijk

Sphere of Sound | R&D Rapport — Project VR-CBT Vertrouwelijk — VIA Subsidie SNN / JTF

—Managementsamenvatting

Dit rapport documenteert het onderzoeks- en ontwikkelwerk dat Sphere of Sound heeft uitgevoerd op het gebied van real-time voice transformatietechnologie. Het werk is direct gerelateerd aan het VR-CBT project van VRelax — een klinisch gevalideerde VR-relaxatieapplicatie ingezet in de geestelijke gezondheidszorg, verslavingszorg, ouderenzorg en ziekenhuizen. De bevindingen dienen als inhoudelijke onderbouwing voor de VIA-subsidieaanvraag bij het SNN in het kader van het Just Transition Fund (JTF), en als technische aanbeveling voor het VRelax developmentteam.

VRelax biedt wetenschappelijk gevalideerde VR-ervaringen die aantoonbaar stress met 48%, depressie met 42% en angst met 41% reduceren. De therapeutische werking is voor een significant deel afhankelijk van de kwaliteit van de begeleidende stem — een stem die onnatuurlijk of artificieel klinkt doorbreekt onmiddellijk de immersieve staat die het therapeutisch effect mogelijk maakt.

Het onderzoek richt zich op de vraag hoe een overtuigende, therapeutisch verantwoorde stemtransformatie technisch gerealiseerd kan worden in Unity. Daartoe is systematisch onderzoek gedaan naar de psychoakoestische parameters die stemperceptie bepalen, zijn DSP-methoden geïmplementeerd en empirisch geëvalueerd, en is de architectuur van neurale stemconversiesystemen geanalyseerd als kwalitatief hoogwaardiger alternatief.

Kernbevindingen

DSP-gebaseerde stemtransformatie heeft een harde perceptuele grens: de stem klinkt bewerkt, maar niet overtuigend anders — onacceptabel voor therapeutische toepassingen.
De perceptuele kloof wordt veroorzaakt door het ontbreken van sprekeridentiteitsmodellering, coarticulatie, glottale pulsvariantie en foneem-specifiek formantgedrag.
Neurale stemconversie (RVC / Seed-VC klasse modellen) overbrugt deze kloof door spraak te begrijpen en te hersyntetiseren in plaats van het signaal te hervormen.
Een hybride architectuur — DSP voor real-time, neuraal model voor gescripte content — is de aanbevolen implementatiestrategie voor VRelax in Unity.
Een perceptuele besturingslaag (Warmte, Kalmte, Autoriteit, Intimiteit) is technisch haalbaar en essentieel voor gebruik door niet-technische contentmakers.
Dit onderzoek kwalificeert als experimentele ontwikkeling (art. 25 AGVV), met aantoonbare technische onzekerheden en maatschappelijke impact in de RIS3 transitie van zorg naar (positieve) gezondheid en van analoog naar digitaal.

1Projectcontext en Relevantie voor VRelax en VIA

1.1 Over VRelax en het VR-CBT Project

VRelax is een wetenschappelijk gevalideerde Virtual Reality applicatie, ontwikkeld in samenwerking met zorgprofessionals en wetenschappers, ingezet voor ontspanning en positieve afleiding bij mensen met mentale en fysieke klachten. De applicatie wordt gebruikt door honderden zorginstellingen in Nederland en internationaal — waaronder GGZ-instellingen, ziekenhuizen, verslavingszorg en ouderenzorg. VRelax is beschikbaar op Meta Quest-hardware en draait op Unity als ontwikkelplatform.

Het VR-CBT project richt zich op de uitbreiding van de VRelax-applicatie met elementen van Cognitieve Gedragstherapie (CGT) in een immersieve VR-omgeving. Spraak speelt hierin een centrale rol: begeleide oefeningen, psycho-educatie en therapeutische instructies worden auditief aangeboden. Dit stelt aanzienlijk hogere eisen aan stemtransformatietechnologie dan gebruikelijke game- of entertainmenttoepassingen.

1.2 Aansluiting bij de VIA Subsidie en RIS3 Transities

De VIA-subsidie van het SNN, gefinancierd vanuit het Just Transition Fund (JTF), is bedoeld voor mkb-ondernemingen in de provincie Groningen die innovatieve producten, diensten of processen ontwikkelen die bijdragen aan de vier RIS3-transities. Dit onderzoek sluit direct aan bij twee van deze transities:

Van zorg naar (positieve) gezondheid: VRelax en het VR-CBT project dragen direct bij aan toegankelijke, technologisch innovatieve zorgoplossingen. De stemtransformatie-engine vergroot de klinische bruikbaarheid door therapeutisch overtuigende, gepersonaliseerde audio-ervaringen mogelijk te maken.
Van analoog naar digitaal: De ontwikkeling van een real-time DSP- en neuraal stemtransformatiesysteem in Unity vertegenwoordigt een substantiële digitale innovatiestap — van statische audio-opnames naar dynamisch, adaptief en AI-gestuurd stemgedrag in een therapeutische VR-omgeving.

Het onderzoek kwalificeert als experimentele ontwikkeling: er waren bij aanvang aantoonbare technische onzekerheden over welke parameters stemperceptie bepalen, of DSP-methoden voldoende kwaliteit kunnen leveren voor therapeutisch gebruik, en hoe neurale modellen geïntegreerd kunnen worden in een real-time Unity omgeving op consumer VR-hardware.

1.3 Waarom Dit Werk Gespecialiseerde R&D Vereist

De stemtransformatieproblematiek voor VRelax bevindt zich op het snijvlak van psychoakoestiek, real-time DSP-engineering en machine learning integratie. Het werk vereiste:

Systematisch onderzoek naar de psychoakoestische parameters die stemkarakter en emotionele toon bepalen
Praktische implementatie en evaluatie van een meerstaps DSP-transformatieketen in een professionele audioproductieomgeving
Empirische toetsing aan menselijke perceptiebenchmarks (man-naar-vrouw stemconversie als stresstest)
Grondige analyse van waarom DSP-methoden een perceptueel plafond bereiken en wat de technische oorzaken zijn
Onderzoek naar de architectuur en integratieroute van neurale stemconversiemodellen in Unity via ONNX en Unity Sentis
Ontwerp van een perceptuele besturingsabstractie (Warmte, Kalmte, Autoriteit) geschikt voor niet-technische contentmakers

2De Wetenschap van Stemperceptie

Een overtuigende stemtransformatie vereist begrip van hoe het menselijk brein stemmen waarneemt. Ons onderzoek identificeerde vijf perceptuele lagen die elk bijdragen aan hoe een stem wordt ervaren — in termen van gender, leeftijd, emotie, nabijheid en authenticiteit.

2.1 De Vijf Perceptuele Lagen van Stemgeluid

Laag	Component	Wat het bepaalt	Perceptueel effect
1 — Bron	Stembanden / glottis	Toonhoogte, jitter, shimmer, kraakstem, ademruis	Gender, leeftijd, emotie, authenticiteit
2 — Filter	Vocaal kanaal resonantie	Formantfrequenties en bandbreedten	Lichaamsbouw, accent, klinkerkarakter
3 — Spectraal	HF-energieverdeling	Spectrale helling, harmonisch gehalte	Warmte, helderheid, aanwezigheid, afstand
4 — Temporeel	Timing en dynamiek	Articulatiesnelheid, envelop, vibrato	Energie, autoriteit, kalmte
5 — Cognitief	Prosodie en taalpatronen	Intonatie, ritme, nadruk, pauzes	Emotie, intentie, vertrouwen

2.2 Belangrijkste Parameters en Perceptuele Impact

Spectrale helling (Spectral Tilt)

De mate waarop hoog-frequent energie afneemt in het spectrum. Een steilere helling klinkt donkerder, warmer, ouder en meer op afstand. Een vlakkere helling klinkt helderder, meer feminien en meer aanwezig. Dit is de parameter met de hoogste perceptuele impact per implementatie-inspanning — direct te realiseren als shelving-EQ. Voor VRelax is dit de primaire parameter voor het instellen van warme, therapeutisch veilige stemkarakters.

Jitter en Shimmer

Cyclus-op-cyclus variatie in grondfrequentie (jitter) en amplitude (shimmer). Menselijke stemmen hebben van nature circa 0,5–1,0% jitter en 2–3% shimmer. Een stem met nul jitter en shimmer wordt onmiddellijk als robotisch waargenomen. Dit is de belangrijkste parameter op de as 'menselijk versus artificieel' — en het eerste wat moet worden geïmplementeerd om de robotkwaliteit van verwerkte stemmen te elimineren.

Harmonic-to-Noise Ratio (HNR) en Ademruis

De verhouding van periodieke (tonale) tot aperiodieke (ruis)energie. Een hoge HNR produceert heldere, autoritaire stemmen. Verlaagde HNR via adem-ruisinjectie creëert zachtheid, intimiteit en femininiteit. Voor therapeutische toepassingen is een licht verhoogde ademruis gunstig: het communiceert veiligheid, nabijheid en kalmte.

Formantfrequenties en Bandbreedten

De resonantiepieken van het stemkanaal (F1 t/m F5) bepalen klinkeridentiteit en de waargenomen grootte van het stemkanaal. Alle formanten circa 15–20% omhoog verschuiven wekt de indruk van een korter, kleiner stemkanaal. Kritisch maar vaak over het hoofd gezien: de bandbreedte van elke resonantiepiek bepaalt of de stem nasaal/robotisch (smal) of warm/open (breed) klinkt.

Prosodie

Op macro-temporeel niveau zijn intonatiecontour, spreektempo, pauzelengte en nadrukplaatsing de primaire dragers van emotionele intentie. Een kalme, therapeutische stem heeft langzaam tempo, dalende terminale intonatie en verlengde pauzes. Dit zijn aspecten die niet door de engine worden getransformeerd maar essentieel zijn voor de geluidsregie en opnamekwaliteit van VRelax-content.

2.3 Perceptuele Parameters per Stemkarakter (VRelax-context)

Gewenst karakter	Primaire parameters	Relevantie voor VRelax
Warm & veilig	Steilere spectrale helling, brede formantbandbreedten, zachte saturatie	Basiskarakter voor alle therapeutische begeleiding
Kalm & rustgevend	Smal prosodisch bereik, langzame articulatie, laag shimmer	Geleide ontspanning, ademhalingsoefeningen
Autoritair & betrouwbaar	Kraakstem, lage toonhoogte, stabiel shimmer, min. ademruis	Instructies, veiligheidsinformatie, CBT-opdrachten
Intiem & nabij	Proximity-EQ (bas boost), ademruis, lage reverb	Close guidance, exposure therapy ondersteuning
Afstandelijk / ambient	HF-rolloff, verhoogde reverb, gedempte dynamiek	Achtergrondnarrator, sfeerlaag, nature worlds
Jeugdig / energiek	Hogere toonhoogte, hogere formanten, snellere articulatie	Kindermodule (6–12 jaar) van VRelax

3DSP Implementatie — Wat We Hebben Gebouwd en Getest

Om empirisch begrip te ontwikkelen van DSP-gebaseerde stemtransformatie, hebben we een meerstaps verwerkingsketen ontworpen, geïmplementeerd en getest in Ableton Live Suite. Deze keten vertegenwoordigt de huidige stand van de techniek in real-time, plugin-gebaseerde stemtransformatie en dient als directe benchmark waartegen neurale benaderingen worden gemeten.

3.1 De DSP Transformatieketen

#	Stap	DSP functie	Perceptueel effect
01	Noise Gate	Demping onder drempelwaarde	Schone invoer, voorkomt artefactversterking
02	Pre-EQ (tilt)	HP bij 80 Hz, lage shelf −3–5 dB bij 200–350 Hz	Verwijdert mannelijke borstresonantie
03	Toonhoogte verschuiving	Fase vocoder, +5 tot +7 halve tonen	Verhoogt grondfrequentie
04	Formant verschuiving	Onafhankelijke kanaallengte schaling (+15–20%)	Kortere vocaaltract perceptie
05	Post-EQ	Hoge shelf +4 dB bij 3,5 kHz, lucht bij 8 kHz	Vrouwelijke helderheid en aanwezigheid
06	Ademruis	Gevormd aspiration ruis, sidechain gate	Intimiteit, zachtheid, femininiteit
07	Saturatie	Soft-sine golfvormer, 2–4 dB drive	Warmte, harmonisch gehalte
08	Dynamische EQ	Aanwezigheidscontrole bij 3,5 kHz	Voorkomt harshheid, behoudt lucht
09	Micro-modulatie	Langzaam koor / grain delay bij 0,3–0,5 Hz	Jitter/shimmer benadering
10	Compressor	3:1, 8 ms attack, zachte knee	Dynamiekcontrole, cohesie
11	Reverb	Kleine ruimte, 8–15% wet, 0,8–1,2 s decay	Ruimtelijke natuurlijkheid

3.2 Testprotocol en Empirische Evaluatie

Een gestandaardiseerde testzin werd geselecteerd om elk element van de keten gelijktijdig te belasten. De zin bevat een reeks aaneengesloten klinkers, sibianten, plosieven en sonoranten. De opname werd in drie varianten gemaakt: neutraal/monotoon, natuurlijk spreekritme en langzaam/bewust. Elke opname werd geëvalueerd op naturaliteit, genderperceptie en afwezigheid van verwerkingsartefacten, zowel in bypass als verwerkt.

3.3 Resultaten en Beperkingen

De DSP-keten produceerde een meetbare en perceptueel significante verschuiving. Toonhoogte, formantpositie, spectrale helderheid en ademruis reageerden allen zoals voorspeld door de onderliggende DSP-modellen. Evaluatie op het naturaliteitscriterium onthulde echter consistente tekortkomingen:

Sibianten werden te helder of gingen fluiten onder zware verwerking
Plossieve transients werden uitgespreid door de fase vocoder — consonantduidelijkheid nam af
De getransformeerde stem klinkt 'bewerkt', zelfs wanneer individuele parameters zijn geoptimaliseerd — de uncanny valley van stemgeluid
Coarticulatie — het natuurlijke vloeien van fonemen in elkaar — ontbreekt volledig, waardoor subtiel robotachtig karakter ontstaat aan foneemgrenzen
Formant verschuiving wordt globaal toegepast, terwijl natuurlijke stemmen foneem-specifieke formantdoelen hebben

Deze beperkingen zijn geen ingenieursfalen — het zijn de inherente grenzen van signaalverwerkingsbenaderingen. Ze ontstaan omdat DSP op de golfvorm werkt zonder enig begrip van wat er wordt gezegd of wie het zegt.

4Neurale Stemconversie — Waarom AI-modellen Overtuigender Klinken

Het fundamentele verschil tussen DSP-gebaseerde en neurale stemconversie is geen gradueel maar een categorisch verschil. DSP transformeert een signaal. Een neuraal stemconversiemodel begrijpt spraak en regenereert het in een andere stem.

4.1 Architectuur van een Neuraal Stemconversiesysteem

Stap 1 — Spraakcodering (inhoudsextractie)

Een spraakencoder — gebaseerd op modellen zoals HuBERT of wav2vec 2.0 — verwerkt de invoerstem en extraheert een spreker-onafhankelijke representatie van wat er is gezegd. Deze representatie bevat foneem-niveau inhoud zonder toonhoogte, timbre of sprekeridentiteit. DSP heeft geen equivalent voor deze stap — het kan niet scheiden wat er is gezegd van wie het zegt.

Stap 2 — Sprekerembedding (identiteitscodering)

Het model bevat een geleerde sprekerembedding voor de doelstem — een compacte numerieke vector (typisch 256–512 dimensies) die de volledige akoestische identiteit van een specifieke stem codeert. Dit omvat formantgedrag over alle fonemen, glottale pulskarakter, ademruisverdeling, spectrale helling, jitterprofiel — alles wat een stem herkenbaar maakt. Deze embedding wordt geleerd uit trainingsdata van de doelstem.

Stap 3 — Synthese

Een synthesemodel — typisch een transformer of diffusie-netwerk — neemt de inhoudstokens en de sprekerembedding, en genereert de akoestische kenmerken van de doelstem die de broninhoud uitspreekt. Cruciaal: deze synthese is contextbewust — het model weet welk foneem aan het huidige voorafgaat en volgt, en genereert coarticulatie van nature.

Stap 4 — Neurale vocoder

Een neurale vocoder — typisch HiFi-GAN — converteert de akoestische kenmerken naar een golfvorm op sampleniveau. Het genereert de exacte textuur van de doelstem: het specifieke karakter van elke glottale puls, de precieze verdeling van ademruis, de microvariaties in amplitude en frequentie die een stem levend doen voelen.

4.2 Vergelijking: DSP vs. Neuraal per Perceptueel Probleem

Perceptueel probleem	DSP-aanpak (en begrenzing)	Neurale aanpak
Coarticulatie	Niet geadresseerd — elk moment onafhankelijk verwerkt	Geleerd uit trainingsdata; contextbewust gegenereerd
Foneem-specifieke formanten	Vaste globale verschuiving — correct voor sommige, verkeerd voor andere fonemen	Afzonderlijk formantdoel per foneem en per spreker
Glottale textuur	Benaderd via saturatie en ruis — niet cyclus-nauwkeurig	Samplesgewijs gegenereerd door de neurale vocoder
Jitter en shimmer	Benaderd door LFO-modulatie — niet op cyclus-niveau	Impliciet in de vocoder-uitvoer vanuit training
Sprekeridentiteit	Niet gemodelleerd — uitvoer is bron + transformaties	Volledig gecodeerd in sprekerembedding
Therapeutische overtuigingskracht	Bewerkt klinkende stem — perceptueel plafond bereikt	Overtuigend, authentiek — geschikt voor klinisch gebruik

5Aanbevelingen voor het VRelax Developmentteam

De volgende vijf aanbevelingen zijn geordend van hoogste prioriteit naar langere termijn strategische richting, met praktische implementatiedetails per aanbeveling gericht op het developmentteam bestaande uit ontwikkelaars en product owner.

Aanbeveling 1 — Adopteer een Hybride Architectuur

Route	Technologie	Toepassing binnen VRelax
Real-time (in-game)	DSP keten in Unity C#	Live stemmonitoring, adaptieve feedback, low-latency preview
Hoge kwaliteit (pre-rendered)	Neuraal model via ONNX / Unity Sentis	Geleide meditatie, CBT-sessies, gescripte therapeutische content
Offline (content pipeline)	RVC / Seed-VC op GPU-werkstation	Batchconversie van opgenomen begeleidingstracks voor release

De begeleidende spraak in VRelax — de meditatie-instructies, de ontspanningscues, de CGT-begeleiding — hoeft niet real-time gegenereerd te worden. Het is gescripte content die offline met volledige neurale kwaliteit kan worden verwerkt. Real-time transformatie is alleen vereist voor adaptieve of responsieve stemfuncties, waarvoor DSP volledig voldoet.

Aanbeveling 2 — Evalueer RVC Onmiddellijk voor de Content Pipeline

Retrieval-based Voice Conversion (RVC) is een open-source neuraal stemconversiesysteem dat draait op consumenten-GPU hardware, overtuigende resultaten produceert, en slechts 10–30 minuten schone doelstem-audio vereist voor fine-tuning. Opzetten kost één tot twee dagen en vereist geen ML-expertise.

RVC: github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
Seed-VC: hogere kwaliteit met modernere architectuur — aanbevolen als alternatief
Dataset: neem 20–40 minuten schone, droge opnames op in het gewenste stemkarakter
Trainingstijd: 1–4 uur op een mid-range GPU
Verwachte kwaliteit: aanzienlijk overtuigender dan welke DSP-keten dan ook

Aanbeveling 3 — Integreer ONNX-modellen via Unity Sentis

Unity's Sentis package maakt het mogelijk ONNX-formaat neurale netwerken te draaien binnen Unity op CPU of GPU — de aanbevolen integratieroute zonder externe inferentieserver.

Exporteer een getraind stemconversiemodel naar ONNX-formaat
Importeer via Unity Sentis en benchmark inferentietijd op Meta Quest doelhardware
Voor content die 200–500 ms latentie kan tolereren, is volledige neurale conversie in Unity haalbaar
Voor latentiegevoelig gebruik: draai neurale conversie op een achtergrondthread met DSP-gevulde ringbuffer

Aanbeveling 4 — Bouw de DSP Keten in Unity C# als Fundament

Een DSP-verwerkingsketen in Unity C# is het bouwen waard als real-time fundament. Het is goedkoop, volledig beheersbaar en levert directe resultaten voor prototyping. Implementeer als verwerkingsgraph in OnAudioFilterRead, in de volgende prioriteitsvolgorde:

Pri	Module	Unity implementatie	Perceptueel rendement
1	Spectrale helling EQ	Biquad shelving filter keten	Grootste enkele impact op stemkarakter
2	Jitter / Shimmer modulatie	LFO + RNG, cyclus-rate update	Elimineert robotkwaliteit direct
3	Ademruis injectie	Gevormd ruis + sidechain gate	Zachtheid, intimiteit, femininiteit
4	Zachte saturatie	Per-sample golfvormer	Warmte en harmonisch gehalte
5	Formant bandbreedte controle	Q-factor op resonatorfilters	Naturaliteit, verwijdert ringelend karakter
6	Proximity EQ	Lage shelf boost + HF rolloff	Afstand en intimiteitscontrole
7	Vibrato modulator	Sinus LFO op toonhoogteverhouding	Expressiviteit, warmte
8	Articulatiesnelheid	Tijddomein stretch	Energie, leeftijd, kalmte vs. urgentie

Aanbeveling 5 — Bouw een Perceptuele Besturings-API

De technische DSP- en neurale parameters mogen niet rechtstreeks worden blootgesteld aan contentmakers of ervaringsontwerpers. Een perceptuele abstractielaag koppelt menselijk-betekenisvolle bediening aan de onderliggende parameterruimte.

Besturingsparameter	Primaire technische parameters	Therapeutisch effect in VRelax
Warmte	Spectrale helling (donker), saturatie, F1 bandbreedte	Veilig, omhullend, niet-bedreigend aanwezig
Autoriteit	Kraakstem, lage toonhoogte, stabiel shimmer	Betrouwbare begeleider, geaard, rustig zelfvertrouwen
Kalmte	Smal prosodisch bereik, langzame articulatie, laag shimmer	Vertraagt het zenuwstelsel van de luisteraar
Intimiteit	Proximity-EQ, ademruis, lage afstand	Dichtbij, persoonlijk, privé — gevoel van veilige ruimte
Aanwezigheid	Saturatie bij 2–5 kHz, proximity boost	Stem voelt vooruit, helder, betrokken
Leeftijd	Jitter, shimmer, helling, articulatiesnelheid	Wijsheid, jeugdigheid, vertrouwdheidsafstelling
Afstand	Reverb, HF rolloff, dynamiekcompressie	Nabije begeleider vs. ambient achtergrond
Emotionele toon	Prosodisch bereik, arousalniveau (tempo), valentie	Volledige emotiekaart — Russell's circumplex model

6Implementatieroadmap

De volgende gefaseerde roadmap vertaalt de onderzoeksbevindingen en aanbevelingen naar een praktische ontwikkelsequentie. De fasering is gebaseerd op perceptueel rendement per implementatie-inspanning.

Fase 1

Fundament

Biquad filterketen in Unity C# (OnAudioFilterRead)
Spectrale helling EQ — shelving filter
Jitter en shimmer modulatie — cyclus-rate ruis
Validatie: bypass vs. verwerkt luistertest

Fase 2

Stemkarakter

Ademruis injectie met sidechain gate
Zachte saturatiemodule (golfvormer)
Formant bandbreedtecontrole aan resonatorfilters
Kraakstemmodule (laagfrequente ruisbursten)

Fase 3

Ruimtelijk & Temporeel

Proximity EQ (lage shelf boost + HF rolloff)
Korte convolutie reverb (IR < 512 samples)
Articulatiesnelheidscontrole (tijddomein stretch)
Vibrato modulator

Fase 4

Neurale Integratie

RVC / Seed-VC op GPU-werkstation instellen
Doelstem dataset opnemen en trainen
Model exporteren naar ONNX-formaat
Integratie via Unity Sentis; benchmark op Meta Quest
Hybride routing: DSP real-time, neuraal voor scripts

Fase 5

Perceptuele Besturings-API

VoiceDesignAPI klasse met perceptuele dimensies
Preset systeem (Kalme Begeleider, Warm, Autoritair)
Unity Editor inspector met beschrijvende labels
Validatie met contentmakers en clinici

Fase 6 — Optioneel

AI-gestuurde Controle

Emotie → parameter mapping via ML
LLM / intentie → stemparameter vertaling
Adaptief stemgedrag op basis van HRV-sensordata
Koppeling met VRelax GRIP co-viewing platform

7Technische Overwegingen voor Unity

Alle real-time audioverwerking in Unity draait op de audio-thread via OnAudioFilterRead. Deze thread heeft een harde deadline — het missen ervan veroorzaakt audio-glitches. De volgende beperkingen moeten worden gerespecteerd:

Verwerkingstype	Budget (512-sample buffer)	Noten
Biquad filterketen (10 filters)	~0,05 ms	Verwaarloosbaar — altijd veilig
Jitter / shimmer / ruis	~0,02 ms	Verwaarloosbaar
Zachte saturatie	~0,02 ms	Per-sample berekening — zeer goedkoop
Fase vocoder (1024 FFT)	3–5 ms	Budget zorgvuldig — overweeg native C++ plugin
Neurale model inferentie	50–500 ms	Verplicht op achtergrondthread met ringbuffer

Kritische Threading Regel

Nooit geheugen toewijzen vanuit OnAudioFilterRead — dit veroorzaakt garbage collection stalls op de audio-thread.
Nooit de Unity API aanroepen vanuit de audio-thread — gebruik voorberekende coëfficiënten en lock-vrije ringbuffers.
Voor FFT-gebaseerde verwerking: wrap een C++ bibliotheek (SoundTouch, rubber-band of WORLD vocoder) als Unity Native Audio Plugin. Het prestatieverschil vs. pure C# is 5–10x.
Unity Sentis biedt een compatibel pad voor ONNX neurale modellen op CPU én GPU zonder externe runtime-afhankelijkheden.

8Conclusie

Dit onderzoek stelt vast dat overtuigende, therapeutisch verantwoorde stemtransformatie voor het VR-CBT project van VRelax aanzienlijk verder gaat dan toonhoogte- en formant-verschuiving. De perceptuele kwaliteit van een stem wordt bepaald door een rijke hiërarchie van parameters — van glottale pulskarakter en spectrale helling, via jitter en ademruis, tot prosodisch ritme en ruimtelijke positionering — die allen coherent moeten worden aangepakt.

DSP-gebaseerde benaderingen bieden een performante, real-time-capabele basis en zijn het bouwen waard als live verwerkingslaag. Ze hebben echter een hard kwaliteitsplafond dat niet kan worden overwonnen door verdere afstelling. Neurale stemconversie — specifiek open-source systemen zoals RVC en Seed-VC — overwint dit plafond door spraak te begrijpen in plaats van golfvormen te hervormen.

De aanbevolen route voor VRelax is een hybride architectuur: een DSP-keten voor real-time en adaptieve verwerking, gecombineerd met een neurale conversiepipeline voor gescripte content, geïmplementeerd in Unity via ONNX en Unity Sentis. Deze aanpak is technisch haalbaar, vereist geen externe afhankelijkheden tijdens runtime, en is leverbaar binnen een gefaseerde ontwikkelroadmap.

De perceptuele besturings-API — Warmte, Kalmte, Autoriteit, Intimiteit en aanverwante dimensies — is zowel haalbaar als essentieel. Het zorgt ervoor dat de stemengine een creatief hulpmiddel blijft voor ervaringsontwerpers en clinici, niet een technische last voor ontwikkelaars.

Dit onderzoek draagt aantoonbaar bij aan de RIS3-transities van zorg naar (positieve) gezondheid en van analoog naar digitaal, en vertegenwoordigt de experimentele ontwikkelingsinspanning waarvoor de VIA-subsidie van het SNN (JTF) is bedoeld. De uitkomsten zijn direct inzetbaar in de verdere ontwikkeling van het VR-CBT project.