Sphere of Sound — R&D Rapport VR-CBT
Research & Development Report
Sphere of Sound
Voice Transformation Engine
DSP-onderzoek, Neurale Stemconversie & Unity Implementatieroadmap
Project VR-CBT — ten behoeve van VRelax
Opgesteld door Sphere of Sound Opgesteld voor VRelax — Developmentteam (ontwikkelaars & product owner) Project VR-CBT — Virtual Reality Cognitive Behavioural Therapy Subsidie VIA Groningen 2025–2026 — Versneller Innovatieve Ambities Verstrekker SNN — Samenwerkingsverband Noord-Nederland (Just Transition Fund / JTF) Versie 1.0 — Vertrouwelijk
Sphere of Sound  |  R&D Rapport — Project VR-CBT Vertrouwelijk — VIA Subsidie SNN / JTF

Managementsamenvatting

Dit rapport documenteert het onderzoeks- en ontwikkelwerk dat Sphere of Sound heeft uitgevoerd op het gebied van real-time voice transformatietechnologie. Het werk is direct gerelateerd aan het VR-CBT project van VRelax — een klinisch gevalideerde VR-relaxatieapplicatie ingezet in de geestelijke gezondheidszorg, verslavingszorg, ouderenzorg en ziekenhuizen. De bevindingen dienen als inhoudelijke onderbouwing voor de VIA-subsidieaanvraag bij het SNN in het kader van het Just Transition Fund (JTF), en als technische aanbeveling voor het VRelax developmentteam.

VRelax biedt wetenschappelijk gevalideerde VR-ervaringen die aantoonbaar stress met 48%, depressie met 42% en angst met 41% reduceren. De therapeutische werking is voor een significant deel afhankelijk van de kwaliteit van de begeleidende stem — een stem die onnatuurlijk of artificieel klinkt doorbreekt onmiddellijk de immersieve staat die het therapeutisch effect mogelijk maakt.

Het onderzoek richt zich op de vraag hoe een overtuigende, therapeutisch verantwoorde stemtransformatie technisch gerealiseerd kan worden in Unity. Daartoe is systematisch onderzoek gedaan naar de psychoakoestische parameters die stemperceptie bepalen, zijn DSP-methoden geïmplementeerd en empirisch geëvalueerd, en is de architectuur van neurale stemconversiesystemen geanalyseerd als kwalitatief hoogwaardiger alternatief.

Kernbevindingen
  • DSP-gebaseerde stemtransformatie heeft een harde perceptuele grens: de stem klinkt bewerkt, maar niet overtuigend anders — onacceptabel voor therapeutische toepassingen.
  • De perceptuele kloof wordt veroorzaakt door het ontbreken van sprekeridentiteitsmodellering, coarticulatie, glottale pulsvariantie en foneem-specifiek formantgedrag.
  • Neurale stemconversie (RVC / Seed-VC klasse modellen) overbrugt deze kloof door spraak te begrijpen en te hersyntetiseren in plaats van het signaal te hervormen.
  • Een hybride architectuur — DSP voor real-time, neuraal model voor gescripte content — is de aanbevolen implementatiestrategie voor VRelax in Unity.
  • Een perceptuele besturingslaag (Warmte, Kalmte, Autoriteit, Intimiteit) is technisch haalbaar en essentieel voor gebruik door niet-technische contentmakers.
  • Dit onderzoek kwalificeert als experimentele ontwikkeling (art. 25 AGVV), met aantoonbare technische onzekerheden en maatschappelijke impact in de RIS3 transitie van zorg naar (positieve) gezondheid en van analoog naar digitaal.

1Projectcontext en Relevantie voor VRelax en VIA

1.1  Over VRelax en het VR-CBT Project

VRelax is een wetenschappelijk gevalideerde Virtual Reality applicatie, ontwikkeld in samenwerking met zorgprofessionals en wetenschappers, ingezet voor ontspanning en positieve afleiding bij mensen met mentale en fysieke klachten. De applicatie wordt gebruikt door honderden zorginstellingen in Nederland en internationaal — waaronder GGZ-instellingen, ziekenhuizen, verslavingszorg en ouderenzorg. VRelax is beschikbaar op Meta Quest-hardware en draait op Unity als ontwikkelplatform.

Het VR-CBT project richt zich op de uitbreiding van de VRelax-applicatie met elementen van Cognitieve Gedragstherapie (CGT) in een immersieve VR-omgeving. Spraak speelt hierin een centrale rol: begeleide oefeningen, psycho-educatie en therapeutische instructies worden auditief aangeboden. Dit stelt aanzienlijk hogere eisen aan stemtransformatietechnologie dan gebruikelijke game- of entertainmenttoepassingen.

1.2  Aansluiting bij de VIA Subsidie en RIS3 Transities

De VIA-subsidie van het SNN, gefinancierd vanuit het Just Transition Fund (JTF), is bedoeld voor mkb-ondernemingen in de provincie Groningen die innovatieve producten, diensten of processen ontwikkelen die bijdragen aan de vier RIS3-transities. Dit onderzoek sluit direct aan bij twee van deze transities:

  • Van zorg naar (positieve) gezondheid: VRelax en het VR-CBT project dragen direct bij aan toegankelijke, technologisch innovatieve zorgoplossingen. De stemtransformatie-engine vergroot de klinische bruikbaarheid door therapeutisch overtuigende, gepersonaliseerde audio-ervaringen mogelijk te maken.
  • Van analoog naar digitaal: De ontwikkeling van een real-time DSP- en neuraal stemtransformatiesysteem in Unity vertegenwoordigt een substantiële digitale innovatiestap — van statische audio-opnames naar dynamisch, adaptief en AI-gestuurd stemgedrag in een therapeutische VR-omgeving.

Het onderzoek kwalificeert als experimentele ontwikkeling: er waren bij aanvang aantoonbare technische onzekerheden over welke parameters stemperceptie bepalen, of DSP-methoden voldoende kwaliteit kunnen leveren voor therapeutisch gebruik, en hoe neurale modellen geïntegreerd kunnen worden in een real-time Unity omgeving op consumer VR-hardware.

1.3  Waarom Dit Werk Gespecialiseerde R&D Vereist

De stemtransformatieproblematiek voor VRelax bevindt zich op het snijvlak van psychoakoestiek, real-time DSP-engineering en machine learning integratie. Het werk vereiste:

  • Systematisch onderzoek naar de psychoakoestische parameters die stemkarakter en emotionele toon bepalen
  • Praktische implementatie en evaluatie van een meerstaps DSP-transformatieketen in een professionele audioproductieomgeving
  • Empirische toetsing aan menselijke perceptiebenchmarks (man-naar-vrouw stemconversie als stresstest)
  • Grondige analyse van waarom DSP-methoden een perceptueel plafond bereiken en wat de technische oorzaken zijn
  • Onderzoek naar de architectuur en integratieroute van neurale stemconversiemodellen in Unity via ONNX en Unity Sentis
  • Ontwerp van een perceptuele besturingsabstractie (Warmte, Kalmte, Autoriteit) geschikt voor niet-technische contentmakers

2De Wetenschap van Stemperceptie

Een overtuigende stemtransformatie vereist begrip van hoe het menselijk brein stemmen waarneemt. Ons onderzoek identificeerde vijf perceptuele lagen die elk bijdragen aan hoe een stem wordt ervaren — in termen van gender, leeftijd, emotie, nabijheid en authenticiteit.

2.1  De Vijf Perceptuele Lagen van Stemgeluid

LaagComponentWat het bepaaltPerceptueel effect
1 — BronStembanden / glottisToonhoogte, jitter, shimmer, kraakstem, ademruisGender, leeftijd, emotie, authenticiteit
2 — FilterVocaal kanaal resonantieFormantfrequenties en bandbreedtenLichaamsbouw, accent, klinkerkarakter
3 — SpectraalHF-energieverdelingSpectrale helling, harmonisch gehalteWarmte, helderheid, aanwezigheid, afstand
4 — TemporeelTiming en dynamiekArticulatiesnelheid, envelop, vibratoEnergie, autoriteit, kalmte
5 — CognitiefProsodie en taalpatronenIntonatie, ritme, nadruk, pauzesEmotie, intentie, vertrouwen

2.2  Belangrijkste Parameters en Perceptuele Impact

Spectrale helling (Spectral Tilt)

De mate waarop hoog-frequent energie afneemt in het spectrum. Een steilere helling klinkt donkerder, warmer, ouder en meer op afstand. Een vlakkere helling klinkt helderder, meer feminien en meer aanwezig. Dit is de parameter met de hoogste perceptuele impact per implementatie-inspanning — direct te realiseren als shelving-EQ. Voor VRelax is dit de primaire parameter voor het instellen van warme, therapeutisch veilige stemkarakters.

Jitter en Shimmer

Cyclus-op-cyclus variatie in grondfrequentie (jitter) en amplitude (shimmer). Menselijke stemmen hebben van nature circa 0,5–1,0% jitter en 2–3% shimmer. Een stem met nul jitter en shimmer wordt onmiddellijk als robotisch waargenomen. Dit is de belangrijkste parameter op de as 'menselijk versus artificieel' — en het eerste wat moet worden geïmplementeerd om de robotkwaliteit van verwerkte stemmen te elimineren.

Harmonic-to-Noise Ratio (HNR) en Ademruis

De verhouding van periodieke (tonale) tot aperiodieke (ruis)energie. Een hoge HNR produceert heldere, autoritaire stemmen. Verlaagde HNR via adem-ruisinjectie creëert zachtheid, intimiteit en femininiteit. Voor therapeutische toepassingen is een licht verhoogde ademruis gunstig: het communiceert veiligheid, nabijheid en kalmte.

Formantfrequenties en Bandbreedten

De resonantiepieken van het stemkanaal (F1 t/m F5) bepalen klinkeridentiteit en de waargenomen grootte van het stemkanaal. Alle formanten circa 15–20% omhoog verschuiven wekt de indruk van een korter, kleiner stemkanaal. Kritisch maar vaak over het hoofd gezien: de bandbreedte van elke resonantiepiek bepaalt of de stem nasaal/robotisch (smal) of warm/open (breed) klinkt.

Prosodie

Op macro-temporeel niveau zijn intonatiecontour, spreektempo, pauzelengte en nadrukplaatsing de primaire dragers van emotionele intentie. Een kalme, therapeutische stem heeft langzaam tempo, dalende terminale intonatie en verlengde pauzes. Dit zijn aspecten die niet door de engine worden getransformeerd maar essentieel zijn voor de geluidsregie en opnamekwaliteit van VRelax-content.

2.3  Perceptuele Parameters per Stemkarakter (VRelax-context)

Gewenst karakterPrimaire parametersRelevantie voor VRelax
Warm & veiligSteilere spectrale helling, brede formantbandbreedten, zachte saturatieBasiskarakter voor alle therapeutische begeleiding
Kalm & rustgevendSmal prosodisch bereik, langzame articulatie, laag shimmerGeleide ontspanning, ademhalingsoefeningen
Autoritair & betrouwbaarKraakstem, lage toonhoogte, stabiel shimmer, min. ademruisInstructies, veiligheidsinformatie, CBT-opdrachten
Intiem & nabijProximity-EQ (bas boost), ademruis, lage reverbClose guidance, exposure therapy ondersteuning
Afstandelijk / ambientHF-rolloff, verhoogde reverb, gedempte dynamiekAchtergrondnarrator, sfeerlaag, nature worlds
Jeugdig / energiekHogere toonhoogte, hogere formanten, snellere articulatieKindermodule (6–12 jaar) van VRelax

3DSP Implementatie — Wat We Hebben Gebouwd en Getest

Om empirisch begrip te ontwikkelen van DSP-gebaseerde stemtransformatie, hebben we een meerstaps verwerkingsketen ontworpen, geïmplementeerd en getest in Ableton Live Suite. Deze keten vertegenwoordigt de huidige stand van de techniek in real-time, plugin-gebaseerde stemtransformatie en dient als directe benchmark waartegen neurale benaderingen worden gemeten.

3.1  De DSP Transformatieketen

#StapDSP functiePerceptueel effect
01Noise GateDemping onder drempelwaardeSchone invoer, voorkomt artefactversterking
02Pre-EQ (tilt)HP bij 80 Hz, lage shelf −3–5 dB bij 200–350 HzVerwijdert mannelijke borstresonantie
03Toonhoogte verschuivingFase vocoder, +5 tot +7 halve tonenVerhoogt grondfrequentie
04Formant verschuivingOnafhankelijke kanaallengte schaling (+15–20%)Kortere vocaaltract perceptie
05Post-EQHoge shelf +4 dB bij 3,5 kHz, lucht bij 8 kHzVrouwelijke helderheid en aanwezigheid
06AdemruisGevormd aspiration ruis, sidechain gateIntimiteit, zachtheid, femininiteit
07SaturatieSoft-sine golfvormer, 2–4 dB driveWarmte, harmonisch gehalte
08Dynamische EQAanwezigheidscontrole bij 3,5 kHzVoorkomt harshheid, behoudt lucht
09Micro-modulatieLangzaam koor / grain delay bij 0,3–0,5 HzJitter/shimmer benadering
10Compressor3:1, 8 ms attack, zachte kneeDynamiekcontrole, cohesie
11ReverbKleine ruimte, 8–15% wet, 0,8–1,2 s decayRuimtelijke natuurlijkheid

3.2  Testprotocol en Empirische Evaluatie

Een gestandaardiseerde testzin werd geselecteerd om elk element van de keten gelijktijdig te belasten. De zin bevat een reeks aaneengesloten klinkers, sibianten, plosieven en sonoranten. De opname werd in drie varianten gemaakt: neutraal/monotoon, natuurlijk spreekritme en langzaam/bewust. Elke opname werd geëvalueerd op naturaliteit, genderperceptie en afwezigheid van verwerkingsartefacten, zowel in bypass als verwerkt.

3.3  Resultaten en Beperkingen

De DSP-keten produceerde een meetbare en perceptueel significante verschuiving. Toonhoogte, formantpositie, spectrale helderheid en ademruis reageerden allen zoals voorspeld door de onderliggende DSP-modellen. Evaluatie op het naturaliteitscriterium onthulde echter consistente tekortkomingen:

  • Sibianten werden te helder of gingen fluiten onder zware verwerking
  • Plossieve transients werden uitgespreid door de fase vocoder — consonantduidelijkheid nam af
  • De getransformeerde stem klinkt 'bewerkt', zelfs wanneer individuele parameters zijn geoptimaliseerd — de uncanny valley van stemgeluid
  • Coarticulatie — het natuurlijke vloeien van fonemen in elkaar — ontbreekt volledig, waardoor subtiel robotachtig karakter ontstaat aan foneemgrenzen
  • Formant verschuiving wordt globaal toegepast, terwijl natuurlijke stemmen foneem-specifieke formantdoelen hebben

Deze beperkingen zijn geen ingenieursfalen — het zijn de inherente grenzen van signaalverwerkingsbenaderingen. Ze ontstaan omdat DSP op de golfvorm werkt zonder enig begrip van wat er wordt gezegd of wie het zegt.

4Neurale Stemconversie — Waarom AI-modellen Overtuigender Klinken

Het fundamentele verschil tussen DSP-gebaseerde en neurale stemconversie is geen gradueel maar een categorisch verschil. DSP transformeert een signaal. Een neuraal stemconversiemodel begrijpt spraak en regenereert het in een andere stem.

4.1  Architectuur van een Neuraal Stemconversiesysteem

Stap 1 — Spraakcodering (inhoudsextractie)

Een spraakencoder — gebaseerd op modellen zoals HuBERT of wav2vec 2.0 — verwerkt de invoerstem en extraheert een spreker-onafhankelijke representatie van wat er is gezegd. Deze representatie bevat foneem-niveau inhoud zonder toonhoogte, timbre of sprekeridentiteit. DSP heeft geen equivalent voor deze stap — het kan niet scheiden wat er is gezegd van wie het zegt.

Stap 2 — Sprekerembedding (identiteitscodering)

Het model bevat een geleerde sprekerembedding voor de doelstem — een compacte numerieke vector (typisch 256–512 dimensies) die de volledige akoestische identiteit van een specifieke stem codeert. Dit omvat formantgedrag over alle fonemen, glottale pulskarakter, ademruisverdeling, spectrale helling, jitterprofiel — alles wat een stem herkenbaar maakt. Deze embedding wordt geleerd uit trainingsdata van de doelstem.

Stap 3 — Synthese

Een synthesemodel — typisch een transformer of diffusie-netwerk — neemt de inhoudstokens en de sprekerembedding, en genereert de akoestische kenmerken van de doelstem die de broninhoud uitspreekt. Cruciaal: deze synthese is contextbewust — het model weet welk foneem aan het huidige voorafgaat en volgt, en genereert coarticulatie van nature.

Stap 4 — Neurale vocoder

Een neurale vocoder — typisch HiFi-GAN — converteert de akoestische kenmerken naar een golfvorm op sampleniveau. Het genereert de exacte textuur van de doelstem: het specifieke karakter van elke glottale puls, de precieze verdeling van ademruis, de microvariaties in amplitude en frequentie die een stem levend doen voelen.

4.2  Vergelijking: DSP vs. Neuraal per Perceptueel Probleem

Perceptueel probleemDSP-aanpak (en begrenzing)Neurale aanpak
CoarticulatieNiet geadresseerd — elk moment onafhankelijk verwerktGeleerd uit trainingsdata; contextbewust gegenereerd
Foneem-specifieke formantenVaste globale verschuiving — correct voor sommige, verkeerd voor andere fonemenAfzonderlijk formantdoel per foneem en per spreker
Glottale textuurBenaderd via saturatie en ruis — niet cyclus-nauwkeurigSamplesgewijs gegenereerd door de neurale vocoder
Jitter en shimmerBenaderd door LFO-modulatie — niet op cyclus-niveauImpliciet in de vocoder-uitvoer vanuit training
SprekeridentiteitNiet gemodelleerd — uitvoer is bron + transformatiesVolledig gecodeerd in sprekerembedding
Therapeutische overtuigingskrachtBewerkt klinkende stem — perceptueel plafond bereiktOvertuigend, authentiek — geschikt voor klinisch gebruik

5Aanbevelingen voor het VRelax Developmentteam

De volgende vijf aanbevelingen zijn geordend van hoogste prioriteit naar langere termijn strategische richting, met praktische implementatiedetails per aanbeveling gericht op het developmentteam bestaande uit ontwikkelaars en product owner.

Aanbeveling 1 — Adopteer een Hybride Architectuur

RouteTechnologieToepassing binnen VRelax
Real-time (in-game)DSP keten in Unity C#Live stemmonitoring, adaptieve feedback, low-latency preview
Hoge kwaliteit (pre-rendered)Neuraal model via ONNX / Unity SentisGeleide meditatie, CBT-sessies, gescripte therapeutische content
Offline (content pipeline)RVC / Seed-VC op GPU-werkstationBatchconversie van opgenomen begeleidingstracks voor release

De begeleidende spraak in VRelax — de meditatie-instructies, de ontspanningscues, de CGT-begeleiding — hoeft niet real-time gegenereerd te worden. Het is gescripte content die offline met volledige neurale kwaliteit kan worden verwerkt. Real-time transformatie is alleen vereist voor adaptieve of responsieve stemfuncties, waarvoor DSP volledig voldoet.

Aanbeveling 2 — Evalueer RVC Onmiddellijk voor de Content Pipeline

Retrieval-based Voice Conversion (RVC) is een open-source neuraal stemconversiesysteem dat draait op consumenten-GPU hardware, overtuigende resultaten produceert, en slechts 10–30 minuten schone doelstem-audio vereist voor fine-tuning. Opzetten kost één tot twee dagen en vereist geen ML-expertise.

  • RVC: github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
  • Seed-VC: hogere kwaliteit met modernere architectuur — aanbevolen als alternatief
  • Dataset: neem 20–40 minuten schone, droge opnames op in het gewenste stemkarakter
  • Trainingstijd: 1–4 uur op een mid-range GPU
  • Verwachte kwaliteit: aanzienlijk overtuigender dan welke DSP-keten dan ook

Aanbeveling 3 — Integreer ONNX-modellen via Unity Sentis

Unity's Sentis package maakt het mogelijk ONNX-formaat neurale netwerken te draaien binnen Unity op CPU of GPU — de aanbevolen integratieroute zonder externe inferentieserver.

  • Exporteer een getraind stemconversiemodel naar ONNX-formaat
  • Importeer via Unity Sentis en benchmark inferentietijd op Meta Quest doelhardware
  • Voor content die 200–500 ms latentie kan tolereren, is volledige neurale conversie in Unity haalbaar
  • Voor latentiegevoelig gebruik: draai neurale conversie op een achtergrondthread met DSP-gevulde ringbuffer

Aanbeveling 4 — Bouw de DSP Keten in Unity C# als Fundament

Een DSP-verwerkingsketen in Unity C# is het bouwen waard als real-time fundament. Het is goedkoop, volledig beheersbaar en levert directe resultaten voor prototyping. Implementeer als verwerkingsgraph in OnAudioFilterRead, in de volgende prioriteitsvolgorde:

PriModuleUnity implementatiePerceptueel rendement
1Spectrale helling EQBiquad shelving filter ketenGrootste enkele impact op stemkarakter
2Jitter / Shimmer modulatieLFO + RNG, cyclus-rate updateElimineert robotkwaliteit direct
3Ademruis injectieGevormd ruis + sidechain gateZachtheid, intimiteit, femininiteit
4Zachte saturatiePer-sample golfvormerWarmte en harmonisch gehalte
5Formant bandbreedte controleQ-factor op resonatorfiltersNaturaliteit, verwijdert ringelend karakter
6Proximity EQLage shelf boost + HF rolloffAfstand en intimiteitscontrole
7Vibrato modulatorSinus LFO op toonhoogteverhoudingExpressiviteit, warmte
8ArticulatiesnelheidTijddomein stretchEnergie, leeftijd, kalmte vs. urgentie

Aanbeveling 5 — Bouw een Perceptuele Besturings-API

De technische DSP- en neurale parameters mogen niet rechtstreeks worden blootgesteld aan contentmakers of ervaringsontwerpers. Een perceptuele abstractielaag koppelt menselijk-betekenisvolle bediening aan de onderliggende parameterruimte.

BesturingsparameterPrimaire technische parametersTherapeutisch effect in VRelax
WarmteSpectrale helling (donker), saturatie, F1 bandbreedteVeilig, omhullend, niet-bedreigend aanwezig
AutoriteitKraakstem, lage toonhoogte, stabiel shimmerBetrouwbare begeleider, geaard, rustig zelfvertrouwen
KalmteSmal prosodisch bereik, langzame articulatie, laag shimmerVertraagt het zenuwstelsel van de luisteraar
IntimiteitProximity-EQ, ademruis, lage afstandDichtbij, persoonlijk, privé — gevoel van veilige ruimte
AanwezigheidSaturatie bij 2–5 kHz, proximity boostStem voelt vooruit, helder, betrokken
LeeftijdJitter, shimmer, helling, articulatiesnelheidWijsheid, jeugdigheid, vertrouwdheidsafstelling
AfstandReverb, HF rolloff, dynamiekcompressieNabije begeleider vs. ambient achtergrond
Emotionele toonProsodisch bereik, arousalniveau (tempo), valentieVolledige emotiekaart — Russell's circumplex model

6Implementatieroadmap

De volgende gefaseerde roadmap vertaalt de onderzoeksbevindingen en aanbevelingen naar een praktische ontwikkelsequentie. De fasering is gebaseerd op perceptueel rendement per implementatie-inspanning.

Fase 1
Fundament
  • Biquad filterketen in Unity C# (OnAudioFilterRead)
  • Spectrale helling EQ — shelving filter
  • Jitter en shimmer modulatie — cyclus-rate ruis
  • Validatie: bypass vs. verwerkt luistertest
Fase 2
Stemkarakter
  • Ademruis injectie met sidechain gate
  • Zachte saturatiemodule (golfvormer)
  • Formant bandbreedtecontrole aan resonatorfilters
  • Kraakstemmodule (laagfrequente ruisbursten)
Fase 3
Ruimtelijk & Temporeel
  • Proximity EQ (lage shelf boost + HF rolloff)
  • Korte convolutie reverb (IR < 512 samples)
  • Articulatiesnelheidscontrole (tijddomein stretch)
  • Vibrato modulator
Fase 4
Neurale Integratie
  • RVC / Seed-VC op GPU-werkstation instellen
  • Doelstem dataset opnemen en trainen
  • Model exporteren naar ONNX-formaat
  • Integratie via Unity Sentis; benchmark op Meta Quest
  • Hybride routing: DSP real-time, neuraal voor scripts
Fase 5
Perceptuele Besturings-API
  • VoiceDesignAPI klasse met perceptuele dimensies
  • Preset systeem (Kalme Begeleider, Warm, Autoritair)
  • Unity Editor inspector met beschrijvende labels
  • Validatie met contentmakers en clinici
Fase 6 — Optioneel
AI-gestuurde Controle
  • Emotie → parameter mapping via ML
  • LLM / intentie → stemparameter vertaling
  • Adaptief stemgedrag op basis van HRV-sensordata
  • Koppeling met VRelax GRIP co-viewing platform

7Technische Overwegingen voor Unity

Alle real-time audioverwerking in Unity draait op de audio-thread via OnAudioFilterRead. Deze thread heeft een harde deadline — het missen ervan veroorzaakt audio-glitches. De volgende beperkingen moeten worden gerespecteerd:

VerwerkingstypeBudget (512-sample buffer)Noten
Biquad filterketen (10 filters)~0,05 msVerwaarloosbaar — altijd veilig
Jitter / shimmer / ruis~0,02 msVerwaarloosbaar
Zachte saturatie~0,02 msPer-sample berekening — zeer goedkoop
Fase vocoder (1024 FFT)3–5 msBudget zorgvuldig — overweeg native C++ plugin
Neurale model inferentie50–500 msVerplicht op achtergrondthread met ringbuffer
Kritische Threading Regel
  • Nooit geheugen toewijzen vanuit OnAudioFilterRead — dit veroorzaakt garbage collection stalls op de audio-thread.
  • Nooit de Unity API aanroepen vanuit de audio-thread — gebruik voorberekende coëfficiënten en lock-vrije ringbuffers.
  • Voor FFT-gebaseerde verwerking: wrap een C++ bibliotheek (SoundTouch, rubber-band of WORLD vocoder) als Unity Native Audio Plugin. Het prestatieverschil vs. pure C# is 5–10x.
  • Unity Sentis biedt een compatibel pad voor ONNX neurale modellen op CPU én GPU zonder externe runtime-afhankelijkheden.

8Conclusie

Dit onderzoek stelt vast dat overtuigende, therapeutisch verantwoorde stemtransformatie voor het VR-CBT project van VRelax aanzienlijk verder gaat dan toonhoogte- en formant-verschuiving. De perceptuele kwaliteit van een stem wordt bepaald door een rijke hiërarchie van parameters — van glottale pulskarakter en spectrale helling, via jitter en ademruis, tot prosodisch ritme en ruimtelijke positionering — die allen coherent moeten worden aangepakt.

DSP-gebaseerde benaderingen bieden een performante, real-time-capabele basis en zijn het bouwen waard als live verwerkingslaag. Ze hebben echter een hard kwaliteitsplafond dat niet kan worden overwonnen door verdere afstelling. Neurale stemconversie — specifiek open-source systemen zoals RVC en Seed-VC — overwint dit plafond door spraak te begrijpen in plaats van golfvormen te hervormen.

De aanbevolen route voor VRelax is een hybride architectuur: een DSP-keten voor real-time en adaptieve verwerking, gecombineerd met een neurale conversiepipeline voor gescripte content, geïmplementeerd in Unity via ONNX en Unity Sentis. Deze aanpak is technisch haalbaar, vereist geen externe afhankelijkheden tijdens runtime, en is leverbaar binnen een gefaseerde ontwikkelroadmap.

De perceptuele besturings-API — Warmte, Kalmte, Autoriteit, Intimiteit en aanverwante dimensies — is zowel haalbaar als essentieel. Het zorgt ervoor dat de stemengine een creatief hulpmiddel blijft voor ervaringsontwerpers en clinici, niet een technische last voor ontwikkelaars.

Dit onderzoek draagt aantoonbaar bij aan de RIS3-transities van zorg naar (positieve) gezondheid en van analoog naar digitaal, en vertegenwoordigt de experimentele ontwikkelingsinspanning waarvoor de VIA-subsidie van het SNN (JTF) is bedoeld. De uitkomsten zijn direct inzetbaar in de verdere ontwikkeling van het VR-CBT project.