Project VR-CBT — ten behoeve van VRelax
—Managementsamenvatting
Dit rapport documenteert het onderzoeks- en ontwikkelwerk dat Sphere of Sound heeft uitgevoerd op het gebied van real-time voice transformatietechnologie. Het werk is direct gerelateerd aan het VR-CBT project van VRelax — een klinisch gevalideerde VR-relaxatieapplicatie ingezet in de geestelijke gezondheidszorg, verslavingszorg, ouderenzorg en ziekenhuizen. De bevindingen dienen als inhoudelijke onderbouwing voor de VIA-subsidieaanvraag bij het SNN in het kader van het Just Transition Fund (JTF), en als technische aanbeveling voor het VRelax developmentteam.
VRelax biedt wetenschappelijk gevalideerde VR-ervaringen die aantoonbaar stress met 48%, depressie met 42% en angst met 41% reduceren. De therapeutische werking is voor een significant deel afhankelijk van de kwaliteit van de begeleidende stem — een stem die onnatuurlijk of artificieel klinkt doorbreekt onmiddellijk de immersieve staat die het therapeutisch effect mogelijk maakt.
Het onderzoek richt zich op de vraag hoe een overtuigende, therapeutisch verantwoorde stemtransformatie technisch gerealiseerd kan worden in Unity. Daartoe is systematisch onderzoek gedaan naar de psychoakoestische parameters die stemperceptie bepalen, zijn DSP-methoden geïmplementeerd en empirisch geëvalueerd, en is de architectuur van neurale stemconversiesystemen geanalyseerd als kwalitatief hoogwaardiger alternatief.
- DSP-gebaseerde stemtransformatie heeft een harde perceptuele grens: de stem klinkt bewerkt, maar niet overtuigend anders — onacceptabel voor therapeutische toepassingen.
- De perceptuele kloof wordt veroorzaakt door het ontbreken van sprekeridentiteitsmodellering, coarticulatie, glottale pulsvariantie en foneem-specifiek formantgedrag.
- Neurale stemconversie (RVC / Seed-VC klasse modellen) overbrugt deze kloof door spraak te begrijpen en te hersyntetiseren in plaats van het signaal te hervormen.
- Een hybride architectuur — DSP voor real-time, neuraal model voor gescripte content — is de aanbevolen implementatiestrategie voor VRelax in Unity.
- Een perceptuele besturingslaag (Warmte, Kalmte, Autoriteit, Intimiteit) is technisch haalbaar en essentieel voor gebruik door niet-technische contentmakers.
- Dit onderzoek kwalificeert als experimentele ontwikkeling (art. 25 AGVV), met aantoonbare technische onzekerheden en maatschappelijke impact in de RIS3 transitie van zorg naar (positieve) gezondheid en van analoog naar digitaal.
1Projectcontext en Relevantie voor VRelax en VIA
1.1 Over VRelax en het VR-CBT Project
VRelax is een wetenschappelijk gevalideerde Virtual Reality applicatie, ontwikkeld in samenwerking met zorgprofessionals en wetenschappers, ingezet voor ontspanning en positieve afleiding bij mensen met mentale en fysieke klachten. De applicatie wordt gebruikt door honderden zorginstellingen in Nederland en internationaal — waaronder GGZ-instellingen, ziekenhuizen, verslavingszorg en ouderenzorg. VRelax is beschikbaar op Meta Quest-hardware en draait op Unity als ontwikkelplatform.
Het VR-CBT project richt zich op de uitbreiding van de VRelax-applicatie met elementen van Cognitieve Gedragstherapie (CGT) in een immersieve VR-omgeving. Spraak speelt hierin een centrale rol: begeleide oefeningen, psycho-educatie en therapeutische instructies worden auditief aangeboden. Dit stelt aanzienlijk hogere eisen aan stemtransformatietechnologie dan gebruikelijke game- of entertainmenttoepassingen.
1.2 Aansluiting bij de VIA Subsidie en RIS3 Transities
De VIA-subsidie van het SNN, gefinancierd vanuit het Just Transition Fund (JTF), is bedoeld voor mkb-ondernemingen in de provincie Groningen die innovatieve producten, diensten of processen ontwikkelen die bijdragen aan de vier RIS3-transities. Dit onderzoek sluit direct aan bij twee van deze transities:
- Van zorg naar (positieve) gezondheid: VRelax en het VR-CBT project dragen direct bij aan toegankelijke, technologisch innovatieve zorgoplossingen. De stemtransformatie-engine vergroot de klinische bruikbaarheid door therapeutisch overtuigende, gepersonaliseerde audio-ervaringen mogelijk te maken.
- Van analoog naar digitaal: De ontwikkeling van een real-time DSP- en neuraal stemtransformatiesysteem in Unity vertegenwoordigt een substantiële digitale innovatiestap — van statische audio-opnames naar dynamisch, adaptief en AI-gestuurd stemgedrag in een therapeutische VR-omgeving.
Het onderzoek kwalificeert als experimentele ontwikkeling: er waren bij aanvang aantoonbare technische onzekerheden over welke parameters stemperceptie bepalen, of DSP-methoden voldoende kwaliteit kunnen leveren voor therapeutisch gebruik, en hoe neurale modellen geïntegreerd kunnen worden in een real-time Unity omgeving op consumer VR-hardware.
1.3 Waarom Dit Werk Gespecialiseerde R&D Vereist
De stemtransformatieproblematiek voor VRelax bevindt zich op het snijvlak van psychoakoestiek, real-time DSP-engineering en machine learning integratie. Het werk vereiste:
- Systematisch onderzoek naar de psychoakoestische parameters die stemkarakter en emotionele toon bepalen
- Praktische implementatie en evaluatie van een meerstaps DSP-transformatieketen in een professionele audioproductieomgeving
- Empirische toetsing aan menselijke perceptiebenchmarks (man-naar-vrouw stemconversie als stresstest)
- Grondige analyse van waarom DSP-methoden een perceptueel plafond bereiken en wat de technische oorzaken zijn
- Onderzoek naar de architectuur en integratieroute van neurale stemconversiemodellen in Unity via ONNX en Unity Sentis
- Ontwerp van een perceptuele besturingsabstractie (Warmte, Kalmte, Autoriteit) geschikt voor niet-technische contentmakers
2De Wetenschap van Stemperceptie
Een overtuigende stemtransformatie vereist begrip van hoe het menselijk brein stemmen waarneemt. Ons onderzoek identificeerde vijf perceptuele lagen die elk bijdragen aan hoe een stem wordt ervaren — in termen van gender, leeftijd, emotie, nabijheid en authenticiteit.
2.1 De Vijf Perceptuele Lagen van Stemgeluid
| Laag | Component | Wat het bepaalt | Perceptueel effect |
|---|---|---|---|
| 1 — Bron | Stembanden / glottis | Toonhoogte, jitter, shimmer, kraakstem, ademruis | Gender, leeftijd, emotie, authenticiteit |
| 2 — Filter | Vocaal kanaal resonantie | Formantfrequenties en bandbreedten | Lichaamsbouw, accent, klinkerkarakter |
| 3 — Spectraal | HF-energieverdeling | Spectrale helling, harmonisch gehalte | Warmte, helderheid, aanwezigheid, afstand |
| 4 — Temporeel | Timing en dynamiek | Articulatiesnelheid, envelop, vibrato | Energie, autoriteit, kalmte |
| 5 — Cognitief | Prosodie en taalpatronen | Intonatie, ritme, nadruk, pauzes | Emotie, intentie, vertrouwen |
2.2 Belangrijkste Parameters en Perceptuele Impact
Spectrale helling (Spectral Tilt)
De mate waarop hoog-frequent energie afneemt in het spectrum. Een steilere helling klinkt donkerder, warmer, ouder en meer op afstand. Een vlakkere helling klinkt helderder, meer feminien en meer aanwezig. Dit is de parameter met de hoogste perceptuele impact per implementatie-inspanning — direct te realiseren als shelving-EQ. Voor VRelax is dit de primaire parameter voor het instellen van warme, therapeutisch veilige stemkarakters.
Jitter en Shimmer
Cyclus-op-cyclus variatie in grondfrequentie (jitter) en amplitude (shimmer). Menselijke stemmen hebben van nature circa 0,5–1,0% jitter en 2–3% shimmer. Een stem met nul jitter en shimmer wordt onmiddellijk als robotisch waargenomen. Dit is de belangrijkste parameter op de as 'menselijk versus artificieel' — en het eerste wat moet worden geïmplementeerd om de robotkwaliteit van verwerkte stemmen te elimineren.
Harmonic-to-Noise Ratio (HNR) en Ademruis
De verhouding van periodieke (tonale) tot aperiodieke (ruis)energie. Een hoge HNR produceert heldere, autoritaire stemmen. Verlaagde HNR via adem-ruisinjectie creëert zachtheid, intimiteit en femininiteit. Voor therapeutische toepassingen is een licht verhoogde ademruis gunstig: het communiceert veiligheid, nabijheid en kalmte.
Formantfrequenties en Bandbreedten
De resonantiepieken van het stemkanaal (F1 t/m F5) bepalen klinkeridentiteit en de waargenomen grootte van het stemkanaal. Alle formanten circa 15–20% omhoog verschuiven wekt de indruk van een korter, kleiner stemkanaal. Kritisch maar vaak over het hoofd gezien: de bandbreedte van elke resonantiepiek bepaalt of de stem nasaal/robotisch (smal) of warm/open (breed) klinkt.
Prosodie
Op macro-temporeel niveau zijn intonatiecontour, spreektempo, pauzelengte en nadrukplaatsing de primaire dragers van emotionele intentie. Een kalme, therapeutische stem heeft langzaam tempo, dalende terminale intonatie en verlengde pauzes. Dit zijn aspecten die niet door de engine worden getransformeerd maar essentieel zijn voor de geluidsregie en opnamekwaliteit van VRelax-content.
2.3 Perceptuele Parameters per Stemkarakter (VRelax-context)
| Gewenst karakter | Primaire parameters | Relevantie voor VRelax |
|---|---|---|
| Warm & veilig | Steilere spectrale helling, brede formantbandbreedten, zachte saturatie | Basiskarakter voor alle therapeutische begeleiding |
| Kalm & rustgevend | Smal prosodisch bereik, langzame articulatie, laag shimmer | Geleide ontspanning, ademhalingsoefeningen |
| Autoritair & betrouwbaar | Kraakstem, lage toonhoogte, stabiel shimmer, min. ademruis | Instructies, veiligheidsinformatie, CBT-opdrachten |
| Intiem & nabij | Proximity-EQ (bas boost), ademruis, lage reverb | Close guidance, exposure therapy ondersteuning |
| Afstandelijk / ambient | HF-rolloff, verhoogde reverb, gedempte dynamiek | Achtergrondnarrator, sfeerlaag, nature worlds |
| Jeugdig / energiek | Hogere toonhoogte, hogere formanten, snellere articulatie | Kindermodule (6–12 jaar) van VRelax |
3DSP Implementatie — Wat We Hebben Gebouwd en Getest
Om empirisch begrip te ontwikkelen van DSP-gebaseerde stemtransformatie, hebben we een meerstaps verwerkingsketen ontworpen, geïmplementeerd en getest in Ableton Live Suite. Deze keten vertegenwoordigt de huidige stand van de techniek in real-time, plugin-gebaseerde stemtransformatie en dient als directe benchmark waartegen neurale benaderingen worden gemeten.
3.1 De DSP Transformatieketen
| # | Stap | DSP functie | Perceptueel effect |
|---|---|---|---|
| 01 | Noise Gate | Demping onder drempelwaarde | Schone invoer, voorkomt artefactversterking |
| 02 | Pre-EQ (tilt) | HP bij 80 Hz, lage shelf −3–5 dB bij 200–350 Hz | Verwijdert mannelijke borstresonantie |
| 03 | Toonhoogte verschuiving | Fase vocoder, +5 tot +7 halve tonen | Verhoogt grondfrequentie |
| 04 | Formant verschuiving | Onafhankelijke kanaallengte schaling (+15–20%) | Kortere vocaaltract perceptie |
| 05 | Post-EQ | Hoge shelf +4 dB bij 3,5 kHz, lucht bij 8 kHz | Vrouwelijke helderheid en aanwezigheid |
| 06 | Ademruis | Gevormd aspiration ruis, sidechain gate | Intimiteit, zachtheid, femininiteit |
| 07 | Saturatie | Soft-sine golfvormer, 2–4 dB drive | Warmte, harmonisch gehalte |
| 08 | Dynamische EQ | Aanwezigheidscontrole bij 3,5 kHz | Voorkomt harshheid, behoudt lucht |
| 09 | Micro-modulatie | Langzaam koor / grain delay bij 0,3–0,5 Hz | Jitter/shimmer benadering |
| 10 | Compressor | 3:1, 8 ms attack, zachte knee | Dynamiekcontrole, cohesie |
| 11 | Reverb | Kleine ruimte, 8–15% wet, 0,8–1,2 s decay | Ruimtelijke natuurlijkheid |
3.2 Testprotocol en Empirische Evaluatie
Een gestandaardiseerde testzin werd geselecteerd om elk element van de keten gelijktijdig te belasten. De zin bevat een reeks aaneengesloten klinkers, sibianten, plosieven en sonoranten. De opname werd in drie varianten gemaakt: neutraal/monotoon, natuurlijk spreekritme en langzaam/bewust. Elke opname werd geëvalueerd op naturaliteit, genderperceptie en afwezigheid van verwerkingsartefacten, zowel in bypass als verwerkt.
3.3 Resultaten en Beperkingen
De DSP-keten produceerde een meetbare en perceptueel significante verschuiving. Toonhoogte, formantpositie, spectrale helderheid en ademruis reageerden allen zoals voorspeld door de onderliggende DSP-modellen. Evaluatie op het naturaliteitscriterium onthulde echter consistente tekortkomingen:
- Sibianten werden te helder of gingen fluiten onder zware verwerking
- Plossieve transients werden uitgespreid door de fase vocoder — consonantduidelijkheid nam af
- De getransformeerde stem klinkt 'bewerkt', zelfs wanneer individuele parameters zijn geoptimaliseerd — de uncanny valley van stemgeluid
- Coarticulatie — het natuurlijke vloeien van fonemen in elkaar — ontbreekt volledig, waardoor subtiel robotachtig karakter ontstaat aan foneemgrenzen
- Formant verschuiving wordt globaal toegepast, terwijl natuurlijke stemmen foneem-specifieke formantdoelen hebben
Deze beperkingen zijn geen ingenieursfalen — het zijn de inherente grenzen van signaalverwerkingsbenaderingen. Ze ontstaan omdat DSP op de golfvorm werkt zonder enig begrip van wat er wordt gezegd of wie het zegt.
4Neurale Stemconversie — Waarom AI-modellen Overtuigender Klinken
Het fundamentele verschil tussen DSP-gebaseerde en neurale stemconversie is geen gradueel maar een categorisch verschil. DSP transformeert een signaal. Een neuraal stemconversiemodel begrijpt spraak en regenereert het in een andere stem.
4.1 Architectuur van een Neuraal Stemconversiesysteem
Stap 1 — Spraakcodering (inhoudsextractie)
Een spraakencoder — gebaseerd op modellen zoals HuBERT of wav2vec 2.0 — verwerkt de invoerstem en extraheert een spreker-onafhankelijke representatie van wat er is gezegd. Deze representatie bevat foneem-niveau inhoud zonder toonhoogte, timbre of sprekeridentiteit. DSP heeft geen equivalent voor deze stap — het kan niet scheiden wat er is gezegd van wie het zegt.
Stap 2 — Sprekerembedding (identiteitscodering)
Het model bevat een geleerde sprekerembedding voor de doelstem — een compacte numerieke vector (typisch 256–512 dimensies) die de volledige akoestische identiteit van een specifieke stem codeert. Dit omvat formantgedrag over alle fonemen, glottale pulskarakter, ademruisverdeling, spectrale helling, jitterprofiel — alles wat een stem herkenbaar maakt. Deze embedding wordt geleerd uit trainingsdata van de doelstem.
Stap 3 — Synthese
Een synthesemodel — typisch een transformer of diffusie-netwerk — neemt de inhoudstokens en de sprekerembedding, en genereert de akoestische kenmerken van de doelstem die de broninhoud uitspreekt. Cruciaal: deze synthese is contextbewust — het model weet welk foneem aan het huidige voorafgaat en volgt, en genereert coarticulatie van nature.
Stap 4 — Neurale vocoder
Een neurale vocoder — typisch HiFi-GAN — converteert de akoestische kenmerken naar een golfvorm op sampleniveau. Het genereert de exacte textuur van de doelstem: het specifieke karakter van elke glottale puls, de precieze verdeling van ademruis, de microvariaties in amplitude en frequentie die een stem levend doen voelen.
4.2 Vergelijking: DSP vs. Neuraal per Perceptueel Probleem
| Perceptueel probleem | DSP-aanpak (en begrenzing) | Neurale aanpak |
|---|---|---|
| Coarticulatie | Niet geadresseerd — elk moment onafhankelijk verwerkt | Geleerd uit trainingsdata; contextbewust gegenereerd |
| Foneem-specifieke formanten | Vaste globale verschuiving — correct voor sommige, verkeerd voor andere fonemen | Afzonderlijk formantdoel per foneem en per spreker |
| Glottale textuur | Benaderd via saturatie en ruis — niet cyclus-nauwkeurig | Samplesgewijs gegenereerd door de neurale vocoder |
| Jitter en shimmer | Benaderd door LFO-modulatie — niet op cyclus-niveau | Impliciet in de vocoder-uitvoer vanuit training |
| Sprekeridentiteit | Niet gemodelleerd — uitvoer is bron + transformaties | Volledig gecodeerd in sprekerembedding |
| Therapeutische overtuigingskracht | Bewerkt klinkende stem — perceptueel plafond bereikt | Overtuigend, authentiek — geschikt voor klinisch gebruik |
5Aanbevelingen voor het VRelax Developmentteam
De volgende vijf aanbevelingen zijn geordend van hoogste prioriteit naar langere termijn strategische richting, met praktische implementatiedetails per aanbeveling gericht op het developmentteam bestaande uit ontwikkelaars en product owner.
Aanbeveling 1 — Adopteer een Hybride Architectuur
| Route | Technologie | Toepassing binnen VRelax |
|---|---|---|
| Real-time (in-game) | DSP keten in Unity C# | Live stemmonitoring, adaptieve feedback, low-latency preview |
| Hoge kwaliteit (pre-rendered) | Neuraal model via ONNX / Unity Sentis | Geleide meditatie, CBT-sessies, gescripte therapeutische content |
| Offline (content pipeline) | RVC / Seed-VC op GPU-werkstation | Batchconversie van opgenomen begeleidingstracks voor release |
De begeleidende spraak in VRelax — de meditatie-instructies, de ontspanningscues, de CGT-begeleiding — hoeft niet real-time gegenereerd te worden. Het is gescripte content die offline met volledige neurale kwaliteit kan worden verwerkt. Real-time transformatie is alleen vereist voor adaptieve of responsieve stemfuncties, waarvoor DSP volledig voldoet.
Aanbeveling 2 — Evalueer RVC Onmiddellijk voor de Content Pipeline
Retrieval-based Voice Conversion (RVC) is een open-source neuraal stemconversiesysteem dat draait op consumenten-GPU hardware, overtuigende resultaten produceert, en slechts 10–30 minuten schone doelstem-audio vereist voor fine-tuning. Opzetten kost één tot twee dagen en vereist geen ML-expertise.
- RVC: github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
- Seed-VC: hogere kwaliteit met modernere architectuur — aanbevolen als alternatief
- Dataset: neem 20–40 minuten schone, droge opnames op in het gewenste stemkarakter
- Trainingstijd: 1–4 uur op een mid-range GPU
- Verwachte kwaliteit: aanzienlijk overtuigender dan welke DSP-keten dan ook
Aanbeveling 3 — Integreer ONNX-modellen via Unity Sentis
Unity's Sentis package maakt het mogelijk ONNX-formaat neurale netwerken te draaien binnen Unity op CPU of GPU — de aanbevolen integratieroute zonder externe inferentieserver.
- Exporteer een getraind stemconversiemodel naar ONNX-formaat
- Importeer via Unity Sentis en benchmark inferentietijd op Meta Quest doelhardware
- Voor content die 200–500 ms latentie kan tolereren, is volledige neurale conversie in Unity haalbaar
- Voor latentiegevoelig gebruik: draai neurale conversie op een achtergrondthread met DSP-gevulde ringbuffer
Aanbeveling 4 — Bouw de DSP Keten in Unity C# als Fundament
Een DSP-verwerkingsketen in Unity C# is het bouwen waard als real-time fundament. Het is goedkoop, volledig beheersbaar en levert directe resultaten voor prototyping. Implementeer als verwerkingsgraph in OnAudioFilterRead, in de volgende prioriteitsvolgorde:
| Pri | Module | Unity implementatie | Perceptueel rendement |
|---|---|---|---|
| 1 | Spectrale helling EQ | Biquad shelving filter keten | Grootste enkele impact op stemkarakter |
| 2 | Jitter / Shimmer modulatie | LFO + RNG, cyclus-rate update | Elimineert robotkwaliteit direct |
| 3 | Ademruis injectie | Gevormd ruis + sidechain gate | Zachtheid, intimiteit, femininiteit |
| 4 | Zachte saturatie | Per-sample golfvormer | Warmte en harmonisch gehalte |
| 5 | Formant bandbreedte controle | Q-factor op resonatorfilters | Naturaliteit, verwijdert ringelend karakter |
| 6 | Proximity EQ | Lage shelf boost + HF rolloff | Afstand en intimiteitscontrole |
| 7 | Vibrato modulator | Sinus LFO op toonhoogteverhouding | Expressiviteit, warmte |
| 8 | Articulatiesnelheid | Tijddomein stretch | Energie, leeftijd, kalmte vs. urgentie |
Aanbeveling 5 — Bouw een Perceptuele Besturings-API
De technische DSP- en neurale parameters mogen niet rechtstreeks worden blootgesteld aan contentmakers of ervaringsontwerpers. Een perceptuele abstractielaag koppelt menselijk-betekenisvolle bediening aan de onderliggende parameterruimte.
| Besturingsparameter | Primaire technische parameters | Therapeutisch effect in VRelax |
|---|---|---|
| Warmte | Spectrale helling (donker), saturatie, F1 bandbreedte | Veilig, omhullend, niet-bedreigend aanwezig |
| Autoriteit | Kraakstem, lage toonhoogte, stabiel shimmer | Betrouwbare begeleider, geaard, rustig zelfvertrouwen |
| Kalmte | Smal prosodisch bereik, langzame articulatie, laag shimmer | Vertraagt het zenuwstelsel van de luisteraar |
| Intimiteit | Proximity-EQ, ademruis, lage afstand | Dichtbij, persoonlijk, privé — gevoel van veilige ruimte |
| Aanwezigheid | Saturatie bij 2–5 kHz, proximity boost | Stem voelt vooruit, helder, betrokken |
| Leeftijd | Jitter, shimmer, helling, articulatiesnelheid | Wijsheid, jeugdigheid, vertrouwdheidsafstelling |
| Afstand | Reverb, HF rolloff, dynamiekcompressie | Nabije begeleider vs. ambient achtergrond |
| Emotionele toon | Prosodisch bereik, arousalniveau (tempo), valentie | Volledige emotiekaart — Russell's circumplex model |
6Implementatieroadmap
De volgende gefaseerde roadmap vertaalt de onderzoeksbevindingen en aanbevelingen naar een praktische ontwikkelsequentie. De fasering is gebaseerd op perceptueel rendement per implementatie-inspanning.
- Biquad filterketen in Unity C# (OnAudioFilterRead)
- Spectrale helling EQ — shelving filter
- Jitter en shimmer modulatie — cyclus-rate ruis
- Validatie: bypass vs. verwerkt luistertest
- Ademruis injectie met sidechain gate
- Zachte saturatiemodule (golfvormer)
- Formant bandbreedtecontrole aan resonatorfilters
- Kraakstemmodule (laagfrequente ruisbursten)
- Proximity EQ (lage shelf boost + HF rolloff)
- Korte convolutie reverb (IR < 512 samples)
- Articulatiesnelheidscontrole (tijddomein stretch)
- Vibrato modulator
- RVC / Seed-VC op GPU-werkstation instellen
- Doelstem dataset opnemen en trainen
- Model exporteren naar ONNX-formaat
- Integratie via Unity Sentis; benchmark op Meta Quest
- Hybride routing: DSP real-time, neuraal voor scripts
- VoiceDesignAPI klasse met perceptuele dimensies
- Preset systeem (Kalme Begeleider, Warm, Autoritair)
- Unity Editor inspector met beschrijvende labels
- Validatie met contentmakers en clinici
- Emotie → parameter mapping via ML
- LLM / intentie → stemparameter vertaling
- Adaptief stemgedrag op basis van HRV-sensordata
- Koppeling met VRelax GRIP co-viewing platform
7Technische Overwegingen voor Unity
Alle real-time audioverwerking in Unity draait op de audio-thread via OnAudioFilterRead. Deze thread heeft een harde deadline — het missen ervan veroorzaakt audio-glitches. De volgende beperkingen moeten worden gerespecteerd:
| Verwerkingstype | Budget (512-sample buffer) | Noten |
|---|---|---|
| Biquad filterketen (10 filters) | ~0,05 ms | Verwaarloosbaar — altijd veilig |
| Jitter / shimmer / ruis | ~0,02 ms | Verwaarloosbaar |
| Zachte saturatie | ~0,02 ms | Per-sample berekening — zeer goedkoop |
| Fase vocoder (1024 FFT) | 3–5 ms | Budget zorgvuldig — overweeg native C++ plugin |
| Neurale model inferentie | 50–500 ms | Verplicht op achtergrondthread met ringbuffer |
- Nooit geheugen toewijzen vanuit OnAudioFilterRead — dit veroorzaakt garbage collection stalls op de audio-thread.
- Nooit de Unity API aanroepen vanuit de audio-thread — gebruik voorberekende coëfficiënten en lock-vrije ringbuffers.
- Voor FFT-gebaseerde verwerking: wrap een C++ bibliotheek (SoundTouch, rubber-band of WORLD vocoder) als Unity Native Audio Plugin. Het prestatieverschil vs. pure C# is 5–10x.
- Unity Sentis biedt een compatibel pad voor ONNX neurale modellen op CPU én GPU zonder externe runtime-afhankelijkheden.
8Conclusie
Dit onderzoek stelt vast dat overtuigende, therapeutisch verantwoorde stemtransformatie voor het VR-CBT project van VRelax aanzienlijk verder gaat dan toonhoogte- en formant-verschuiving. De perceptuele kwaliteit van een stem wordt bepaald door een rijke hiërarchie van parameters — van glottale pulskarakter en spectrale helling, via jitter en ademruis, tot prosodisch ritme en ruimtelijke positionering — die allen coherent moeten worden aangepakt.
DSP-gebaseerde benaderingen bieden een performante, real-time-capabele basis en zijn het bouwen waard als live verwerkingslaag. Ze hebben echter een hard kwaliteitsplafond dat niet kan worden overwonnen door verdere afstelling. Neurale stemconversie — specifiek open-source systemen zoals RVC en Seed-VC — overwint dit plafond door spraak te begrijpen in plaats van golfvormen te hervormen.
De aanbevolen route voor VRelax is een hybride architectuur: een DSP-keten voor real-time en adaptieve verwerking, gecombineerd met een neurale conversiepipeline voor gescripte content, geïmplementeerd in Unity via ONNX en Unity Sentis. Deze aanpak is technisch haalbaar, vereist geen externe afhankelijkheden tijdens runtime, en is leverbaar binnen een gefaseerde ontwikkelroadmap.
De perceptuele besturings-API — Warmte, Kalmte, Autoriteit, Intimiteit en aanverwante dimensies — is zowel haalbaar als essentieel. Het zorgt ervoor dat de stemengine een creatief hulpmiddel blijft voor ervaringsontwerpers en clinici, niet een technische last voor ontwikkelaars.
Dit onderzoek draagt aantoonbaar bij aan de RIS3-transities van zorg naar (positieve) gezondheid en van analoog naar digitaal, en vertegenwoordigt de experimentele ontwikkelingsinspanning waarvoor de VIA-subsidie van het SNN (JTF) is bedoeld. De uitkomsten zijn direct inzetbaar in de verdere ontwikkeling van het VR-CBT project.