AI begynder at lytte, før den læser. Det skifte fra tekst til tale gør interaktionen hurtigere, mere flydende og tættere på den måde, mennesker faktisk kommunikerer på. I artiklen undersøger vi, hvordan audio-first AI kan sænke friktion i webshops, fjerne ventetid i kundeservice og få B2B-ordrer til at glide direkte fra samtale til system.
Siden AI’s spæde begyndelse har brugeroplevelsen været bundet til chatvinduet. Vi skriver, den svarer, og ingen af os bevæger os for alvor ud af de grå talebobler og dansende prikker. Det har været en rendyrket tekstbaseret interaktionsform.
Nu begynder lydmuren at give efter.
OpenAI går all in på lydbaseret AI forud for lanceringen af deres “audio-first device” i slutningen af 2026 – og det handler om meget mere end en bedre stemmefunktion i ChatGPT. Det handler om et grundlæggende skift, hvor stemmen og den talte dialog bliver det centrale interface, og tekstlaget skæres væk til fordel for modeller, der er bygget til samtaler i realtid.
De nye lydmodeller reagerer øjeblikkeligt, fanger tonefald, håndterer afbrydelser og finder tilbage i tråden uden at snuble. Det er en ret stor forskel fra de AI-modeller, du kender, fordi de altid vil arbejde med tekst først – så selv hvis du taler til ChatGPT eller Gemini, vil de transskribere, hvad du siger, og så generere et svar på tekst, som AI’en så kan læse op.
Det er det lag, der forsvinder nu, og derfor de nye lydmodeller betegnes som ”audio-first”. Fordi de altså primært baserer sig på lyd-input og -output. Og netop det skifte åbner et nyt kapitel for digitale oplevelser i e-commerce, hvor stemmen ikke blot er en funktion, men selve indgangen til handel, service og ordrehåndtering.
Voice Commerce: Snak dig til dit køb
E-commerce har i mange år handlet om at fjerne friktion. Kan vi spare et trin, et klik, en mellemregning? Men selv de mest optimerede webshops kræver stadig, at brugeren aktivt navigerer med tastatur og mus.
Med audio-first AI bevæger vi os mod en form for handel, der føles som en samtale i en fysisk butik – blot med et system, der både kender lageret, historikken, priserne og kundens tidligere køb. Og et system, der kan være online 24/,7 uden at der skal sidde kundeservicemedarbejdere klar ved telefonen.
Når stemmen erstatter interfacet, forsvinder en stor del af den digitale friktion.
En kunde kan spørge, om en bestemt størrelse er på lager, få sammenlignet alternativer, genbestille en fast vare eller få forklaret forskellen mellem to modeller. Alt sammen i samme tempo, som tanken opstår. For især Generation Z og Alpha, der bl.a. allerede kommunikerer gennem talebeskeder, bliver det her potentielt den mest naturlige måde at handle på. De er vant til teknologier, der reagerer, når de taler.
Faktisk foretrækker de det, fordi det er hurtigere og nemmere end at skulle formulere sig på skrift – 71% af Gen Z bruger talebeskeder jævnligt, og for 37 % af 18-34-årige er det den foretrukne kommunikationsform. De unge er altså vant til at snakke til sin telefon, og der behøver ikke nødvendigvis sidde et menneske klar i den anden ende.
Men det stopper ikke ved de unge. Når en oplevelse bliver hurtigere og nemmere, følger resten af markedet hurtigt med. Derfor forventer vi i Vertica, at de første store danske retail- og ecommerce-aktører vil tage voice commerce i brug langt tidligere end mange forestiller sig. Teknologien er tæt på moden, og forretningsgevinsten ligger lige for: Mindre friktion, højere konvertering og en mere personlig oplevelse.
Kundeservice: "Du er nummer 0 i køen"
Kundeservice har længe været et sted, hvor tålmodighed går forud for løsning. Man står i kø, trykker sig gennem menuer og håber, at man rammer den rigtige kombination af knapper og held. Med audio-first AI kan kundeservice forbedre oplevelsen markant.
For det første forsvinder ventetiden. Slut med at sidde i kø i 52 minutter for at lave en lille ændring på dit mobilabonnement. Du skal aldrig have en ventemelodi på hjernen igen, tænk engang.
For det andet kan en stor del af de daglige, rutineprægede kundeservicehenvendelser klares på sekunder, mens medarbejderne får tid til de samtaler, der faktisk kræver menneskelig intuition. Tryg forventer blandt andet at 85% af anmeldelser om bilskader vil kunne håndteres af AI i fremtiden, og teleselskabet Nuuday regner også med at 70% af kundeservicehenvendelser vil kunne klares af AI ganske snart. Det er selvfølgelig ikke med lydbaseret AI alene, men også her har dialog-formatet et enormt potentiale.
En lydbaseret model kan forstå et spørgsmål, selv når det bliver formuleret halvt i hastværk og halvt i frustration. Den har en langt større forståelse for de følelsesmæssige input i stemmeførelsen, og den kan forstå de mange sproglige nuancer og detaljer i det talte sprog bedre end de tekstbaserede modeller.
Det betyder, at serviceoplevelsen for kunden begynder at føles mere som en ægte samtale end som ”endnu en i rækken”. Og det er trods alt dér, de fleste kunder helst vil mødes.
B2B: Ordrer glider direkte fra samtale til system
I B2B er samtalen for mange stadig den hurtigste og mest trygge vej til en ordre. Mange kunder griber telefonen, fordi det ofte er den nemmeste måde at få afklaret varianter, mængder og leveringstidspunkter. Men den model kræver tid, koordinering og medarbejdere, der kan følge med – og det kan være svært i en verden med stigende kompleksitet og ændrede forventninger.
Her er audio AI et oplagt næste skridt.
En kunde kan forklare sin bestilling helt almindeligt. AI’en forstår ordren, spørger ind, hvis noget er uklart, og opretter den direkte i virksomhedens system – også uden for åbningstid. Og når teknologien kobles til de bagvedliggende processer, kan hele værdikæden fortsætte automatisk gennem lager, logistik og fakturering.
Det betyder, at virksomheder kan håndtere store mængder ordrer uden at udvide bemandingen – og samtidig faktisk reducere antallet af fejl, fordi processen bliver mere konsistent.
Der vil selvfølgelig altid være bestillinger, der kræver menneskelig vurdering – og det vil være naturligt at opsætte guardrails, så AI’en altid konsulterer et menneske ved ordrer af en bestemt størrelse eller kompleksitet. Men for størstedelen af de daglige ordrer er det langt mere effektivt, når ordren flyder fra mund til system i én bevægelse. Det er skalerbart, det er hurtigt, og for kunderne føles det som en service, der følger deres tempo.
Verticas perspektiv: Din stemme bliver det næste interface
Hos Vertica oplever vi en stigende interesse for audio AI, og det giver god mening. Stemmen bringer teknologien tættere på den måde, mennesker naturligt kommunikerer på. Vi tænker hurtigere, end vi skriver. Og vi afklarer hurtigere i dialog, end vi gør gennem formularer og menuer.
Når systemer begynder at forstå og reagere i realtid, forsvinder flere af de små barrierer, vi efterhånden har vænnet os til i digitale kunderejser.
Derfor arbejder vi aktivt med lyd på tværs af områder, hvor dialogen allerede fylder. I kundeservice giver stemmen en mere direkte kontakt mellem kunde og virksomhed. I B2B kan en ordre bevæge sig fra samtale til system uden de manuelle mellemtrin, der normalt sluger tid og skaber flaskehalse. Og i e-commerce ser vi de første konturer af voice commerce, hvor kunder navigerer med ord frem for at finde vej gennem menuer.
Sammen med Go Autonomous udvikler vi løsninger, hvor en samtale ikke kun bliver forstået, men også omsat til handling i hele værdikæden. Fra validering til lager og logistik. Det gør virksomheder mere skalérbare og giver kunder en oplevelse, der ligger tættere på den måde, de naturligt kommunikerer på.
Når vi ser tilbage på AI’s første par år, giver det mening, at teknologien startede med tekst og billeder. Men det giver også god mening for os, at OpenAI nu satser større på lyd, for der ligger bestemt et stort uudnyttet potentiale i AI-teknologien på det område. Og de virksomheder, der opbygger erfaring med det nye lydlag allerede nu, står stærkt, når stemmen bliver et lige så forventet interface som touchskærmen er i dag.






