Warum die Sprachkommunikation der anspruchsvollste Kanal in der Kundenerfahrung ist
Die emotionale Belastung hat eine direkte technische Auswirkung. Eine Verzögerung von zwei Sekunden bei einer Chat-Antwort fällt nicht auf. Bei einem Telefonat ist dies der Moment, in dem sich der Anrufer fragt, ob die Verbindung abgebrochen ist. Ein generischer Warteton in einem Chat-Widget ist leicht nervig. Bei einem Telefonat, das sich endlos wiederholt, signalisiert es sofort, dass niemand wirklich über dieses Erlebnis nachgedacht hat. Eine falsche Antwort im Chat kann in der nächsten Nachricht korrigiert werden. Bei einem Telefonat ist es das Letzte, was der Anrufer hört, bevor er nach einem Menschen fragt.
Jede Anforderung, die auf anderen Kanälen nachsichtig behandelt wird, ist bei Sprachdiensten streng. Reaktionsgeschwindigkeit. Gesprächsführung. Was der Anrufer hört, während die KI nachdenkt. Wie Ihre Marke klingt. Ob die KI tatsächlich etwas tun kann oder nur Fragen beantwortet. Jeder einzelne Fehler reicht aus, um das Gespräch als gescheitert empfinden zu lassen und diesen wertvollen Anrufer direkt an einen Menschen oder, schlimmer noch, an einen Konkurrenten weiterzuleiten.
Die meisten Sprach-KI-Produkte behandeln dies als eine Liste von Funktionen. Wir haben es als Neugestaltung betrachtet.
Was wir in HALO Voice neu entwickelt haben
Eine neue Sprachverarbeitungs-Pipeline. Wir haben die Sprach-zu-Text- und Text-zu-Sprache-Funktionen von Grund auf neu entwickelt. Die Transkription ist schneller und genauer. Die Sprachausgabe ist flüssiger und konsistenter. Die Zeit bis zum ersten Wort war eine bewusste Priorität, denn die Verzögerung zwischen dem Ende des Satzes eines Anrufers und dem Beginn der Antwort der KI macht sich bei Sprachkommunikation auf eine Weise bemerkbar, wie es sonst nirgendwo der Fall ist.
Intelligente Sprechwechselerkennung. HALO Voice erkennt, wann ein Anrufer zu Ende gesprochen hat, und antwortet in natürlichen Zeitabständen. Kein Durcheinanderreden. Keine Pausen, in denen sich der Anrufer fragt, ob das System noch funktioniert. Das Gespräch verläuft wie ein echtes, denn die KI weiß, wann sie an der Reihe ist.
Kontextbezogene Fülltöne und das Audioverse. Während die KI Daten verarbeitet, wartet der Anrufer. Wir haben generische Verarbeitungsgeräusche durch kontextbezogene Füllphrasen ersetzt, die dem entsprechen, was der Agent gerade tut. Während einer Wissenssuche: „Lassen Sie mich mal sehen, was ich finden kann.“ Während der Tool-Ausführung: „Einen Moment bitte, ich habe es fast.“ Das Audioverse fügt subtile Umgebungsgeräusche hinzu, die eine echte Kundendienstumgebung nachahmen. Das ist der Unterschied zwischen dem Gefühl des Anrufers, jemanden erreicht zu haben, und dem Gefühl, etwas erreicht zu haben.
ElevenLabs und das Lexicon. Wir sind zu ElevenLabs als primärem Sprachdienstleister für HALO gewechselt und haben Azure TTS außer Betrieb genommen. Der Unterschied in Sachen Natürlichkeit und Ausdruckskraft ist erheblich. Sprachprofile sind pro Sprache und pro Umgebung konfigurierbar und können vor der Bereitstellung in der Vorschau angehört werden. Das Lexicon gibt Ihnen die genaue Kontrolle über die Aussprache: Verhindern Sie, dass ein Markenname übersetzt wird, legen Sie einen Alias für eine URL oder Abkürzung fest, buchstabieren Sie ein Akronym Buchstabe für Buchstabe. Kleine Details, die zusammen ein Erlebnis schaffen, das sich wie gestaltet und nicht wie generiert anhört.
Agenten-Tool-Integration. HALO Voice lässt sich nativ mit denselben Agenten, Tools und der Wissensdatenbank verbinden, die auch den Rest von HALO antreiben. Der Sprachagent führt echte Workflows aus: Buchungen, Abrufen von Kontoinformationen, Weiterleiten, Eskalieren. Er ruft nicht nur vorformulierte Antworten ab. Die Unterstützung von DTMF-Eingaben erweitert dies auf Anrufer, die präzise numerische Informationen eingeben müssen.
WhatsApp-Anrufe. Kunden möchten so anrufen, wie sie es möchten. Für einen wachsenden Anteil von ihnen bedeutet das WhatsApp, nicht die Wähltastatur. HALO Voice unterstützt beides. Ein WhatsApp-Anruf erreicht denselben Sprachagenten, mit derselben Sprachpipeline, derselben Turn-Erkennung, denselben Tools und demselben Kontext. Keine separate Einrichtung, keine Beeinträchtigung des Nutzererlebnisses, kein zweitklassiger Kanal. Ganz gleich, ob der Anrufer Ihre Nummer wählt oder auf die Anrufschaltfläche in einem bereits geöffneten WhatsApp-Chat tippt – das Gespräch verläuft auf dieselbe Weise.
Das Detail, das alles verändert
All dies macht HALO Voice zu einer besseren Sprach-KI. Doch es gibt eine Anforderung, die sich weder durch Sprachqualität noch durch Fülltöne allein lösen lässt: Der Anrufer sollte sich nicht wiederholen müssen.
Ein Anrufer, der bereits andere Kanäle ausprobiert hat, hat mit ziemlicher Sicherheit bereits Erfahrungen mit Ihrem Unternehmen gemacht. Eine WhatsApp-Nachricht, die letzte Woche gesendet wurde. Eine Bestellung, die gestern aufgegeben wurde. Eine Beschwerde, die heute Morgen eingegangen ist. Wenn die Sprach-KI nichts davon weiß, werden alle anderen Verbesserungen in dem Moment zunichte gemacht, in dem sie den Anrufer auffordert, von vorne zu beginnen.
Genau hier unterscheidet sich HALO von anderen Lösungen. HALO Voice ist kein eigenständiges Sprachprodukt. Es ist derselbe Agent, der Ihre WhatsApp-Nachrichten, Ihren Chat und Ihre Nachrichten bearbeitet und nun auch ans Telefon geht. Dieselbe Wissensdatenbank. Dieselben Tools. Dieselbe Kundendatenebene. Der in einem Kanal festgelegte Kontext ist automatisch in jedem anderen Kanal verfügbar – in beide Richtungen. Der Sprachagent weiß schon vor dem ersten Wort, mit wem er spricht, weil er bereits mit dieser Person gesprochen hat.
Das ist es, was ein Sprachautomatisierungsprojekt von einem echten CX-Vorteil unterscheidet. Nicht eine Sprach-KI, die isoliert betrachtet natürlich klingt. Sondern ein Agent, der den Kunden bereits kennt – egal, welchen Kanal dieser als Nächstes nutzt.
Der Kanal, den man richtig hinbekommen sollte
Die Telefonie wurde viel zu lange als veralteter Kanal betrachtet. Zu teuer, um sie zu skalieren, zu riskant, um sie zu automatisieren, zu komplex, um sie zu modernisieren. Das Ergebnis ist, dass die meisten Unternehmen massiv in alle anderen Kanäle investiert haben, während ihr emotional wichtigster Kontaktpunkt weiterhin auf einer Infrastruktur aus dem letzten Jahrzehnt läuft.
Die Kunden, die anrufen, sind bereits Ihre engagiertesten. Sie brauchten dringend Hilfe, um zum Telefon zu greifen. Wie dieser Anruf verläuft, prägt ihre Meinung über Ihr Unternehmen weitaus stärker als jede Chat-Interaktion. Die Technologie, um diese Anrufe gut zu bewältigen, existiert bereits. Die Frage ist, ob die dahinterstehende Plattform entsprechend ausgelegt ist.
Genau das ist HALO.