Serie GSM

Teil III - Voll bepackt

Die Anzahl verfügbarer Frequenzen ist beschränkt. Jeder Telefonierer bekommt davon sowenig wie möglich. Damit man trotzdem Sprache übertragen kann, muss sie klein verpackt werden - und zwar so schnell wie möglich.

Bei GSM werden die analogen Signale des Gesprächs digitalisiert und in Daten umgewandelt. Die Datenmenge hängt von zwei Parametern ab: Bandbreite und Samplingrate. Die Bandbreite ist der Tonhöhenumfang, der beim menschlichen Gehör von 16 Hz bis 20 kHz reicht. Die Samplingrate gibt an, wie oft pro Sekunde eine Probe genommen wird. Dabei können aber ganz schön viele Daten zusammenkommen: Die Entwickler von Sprachcodierung unterscheiden drei Stufen der zu komprimierenden Signale:

Telefonsignale mit einer Bandbreite von 0.3 bis 3.4 kHz und einer Samplingrate von 8 kHz führen zu einer Datenrate von 64 kbit/s

Breitbandsprache (auch als Radioqualität bezeichnet) hat eine Bandbreite von 0.05 bis 7 kHz und eine Samplingrate von 16 kHz, was zu einer Datenrate von 224 kbit/s führt; und schliesslich allgemeine

Audiosignale (auch als CD-Qualität bezeichnet) haben eine Bandbreite von 0 bis 20 kHz (also den gesamten hörbaren Tonumfang) und eine Samplingrate zwischen 32 und 48 kHz. GSM stellt aber für jeden vollen Sprachkanal nur 22.8 kbit/s zur Verfügung. Das heisst, eine Kompression wird benötigt.

In Wirklichkeit sind es sogar noch weniger, da man, um gegen Ausfälle gesichert zu sein, Kontrollbits mitsendet, so dass das Handy, auch wenn ein Teil der Übertragung verloren geht, das gesamte Gespräch wiedergeben kann. Netto stehen in einem FR-Kanal 13 kbit/s und in einem HR-Kanal 7 kbit/s zur Verfügung, in die man mit einem geeigneten Codec (wie die Sprachkomprimierungsprogramme genannt werden) die 64 kbit/s Sprachdaten hineinquetschen muss.

Der volle Kanal

Das ursprüngliche Konzept von GSM sah ein Gespräch pro vollem Sprachkanal vor. Das dabei verwendete Komprimierungsverfahren nennt sich «Regular Pulse Excited LPC with Long Term Predictor» (RPE-LTP) und wurde von der KBS-Forschungsgruppe der TU Berlin unter der Leitung von Jutta Degner entwickelt.

Die Basis ist ein LPC (Linear Prediction Codec = Codec mit linearer Vorhersage). Dieser Codec nimmt an, dass die Sprache durch einen Vierpolfilter hinreichend modelliert werden kann, dem eine Impulsquelle für die Vokale und eine Geräuschquelle für die Konsonanten zugeschaltet werden.

Um aber von Impulsen und Geräuschen zu Sprache zu kommen, müssen die Filterkoeffizienten entsprechend abgestimmt werden. Dazu werden die mit dem Filter vorhergesagte Sprache und die tatsächliche Sprache (also das, was man in das Telefon hineinspricht) miteinander verglichen und aus dem Unterschied (über die Minimierung des mittleren quadratischen Fehlers) die Koeffizienten berechnet. An das andere Handy würde dann nicht die tatsächliche Sprache gesendet, sondern nur die Filterkoeffizienten, so dass am anderen Ende der Filter entsprechend eingestellt wird und wieder Sprache ausgibt. Leider sind die Filterkoeffizienten immer noch mehr als 13 kbit/s. Daher muss noch ein zweiter Filter her, der «Long Term Predictor» (= Langzeitvorhersager), der auf Grund der menschlichen Sprachmuster Vorhersagen trifft.

Denn der menschliche Kehlkopf kann sich nicht beliebig schnell verändern, weswegen nach einem bestimmten Wellenmuster nur einige wenige andere Wellenmuster folgen können - bzw. nach einem bestimmten Muster von Filterkoeffizienten nur einige wenige andere Muster von Filterkoeffizienten. Und wenn man dann nur den Unterschied zwischen den vorhergesagten Koeffizienten und den tatsächlichen Koeffizienten überträgt, spart man wieder einiges an Daten ein.

Der letzte Teil von RPE-LTP ist das «Regular Pulse Excited» (regelmässige Pulsanregung). Die Muster von Filterkoeffizienten bzw. Unterschiede von Mustern, die übertragen werden, sind nämlich immer noch zu viele. Daher überträgt man nur den Index für eine Tabelle bzw. ein «Codebuch», in dem diese Muster stehen. Es sind aber zu viele Muster, als dass der Chip im Handy diese Tabelle in Echtzeit durchsuchen könnte - wie es ja für ein Telefongespräch nötig ist - ausser diese Tabelle hat ein bestimmtes Ordnungsmuster. Und RPE ist ein solches Ordnungsmuster, das es erlaubt, die Transformation von Sprache in komprimierte Daten in Echtzeit durchzuführen.

Doppelte Gesprächszahl

Mit der Weiterentwicklung der Mathematik wurden auch verbesserte Codecs möglich, die es gestatteten, auf einem GSM-Kanal zwei Gespräche zu übertragen. Von den Möglichkeiten, die sich zur Realisierung von Half-Rate-Kanälen boten, wählte die ETSI das Verfahren VSELP, das nur 5.6 kbit/s an Daten erfordert. Die benötigte Rechenleistung ist aber viermal so gross als bei RPE-LTP (auch bei GSM wird offenbar die Software genauso schnell grösser, wie die Hardware schneller wird).

Der primäre Unterschied von VSELP und RPE-LTP ist die Indizierung des Codebuchs, die hier mit VSE (Vector Sum Excited = Vektorsummenanregung) arbeitet. Durch das Arbeiten mit Vektoren bzw. Vektorsummen statt regelmässigen Pulsen werden gleichsam mehrere Indizes zugleich durchgearbeitet, was die benötigte Rechenleistung erhöht, aber die zur Übertragung notwendigen Daten reduziert. Leider verliert bei dieser Methode die Sprachqualität ein wenig, wodurch sich HR nicht wirklich durchgesetzt hat.

«Kristallklare Handy-Gespräche»

Eines der Probleme von Sprachübertragung via Funk sind immer Verluste durch Reflexionen an Gebäuden, Funklöcher und ähnliches. Gegen einige dieser Dinge hilft nur ein besseres Netz, aber anderen - bei denen nur einige Bits fehlen - kann man mit einem besseren Sprachcodec vorbeugen. Die Grundidee hinter EFR war es, die verbesserten Codecs zu nutzen, aber den gesamten Kanal zu verwenden. Das Resultat ist eine Sprachqualität, die FR überlegen ist, aber auch fünfmal soviel Rechenleistung benötigt.

Das Verfahren, das die ETSI für EFR angenommen hat, ist «Algebraic Code-Excited Linear Prediction» (ACELP) - ein Verfahren, das mit 12.2 kbit/s auskommt, was etwas weniger ist als die 13 kbit/s von RPE-LTP, wodurch mehr Bits für die Korrektur von Sendeausfällen übrigbleiben. Das führt dazu, dass nicht nur die Sprachqualität besser ist als bei FR, sondern auch die Gesprächsabbrüche weniger werden.

ACELP ist eine Entwicklung der kanadischen Sherbrooke University, die gemeinsam mit der Firma Siprolab eine eigene Tochterfirma namens Siprolab Telecom gegründet hat, welche die alleinigen Auswertungrechte an diesem Codec besitzt und die Lizenzen an die Handy-Hersteller vergibt. Ausser für GSM EFR ist ACELP aber auch für TETRA FR und amerikanisches TDMA im Einsatz, und eine Variante namens CS-ACELP ist der neue Allzweckstandard G.729 der ITU, der für Festnetztelefonie, Videokonferenzen, Kanalmultiplex und anderes zum Einsatz kommen soll.

Zur technischen Seite sei angemerkt, dass die Basis dieses Codec natürlich wieder eine lineare Vorhersage (Linear Prediction) der Sprache ist. Eine der Verbesserungen ist, dass neben der Vorhersage aufgrund der endlichen Variabilität des Kehlkopfes auch die Fehlerkorrektureigenschaften des Ohrs mit berücksichtigt werden. Bestimmte Fehler im Kurzzeitspektrum des Filters werden zugelassen, da das Ohr eine Toleranz von bis zu 10 ms hat, während im Langzeitspektrum (Veränderungen in Zeitabschnitten grösser als 10 ms) voll korrigiert wird. Dadurch kann ein guter Teil redundanter Daten eingespart werden, ohne dass man an Gesprächsqualität verlieren würde. Da man aber insgesamt fast gleich viele Daten verwendet wie FR, wird die Gesprächsqualität sogar besser. Ein weiterer Unterschied ist wiederum eine andere Indizierung der Filterkoeffizienten im Codebuch, diesmal über ein algebraisches Verfahren, das es erlaubt, in dem - wegen der besseren Sprachqualität notgedrungen grösseren - Codebuch einen eindeutigen Index zu finden, der in Summe sogar etwas weniger Platz benötigt als der bei FR verwendete Index.

Klarer als kristallklar

Die Entwicklung bleibt nicht stehen, und auch EFR ist nicht der Weisheit letzter Schluss. Die nächste Stufe der Entwicklung soll AMR sein, das mit einer reduzierten Bitrate in einen halben Kanal passt, Platz für mehr Korrekturbits lässt, wodurch die Fehlerrate reduziert wird; aber trotzdem dieselbe Sprachqualität wie EFR besitzt.

Die heissesten Kandidaten dafür sind derzeit allesamt Derivate von ACELP, die sich grossteils nur durch die Verfahren zur Indizierung der Koeffiziententabelle unterscheiden, da an dem grundlegenden Verfahren nicht mehr viel geändert werden kann.

Die Universität Aachen hat gemeinsam mit Siemens «Variable Rate CELP» (VR-CELP) entwickelt, der mit 6.1 kbit/s für halbe und 13.3 kbit/s für ganze Kanäle ausgelegt ist und eine dynamische Teilung der Bruttobitrate auf Quellcodierung und Kanalcodierung verwendet. Das Wort «dynamisch» bezieht sich dabei auf eine Anpassung je nachdem, wie die momentane Qualität des Übertragungskanals ist und welche Kanäle überhaupt zur Verfügung stehen. Denn während bei EFR alle Gespräche in FR-Kanälen stattfinden, muss ein für AMR geeignetes Verfahren auch für HR-Kanäle tauglich sein, da den Betreibern wieder einmal die Frequenzen in den Ballungszentren ausgehen. In der Praxis heisst das, dass man einen ganzen Kanal zur Verfügung gestellt bekommt, wenn gerade wenige Leute telefonieren, aber nur einen halben, wenn mehr Verkehr ist, wobei diese Zuordnung mitten im Gespräch geändert werden kann. Um auch in halben Kanälen gute Sprachqualität zu bieten, hat man sich für VR-CELP ausserdem eine neue Fehlerkorrektur - basierend auf den Hochrechnungsalgorithmen - ausgedacht, die auch bei Wahlprognosen verwendet werden.

Von der japanischen Firma NEC kommt «Multi Pulse based CELP» (MP-CELP), der mit einer Bitrate von 6.4 kbit/s etwas sperriger als VR-CELP ist, aber in HR-Kanälen die Qualität von FR und in FR-Kanälen die Qualität von EFR haben soll. Auch dieser Codec kann im Bedarfsfall automatisch zwischen HR- und FR-Kanal umschalten, verwendet aber keine Anpassung der Bruttobitrate, sondern der Zahl der Auslese-Impulse für das Codebuch. Die niedrige Bitrate wird durch eine Vektorquantisierung des Codebuchs erreicht, die - wie schon bei VSELP - die Zahl der Parameter reduziert.

Insgesamt sind es elf Kandidaten, die sich aber nicht nur um AMR bewerben, sondern eigentlich schon um das Nachfolgesystem von GSM, nämlich UMTS. Und wer hier die Nase vorne hat, kann an den Lizenzgebühren für die tatsächliche Umsetzung gut verdienen. Die Konferenzen, bei denen die verschiedenen Vorschläge begutachtet werden, sind derzeit noch im Gange.

Nach dem Codec

Nachdem die Sprache nun digitalisiert und mit Hilfe des Codec komprimiert wurde, ist das Signal aber noch lange nicht bereit, ausgesendet zu werden. Wie wir gesehen haben, sind die Bitraten, welche die Codecs ausgeben, kleiner als die Bitrate des Kanals. Der noch freie Platz wird nun für die sogenannte «Kanalcodierung» verwendet, mit der Übertragungsfehler korrigiert werden sollen. Das und die Verschlüsselung kommt in der nächsten Folge in MOBILE TIMES 12.

Michael Köttl/fwk

Verwendete Abkürzungen

ACELP: Algebraic Code-Excited Linear Prediction
AMR: Adaptive MultiRate
EFR: Extended Full Rate
FR: Full Rate
HR: Half Rate
ETSI: European Telecommunications Standards Institute
ITU: International Telecommunications Union
KBS: Kommunikations- und Betriebs-Systeme
LPC: Linear Prediction Codec
RPE-LTP: Regular Pulse Excited LPC with Long Term Predictor
TETRA: Trans-European Trunked Radio bzw. TErrestrial Trunked RAdio
UMTS: Universal Mobile Telephone System
VSELP: Vetor Sum Excited Linear Prediction