What is the difference between Unicode and UTF-8?

Unicode is a character set assigning numbers to characters. UTF-8 is an encoding defining how those numbers are stored as bytes.

Why should I use UTF-8?

UTF-8 is backward compatible with ASCII, supports all Unicode characters, and is used by 98%+ of the web.

What causes mojibake?

Mojibake occurs when text is decoded with a different encoding than it was encoded with.

What is Base64 encoding?

Base64 encodes binary data as ASCII text for safe transport in text-based protocols like email and JSON.

How do I set encoding in HTML?

Add meta charset UTF-8 as the first element in your head tag.

Textkodierung erklärt: UTF-8, ASCII, Unicode & Zeichensätze

31. März 2026 · 12 Min. Lesezeit

Inhaltsverzeichnis

Was ist Zeichenkodierung?
ASCII: Die Grundlage der Textkodierung
Unicode: Ein universeller Zeichensatz
UTF-8: Der Internetstandard für Kodierung
UTF-8 vs UTF-16 vs UTF-32: Die richtige Kodierung wählen
Mojibake und Kodierungsprobleme
Kodierung in HTML und Webentwicklung
Kodierung in Programmiersprachen
Base64-Kodierung: Binärdaten als Text
Best Practices und häufige Fallstricke
Häufig gestellte Fragen
Verwandte Artikel

Jedes Mal, wenn Sie eine Nachricht tippen, ein Dokument speichern oder eine Website durchsuchen, arbeitet die Zeichenkodierung im Hintergrund, um menschenlesbaren Text in Binärdaten zu übersetzen, die Computer verstehen. Obwohl sie für die gesamte digitale Kommunikation grundlegend ist, bleibt die Kodierung einer der am meisten missverstandenen Aspekte der Informatik.

Dieser umfassende Leitfaden erklärt alles, was Sie über Textkodierung wissen müssen, von den Grundlagen von ASCII bis zu den Komplexitäten von Unicode und UTF-8. Egal, ob Sie ein Entwickler sind, der Kodierungsprobleme debuggt, oder einfach neugierig sind, wie Computer mit Text umgehen – hier finden Sie praktische Einblicke und Lösungen.

Was ist Zeichenkodierung?

Zeichenkodierung ist das System, das Zeichen – Buchstaben, Zahlen, Symbole und Sonderzeichen – auf numerische Werte abbildet, die Computer speichern und verarbeiten können. Wenn Sie den Buchstaben „A" auf Ihrer Tastatur eingeben, speichert Ihr Computer nicht den Buchstaben selbst. Stattdessen speichert er eine Zahl (in ASCII ist das 65) und verwendet das Kodierungsschema, um diese Zahl bei der Anzeige wieder in „A" umzuwandeln.

Stellen Sie sich Zeichenkodierung als Übersetzungswörterbuch zwischen menschlicher Sprache und Computersprache vor. Ohne dieses Wörterbuch wäre Text eine bedeutungslose Folge von Bytes ohne Möglichkeit, sie korrekt zu interpretieren.

Der Kodierungsprozess funktioniert in zwei Richtungen:

Kodierung: Umwandlung von Zeichen in Bytes (was passiert, wenn Sie eine Datei speichern)
Dekodierung: Umwandlung von Bytes zurück in Zeichen (was passiert, wenn Sie eine Datei öffnen)

Probleme entstehen, wenn Kodierung und Dekodierung unterschiedliche Schemata verwenden. Stellen Sie sich vor, Sie würden eine Nachricht mit einer Chiffre verschlüsseln und versuchen, sie mit einer anderen zu entschlüsseln – Sie würden Kauderwelsch erhalten. Das Gleiche passiert bei Textkodierungs-Fehlanpassungen, was zu beschädigten Zeichen oder dem berüchtigten „Mojibake" führt (mehr dazu später).

Profi-Tipp: Verwenden Sie unser Text-Encoder-Tool, um genau zu sehen, wie verschiedene Kodierungsschemata denselben Text darstellen. Dieser praktische Ansatz hilft, den Kodierungsprozess zu entmystifizieren.

ASCII: Die Grundlage der Textkodierung

ASCII (American Standard Code for Information Interchange) wurde 1963 entwickelt und wurde zur Grundlage für moderne Textkodierung. Es verwendet 7 Bits, um 128 Zeichen darzustellen, was für englischen Text und grundlegende Computeranforderungen der damaligen Zeit ausreichend war.

Der ASCII-Zeichensatz ist in mehrere Bereiche unterteilt, die jeweils einem bestimmten Zweck dienen:

Bereich	Zeichen	Anzahl	Zweck
0-31	Steuerzeichen	32	Nicht druckbare Befehle (Tab, Zeilenumbruch, Wagenrücklauf)
32-47	Interpunktion & Symbole	16	Leerzeichen, !, ", #, $, %, &, ', (, ), *, +, Komma, -, ., /
48-57	Ziffern	10	0-9
58-64	Interpunktion	7	:, ;, <, =, >, ?, @
65-90	Großbuchstaben	26	A-Z
91-96	Interpunktion	6	[, \, ], ^, _, `
97-122	Kleinbuchstaben	26	a-z
123-126	Interpunktion	4	{, \|, }, ~
127	Löschen	1	DEL-Steuerzeichen

Die Einschränkungen von ASCII

ASCII funktioniert perfekt für englischen Text, hat aber schwerwiegende Einschränkungen für die internationale Kommunikation:

Keine Zeichen mit Akzenten (é, ñ, ü, ø)
Keine Zeichen aus nicht-lateinischen Schriften (Chinesisch, Arabisch, Hebräisch, Kyrillisch)
Keine Währungssymbole außer dem Dollarzeichen
Keine Emojis oder moderne Symbole
Keine mathematische oder wissenschaftliche Notation außer grundlegenden Operatoren

Diese Einschränkungen führten zur Entwicklung von „erweiterten ASCII"-Varianten wie ISO-8859-1 (Latin-1), die das 8. Bit verwendeten, um 128 weitere Zeichen hinzuzufügen. Allerdings schufen verschiedene Regionen inkompatible Erweiterungen, wodurch dieselben Bytewerte je nach verwendeter Codepage unterschiedliche Zeichen darstellten.

ASCIIs bleibende Wirkung

Trotz seiner Einschränkungen bleibt ASCII heute relevant. Die ersten 128 Zeichen von UTF-8 (der dominierenden modernen Kodierung) sind identisch mit ASCII, was Rückwärtskompatibilität gewährleistet. Das bedeutet, dass jeder gültige ASCII-Text auch gültiges UTF-8 ist, was die Migration nahtlos macht.

ASCIIs Einfachheit macht es auch ideal für Protokolle, Dateiformate und Systeme, bei denen nur grundlegender englischer Text benötigt wird. Programmiersprachen, Befehlszeilenschnittstellen und Netzwerkprotokolle verlassen sich immer noch stark auf ASCII-Zeichen.

Unicode: Ein universeller Zeichensatz

Unicode wurde 1991 geschaffen, um das grundlegende Problem zu lösen, das ASCII und seine Erweiterungen nicht bewältigen konnten: die Darstellung aller Schriftsysteme der Welt in einem einzigen, einheitlichen Standard. Anstatt Dutzende inkompatibler Kodierungsschemata zu haben, bietet Unicode ein System, das für alle funktioniert.

Unicode ist selbst keine Kodierung – es ist ein Zeichensatz, der jedem Zeichen eine eindeutige Nummer zuweist, die als Codepoint bezeichnet wird. Ab Unicode 15.1 (veröffentlicht 2023) umfasst der Standard über 149.000 Zeichen, die 161 Schriften und Symbolsätze abdecken.

Codepoints verstehen

Codepoints werden im Format U+XXXX geschrieben, wobei XXXX eine Hexadezimalzahl ist. Hier sind einige Beispiele:

U+0041 = A (lateinischer Großbuchstabe A)
U+00E9 = é (lateinischer Kleinbuchstabe e mit Akut)
U+4E2D = 中 (chinesisches Zeichen für „Mitte")
U+0628 = ب (arabischer Buchstabe Beh)
U+1F600 = 😀 (grinsendes Gesicht Emoji)
U+03B1 = α (griechischer Kleinbuchstabe Alpha)

Der Unicode-Coderaum reicht von U+0000 bis U+10FFFF und bietet Platz für 1.114.112 mögliche Codepoints. Diese sind in 17 Ebenen mit jeweils 65.536 Codepoints organisiert.

Unicode-Ebenen

Die wichtigsten Ebenen umfassen:

Ebene 0 (BMP - Basic Multilingual Plane): U+0000 bis U+FFFF. Enthält die am häufigsten verwendeten Zeichen aus allen modernen Schriften, einschließlich Lateinisch, Chinesisch, Arabisch, Hebräisch, Kyrillisch und vielen anderen. Etwa 55.000 Codepoints sind in dieser Ebene zugewiesen.
Ebene 1 (SMP - Supplementary Multilingual Plane): U+10000 bis U+1FFFF. Enthält historische Schriften, Musiknotation, mathematische Symbole und Emojis. Hier leben die meisten Emojis.
Ebene 2 (SIP - Supplementary Ideographic Plane): U+20000 bis U+2FFFF. Enthält zusätzliche chinesische, japanische und koreanische (CJK) Ideogramme, die nicht in die BMP passten.
Ebenen 3-13: Derzeit nicht zugewiesen, für zukünftige Erweiterung reserviert.
Ebene 14 (SSP - Supplementary Special-purpose Plane): Enthält Zeichen für spezielle Zwecke wie Variationsselektoren und Tags.
Ebenen 15-16: Private Nutzungsbereiche für benutzerdefinierte Zeichen.

Schneller Tipp: Zeichen in der BMP (Ebene 0) können mit 16 Bits dargestellt werden, während Zeichen in anderen Ebenen mehr Bits benötigen. Diese Unterscheidung ist wichtig bei der Wahl zwischen UTF-8, UTF-16 und UTF-32.

Unicode-Normalisierung

Eine Komplexität von Unicode besteht darin, dass einige Zeichen auf mehrere Arten dargestellt werden können. Zum Beispiel kann das Zeichen „é" kodiert werden als:

Ein einzelner Codepoint: U+00E9 (vorkombinierte Form)
Zwei Codepoints: U+0065 (e) + U+0301 (kombinierender Akut-Akzent)

Beide Darstellungen sehen identisch aus, haben aber unterschiedliche Bytefolgen. Unicode-Normalisierungsformen (NFD, NFC, NFKD, NFKC) bieten Standardmethoden zur Konvertierung zwischen diesen Darstellungen und gewährleisten konsistenten Vergleich und Suche.

UTF-8: Der Internetstandard für Kodierung

UTF-8 (Unicode Transformation Format - 8-Bit) ist die am weitesten verbreitete Zeichenkodierung im Internet und macht über 98% aller Webseiten aus. Es wurde 1992 von Ken Thompson und Rob Pike entwickelt und ist zum De-facto-Standard für Textkodierung geworden.

UTF-8 ist eine Kodierung mit variabler Länge, die 1 bis 4 Bytes pro Zeichen verwendet. Dieses clevere Design bietet mehrere Vorteile:

Wie UTF-8 funktioniert

UTF-8 kodiert Zeichen nach folgendem Schema:

Codepoint-Bereich	Bytes	Bytemuster	Beispielzeichen
U+0000 bis U+007F	1	0xxxxxxx	ASCII-Zeichen (A, 5, $)
U+0080 bis U+07FF	2	110xxxxx 10xxxxxx	Lateinisch erweitert, Griechisch, Kyrillisch (é, α, Ж)
U+0800 bis U+FFFF	3	1110xxxx 10xxxxxx 10xxxxxx	Die meisten asiatischen Schriften, Symbole (中, ह, €)
U+10000 bis U+10FFFF	4	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx	Emojis, seltene Schriften (😀, 𝕳, 𐐷)

Die „x"-Positionen in den Bytemustern enthalten die tatsächlichen Zeichendaten. Die führenden Bits zeigen an, wie viele Bytes das Zeichen verwendet, sodass Decoder korrekt synchronisieren können, selbst wenn sie mitten im Stream zu lesen beginnen.

Vorteile von UTF-8

UTF-8s Dominanz ergibt sich aus mehreren wichtigen Vorteilen:

Rückwärtskompatibilität: ASCII-Text ist gültiges UTF-8 ohne jegliche Konvertierung. Die ersten 128 Zeichen verwenden identische Bytewerte.
Speichereffizienz: Englisch und Code verwenden nur 1 Byte pro Zeichen, während dennoch alle Unicode-Zeichen unterstützt werden.
Selbstsynchronisierend: Sie können Zeichengrenzen durch Betrachten der Bytemuster finden, was die Fehlerwiederherstellung erleichtert.
Keine Byte-Reihenfolge-Probleme: Im Gegensatz zu UTF-16 und UTF-32 benötigt UTF-8 keine Byte-Reihenfolge-Markierung (BOM), um die Endianness anzuzeigen.
Null-Byte-sicher: Das Null-Byte (0x00) erscheint nur als NULL-Zeichen, nicht als Teil von Mehrbyte-Sequenzen, was es mit C-Style-Strings kompatibel macht.

UTF-8 in der Praxis

Sehen wir uns an, wie UTF-8 verschiedene Zeichen kodiert:

„A" (U+0041): 1 Byte → 0x41
„é" (U+00E9): 2 Bytes → 0xC3 0xA9
„中" (U+4E2D): 3 Bytes → 0xE4 0xB8 0xAD
„😀" (U+1F600): 4 Bytes → 0xF0 0x9F 0x98 0x80

Dieser Ansatz mit variabler Länge bedeutet, dass ein Dokument, das hauptsächlich englischen Text enthält, weit weniger Platz verwendet als UTF-16 oder UTF-32, während dennoch der gesamte Unicode-Bereich bei Bedarf unterstützt wird.

Profi-Tipp: Geben Sie immer UTF-8-Kodierung in Ihren HTML-Dokumenten mit <meta charset="UTF-8"> und in HTTP-Headern mit Content-Type: text/html; charset=UTF-8 an. Dies verhindert, dass Browser die Kodierung falsch erraten.

UTF-8 vs UTF-16 vs UTF-32: Die richtige Kodierung wählen

Während UTF-8 bei Webinhalten dominiert, haben UTF-16 und UTF-32 ihre eigenen Anwendungsfälle. Das Verständnis der Unterschiede hilft Ihnen, die richtige Kodierung für Ihre spezifischen Bedürfnisse zu wählen.

UTF-16: Der Mittelweg

UTF-16 verwendet 2 oder 4 Bytes pro Zeichen. Zeichen in der BMP (U+0000 bis U+FFFF) verwenden 2 Bytes, während Zeichen außerhalb der BMP 4 Bytes durch einen Mechanismus namens Surrogatpaare verwenden.

Vorteile:

Speichereffizienter als UTF-8 für asiatische Sprachen (Chinesisch, Japanisch, Koreanisch)
Wird intern von Windows, Java, JavaScript und .NET verwendet
Konstante 2-Byte-Breite für die meisten gängigen Zeichen vereinfacht einige String-Operationen

Nachteile:

Nicht rückwärtskompatibel mit ASCII
Erfordert Byte-Reihenfolge-Markierung (BOM) oder explizite Endianness-Spezifikation
Weniger speichereffizient für Englisch und Code
Kodierung mit variabler Länge (aufgrund von Surrogatpaaren) erschwert String-Indizierung
Enthält Null-Bytes in normalem Text, was C-Style-String-Funktionen unterbricht

UTF-32: Einfachheit mit fester Breite

UTF-32 verwendet genau 4 Bytes für jedes Zeichen, was es zu einer Kodierung mit fester Breite macht. Jeder Codepoint wird direkt auf eine 32-Bit-Ganzzahl abgebildet.

Vorteile:

Konstante Breite vereinfacht String-Indizierung und Längenberechnungen
Direkte Abbildung zwischen Codepoints und kodierten Werten
Keine komplexe Dekodierungslogik erforderlich

Nachteile:

Extrem speicherineffizient (4 Bytes pro Zeichen, selbst für ASCII)
Wird selten für Speicherung oder Übertragung verwendet
Nicht rückwärtskompatibel mit ASCII
Erfordert Byte-Reihenfolge-Spezifikation

Vergleichstabelle

Merkmal	UTF-8	UTF-16	UTF-32
Bytes pro Zeichen	1-4 (variabel)	2-4 (variabel)	4 (fest)
ASCII-Kompatibilität Text Word Counter Character Counter Case Converter Text Sorter Code JSON Formatter Regex Tester HTML Beautifier CSS Beautifier Convert Markdown to HTML JSON to CSV CSV to JSON XML to JSON Encode Base64 URL Encoder HTML Encoder Unicode Company About Blog Contact Sitemap © 2026 TxtTool. All processing happens in your browser. Privacy Terms More Tools: run-dev img-kit the-pdf nettool1