UTF-8 Encoder

Konvertieren Sie beliebigen Text einfach in UTF-8-kodierten Hexadezimalcode mit dem UTF-8 Encoder von Qodex. Ob Sie Eingaben für Hash-Algorithmen vorbereiten, Byte-Streams debuggen oder mehrsprachige Daten über Netzwerke senden möchten: Dieses Tool sorgt für sichere und präzise Kodierung. Dekodieren Sie kodierte Texte mit unserem UTF-8 Decoder zur Validierung des Hin- und Rückwegs.

UTF-8 Encoder, Dokumentation

Was ist UTF-8-Kodierung?

UTF-8-Kodierung ist der Prozess, lesbare Zeichen in Byte-Sequenzen umzuwandeln, die Computer verstehen und speichern können. UTF-8 steht für "Unicode Transformation Format, 8 Bit" und ist das am weitesten verbreitete Kodierungssystem im Web.

Bei der UTF-8-Kodierung wird jeder Buchstabe, jede Zahl, jedes Emoji und jedes Symbol einer bestimmten hexadezimalen Darstellung zugeordnet. Zum Beispiel wird der Buchstabe A zu 41 und das Emoji ✔ zu E2 9C 94.

UTF-8-Kodierungsreferenztabelle

Verwenden Sie diese Tabelle, um häufig verwendete Zeichen und ihre UTF-8-Hex-Byte-Darstellungen nachzuschlagen:

Zeichen	Beschreibung	Code Point	UTF-8 Hex Bytes	Byte-Anzahl
A	Lateinisches Großbuchstabe A	U+0041	41	1
Z	Lateinisches Großbuchstabe Z	U+005A	5A	1
0	Ziffer Null	U+0030	30	1
~	Tilde	U+007E	7E	1
©	Copyright-Zeichen	U+00A9	C2 A9	2
é	Lateinisches e mit Akut	U+00E9	C3 A9	2
ü	Lateinisches u mit Umlaut	U+00FC	C3 BC	2
£	Pfund-Zeichen	U+00A3	C2 A3	2
€	Euro-Zeichen	U+20AC	E2 82 AC	3
✔	Häkchen	U+2714	E2 9C 94	3
中	CJK "Mitte"	U+4E2D	E4 B8 AD	3
界	CJK "Welt/Grenze"	U+754C	E7 95 8C	3
🚀	Raketen-Emoji	U+1F680	F0 9F 9A 80	4
𝄞	Musikalischer G-Schlüssel	U+1D11E	F0 9D 84 9E	4

UTF-8 im Vergleich zu ASCII und UTF-16

Merkmal	ASCII	UTF-8	UTF-16
Zeichenbereich	128 Zeichen (nur Englisch)	Gesamtes Unicode (1,1 Mio.+ Zeichen)	Gesamtes Unicode
Bytes pro Zeichen	Immer 1	1 bis 4 (variabel)	2 oder 4
ASCII-kompatibel	Ja (ist ASCII)	Ja (abwärtskompatibel)	Nein
Am besten für	Englischsprachige Legacy-Systeme	Web, APIs, die meisten modernen Apps	Java/Windows-interne Systeme, CJK-intensiver Text
Web-Nutzung	Rückläufig	98%+ aller Websites	Selten im Web

Wie UTF-8-Kodierung funktioniert (hinter den Kulissen)

UTF-8 verwendet je nach Unicode-Code-Point unterschiedliche Byte-Muster:

Unicode-Bereich	Bytes	Kodierungsformat	Beispiel
U+0000 bis U+007F	1	0xxxxxxx	A = 41
U+0080 bis U+07FF	2	110xxxxx 10xxxxxx	é = C3 A9
U+0800 bis U+FFFF	3	1110xxxx 10xxxxxx 10xxxxxx	€ = E2 82 AC
U+10000 bis U+10FFFF	4	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx	🚀 = F0 9F 9A 80

Kodierungsablauf:

Jedes Zeichen lesen aus der Eingabezeichenkette
Den Unicode-Code-Point ermitteln (z. B. 'A' = U+0041)
In Binär konvertieren und in die korrekte UTF-8-Struktur je nach Byte-Anzahl einpassen
Als Hex ausgeben, durch Leerzeichen getrennte Werte (z. B. 41 für 'A')

Praktische Beispiele

Beispiel 1: Einfaches ASCII (1 Byte)

Eingabe: A | Code Point: U+0041 | UTF-8 Hex: 41

Beispiel 2: Akzentuiertes Lateinisch (2 Bytes)

Eingabe: é | Code Point: U+00E9 | UTF-8 Hex: C3 A9

Beispiel 3: Emoji (4 Bytes)

Eingabe: 🚀 | Code Point: U+1F680 | UTF-8 Hex: F0 9F 9A 80

Beispiel 4: Japanisches Zeichen (3 Bytes)

Eingabe: 界 | Code Point: U+754C | UTF-8 Hex: E7 95 8C

UTF-8-Kodierung in PHP, Python und JavaScript

So behandeln Sie die UTF-8-Kodierung in den drei beliebtesten Webentwicklungssprachen:

PHP

// Encode string to UTF-8 (from another encoding)
$text = "Cafe";
$utf8 = mb_convert_encoding($text, 'UTF-8', 'ISO-8859-1');
// Get hex representation of UTF-8 bytes
$hex = bin2hex("Cafe");  // Output: 436166c3a9
// Check string length in characters vs bytes
echo mb_strlen("Cafe", 'UTF-8'); // 4 characters
echo strlen("Cafe");             // 5 bytes
// Always use multibyte functions for UTF-8 strings
echo mb_strtoupper("cafe", 'UTF-8'); // CAFE
// Pro tip: Set internal encoding globally
mb_internal_encoding('UTF-8');

Python

# Encode a string to UTF-8 bytes
text = "Cafe"
utf8_bytes = text.encode("utf-8")
print(utf8_bytes)  # b'Caf\xc3\xa9'
Get hex representation
hex_string = utf8_bytes.hex()
print(hex_string)  # 436166c3a9
Encode emoji
rocket = "\U0001F680"
print(rocket.encode("utf-8").hex())  # f09f9a80
Read a file with explicit UTF-8 encoding
with open("data.txt", "r", encoding="utf-8") as f:
content = f.read()

JavaScript

// Using TextEncoder (modern browsers and Node.js)
const encoder = new TextEncoder();
const bytes = encoder.encode("Cafe");
console.log(bytes); // Uint8Array [67, 97, 102, 195, 169]
// Convert to hex string
const hex = Array.from(bytes)
.map(b => b.toString(16).padStart(2, '0'))
.join(' ');
console.log(hex); // "43 61 66 c3 a9"
// URL-safe encoding (percent-encoded UTF-8)
console.log(encodeURIComponent("Cafe"));
// Output: Caf%C3%A9
// Encode emoji
const rocketBytes = new TextEncoder().encode("\uD83D\uDE80");
console.log(Array.from(rocketBytes).map(b => b.toString(16)).join(' '));
// f0 9f 9a 80

Häufige UTF-8-Kodierungsfehler und ihre Behebung

Fehler	Symptom	Ursache	Lösung
Mojibake	"Cafe" erscheint als "CafÃ©"	UTF-8-Bytes werden als Latin-1 gelesen	Zeichensatz in HTTP-Headern und HTML-Meta-Tag auf UTF-8 setzen
Ersatzzeichen	Text erscheint als "Caf?"	Ungültige Byte-Sequenzen	Quelldaten als gültiges UTF-8 neu kodieren
Doppelte Kodierung	"Cafe" erscheint als "CafÃ�Â©"	UTF-8-Text erneut als UTF-8 kodiert	Nur einmal kodieren; vorhandene Kodierung vor der Konvertierung prüfen
Abgeschnittene Zeichen	Emojis oder CJK-Zeichen fehlen oder sind defekt	Zeichenkette in der Mitte einer Sequenz abgeschnitten (z. B. SUBSTR auf Bytes)	Zeichenbewusste Funktionen verwenden (mb_substr in PHP, nicht substr)
BOM-Probleme	Zusätzliche Zeichen am Dateianfang	UTF-8-BOM (EF BB BF) der Datei vorangestellt	Dateien als "UTF-8 ohne BOM" im Editor speichern
Datenbankkorruption	Zeichen beim Speichern/Abrufen korrumpiert	Datenbank oder Verbindung nicht auf utf8mb4 gesetzt	`utf8mb4`-Zeichensatz in MySQL verwenden; Verbindungszeichensatz setzen

Korrekte UTF-8-Nutzung in HTML und HTTP-Headern sicherstellen

So stellen Sie sicher, dass Ihre Webinhalte in jedem Browser und jeder Sprache korrekt angezeigt werden:

HTML5: Fügen Sie <meta charset="utf-8"> im <head>-Bereich ein
HTTP-Header: Setzen Sie Content-Type: text/html; charset=utf-8 auf Ihrem Server
Datenbank: Verwenden Sie utf8mb4-Zeichensatz in MySQL (nicht nur utf8, das nur 3-Byte-Zeichen unterstützt)
Dateien: Quelldateien im Editor als UTF-8 ohne BOM speichern

Wann und wo Sie UTF-8-Kodierung einsetzen

APIs und Web-Anfragen: Mehrsprachige oder emoji-reiche Daten sicher übertragen
Datenexport: Byte-genaue Versionen von Eingaben speichern
Kodierungs-Debugging: Prüfen, ob Textkorruption auf Kodierungsfehler zurückzuführen ist
Kryptografie und Hashing: Zeichenketten für Hashing in Bytes konvertieren (z. B. SHA-256)
Datenbank-Einfügung: Einige Datenbanken erwarten UTF-8-kodierte Zeichenketten als Hex

Empfohlene Begleit-Tools

UTF-8 Decoder: Den kodierten Hex-Code zurück in lesbaren Text umwandeln
Base64 Encoder: Die UTF-8-Bytes für sicheren Transfer base64-kodieren
URL Encoder: Den Hex-Code URL-sicher für die Browser-Kommunikation machen

Profi-Tipps

ASCII-Zeichen (A-Z, 0-9, Satzzeichen) belegen nur ein Byte; Emojis oder Sonderzeichen benötigen 2 bis 4 Bytes.
Verwenden Sie dieses Tool, um die Byte-Integrität beim Debuggen von Netzwerk- oder API-Kommunikation zu überprüfen.
Wenn ein Zeichen in anderen Systemen nicht korrekt angezeigt wird, kodieren Sie es hier und prüfen Sie die Byte-Aufschlüsselung.
Kopieren Sie die kodierte Ausgabe direkt in HTTP-Header, Cookies oder token, wenn erforderlich.
Testen Sie immer mit Multibyte-Zeichen (akzentuierte Buchstaben, CJK, Emojis), um Kodierungsprobleme frühzeitig zu erkennen.

Frequently Asked Questions

Welche Eingabeformate werden unterstützt?

Sie können beliebigen lesbaren Unicode-Text eingeben, einschließlich Emojis, Symbolen und Schriften jeder Sprache.

Warum erzeugen manche Zeichen eine längere Ausgabe?

UTF-8 verwendet eine variable Länge. ASCII-Zeichen (wie A-Z) belegen 1 Byte, akzentuierte Zeichen 2 Bytes, CJK-Zeichen und gebräuchliche Symbole 3 Bytes und Emojis 4 Bytes.

Ist das Tool sicher?

Ja, die gesamte Kodierung erfolgt lokal in Ihrem Browser mit JavaScript. Es werden keine Daten an einen Server gesendet.

Kann ich Binärdaten kodieren?

Dieses Tool ist für die Kodierung von Text ausgelegt. Verwenden Sie für Binärdateien einen Hex-Konverter oder einen Binär-Encoder.

Wie viele Bytes verwendet ein UTF-8-Zeichen?

Das hängt vom Zeichen ab: ASCII (U+0000-U+007F) verwendet 1 Byte, Latein/Griechisch/Kyrillisch (U+0080-U+07FF) 2 Bytes, CJK und die meisten Symbole (U+0800-U+FFFF) 3 Bytes und Emojis sowie seltene Schriften (U+10000-U+10FFFF) 4 Bytes. Das Maximum sind 4 Bytes pro Zeichen.

Was ist eine UTF-8-BOM?

BOM steht für Byte Order Mark. In UTF-8 ist es die 3-Byte-Sequenz EF BB BF am Anfang einer Datei. Anders als UTF-16 benötigt UTF-8 keine BOM, da die Byte-Reihenfolge immer gleich ist. Einige Windows-Programme (wie Notepad) fügen sie jedoch automatisch hinzu. Die BOM kann Probleme mit PHP-Skripten, CSV-Parsing und Shell-Skripten verursachen. Empfehlung: Dateien als "UTF-8 ohne BOM" im Texteditor speichern.

Was ist der Unterschied zwischen UTF-8-Kodierung und URL-Kodierung?

UTF-8-Kodierung wandelt Textzeichen in rohe Byte-Sequenzen um (z. B. wird das Euro-Zeichen zu E2 82 AC). URL-Kodierung (Prozent-Kodierung) nimmt diese UTF-8-Bytes und versieht jedes mit einem Prozentzeichen für die sichere Verwendung in URLs (z. B. wird das Euro-Zeichen zu %E2%82%AC). URL-Kodierung baut auf UTF-8 auf: Zuerst wird das Zeichen UTF-8-kodiert, dann wird jedes Byte prozent-kodiert.

Welches Kodierungsformat wird intern verwendet?

Es verwendet den UTF-8-Standard, der vom Unicode-Konsortium (RFC 3629) definiert wurde. Dies ist dieselbe Kodierung, die von 98%+ aller Websites weltweit verwendet wird.