NewIntroducing QODEX QA Services — platform-powered QA for API-driven teams.Learn more →
UTF-8 Encoder

UTF-8 Encoder

Konvertieren Sie beliebigen Text einfach in UTF-8-kodierten Hexadezimalcode mit dem UTF-8 Encoder von Qodex. Ob Sie Eingaben für Hash-Algorithmen vorbereiten, Byte-Streams debuggen oder mehrsprachige Daten über Netzwerke senden möchten: Dieses Tool sorgt für sichere und präzise Kodierung. Dekodieren Sie kodierte Texte mit unserem UTF-8 Decoder zur Validierung des Hin- und Rückwegs.

UTF-8 Encoder, Dokumentation

Was ist UTF-8-Kodierung?

UTF-8-Kodierung ist der Prozess, lesbare Zeichen in Byte-Sequenzen umzuwandeln, die Computer verstehen und speichern können. UTF-8 steht für "Unicode Transformation Format, 8 Bit" und ist das am weitesten verbreitete Kodierungssystem im Web.

Bei der UTF-8-Kodierung wird jeder Buchstabe, jede Zahl, jedes Emoji und jedes Symbol einer bestimmten hexadezimalen Darstellung zugeordnet. Zum Beispiel wird der Buchstabe A zu 41 und das Emoji ✔ zu E2 9C 94.

UTF-8-Kodierungsreferenztabelle

Verwenden Sie diese Tabelle, um häufig verwendete Zeichen und ihre UTF-8-Hex-Byte-Darstellungen nachzuschlagen:

Zeichen

Beschreibung

Code Point

UTF-8 Hex Bytes

Byte-Anzahl

A

Lateinisches Großbuchstabe A

U+0041

41

1

Z

Lateinisches Großbuchstabe Z

U+005A

5A

1

0

Ziffer Null

U+0030

30

1

~

Tilde

U+007E

7E

1

©

Copyright-Zeichen

U+00A9

C2 A9

2

é

Lateinisches e mit Akut

U+00E9

C3 A9

2

ü

Lateinisches u mit Umlaut

U+00FC

C3 BC

2

£

Pfund-Zeichen

U+00A3

C2 A3

2

Euro-Zeichen

U+20AC

E2 82 AC

3

Häkchen

U+2714

E2 9C 94

3

CJK "Mitte"

U+4E2D

E4 B8 AD

3

CJK "Welt/Grenze"

U+754C

E7 95 8C

3

🚀

Raketen-Emoji

U+1F680

F0 9F 9A 80

4

𝄞

Musikalischer G-Schlüssel

U+1D11E

F0 9D 84 9E

4

UTF-8 im Vergleich zu ASCII und UTF-16

Merkmal

ASCII

UTF-8

UTF-16

Zeichenbereich

128 Zeichen (nur Englisch)

Gesamtes Unicode (1,1 Mio.+ Zeichen)

Gesamtes Unicode

Bytes pro Zeichen

Immer 1

1 bis 4 (variabel)

2 oder 4

ASCII-kompatibel

Ja (ist ASCII)

Ja (abwärtskompatibel)

Nein

Am besten für

Englischsprachige Legacy-Systeme

Web, APIs, die meisten modernen Apps

Java/Windows-interne Systeme, CJK-intensiver Text

Web-Nutzung

Rückläufig

98%+ aller Websites

Selten im Web

Wie UTF-8-Kodierung funktioniert (hinter den Kulissen)

UTF-8 verwendet je nach Unicode-Code-Point unterschiedliche Byte-Muster:

Unicode-Bereich

Bytes

Kodierungsformat

Beispiel

U+0000 bis U+007F

1

0xxxxxxx

A = 41

U+0080 bis U+07FF

2

110xxxxx 10xxxxxx

é = C3 A9

U+0800 bis U+FFFF

3

1110xxxx 10xxxxxx 10xxxxxx

€ = E2 82 AC

U+10000 bis U+10FFFF

4

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

🚀 = F0 9F 9A 80

Kodierungsablauf:

  1. Jedes Zeichen lesen aus der Eingabezeichenkette

  2. Den Unicode-Code-Point ermitteln (z. B. 'A' = U+0041)

  3. In Binär konvertieren und in die korrekte UTF-8-Struktur je nach Byte-Anzahl einpassen

  4. Als Hex ausgeben, durch Leerzeichen getrennte Werte (z. B. 41 für 'A')

Praktische Beispiele

Beispiel 1: Einfaches ASCII (1 Byte)

Eingabe: A | Code Point: U+0041 | UTF-8 Hex: 41

Beispiel 2: Akzentuiertes Lateinisch (2 Bytes)

Eingabe: é | Code Point: U+00E9 | UTF-8 Hex: C3 A9

Beispiel 3: Emoji (4 Bytes)

Eingabe: 🚀 | Code Point: U+1F680 | UTF-8 Hex: F0 9F 9A 80

Beispiel 4: Japanisches Zeichen (3 Bytes)

Eingabe: | Code Point: U+754C | UTF-8 Hex: E7 95 8C

UTF-8-Kodierung in PHP, Python und JavaScript

So behandeln Sie die UTF-8-Kodierung in den drei beliebtesten Webentwicklungssprachen:

PHP

// Encode string to UTF-8 (from another encoding)
$text = "Cafe";
$utf8 = mb_convert_encoding($text, 'UTF-8', 'ISO-8859-1');

// Get hex representation of UTF-8 bytes $hex = bin2hex("Cafe"); // Output: 436166c3a9

// Check string length in characters vs bytes echo mb_strlen("Cafe", 'UTF-8'); // 4 characters echo strlen("Cafe"); // 5 bytes

// Always use multibyte functions for UTF-8 strings echo mb_strtoupper("cafe", 'UTF-8'); // CAFE

// Pro tip: Set internal encoding globally mb_internal_encoding('UTF-8');

Python

# Encode a string to UTF-8 bytes
text = "Cafe"
utf8_bytes = text.encode("utf-8")
print(utf8_bytes)  # b'Caf\xc3\xa9'

Get hex representation

hex_string = utf8_bytes.hex() print(hex_string) # 436166c3a9

Encode emoji

rocket = "\U0001F680" print(rocket.encode("utf-8").hex()) # f09f9a80

Read a file with explicit UTF-8 encoding

with open("data.txt", "r", encoding="utf-8") as f: content = f.read()

JavaScript

// Using TextEncoder (modern browsers and Node.js)
const encoder = new TextEncoder();
const bytes = encoder.encode("Cafe");
console.log(bytes); // Uint8Array [67, 97, 102, 195, 169]

// Convert to hex string const hex = Array.from(bytes) .map(b => b.toString(16).padStart(2, '0')) .join(' '); console.log(hex); // "43 61 66 c3 a9"

// URL-safe encoding (percent-encoded UTF-8) console.log(encodeURIComponent("Cafe")); // Output: Caf%C3%A9

// Encode emoji const rocketBytes = new TextEncoder().encode("\uD83D\uDE80"); console.log(Array.from(rocketBytes).map(b => b.toString(16)).join(' ')); // f0 9f 9a 80

Häufige UTF-8-Kodierungsfehler und ihre Behebung

Fehler

Symptom

Ursache

Lösung

Mojibake

"Cafe" erscheint als "Café"

UTF-8-Bytes werden als Latin-1 gelesen

Zeichensatz in HTTP-Headern und HTML-Meta-Tag auf UTF-8 setzen

Ersatzzeichen

Text erscheint als "Caf?"

Ungültige Byte-Sequenzen

Quelldaten als gültiges UTF-8 neu kodieren

Doppelte Kodierung

"Cafe" erscheint als "Caf�©"

UTF-8-Text erneut als UTF-8 kodiert

Nur einmal kodieren; vorhandene Kodierung vor der Konvertierung prüfen

Abgeschnittene Zeichen

Emojis oder CJK-Zeichen fehlen oder sind defekt

Zeichenkette in der Mitte einer Sequenz abgeschnitten (z. B. SUBSTR auf Bytes)

Zeichenbewusste Funktionen verwenden (mb_substr in PHP, nicht substr)

BOM-Probleme

Zusätzliche Zeichen am Dateianfang

UTF-8-BOM (EF BB BF) der Datei vorangestellt

Dateien als "UTF-8 ohne BOM" im Editor speichern

Datenbankkorruption

Zeichen beim Speichern/Abrufen korrumpiert

Datenbank oder Verbindung nicht auf utf8mb4 gesetzt

utf8mb4-Zeichensatz in MySQL verwenden; Verbindungszeichensatz setzen

Korrekte UTF-8-Nutzung in HTML und HTTP-Headern sicherstellen

So stellen Sie sicher, dass Ihre Webinhalte in jedem Browser und jeder Sprache korrekt angezeigt werden:

  • HTML5: Fügen Sie <meta charset="utf-8"> im <head>-Bereich ein

  • HTTP-Header: Setzen Sie Content-Type: text/html; charset=utf-8 auf Ihrem Server

  • Datenbank: Verwenden Sie utf8mb4-Zeichensatz in MySQL (nicht nur utf8, das nur 3-Byte-Zeichen unterstützt)

  • Dateien: Quelldateien im Editor als UTF-8 ohne BOM speichern

Wann und wo Sie UTF-8-Kodierung einsetzen

  • APIs und Web-Anfragen: Mehrsprachige oder emoji-reiche Daten sicher übertragen

  • Datenexport: Byte-genaue Versionen von Eingaben speichern

  • Kodierungs-Debugging: Prüfen, ob Textkorruption auf Kodierungsfehler zurückzuführen ist

  • Kryptografie und Hashing: Zeichenketten für Hashing in Bytes konvertieren (z. B. SHA-256)

  • Datenbank-Einfügung: Einige Datenbanken erwarten UTF-8-kodierte Zeichenketten als Hex

Empfohlene Begleit-Tools

  • UTF-8 Decoder: Den kodierten Hex-Code zurück in lesbaren Text umwandeln

  • Base64 Encoder: Die UTF-8-Bytes für sicheren Transfer base64-kodieren

  • URL Encoder: Den Hex-Code URL-sicher für die Browser-Kommunikation machen

Profi-Tipps

  • ASCII-Zeichen (A-Z, 0-9, Satzzeichen) belegen nur ein Byte; Emojis oder Sonderzeichen benötigen 2 bis 4 Bytes.

  • Verwenden Sie dieses Tool, um die Byte-Integrität beim Debuggen von Netzwerk- oder API-Kommunikation zu überprüfen.

  • Wenn ein Zeichen in anderen Systemen nicht korrekt angezeigt wird, kodieren Sie es hier und prüfen Sie die Byte-Aufschlüsselung.

  • Kopieren Sie die kodierte Ausgabe direkt in HTTP-Header, Cookies oder token, wenn erforderlich.

  • Testen Sie immer mit Multibyte-Zeichen (akzentuierte Buchstaben, CJK, Emojis), um Kodierungsprobleme frühzeitig zu erkennen.

Frequently Asked Questions

Welche Eingabeformate werden unterstützt?

Sie können beliebigen lesbaren Unicode-Text eingeben, einschließlich Emojis, Symbolen und Schriften jeder Sprache.

Warum erzeugen manche Zeichen eine längere Ausgabe?

UTF-8 verwendet eine variable Länge. ASCII-Zeichen (wie A-Z) belegen 1 Byte, akzentuierte Zeichen 2 Bytes, CJK-Zeichen und gebräuchliche Symbole 3 Bytes und Emojis 4 Bytes.

Ist das Tool sicher?

Ja, die gesamte Kodierung erfolgt lokal in Ihrem Browser mit JavaScript. Es werden keine Daten an einen Server gesendet.

Kann ich Binärdaten kodieren?

Dieses Tool ist für die Kodierung von Text ausgelegt. Verwenden Sie für Binärdateien einen Hex-Konverter oder einen Binär-Encoder.

Wie viele Bytes verwendet ein UTF-8-Zeichen?

Das hängt vom Zeichen ab: ASCII (U+0000-U+007F) verwendet 1 Byte, Latein/Griechisch/Kyrillisch (U+0080-U+07FF) 2 Bytes, CJK und die meisten Symbole (U+0800-U+FFFF) 3 Bytes und Emojis sowie seltene Schriften (U+10000-U+10FFFF) 4 Bytes. Das Maximum sind 4 Bytes pro Zeichen.

Was ist eine UTF-8-BOM?

BOM steht für Byte Order Mark. In UTF-8 ist es die 3-Byte-Sequenz EF BB BF am Anfang einer Datei. Anders als UTF-16 benötigt UTF-8 keine BOM, da die Byte-Reihenfolge immer gleich ist. Einige Windows-Programme (wie Notepad) fügen sie jedoch automatisch hinzu. Die BOM kann Probleme mit PHP-Skripten, CSV-Parsing und Shell-Skripten verursachen. Empfehlung: Dateien als "UTF-8 ohne BOM" im Texteditor speichern.

Was ist der Unterschied zwischen UTF-8-Kodierung und URL-Kodierung?

UTF-8-Kodierung wandelt Textzeichen in rohe Byte-Sequenzen um (z. B. wird das Euro-Zeichen zu E2 82 AC). URL-Kodierung (Prozent-Kodierung) nimmt diese UTF-8-Bytes und versieht jedes mit einem Prozentzeichen für die sichere Verwendung in URLs (z. B. wird das Euro-Zeichen zu %E2%82%AC). URL-Kodierung baut auf UTF-8 auf: Zuerst wird das Zeichen UTF-8-kodiert, dann wird jedes Byte prozent-kodiert.

Welches Kodierungsformat wird intern verwendet?

Es verwendet den UTF-8-Standard, der vom Unicode-Konsortium (RFC 3629) definiert wurde. Dies ist dieselbe Kodierung, die von 98%+ aller Websites weltweit verwendet wird.

Testen Sie Ihre APIs noch heute!

Schreiben Sie auf Deutsch, Qodex wandelt Ihre Beschreibung in sichere, sofort ausführbare Tests um.