What is the difference between Unicode and UTF-8?

Unicode is a character set assigning numbers to characters. UTF-8 is an encoding defining how those numbers are stored as bytes.

Why should I use UTF-8?

UTF-8 is backward compatible with ASCII, supports all Unicode characters, and is used by 98%+ of the web.

What causes mojibake?

Mojibake occurs when text is decoded with a different encoding than it was encoded with.

What is Base64 encoding?

Base64 encodes binary data as ASCII text for safe transport in text-based protocols like email and JSON.

How do I set encoding in HTML?

Add meta charset UTF-8 as the first element in your head tag.

Codificação de Texto Explicada: UTF-8, ASCII, Unicode & Conjuntos de Caracteres

31 de março de 2026 · 12 min de leitura

Índice

O Que É Codificação de Caracteres?
ASCII: A Base da Codificação de Texto
Unicode: Um Conjunto de Caracteres Universal
UTF-8: O Padrão de Codificação da Internet
UTF-8 vs UTF-16 vs UTF-32: Escolhendo a Codificação Certa
Mojibake e Problemas de Codificação
Codificação em HTML e Desenvolvimento Web
Codificação em Linguagens de Programação
Codificação Base64: Dados Binários como Texto
Melhores Práticas e Armadilhas Comuns
Perguntas Frequentes
Artigos Relacionados

Toda vez que você digita uma mensagem, salva um documento ou navega em um site, a codificação de caracteres trabalha nos bastidores para traduzir texto legível por humanos em dados binários que os computadores entendem. Apesar de ser fundamental para toda comunicação digital, a codificação permanece um dos aspectos mais incompreendidos da computação.

Este guia abrangente explica tudo o que você precisa saber sobre codificação de texto, desde os fundamentos do ASCII até as complexidades do Unicode e UTF-8. Seja você um desenvolvedor depurando problemas de codificação ou simplesmente curioso sobre como os computadores lidam com texto, você encontrará insights práticos e soluções aqui.

O Que É Codificação de Caracteres?

Codificação de caracteres é o sistema que mapeia caracteres—letras, números, símbolos e caracteres especiais—para valores numéricos que os computadores podem armazenar e processar. Quando você digita a letra "A" no seu teclado, seu computador não armazena a letra em si. Em vez disso, ele armazena um número (em ASCII, é 65) e usa o esquema de codificação para converter esse número de volta em "A" ao exibi-lo.

Pense na codificação de caracteres como um dicionário de tradução entre linguagem humana e linguagem de computador. Sem esse dicionário, o texto seria sequências sem sentido de bytes sem forma de interpretá-los corretamente.

O processo de codificação funciona em duas direções:

Codificação: Converter caracteres em bytes (o que acontece quando você salva um arquivo)
Decodificação: Converter bytes de volta em caracteres (o que acontece quando você abre um arquivo)

Problemas surgem quando a codificação e decodificação usam esquemas diferentes. Imagine se você criptografasse uma mensagem com uma cifra e tentasse descriptografá-la com uma diferente—você obteria algo sem sentido. A mesma coisa acontece com incompatibilidades de codificação de texto, resultando em caracteres corrompidos ou o infame "mojibake" (mais sobre isso depois).

Dica profissional: Use nossa ferramenta Codificador de Texto para ver exatamente como diferentes esquemas de codificação representam o mesmo texto. Esta abordagem prática ajuda a desmistificar o processo de codificação.

ASCII: A Base da Codificação de Texto

ASCII (American Standard Code for Information Interchange) foi desenvolvido em 1963 e se tornou a base para a codificação de texto moderna. Ele usa 7 bits para representar 128 caracteres, o que era suficiente para texto em inglês e necessidades básicas de computação da época.

O conjunto de caracteres ASCII é dividido em várias faixas, cada uma servindo um propósito específico:

Faixa	Caracteres	Quantidade	Propósito
0-31	Caracteres de controle	32	Comandos não imprimíveis (tab, nova linha, retorno de carro)
32-47	Pontuação & símbolos	16	Espaço, !, ", #, $, %, &, ', (, ), *, +, vírgula, -, ., /
48-57	Dígitos	10	0-9
58-64	Pontuação	7	:, ;, <, =, >, ?, @
65-90	Letras maiúsculas	26	A-Z
91-96	Pontuação	6	[, \, ], ^, _, `
97-122	Letras minúsculas	26	a-z
123-126	Pontuação	4	{, \|, }, ~
127	Delete	1	Caractere de controle DEL

As Limitações do ASCII

ASCII funciona perfeitamente para texto em inglês, mas tem limitações severas para comunicação internacional:

Sem caracteres acentuados (é, ñ, ü, ø)
Sem caracteres de escritas não latinas (chinês, árabe, hebraico, cirílico)
Sem símbolos de moeda além do cifrão
Sem emoji ou símbolos modernos
Sem notação matemática ou científica além de operadores básicos

Essas limitações levaram à criação de variantes "ASCII estendido" como ISO-8859-1 (Latin-1), que usava o 8º bit para adicionar mais 128 caracteres. No entanto, diferentes regiões criaram extensões incompatíveis, fazendo com que os mesmos valores de byte representassem caracteres diferentes dependendo de qual página de código estava em uso.

O Impacto Duradouro do ASCII

Apesar de suas limitações, ASCII permanece relevante hoje. Os primeiros 128 caracteres do UTF-8 (a codificação moderna dominante) são idênticos ao ASCII, garantindo compatibilidade retroativa. Isso significa que qualquer texto ASCII válido também é UTF-8 válido, tornando a migração perfeita.

A simplicidade do ASCII também o torna ideal para protocolos, formatos de arquivo e sistemas onde apenas texto básico em inglês é necessário. Linguagens de programação, interfaces de linha de comando e protocolos de rede ainda dependem fortemente de caracteres ASCII.

Unicode: Um Conjunto de Caracteres Universal

Unicode foi criado em 1991 para resolver o problema fundamental que ASCII e suas extensões não podiam abordar: representar todos os sistemas de escrita do mundo em um único padrão unificado. Em vez de ter dezenas de esquemas de codificação incompatíveis, Unicode fornece um sistema que funciona para todos.

Unicode não é uma codificação em si—é um conjunto de caracteres que atribui um número único chamado ponto de código a cada caractere. A partir do Unicode 15.1 (lançado em 2023), o padrão inclui mais de 149.000 caracteres cobrindo 161 escritas e conjuntos de símbolos.

Entendendo Pontos de Código

Pontos de código são escritos no formato U+XXXX, onde XXXX é um número hexadecimal. Aqui estão alguns exemplos:

U+0041 = A (letra maiúscula latina A)
U+00E9 = é (letra minúscula latina e com acento agudo)
U+4E2D = 中 (caractere chinês para "meio")
U+0628 = ب (letra árabe beh)
U+1F600 = 😀 (emoji de rosto sorridente)
U+03B1 = α (letra minúscula grega alfa)

O espaço de código Unicode varia de U+0000 a U+10FFFF, fornecendo espaço para 1.114.112 pontos de código possíveis. Estes são organizados em 17 planos de 65.536 pontos de código cada.

Planos Unicode

Os planos mais importantes incluem:

Plano 0 (BMP - Plano Multilíngue Básico): U+0000 a U+FFFF. Contém os caracteres mais comumente usados de todas as escritas modernas, incluindo latim, chinês, árabe, hebraico, cirílico e muitos outros. Cerca de 55.000 pontos de código são atribuídos neste plano.
Plano 1 (SMP - Plano Multilíngue Suplementar): U+10000 a U+1FFFF. Contém escritas históricas, notação musical, símbolos matemáticos e emoji. É aqui que a maioria dos emoji vive.
Plano 2 (SIP - Plano Ideográfico Suplementar): U+20000 a U+2FFFF. Contém ideogramas adicionais chineses, japoneses e coreanos (CJK) que não couberam no BMP.
Planos 3-13: Atualmente não atribuídos, reservados para expansão futura.
Plano 14 (SSP - Plano Suplementar de Propósito Especial): Contém caracteres de propósito especial como seletores de variação e tags.
Planos 15-16: Áreas de uso privado para caracteres personalizados.

Dica rápida: Caracteres no BMP (Plano 0) podem ser representados com 16 bits, enquanto caracteres em outros planos requerem mais bits. Esta distinção é importante ao escolher entre UTF-8, UTF-16 e UTF-32.

Normalização Unicode

Uma complexidade do Unicode é que alguns caracteres podem ser representados de várias maneiras. Por exemplo, o caractere "é" pode ser codificado como:

Um único ponto de código: U+00E9 (forma pré-composta)
Dois pontos de código: U+0065 (e) + U+0301 (acento agudo combinado)

Ambas as representações parecem idênticas mas têm sequências de bytes diferentes. Formas de normalização Unicode (NFD, NFC, NFKD, NFKC) fornecem maneiras padrão de converter entre essas representações, garantindo comparação e busca consistentes.

UTF-8: O Padrão de Codificação da Internet

UTF-8 (Unicode Transformation Format - 8-bit) é a codificação de caracteres mais amplamente usada na internet, representando mais de 98% de todas as páginas web. Foi projetado por Ken Thompson e Rob Pike em 1992 e se tornou o padrão de fato para codificação de texto.

UTF-8 é uma codificação de comprimento variável que usa de 1 a 4 bytes por caractere. Este design inteligente fornece várias vantagens:

Como o UTF-8 Funciona

UTF-8 codifica caracteres usando o seguinte esquema:

Faixa de Ponto de Código	Bytes	Padrão de Byte	Exemplos de Caracteres
U+0000 a U+007F	1	0xxxxxxx	Caracteres ASCII (A, 5, $)
U+0080 a U+07FF	2	110xxxxx 10xxxxxx	Latino estendido, grego, cirílico (é, α, Ж)
U+0800 a U+FFFF	3	1110xxxx 10xxxxxx 10xxxxxx	Maioria das escritas asiáticas, símbolos (中, ह, €)
U+10000 a U+10FFFF	4	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx	Emoji, escritas raras (😀, 𝕳, 𐐷)

As posições "x" nos padrões de byte contêm os dados reais do caractere. Os bits iniciais indicam quantos bytes o caractere usa, permitindo que decodificadores sincronizem corretamente mesmo se começarem a ler no meio do fluxo.

Vantagens do UTF-8

A dominância do UTF-8 vem de vários benefícios principais:

Compatibilidade retroativa: Texto ASCII é UTF-8 válido sem qualquer conversão. Os primeiros 128 caracteres usam valores de byte idênticos.
Eficiência de espaço: Inglês e código usam apenas 1 byte por caractere, enquanto ainda suportam todos os caracteres Unicode.
Auto-sincronização: Você pode encontrar limites de caracteres olhando para padrões de byte, tornando a recuperação de erros mais fácil.
Sem problemas de ordem de bytes: Ao contrário de UTF-16 e UTF-32, UTF-8 não requer uma marca de ordem de byte (BOM) para indicar endianness.
Seguro para byte nulo: O byte nulo (0x00) só aparece como o caractere NULL, não como parte de sequências multi-byte, tornando-o compatível com strings estilo C.

UTF-8 na Prática

Vamos ver como UTF-8 codifica diferentes caracteres:

"A" (U+0041): 1 byte → 0x41
"é" (U+00E9): 2 bytes → 0xC3 0xA9
"中" (U+4E2D): 3 bytes → 0xE4 0xB8 0xAD
"😀" (U+1F600): 4 bytes → 0xF0 0x9F 0x98 0x80

Esta abordagem de comprimento variável significa que um documento contendo principalmente texto em inglês usa muito menos espaço do que UTF-16 ou UTF-32, enquanto ainda suporta toda a faixa Unicode quando necessário.

Dica profissional: Sempre especifique codificação UTF-8 em seus documentos HTML com <meta charset="UTF-8"> e em cabeçalhos HTTP com Content-Type: text/html; charset=UTF-8. Isso evita que navegadores adivinhem a codificação incorretamente.

UTF-8 vs UTF-16 vs UTF-32: Escolhendo a Codificação Certa

Embora UTF-8 domine o conteúdo web, UTF-16 e UTF-32 têm seus próprios casos de uso. Entender as diferenças ajuda você a escolher a codificação certa para suas necessidades específicas.

UTF-16: O Meio-Termo

UTF-16 usa 2 ou 4 bytes por caractere. Caracteres no BMP (U+0000 a U+FFFF) usam 2 bytes, enquanto caracteres fora do BMP usam 4 bytes através de um mecanismo chamado pares substitutos.

Vantagens:

Mais eficiente em espaço do que UTF-8 para línguas asiáticas (chinês, japonês, coreano)
Usado internamente por Windows, Java, JavaScript e .NET
Largura constante de 2 bytes para a maioria dos caracteres comuns simplifica algumas operações de string

Desvantagens:

Não é compatível retroativamente com ASCII
Requer marca de ordem de byte (BOM) ou especificação explícita de endianness
Menos eficiente em espaço para inglês e código
Codificação de comprimento variável (devido a pares substitutos) complica indexação de string
Contém bytes nulos em texto normal, quebrando funções de string estilo C

UTF-32: Simplicidade de Largura Fixa

UTF-32 usa exatamente 4 bytes para cada caractere, tornando-o uma codificação de largura fixa. Cada ponto de código mapeia diretamente para um inteiro de 32 bits.

Vantagens:

Largura constante simplifica indexação de string e cálculos de comprimento
Mapeamento direto entre pontos de código e valores codificados
Nenhuma lógica de decodificação complexa necessária

Desvantagens:

Extremamente ineficiente em espaço (4 bytes por caractere, mesmo para ASCII)
Raramente usado para armazenamento ou transmissão
Não é compatível retroativamente com ASCII
Requer especificação de ordem de bytes

Tabela de Comparação

Recurso	UTF-8	UTF-16	UTF-32
Bytes por caractere	1-4 (variável)	2-4 (variável)	4 (fixo)
Compatibilidade ASCII Text Word Counter Character Counter Case Converter Text Sorter Code JSON Formatter Regex Tester HTML Beautifier CSS Beautifier Convert Markdown to HTML JSON to CSV CSV to JSON XML to JSON Encode Base64 URL Encoder HTML Encoder Unicode Company About Blog Contact Sitemap © 2026 TxtTool. All processing happens in your browser. Privacy Terms More Tools: run-dev img-kit the-pdf nettool1