What is the difference between Unicode and UTF-8?

Unicode is a character set assigning numbers to characters. UTF-8 is an encoding defining how those numbers are stored as bytes.

Why should I use UTF-8?

UTF-8 is backward compatible with ASCII, supports all Unicode characters, and is used by 98%+ of the web.

What causes mojibake?

Mojibake occurs when text is decoded with a different encoding than it was encoded with.

What is Base64 encoding?

Base64 encodes binary data as ASCII text for safe transport in text-based protocols like email and JSON.

How do I set encoding in HTML?

Add meta charset UTF-8 as the first element in your head tag.

Codificación de Texto Explicada: UTF-8, ASCII, Unicode y Conjuntos de Caracteres

31 de marzo de 2026 · 12 min de lectura

Tabla de Contenidos

¿Qué es la Codificación de Caracteres?
ASCII: La Base de la Codificación de Texto
Unicode: Un Conjunto de Caracteres Universal
UTF-8: El Estándar de Codificación de Internet
UTF-8 vs UTF-16 vs UTF-32: Elegir la Codificación Correcta
Mojibake y Problemas de Codificación
Codificación en HTML y Desarrollo Web
Codificación en Lenguajes de Programación
Codificación Base64: Datos Binarios como Texto
Mejores Prácticas y Errores Comunes
Preguntas Frecuentes
Artículos Relacionados

Cada vez que escribes un mensaje, guardas un documento o navegas por un sitio web, la codificación de caracteres trabaja detrás de escena para traducir texto legible por humanos en datos binarios que las computadoras entienden. A pesar de ser fundamental para toda comunicación digital, la codificación sigue siendo uno de los aspectos más incomprendidos de la informática.

Esta guía completa explica todo lo que necesitas saber sobre codificación de texto, desde los conceptos básicos de ASCII hasta las complejidades de Unicode y UTF-8. Ya seas un desarrollador depurando problemas de codificación o simplemente tengas curiosidad sobre cómo las computadoras manejan el texto, encontrarás información práctica y soluciones aquí.

¿Qué es la Codificación de Caracteres?

La codificación de caracteres es el sistema que mapea caracteres—letras, números, símbolos y caracteres especiales—a valores numéricos que las computadoras pueden almacenar y procesar. Cuando escribes la letra "A" en tu teclado, tu computadora no almacena la letra en sí. En su lugar, almacena un número (en ASCII, es 65) y usa el esquema de codificación para convertir ese número de vuelta a "A" al mostrarlo.

Piensa en la codificación de caracteres como un diccionario de traducción entre el lenguaje humano y el lenguaje de la computadora. Sin este diccionario, el texto sería secuencias de bytes sin sentido sin forma de interpretarlas correctamente.

El proceso de codificación funciona en dos direcciones:

Codificación: Convertir caracteres en bytes (lo que sucede cuando guardas un archivo)
Decodificación: Convertir bytes de vuelta a caracteres (lo que sucede cuando abres un archivo)

Los problemas surgen cuando la codificación y decodificación usan esquemas diferentes. Imagina si encriptaras un mensaje con un cifrado e intentaras descifrarlo con uno diferente—obtendrías galimatías. Lo mismo sucede con desajustes de codificación de texto, resultando en caracteres corruptos o el infame "mojibake" (más sobre eso después).

Consejo profesional: Usa nuestra herramienta Codificador de Texto para ver exactamente cómo diferentes esquemas de codificación representan el mismo texto. Este enfoque práctico ayuda a desmitificar el proceso de codificación.

ASCII: La Base de la Codificación de Texto

ASCII (Código Estándar Estadounidense para el Intercambio de Información) fue desarrollado en 1963 y se convirtió en la base de la codificación de texto moderna. Usa 7 bits para representar 128 caracteres, lo cual era suficiente para texto en inglés y necesidades básicas de computación de la época.

El conjunto de caracteres ASCII se divide en varios rangos, cada uno sirviendo un propósito específico:

Rango	Caracteres	Cantidad	Propósito
0-31	Caracteres de control	32	Comandos no imprimibles (tabulación, nueva línea, retorno de carro)
32-47	Puntuación y símbolos	16	Espacio, !, ", #, $, %, &, ', (, ), *, +, coma, -, ., /
48-57	Dígitos	10	0-9
58-64	Puntuación	7	:, ;, <, =, >, ?, @
65-90	Letras mayúsculas	26	A-Z
91-96	Puntuación	6	[, \, ], ^, _, `
97-122	Letras minúsculas	26	a-z
123-126	Puntuación	4	{, \|, }, ~
127	Eliminar	1	Carácter de control DEL

Las Limitaciones de ASCII

ASCII funciona perfectamente para texto en inglés, pero tiene limitaciones severas para comunicación internacional:

Sin caracteres acentuados (é, ñ, ü, ø)
Sin caracteres de escrituras no latinas (chino, árabe, hebreo, cirílico)
Sin símbolos de moneda más allá del signo de dólar
Sin emoji o símbolos modernos
Sin notación matemática o científica más allá de operadores básicos

Estas limitaciones llevaron a la creación de variantes de "ASCII extendido" como ISO-8859-1 (Latin-1), que usaba el octavo bit para agregar 128 caracteres más. Sin embargo, diferentes regiones crearon extensiones incompatibles, causando que los mismos valores de bytes representaran diferentes caracteres dependiendo de qué página de códigos estuviera en uso.

El Impacto Duradero de ASCII

A pesar de sus limitaciones, ASCII sigue siendo relevante hoy. Los primeros 128 caracteres de UTF-8 (la codificación moderna dominante) son idénticos a ASCII, asegurando compatibilidad hacia atrás. Esto significa que cualquier texto ASCII válido también es UTF-8 válido, haciendo la migración sin problemas.

La simplicidad de ASCII también lo hace ideal para protocolos, formatos de archivo y sistemas donde solo se necesita texto básico en inglés. Los lenguajes de programación, interfaces de línea de comandos y protocolos de red todavía dependen en gran medida de caracteres ASCII.

Unicode: Un Conjunto de Caracteres Universal

Unicode fue creado en 1991 para resolver el problema fundamental que ASCII y sus extensiones no podían abordar: representar todos los sistemas de escritura del mundo en un solo estándar unificado. En lugar de tener docenas de esquemas de codificación incompatibles, Unicode proporciona un sistema que funciona para todos.

Unicode no es una codificación en sí—es un conjunto de caracteres que asigna un número único llamado punto de código a cada carácter. A partir de Unicode 15.1 (lanzado en 2023), el estándar incluye más de 149,000 caracteres que cubren 161 escrituras y conjuntos de símbolos.

Entendiendo los Puntos de Código

Los puntos de código se escriben en el formato U+XXXX, donde XXXX es un número hexadecimal. Aquí hay algunos ejemplos:

U+0041 = A (letra mayúscula latina A)
U+00E9 = é (letra minúscula latina e con acento agudo)
U+4E2D = 中 (carácter chino para "medio")
U+0628 = ب (letra árabe beh)
U+1F600 = 😀 (emoji de cara sonriente)
U+03B1 = α (letra minúscula griega alfa)

El espacio de código Unicode va desde U+0000 hasta U+10FFFF, proporcionando espacio para 1,114,112 puntos de código posibles. Estos están organizados en 17 planos de 65,536 puntos de código cada uno.

Planos de Unicode

Los planos más importantes incluyen:

Plano 0 (BMP - Plano Multilingüe Básico): U+0000 a U+FFFF. Contiene los caracteres más comúnmente usados de todas las escrituras modernas, incluyendo latín, chino, árabe, hebreo, cirílico y muchos otros. Aproximadamente 55,000 puntos de código están asignados en este plano.
Plano 1 (SMP - Plano Multilingüe Suplementario): U+10000 a U+1FFFF. Contiene escrituras históricas, notación musical, símbolos matemáticos y emoji. Aquí es donde vive la mayoría de los emoji.
Plano 2 (SIP - Plano Ideográfico Suplementario): U+20000 a U+2FFFF. Contiene ideogramas adicionales chinos, japoneses y coreanos (CJK) que no cabían en el BMP.
Planos 3-13: Actualmente sin asignar, reservados para expansión futura.
Plano 14 (SSP - Plano Suplementario de Propósito Especial): Contiene caracteres de propósito especial como selectores de variación y etiquetas.
Planos 15-16: Áreas de uso privado para caracteres personalizados.

Consejo rápido: Los caracteres en el BMP (Plano 0) pueden representarse con 16 bits, mientras que los caracteres en otros planos requieren más bits. Esta distinción es importante al elegir entre UTF-8, UTF-16 y UTF-32.

Normalización Unicode

Una complejidad de Unicode es que algunos caracteres pueden representarse de múltiples formas. Por ejemplo, el carácter "é" puede codificarse como:

Un solo punto de código: U+00E9 (forma precompuesta)
Dos puntos de código: U+0065 (e) + U+0301 (acento agudo combinado)

Ambas representaciones se ven idénticas pero tienen diferentes secuencias de bytes. Las formas de normalización Unicode (NFD, NFC, NFKD, NFKC) proporcionan formas estándar de convertir entre estas representaciones, asegurando comparación y búsqueda consistentes.

UTF-8: El Estándar de Codificación de Internet

UTF-8 (Formato de Transformación Unicode - 8 bits) es la codificación de caracteres más ampliamente usada en internet, representando más del 98% de todas las páginas web. Fue diseñado por Ken Thompson y Rob Pike en 1992 y se ha convertido en el estándar de facto para codificación de texto.

UTF-8 es una codificación de longitud variable que usa de 1 a 4 bytes por carácter. Este diseño inteligente proporciona varias ventajas:

Cómo Funciona UTF-8

UTF-8 codifica caracteres usando el siguiente esquema:

Rango de Punto de Código	Bytes	Patrón de Bytes	Caracteres de Ejemplo
U+0000 a U+007F	1	0xxxxxxx	Caracteres ASCII (A, 5, $)
U+0080 a U+07FF	2	110xxxxx 10xxxxxx	Latín extendido, griego, cirílico (é, α, Ж)
U+0800 a U+FFFF	3	1110xxxx 10xxxxxx 10xxxxxx	La mayoría de escrituras asiáticas, símbolos (中, ह, €)
U+10000 a U+10FFFF	4	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx	Emoji, escrituras raras (😀, 𝕳, 𐐷)

Las posiciones "x" en los patrones de bytes contienen los datos reales del carácter. Los bits iniciales indican cuántos bytes usa el carácter, permitiendo a los decodificadores sincronizarse correctamente incluso si comienzan a leer a mitad de flujo.

Ventajas de UTF-8

El dominio de UTF-8 proviene de varios beneficios clave:

Compatibilidad hacia atrás: El texto ASCII es UTF-8 válido sin ninguna conversión. Los primeros 128 caracteres usan valores de bytes idénticos.
Eficiencia de espacio: El inglés y el código usan solo 1 byte por carácter, mientras siguen soportando todos los caracteres Unicode.
Auto-sincronización: Puedes encontrar límites de caracteres mirando patrones de bytes, haciendo la recuperación de errores más fácil.
Sin problemas de orden de bytes: A diferencia de UTF-16 y UTF-32, UTF-8 no requiere una marca de orden de bytes (BOM) para indicar endianness.
Seguro con bytes nulos: El byte nulo (0x00) solo aparece como el carácter NULL, no como parte de secuencias multi-byte, haciéndolo compatible con cadenas estilo C.

UTF-8 en la Práctica

Veamos cómo UTF-8 codifica diferentes caracteres:

"A" (U+0041): 1 byte → 0x41
"é" (U+00E9): 2 bytes → 0xC3 0xA9
"中" (U+4E2D): 3 bytes → 0xE4 0xB8 0xAD
"😀" (U+1F600): 4 bytes → 0xF0 0x9F 0x98 0x80

Este enfoque de longitud variable significa que un documento que contiene principalmente texto en inglés usa mucho menos espacio que UTF-16 o UTF-32, mientras sigue soportando el rango completo de Unicode cuando sea necesario.

Consejo profesional: Siempre especifica codificación UTF-8 en tus documentos HTML con <meta charset="UTF-8"> y en encabezados HTTP con Content-Type: text/html; charset=UTF-8. Esto evita que los navegadores adivinen la codificación incorrectamente.

UTF-8 vs UTF-16 vs UTF-32: Elegir la Codificación Correcta

Mientras UTF-8 domina el contenido web, UTF-16 y UTF-32 tienen sus propios casos de uso. Entender las diferencias te ayuda a elegir la codificación correcta para tus necesidades específicas.

UTF-16: El Punto Medio

UTF-16 usa 2 o 4 bytes por carácter. Los caracteres en el BMP (U+0000 a U+FFFF) usan 2 bytes, mientras que los caracteres fuera del BMP usan 4 bytes a través de un mecanismo llamado pares sustitutos.

Ventajas:

Más eficiente en espacio que UTF-8 para idiomas asiáticos (chino, japonés, coreano)
Usado internamente por Windows, Java, JavaScript y .NET
Ancho constante de 2 bytes para la mayoría de caracteres comunes simplifica algunas operaciones de cadena

Desventajas:

No compatible hacia atrás con ASCII
Requiere marca de orden de bytes (BOM) o especificación explícita de endianness
Menos eficiente en espacio para inglés y código
Codificación de longitud variable (debido a pares sustitutos) complica la indexación de cadenas
Contiene bytes nulos en texto normal, rompiendo funciones de cadena estilo C

UTF-32: Simplicidad de Ancho Fijo

UTF-32 usa exactamente 4 bytes para cada carácter, haciéndolo una codificación de ancho fijo. Cada punto de código se mapea directamente a un entero de 32 bits.

Ventajas:

Ancho constante simplifica indexación de cadenas y cálculos de longitud
Mapeo directo entre puntos de código y valores codificados
No se necesita lógica de decodificación compleja

Desventajas:

Extremadamente ineficiente en espacio (4 bytes por carácter, incluso para ASCII)
Raramente usado para almacenamiento o transmisión
No compatible hacia atrás con ASCII
Requiere especificación de orden de bytes

Tabla Comparativa

Característica	UTF-8	UTF-16	UTF-32
Bytes por carácter	1-4 (variable)	2-4 (variable)	4 (fijo)
Compatibilidad ASCII