How do you convert text to binary?

Each text character has a numeric code in ASCII or Unicode. Convert that number to base-2. For example, the letter A is ASCII 65, which in binary is 01000001. A text-to-binary converter automates this for any input.

What is the binary code for the letter A?

Uppercase A in ASCII is 01000001 (decimal 65). Lowercase a is 01100001 (decimal 97). The difference is exactly one bit — the 6th bit from the right.

Why do computers use binary instead of decimal?

Computer hardware is built from transistors that have two states: on and off. Binary (base-2) maps perfectly to these two states. Designing reliable circuits with just two voltage levels is much simpler and more energy-efficient than using ten levels for decimal.

How many bits are in a byte?

A byte contains 8 bits and can represent 256 different values (2 to the power of 8). One byte is enough to store a single ASCII character. The term byte was coined by Werner Buchholz at IBM in 1956.

What is the difference between binary and hexadecimal?

Both are number systems. Binary is base-2 (digits 0-1), while hexadecimal is base-16 (digits 0-9 and A-F). Hex is a compact way to write binary — each hex digit represents exactly 4 binary digits. For example, binary 11111111 = hex FF = decimal 255.

이진 코드: 컴퓨터가 텍스트를 저장하고 변환하는 방법

2026년 3월 31일 · 12분 읽기

이진 코드란 무엇인가?
텍스트가 이진수가 되는 방법
ASCII 표준
ASCII를 넘어서: 유니코드
UTF-8, UTF-16, UTF-32 설명
이진 변환 예제
실용적 응용
프로그래밍에서 이진수 다루기
일반적인 인코딩 문제
핵심 요점
자주 묻는 질문
관련 글

화면에서 읽는 모든 텍스트 — 이 문장을 포함하여 — 는 컴퓨터 내부에 이진 코드로 저장됩니다: 1과 0의 시퀀스입니다. 이진 변환이 어떻게 작동하는지 이해하면 문자 메시지부터 웹 페이지, 하드 드라이브의 파일에 이르기까지 모든 디지털 통신의 기본 메커니즘을 알 수 있습니다.

문자 인코딩 문제를 디버깅하는 개발자이든, 컴퓨터 과학 기초를 배우는 학생이든, 단순히 기술이 어떻게 작동하는지 궁금한 사람이든, 이 가이드는 키 입력에서 이진수로, 그리고 다시 돌아오는 전체 여정을 안내합니다.

이진 코드란 무엇인가?

이진수는 0과 1 두 자리만 사용하는 2진법 숫자 체계입니다. 인간은 0-9 자리를 사용하는 10진법(십진법)으로 자연스럽게 계산하지만, 컴퓨터는 기본 구성 요소인 트랜지스터가 켜짐(1)과 꺼짐(0) 두 가지 상태를 가지기 때문에 이진법으로 작동합니다.

컴퓨터의 모든 데이터는 텍스트, 이미지, 음악, 비디오 등 무엇이든 궁극적으로 이 두 자리의 패턴으로 표현됩니다. 이것이 제한적으로 보일 수 있지만, 이진수의 단순함이 바로 전자 회로에 강력하고 신뢰할 수 있게 만드는 이유입니다.

비트와 바이트 이해하기

하나의 이진 자릿수를 비트라고 합니다. 8개의 비트가 모여 바이트를 형성하며, 이는 256개의 서로 다른 값을 나타낼 수 있습니다(2⁸ = 256). 이는 영어 텍스트에 사용되는 모든 문자, 숫자, 기호를 인코딩하기에 충분하며, 이것이 바이트가 디지털 저장의 표준 단위가 된 이유입니다.

이진수 자릿값이 오른쪽에서 왼쪽으로 어떻게 작동하는지 보겠습니다:

위치	7	6	5	4	3	2	1	0
자릿값	128	64	32	16	8	4	2	1
예제: 01000001	0	1	0	0	0	0	0	1
계산	0	64	0	0	0	0	0	1

이 예제에서 01000001은 십진수로 64 + 1 = 65이며, 이는 ASCII 인코딩에서 문자 "A"를 나타냅니다.

팁: 우리의 이진 변환기를 사용하여 텍스트를 이진수로, 그리고 다시 변환할 수 있어 이러한 개념을 직접 실험하기 쉽습니다.

텍스트가 이진수가 되는 방법

키보드에서 문자를 입력할 때, 컴퓨터는 그 문자의 모양을 저장하지 않습니다. 대신 합의된 인코딩 표준에 따라 문자를 나타내는 숫자를 저장합니다. 이 중 가장 기본적인 것이 ASCII(American Standard Code for Information Interchange)입니다.

문자 "A"를 입력할 때 단계별로 일어나는 일은 다음과 같습니다:

키보드 신호: 키보드가 어떤 키가 눌렸는지 식별하는 신호를 컴퓨터로 보냅니다
문자 조회: 운영 체제가 문자 인코딩을 조회합니다: "A" = ASCII에서 65
이진 변환: 숫자 65가 이진수로 변환됩니다: 01000001
저장 또는 전송: 이 8비트가 메모리에 저장되거나 네트워크를 통해 전송됩니다
표시: 표시될 때 프로세스가 역순으로 진행됩니다: 이진수 → 숫자 → 화면에 렌더링된 문자 모양

이 전체 프로세스는 마이크로초 단위로 발생하며 사용자에게는 완전히 보이지 않습니다. 인코딩 표준은 모든 컴퓨터가 동의하는 범용 사전 역할을 하여, 한 컴퓨터에서 "Hello"를 입력하면 다른 컴퓨터에서도 "Hello"로 표시되도록 보장합니다.

인코딩 표준이 중요한 이유

표준화된 인코딩이 없다면 디지털 통신은 불가능할 것입니다. 모든 컴퓨터 제조업체가 문자를 나타내는 자체 시스템을 사용한다고 상상해보세요 — 한 컴퓨터에서 만든 파일이 다른 컴퓨터에서는 횡설수설이 될 것입니다.

인코딩 표준은 어떤 숫자가 어떤 문자를 나타내는지에 대한 범용 합의를 만들어 이 문제를 해결합니다. 이것이 Mac에서 Windows PC로 이메일을 보내거나 일본에서 만든 웹사이트를 브라질의 컴퓨터에서 볼 수 있는 이유입니다.

ASCII 표준

ASCII(American Standard Code for Information Interchange)는 1960년대에 개발되어 컴퓨터의 텍스트 인코딩 기반이 되었습니다. 7비트를 사용하여 다음을 포함한 128개의 서로 다른 문자를 나타냅니다:

대문자(A-Z): 코드 65-90
소문자(a-z): 코드 97-122
숫자(0-9): 코드 48-57
구두점 및 기호: 다양한 코드
제어 문자: 코드 0-31 (줄바꿈, 탭, 백스페이스 등)

일반적인 ASCII 문자의 샘플입니다:

문자	십진수	이진수	16진수
공백	32	00100000	20
0	48	00110000	30
A	65	01000001	41
a	97	01100001	61
!	33	00100001	21
?	63	00111111	3F

ASCII의 한계

ASCII는 당시로서는 혁명적이었지만 상당한 한계가 있습니다. 128개의 문자만으로는 영어 문자와 기본 기호만 나타낼 수 있습니다. 다음을 처리할 수 없습니다:

악센트 문자(é, ñ, ü)
비라틴 알파벳(그리스어, 키릴 문자, 아랍어)
아시아 문자 체계(중국어, 일본어, 한국어)
이모지 및 현대 기호

확장 ASCII(256개 문자를 위해 8비트 사용)는 일부 악센트 문자를 추가했지만, 지역마다 다른 확장을 사용하여 호환성 문제가 발생했습니다. 여기서 유니코드가 등장합니다.

팁: 레거시 시스템이나 간단한 영어 텍스트를 다루는 경우 ASCII는 여전히 완벽하게 적합하며 유니코드보다 저장 공간을 덜 사용합니다. ASCII 변환기를 사용하여 ASCII 값을 직접 다룰 수 있습니다.

ASCII를 넘어서: 유니코드

유니코드는 1990년대에 지구상에서 사용되는 모든 문자 체계의 모든 문자에 고유한 번호("코드 포인트"라고 함)를 제공하여 ASCII의 한계를 해결하기 위해 만들어졌습니다. 2026년 현재 유니코드는 159개의 현대 및 역사적 문자를 포함하여 149,000개 이상의 문자를 포함합니다.

유니코드는 각 문자에 U+ 다음에 16진수 숫자로 작성된 코드 포인트를 할당합니다. 예를 들어:

U+0041 = A (라틴 대문자 A)
U+03B1 = α (그리스 소문자 알파)
U+4E2D = 中 ("중간"을 의미하는 중국어 문자)
U+1F600 = 😀 (활짝 웃는 얼굴 이모지)

유니코드 vs. UTF: 차이점 이해하기

많은 사람들이 혼란스러워하는 부분입니다: 유니코드는 인코딩이 아닙니다. 유니코드는 문자 집합입니다 — 문자에 숫자를 할당하는 목록입니다. UTF(Unicode Transformation Format) 인코딩은 이러한 숫자를 이진 데이터로 나타내는 방법입니다.

이렇게 생각해보세요: 유니코드는 모든 사람에게 고유한 번호를 할당하는 전화번호부와 같습니다. UTF 인코딩은 이러한 전화번호를 작성할 수 있는 다양한 방법입니다(국가 코드 포함 또는 제외, 대시 포함 또는 제외 등).

UTF-8, UTF-16, UTF-32 설명

세 가지 주요 UTF 인코딩이 있으며, 각각 다른 장단점이 있습니다:

UTF-8: 웹 표준

UTF-8은 문자당 1~4바이트를 사용하는 가변 길이 인코딩입니다. ASCII와 하위 호환됩니다 — 처음 128개 문자는 ASCII와 정확히 동일한 이진 표현을 사용합니다.

장점:

영어 텍스트에 효율적(문자당 1바이트)
ASCII와 하위 호환
바이트 순서 문제 없음
웹에서 지배적(웹사이트의 98% 이상)

단점:

아시아 언어에는 덜 효율적(문자당 3-4바이트)
가변 길이로 인해 인덱싱이 더 복잡함

UTF-16: Windows 기본값

UTF-16은 문자당 2 또는 4바이트를 사용합니다. 가장 일반적인 문자는 2바이트에 맞지만, 희귀한 문자와 이모지는 4바이트가 필요합니다("대리 쌍" 사용).

장점:

대부분의 언어에 효율적(문자당 2바이트)
Windows, Java, JavaScript에서 내부적으로 사용

단점:

ASCII와 하위 호환되지 않음
바이트 순서 문제(빅 엔디안 vs. 리틀 엔디안)
희귀한 문자에 대해 여전히 가변 길이

UTF-32: 고정 길이

UTF-32는 모든 문자에 정확히 4바이트를 사용하여 유일한 고정 길이 유니코드 인코딩입니다.

장점:

간단한 인덱싱(문자 N은 바이트 위치 N×4에 있음)
복잡한 디코딩 로직 없음

단점:

공간 낭비(간단한 ASCII 문자에도 4바이트)
실제로 거의 사용되지 않음

팁: 웹 애플리케이션을 구축할 때는 항상 UTF-8을 사용하세요. 인터넷 표준이며 모든 곳에서 지원되고 대부분의 콘텐츠에 효율적입니다. HTML에서 <meta charset="UTF-8">로, HTTP 헤더에서 Content-Type: text/html; charset=UTF-8로 지정하세요.

이진 변환 예제

텍스트가 이진수가 되고 다시 돌아오는 구체적인 예제를 살펴보겠습니다.

예제 1: 간단한 ASCII 단어

ASCII에서 "Hi"라는 단어:

H = 십진수 72 = 이진수 01001000
i = 십진수 105 = 이진수 01101001

전체 이진수: 01001000 01101001

파일에 저장되거나 네트워크를 통해 전송될 때, 이 16비트(2바이트)는 "Hi"라는 단어를 나타냅니다.

예제 2: 구두점이 있는 대소문자 혼합

"Hello!" 구문은 다음과 같이 분해됩니다:

문자	십진수	이진수
H	72	01001000
e	101	01100101
l	108	01101100
l	108	01101100
o	111	01101111
!	33	00100001

총: 48비트(6바이트)의 데이터.

예제 3: 유니코드 이모지

이모지 😀(활짝 웃는 얼굴)는 유니코드에서 U+1F600입니다. UTF-8에서는 4바이트로 인코딩됩니다:

11110000 10011111 10011000 10000000

이것은 UTF-8이 가변 길이인 이유를 보여줍니다 — 간단한 "A"는 1바이트를 차지하지만 이모지는 4바이트를 차지합니다.

이진수를 텍스트로 변환하기

이진수를 텍스트로 다시 변환하려면 프로세스를 역순으로 진행합니다:

이진 자릿수를 바이트로 그룹화(각 8비트)
각 바이트를 십진수 값으로 변환
인코딩 테이블에서 해당 값의 문자 조회
문자를 결합하여 텍스트 형성

예를 들어, 01001000 01100101 01111001를 받으면:

01001000 = 72 = H
01100101 = 101 = e
01111001 = 121 = y

결과: "Hey"

실용적 응용

이진 텍스트 인코딩을 이해하는 것은 단순히 학문적인 것이 아니라 많은 분야에서 실제 응용이 있습니다.

웹 개발

웹 개발자는 정기적으로 인코딩 문제에 직면합니다. 일반적인 시나리오는 다음과 같습니다:

양식 제출: 사용자 입력이 서버로 전송될 때 올바르게 인코딩되도록 보장
데이터베이스 저장: 데이터베이스 열에 적합한 문자 집합 선택
API 응답: charset 정보가 포함된 올바른 Content-Type 헤더 설정
URL 인코딩: 특수 문자를 퍼센트 인코딩 형식으로 변환

우리의 URL 인코더 도구는 URL 인코딩을 자동으로 처리하여 특수 문자를 퍼센트 인코딩된 동등물로 변환하는 데 도움이 됩니다.

데이터 분석 및 처리

데이터 과학자와 분석가는 다음과 같은 경우 인코딩을 이해해야 합니다:

다양한 소스의 CSV 파일 읽기
국제 문자가 포함된 웹 콘텐츠 스크래핑
다양한 시스템의 로그 파일 처리
기계 학습 모델을 위한 텍스트 데이터 정리

사이버 보안

보안 전문가는 다음을 위해 이진 인코딩 지식을 사용합니다:

악성 코드 분석: 악성 코드가 이진 데이터에 숨는 방법 이해
포렌식: 파일 헤더 및 메타데이터 검사
암호화: 인코딩 및 암호화된 데이터 작업
스테가노그래피: 이진 파일에 숨겨진 메시지 감지

파일 형식 설계

사용자 정의 파일 형식을 설계할 때 다음을 결정해야 합니다:

텍스트 필드에 사용할 인코딩
인코딩을 표시하는 방법