정의
UTF-8(Unicode Transformation Format - 8bit)은 가장 많이 사용되는 가변 길이 유니코드 인코딩
특징
- 이름에서 추론 할 수 있는 것 처럼 최대 6바이트로 표현
- 하지만 다른 인코딩(아스키코드)과의 호환을 위해 4바이트까지만 사용
- 1바이트 영역은 아스키 코드와 하위호환성을 가진다.(아스키 코드0~127까지는 UTF-8로 완전히 동일)
- U+10FFFF까지만 이용
장점
- 아스키 코드와의 하위 호완성 보장
- 4바이트 안에서 모든 문자를 모두 대응
- XML 문서의 표준 인코딩
단점
- 아스키코드보다 많은 용량을 필요로 하며, 이는 아스키코드로만 표현 해도 되는 프로그램에서는 비효율 적인 공간사용이 생긴다.
면접답변
- UTF-8은 가변길이 유니코드 Characters을 나타내는 Character encoding입니다. 여러 언어 및 기호를 표현 할 수 있고 아스키코드와의 호환성이 뛰어나 가장 많이 사용되는 캐릭터셋 입니다.
- 또한 문자를 나타낼 때 1~4바이트 를 사용하는 가변길이 인코딩방식 이므로 효율적 입니다.