🍋
Menu
General

UTF-8

UTF-8 (Unicode Transformation Format 8-bit)

ASCII와 역호환성을 유지하면서 문자당 1~4바이트를 사용하여 Unicode 표준의 모든 문자를 표현할 수 있는 웹의 지배적인 문자 인코딩입니다.

기술 세부사항

UTF-8은 가변 너비 인코딩입니다: ASCII 문자(U+0000~U+007F)는 ASCII 값과 동일한 1바이트를 사용하여 모든 ASCII 텍스트가 유효한 UTF-8이 됩니다. 2바이트는 라틴, 그리스, 키릴, 아랍 문자(U+0080-U+07FF)를 커버하고, 3바이트는 대부분의 CJK 문자(U+0800-U+FFFF)를 커버하며, 4바이트는 이모지와 희귀 문자 체계(U+10000-U+10FFFF)를 처리합니다. 웹 페이지의 98% 이상이 UTF-8을 사용합니다. BOM(Byte Order Mark, EF BB BF)은 선택 사항이며 Windows 환경을 제외하고는 일반적으로 권장되지 않습니다.

예시

```javascript
// UTF-8: file processing example
const file = document.getElementById('fileInput').files[0];
const reader = new FileReader();
reader.onload = (e) => {
  const data = e.target.result;
  console.log(`Loaded: ${file.name} (${file.size} bytes)`);
};
reader.readAsArrayBuffer(file);
```

관련 용어