E,AHRSS

남북한 한글 코드의 충돌 문제

last modified: 2015-03-18 09:20:58 Contributors


Contents

1. 개요
2. 한글과 유니코드
3. 남북간 차이
3.1. 정렬 순서 비교표
4. 북한의 유니코드 무시
5. 바깥 고리


남한북한에서 사용하는 한글 코드 체계의 차이로 인한 한글 코드의 충돌 문제를 설명한다.

1. 개요

남한과 북한은 한국전쟁을 거쳐 둘로 갈라지면서 서로 다르게 변화해 나갔다. 한글도 예외가 아니어서, 일단 쓰는 글자는 같지만 남한과 북한의 한글 정렬 순서가 서로 달라져 버렸다. 남한은 광복 이전부터 쓰던 순서를 그대로 쓰고 있고 북한은 아예 순서를 자체적으로 새로 짰다. 그래서 컴퓨터의 한글 코드도 남북이 서로 다르게 되어 있다.

문제는 전세계 컴퓨터에서 표준으로 사용하는 유니코드 체계에는 한글 순서가 남한 순서대로 반영되어 있다는 점이다.

2. 한글과 유니코드

유니코드 1.0과 1.1에 있었던 한글은 KS X 1001 완성형을 기반으로 하고 있는 터라 없는 글자도 많았고, 정렬 방식도 문제가 많았다. 이에 남한측 대표가 현대 한글 11,172자를 전체적으로 재배열해서 새 영역에 재배당할 것을 요청했고, 이것이 받아들여져 1996년 발표된 유니코드 2.0 버전에서는 남한의 정렬 순서대로 11,172자가 새 영역에 배당되었다. 이후 2000년경에 북한이 이를 문제삼아 한글 11,172자를 자기네들이 쓰는 방식대로 재정렬해 줄 것을 요청했으나 한글은 이미 한 번 대이동을 거친 전례가 있는데다 2.0 버전부터 수립된 '한 번 배당된 문자는 옮기거나 없애지 않는다'는 정책에 위배된다는 이유로 거부당했다.

그리고 북한은 코드 순으로 정렬하면 북한식으로 제대로 정렬이 되지 않는다는 것도 문제삼았지만, 단순 코드 순 정렬은 어차피 그 어떤 언어에서도 적절하지 않으며, 정렬은 따로 테이블을 만들어서 해야 한다. 영어조차도 코드 순으로 정렬하면 대문자 Z가 소문자 a보다 앞에 온다.

3. 남북간 차이

정렬/순서 항목도 참고.

구분 남한 북한
쌍자음 예사소리의 바로 다음으로 정렬된다.[1] 별개의 글자로 취급되어 ㅎ 다음으로 정렬된다.
종성의 경우도 같다.
초성 ㅇ ㅅ과 ㅈ 사이로 정렬된다. 맨 마지막(ㅉ의 다음)으로 정렬된다,
모음 기본 모음과 복합 모음이 함께 정렬된다. 기본 모음과 복합 모음이 따로 정렬된다.

3.1. 정렬 순서 비교표

아래 표에서 종성에 있는 X는 종성이 없는 경우를 뜻한다.

순서 초성 중성 종성
남한 북한 남한 북한 남한 북한
1 X X
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28

4. 북한의 유니코드 무시

한때 북한은 남한 순서를 기준으로 배당된 유니코드 2.0의 한글 영역이 마음에 안 들어서, 유니코드 한글 영역을 자기들 순서에 맞게 제멋대로 사용했다. 그래서 북한에서는 '가는 길 험난해도 웃으며 가자'라는 문장을 표현할 때 AC00 AF2F 0020 AD03 0020 C7D7 AE4F C8A8 B108 0020 D612 D638 B584 0020 AC00 BC14라는 코드 포인트들을 사용했는데, 이는 유니코드 표준에 따르면 '가꼯 괃 쟗깏좨너 혒호떄 가바'라는 괴이한 문장이 된다.

그러니까, 맨 처음의 '가'와 '각'은 남북이 둘 다 정렬 순서가 같지만, 나머지 글자들은 그렇지 않기 때문에 전혀 다른 글자로 둔갑해 버린다. 앞에서 예로 든 '가는 길 험난해도 웃으며 가자'에서 '는'이라는 글자는 북한 순서를 기준으로 하면 초성 2, 중성 9, 종성 4이다. 하지만 남한 순서를 기준으로 초성 2는 ㄴ이 아니라 ㄲ이고 중성 9는 ㅡ가 아니라 ㅗ이며 종성 4는 ㄴ이 아니라 ㄳ이기 때문에 '는'이 아닌 '꼯'으로 변해 버리는 것이다.

다만 북한의 유니코드 무시는 어느 시점에서 멈췄다(정확히 어느 시점인지 아는 사람이 수정바람). 북한이 2010년에 출시한 붉은별에서는 유니코드의 한글 영역을 남한과 똑같이 표준대로 쓰고 있는 것이 확인되었다. 즉 '는'을 표현하는 데 U+AF2F가 아니라 유니코드 표준대로 U+B294를 사용한다.

----
  • [1] 다만 남한에서 이게 확립된 것은 1989년의 일이다. 그전에는 명확한 규정이 없어서 쌍자음을 예사소리와 같이 둔 사전도 있고, 맨 뒤로 뺀 사전도 있다. 즉 까마귀가 거문고보다 먼저 나오는 사전도 있었다. 사전마다 달랐던 것이다.