정보에 대한 몇 가지 생각 정리. 아직은 생각에 머물러 있는 단계이고, 차후에 이것들에 대해 보다 엄밀한 정의와 연산이 가능해지면 새로운 글을 써 볼 예정.
용어에 혼선이 올 수 있으므로 이 글에서 용어는 다음과 같이 정의한다.
1.
Data: 정보가 될 수 있는 물리량
2.
정보: Data 중에 해석 된 것들
3.
해석 체계: Data를 정보로, 정보를 다시 Data로 변환하는 체계
Data는 물리량이다
Data는 소프트웨어적인 개념으로 생각되지만, 실제 Data는 하드웨어이다. 예컨대 이 문서에 쓰인 글자는 사실 컴퓨터 메모리 상에 실제 물리적으로 기록이 되어 있는 것이고, 종이에 쓰여진 글자 또한 잉크가 물리적으로 존재하는 것이다.
생명의 정보인 DNA도 아데닌(A), 티민(T), 구아닌(G), 사이토신(C)이라는 분자 구조로 이루어진 것이며, 우리가 머리 속에서 하는 모든 생각도 뉴런에 저장되어 있는 단백질에 기반한 것이다.
소리는 앞선 예과 달리 파동이지만 여하튼 그것 조차 물리적으로 존재하는 것이다.
다시 말해 우리는 어딘가에 입자 형태건 파동 형태건 물리적으로 존재 하지 않는 것을 Data로서 처리할 수 없다. —이 말을 뒤집어 생각해 보면 물리적으로 존재하는 모든 것을 Data로서 처리할 수 있다고 생각 할 수 있다.
정보는 해석 체계에 기반한다
Data는 물리량이지만 정보는 소프트웨어라고 생각할 수 있는데, 이는 해석 체계가 소프트웨어이기 때문이다.
Data을 적절히 해석해 내는 체계가 없으면 그것은 정보가 될 수 없다. 예컨대 나에게 아랍어로 된 문자는 내가 아랍어에 대한 해석 체계가 없기 때문에 정보가 되지 못한다.
정보는 사용 된 후 어딘가에 Data로 —물리적으로— 저장될 수 있고, 추후에 다시 꺼내 쓸 수 있는데, 그 저장과 인출을 해석 체계의 암호화와 복호화라고 할 수 있다. 종이에 쓰여진 아랍어는 결국 암호화된 Data인데, 아랍어를 복호화 할 수 없는 사람에게는 그것이 말 그대로 암호인 것이다.
해석 체계는 결국 Data를 정보로 변환하고, 정보를 Data로 변환하는 알고리즘이라 할 수 있다. 물론 이 변환 알고리즘이 해석 체계의 전부는 아니다.
정보는 정보로부터 재귀적으로 생성될 수 있다
정보가 해석된 Data라고 하면 마치 정보가 Data의 부분일 것으로 생각 되지만, 그렇게 만들어진 정보가 조합되어 새로운 정보를 생성할 수 있기 때문에 정보는 Data의 부분이 아니다.
흔히 창발(emergence)의 예로 온도를 많이 드는데, 개별 입자에는 존재하지 않는 온도 —입자들 운동의 평균값— 라는 속성이 입자 전체 수준에서 나타난다는 것이다. 이는 개별 요소와 그 요소들의 집합의 차이에서 나타나는 현상인데, 개별 요소들에는 자신을 포함한 요소들 전체 합이나 평균 같은 것을 알 수 없지만, 요소들을 하나의 집합으로 묶으면 그 집합에 대하여 전체 합이나 평균 같은 것을 정의할 수 있기 때문에 일어나는 것이다.
집합이라는 것은 사실 물리적으로 존재하는 것이 아니라 개별 요소가 가진 정보를 기반으로 새롭게 정의된 개념이기 때문에 이와 같은 것이 가능한 것이다. 이것은 결국 어떤 정보로부터 새로운 정보가 생성될 수 있다는 것이고 이렇게 생성된 정보는 또 새로운 정보를 생성할 수 있게 되는데, 이 과정은 재귀적으로 무한 반복 가능하다.
이런 정보의 재귀적 생성도 해석 체계에서 일어나는 일이다. 재귀적으로 생성된 정보는 암호화 되어 어딘가에 Data로 —물리적으로— 저장되고, 그것을 다시 해석 체계가 복호화해서 정보로 사용한다.
Data와 정보는 대응 관계이다
Data를 정보로 해석하는 것은 대응 관계에 의해 이루어진다. 현대의 컴퓨터는 실리콘으로 만들어지지만, 그 논리 구조만 표현할 수 있으면 실리콘이 아닌 것으로도 컴퓨터를 만들 수 있듯이, 정보는 Data를 대응시켜서 해석한다.
7개의 on/off 막대기로 표현되는 디지털 숫자를 생각해 보자. 다른 막대기는 모두 꺼진 상태에서 맨 오른쪽 세로 막대기 2개만 켜진 상태를 우리는 숫자 1로 이해하고, 가운데 가로 막대기만 꺼지고 나머지는 모두 켜진 상태를 숫자 0으로 이해한다.
개별 Data —막대기— 차원에서는 자신이 on/off 상태만 알 수 있을 뿐, 자신의 on/off가 어떤 숫자를 의미하는지는 전혀 알 수 없다. —가운데 가로 막대기가 켜져서 가능한 숫자는 2, 3, 4, 5, 6, 8, 9가 있다
하지만 7개 막대기를 모두 보는 사람 입장에서는 어떤 막대기들이 on/off 되었느냐를 전체적으로 보고 자신이 알고 있는 숫자 개념에 대응 시켜 특정 숫자를 이해할 수 있다. 그러한 원리로 사람은 그것이 설령 막대기가 아니더라도 숫자를 이해할 수 있다. —이것은 Data와 정보가 1:1 대응 관계는 아니라는 것을 뜻한다.
이것은 실제 Data와 정보는 대응 관계에 있을 뿐 Data 자체가 의미를 가지지 않음을 뜻한다. 의미는 해석 체계에 있다.
해석 기계의 종류
해석 기계는 해석 체계를 구현한 장치라고 하자.
해석 기계에는 여러 종류가 가능한데, 단순히 Data를 정보로 해석만 하는 기계 —현대의 컴퓨터— 가 있고, 해석한 정보를 바탕으로 스스로의 물리적 구조를 수정 —이것을 학습이라 한다— 할 수 있는 수준의 기계 —뉴런 네트워크— 도 있다.
해석 기계의 알고리즘를 생각해 보면, Data를 모양 그대로 정보로 해석하는 알고리즘 —룰 기반 프로그래밍— 이 있고, Data에서 특징을 추출해서 정보로 대응시키는 알고리즘 —기계 학습— 도 있고, 그렇게 해석된 정보를 바탕으로 새로운 정보를 생성할 수도 있는 알고리즘 —뉴런 네트워크— 도 있다.
정보의 비용
정보는 암호화(Data → 정보)와 복호화(정보 → Data), 생성(정보 → 정보)에 모두 비용이 발생 하는데, 이때 에너지, 시간, 공간이라는 3가지 비용이 발생한다.
에너지는 연산에 드는 에너지 —우주의 모든 것은 일을 할 때 에너지가 필요하다—, 시간은 연산에 걸리는 시간, 공간은 연산에 필요한 공간 —컴퓨터라면 메모리 크기, 뉴런 네트워크라면 뉴런 네트워크 공간— 만큼 비용이 발생한다.
컴퓨터 계산도 그렇지만 다른 비용들에 비해 시간 비용이 가장 결정적이므로, 정보 처리에서 중요한 비용은 시간 비용이다.
시간 비용 상한선은 무한대지만, 하한선은 빛의 속도가 될 것이다. 어떠한 연산도 빛보다 빠른 속도는 불가능하다. 또한 연산 비용이 설령 무한대는 아니더라도 현실적인 시간을 넘어서는 것 —연산 시간이 우주의 나이보다 길어지는 것— 또한 무한대의 시간 비용이 발생하는 것과 같게 취급할 수 있다.
참고로 순수 논리 연산은 비용이 시간 비용이 상당히 많이 발생하기 때문에, 인간과 같은 동물들은 감정이라는 기능을 이용해서 정확하진 않지만, 대체로 맞는 빠른 연산을 한다. —숲 속에서 맹수처럼 보이는 것이 보이면 두려움을 느끼고 빠르고 도망치는 것
정보의 가치는 미래에 있다
에너지가 일을 할 수 있는 능력이라는 정의를 생각해 보면, 정보는 올바른 예측을 가능하게 하는 것으로 정의해 볼 수 있다. —예측은 행동으로 이어질 수도 있고, 예측에 머무를 수도 있다.
예측이란 결국 미래에 대한 것이므로 정보의 가치는 미래에 달려 있다고 할 수 있다.
이 말을 뒤집어 보면 과거가 된 정보는 가치가 0이라는 뜻이 될 수 있다. —지난 주 로또 번호는 가치가 없다.
물론 정보는 새로운 정보를 생성해 낼 수 있기 때문에, 과거의 정보들이 새롭게 미래의 정보를 생성해 낼 수 있다면 가치가 있다고 할 수 있다.
정보의 수명은 Data에 의존한다
정보는 해석 체계에 존재하는 것이므로, 해석 체계의 수명이 다하면 사라진다고 할 수 있다. 해석 체계는 그것을 대응 시킬 수 있는 Data에 기반하기 때문에 대응 시킬 수 있는 모든 Data가 수명을 다하면 해석 체계는 수명을 다 할 수 있다.
Data는 결국 물리적인 것이므로 그 물리적인 수명이 다하면 사라진다고 할 수 있다. —오래된 글자가 훼손되서 잘 안 보이는 것
결국 정보 수명은 해석 체계를 구성하는 Data의 수명에 의존한다.
정보와 Data는 순환 관계이다
Data로부터 해석 체계가 만들어지고, 해석 체계에서 정보가 만들어지고, 정보에서 다시 정보가 만들어지고, 그렇게 만들어진 정보는 다시 Data로 변환될 수 있다. 그리고 그렇게 만들어진 Data는 다시 새로운 해석 체계를 만들 수 있다.
Data는 결국 수명을 가지고 있지만, 그 수명보다 위 순환이 더 빠르다면, 세상의 Data와 정보는 증가하는 방향으로 흐를 것이고, 평형이라면 세상의 Data와 정보는 같은 것이며, 그렇지 않다면 세상의 Data와 정보는 점점 줄어들 것이다.
Data로부터 해석 체계가 어떻게 만들어지는지는 아직 알 수 없음
이 글에 빈틈이 하나 있는데, Data에서 해석 체계가 어떻게 만들어지는가 하는 것이다. 추후에 그것에 대한 생각이 정리되면 업데이트.
그것을 포함하여 정량화와 연산이 정의되면 새로운 글을 쓸 예정