저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에 한하여 자유롭게
l 이 저작물을 복제, 배포, 전송, 전시, 공연 및 방송할 수 있습니다. 다음과 같은 조건을 따라야 합니다:
l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건 을 명확하게 나타내어야 합니다.
l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지 않습니다.
저작권법에 따른 이용자의 권리는 위의 내용에 의하여 영향을 받지 않습니다. 이것은 이용허락규약(Legal Code)을 이해하기 쉽게 요약한 것입니다.
Disclaimer
저작자표시. 귀하는 원저작자를 표시하여야 합니다.
비영리. 귀하는 이 저작물을 영리 목적으로 이용할 수 없습니다.
변경금지. 귀하는 이 저작물을 개작, 변형 또는 가공할 수 없습니다.
이학석사 학위논문
생물학적 정보 개념에 대한 논쟁
-목적의미론적 정보 이론을 중심으로-
2016 년 8 월
서울대학교 대학원
과학사 및 과학철학 협동과정
이 형 석
초 록
본 논문의 목표는 유전자 정보 개념을 둘러 싼 철학적 논쟁을 소개하고 이를 비판적으로 검토한 후 선택 가능한 새로운 대안을 제시하는 것이다.
유전자 정보 개념은 발생 과정 중에 기능하는 유전자의 역할을 정보 이론을 통해 해석한다. 이러한 전통은 멀리로는 19 세기 말부터 이어진 발생학의 발전으로부터 영향 받았으며 20 세기 중반에는 사이버네틱스 운동과 DNA 의 발견이라는 두 커다란 사건의 발현이 시기적으로 겹치면서 크게 유행하기 시작했다.
일선의 연구자들이 무비판적으로 유전자 정보 개념을 수용할 때 생물철학자들과 몇몇 생물학자들은 유전자 정보 개념의 정식화를 시도했다. 그들은 우선 새넌의 정량적 정보 이론을 가져와 유전자 정보 개념을 정식화 하고자 했으나 이 시도는 실패로 돌아갔다. 뒤이어 드레츠키의 인과적 정보 이론을 도입하였으나 이 또한 유전자의 주된 성질을 포섭할 수 없었다. 최근에는 밀리칸의 목적론적 정보 이론이 크게 각광 받았지만 이에 대한 즉각적인 비판들이 이어졌다.
나는 본 논문의 1 장에서 각각 유전자 정보 개념이 등장한 역사적 배경과 논쟁의 유의미성을 밝힌다. 이어서 2 장에서는 종전의 정보 이론들을 유전자 정보 개념에 접목시키고자 한 생물철학자들의 시도들을 비판적으로 검토한다. 비판적 검토를 통해 나는 유전자 정보 개념이 만족해야 하는 네 가지 의미론적 요구 조건이 존재함을 주장한다. 마지막으로 3 장에서는 목적론적 정보 이론을 대체 또는 수정한 대안 이론들을 소개하며 이들의 한계를 지적한 후 목적의미론적 정보 이론에 스컴스의 신호 이론을 접목시킨 새로운 유전자 정보 이론을 제시한다.
주요어: 유전자 정보, 정보 이론, 목적의미론, 신호 게임 이론 학번: 2013 -22896
목 차
서론 ... 1
1. 유전자는 정보인가? ... 3
1.1발생학적배경 ... 4
1.2분자생물학의발전과DNA 의발견 ... 6
1.3유전자와정보개념의랑데뷰 ... 8
1.4유전자정보개념논쟁의의의및가치 ... 11
2. 유전자는 ‘어떤’ 정보인가? ... 17
2.1.1정량적정보이론 ... 18
2.1.2정량적정보이론과유전자정보개념 ... 24
2.2.1인과적정보이론 ... 26
2.2.2인과적정보이론과유전자정보개념 ... 29
2.3.1목적의미론적정보이론 ... 34
2.3.2유전자정보의지향성 ... 39
2.3.3유전자정보의비대칭성 ... 44
2.3.4유전자정보의오류가능성 ... 46
2.3.5유전자정보의배타성 ... 50
3. 목적의미론적 정보 이론의 대체 또는 수정 ... 57
3.1전달정보이론:새넌식정보이론으로의회귀 ... 58
3.2정보-목적의미론적정보이론 ... 60
3.3신호-목적의미론적정보이론 ... 63
3.3.1 신호 게임 이론 ... 65
3.3.2 신호 게임 이론과 유전자 ... 67
3.3.3 신호-목적의미론적 정보 이론과 의미론적 요구 조건 ... 69
결론 ... 74
참고문헌 ... 77
ABSTRACT ... 82
서론
유전자 정보 개념1은 유전학, 분자 생물학, 합성 생물학 등 20 세기 말에 큰 성공을 거둔 여러 학문 영역에서 폭넓게 사용되는 개념이다. 유전자 정보는 복제되고 전사되며 번역되고 전달된다. 그렇다면 이 정보는 어떻게 정의되는가? 유전자 정보 개념의 탄생 역사를 살펴보면 유전자 정보 개념은 정보학의 엄밀한 정의를 따랏다기 보다는 불명확한 비유로서 시작되었음을 알 수 있다. 이 때문에 다양한 정보 이론 중 어떤 이론이 유전자가 지니는 생물학적 특성을 나타내는데 가장 적합한 이론인지에 대한 논의가 개념의 성립과 활용보다 뒤늦게 시도되었다.
그리고 이 논의의 결론이 생물철학의 핵심적인 주제 중 하나인 유전자 개념의 정의와 매우 큰 상관 관계를 갖기 때문에 많은 생물철학자들이 유전자 정보 개념을 둘러 싼 논쟁에 뛰어들었다.
나는 본 논문에서 생물철학자 사이에서 벌어진 지금까지의 유전자 정보 개념 논쟁을 개괄한다. 이를 바탕으로 종전의 이론들이 가진 한계를 지적하고 그러한 문제점을 해결할 수 있는 새로운 이론을 제시한다.
1 장에서는 우선 논쟁의 배경이 되는 유전자 정보 개념이 어떻게 등장했는지 그 역사적 맥락을 소개한다. 이를 통해 어째서 유전자 정보 개념이 생물학에서 명확히 정의되지 않은채로 사용되어왔는지 알 수 있으며 어째서 그러한 불명확한 개념에 많은 학자들이 매료되었는지를 이해할 수 있다. 뒤 이어서 생물학에서의 유전자 정보 개념이 실제 현상을 있는 그대로 서술하고 있는지 아니면 메타포에 지나지 않는지, 만일 메타포에 지나지 않는다면 이에 대하여 논하는게 무슨 의미가 있는지에 대한 논쟁을 다룬다. 나는 여기서 어느 한쪽의 편을 들지는 않을
1 본 논문에서 “유전자 정보”는 정보로서의 유전자(gene ad information) 또는 유전정보
(genetic information) 등 유사 용어를 대표하여 칭한다.
것이다. 다만 어느 쪽 관점을 취하더라도 유전자 정보 논쟁은 완결되지 않으며 유전자 정보 개념 논쟁이 유의미한 논쟁임을 주장할 것이다.
2 장에서는 유전자가 어떤 종류의 ‘정보’ 여야 하는지를 자세히 살펴본다.
과학철학자들 사이의 논쟁은 때때로 서로 다른 개념에 대하여 이야기 하고 있기 때문에 더 격화되곤 한다. 유전자 정보 개념에 대해서도 철학자들이 유전자 정보의 성질들 중 무엇을 필수적 조건이라 받아들이는지에 따라 그들이 유전자에게 요구하는 정보의 성격이 달라진다. 과학철학자들이 생물학에 접목시킨 정보 이론은 크게 정량적 정보와 의미론적 정보로 이분된다. 의미론적 정보는 다시 드레츠키의 인과의미론적 정보와 밀리컨의 목적의미론적 정보로 나뉜다. 이 절에서는 새넌, 드레츠키, 밀리컨의 정보 개념을 간단히 소개하고 각각의 이론을 통해 유전자 정보 개념을 해석했을 때 얻을 수 있는 이론적 장단점을 살펴 본다. 이를 통해 유전자 정보에게 요구되는 의미론적 요구 조건을 정의할 수 있다.
3 장에서는 앞서 살펴 본 정보 이론들의 단점을 해결 하기 위한 대안 또는 수정 이론으로서 베르그스톰의 ‘전달 정보 이론’과 쉐이의 ‘정보-목적의미론적 정보 이론’을 소개하고 이들의 문제점을 지적한다. 그리고 이러한 문제점을 해결하기 위해 신호 게임 이론에 목적의미론적 정보 이론을 접목시킨 신호-목적의미론적 정보 이론을 제시하고 이 이론이 앞서 제시된 의미론적 요구 조건을 충족함을 보인다.
마지막으로 결론에서는 1 장에서부터 3 장까지의 내용을 정리한 후 신호- 목적의미론에 따라 유전자 정보가 지니는 표상은 유전자 수준이 아닌 유전자 네트워크 수준에서 고려되야 함을 보인다.
1. 유전자는 정보인가?
19 세기 말을 전후로 분자생물학은 큰 성공을 거두기 시작했다. 1869 년에 스위스의 미셔가 DNA 를 발견하고 1943 년에는 루리아와 델부르크가 박테리아의 자발적인 돌연변이 유전 과정을 묘사하면서 미세 유전학의 본격적인 태동을 알렸다. 애버리와 그 동료들은 DNA 를 일종의 유전적 물질이라고 추정하였으며 레더버그는 실제로 박테리아가 분화할 때 DNA 가 재구성됨을 밝혔다. 급격한 발전을 맞이한 대부부분의 학문 분야가 그렇듯이 분자생물학에서도 이러한 발견들과 함께 DNA 의 성질을 설명하기 위한 새로운 용어들 (형태 변환, 유도, 형질 변환 등) 이 우후죽순 등장하기 시작했다. 그리고 당시의 시대 배경과 학문적 유행 그리고 DNA 가 지닌 속성이 한데 어우러져 에프러시가 제안한 ‘박테리아 간 주고 받는 DNA 정보’ 개념이 넓리 받아들여 졌으며 분자생물학의 용어들은 정보 이론의 용어들에 의해 통일되었다(Sarkar, 1996). 이것이 현대적 의미로 생물학에서 처음 등장한 ‘유전적 정보’였다.
유전자 정보 개념은 우리에게 너무나도 친숙하다. 대중을 상대로하는 언론은 물론이고 분자생물학과 유전생물학 연구의 최첨단에서 활동하는 과학자들까지도 유전자에 대하여 유전적 암호, 프로그램, 생명의 책, 레시피, 청사진 등의 표현을 아무 거부감 없이 사용한다. 20 세기 말 과학계에서 가장 큰 사건을 꼽으라면 인간의 모든 유전정보를 밝혀내는 게놈 프로젝트를 빼놓을 수 없다. 2000 년 6 월, 장장 12 년에 걸쳐 이 위대한 관찰이 성공적으로 마무리되고 과학자들은 그들의 업적을 설명하며 “생명의 책을 해독했노라” 말했다(Carrington 2000).
과학자들은 인간 게놈을 30 억 장의 편지, 5000 키로미터의 타이핑, 200 권의 전화번호부, 1 장의 DVD 분량의 정보에 비유했다. 언론은 인간 유전자 뿐만 아니라 인간 본성 자체에 대하여도 마치 근시일 내에 인간이라는 존재가 자유자재로 수정, 보완, 창출 될 것이라는 내용의 기사를 연일 쏫아냈다. 이러한
과장된 반응은 과학철학자들과 일부 과학자들이 유전자를 정보로 보는 ‘유전자 정보’ 관점의 유용성과 폐해에 대하여 다시 한 번 재고하는 계기가 되었으며 때맞춰 발표된 메이나드 스미스의 논문(Smith, 2000)과 함께 유전자 정보에 대한 개념 논쟁에 본격적으로 불이 붙기 시작했다.
본격적으로 유전자 정보 개념의 정당성에 대하여 논하기 위해서는 유전자 정보 개념이 태동하게 된 역사적 배경을 살펴 볼 필요가 있다. 유전자 정보 개념의 등장 배경에는 다소간 시대적 배경으로부터 기인한 우연적인 측면과 유전자 자체가 지닌 정보적 속성으로부터 기인하는 필연적 측면이 혼재되어 있다. 따라서 본격적으로 개념적 논쟁을 살펴보기에 앞서 역사적 배경을 훝어보는 것이 논쟁 구도를 이해하는데 도움을 줄 것이다. 언제부터 그리고 어째서 유전생물학자들은 유전자를 정보로 비유하기 시작했을까? 이에 대하여 답하기 위해서 우선 당시 유전자학의 배경이 되는 발생학, 분자생물학의 발전과정과 DNA 발견 과정을 살펴 보자.
1.1 발생학적 배경
생명 현상, 그 중에서도 발생의 신비를 이해하고자 했던 인류의 시도는 유구한 역사를 가진다. 많은 시도들 중 신학과 과학의 시대의 경계를 넘어서 가장 유행했던 설명은 자웅의 성적인 관계를 통해서 생명의 씨앗을 가지고 있는 남성의 정기가 생명을 기를 수 있는 여성의 요람 안에 위치함으로서 생명이 발현된다는 예형론(preformationism)가설이었다. 이러한 전통을 따라서 현미경의 발견 이후에는 정자의 머리 부분에 출생 직전의 아기와 완전히 같은 난쟁이 인간이 들어 있다는 가설이 유행했다. 예형론은 성체와 완전히 동등한 개체가 알이나 정자 같은 생식 세포 안에 자리 잡고 있다는 입장을 취한다. 하지만 19 세기부터 달걀을 대상으로 발생 과정에 대한 자세한 경험적 탐구가 행해졌고 예형론은 도저히 가능하지 않은 가설이었음이 밝혀졌다. 발생학은 닭의 수정란이 적어도 세
가지 부분으로 이미 나뉘어져 있음을 밝혀냄으로서 예형론이 잘못된 주장이었음을 분명하게 보여주었다.
하지만 예형론의 몰락과 함께 발생에 대한 오래된 의문이 다시 한 번 고개를 들었다. 도대체 생명체는 어떻게 단순한 구조로부터 복잡한 유기체를 형성할 수 있는가? 이러한 혼란 상태에서 프레드리히 볼프와 같은 학자들은 생명의 형태는 생식 세포내에 위치하고 있지 않으며 이를 둘러싼 외부의 상태가 발생 과정을 인도하는 생명장(vital force)으로 기능한다는 생기론(vitalism)을 주장했다. 또 다른 시도로는 계통발생학에 기댄 설명이 있었다. 다윈 주의자였던 에른스트 헤켈은 개체발생과 개통발생은 평행적인 관계에 있으며 개체발생은 개통발생을 빠르게 재생해 내는 과정을 거쳐 이뤄진다 주장했다. 이러한 설명은 진화 역사적으로 오래된 개체와 비교적 새로운 개체가 있으며 이들 사이의 관계는 완전한 진보 관계에 있다고 생각했던 진보주의자들에게 있어서 발생을 이해하기 위한 매력적인 대안이었다. 하지만 19 세기 후반에 생리학자인 헬름홀츠와 빌헬름 룩스의 섬세한 실험 연구를 통해 헤켈 등 진보주의자들의 추측성 형태학은 사실이 아님이 밝혀졌다.
개통발생론이 거짓임을 밝혀낸 룩스는 대안적 가설로서 모자이크 발생론을 주장했다. 그에 따르면 발생 과정 중 분열을 반복하는 각 세포는 이미 각자가 미래에 맡아야 할 역할을 분배 받았으며 이러한 역할분담을 반복함으로서 하나의 수정란이 완전한 성체로 성숙해간다. 그는 자신의 주장을 뒷받침 하는 증거로서 개구리 수정란이 한번 나눠진 상태에서 한쪽을 제거할 경우 양쪽 모두 정상적으로 발생하지 못하며 마치 수정란이 반절만 발생한 것과 같은 상태가 되어버림을 보였다. 하지만 불행하게도 그의 라이벌 이었던 드레스치에 의해서 그의 실험은 잘못된 실험이었음이 밝혀졌으며 하나의 수정란으로부터 분리된 각각의 부분세포가 하나의 완전한 올챙이로 성숙해질 수 있음이 증명됨으로서 모자이크 발생론은 반박되었다.
룩스의 이론은 반박되고서 이제 발생학은 발생 중 각 세포들의 가능성은 동등하지만 이들의 행동을 결정하는 어떠한 지침이 존재함을 설명할 수 있어야만 했다. 폴 바이스는 이를 해결하기 위해 발생학적 형태 형성장(embryonic morphogenetic field) 이론을 소개했다. 그는 발생 중 각 세포들은 내부적으로는 동등한 정도의 발생학적 가능성을 지니지만 서로 다른 위치와 시간에 존재함으로서 각자 다른 자극(cue)을 받아 각자의 위치에 따라 다른 형태로 성장해 나간다고 주장했다. 이제 발생의 수수께끼는 세포 안에 존재하는 어떤 지침들을 밝혀내는 문제로 환원되었다. 그리고 그러한 지침들을 품고 있는 정보원으로서 후보로서 핵산 속의 정체 모를 물질이 큰 관심을 모으게 된다.
발생의 수수께끼를 풀기 위한 종전의 시도들이 번번이 실패로 돌아가면서 DNA 속에 세포를 구성하기 위한 지침이 적혀 있으리라는 기대가 모아졌다(Moss, 1992). 염색체는 발생의 문제들을 단번에 해결할 수 있는 가능성, 발생의 정보를 담고 있는 담지자로서 주목 받게 된다.
1.2 분자생물학의 발전과 DNA 의 발견
한편 19 세기 말 당시 분자생물학과 세포유전학을 이끌어 나가던 학자들은 이미 세포핵, 그 중에서도 염색체야 말로 유전적 수준의 구세대와 신세대를 이어주는 핵심적인 물질일 것이라 추측했다. 그들은 20 세기에 재발견된 멘델 유전학과 세포유전학의 결합을 위해 꼭 필요한, 연속적이지 않고 분리적인 표현형 유전 현상을 만족시킬 수 있는 유전 물질을 애타게 찾고 있었다. 그리고 세포핵 안의 내용물이 속속들이 밝혀지며 학자들은 염색체를 이루는 물질이야 말로 유전 물질의 조건을 충족시키는 지시적 물질일 것이라는 강한 심증을 갖게 된다.
이어진 DNA 의 발견과 그 매커니즘에 대한 심층적 탐구는 이러한 심증을 뒷받침하는 결정적인 계기가 되었다.
유전생물학자들이 처음 정보 이론의 개념들을 빌려와 ‘유전자의 정보’를 말하기 시작한 시기에는 아직 DNA 의 정확한 구조가 밝혀지지 않은 상태였다. DNA 가
정보를 담고 있거나 정보 그 자체일 것이라는 추측은 발생 현상을 설명하기 위한 가설에 불과했다. 그들이 말한 ‘ 유전자가 정보를 가지고 있다 ’ 는 표현은 어디까지나 비유적인 표현이었으며 그들 스스로도 정말로 그러한 정보가 실재한다고는 믿지 않았다(El-Hani, Queiroz, & Emmeche, 2006). 하지만 DNA 의 구조가 밝혀지면서 상황은 정말로 유전자는 정보라 믿는 유전자 정보 실재론자들에게 유리하게 흘러갔다.
1953 년 왓슨과 크릭이 DNA 의 이중 나선 구조를 밝혀냈다. 슈레딩거의 패러다임으로 부터 영향을 받은 왓슨과 크릭은 정보 이론의 암호화 개념을 활용하여 DNA 를 표현했다. 그들은 DNA 에 담긴 정보를 '단백질 구조' 에 대한 정보라고 주장했다(Crick, 1958). DNA 의 발견과 그 매커니즘에 대한 심층적 탐구는 유전자를 정보로 해석하는 관점을 계속해서 강화시켜 나갔다. 1966 년 DNA 암호와 아미노산 사이의 해독 패턴이 밝혀지며 DNA 와 단백질 사이에는 물리적 상관 관계 이상의 정보적 관계가 존재함이 드러났다. 바이러스학이 발전하고 박테리오 파지 내부에 있는 유전 물질들의 파편을 주입한 세균이 자신이 본래 생산해야 하는 유전 물질과 완전히 다른 유전 물질을 생산함이 알려지면서 DNA 의 조합을 편집하고 이에 따라 특정 관계들이 변화하는 결과를 비교하는 연구방법이 유행하기 시작했다. 이는 간접적인 프로그래밍에 가까운 행위였다.
이제 DNA 또는 RNA 가 세포 속에서 지시적인 메세지를 전달한다는 관점이 널리 받아들여지기 시작했다. 이는 강력하고 또한 간결한 방법으로 많은 호소력을 지녔다. 적어도 일선의 생물학자들 사이에서는 유전자가 대사 발생, 유전, 그리고 진화를 이해하는데 있어 매우 중요한 정보를 담고 있음이 당연한 사실로 받아들여졌다(Moss, 1992).
유전자의 실체가 점점 더 명확해지면서 유전자가 담고 있는 정보 또한 정말로 실재한다는 주장 역시 힘을 얻기 시작했다. 특히 여러 생물종 사이에도 인간과 공통된 DNA-단백질 관계가 존재함이 밝혀지면서 정보 용어의 유전학 침략은 가속화되었다(Sarkar, 2003). 분자생물학에서 유전자를 정보로 보는 관점의 활용
범위는 개념의 설명과 이해를 돕는 설명적 비유 수준을 뛰어 넘어 연구실을 지배하는 패러다임의 위상을 점유해 갔다.
1.3 유전자와 정보 개념의 랑데뷰
분자구조주의는 1950~60 년대 생물학의 주요 탐구 주제였다. 분자 구조가 유기체의 기능을 결정한다 믿었던 생물학자 폴링은 고분자 물질의 상호 작용 또한 분자들의 모양에 따라 생성된다 주장하며 이를 열쇠와 자물쇠 관계에 비유하여 설명했다(Pauling, 1940). 분자구조주의에 따르면 유전자가 지니는 지시적 정보의 내용은 그 유전자가 분자 수준에서 어떤 구조를 이루고 있는지에 달려있다.
유전자가 서로 다른 분자 구조를 가진다면 ‘하나의 유전자에는 하나의 효소’ 가 존재해야 했다. 이는 당시 생물학을 대표하는 슬로건 중 하나였다. 당시의 생물학자들은 고분자와 생물 현상 사이에서 보이는 일대일 상관 관계와 유사한 관계성이 유전자가 지닌 정보와 그 정보를 읽어서 진행되는 발생 과정 사이에서도 관찰될 수 있으리라는 기대를 품고 있었다.
하지만 슈레딩거는 1944 년에 그의 저서 “생명이란 무엇인가”에서 저 작은 분자들만으로 어떻게 이렇게 다양한 생명 현상들을 모두 표현할 수 있을지 의심했다. 입자물리학자이기 때문에 분자구조주의적 전통과는 무관했던 그는 물리적 구조만으로는 발생과 생식과 같은 우리의 다양한 생명 현상을 모두 설명할 수 없으며 필연적으로 유전 기작은 모스 부호와 같은 “유려한 코드-스크립트 관계”
이어야 한다고 주장했다2 (Schrödinger, 1944). 코드-스크립트 관계의 장점은 엄청난 수의 경우의 수를 제공한다는 점이다. 예를 들어 알파벳 25 개 중 5 개를 뽑아 만든 코드가 나타낼 수 있는 경우의 수는 천만개가 넘는다. 따라서 만일 유전자가 구조나 형태가 아닌 코드 관계로 이루어진 정보라면 유기체의 엄청나게
2 상대적으로 적은 수의 유전자가 외부의 복잡한 환경에 환상적으로 적응하는 유기체를 발생시킬 수 있는가? 생물학의 매우 중요한 물음 중 하나이다 (Jablonka et al 2014).
다양한 기능, 형태를 설명할 수 있다. 슈레딩거의 주장에 깊은 감명을 받은 왓슨과 크릭은 DNA 구조와 DNA 와 아미노산 사이의 코드 관계를 밝혀냈다. 이 역사적인 발견은 슈레딩거와 그 지지자들이 그토록 찾아 헤매던 유전 코딩 양식의 가능성을 제시했다 (Sarkar, 1996).
유전자가 분자 구조에 따른 물리적 인과력 뿐만 아니라 암호 관계를 통해 정보를 담지할 수 있는 능력을 보유하고 있음이 밝혀지자 뒤이어 유전자 정보의 재생과 저장에 관한 후속 연구가 이어졌다. 이와 같은 시류 속에서 정보 이론의 개념을 빌려와 유전자 기작을 이해하고자 하는 시도들이 속속들이 등장하였다. 이들의 작업을 통해 유전학적 기작들과 정보 이론의 개념들이 매우 유사함이 밝혀졌다.
유전자는 복제되고 전사되며 번역, 압축, 보존되고 신호를 주고받으며 유기체와 모종의 의사소통을 한다(Jablonka, 2002). 이러한 정보처리 과정을 거쳐 유전자는 발생 과정 중 각 단계에서 발생 세포가 따라야 하는 지침을 주고 표현형을 결정짓거나 또는 결정짓는데 크게 영향을 미치는 인과적 원인을 제공한다.
발생학자들과 분자생물학자 그리고 유전생물학자들이 심적으로 그토록 원했던 정보는 유전자에 담겨 있었다. 정보 이론의 개념들과 그로부터 빌려 온 정보 용어는 생물학에서 유전자를 둘러 싼 현상들을 기술하고 설명하는데 있어서 필수불가결한 요소가 되었으며 이러한 설명 방식은 크게 유행하게 되었다.
지금까지 살펴본 바와 같이 유전자 정보 개념은 발생학적 발견과 분자생물학의 발전 그리고 사이버네틱스가 유행했던 당시 시류에 떠밀린 약간의 역사적 우연3이 겹쳐서 일어난 복합적 현상이었다. 이제 유전자는 이제 더 이상 단순한 물질이 아니었다. 생물학자들은 정보 이론에서 이야기되는 개념들을 활용하여 유전자를 둘러싼 생명 기작들을 설명해냈다. 그러자 과학철학자들과 일부 생물학자들 사이에서 유전자가 지닌 속성 중 많은 부분이 구조적 속성을 포함한 물리적
3 2차 세계대전이 발발하자 정밀한 미사일 폭격 기술을 발전시킬 필요가 있었던 연합국측
은 사이버네틱스 연구에 공을 들였다. 이 때문에 모든 학문을 정보 이론의 우산 아래 통합 시키고자 시도했던 사이버네틱스적 크게 유행하였다 (Kay 1999).
특성이 아닌 그것이 담고 있는 정보로부터 기인한다는 주장의 의미와 실체를 명확히 하고자 하는 움직임이 일어났다. 생물학자이자 생물철학자인 에른스트 마이어는 유전자는 곧 정보임을 적극적으로 받아들이며 다음과 같이 말했다.
우리는 다음과 같은 두 가지 생물학 분야에 정보 이론의 용어들을 활용할 수 있다.
먼저 분자생물학자들은 수정란의 DNA 암호 속에 프로그램 되어 있는 암호들을 해독해 내야만 한다. 다음으로 진화생물학자들은 세대와 세대를 거치면서 어떻게 유전자 암호 정보가 저장되어 왔으며 어떤 법칙과 조건 하에서 이러한 역사가 이루 어 졌는지에 흥미를 가져야 한다. (Mayr 1961)
이 후 유전자를 발생 정보의 프로그램으로 보는 그의 관점은 여러 생물학자, 생물철학자에게 많은 영향을 미쳤다. 생물학자인 조지 윌리암스는 유전자는 핵산 사슬의 연속이 아니라 정보적 단위의 집단이라 주장했으며(Williams 1966) 윌리암스의 사상을 널리 알리는데 공헌한 리차드 도킨스 또한 그의 복제자(replicator) 개념을 소개하면서 복제자를 이루는 유전자는 짧은 시간 동안 존재하지만 그 정보적 유형(type) 은 잠재적으로 영원불멸할 수 있다 주장했다(Dawkins 1976). 생물철학자인 로젠버그는 자동차 공장의 로봇이 특정한 위치에 샷시를 달도록 프로그램 되어 있듯이 초파리 수정란 속의 유전자가 초파리의 특정 부분에 겹눈을 달도록 명령하는 소프트웨어의 역할을 한다 말했으며(Rosenberg 1985) 메이나드 스미스는 유전자 속의 프로그램이 어떤 단백질을 만들어낼지 명령하고 만들어진 단백질을 어떻게 분배하여 유기체를 구성할지 지시한다고 설명했다(Smith 2000).
분자생물학이라는 성공적인 과학 분야에서 유전자 정보 개념은 크게 유행했다.
그러자 생물학자들 사이에서 이에 대한 개념적 논의가 활발해 질 조짐을 보였고 뒤이어 과학철학자들이 이 논쟁에 뛰어든 것은 어찌 보면 당연한 귀순이었다.
철학자들이 유전자 정보를 둘러 논쟁에 적극적으로 뛰어든 이유는 크게 두 가지
를 꼽을 수 있다. 첫째, 종, 적합도, 자연선택 등에 대한 논의는 생물학 내에서 이루어 졌지만, '정보' 개념은 철학에서 충분히 논의된 개념과 깊은 연관을 맺고 있었기 때문이다. 둘째, '정보' 그 자체는 철학 내에서 화자 된지 그리 오래되지 않았지만, 철학의 전통적 주제인 '의미'와 상통하는 면이 있었다. 따라서 정보 개념이 생물학에서 점점 더 중요한 위치를 차지할수록, 과학철학자들은 생물학적 개념을 정식화 하는데 자신들이 도움을 줄 수 있을 것이라 생각했다(Godfrey- Smith 2007). 과학적 설명 개념에 관심을 둔 이들은 유전자 정보 비유를 자신들의 모델에 적용하고자 했으며 심리철학, 언어철학에 조예가 깊은 철학자들은 정보 이론에서 빌려 온 용어들의 유용성에 대하여 논쟁했다 (P. Griffiths & Stotz, 2013).
1.4 유전자 정보 개념 논쟁의 의의 및 가치
한편 이와 같이 생물학에서 정보 이론이 가지는 높은 위상에도 불구하고 유전생물학자들의 정보 용어 사용은 불완전한 채로 남아있으며 그들은 어떤 중심 개념에 기반 한 통일된 용어 체계를 따르고 있지 않다는 비판이 이어졌다.
사카르와 같은 철학자는 일선의 연구자들은 그들 사이에서 암묵적으로 합의된 의미에 따라 정보 용어를 생물학적 개념에 적용시킬 뿐이며 분자생물학에서 일어나고 있는 불분명한 정보 용어 사용이 미래에 관련 현상에 대한 잘못된 설명을 불러올 수 있다며 우려를 표했다(Sarkar, 1996).
하지만 그럼에도 불구하고 유전자가 일종의 정보라는 주장의 유용성은 그 색이 바라지 않는다. 심지어 유전자를 정보로 보는 관점의 실재성에 대해 의문을 품는 철학자들조차 그것이 생명 현상을 설명하는데 비유적으로는 유용하다는 점은 부정하지 않는다(Kitcher, 2001). 생물학자들은 유전자를 정보로 보는 관점의 정당성을 따지기 보다는 이러한 패러다임을 활용하여 어떤 새로운 발견을 할 수 있을지에 관심을 가지고 있다.
유전자가 정말로 정보 그 자체인지 아니면 유전자가 정보라는 주장은 단순한 비유(metaphor)에 불과한지에 대한 논쟁은 유전자 정보 개념을 둘러싼 철학적 논쟁에서 빠지지 않고 등장하는 주제이다. 이는 작금의 과학철학에서 이야기 되는 실재론과 비실재론 간의 논쟁과도 다소간 연관되어 있다(Moss, 1992). 유전자가 일종의 정보라는 주장은 그 주장의 성격에 따라 실재론과 비실재론으로 구분된다.
유전자가 진정으로(literally) 정보라 믿는 이들은 유전자 정보 실재론자들이다.
이들은 유전자란 진정으로 정보 그 자체이거나 적어도 정보와 매우 흡사한 그 무엇이라고 주장한다. 유전자 정보 실재론자 진영의 가장 핵심적인 인물 중 한 명인 메이나드 스미스는 다음과 같이 언급했다.
몇몇 수학자들은 우리의 유전자가 자연선택에 의해 복잡한 생물 진화의 모든 정보를 담기에는 정보가 저장되는데 필요한 시간이 턱없이 부족하다 지적했다. ( … ) 하지만 만일 우리의 조상들이 대부분의 시간 동안 미생물로 지내왔음을 상기한다면 우리는 1 년에 평균 스무번이 넘는 세대를 겪었을 것이며 이는 우리가 지닌 유전적 정보를 축적하는데 필요한 시간의 10 배가 넘는 진화적 시간에 해당한다. 하지만 이러한 주장은 유전자가 우리의 성체를 특정하는데 필요한 정보를 충분히 지니고 있다는 가정을 내포하고 있다. 이러한 가정은 타당하다. 왜냐하면 유전자 말고 이러한
정보를 품고 있을 만한 다른 존재가 없기 때문이다. (Smith, 2000)
메이나드 스미스에 따르면 유전자는 많은 정보를 안전하게 담을 수 있으며 그렇기 때문에 발생 과정 중 다른 발생 요인들보다 훨씬 더 많은 역할을 한다. 이러한 역할은 유전자가 실제로 충분한 정도의 정보를 담고 있지 않으면 수행될 수 없는 작업이다. 따라서 유전자는 정말로 정보를 담고 있어야만 한다.
반면 유전자 정보 비실재론자들은 유전자 정보 개념은 단순한 유비일 뿐이며 사람들이 유전자 개념을 이해하는데 도움을 주는 휴리스틱한 역할을 한다 주장한다. 대표적인 비실재론자인 사카르는 다음과 같이 말했다.
메이나드 스미스는 현재 유전자 정보 개념이 발생생물학에서 휴리스틱적인 역할과 실제적인 역할을 하고 있다 주장한다. 그가 나를 어떻게 생각하는지와는 별개로 나는
1960 년대 이후 유전학에서 이러한 개념이 휴리스틱적으로 유용했음을 부정하지 않았다. 나는 오직 그것이 어떤 실제적인 역할을 한다는 주장에 반대한다. 왜냐하면 유전자 정보 개념이 가진 휴리스틱적 유용성마저도 곧 사라질 것이기 때문이다.
(Sarkar, 2000)
그는 유전자가 발생 과정에 대한 정보를 담고 있다는 주장이 너무 순진한 견해이며 유전자 외의 여러 발생 요인들이 복잡하게 얽히는 진핵생물의 발생 과정에서는 유전자 정보의 실체가 모호하다고 비판한다. 또한 복잡한 발생과정에 대해서는 휴리스틱한 역할조차 할 수 없을 것이라 본다.
유전자 정보 개념의 실재성에 대한 논쟁은 자칫 유전자 정보 개념을 논하는 논쟁 자체의 가치를 흐릴 수 있다. 유전자 정보는 실재하지 않으며 단순한 메타포에 지나지 않는다 주장하는 학자들 중 일부는 메타포에 불과한 개념의 성질에 대하여 자세히 논하는 것은 의미 없는 작업이라고 말한다(Oyama, 1985;Sarkar, 1996;
Kitcher, 2001). 이러한 태도를 취하는 이유는 유전자 정보 개념이 메타포적으로도 유용하지 않다고 보기 때문이다.
그러나 앞서 이미 언급했듯이 지금도 일선의 생물학자들은 아무런 의심 없이 유전자 정보 개념을 사용하고 있다. 생물정보학은 21 세기 가장 뜨거운 학문 분야 중 하나이며 수 많은 대학에서 다양한 생물과학자들이 연구에 매진하고 있다.
이들의 생물정보학에 대한 믿음은 대단해서 생물학자들은 역사적으로 종종 정보적 개념틀이 생물학 이론의 발전에 결정적인 역할을 했다고 주장한다. 이처럼 생물학 연구에서 유전자 정보 개념이 활발히 논의되는 이유는 이 개념이 개체의 발생적 구조를 둘러 싼 복잡한 과정 중 유전자의 인과적 역할에 대한 서술을 용이하게 만들기 때문이다(Godfrey-Smith, 2007). 다시 말해 복잡한 발생 시스템을 정보 이론에 맞춰 형식화 하여 발생 과정 정보 제공자, 수용자, 매개체, 채널, 해독 과정 등으로 나누어 해석하기 위함이다.
유전자 정보 이론이 매력적인 또 다른 이유는 바로 이러한 시도를 통해서 지금까지 깊게 연구된(인간 또는 기계의) 언어 이론의 아이디어를 생물학에 접목시킬 수 있기 때문이다(Dupré, 2005). 비록 과학자들과 생물철학자들 사이에서 어떤 정보 이론이 유전자 정보를 해석하는데 가장 적합한지에 대해서는 상당 부분 견해가 갈리는 상황이지만 현재 통일된 정보 이론을 따르고 있지 않다는 사실이 유전자 정보 개념을 받아들이지 말아야 할 이유가 되지는 않는다.
마찬가지로 유전자 정보 개념이 널리 받아들여지고 있다는 사실로부터 유전자가 정말로 정보라는 결론 또한 도출되지는 않는다(Moss, 1992). 비록 많은 생물학자들이 유전자가 우리의 형질을 결정하는데 결정적인 역할을 한다는 강한 심증을 가지고 있지만 현재로서는 직접적으로 이를 밝혀낼 도리가 없다(Jablonka, Lamb, & Zeligowski, 2014). 따라서 유전자 정보가 발생 중에 어떤 역할을 하는지는 앞으로 계속될 연구들이 밝혀줄 것이며 이때 유전자 정보 개념은 훌륭한 도구 역할을 할 것이다. 실제로 유전자 정보 개념은 계속해서 성과를 산출하고 있다(Calcott, 2014).
유전자 정보 개념에 대한 비판은 주로 생물학자들이 아닌 생물철학자들의 목소리를 통해 터져나왔다. 그들의 비판과 우려는 크게 두 가지로 나뉠 수 있다.
하나는 잘못된 메타포의 악영향에 대한 걱정이다. 과학 외적으로는 메타포에 취약한 대중들에게 잘못된 인식을 심어줄 수 있으며(Oyama, 1985; Dupré, 2005) 내적으로는 과학의 발전 방향을 잘못된 방향으로 뒤틀 수 있다(Sarkar, 1996).
예를들어 1950 대 후반 유전자 코드에 정보 이론을 접목시켜 분자생물학을 더 정확하고 유려한 이론으로 만들고자 한 여러 시도들이 있었다. DNA 와 단백질 사이의 관계를 정보의 흐름으로 묘사한 크릭의 시도로부터 영감을 얻은 브랜슨(Branson)은 폴리펩티드 시퀀스가 담고 있는 정보의 내용을 실험적으로 계산하고자 했으며 린쉬츠(Linschitz)는 박테리아 세포 안의 정보량을 계산하고자 시도했다. 하지만 이들의 시도는 인상적인 결과를 내지 못했고 실패했으며 결국 생화학 실험이 대신 문제를 해결했다(Sarkar 1996; Griffiths, 2013). 사카르는
위와 같은 사례를 들며 유전자 정보 메타포는 하나의 단일한, 정확한, 이해할 수 있는 모형을 만들어낼 수 없을거라 주장했다. 대신 그는 모형에 대응하는 다양한 속성들마다 서로 다른 정보 이론, 계산 이론을 도입해야 한다 보았다(Sarkar, 1996). 만일 사카르의 주장이 옳다면 우리는 지금보다는 소박한 목적을 가지고 유전자 정보 개념을 논해야 한다. 그의 지적은 합당해 보인다. 유전자의 다양한 속성에 대하여 하나의 정보 이론만을 고집 할 이유가 없다. 일찍이 아포텔은 모형에는 다양한 기능들이 혼재하며 과학자들은 모형을 제각각의 목적을 위해 다양한 용도로 사용하기 때문에 우리는 모든 모형을 아우르는 통일된 구조를 정의할 수 없다 언급한 바 있다(Apostel, 1961). 그러나 통일된 유전자 정보이론의 가능 유무를 따지기에는 아직은 시기 상조인듯 하다. 여전히 생물철학자들은 하나의 통일된 정보 이론을 통해 유전자의 정보적 속성을 조망하고자 계속해서 시도하고 있다. 2 장과 3 장에서 이러한 시도들에 대해 자세히 논한다.
두번째 걱정거리는 발생 과정의 복잡성 때문에 유전자 정보 개념이 무용지물이 되리라는 비관적 전망이다. 사카르의 말대로 진핵생물의 발생 중 과정은 너무나도 복잡하기 때문에 유전자 정보 개념은 메타포로서의 가치마저 상실하게 될까?
실제로 지금까지 밝혀낸 인간의 형질 중 단순 유전자만으로 설명될 수 있는 것들은 대부분이 질병과 같은 부정적인 형질에 제한되어 있으며 그것마저도 주변환경과 복합적으로 작용하여 발현하는 질병의 비율이 98%에 달한다(Jablonka et al., 2014). 발생 과정 중에도 효소와 같은 단백질 구성을 위해서 필수적인 전사 과정에 개입하는 조절 RNA 의 종류가 적어도 29 가지 이상 밝혀져 있으며 환경의 영향까지 고려하기 시작하면 그 복잡한 과정 중에 유전자가 맡고 있는 특정 역할을 밝혀내기란 거의 불가능에 가까워 보인다(P. Griffiths &
Stotz, 2013). 그러나 우리는 바로 이러한 이유 때문에 유전자 정보 개념이 가지는 가능성을 적극적으로 모색해야 한다.
유전자의 물리화학적 속성에 대하여 많은 연구가 이루어졌지만 정보 이론적 렌즈를 통해 생명 현상을 조망하는 태도 자체에는 큰 변화가 일지 않았다(Levy,
2011). 이는 부분적으로는 유전자 중심적 사고로부터 기인한 실재론적 태도에 의한 것이기도 하지만 동시에 비실재적 태도를 견지하더라도 유전자 정보 모형이 가지고 있는 이론적 가치를 인정하고 과학 이론의 발전을 위한 도구적 해석을 받아들인다면 충분히 납득할 수 있는 태도이다. 18 세기의 과학자들이 생명체를 자동시계에 19 세기의 기술자들이 생명체를 증기기관에 비유했듯이 20 세기의 생물학자들은 유전자를 컴퓨터 자기 테입에 비유하기 시작했다.4 적어도 DNA 와 아미노산 사이에 정보적 코딩 관계가 존재함을 부정하는 생물학자는 단 한명도 없을 것이다(Godfrey-Smith, 2007). 유전자 정보 모형의 유용성을 인정한다면 다음 단계는 그러한 모형이 과연 어떤 사실을 밝혀낼 수 있을지를 구체적으로 따져 볼 차례이다. 유전자 정보는 어떠한 정보여야 하는가? 생물학적 정보 개념에 어울리는 정보 이론은 어떤 이론인가? 이제 본격적으로 유전자 정보 이론의 내용을 살펴보자.
4 하지만 당시의 문화적 풍류 아래서 주어진 비유라 하여 과학적인 정의가 아니라고 할 수
는 없다. 17세기의 과학자 윌리엄 하비(william harvey)는 심장을 펌프라 비유했지만 심 장은 정말로 펌프였다. 마찬가지로 유전자는 정말로 정보일 수 있다.
2. 유전자는 ‘어떤’ 정보인가?
일상 대화에서 ‘정보’는 매우 흔히 등장하는 단어이다. 우리는 금전적 이득을 가져올 귀중한 정보, 범인이 누군지 알려주는 정보, 세금 계산을 위해 입력해야만 하는 개인 정보, 암호화된 정보 등 다양한 맥락에서 ‘정보’를 언급하며 이러한 용어 사용에 큰 불편함을 느끼지 않는다. 각 맥락에서 이야기 되는 ‘정보’가 어떠한 의미의 ‘정보’인지는 이미 사회 구성원 대부분이 공유하고 있기 때문이다.
하지만 과학 분야에서 ‘정보’를 언급할 때는 깊은 주의가 요구된다. 이론적 정보를 정의하는 다양한 방식들이 존재하며 이들 중 해당 과학 영역에서 필요한 정보가 어떠한 성격의 정보인지, 무엇을 나타내는 정보인지 명확히 정의해야만 한다.
생물학에서 등장하는 정보 개념도 예외는 아니다. 만일 유전자가 정보라면 그러한 정보는 특정한 현상과 대응되는 정보여야 한다는 지적이 이어졌다.
옥스포드 영어 사전에 따르면 "정보"라는 단어는 1386 년 샤우서에 의해 처음으로 소개되었으며 당시에는 “훈련이나 지도를 하는데 필요한 도구”라는 의미로 쓰였다. 의사소통 중 주고 받는 지식을 의미하기 시작한 것은 그로부터 60 여년이 지난 1450 년까지 거슬러 올라가야 한다. 현대 과학에서 이야기 되는 의미의 정보 개념이 등장하기 까지는 이보다 500 년의 더 시간을 기다려야 했다. 1925 년에 피셔는 처음으로 정보의 양을 쟤고자 시도했다. 하틀리는 피셔와는 독립적으로 전보와 같은 정보 전달 시스템의 효율을 양적으로 측정하는 분석법을 개발했다.
그는 당시의 정보 개념은 필요 이상으로 유연하게 사용됨을 지적하고 이를 좀 더 명확한 의미를 갖는 개념으로 정의하고자 시도했다. 1948 년에 새넌은 하틀리와는 독립적으로 정보의 양적인 속성을 정식화 하고자 작업했다.
정보이론에 대한 새넌의 세련된 정식화가 이루어지고 제 2 차 세계대전과 함께 군사적 수요와 함께 폭발적인 성장을 이룬 사이버네틱스 분야가 각광을 받으면서
여러 학문 분야에 대해 새넌의 정보이론을 응용하고자 하는 움직임이 활발해졌다(Ashby, 1956; Hedgecoe, 1999; Kay, 1997). 앞서 살펴 보았듯이 이러한 시류에는 생물학도 포함되어 있었다. 생물학자들이 적극적으로 정보 이론의 용어들을 생물학과 유전학에 접목시키면서 생물철학자들은 이들이 사용하는 정보 용어의 정당화와 그 함의에 대해 주목하기 시작했다. 3 장에서는 새넌의 정보 이론을 비롯하여 역사적으로 생물철학자들이 생물학에서의 정보 개념을 설명하기 위해 응용했던 드레츠키의 인과 정보 이론과 목적의미론적 정보 이론을 살펴본다. 그리고 이러한 정보 이론들로 유전자 정보 개념을 설명했을 때 어떠한 장단점이 있는지를 비판적으로 검토한다.
2.1.1 정량적 정보 이론
전기공학자이자 수학자였던 클라우드 새넌은 통신 기술에서 사용되던 정보 개념을 수학적으로 정량화하는 방법을 개발했다. 그에 따르면 어떤 특정한 상황으로부터 실현 가능한 다수의 상태가 존재한다면 그게 무엇이든 상관 없이 정보의 원천이 될 수 있다. 그리고 어떤 변수가 정보를 운반한다는 것은 곧 그것의 상태가 그 정보의 대상이 되는 어떤 것과 관계를 맺고 있음을 의미 한다(Godfrey- Smith, 2007). 다시 말해 어떤 변수 X 를 앎으로서 모든 가능한 상태에서 몇 가지 가능한 상태로의 수축이 일어난다면 변수 X 는 정보의 원천이 된다. 그리고 변수 X 만을 알고 있을 때보다 또 다른 변수 Y 를 함께 알고 있을 때 더욱 불확정성이 감소한다면 이때 우리는 Y 가 X 에 대한 정보를 운반했다고 말할 수 있다(Carl T.
Bergstrom, 2011; Shannon, 2001).
새넌은 시퀀스, 기능, 전기 신호와 같은 비수학적 대상들의 아이덴티티 상실을 피하면서 효과적으로 정보 더미들을 신호 송신자로부터 신호 수신자로 전달할 수 있는 이론을 만들고자 했다(Carl T. Bergstrom, 2011). 이를 위해서 우선 비수학적 대상들을 수학적으로 나타내야 했다. 새넌은 비트(Bits)를 통하여 정보를 나타냄으로서 정보의 수학적 일반화를 꾀했다. 새넌의 정보 이론에 따르면 전화
신호, 문자, 라디오 파장, 그림, 그리고 그 외 모든 통신 매체들은 비트로 코딩될 수 있다. 새넌 정보 이론의 목표는 정보 개념의 일반화이며 이는 비트 개념을 통해 이루어진다. 따라서 새넌의 의도를 파악하기 위해서는 비트 개념의 이해가 필수적이다. 비트 개념을 이해하기 위해 우선 비트 개념이 등장한 역사적 배경을 살펴본다. 그 후 비트 개념이 어째서 더 효과적인 정보 전송 을 가능케 하는지 예를 들어 소개하겠다. 우선 당시 통신 기술의 발전과 문제점에 대하여 살펴보자.
1940 년대에 들어서며 본격적인 장거리 통신 기술의 시대가 열렸다. 그 중에서도 유럽과 미국 사이의 대서양 횡단 통신은 그 경제적인 파급력과 더불어서 많은 기술자들과 기업들의 핵심 과제 중 하나였다. 하지만 당시의 통신 기술자들에게 이는 쉽지 않은 과제였다. 단거리에서는 문제 없이 작동하던 통신 기술로 대서양을 건너 정보를 보내자 바다 건너편에서 수신한 신호는 도저히 해석할 수 없는 신호였다. 어째서 이러한 문제가 발생했을까? 대륙 간 통신에서는 역시나 너무나 먼 거리가 문제였다. 서로 가까운 지역 간에는 강한 신호가 명료하게 전달되었지만 신호가 미주와 유럽 사이의 머나먼 거리를 이동하면서 거리에 비례하여 점점 신호의 세기가 약해졌고 종국에는 원래 정보가 흐릿해져 도저히 해석할 수 없는 신호가 되어버렸다.
통신 기술 개발자들은 이 심각한 숙제를 풀기 위해서 우선 전달되는 신호를 증폭시키고자 했다. 신호가 전달되는 도중에 증폭기를 위치시켜서 신호를 보존하겠다는 심산이었다. 그러나 이들의 시도는 여지없이 실패했다. 그들이 증폭시킨 것은 정보 신호만이 아니었다. 그들은 정보 신호와 함께 뒤섞여 있는 노이즈까지 증폭시켰고 종국에는 너무 많은 노이즈에 덮혀서 도저히 본래의 형체를 알 수 없게된 신호만이 도달하게 되었다. 초장거리 통신은 위와 같은 문제 때문에 도저히 달성 불가능한 과제로 보였다. 당시 기술로는 미세한 노이즈만을 선택적으로 제거할 수 있는 방법이 없었으며 증폭 없이는 충분히 강한 신호를 건너편 대륙까지 전달할 수도 없었기 때문이다.
새넌은 정보를 비트 형식으로 전환함으로서 이 문제를 해결했다. 모든 정보적 신호는 0 과 1 로 이루어진 비트로 전환될 수 있다. 이러한 디지털 방식의 도입을 통해 새넌은 노이즈와 신호를 구분했다. 디지털 방식은 오로지 0 과 1 만으로 전달되기 때문에 신호를 재구성하는 작업이 아날로그 방식에 비하여 상대적으로 수월했다. 예를 들어 본래 0 값을 가지는 신호가 전달 도중 노이즈 등의 이유로 인해 0.1 과 같은 값으로 변질되었을 경우 우리는 0.3 이하 값은 0 으로 여긴다와 같은 필터를 통해 손쉽게 본래 값을 복원할 수 있다. 새넌은 이와 같은 방식을 통해 노이즈와 신호를 효과적으로 구분할 수 있었다. 오랜 난제가 풀렸다.
통신업자들은 디지털화 한 신호를 중간 계류지에서 본래의 아날로그 값으로 변환 시켜 노이즈의 영향을 제거할 수 있게 되었고 이를 다음 계류지까지 보낼 디지털 값으로 다시 변환시킴으로서 원래 신호를 매우 높은 정확도로 보존할 수 있게 되었다. 대륙간 통신은 이러한 작업을 신호가 목적지에 도착할 때까지 효율적으로 반복하여 이루어진다(Day, 2008).
새넌은 기술적 문제를 해결하기 위해 도입된 비트 형식을 통해 정보량을 수학적으로 기술 했다. 정보 개념의 일반화가 가능하다면 이를 수학적으로 기술 할 수 있어야 한다. 때문에 새넌의 정보는 수학적으로 표현되어야 하며 이 때 비트 형식이 활용된다. 새넌은 엔트로피 개념을 빌려와 정보의 수학적 정식화를 시도했다. 그의 발상을 쉽게 이해하기 위해 드레츠키가 든 예시를 살펴보자.
어떤 회사에서 8 명의 사원 중 1 명만이 승진하는 상황을 상상해보자. 임원진들은 내부 회의를 거쳐 ‘마리’도 ‘제임스’도 아닌 ‘헤르만’이라는 사원을 승진시키기로 결정했다. 임원진은 쪽지에 ‘헤르만’이라는 이름을 적어서 책상 위에 두었다. 만일 이러한 상황을 알고 있는 어떤 사원이 이 쪽지를 발견한다면 승진 하는 이를 뽑는 경우의 수는 8 명 중 1 명에서 오직 ‘헤르만’으로 좁혀진다. 즉 쪽지에 적혀있는 이름은 경우의 수를 8 에서 1 로 줄이는 역할을 한다. 경우의 수는 곧 불확실성의 크기이기도 하다. 따라서 쪽지는 불확실성을 줄이며 이는 특정한 상황에서 실현
가능한 다수의 상태로부터 어떤 하나의 상태로 가능성을 좁혔음을 의미한다. 바로 이것이 새넌이 이야기한 정보의 역할이며 이때 쪽지는 정보를 지닌다.
그렇다면 쪽지가 지니는 정보량을 어떤 식으로 기술해야 할까? 쉽게 생각할 수 있는 방법은 쪽지가 줄인 불확실성의 양을 쟤는 방식이다. 위 예시에서 쪽지는 원래의 경우의 수 8 을 1 로 줄이는 역할을 했으므로 쪽지가 가지는 정보량은 전후 경우의 수의 차이인 7 이 된다. 이러한 방식은 정보량을 쟤기 위해 상상 가능한 수 많은 방법 중 하나이다. 하지만 가장 효율적인 방법은 아니다. 만일 만명이 넘는 사람들 중에서 한 명을 뽑는데 필요한 정보량을 위와 같은 방식으로 표현하면 9999 가 될 것이고 천만개의 화소 중에 하나의 화소만 표시하는 경우에는 9999999 만큼의 정보량이 필요하다. 이러한 방식은 효율적이지 않다.
여기서 비트 표시 형식의 장점이 드러난다. 비트 방식은 정보량을 쟤는 수 많은 방식들 중에서 가장 효율적인 방법이다. 이번에는 동전 던지기의 결과에 따라서 8 명 중 1 명의 승진내정자를 뽑는다 상상해보자. 효율성을 높이기 위해 동전을 던지는 횟수를 최소화 하고 싶다. 이 때 우리는 몇 번의 동전 던지기로 운이 좋은 한 명을 선정할 수 있을까? 답은 세 번이다. 동전을 던지기에 앞서 8 명의 후보자들을 두 집단으로 나누고서 각각의 집단을 앞면, 뒷면 집단으로 표시해두자.
이제 동전을 한 번 던지고 그 결과에 따라서 둘 중 한 집단은 탈락할 것이다.
운좋게 살아 남은 네 명을 다시 두 집단으로 나눈 후 재차 동전을 던지고 여기서 다시 살아 남은 두 명을 대상으로 마지막 동전을 던지면 최종적으로 한 명의 당첨자가 선정된다. 총 세 번 의 동전 던지기를 통해 여덞 가지 경우의 수를 하나의 경우의 수로 좁힐 수 있다.
이번에는 동전 대신에 각각의 후보자들에게 (000), (001), (010), (011), (100), (110), (101), (111)의 코드를 배부한다. 이 경우 우리는 코드를 구성하는 각 자리수의 숫자가 0 또는 1 인지 파악해서 승진내정자가 누구인지 알아낼 수 있다.
동전던지기와 코드표 방식 모두 이진법 코드 방식을 채택했으며 이때 내정자를 알아내기 위해 필요한 정보량은 세 가지 경우의 이진법 값, 즉 3 비트이다.
그렇다면 어째서 이진법(바이너리)을 활용하는 비트 방식이 정보를 전달하는데 가장 효율적일까? 전기 회로의 on/off 를 각각 1 과 0 에 해당시켜 표현하는 전기통신기술을 사용하지 않는 경우라면 같은 식으로 이진법이 아닌 삼진법, 사진법 등 다진법 방식을 통해 정보량을 더 효과적으로 나타낼 수는 없을까?
당연히 이진법이 아니라 그 외 다진법을 통해서 정보량을 표시할 수 있다. 하지만 이 경우에는 신호에 낭비가 발생한다. 예를 들어 위와 같은 코드 방식을 채택하는 경우 이진법이 아닌 삼진법으로 코드를 나타내게 되면 (00), (01), (02), (10), (11), (12), (21), (22), (23)의 아홉 가지 코드를 8 명의 후보자들에게 배정할 수 있다.
하지만 이 경우 (00)~(22)까지를 후보자들에게 배정한다면 (23)이라는 코드명은 불필요한 ‘낭비’일 뿐이다. 마찬가지로 사진법으로 나타내게 되면 8 명의 후보자를 나타내기 위해서 최소 16 가지 코드를 사용해야만 하며 이 경우 ‘낭비’되는 코드는 여덞개에 달한다. 몰론 이진법 코드법 사용하더라도 코드의 낭비가 나타날 수 있다. 당장 9 명 중 1 명을 뽑는 경우를 생각한다면 이진법의 경우에도 일곱개의 코드 낭비가 발생한다. 하지만 훨씬 더 큰 경우의 수를 다뤄야 하는 실제 정보 통신에서는 상대적으로 비트 당 경우의 수가 늘어나는 폭이 가장 좁은 이진법이 가장 코드의 낭비가 적으며 따라서 가장 효율적이다.
새넌은 어떤 정보가 가진 정보량을 로그 함수를 통해 나타냈다.5 X 만을 알고 있을 때 모든 경우의 수를 하나의 경우의 수로 수렴시키는데 필요한 정보량을
5로그 함수는 다음과 같은 이유 때문에 정보의 특징들을 표현하는데 편리하다. 첫째, 더 실 용적이다. 시간, 주파수, 관계수 등 공학자들이 관심을 가지는 척도들은 확률의 로그 함수 에 선형적으로 비례하는 성향을 띤다. 예를 들어 동전을 두 개 던질 때 나올 수 있는 경우 의 수는 한 개의 동전을 던질 때 보다 두 배 더 크다. 여기에 또 다른 동전(관계수)을 추가 할 때마다 경우의 수는 두 배씩 커지게 된다. 이를 수식으로 나타내면 관계수가 추가될 때 마다 제곱수가 커지게 된다. 이때 로그 함수를 사용하게 되면 우리는 제곱수의 추가를 로 그 함수의 계수 추가로 나타낼 수 있으며 로그 함수는 대수의 곱을 그 대수의 로그 함수의 합으로 바꾸기 때문에 정보를 가산적으로 나타낼 수 있다. 둘째, 이러한 표현이 정보에 대 한 우리의 직관에 더 잘 부합한다. 우리는 정보의 추가를 곱이 아닌 덧셈으로 인식하는데 익숙하다. 셋째, 로그 함수는 큰 값을 가지는 수를 나타내는데 더 용이하며 정보를 나타내
𝐻 𝑋 = log!𝑋로 표시하자. 그리고 X 와 Y 를 동시에 알고 있을 때 모든 경우의
수를 하나의 경우의 수로 수렴시키는데 필요한 정보량을 𝐻 𝑋 𝑌 라고 표시한다.
따라서 Y 신호가 지니는 정보량은 𝐼 𝑋;𝑌 =𝐻 𝑋 −𝐻 𝑋 𝑌 가 된다.
이제 새넌의 정보 표기 방식을 더 일반적인 경우로 확장시켜보자. 지금까지는 각각의 독립 사건들이 일어날 확률이 전부 동등한 경우를 생각했다. 8 명의 후보자들은 무작위로 선정되며 동전의 앞면과 뒷면이 나올 확률은 각각 ½로 같다.
하지만 8 명 중 헤르만이 임용진으로부터 평소에 더 높은 평가를 받고 있었다면 그가 뽑힐 확률이 마리나 쌤이 뽑힐 확률보다는 더 높다고 할 수 있다. 또 동전을 조작하여 앞면이 뒷면보다 더 많이 나오게 할 수도 있다. 어떤 정보가 주어질 때 그 정보에 따라 발발할 수 있는 사건들의 확률이 다르다면 그 정보의 정보량은 각 사건들이 가지는 정보량의 평균값이다. 이를 식으로 나타내면 다음과 같다. 우선 𝐻 𝑋 = log!𝑋이고 X 는 경우의 수와 같으므로 𝐻 𝑋 = −log!1/𝑋와 같다. 이 때
1/X 는 그 사건이 일어날 확률을 의미한다. 따라서 평균 정보량은 𝐻 𝑋 =
−!"!(log!!"!)
!" 이다.
또 하나 새넌 정보 개념에서 특기할 사항은 정보량의 크기가 맥락에 달려 있다는 점이다. 정보의 가치에는 확률이 크게 작용한다. 흔치 않은 사건이 일어날 때 그러한 사건을 나타내는 신호가 가진 정보량은 흔한 사건을 나타내는 신호의 정보량보다 크다. 내일 동쪽에서 해가 뜨리라는 정보는 언제나 높은 확률로 그러한 현상이 일어나므로 큰 가치가 없지만, 내일 사막에서 비가 오리라는 정보는 훨씬 더 많은 가치를 지닌다. 예를 들어 ‘이형석’이라는 흔한 한국 이름을 떠올려보자. 한국인이 많지 않은 외국에서는 많은 경우 ‘이’라는 성만으로 나를 특정할 수 있다. 외국에서는 나 이외에는 ‘이’로 지칭되는 사람이 별로 없기 때문이다. 하지만 한국에서는 다르다. 만일 신도림에서 ‘이씨’라고 외친다면 나 말고도 족히 열명이 넘는 사람이 뒤돌아 볼 것이다. 따라서 ‘이’는 외국에서는 는데 수학적 편의성을 제공한다(Gray, 1990).
정보로서 가치를 지니지만 한국에서는 그다지 큰 가치를 가지지 않는다고 할 수 있다. 이와 같이 정보는 기대되는 정도와 높은 상관 관계를 가진다. 더 엄밀히 말해 정보의 맥락은 정보로서의 신호가 일어날 확률로서 정의된다. 예를 들어 외국에서
‘이씨’ 라고 지칭했을 때 사람이 뒤돌아 볼 확률은 한국에서보다 훨씬 낮다. 그렇기 때문에 외국에서 ‘이씨’가 지니는 정보량은 한국에서보다 높다. 정보량은 그 정보가 이루어질 확률에 반비례한다.
2.1.2 정량적 정보 이론과 유전자 정보 개념
몇몇 철학자들은 생물학에서 말하는 정보 용어의 개념을 명확히 하기 위해 새넌의 정보 이론을 생물학에 접목시키고자 시도했다(Carl T. Bergstrom, 2011).
그들이 새넌의 이론에 착목한 이유는 그것이 정보 이론에서 가장 표준적인 정보 이론이었으며 가장 ‘약한’ 의미의 정보를 다루고 있었기 때문이다(Kumar, 2014).
새넌의 정보 개념에 따르면 특정한 시공간에서 여러 개의 서로 다른 상태를 가질 수 있는 모든 대상이 그 상태들의 정보원과 인과적인 상관관계 아래에 있을 때, 그러한 모든 물질, 대상, 상태는 그것이 어떠한 것이라도 정보의 원천이 될 수 있다(Godfrey-Smith, 2007).
하지만 새넌의 정량적 정보 이론은 생물학의 정보 개념을 온전히 담아내지 못했다. 역설적이게도 철학자들이 새넌의 이론에 주목한 바로 그 이유 때문에 새넌의 이론은 생물학을 다루기에는 불완전한 이론이었다. 새넌은 불확실성의 축소 혹은 가능성의 제거를 정보와 동일시하여 정보의 양을 계산해냈다.
불확정성을 감소시키는 모든 대상은 그것이 무엇이더라도 정보의 담지자가 될 수 있다는 그의 이론은 높은 범용성을 지닌다. 그렇기 때문에 새넌의 정보 개념은 생물학에도 별 어려움 없이 이식될 수 있었다. 하지만 새넌의 이론은 정보가 얼마만큼 전해졌는지 그 정량적 성질에 대해서만 말해줄 뿐 그 정보의 내용에 대해서는 함구할 수밖에 없다(Sarkar, 2003). 따라서 새넌의 이론을 통한 정보의
정량화는 평범한 연관성과 인과 관계를 정량적인 체계를 통해 재기술한 것에 지나지 않는다(P. E. Griffiths, 2001).
어째서 정보의 정량적 성질만을 기술해서는 생물학의 정보가 담고 있는 모든 측면을 다 나타낼 수 없는가? 이는 유전자 정보가 정보의 양 뿐만이 아니라 그 정보가 어떤 대상을 의미 또는 지향하기 때문이다. 새넌의 정보는 실현 가능한 여러 가지 가능성 중에서 몇몇을 배제하는 역할을 한다. 그것은 불확실성을 감소시키며 가능성을 제한한다. 다시 말해 그것은 특정 메시지의 집합들이 주어진 정보 제한자, 수용자, 정보 매체, 부호화, 탈 부호화의 체계 안에서 얼마나 효과적이고 정확하게 전달될 것인지에 대한 확률적 계산을 가능케 한다. 하지만 이러한 확률적, 일반적인 정보의 정량적 계량만으로는 유전자 정보가 지니고 있는 기능과 의미를 포착할 수 없다(Jablonka, 2002). 예를 들어 새넌의 이론에 따르면 TGCCAGGCTAAG 라는 핵산 서열은 TGGC 라는 더 짧은 핵산 서열보다 더 많은 정보를 제공한다. 왜냐하면 전자가 후자보다 더 많은 불확실성을 제거하기 때문이다(Kumar, 2014). 마찬가지로 이유로 TGCCAG 라는 핵산 서열은 ACGGCA 라는 핵산 서열과 같은 양의 정보를 제공한다. 길이가 같은 핵산 서열은 정확히 같은 정도로 불확실성을 제거하며 따라서 같은 양의 정보를 가지기 때문이다. 하지만 두 가지 핵산 서열을 받아들인 각각의 세포에서는 서로 다른 현상이 일어난다. 전자는 Cys-Gln 아미노산 서열을 생산하지만 후자는 Thr-Ala 아미노산 서열을 생산한다. 새넌의 정보 이론만으로는 구분되지 않는 두 신호가 생물학에서는 분명한 차이를 만들어 낸다.
따라서 의미에 대하여 말할 수 없는 새넌의 정보 이론으로는 생물학의 현상을 온전히 포착해 낼 수 없다. 유전자 정보의 의미에 대하여 침묵하는 정보 개념 이론은 생물학적 현상들을 기술하는데 있어서 불충분하다. 생물학을 위한 의미론적 정보는 에너지 준위 차이나 화학적 구조와 같은 자연적 힘에 의해 결정되지 않는 정보 송수신 관계여야 한다. 예를 들어 같은 물성으로 만들어진 미트볼과 스테이크를 구분하는 기준은 그들을 이루고 있는 물리적 화학적 특징이