어울림 - 자연과 어울어지기, 그 첫걸음

About Me

자연을 공부하는 人입니다. 생물의 죽살이 뿐 아니라 그들과 함께 해온 문화와 이야기도 함께 알아가고 싶습니다.

I am studying nature. I want to know not only the life history of living things, but also the culture and stories they and humans have shared together.

Search

License


more detail
블로그의 모든 글과 이미지는 기본적으로 상기의 Creative Commons License를 따르며 기타 인용한 내용이나 스크랩한 글들은 모두 해당 저자에게 저작권이 있음을 알립니다.

Profile

An Introduction to BSML


An Introduction to BSML
— Over the past two decades, the life sciences industry has taken a dramatic leap into an online, collaborative world. Tasks and activities that are commonplace today were either extremely difficult or outright impossible just 20 years ago. One key reason for this shift was the abundance of genomic sequence data, the sequence of base pairs that make up an organism's DNA.

생물정보학에 대한 생각2


아래 글을 읽으면서 공감하는 부분이 여러 곳 있었다. 요즈음 대학시절에 교양과목보다는 컴퓨터관련 수업을 더 들었으면 좋았을 걸 하는 생각이 자주 드는데 한편으로는 그때 프로그래밍을 배웠다면 아마도 야외에서의 경험이나 느낌들이 반감되었을지도 모르겠다는 생각도 들기에 지금의 프로그래밍 공부가 늦은 감이 있지만 한편으로는 다행이라는 생각도 든다. 이유인 즉, 프로그래밍이라는 것이 수학적기반과 프로그래밍 언어의 이해를 필요로 하는 일이지만 내게 있어 프로그래밍은 그동안 야외에서 경험하고 배우고 익힌 것들을 보다 포괄적으로 바라보고 자료들을 보다 편리하게 활용하기 위한 것이어서 자연을 바라보는 시각이나 경험이 프로그래밍에 무엇보다도 중요한 전제조건이었기 때문이다. 프로그램을 설계하는 과정에서 이전의 프로그래밍에 대한 무지가 안타깝기도 하지만 야외에서의 많은 경험이 실제 프로그래밍 과정의 여러 면에서 도움이 될 때가 많았다. 채집을 다닐때나 보고서를 작성할 때, 연별 통계를 내거나 자료를 통합하고 정리할 때 불편했던 점, 바랬던 점들을 보다 구체화하여 프로그램을 만들어내고나면 당시 조금이라도 프로그래밍을 할 수 있었다면 훨씬 편리하고 빠르게 일을 마쳤을텐데 하는 아쉬움이 절로 나오지만 그때 고생한 덕에 문제점이 무엇이었는지에 대한 고민은 어느정도 해 둔 셈이어서 프로그램 설계시 도움이 많이 된다.

이전에 다른 저자의 글에서 읽은 기억이 나는데 프린스턴대학에서 1학년 1학기 과정에 프로그래밍과정을 넣은 것은 내게도 부러운 일이었다. 어떤 프로그래밍 언어를 선택하느냐가 문제일 수 있겠지만 적어도 프로그래밍적인 사고를 할 수 있는 계기가 되기만 해도 충분하다고 생각한다. 내 경우 프로그래밍은 비주얼베이직을 한 학기 배우고 무모하게 배운 자바 한 학기(거의 알아듣지 못함, 객체지향이 뭔지만 알아들었음. ^^;;)가 정규과정으로 배운 전부다. 웹프로그래밍은 2000년 군에서 정보화교육으로 받은 1주일짜리 html교육을 시작으로 독학으로 홈페이지를 운영하다가 2007년에 php, mysql을 본격적으로 접했다. 데이터베이스를 접하면서 전공이 도움이 되었다. 분류체계를 다루고 유형화하던 경험이 데이터베이스를 설계할 때 많은 도움을 주었다. 프로그래밍 언어는 외국어처럼 하나의 언어를 습득하는 과정으로 자신이 생각하는 바를 컴퓨터가 알아들을 수 있는 언어로 설명해 처리하도록 하는 것이다. 물론 코딩하는데 여러 기술도 필요하고 경험도 필요하겠지만 가장 중요한 것은 역시 프로젝트를 진행하는 개발자의 문제의식과 경험이 아닌가 싶다. 몇년간 공부를 했지만 아직도 스스로를 초짜라고 부른다. 정규과정없이 독학으로 한 거라 기초가 부족하고 책 몇권과 웹에 공개된 여러 동영상 강좌로 익힌 실력이라 아직 부족한 게 많다. 한참 공부하다가 문득 통계청의 TV광고를 보면서 '당신의 능력에 통계를 보태세요'라는 멘트가 참 크게 다가온 적이 있는데 솔직히 문제의식이 먼저냐 기술이 먼저냐를 두고 어느것이 먼저 갖추어져야 할 항목이라고 말하기는 어려울 것 같다. 그리고 모든 사람에게 프로그래밍 기술이 필요한 건 아니라고 생각한다. 내 경우 단지 데이터베이스가 하는 일에 필요했고 여러사람과 실시간으로 구축할 수 있는 방식이 오프라인이 아닌 온라인방식이었기 때문에 웹프로그래밍을 선택했을 뿐이다. 구입해두고 몇년을 방안 책꽂이에 꽂아두었던 PHP책을 집어든 것은 아마도 그때가 공부할 시기라고 판단했기 때문이었을 것이다. 그 전엔 몇번을 보려고 해도 몇장을 넘기지 못하고 덮곤 했는데 어느날부터인가 시작해 몇년을 꾸준히 공부해왔다.

이전과 비교하면 지금은 인터넷상에서 찾을 수 있는 정보의 양이 엄청나게 늘어났다. 내 경우만 해도 논문 주제였던 '곡식좀나방과', 'tineidae'을 비롯한 많은 검색어로 웹페이지를 검색해도 유용한 정보를 찾기가 정말 어려웠는데 지금은 찾을 수 있는 자료의 양이 비약적으로 늘어났다. 지금은 정보를 창출하는 것 못지 않게 방대한 자료를 어떻게 하면 효율적으로 수집하고 활용하느냐도 중요한 기술이라고 생각한다. 채집을 다니면서 자주 들었던 생각중 하나가 개인이 야외에 나와서 경험하는 것들중 적어도 한두가지는 쓸모있는 정보가 있기 마련이다. 하지만 구슬도 꿰어야 보배라고 개별지식만으로는 소용이 되는바가 적을 때가 많다. 그래서 보통은 카페나 동호회에서 활동하면서 사진이나 경험한 내용을 공유하지만 이마저도 자료가 쌓이면 검색의 어려움으로 활용하기가 어렵다. 당시엔 프로그래밍을 할 수 없고 단순히 html과 php를 약간 수정하는 정도의 수준이어서 시도해보지 못했지만 기본적인 아이디어는 당시에 생각한 것 같다. 개인이 경험하는 작은 정보를 모을 수 있는 데이터베이스를 만들어보자는 것이다. 보통 종명을 알아야 종정보데이터베이스를 구축하지 않느냐 하지만 꼭 그렇지 않아도 유용한 정보를 수집할 수 있다. 이는 데이터베이스의 구조적인 문제가 아니라 인터페이스의 문제라고 생각한다. 쉬운 인터페이스와 사용자의 수준에 맞도록 페이지를 구분하여 정보를 수집하면 개개인의 작은 관찰기록이나 경험들을 모아 가공하여 유용한 형태로 제공함으로써 많은 사람들이 활용할 수 있을 것이다.

생물정보학이라는 표현을 쓰고는 있지만 생물학이라는 큰 틀 중에서도 유독 생물정보학이라는 단어로 검색해보면 대부분이 이슈가 되는 유전학, 분자생물학분야에만 한정된 용어로만 해석되고 있다. 생물학과 전산학, 화학, 수학적 조합을 통상 생물정보학이라고 하나 국내 교육과정은 한정된 분야에 치중하고 있는 것이 사실이다. 아래 저자가 사례를 든 경우도 대부분 한정된 범위라고 생각된다. 또한 생물정보학에 활용되는 프로그래밍 언어로 Perl를 자주 예로 드는데 꼭 그렇지만도 않다. Perl이 여러가지 장점이 있기는 하겠지만 언어는 자신에게 맞는 것을 선택하는 것이 맞지 않을까 싶다. 내 경우 곤충분류학을 전공했기 때문에 프로그래밍을 공부하면서 국내외의 많은 데이터베이스를 접했다. 한가지 예만 들어보면 국내의 자연사 박물관 중에서 보유한 표본목록을 제대로 데이터베이스로 제공하고 있는 곳은 거의 없다. 제공되는 형태 역시 거의 피차일반이다. 만약 연구자가 박물관의 수장고에 표본을 검색하러 방문하기를 원하는 경우 대략적인 정보를 제공해주는 것이 이런 종목록일 것이다. 하지만 현재는 대부분 직접 방문해서 직접 찾아야만 표본정보를 확인할 수 있는 경우가 대부분이다. 2005년 이화여자대학교 자연사박물관에서 자원봉사를 하면서 수장고의 종목록이 있는지 문의했으나 조류표본은 작성하다가 중단된지 오래되었고 곤충표본은 손도 못대고 있었다. 4개월간 주당 2-3번씩 방문하여 양서파충류, 어류, 포유류, 조류표본의 종목록을 엑셀로 정리해서 보내주었지만 아직도 웹상에서 파일형태는 물론이고 검색기능을 제공해주지도 않는다. 인력의 부족 때문일수도 있겠지만 인식의 부족 때문이라는 생각이 든다.

자료의 양은 점점 많아진다. 이제는 자료의 수집뿐 아니라 그 자료를 최대한 활용할 수 있는 최적의 데이터베이스의 개발이 중요하다고 생각한다. 국내의 생물관련 데이터베이스는 대부분 나열식이며 약간의 검색기능과 정렬기능이 대부분이다. 또한 이미지 중심적인 데이터베이스인 경우가 대부분이다. 국외에서는 텍스트기반의 데이터베이스도 많이 제공되고 있다. 위에서 예를 들었지만 웹상에서 보유한 표본목록 전체를 다운받거나 열람할 수 있도록 제공하고 있는 곳이 많다. 텍스트기반의 데이터베이스는 일반인이 이용하기에는 불편할 것이다. 하지만 전공자들에게는 사진이 굳이 없어도 텍스트만으로 된 데이터베이스이기에 빠른 속도로 자료를 검색해 원하는 결과를 열람할 수 있다. 같은 데이터베이스로 인터페이스만 달리해 제공하는 형태라면 굳이 이미지기반일 필요는 없다고 생각한다.

단순히 자료를 열람할 수만 있으면 되는가? 실시간으로 검색한 결과를 엑셀이나 텍스트파일의 형태로 다운로드 받아 실제로 활용할 수 있는 곳도 있다. 데이터베이스를 구축하는 것은 해당기관이 보유한 자료를 단순히 외부에 이만큼의 자료를 가지고 있다고 공개하는 것이 아니라 기관내에서는 보유한 자료나 표본을 효율적으로 관리하는 툴로, 이용자는 정보를 편리하게 이용할 수 도구로 사용할 수 있어야 한다. 쉽게 말하면 장식용이나 대외 선전용이 아니라 편리하라고 만드는 것이다. 정보를 창출하는데 있어서도 편리해야 하고 정보를 이용하는데 있어서도 가능한한 편리함을 추구해야 한다. 한마디로 인터페이스에 관한 문제이다. 내 생각에는 이런 인터페이스에 대한 고민이 국내 생물관련 데이터베이스에는 많이 부족하다고 생각한다. 단순히 생물종의 설명에만 치중한 데이터베이스방식은 앞으로 변할 것이다. 기관내에서 제공하는 형태적이거나 단순한 생활사 설명에 그치는 단조로운 방식에서 벗어나 앞으로는 분류군간의 강화된 연동방식, 생태적, 환경적 측면까지 고려된 생물데이터베이스가 출현하게 될 것이다.

생물주권문제가 국제적인 문제로 대두되면서 국립생물자원관을 기점으로 한국생물지사업이 진행되고 성과물이 나오기 시작하는데 1차적인 목표는 아마도 우리나라에 서식하는 생물자원의 정확한 종리스트의 확보라고 생각된다. 다른 분류군도 마찬가지이겠지만 국내의 곤충명집은 1994년에 출간된 것으로 이후 한번도 업그레이드 되지 못하고 연구자들간의 임시적인 자료교환으로 목록이 만들어져 왔다. 해당 연구자들에게야 별 문제가 없었을지 모르겠지만 정확한 종목록없이 아마추어 연구자들이나 취미로 하는 사람들에게는 많은 경우 잘못된 종정보를 이용하게 하는 현상이 반복되어 왔다. 최근의 국가표준식물목록사업이 가장 이상적인 형태라고 보여지는데 그 자료도 완전히 정확한 자료는 아니라고 하지만 꾸준히 업데이트되고 오류가 수정되는 형태라 신뢰할 수 있다. 앞으로의 한반도생물지사업의 방향도 생물지전체까지는 아니더라도 최소한 종목록은 공개되어 실시간으로 오류가 수정되고 꾸준히 업데이트되는 방식이었으면 싶다. 종목록은 생물을 기반으로 정보망을 구축할 때 가장 기반이 되는 기반정보이기 때문에 필히 지속적인 지원과 관리가 필요한 부분이라고 생각한다. 또한 종목록은 출판과 별개로 파일형태로 제공되는 것이 좋지 않을까 싶다. 연구결과물이기 때문에 제공이 안되거나 비매품으로 배포하거나 하는 것은 바람직하지는 않은 것 같다. 한반도 생물지사업이 국가생물주권을 위한 전제조건이기도 하지만 정확한 생물명의 보급이라는 측면도 무시할 수 없는 부분이지 않을까. 파일형태로 제공되면 여러가지 이점이 있다. 일단 프로그래밍시 기본자료로 활용도가 높다. 또한 보편적으로 활용할 수 있어 웹상에서 정확한 종명의 사용확률이 높아진다. 생물종사업에 대한 인지도를 높일 수 있고 국내 종현황에 대한 일반인의 인식도 높아질 수 있다.

생물정보학이 현재의 범위에 머문다면 또 하나의 학문분야로서만 인식될 것이다. 학문이 전문성을 전제로 하지만 범용적인 지식의 창출과 일반화를 의무로 하는게 맞다면 생물정보학으로 인한 결과물이 전문가뿐 아니라 일반 사용자에게도 편하게 다가갈 수 있도록 포괄적인 범위로 바라봐야 하며 인터페이스에 대한 고민도 충분히 고려되어야 한다는 생각이다.

[펌] 생물정보학에 대한 글


글쓴이: 원세연 (http://www.bioinformatics.pe.kr)

생물정보연구소

2005. 6. 30 (최종 수정: 2006. 9. 6)


이 글을 생물 분야 학부생이 지금 읽고 있다고 가정을 하고 적습니다. 학문은 중단없이 발전을 하는 것이지만, 생물학은 현재 큰 변화를 겪고 있습니다. 이 변화가 어떤 것이며 여러분과 어떤 상관이 있는가를 여기에 조금 풀어서 적어봅니다.



생물학의 역사는 상당히 길고, 이 역사에 대해 "LANDMARKS IN THE HISTORY OF GENETICS"라는 제목의 홈 페이지에서 잘 정리를 해놓은 것을 찾아볼 수 있습니다. 오늘날 생물학의 주된 부분, 따라서 여러분이 현재 학교에서 배우는 주된 부분은 지난 50여년간 이른 바 분자생물학이라 불리는 분야, 그보다 수십 년전부터 활발했던 생화학이라 불리는 분야, 그리고 역시 긴 역사를 가진 유전학이라 불리는 분야들이 만들어낸 것입니다.



생화학은 생명체에 담긴 화합물들을 분리하여 살펴봄으로써 생명 현상을 이해해 보고자 하는 방식의 것입니다. 유전학은, 결국 이러한 생명 현상은 유전물질에 의해서 지배가 되므로, 교배 등을 통한 외형적으로 드러나는 유전적인 현상을 추적함으로써 살펴보는 방식의 것입니다. 분자생물학은 생화학과 유전학의 연결이라 할 수 있는데, 유전물질, 즉 DNA를 직접 분리, 조작, 추적함으로써 살펴보는 방식의 것입니다.



여기까지는 생물 분야 학부 고학년이라면 대개 이해하고 있는 내용일 것입니다. (물론 위에 적은 것이 생물학의 전부는 아니며, 생물학은 매우 폭이 넓은 분야입니다. 그렇지만, 위에 적은 것이 오늘날 생물학의 여러 분야에 두루 걸쳐 중심적인 위치를 차지하고 있습니다.)



우선, 오늘날의 변화로 인해 위에 적은 것들이 사라지거나 중요하지 않게 되거나 하는 것은 아니라는 점이 있습니다. 따라서, 여러분이 학교에서 현재 배우고 있는 과목들은 매우 중요하고 앞으로도 계속 유효한 것들이니 결코 등한시 해서는 안 됩니다. 그렇지만, 요즘은 그 이상의 어떤 것들이 더 있는 것인가를 이해하는 것이 중요한데, 이에 대해서 풀어서 적어봅니다.



이러한 변화의 가장 중요한 요인으로 20세기 말에 생명체를 들여다보는 도구의 발전이 크게 있었는데, 이는 주로 전자공학, 그리고 화학의 발전에 힘입은 것입니다. human genome project가 무엇인지는 아마도 이 글을 읽고 있는 사람들은 모두 알고 있을 것입니다. 요즘은 냉장고 크기보다 작은 기계 한 대에서 하루에 백만 개가 넘는 염기의 서열을 읽어낼 수 있으며, 아마도 여러분이 속한 학과에서도 이런 기계들을 쉽게 구경할 수가 있을 것입니다.



그리고 DNA chip 혹은 DNA microarray라는 것도 들어봤을 것입니다. 이것은 손톱만한 chip 하나로 한꺼번에 수만 개의 유전자들의 발현량을 측정해줍니다. 요즘은 그리 비싸지도 않으니 연구비만 어느 정도 있다면 한꺼번에 수십 개 혹은 수백 개의 이러한 chip을 사용해서 실로 엄청난 양의 데이터를 자신이 들여다보고자 하는 시료들로부터 간편하게 얻어낼 수 있습니다.



이러한 장치들은 이 외에도 다양한 것들이 더 있고, 또한 앞으로도 계속 새로운 것들이 만들어질 것입니다. 이러한 장치들을 사용해서 생물체로부터 얻어지는 데이터는 손으로 직접 종이에 기록을 하기에는 너무 많은 양이며, 이로부터 무언가 유용한 지식을 얻어내기 위한 분석을 위해서는 컴퓨터가 필요할 것이라는 점은 쉽게 이해가 될 것입니다.



이러한 도구의 변화가 생물 분야의 연구 방식에 있어서 근본적인 변화를 일으키고 있고, 이에 따라 연구를 해내기 위해 필요한 기초 지식도 크게 달라지고 있다는 점을 이해하는 것이 중요합니다. 이제 이를 풀어서 적어보고자 하는데, 아직 기존의 분자생물학 등의 연구 방식에 대한 체험도 부족한 상태인 학부생들에게 이 부분을 제대로 이해가 되도록 설명을 하는 것은 그리 쉬운 일은 아니지만, 한번 시도를 해보겠습니다.



그리고, 이러한 도구의 변화는 패러다임의 변화도 함께 수반을 하고 있는데, 이러한 패러다임의 변화가 왜 필요하게 되었는지에 대해서 먼저 적어봅니다. 우선, 환원주의라는 용어가 있습니다. 이것은 어떤 현상의 원인은 그 현상이 일어난 시스템을 구성하는 요소들로 환원시킬 수가 있다고 보는 방식입니다. 예를 들어 어떤 종류의 암이 있으면, 그 암은 어떤 유전자가 잘못 되어서 일어난다는 식을 말합니다. 이것이 바로 지난 50여년간의 분자생물학의 근간을 이루는 사고방식이며, 이 방식이 매우 성공적이라 지금까지의 큰 발전들을 이루어낸 것입니다. 이것은 복잡한 시스템을 들여다보는 효율적인 방식입니다. 그런데 도대체 무엇이 부족해서, 요즘 생물 분야의 새로운 움직임을 대표하는 용어들인 genomics니 bioinformatics니 systems biology니 하는 것들, 그리고 이런 글까지 생겨나게 한 다양한 새로운 움직임들이 현재 전세계적으로 활발하게 일어나고 있는 것일까요?



한 가지 걱정이 되는 상황은, 이런 것들은 "우리 생물학과는 상관이 없는 딴 것이다"라고 생각을 하는 경우입니다. 물론 국내에서의 지금 당장의 "우리 생물학"은 그럴지 모르겠지만, 이 글을 읽고 있는 학부생들이 활동을 해야 하는 시절의 생물학은, 마치 요즘은 분자생물학이 "보통의 생물학"인 것처럼, genomics, bioinformatics, systems biology와 같은 용어 속에 담긴 것들이 다 포함된 것들이 "보통의 생물학"이 되어 있는 시절을 살게 될 것은 너무나 명백한 것입니다.



이 방향의 변화는 이미 선진국들에서는 90년대 중반부터 출발을 하여 상당히 많이 진행이 되어 있는 상황이며, 국내에 분자생물학의 도입이 선진국들에 비해서 10여년 뒤쳐져 80년대 중반에 일어났던 것처럼, 한편으로는 같은 역사가 반복되고 있는 상황이라 할 수 있습니다. 이러한 변화는 기성세대에게는 결코 쉽게 받아들여지는 것이 아니며, 이런 종류의 마찰은 온갖 곳에서 늘 반복해서 일어나는 것이기도 합니다.



자, 다시 본론으로 돌아와서 이러한 패러다임의 변화가 필요하게 된 이유에 대한 설명을 암에 대한 것을 예를 들어 시도해보겠습니다. 지금까지 위와 같은 환원주의적인 접근으로 수백 개의 암 원인 유전자들을 찾아냈습니다. 사람에는 백 가지가 넘는 종류의 암이 알려져 있는데, 이 유전자들 중에서 어떤 것은 온갖 종류의 암에서 흔하게 잘못 발현된 것이 발견되고, 어떤 것은 암의 종류에 대해 훨씬 더 특이적으로 잘못된 것이 발견이 됩니다. 암의 종류와 유전자들과의 이와 같은 관계 그 자체를 찾아보는 것은 데이터를 모아서 잘 정리만 하면 되니 별 문제가 아닐 것입니다.



그런데 이러한 지식들을 가지고 있음에도 불구하고, 막상 예를 들어 왜 어떤 유전자는 주로 어떤 종류의 백혈병에서만 잘못된 것이 보이고 다른 암에서는 그렇지 않은가 하는 당연한 의문조차도 우리는 아직 거의 갈피를 잡지 못하고 있습니다. 이것은 결국 암의 발생 기작에 대한 이해, 나아가 치료를 해낼 수 있는 지식을 제대로 가지게 되면 해결이 되어 있을 문제이리라는 것은 쉽게 이해가 될 것입니다. "환원주의적인 생각"을 암의 치료법에 적용시켜보면, "그럼 그 잘못된 발암 유전자를 제대로 되게 해주면 되겠군"이란 생각이 명백하고 자명한 생각일 것입니다. 물론 글리벡이란 약이 이를 해주는 좋은 예입니다. 즉, 어떤 종류의 백혈병의 암 세포에서 많이 발현되어 있는 유전자 하나에 달라붙어서 더 이상 활동을 못하게 막아주는 약입니다. 그런데 이 약은 한 때는 기적의 약이었지만, 몇 년 동안 계속 먹으면 잠자코 있던 암이 다시 신기하게도 진화를 해서 글리벡이야 있든 말든 계속 증식을 하게 되는 문제로 인해 현재 많은 환자들이 심각한 상황이라는 것을 아마도 매스컴이나 수업 시간에 교수님 등을 통해서 들었을 것입니다.



우리가 현재 어디까지 와 있는지 어느 정도 이해가 되는지요? 물론 지난 50여년간의 분자생물학은 결코 헛되지는 않았으며, 이젠 적어도 많은 수의 발암 유전자들의 리스트와 이들이 어느 암에서 주로 잘못되어 있는지 정도는 알게 되었습니다. 그럼에도 불구하고, 도대체 왜 고작 이 정도밖에 암의 치료에 대해 해결을 하지 못하고 있는 것일까요? 아예 확 근본적으로 해결을 해 버리지는 못하는 것일까요? 미국에서 나오는 말로 지난 30여년간 엄청난 돈을 암 치료법 개발에 쏟아부었지만, 그 결과는 "차라리 금연운동과 시민 체육시설에 그 돈을 썼더라면 몇 배는 더 나을 뻔했다"라는 씁쓸한 말이나 듣고 있는 상황인 것입니다. 그렇다면 이 상황을 돌파하기 위해서는 도대체 뭐가 더 필요한 것일까요? 지금까지 환원주의적인 접근으로 상당히 큰 성공을 거두었지만, 그 이상의 것, 즉 자세한 내부 메커니즘에 대한 이해, 요즘 흔히 하는 표현으로 gene regulatory network의 system 레벨의 이해는 아직은 걸음마도 제대로 떼지 못하고 있는 상황인 것입니다.



이러한 더 높은 수준의 이해가 필요한 이유를 다른 예로 설명을 해보면, 마치 "이 회사가 요즘 계속 적자가 나는 것이 바로 요 사원 때문이다. 따라서, 요 놈을 당장 잘라야 한다."라는 것과 유사한 생각이 환원주의적인 방식에서의 생각입니다. 또는, "한국이 2005년 세계 청소년 축구대회에서 브라질에 대패를 한 것은 박-주-영이 팔꿈치 부상에다 쌓인 피로에 지쳐서 헤맸기 때문이다. 박-주-영을 당장 잘라야 한다."라는 예도 가능합니다.



이는 실제로 이른 바 발암 유전자라 우리가 이름을 붙여놓은 것들이 대부분의 경우 세포의 증식을 조절하는 데 있어서 박-주-영처럼 없어서는 안 되는 핵심적인 유전자들이므로 더욱 그럴듯한 비유라 할 수 있습니다. 기존의 이러한 방식들이 상당히 부족한 생각이라는 것은 이렇게 예를 들면 쉽게 납득이 될 것입니다. 그리고, 물론 암이 많은 사람들이 쉽게 이해를 할 수 있을 것이라 예로 든 것이고, 현재 생물 분야에서 다루는 많은 것들이 이와 유사한 상황에 놓여 있습니다.



현재 생물 분야에서의 변화를 한 마디로 줄여서 적으면, 위에서 적은 것처럼 자동화된 장치로 많은 양의 데이터를 얻어내고 이것을 분석을 해서, 윗문단에 적은 것과 같은 종류의, 현재 꽉 막혀 있는 한계를 넘어서 보자는 것입니다. 이러한 분석에 대해서 이해를 해야 할 중요한 점은, 단순히 데이터의 양이 많아서 생기는 문제만 있는 것이 아니며, 수학/통계학/전산학의 지식을 바탕으로 하는 도구들을 사용하여 훨씬 복잡한 관계들을 살펴본다는 점입니다. 이것이 여러분과 당장 관련이 있는 중요한 점은, 이를 제대로 해내기 위해서는 수학/통계학/전산학의 기초 지식들을 반드시 가지고 있어야 하며, 여러분은 현재 이러한 공부를 해내야 하는 바로 그 시기에 놓여있다는 점입니다.



이처럼 대량의 데이터에서 복잡한 관계를 따져보는 일은 지금까지의 환원주의적인 접근의 분자생물학에서와는 달리, 단순비교, 간단히 경향만 보는 것, 간단한 관계만 보는 것과 같은 "산수 수준의 도구에 의존해서 논리적으로 잘 따지는 능력"만으로는 되지 않는 일입니다. 따라서, 생물 분야도 이제는 다른 이공계 분야들과 마찬가지로 수리적인 사고체계를 기반으로 하는 것이 되어가고 있으며, 이를 학부 시절부터 본격적으로 익혀나가기 시작해야 하는 것입니다.



이 글을 읽고 있는 여러분들이 바로 이러한 앞으로의 생물 분야 연구를 해낼 사람들입니다. "대학원 가서 연구할 때 필요하면 그때 가서 배우지 뭐"는 물론 말이 안 되는 소리입니다. 이러한 수리적인 사고체계는 최대한 나이가 적을 때에 시작을 해야만 제대로 머리에 자리를 잡을 수가 있는 것입니다. 이미 "산수 수준으로 논리적 사고를 하는 것"에 익숙해져 있는 사람에게는 무척이나 힘든 변화입니다. 이것은 바로 오늘날 모든 선진국들의 생물 분야에서도 똑 같이 겪고 있는 고통입니다. 이로 인해 오늘날 선진국들에서는 생물학 교육을 (특히 학부 교육을) 어떻게 바꾸어야 하는지에 대해서 큰 고민에 휩싸여 있으며, 다양한 시도들이 이미 이루어지고 있는 상황입니다.



아직 학부 저학년인 경우를 위해서 조금 풀어서 적으면, 여러분이 앞으로 받게 될 기존의 생물 분야 교육에서는 아래에 구체적으로 나열해놓은 수학과 전산학 등의 기초들은 상당히 결핍되어 있습니다. 그리고, 위에도 적었지만 이러한 "수리적 기초 지식과 사고 능력"은 최대한 학부 저학년때부터 출발을 해야 합니다. 선진국들의 이러한 움직임에 대해서 예를 들어, BIO2010: Transforming Undergraduate Education for Future Research Biologists도 읽어보고, Princeton University의 Integrative Genomics프로그램과 과목들에 대한 글도 좀 읽어보고, 혹시 영어 듣기가 되는 경우에는 An Introductory Science Curriculum for 21st Century Biologists도 한번 들어보기 바랍니다. 물론 이런 골치거리는 존재하지 않는다고 치부를 해 버리거나, 우리와는 상관이 없는 일이라고 외면하는 것도 "손바닥으로 하늘을 가리는" 방법이겠지만, 이 글을 여기까지 읽고 있는 학부생들은 그런 말에는 현혹이 되지 않으리라 믿습니다. 또한, "이런 일을 하는 컴퓨터 소프트웨어가 다 나와 있으니 우리는 그냥 쓰기만 하면 된다"라는 말에도 현혹되지 말아야 합니다. 이런 설명까지 해야 한다는 것이 한편 좀 우습지만, 종종 일어나는 일로 보여서 굳이 적습니다. 하여간, 이것은 전혀 말도 안 되는 헛소리입니다. CAD 프로그램이 있다고 건축 설계나 기계 설계를 할 수 있는 것은 아니라는 점은 당연히 이해가 될 것입니다. 더 길게 적을 필요는 없을 것입니다. 이런 말을 하는 사람이 주변에 있다면 굳이 논쟁을 하지 말고 그냥 웃으면서 이야기를 딴 곳으로 돌리기 바랍니다.



그리고, 윗 문단에 링크된 생물 분야 학부 교육에 대한 글들에서, 그리고 이 글에서 말하고 있는 것은 "CAD 프로그램을 손수 만들어야 한다"에 해당하는 것이 아니라는 점을 노파심에 추가를 합니다. 예를 들어, 현재 생물체로부터 얻은 대규모 데이터를 분석하기 위해서 가장 많이 쓰이는 도구 중의 하나가 R이란 이름의 통계 패키지인데, R을 직접 만들 필요는 물론 없으며, 사용법 그 자체 또한 전혀 문제거리가 아닙니다.



문제가 되는 것은 통계학에 대한 확고한 기초지식과 이를 생명 현상 연구에 어떻게 적용을 시키는가 하는 점에 대한 지식입니다. 아마도 주변에서 "이런 것까지 우리가 직접 알 필요는 없고, 누구한테 시켜서 최종 결과만 가져오면 된다"는 류의 온갖 "자기 합리화"를 시도하는 이야기들도 들을 수 있을 것입니다. 이것은 한 마디로 손바닥으로 하늘을 가리려는 것일 따름입니다. 논쟁을 할 필요도 없이, "저는 우직하게 공부를 할 터이니, 열심히 잘 가리고 사시기 바랍니다." 정도의 태도를 (가급적 겉으로 드러나지 않도록) 취하면 현명할 듯 합니다. 그리고 이런 현상이 생기는 이유는, 위에서도 적은 것처럼 "학부 저학년 때부터 수리적인 학문들에 대한 공부"를 해두기 않았기 때문입니다. 기회를 놓치면 무척이나 힘든 일이 됩니다. 자칫 자신도 후배들 앞에서 손바닥으로 하늘을 가리는 소리나 하는 사람이 될 것입니다.



할 필요도 없는 소리이지만, 그런 사람이 되는 것보다는 핸디캡이 없는 사람이 되는 것이 훨씬 나을 것입니다. 더욱이 학문을 하자는 것이니, 당장의 편리함보다는 뭔가 우직한 것이 훨씬 낫다는 일반적인 진리가 적용되는 것이기도 합니다. 이런 소리를 추가하게 되는 이유는, 당장 진학을 할 곳을 살펴보면 상당한 괴리를 느끼게 될 것이기 때문입니다. 즉, 현실은 아무도 하라고 하지 않는 공부를 굳이 하는 꼴이 됩니다. 그런데, 이런 글까지 굳이 적고 있는 이유가 바로 이것입니다. 모두가 이미 하고 있는 소리라면, 굳이 시간을 내서 이런 글을 적을 필요도 없을 것입니다. 하지만 문제는, 선진국들의 움직임, 그리고 전세계가 모두 같은 마당에서 활동을 하고 있는 생물 분야 연구 그 자체가 바뀌고 있다는 점입니다. 이것은 우리가 제자리를 맴돌든 거꾸로 가고 있든 상관없이 변해가는 것이니 말입니다.



제대로 전달이 되게 적었는지 여전히 걱정스럽긴 하지만, 글이 너무 긴 것도 좋지 않을 것이므로 이 정도로 대략 마무리에 들어갑니다. 그리고, 간략하게나마 공부해야 할 것들에 대해서 조금 적어봅니다. 우선, 여러분이 수학/통계학/전산학의 공부를 위해 수강해야 하는 과목들은 여러분이 소속된 대학에 항상 개설이 되고 있는 것들이란 점이 있습니다. 단지, 쉬운 교양 과목 등을 대신해서 각오를 좀 단단히 하고 들으면 될 것입니다. 반드시 들어야 하는 최소한의 과목들은 다음과 같습니다. 우선 수학은 다변수 해석학까지의 해석학, 선형대수, 미분방정식인데, 일반적으로 쉽게 택할 수 있는 과목이 "공업수학"이란 이름이 붙은 과목일 것입니다.



물론 1학년 때 기초 미적분학은 당연히 들었다고 가정을 하고 적은 것입니다. 그리고 수치해석이란 과목도 필수적입니다. 통계학은 일단 이공계용 기초 통계학은 반드시 듣고, R과 같은 통계 패키지를 사용해서 기본적인 통계분석은 할 수 있게 되어야 합니다. 그 다음 전산학은 이산수학, 자료구조, 알고리즘, 데이터베이스, 인공지능인데, 할 필요도 없는 소리지만 여기에 덧붙여서 반드시 컴퓨터 프로그래밍을 할 줄 알아야 합니다.



위에 적은 프린스턴의 경우에는 이러한 새로운 생물학을 해내기 위해 교육시키고 있는 학생들에게 아예 1학년 1학기의 첫 시작에서 java를 6주일 동안 가르친 다음에 모든 시작을 하게 하는군요. 즉, 프로그래밍을 할 줄 아는 것은 마치 글씨를 쓸 줄 아는 것이나 마찬가지가 되는 것입니다. 이 정도가 대략 최소한의 과목들입니다. 아마도 제대로 규모가 있는 이공계를 가진 대학이라면 이 중에서 개설되어 있지 않은 과목은 없을 것입니다. 쉬운 교양과목을 줄여가며 듣는 일이 상당히 힘들 터이지만, 수학에는 특히 아낌없이 투자를 해야 합니다. 그렇지 않으면 두고두고 후회를 하게 됩니다.



현재 전세계 많은 저명한 생물학자들, 그리고 심지어는 bioinformatics 전문가들조차 종종 "내가 왜 학부 시절에 수학 과목들을 그것밖에 안 들었던가"를 외치고 있습니다. 그밖에도 들어두면 좋을 많은 과목들이 있지만, 여기에 적은 것이 가장 중요한 과목들입니다.



그리고 굳이 한 가지 추가를 할 점이 있습니다. 생물정보학은 무슨 산업이 제대로 되는 그런 분야는 아닙니다. 단지 이러한 새로운 방식의 생물학 연구를 해내기 위해서 생물 분야 연구자가 반드시 갖추고 있어야 하는 기술 및 지식의 일부일 따름입니다. 따라서, 이 부분만 따로 떼서 무슨 전문가를 양산을 해낸다는 것은 성립이 되지 않는다는 것이 이해가 되는지요? 괜히 이 글이 "야, 그럼 생물정보학을 아예 전공으로 해야겠구나"라는 착각을 불러일으키는 글이 될까 심히 걱정이 되어서 적는 것입니다. 길게 적지 않아도 이해가 되리라 믿습니다.



적당한 예인지 모르겠지만, 화가가 되려면 미대 회화과 같은 곳을 가거나 해야지, "붓 만들기 과"나 "물감 잘 섞는 방법 배우기 과"를 다녀서는 안되는 것입니다. 물론 붓을 만들거나, 물감의 혼합에 대해서 연구를 하는 사람도 소수는 필요할 것입니다. 그렇지만 이들은 아주 소수가 필요할 뿐이고, 결국 필요한 것은 대다수를 차지하는 그림 그리는 사람들이며, 생물 분야 연구에서 이에 해당하는 것은 바로 생물학과 등에서 하는 것입니다. 다시 적지만, 생물정보학이 독자적인 산업이 되거나 하지는 결코 못하며, 이에 따라 제대로 직업이 있거나 할 수는 없는 분야라는 점도 인식하고 있어야 합니다. 단지, 이미 선진국들에서는 그렇게 된 점으로, 이러한 새로운 방식의 생물 분야 연구를 대규모로 하는 몇몇 곳에서 필요로 하는 소수의 전문가들이 거의 전부인, 그런 특수 직종 정도는 될 수가 있습니다.



물론 국내에서 그 수요가 얼마나 될지, 그리고 단지 지원 부서에 해당할 뿐인 것이라 결코 연구의 주도권을 가질 수는 없는 이들에 대한 대우가 얼마나 좋을 지에 대해서는 별로 희망적인 말은 하기 힘듭니다. 따라서, 이를 위한 대규모 인재 양성 같은 것은 필요로 하지 않는다는 것은 당연한 점일 것입니다. 하여간, 이 글이 괜히 엉뚱한 곳으로 인도를 하는 글은 절대 되지 않아야 한다는 노파심에 적었습니다. 이 글은 미래에 제대로 생물 분야 연구를 해낼 수 있는 유능한 생물학자가 되려면, 현재 생물 분야 학부생이 왜 그리고 무엇을 공부를 해야 하는지에 대해서 적어본 것입니다.