어울림 - 자연과 어울어지기, 그 첫걸음

About Me

자연을 공부하는 人입니다. 생물의 죽살이 뿐 아니라 그들과 함께 해온 문화와 이야기도 함께 알아가고 싶습니다.

I am studying nature. I want to know not only the life history of living things, but also the culture and stories they and humans have shared together.

Search

License


more detail
블로그의 모든 글과 이미지는 기본적으로 상기의 Creative Commons License를 따르며 기타 인용한 내용이나 스크랩한 글들은 모두 해당 저자에게 저작권이 있음을 알립니다.

Profile

곤충 데이터베이스 구축시 라벨처리


국립수목원과 국립중앙과학관에서 진행했던 생물종 및 자원 데이터베이스에는 아쉬운 점이 있다.
프로젝트의 핵심인 표본사진 촬영과 대국민 웹 서비스에 대한 부분이다.
본인은 2002년부터 시작해 대학, 대학원을 비롯해 직장생활을 하면서 이 프로그램의 DB구축 및 표본사진검수과정에 몇차례 참여한 바 있다. 초기에는 일부 참여를 하다가 이후 서비스 이용자 입장에서 오랫동안 지켜본 개인적인 생각들을 정리해본다.

첫번째는 표본사진과 데이터수집방식에 대한 것이다.

지속적인 관심사이었기에 관련 전세계 웹사이트를 돌아다니다 보면 해외 박물관이나 개인이지만 방대한 데이터베이스를 구축한 사람들의 사진들을 보게 되는데 그때마다 느낀 것은 많은 경우 표본의 실제 데이터라벨을 함께 촬영한다는 점이었다. 정보가 훼손될 수 있을지도 모른다고 생각한 것이라고 판단된다.

Butterflies of America
http://www.butterfliesofamerica.com/L/t/Parnassius_clodius_strohbeeni_a.htm

실제로 내가 참여했던 기관의 채집자 정보는 나중에 훼손되고 변경되는 경우도 종종 보았다. 구축 당시부터 이는 문제 사항이 될 여지가 충분히 있었다. 예를 들어보자. (단 모든 기관의 경우는 아닐 것이다.) 실제 KBIF의 데이터저장소의 각 기관별 표본데이터를 보면 실제 표본라벨에 적힌 그대로 채집자의 이니셜을 정리한 기관도 있다. 하지만 내가 구축할 당시는 가능한 실명으로 변경하기 위해 연도별로 연구실의 멤버와 주요 채집자들의 목록을 만들고 상응하는 사람을 추론하여 실명을 넣었었다. 후에 살펴보니 (다른 기관 사정은 모르겠지만) 내가 참여했던 곳의 채집자 정보는 상당부분 수정되어 변질되었다. 최근은 어떻게 처리하고 있는지 모르겠으나 곤충라벨중 동정용라벨이 첨부된 경우도 많다. 이것도 반영이 되고 있는지 모르겠다. 웹사이트에서 제공하는 동정자정보가 최종 동정자인지는 모르겠지만 표본의 원본라벨이 없으니 이것 마저도 확인이 어렵다. 채집기록도 마찬가지다. 여러명이 채집하는 경우 종종 Kim, Kim, Lee, Song과 같이 빽빽하게 성만 이니셜로 정리한 라벨이 있다고 하자. 특별한 성씨인 경우 확인이 가능하지만 대부분은 정확히 알기 어렵다. 연구실생 뿐만 아니라 학부생 전체가 채집하는 경우도 상당하기 때문에 일일이 기억하며 정보를 기억하는 것은 한계가 있다. 이는 데이터베이스 구축이전에 표본라벨작성의 문제이기도 하다. 표본의 라벨에는 반드시 채집자면 채집자, 동정자이면 동정자 한 명의 이름만으로 작성되어야 하며 이는 대표자가 아니라 실제 채집자 개인의 이름이 되어야 한다. 그렇지 않고서는 채집자의 의미가 없지 않은가? 합동채집이라도 표본제작 및 데이터 정리는 개인차원에서 구분되어 정리되고 이것이 라벨에 반영될 필요가 있다. 데이터베이스 구축시 채집자정보는 반드시 라벨에 있는 그대로를 기록하도록 발주기관에서 메뉴얼화했어야 했다. 또한 라벨도 촬영대상에 포함되었어야 했다. 사업 1년차때 촬영컷수는 동일종일 경우 최초 상태좋은 한 개체를 정해 5컷을 촬영하고 나머지 개체는 3컷씩 촬영하도록 했다. 이후 촬영컷수가 줄어든 것으로 아는데 내가 참여할 때는 이러했다. 그때 라벨은 별 신경을 안 쓰고 표본자체에 대한 촬영만 신경을 썼었다.

이에 비해 식물표본의 경우 표본대지에 라벨이 아예 포함되어 있어 이런 문제가 발생되지 않는다. 그러나 웹에서 원본크기 정도의 대형이미지를 제공하는 것은 비효율적이고 표본사진 하나를 보기 위해 단계가 많이 필요하기 때문에(표본사진보기, 확대보기, 라벨부분 찾기를 매 사진마다 반복해야 한다) 라벨만 별도로 촬영하는 과정이 포함되어 있으리라 생각된다. 어찌되었든 곤충과 같이 입체적으로 라벨을 달아야 하는 경우는 원본이 되는 라벨을 실제로 촬영하는 것이 오류를 줄일 수 있는 최선의 방법이라는 생각이 든다.

두번째는 웹서비스에 대한 것이다.

요즘은 일반적인 사양의 pc의 경우 데스크탑 pc를 비롯해 노트북의 가격이 많이 내려갔다. 사양도 많이 높아졌다. 국립수목원의 국가생물종지식정보시스템(줄여서 국생종)의 경우 곤충이면 곤충, 식물이면 식물을 검색해보자. 사양이 낮은 pc로 접근하면 갑자기 pc가 느려진다. 이유는 간단하다. 썸네일이 썸네일이 아닌 것이다. 썸네일을 실제로 저장해보면 안다. 1~2mb에서 많게는 이미지 하나의 용량이 20mb를 넘는 경우도 있다. 단지 크기만 줄여놓고 썸네일처럼 보이게 해두었으니 이미지 하나의 용량이 2mb씩이라고 해도 페이지당 10건의 표본정보가 보인다면 html웹페이지를 제외하고도 페이지를 넘길 때마다 최소 20mb의 이미지를 다운로드 받아야 한다. 참고로 웹페이지에 이미지를 표시하려면 이미지는 자신의 pc의 인터넷임시폴더에 다운로드를 모두 받아야 로딩이 완료된다. 이 문제는 몇차례 관리자에게 메일을 보냈는데도 아직도 수정되고 있지 않다.
처음 국생종 데이터베이스 구축에 참여했을 때 아직 만들어지지도 않은 사이트에서 어떤 것을 얻을 수 있을까를 생각했었다. 특정 분류군을 해당 대학에 가서 보지 않아도 미리 여러 대학 및 기관의 표본을 한번에 보고 꼭 필요한 표본만 직접 가서 보면 되겠구나 싶었다. 현재 데이터베이스가 있어 그런 일이 가능하기는 하지만 제공되는 서비스는 한결같이 검색과 현재 제공되는 것과 같은 목록형이 전부다. 곤충도감의 도판처럼 동정이 편리하도록 썸네일형으로 한번에 최대한 많은 이미지를 동시에 볼 수 있도록 제공한다거나 하는 등 여러가지 스킨을 제공하고 있지는 못하다. 수많은 이미지를 다루면서도 갤러리형태의 스킨이라거나 좀더 편리한 방식의 UI개발에는 미흡하지 않은 것이 아닌가 싶다.

데이터베이스의 구축에서 데이터를 수집하는 것은 가장 중요한 일중 하나일 것이다. 그러나 일단 데이터가 수집되었다면 얼마나 효율적으로 데이터를 가공하고 필터링하여 원하는 형태로 제공하느냐도 중요할 것이다. 또한 이용자 입장에서도 사용이 편리해야 할 것이다. 웹프로그램이 구축이 완료되었다면 최적화가 되어야 한다. 즉 무겁지 않고 빠르게 작동되면서 크로스브라우징을 비롯해 호환성이 좋아야 한다. 최근 html5가 이슈화되고 웹표준이 강조되고 있으나 종종 특정브라우저로 접속할 것을 권하는 경우가 많은데 표준 못지 않게 가능한 대부분의 브라우저로 제한없이 이용가능한 형태이어야 한다.

일반적인 이용자라면 사진과 텍스트만으로 만족할지 모르겠으나 연구자의 경우라면 필터링된 표본목록을 다운로드 받고 싶은 경우도 있을 것이다. 예를 들어 내 경우에는 곡식좀나방과를 공부하고 있으니 분류군을 곡식좀나방과로 입력하거나 혹은 종단위에서 긴날개좀나방을 입력했다고 가정해보자. 썸네일형태로 빠르게 표본을 죽 훑어보고 각 기관별로 어떤 표본들이 얼마나 등록되어 있는지를 엑셀(excel)파일과 같은 형태로 내보내기(export)할 수 있다면 아주 편리할 것이다. 이렇게 파일형태로 결과물을 제공받을 수 있다면 웹서비스에서만 그치치 않고 다양한 용도로 데이터를 재활용하는 것이 가능하므로 추가적인 생산성을 기대할 수 있다. API를 제공하는 것은 개발자에게나 유리하지 사전지식이 없는 사람들에게는 무용지물이나 마찬가지일 수도 있다.

오랫동안 국립수목원의 국가생물종지식정보시스템, 국립중앙과학관의 나리스, 국립생물자원관의 한반도 생물자원포털, 농업과학기술원의 곤충표본관 등의 데이터베이스를 지켜보면서 엄청난 자료를 보유하고 있으면서도 효율적인 서비스 제공에는 그다지 신경쓰고 있지 못하다는 생각이 든다. 대체로 일반적인 게시판수준의 갤러리와 단순검색에서 벗어나지 못하고 있다.

현재의 서비스도 자체만으로도 대단한 작업 결과물들이지만 서비스 제공에 있어 상상력을 발휘해볼 필요가 있을 듯 하다. 초기 10년은 데이터구축을 위한 기반을 다졌다면 이제부터라도 모여진 데이터를 멋지게 가공하고 검색할 수 있는 프로그램 제작에 더 신경을 써야 할 듯 싶다.

세번째는 저작권에 관한 부분이다.

이전에 국립수목원의 저작물링크 및 퍼가기 금지에 대해 비평을 한 적이 있다. 이후 조금은 완화된 정책을 펴고는 있는데 여전히 이용하기에 불편한 건 사실이다. 운영하는 입장에서 문제소지가 많을 거라는 것은 납득이 되지만 웹서비스라는 것이 모두 같은 문제를 가지고 있지 않은가? 그렇다고 모두 보안프로그램을 설치해야 볼 수 있도록 하지는 않는다는 말이다.

국립수목원의 국가생물종지식정보시스템, 국립중앙과학관의 나리스의 경우를 예로 들어보자. 어느 종이든 상관없이 특정종의 검색페이지를 열고 링크된 사진을 보면 기관명의 워터마크나 기관명 아이콘이 직접 찍혀있다. 자료를 이용하는 입장에서 신경쓸 부분은 아니지만 조금만 생각을 달리해보면 좀 이상하다. 잠시 조금만 시선을 달리해 다른 예를 보자. 네이버에서 최근 몇년간 네이버지식백과에 엄청난 도감과 책, 용어집, 사전들을 입력해 전세계에서도 상위권에 해당될만큼의 표제어수를 자랑하는 데이터베이스를 구축중이다. 생물학분야만 살펴보면 최신 도감류 및 여러 문헌들이 몇권 통째로 들어가 있다. 책의 본문과 사진이 거의 그대로 실려있다. 출판사나 저자와의 협약이 당연히 되어 있었기 때문에 그러했겠지만 다 생략하고 사진만 보자. 사진마다 네이버 워터마크가 찍혀있다. 잘 이해가 되지 않는 부분이다. 네이버에서 제공하는 서비스중 하나이지만 출처가 아주 명확한 사진에도 네이버라고 이미지에 워터마크를 찍을 필요는 없지 않나 싶다. 해외사이트를 웹서핑하다보면 사진마다 출처가 명확하게 표시된 사례를 쉽게 볼 수 있는데 아쉬운 부분이 아닐 수 없다.

출처: http://ukmoths.org.uk/species/pyrrhia-umbra/adult-1/

국외에서는 위 사진처럼 매 사진마다 사진에 대한 인용을 분명히 하는 경우를 국내에 비하면 비교적 쉽게 볼 수 있다.

한국의 잠자리, 정광수 저, 2012, 자연과생태 중에서(네이버 지식백과에 포함됨)

출처에 대한 인용을 어떻게 할지에 대한 메뉴얼이 없기 때문이 아닐까. 이로 인해 종종 아래와 같이 인용을 하는 경우를 볼 수 있다.

출처: 네이버백과사전 혹은 출처: 네이버지식백과

이런 방식의 출처인용이 정말 맞는지 자문해 볼 필요가 있다. 현재 국립수목원과 국립중앙과학관의 생물데이터베이스의 사진을 다루는 방침이 네이버와 다를바가 없다. 출처가 여러군데인 경우 각각에 대해 명확한 출처표시가 반드시 필요하며 이를 통합한 데이터베이스인 경우라도 세부항목에 대해서는 별도의 저작권 정책이 필요하다. 한 종에 대한 설명 하나에도 여러 자료의 출처가 합쳐질 수 있으며 사진도 기관별 모두 다르기 때문에 아무리 통합서비스를 하는 곳이라고 하더라도 각 자료들에 대한 저작권을 싸잡아 주장할 수는 없다는 생각이다.

0 개의 댓글: