KR20180131829A - 장기생태연구를 지원하는 전주기 데이터 관리 장치 및 방법 - Google Patents

장기생태연구를 지원하는 전주기 데이터 관리 장치 및 방법 Download PDF

Info

Publication number
KR20180131829A
KR20180131829A KR1020170068426A KR20170068426A KR20180131829A KR 20180131829 A KR20180131829 A KR 20180131829A KR 1020170068426 A KR1020170068426 A KR 1020170068426A KR 20170068426 A KR20170068426 A KR 20170068426A KR 20180131829 A KR20180131829 A KR 20180131829A
Authority
KR
South Korea
Prior art keywords
data
ecological
metadata
information
unit
Prior art date
Application number
KR1020170068426A
Other languages
English (en)
Inventor
허태상
정회경
Original Assignee
한국과학기술정보연구원
배재대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원, 배재대학교 산학협력단 filed Critical 한국과학기술정보연구원
Priority to KR1020170068426A priority Critical patent/KR20180131829A/ko
Publication of KR20180131829A publication Critical patent/KR20180131829A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명의 일 실시예에 따른 장기생태연구를 지원하는 전주기 데이터 관리 장치는 미리 정해진 프로토콜에 따라 생태 데이터 및 상기 생태 데이터와 연관된 메타데이터(Metadata)를 수집하는 데이터 수집부; 미리 정의된 스키마를 통해 상기 생태 데이터 및 상기 메타데이터의 유효성을 검증하는 데이터 검증부; 및 시스템 관점에서의 데이터 스크리닝 및 전문가의 의미론적 검증에 의한 데이터 리뷰를 통해, 상기 생태 데이터 및 상기 생태 데이터의 메타데이터를 포함하는 데이터셋(Dataset)에 대한 품질을 모니터링하고, 상기 모니터링 결과에 따라 기준 품질을 만족하는 데이터셋을 출판하는 데이터 품질 관리부를 포함한다.

Description

장기생태연구를 지원하는 전주기 데이터 관리 장치 및 방법{ALL-ROUND DATA MANAGEMENT DEVICE AND METHOD SUPPORTING LONG-TERM ECOLOGICAL RESEARCH}
본 발명의 실시예들은 장기생태연구를 지원하는 전주기 데이터 관리 장치 및 방법에 관한 것이다.
생태, 기상, 기후와 같은 환경적 요인은 생물의 활동과 분포에 있어서 중요한 역할을 담당한다. 기후대의 특성에 따라 지구상의 생물은 존재하며, 기후는 생물의 생장에 지속적인 영향을 준다. 한 생물 종의 변화는 관련된 다른 생물 종들의 연속적 변화를 야기시키기 때문에 전체적인 생태계에 영향을 준다.
장기생태연구는 생태, 환경, 기상을 장기적인 모니터링을 통해 그 결과를 추적하여 미래에 초래될 수 있는 생태, 환경, 기후 문제에 대응하는 것을 목표로 한다. 생태계 변화와 기후환경변화의 관계는 짧은 기간 데이터를 수집하여 상관 관계를 이해하기는 어렵고 장기간 데이터를 수집하여 비교 분석하여야 한다.
이러한 장기생태연구를 위해서는 생태계 변화에 대해 장기적인 모니터링 데이터를 지속적으로 관리하고 분석을 지원할 수 있는 데이터 플랫폼이 필요하다. 세계 각국은 장기생태연구를 위해 생태계 변화에 대해 모니터링 데이터를 지속적으로 수집, 관리 및 활용할 수 있는 데이터 플랫폼을 구축해 왔다. 대표적으로는 미국의 PASTA, Metacat, 유럽의 DEIMS, 호주의 TERN, AEKOS, 중국의 CERN 등이 있다.
국내에서는 2004년부터 Korean National Long-Term Ecological Research (KNLTER) 프로젝트를 통해 장기생태 관련 데이터를 수집하였다. KNLTER 프로젝트는 기후변화 등에 따른 과학적이고 장기적인 한국의 생태계 변화 관리 체계를 확립하고, 생물 다양성 보전대책 수립에 활용되는 것을 목표로 한다. 이를 위해 기후 변화에 따른 한국의 장기생태 변화 조사, 연구 및 모니터링, 기후 및 환경 변화에 따른 생태계 변화와의 상관 관계 규명, 생물 다양성 변화 연구, 프로토콜 선정, 기후 변화와 환경 오염에 따른 동물 생태 및 행동 변화 연구, 생태계 변화에 따른 생물 다양성 및 생물 자원 보전 정책 방안 연구 등을 수행하였다.
이러한 생태 연구에 대한 다양한 기여에도 불구하고 KNLTER 프로젝트는 여러 문제점들로 인하여 2013년 잠정적 중단되었다. KNLTER 프로젝트에서는 사전 협의된 프로토콜의 부재로 연구자나 사이트마다 데이터 수집 방법과 내용 등이 상이하여 수집된 데이터를 통합 분석하는 것이 거의 불가능했다. 이는 공통 조사 및 분석 항목을 도출하기 위한 기획 회의가 미비하고, 다른 거점과 공통 측정 분석 항목 미비, 그리고 공통 측정 항목이 동일한 장비와 방법으로 측정되지 못했음을 의미한다.
조류 생태 조사를 예로 들면, 점봉산에서는 선조사(Line-Transect) 방법, 남산에서는 고정 방형구(Plot) 설치 방법, 월악산에서는 특정 종을 대상으로 한 모니터링 방법을 활용하였다. 일부 협의된 프로토콜에 대해서도 연구 조사 전에 데이터 공유를 위한 기획 회의가 없었고, 연구 조사를 통해 생산된 자료도 효율적으로 통합 관리되지 못했으며, 정보 공유를 위해 동일한 형식으로 데이터를 생산하고 있지 못했기 때문에 데이터 통합의 어려움이 매우 컸었다.
관련 선행기술로는 대한민국 공개특허공보 제10-2006-0071668호(발명의 명칭: 분산된 정보들의 통합 뷰 생성을 위한 데이터베이스스키마 생성 방법 및 정보 통합 시스템, 공개일자: 2006.06.27)가 있다.
본 발명의 일 실시예는 향후 수집될 데이터에 대해서는 통일성 있는 일관된 방식으로 데이터를 수집하여 통합할 수 있는 방법을 제공함은 물론, 기존 데이터나 일반 연구자가 소유한 데이터까지도 저장소로써 서비스를 제공할 수 있는 장기생태연구를 지원하는 전주기 데이터 관리 장치 및 방법을 제공한다.
본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른 장기생태연구를 지원하는 전주기 데이터 관리 장치는 미리 정해진 프로토콜에 따라 생태 데이터 및 상기 생태 데이터와 연관된 메타데이터(Metadata)를 수집하는 데이터 수집부; 미리 정의된 스키마를 통해 상기 생태 데이터 및 상기 메타데이터의 유효성을 검증하는 데이터 검증부; 및 시스템 관점에서의 데이터 스크리닝 및 전문가의 의미론적 검증에 의한 데이터 리뷰를 통해, 상기 생태 데이터 및 상기 생태 데이터의 메타데이터를 포함하는 데이터셋(Dataset)에 대한 품질을 모니터링하고, 상기 모니터링 결과에 따라 기준 품질을 만족하는 데이터셋을 출판하는 데이터 품질 관리부를 포함한다.
상기 데이터 수집부는 상기 장기생태연구와 관련하여 공통의 목적, 대상, 조사방법, 데이터 표현방법 및 데이터 품질관리 중 적어도 하나에 대한 표준화된 프로토콜을 정의하고, 각 사이트(Site)별로 해당 프로토콜에 따라 상기 생태 데이터 및 상기 메타데이터를 수집할 수 있다.
상기 데이터 품질 관리부는 상기 유효성의 검증 후 데이터 기여자에 의해 제출된 데이터셋의 각 필드 입력 값의 의미적 유효성을 검증하는 데이터 스크리닝부; CSV 형태로 전달된 생태 데이터를 데이터베이스(DB)에 임포트(Import)하는 DB 임포트부; 상기 데이터베이스 내 종 분류 테이블(Species Taxonomy Table)의 민감정보 항목을 선별하여 선별된 민감정보 항목에 대한 공개 데이터를 보호하는 정보 보호부; 상기 데이터베이스에 임포트된 생태 데이터의 원시 데이터로부터 요약 데이터를 추출하고, 상기 요약 데이터를 포함하는 뷰(View) 테이블을 통해 가시화 데이터를 생성하는 가시화 데이터 생성부; 및 상기 데이터베이스에 저장된 생태 데이터 값의 타입, 범위의 의미론적 유효성을 상기 가시화 데이터를 통해 검증하는 데이터 리뷰부를 포함할 수 있다.
상기 데이터 품질 관리부는 상기 데이터셋의 출판 시 상기 데이터셋에 데이터 라이선스를 부여하거나 글로벌 데이터 유통을 위해 DOI(Data Object Identification)를 부여할 수 있다.
상기 데이터 품질 관리부는 상기 데이터셋의 출판 시 상기 데이터셋을 XML 스키마를 기반으로 하는 EML(Ecological Metadata Language) 형식으로 변환할 수 있다.
상기 메타데이터는 데이터셋, 조사 방법, 사이트, 사용자, 기관, 유효성 규칙 중 적어도 하나를 포함하고, 상기 데이터셋의 설명과 함께 측정 장치 정보와 품질 정보를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 장기생태연구를 지원하는 전주기 데이터 관리 장치는 XML 스키마를 기반으로 하는 EML(Ecological Metadata Language) 형식으로 상기 메타데이터를 저장하거나 변환하는 메타데이터 관리부를 더 포함할 수 있다.
상기 메타데이터 관리부는 메타데이터 카탈로그이자 데이터 리포지토리인 Metacat 오픈소스를 사용하여 상기 메타데이터를 상기 EML 형식으로 저장하거나 변환할 수 있다.
본 발명의 일 실시예에 따른 장기생태연구를 지원하는 전주기 데이터 관리 장치는 서로 다른 형식으로 저장된 데이터의 통합을 지원하기 위해 각 조사 방법마다 통일된 변환 가공 규칙을 정의하고, 데이터 내용에 변경이 있을 때마다 상기 통일된 변환 가공 규칙에 기초하여 변환 가공을 수행하는 데이터 변환 가공부를 더 포함할 수 있다.
상기 데이터 변환 가공부는 상기 의미 기반의 툴을 이용하여, 외부 시스템 내에 다양한 표준 형태로 저장되어 있는 생태를 포함한 시간, 공간, 기상 정보를 통일된 형식의 데이터로 변환 가공할 수 있다.
본 발명의 일 실시예에 따른 장기생태연구를 지원하는 전주기 데이터 관리 장치는 통제 어휘 또는 이의 확장된 형태의 텍사노미(Taxonomy), 시소러스(Thesaurus)와 같은 의미 기반의 툴을 이용하여, 이질적 데이터에 대한 통합 검색을 지원하는 데이터 검색 및 공유부를 더 포함할 수 있다.
상기 데이터 검색 및 공유부는 조사 방법과 사이트들을 기준으로 상기 생태 데이터를 시계열(Time series) 차트로 표현하거나, 데이터 분석의 평이성을 향상시키기 위해 서로 다른 조사 방법 간 데이터를 비교하여 표현할 수 있다.
본 발명의 일 실시예에 따른 장기생태연구를 지원하는 전주기 데이터 관리 방법은 미리 정해진 프로토콜에 따라 생태 데이터 및 상기 생태 데이터와 연관된 메타데이터(Metadata)를 수집하는 단계; 미리 정의된 스키마를 통해 상기 생태 데이터 및 상기 메타데이터의 유효성을 검증하는 단계; 시스템 관점에서의 데이터 스크리닝 및 전문가의 의미론적 검증에 의한 데이터 리뷰를 통해, 상기 생태 데이터 및 상기 생태 데이터의 메타데이터를 포함하는 데이터셋(Dataset)에 대한 품질을 모니터링하는 단계; 및 상기 모니터링 결과에 따라 기준 품질을 만족하는 데이터셋을 출판하는 단계를 포함한다.
본 발명의 일 실시예에 따른 장기생태연구를 지원하는 전주기 데이터 관리 방법은 XML 스키마를 기반으로 하는 EML(Ecological Metadata Language) 형식으로 상기 메타데이터를 저장하거나 변환하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 장기생태연구를 지원하는 전주기 데이터 관리 방법은 서로 다른 형식으로 저장된 데이터의 통합을 지원하기 위해 각 조사 방법마다 통일된 변환 가공 규칙을 정의하는 단계; 및 데이터 내용에 변경이 있을 때마다 상기 통일된 변환 가공 규칙에 기초하여 변환 가공을 수행하는 단계를 더 포함할 수 있다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 첨부 도면들에 포함되어 있다.
본 발명의 일 실시예에 따르면, 향후 수집될 데이터에 대해서는 통일성 있는 일관된 방식으로 데이터를 수집하여 통합할 수 있는 방법을 제공함은 물론, 기존 데이터나 일반 연구자가 소유한 데이터까지도 저장소로써 서비스를 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 장기생태연구를 지원하는 전주기 데이터 관리 장치를 설명하기 위해 도시한 블록도이다.
도 2는 도 1의 데이터 품질 관리부의 상세 구성을 도시한 블록도이다.
도 3은 장기생태 데이터 관리 워크 플로우를 나타낸 도면이다.
도 4는 EML에서 사용되는 개인정보의 일례를 도시한 도면이다.
도 5는 동일 프로토콜의 데이터의 가공을 개념적으로 표현한 도면이다.
도 6은 데이터 전환 및 가공에 관한 워크 플로우를 나타낸 도면이다.
도 7은 TERN의 Facility의 네트워크 구성을 나타내는 도면이다.
도 8은 TERN을 중심으로 구성된 데이터 공유 네트워크를 도시한 도면이다.
도 9는 국제 데이터 공유방안을 설명하기 위해 도시한 도면이다.
도 10은 데이터셋이 입력되는 경우의 검증 절차를 보여주기 위해 도시한 도면이다.
도 11은 본 발명의 일 실시예에 따른 장기생태연구를 지원하는 전주기 데이터 관리 방법을 설명하기 위해 도시한 흐름도이다.
본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다.
또한, 이하 실시되는 본 발명의 바람직한 실시예는 본 발명을 이루는 기술적 구성요소를 효율적으로 설명하기 위해 각각의 시스템 기능구성에 기 구비되어 있거나, 또는 본 발명이 속하는 기술분야에서 통상적으로 구비되는 시스템 기능 구성은 가능한 생략하고, 본 발명을 위해 추가적으로 구비되어야 하는 기능 구성을 위주로 설명한다. 만약 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면, 하기에 도시하지 않고 생략된 기능 구성 중에서 종래에 기 사용되고 있는 구성요소의 기능을 용이하게 이해할 수 있을 것이며, 또한 상기와 같이 생략된 구성 요소와 본 발명을 위해 추가된 구성 요소 사이의 관계도 명백하게 이해할 수 있을 것이다.
또한, 이하의 설명에 있어서, 신호 또는 정보의 "전송", "통신", "송신", "수신" 기타 이와 유사한 의미의 용어는 일 구성요소에서 다른 구성요소로 신호 또는 정보가 직접 전달되는 것뿐만이 아니라 다른 구성요소를 거쳐 전달되는 것도 포함한다. 특히 신호 또는 정보를 일 구성요소로 "전송" 또는 "송신"한다는 것은 그 신호 또는 정보의 최종 목적지를 지시하는 것이고 직접적인 목적지를 의미하는 것이 아니다. 이는 신호 또는 정보의 "수신"에 있어서도 동일하다.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 장기생태연구를 지원하는 전주기 데이터 관리 장치를 설명하기 위해 도시한 블록도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 장기생태연구를 지원하는 전주기 데이터 관리 장치(100)는 데이터 수집부(110), 데이터 검증부(120), 데이터 품질 관리부(130), 메타데이터 관리부(140), 데이터 변환 가공부(150), 데이터 검색 및 공유부(160), 및 제어부(170)를 포함할 수 있다.
상기 데이터 수집부(110)는 미리 정해진 프로토콜에 따라 생태 데이터 및 상기 생태 데이터와 연관된 메타데이터(Metadata)를 수집할 수 있다.
이를 위해, 상기 데이터 수집부(110)는 장기생태연구와 관련하여 공통의 목적, 대상, 조사방법, 데이터 표현방법 및 데이터 품질관리 중 적어도 하나에 대한 표준화된 프로토콜을 정의하고, 각 사이트(Site)별로 해당 프로토콜에 따라 상기 생태 데이터 및 상기 메타데이터를 수집할 수 있다.
여기서, 상기 메타데이터는 데이터셋(Dataset), 조사 방법(Measurement), 사이트(Site), 사용자, 기관, 유효성 규칙 중 적어도 하나를 포함하고, 상기 데이터셋의 설명과 함께 측정 장치 정보와 품질 정보를 더 포함할 수 있다.
상기 데이터 검증부(120)는 미리 정의된 스키마(Schema)를 통해 상기 생태 데이터 및 상기 메타데이터의 유효성을 검증할 수 있다. 이때, 상기 유효성의 검증은 상기 생태 데이터를 제출하기 이전에 수행될 수 있다.
상기 데이터 품질 관리부(130)는 시스템 관점에서의 데이터 스크리닝 및 전문가의 의미론적 검증에 의한 데이터 리뷰를 통해, 상기 생태 데이터 및 상기 생태 데이터의 메타데이터를 포함하는 데이터셋(Dataset)에 대한 품질을 모니터링할 수 있다.
상기 데이터 품질 관리부(130)는 상기 모니터링 결과에 따라 기준 품질을 만족하는 데이터셋을 출판할 수 있다.
상기 데이터 품질 관리부(130)는 상기 데이터셋의 출판 시 상기 데이터셋에 데이터 라이선스를 부여하거나 글로벌 데이터 유통을 위해 DOI(Data Object Identification)를 부여할 수 있다.
상기 데이터 품질 관리부(130)는 상기 데이터셋의 출판 시 상기 데이터셋을 XML 스키마를 기반으로 하는 EML(Ecological Metadata Language) 형식으로 변환할 수 있다.
이와 같은 데이터 품질 관리부(130)는 도 2에 도시된 바와 같이 데이터 스크리닝부(210), DB 임포트부(220), 정보 보호부(230), 가시화 데이터 생성부(240) 및 데이터 리뷰부(250)를 포함할 수 있다. 참고로, 도 2는 도 1의 데이터 품질 관리부(130)의 상세 구성을 도시한 블록도이다.
상기 데이터 스크리닝부(210)는 상기 유효성의 검증 후 데이터 기여자에 의해 제출된 데이터셋의 각 필드 입력 값의 의미적 유효성을 검증할 수 있다.
상기 DB 임포트부(220)는 CSV 형태로 전달된 생태 데이터를 데이터베이스(DB)에 임포트(Import)할 수 있다.
상기 정보 보호부(230)는 상기 데이터베이스 내 종 분류 테이블(Species Taxonomy Table)의 민감정보 항목을 선별하여 선별된 민감정보 항목에 대한 공개 데이터를 보호할 수 있다. 여기서, 상기 민감정보 항목으로는 예를 들면 천연기념물, 멸종위기1종, 2종 등이 포함될 수 있다.
상기 가시화 데이터 생성부(240)는 상기 데이터베이스에 임포트된 생태 데이터의 원시 데이터로부터 요약 데이터를 추출하고, 상기 요약 데이터를 포함하는 뷰(View) 테이블을 통해 가시화 데이터를 생성할 수 있다.
상기 데이터 리뷰부(250)는 상기 데이터베이스에 저장된 생태 데이터 값의 타입, 범위의 의미론적 유효성을 상기 가시화 데이터를 통해 검증할 수 있다.
상기 메타데이터 관리부(140)는 XML 스키마를 기반으로 하는 EML(Ecological Metadata Language) 형식으로 상기 메타데이터를 저장하거나 변환할 수 있다.
즉, 상기 메타데이터 관리부(140)는 메타데이터 카탈로그이자 데이터 리포지토리인 Metacat 오픈소스를 사용하여 상기 메타데이터를 상기 EML 형식으로 저장하거나 변환할 수 있다.
상기 데이터 변환 가공부(150)는 서로 다른 형식으로 저장된 데이터의 통합을 지원하기 위해 각 조사 방법마다 통일된 변환 가공 규칙을 정의하고, 데이터 내용에 변경이 있을 때마다 상기 통일된 변환 가공 규칙에 기초하여 변환 가공을 수행할 수 있다.
또한, 상기 데이터 변환 가공부(150)는 상기 의미 기반의 툴을 이용하여, 외부 시스템 내에 다양한 표준 형태로 저장되어 있는 생태를 포함한 시간, 공간, 기상 정보를 통일된 형식의 데이터로 변환 가공할 수 있다.
상기 데이터 검색 및 공유부(160)는 통제 어휘(Controlled Vocabulary) 또는 이의 확장된 형태의 텍사노미(Taxonomy), 시소러스(Thesaurus)와 같은 의미 기반의 툴을 이용하여, 이질적 데이터에 대한 통합 검색을 지원할 수 있다.
또한, 상기 데이터 검색 및 공유부(160)는 조사 방법과 사이트들을 기준으로 상기 생태 데이터를 시계열(Time series) 차트로 표현하거나, 데이터 분석의 평이성을 향상시키기 위해 서로 다른 조사 방법 간 데이터를 비교하여 표현할 수 있다.
상기 제어부(170)는 본 발명의 일 실시예에 따른 장기생태연구를 지원하는 전주기 데이터 관리 장치(100), 즉 상기 데이터 수집부(110), 상기 데이터 검증부(120), 상기 데이터 품질 관리부(130), 상기 메타데이터 관리부(140), 상기 데이터 변환 가공부(150), 상기 데이터 검색 및 공유부(160) 등의 동작을 전반적으로 제어할 수 있다.
이하에서는 도 3 내지 도 10 및 표 1 내지 표 7을 참조하여 본 발명의 일 실시예에 따른 장기생태연구를 지원하는 전주기 데이터 관리 장치의 주요 기능 및 작용 효과에 대하여 보다 구체적으로 설명한다.
1. 주요 기능
본 발명과 관련하여 연구 환경의 요구사항에 따른 주요 기능은 다음과 같다.
첫째는 데이터셋의 입력 및 검증 기능으로 장기생태연구에서 데이터의 품질은 무엇보다도 중요하다. 이 때문에 정해진 프로토콜에 따라 데이터가 수집되고, 수집된 데이터는 정의된 스키마를 따르는지 검증된다. 데이터의 품질 검증은 먼저 데이터에 대한 타입, 범위, 카테고리 등에 대한 시스템으로 자동 검증되고, 데이터에 대한 가시화 자료를 통한 전문가의 의미론적인 검증을 거친다.
둘째는 메타데이터 관리이다. 주요 메타데이터로는 데이터셋, 조사방법, 사이트, 사용자, 기관, 유효성 규칙 등이 있다. 각 메타데이터는 서로 간의 Reference를 제공함으로써 낮은 수준의 시맨틱(Semantic)을 제공할 수 있다. 그리고 메타데이터 역시 입력에 있어 품질제어를 제공한다.
셋째는 검색 기능이다. 검색은 다면검색, 지도검색, 키워드 검색, 통합검색을 포함한다.
넷째는 메타데이터의 EML 변환이다. EML은 장기생태분야 메타데이터 기술을 위한 표준이며, 해외 생태연구 사이트들과의 연계를 위해서는 메타데이터를 EML 형식으로 저장하거나 변환한다.
다섯째는 데이터 변환 가공이다. 서로 다른 형식으로 저장된 데이터(생태 데이터)의 통합을 지원하기 위해서는 통일된 형식의 데이터로의 변환을 지원할 수 있어야 한다. 이를 위해서는 조사방법마다 변환가공 규칙을 정의하고, 데이터 내용에 변경이 있을 때마다 변환가공을 수행한다. 이 기능은 데이터의 가시화 자료 생성에 있어서도 매우 유용하게 활용될 수 있다.
여섯째는 데이터 가시화이다. 조사방법과 사이트들을 기준으로 데이터를 시계열(Time series) 차트로 표현하는 것과, 데이터 분석의 평이성을 향상시키기 위해 두 개 조사방법 간 데이터를 비교하는 기능을 포함한다.
일곱째는 확장성 있는 데이터의 관리이다. 이를 위해 대용량 데이터를 클라우드를 기반으로 관리함으로써 데이터 용량의 증가에도 대응할 수 있다.
2. 데이터 통합 관리 모델 요소 연구
생태학은 생물과 환경의 상호 작용을 연구하는 분야로 환경은 생물적, 비생물적 요인을 모두 포함하는 생물의 주변을 뜻한다. 따라서 생태학은 다른 어떤 학문분야 보다 많은 타 학문과 엮여 있다. 생태학과 관련된 학제 간 연구가 중요시되어 많은 분야의 연구자가 공동으로 참여하며, 또한 장기간에 걸쳐 조사가 이루어지는 학문 분야가 생태학이라고 할 수 있다. 따라서 다양한 연구자와 장기간에 걸쳐 이루어지는 연구 결과를 체계적으로 공통적인 표준에 의하여 정리, 분류, 저장하는 것은 생태학 연구에서는 더더욱 필요하다고 할 수 있다. 지속적이고 공통된 표준 없이는 전 세계적으로 광범위하게 교류되는 생태 관측 데이터의 공유는 물론, 수십 년에 걸친 장기간의 자료의 보존 시 연구자에 따른 주관적인 판단으로 데이터를 잘못 오해하는 경우가 생길 수 있으므로 표준에 의거한 데이터를 축적하는 작업이 필요하다.
1) 데이터(Data)
생태 데이터는 장기적 조사를 위한 프로토콜을 기반으로 측정장비를 이용한 자동화된 기록과 조사자가 직접 기록하는 두 가지 경우의 데이터를 담고 있다. 데이터는 변수 사양, 단위, 정확한 기록, 지형의 크기, 해상도, 참조 시스템과 품질 보증 절차를 포함한다. 데이터베이스는 관계형 데이터베이스 관리 시스템(RDBMS)을 기반으로 공간정보의 조작을 위해 지리정보시스템과 연계한다. 데이터는 통합 저장소에 저장되고 모든 데이터에 빠른 접근성 제공을 위해 메타데이터를 구축한다. 메타데이터는 데이터셋의 설명과 함께 측정 장치 정보와 품질 정보를 포함한다.
가. 데이터 특성(Data Characteristics)
데이터 이질성: 생태연구는 다양한 타입의 데이터셋과 다양한 종류의 볼륨을 가지는 이기종 데이터를 다루기도 한다.
데이터 복잡성: 수집되는 원시데이터는 조사방법에 따라 텍스트, 신호, 이미지, 동영상 등 다양한 형태를 가질 수 있고, 연구 및 분석의 목적으로 이를 가공한 연계 데이터를 추가적으로 가지는 복잡성을 지니기도 한다.
데이터 가변성: 또한 조사기기의 자동화에 따른 센서의 발달로 데이터의 형태도 다양화되고, 장기생태연구 데이터세트는 더 많은 데이터 수집을 요구하는 가설을 발생시켜 지속적인 데이터 필드의 확장이 필요하다.
나. 데이터 통합(Data Integration)
국내에서도 다양한 생태조사사업을 통해 해마다 많은 생태정보가 생산된다. 하지만 조사의 기준과 지역이 불규칙하고 통합 관리되는 시스템의 부재로 데이터는 별도의 단위 시스템에 부분적으로 저장되는 등 데이터가 파편화되어 국가차원에서의 통합적 활용이 불가능하다.
다. 국내 데이터 통합
생태의 범위는 정의하기에 따라 그 크기가 무한대로 커질 수 있는 빅데이터 영역이 될 수도 있다. 생물, 환경, 지리, 토질, 화학 등 학문적으로도 총체적으로 구성된다. 뿐만 아니라 센서 기술의 발달로 원시 데이터 종류도 다양해질 뿐 아니라 동영상과 같은 비디오 데이터는 크기와 처리과정도 복잡하다. 환경을 기반으로 하는 생물 정보를 통합 가능 생태 데이터로 본다면, 국가장기생태연구, 국립공원생태연구, 전국자연환경조사, 생물다양성연구 등이 그 대상일 것이다.
라. 외부 활용 데이터
현재 진행 중인 생태연구는 학문간의 상관관계 복잡도가 높지는 않다. 따라서, 생물종 데이터를 기반으로 기상, 공간 정보 등이 외부 데이터로 활용 가능하다. 기상청 지역별 기상정보 서비스, 지리통계시스템의 지도좌표 및 신구주소 서비스, 구글지도 데이터 등이 대상이며, 이 밖에도 활용범위의 확장에 따라 NASA의 MODIS 데이터도 식물계절 분석에 활용 될 수 있다.
2) 통합 가능 사용자 생성 데이터
표준화된 프로토콜에 준해 데이터 수집을 수집 및 축적을 했어야 하는데 과거 국내 생태연구는 이를 등한시하여 통합 데이터 관리가 어려웠다. 이는 장기적 관점의 데이터 품질을 저해하는 요소로써 과거 시스템에서는 연구자들의 관심분야 데이터를 표준화된 프로토콜과 연계해서 보여줄 방법이 없었다. 호주 TERN의 컴퓨팅 시설(Facility)인 AEKOS에서는 프로토콜과 별개로 개인별 조사(Survey) 데이터도 축적시킬 수 있도록 하고 있다. 자신이 정의한 데이터셋에 대해 표준화된 프로토콜에 따른 데이터셋을 통합 관리하는 것이 필요하다.
3) 데이터 전환/가공 (Data Conversion and Synthesis)
생태 데이터의 활용성 제고를 위해 하나의 포맷으로 전환 및 가공을 통해 공동으로 활용할 수 있는 데이터 모형이 필요하고, 정해진 타임시리즈 형태로 측정값들을 별도로 관리하여 통계 및 상관 분석이 가능해야 한다. 이를 위해 다양한 프로토콜에 상응하는 로컬 스키마와는 별개로 통합 관리용 글로벌 스키마가 필요하며, 단위변환, 통제어휘를 활용한 언어통합, 샘플링 규칙에 따른 타임시리즈로의 전환 및 가공이 요구된다.
4) 데이터 공유(Data Sharing)
국제 데이터 교류는 다양한 분야와 복잡한 구조의 네트워크로 구성이 되어 데이터 센터 또는 국가차원의 고려가 필요하다. 또한 네트워크의 성숙도는 노드마다 다르고 노드 내의 데이터 활용성도 서로 상이하여, 노드간의 연계성에도 많은 문제점들이 존재한다. 현재 Multi-Scale, Multi-discipline의 네트워크로 KNLTER이 데이터 센터 노드로 포함될 수 있는 곳은 KNB, DataONE과 현재 모든 연구데이터의 글로벌 공유를 목적으로 하는 RDA가 있다. 글로벌 데이터 연계를 위해 생태연구에 대한 표준화된 메타데이터를 활용이 필요하고, 자세한 사항은 이후 절에서 언급하도록 한다.
5) EML(Ecological Metadata Language)
생태학자에 의해 개발된 EML은 XML 스키마를 기반으로 하고 있다. EML은 메타데이터에 대한 구조적 표현을 할 수 있는 XML 스키마 문서 형식으로 되어 있어 단위별로 규격화된 모듈을 이용하여 확장이 가능하도록 제공된다. 각각의 모듈은 전체 메타데이터의 일부분을 기술할 수 있게 설계되어 있고, 표 1과 같은 특징을 가진다.
[표 1]
Figure pat00001
6) 활용 툴(Generic Tools)
미국 KNB 프로젝트를 통해 활용 소프트웨어인 Morpho(Higgins et al., 2002)를 통해 EML 형식으로 메타데이터를 만들 수 있을 뿐 아니라 메타데이터를 편집할 수 있다. 이를 통해 EML은 생태연구 데이터 집합에 대해 연구자들이 문서화할 수 있는 수단을 제공한다. 또한 XML 스키마를 기반으로 하고 있어 단위별 규격화된 모듈을 이용하여 확장 사용이 가능하다. 데이터 관리를 위해 많이 사용되는 Metacat은 메타데이터를 데이터베이스에서 관리하고 동시에 데이터를 위한 리포지토리를 제공하고 생태 데이터셋 전체 관리를 가능하게 한다.
7) 데이터 출판(Data Publication)
수집된 데이터는 데이터 스테이징 또는 데이터 큐레이션(Data Curation)을 통해 데이터의 품질을 높이는 절차를 가진다. 이때 다양한 스테이크홀더(stakeholder)가 데이터에 대한 검증을 수행하게 되고 데이터 플랫폼에서는 이를 지원하는 역할을 수행한다. 제출된 데이터는 데이터 소유자가 제출 시에 데이터 유효성을 검증하고, 데이터 관리자와 데이터 리뷰어는 각기 데이터에 대한 스크리닝과 의미론적 검증을 수행하여 장기적 데이터 보관을 위해 데이터를 출판한다. 이 때 데이터의 참조 및 인용이 용이하도록 데이터 식별자를 부여한다.
가. 식별자(Identifier): 저널에서 데이터에 대한 인용이 일반화됨에 따라 데이터셋 출판(publication)에 대한 고유식별자 부여가 필요하며, 이를 위해 호주 TERN은 민팅(Minting) 서비스를 통해 디지털 객체 식별자(DOI)를 부여하여 연구자들에 대한 인센티브를 고려하고, 재활용성을 높이는데 활용하고 있다.
8) 데이터 품질(Data Quality)
장기적 생태연구에서 낮은 품질의 데이터는 신뢰할 수 없을뿐더러 활용을 저해하는 요소이다. 데이터 수집 활동부터 저장 및 활용에 이르는 모든 프로세스에서 품질을 관리하는 것이 중요하다. 데이터 측정은 프로토콜에 정의된 측정방법에 준하여 생성하고, 데이터 핸들링은 일관성 있게 표준 운영 절차를 만들고, 이를 기반으로 정확성과 같은 품질 기준과 기록 해상도에 대한 목표 스펙을 표준 운영 절차에 담고 있어야 한다. 품질 제어(Quality Control)는 이와 관련해서 프로토콜, 유지보수 스케쥴과 보정 스펙 그리고 측정 데이터의 조작에 대한 명확한 지시를 포함해야 하며, 수집 주기에 맞춰 데이터 품질 편차를 관리가 필요하다. 그리고 마지막으로 데이터베이스에 적재되기 전 확인절차를 통해 데이터셋에 품질을 유지하지 할 수 있게 데이터 확인(Data Validation)이 필수로 요구된다. 미국 LTER(Long-Term Ecological Research)는 이외에도 수집 데이터에 대해 2년 이내에 데이터 정밀검사도 실시하고 있다.
9) 데이터 속성(Data Attribute)
생태정보는 환경을 고려한 만큼 공간정보와 기상정보와의 연계가 필수적이다. 지도 좌표상의 위치, 고도와 함께 그 지역의 정확한 기상정보도 생태환경분석에 필수 속성으로 사용자의 가독성이 뛰어난 UI가 고려되어야 한다.
10) 데이터 접근(Data Access)
생태연구자들이 데이터의 생산부터 관리 및 활용까지 전주기에 걸쳐 참여한다. 생태연구자들이 생태정보서비스의 주요 사용자로 정의될 수 있다. 영국 ECN에서는 사용자 그룹을 크게 과학적 연구자(Scientific Researchers), 정보중개인(Information Brokers), 일반 공공 및 학생(General public and school students)의 세가지로 분류하고 있고, 미국 LTER에서는 연구자(Researchers), 교육자/학생(Educators and Students), 미디어 전문가(Media Professionals), 의사결정자(Decision Makers)로 네 가지로 분류하여 서비스하고 있다. 이 시스템들의 데이터 접근 사용자분류는 생태연구자를 우선 시 하고 있고, 후진양성을 위한 목적의 교육적 분류를 가지고 있으며, 미디어와 정책결정자들을 위한 요약정보를 제공한다.
11) 데이터 보안(Data Security) 및 데이터 라이센스(Data License)
현 정부에서는 공공정보를 적극적으로 개방하고 공유를 통해 소통과 협력 체계 강화를 위해 '정부 3.0'이란 패러다임으로 공공데이터를 대폭 활용하도록 하고 있다. 생태데이터 역시 이 대상이고, 기본 공개가 원칙으로 적용되어야만 한다. 하지만, 일부 데이터에 대한 제한적 사용과 비공개를 기반으로 하는 데이터의 보안 역시 중요한 숙제이다. 예를 들어 멸종 위기종과 같은 정보에 대한 지리정보의 공개는 정부 및 환경단체를 통해 보호활동에 활용될 수 있지만, 상업적이거나 악의적인 집단이 이용할 경우엔 반대의 멸종에 이르는 결과를 가져올 수 있다.
호주 TERN은 국제표준적인 CCL(Creative Commons License)을 활용하고 있으며, 국내에서는 공공누리(Korea Open Government License, KOGL)라는 공공저작물 자유이용허락 표시제도를 시행 중에 있다. 이 둘은 조건부 매핑이 됨으로 어느 하나를 채택해도 국/내외 활용에는 문제가 없다. 다만 영국 ECN의 경우, 상업적이냐 비상업적이냐에 따라 생태운영위원회에서 접근 권한을 부여한다.
12) 통제 어휘(Controlled Vocabulary)
데이터와 정보에 태그를 사용하여 용어의 표준화된 목록을 제공함으로써 이해 관계자 간의 의사소통과 지식교환을 목적으로 커뮤니티에서 활용되는 용어 자원을 구축한 통제 어휘를 사용한다. 이는 용어사용의 모호성을 제어하고, 유의어 사전(Synonyms)은 추가적으로 유의어를 제어하고, 분류(Taxonomy)는 부모/자식 관계의 계층적 구조까지 제어가 가능하다. 뿐만 아니라 시소러스(Thesaurus)는 표준화된 관계지표에 의해 용어간의 관계까지 명확하게 정리하고 표현된다. 이질적인 스키마로 이루어진 데이터셋에서 통제어휘는 유사한 데이터셋의 검색을 가능하게 한다. 통제어휘의 구조는 복잡도가 증가함에 따라 종류가 나뉘며 아래 표 2와 같다.
[표 2]
Figure pat00002
3. 과거 데이터 정제 및 구축방안
1) 데이터 정제 방안
장기생태연구 데이터의 품질을 높이는 방안으로 과거 데이터와 앞으로 생성되는 데이터에 대해 나눠서 고려할 수 있다. 과거 장기생태연구를 통해 구축된 데이터를 활용하기 위해서는 데이터의 속성에 따라 오류 수정의 방법이 달라진다. 생태 전문가가 수정할 수 있는 영역, 데이터 관리자가 시스템적으로 수정할 수 있는 영역 그리고, 조사되지 않은 데이터로 수정할 수 없는 영역으로 분류될 수 있다. 생태 전문가가 수정할 수 있는 영역은 종명, 수치정보 등의 잘못된 기재와 데이터베이스에 입력하지 않은 조사 데이터는 데이터를 수집한 전문가가 직접 수정할 수 있다. 그리고, 조사방법에 명기된 표현방식에 위배되고 규칙성을 가지는 데이터는 데이터 관리자가 수정할 수 있다. 조사되지 않은 null 값인 정제할 수 없는 데이터는 레코드 전체를 버릴지, 아니면 부족하지만 빠진 채로 사용할지는 전문가 그룹의 결정에 따라야 한다. US-LTER에서는 유통되는 데이터에 대해 2년 이내에 정밀 데이터 검사와 같은 사후 데이터 품질관리도 중요하게 고려하는 만큼 데이터 정제 후에 반드시 수정된 데이터에 대한 의미론적 검토를 거쳐 데이터 품질의 확인을 거쳐야 한다.
2) 시스템 구축 방안
장기적 생태연구에서 낮은 품질의 데이터는 신뢰할 수 없을 뿐더러 활용을 저해하는 요소이다. 데이터 수집 활동부터 저장 및 활용에 이르는 모든 프로세스에서 품질을 관리하는 것이 중요하다. 프로토콜에 정의된 측정방법에 준하여 데이터를 생성하고, 데이터 핸들링은 일관성 있게 표준 운영 절차에 따라 정확성과 같은 품질 기준과 기록 해상도에 대한 목표 스펙을 표준 운영 절차에 담고 있어야 한다. 사용자가 데이터를 시스템에 입력할 때 데이터에 대한 유효성 검사와 데이터 관리자의 품질을 높이기 위한 지속적인 모니터링과 커뮤니티에서 입력 데이터에 대한 의미 확인 절차를 통해 데이터를 유통할 수 있도록 해야 한다.
도 3은 앞서 언급한 문제점에 대한 해결안을 반영한 장기생태 데이터 관리 워크 플로우를 나타낸다. 측정 프로토콜의 부재는 사전에 커뮤니티에서 정의하여, 메타데이터로 관리하고, 체계적 데이터관리와 데이터 품질 관리 절차를 통해 데이터 파편화와 낮은 데이터 품질의 문제를 해결하였다. 또한 동일한 시스템 구조로 DB와 스토리지를 활용하여 정형 데이터와 비정형 데이터 저장을 위한 통합 저장소를 제공하고, 데이터 가공, 지도기반의 다면검색, 통제 어휘 관리를 통한 데이터 활용성을 제고하였다. 데이터 배포를 위해 데이터 저작권 라이선스를 부여하고, 데이터 인용 식별체계인 DOI(Digital Object Identifier)을 생성하여 연계하도록 하였다. 또한 국제 표준 메타데이터인 EML을 생성하여 Metacat을 통한 호환성을 확보하여, 국제적 데이터 공동 활용이 가능하도록 하였다.
3) 소결론
장기생태정보의 국제적 호환성을 유지하고 관련 커뮤니티 사용자의 공동 활용을 만족하기 위해서 개인정보의 공개는 반드시 필요하다. 하지만 개인의 프라이버시 침해를 최소화하면서 장기생태연구 커뮤니티의 협업에 도움이 될 수 있는 데이터 관련자 정보의 공개 최대화는 상호간의 균형(Trade-off)을 요구한다. 장기생태정보시스템은 장기간 구축되는 데이터의 공동 활용을 기본으로 하고 있고, 데이터 관리를 위해 데이터 입력, 데이터 관리, 데이터 검토, 데이터 배포 등의 역할을 가지고 있는 사용자간의 협업이 이루어진다. 그러기 위해서는 커뮤니티 특성상 공동의 주제에 대한 협업이 반드시 필요하며, 이를 위해 LTER 인프라에서 개인정보는 개인의 동의에 의해 연구의 교류를 목적으로 제공되어야 한다.
본 연구에서는 국내 관련 법에 대한 시스템 구축 측면에서의 해석과 글로벌 장기생태인프라에서 제공하고 있는 개인정보의 현황을 토대로 개인정보 관련 기능을 살펴보았다. 개인정보의 공개 범위는 항목별 사용자의 권한에 따라 차별적으로 제공하고, 개인정보의 수집은 개인의 동의를 기반으로 공개기간, 공개범위 등에 대한 공지 및 동의절차를 계정획득과 이메일 연동과 같은 시스템적으로 처리할 수 있는 방법에 대해 제시하였다. 개인정보는 아니지만 데이터 보안도 개인별 사용 권한에 따라 접근제어가 가능해야 하고, 데이터 기여자 이상의 권한을 가진 사용자는 데이터 이용이 가능해야 한다. 데이터 접근 권한 역시 사용자 개인정보의 공유를 기반으로 이루어짐으로 데이터 활용에도 반드시 필요한 요소라 할 것이다.
4. 개인정보 관리
국가차원에서 생태관측 데이터의 활용성을 제고하기 위해서는 국내외 서로 다른 기관에서 생성되는 데이터와 다양한 생태관측 프로토콜에 따라 수집되는 데이터들을 통합하는 과정이 필요하다. 그러기 위해서는 데이터를 설명 및 요약하는 메타데이터와 데이터를 공유할 때 관련 개인정보 보호의 고려가 필요하며, 개인의 프라이버시 침해를 방지할 수 있는 관리가 필요하다. 본 절에서는 국제 장기생태 플랫폼에서 활용되고 있는 개인정보 범위를 분석하고, 국내 관련 법률의 가이드를 따른 장기생태정보시스템의 개인정보 보호 범위를 제시하고자 한다.
1) 관련 연구
가. 개인정보 생명주기
정보의 공유가 증가함에 따라 개인정보의 수집 및 이용이 사회적으로 일반화됨에 따라 이를 악용하는 개인 프라이버시 침해 사례가 증가하고 있다. 정보시스템에서 운용하는 개인정보는 개인의 신상정보, 연락정보, 금융정보 등이 있고 장기생태정보시스템에서는 금융정보와 같은 민감성이 높은 정보를 제외한 정보들이 일반적으로 유통되지만 이들 개인정보 역시 보호되어야 하는 정보이다. 개인정보의 유출은 악의적 해킹, 고의적 공개로 가능하고, 개인들의 부주의로 인한 분실, 실수로 발생할 수 있다. 장기생태 정보의 공공성과 국제 데이터 호환의 측면에서 필요한 개인정보 DB 관리기술 측면에서의 생명주기는 다음과 같다.
a) 수집단계
개인정보를 수집할 때 개인정보 항목, 보유기간 및 사용목적에 대해 개인정보 소유자 확인이 필요하고, 개인정보 범위를 최소화하여 수집하여야 하며 모든 개인정보들은 동의를 거쳐야 한다.
b) 저장 및 보유단계
저장 및 보유단계에서는 시스템에 대한 개인정보파일의 리스트도 존재해야 하고 변경되는 경우 절차가 필요하다. 또한 개인정보 및 비밀번호의 암호화 수준도 고려가 되어야 한다.
c) 이용 및 제공 단계
타인의 개인정보를 이용 목적을 벗어난 용도로 타 기관에 제공할 경우, 별도의 동의를 받는 절차가 마련되어야 한다. 또한 개인정보의 관리는 사용자 권한에 따라 설정이 되어야 하고 접속 제한도 고려가 되어야 한다.
d) 파기 단계
개인정보파일의 보유기간이 경과하거나 보유목적이 달성되었을 경우 파기해야 보유 목적을 달성한 개인정보를 부득이하게 보관할 경우 해당 개인정보를 다른 개인정보와 분리하여 보관해야 한다. 또 개인정보의 보유기간이 만료가 되어 파기할 경우 재사용 및 복구가 불가능하도록 파기하도록 해야 한다.
나. 관계 법령 개인정보
개인정보보호 관계 법령은 '정보통신망 이용촉진 및 정보보호 등에 관한 법률', '개인정보 보호법', '위치정보의 보호 및 이용 등에 관한 법률'이 있으며, 이하 시행령과 시행규칙이 있다. 개인정보를 관리하는 장기생태정보시스템에서는 관련 법령에 준수하여 구축을 해야 하며, 커뮤니티의 공공적인 연구목적에 맞게 그 범위가 고려되어야 한다. 관련 법령에서 다루는 개인정보는 크게 아래와 같은 사항의 반영을 요구한다.
a) 주요 고려항목
공공성(공공기관이 법령 등에서 정하는 소관 업무의 수행)
개인정보처리자의 정당한 이익 최소화 및 개인별 이익 고려
개인정보 공개 대상 최소화
개인정보 공개 항목 최소화
개인정보 수집 및 이용이 가능한 범위
개인정보 동의 방법
개인정보 동의 내용
LTER 인프라에서 개인정보는 공공기관의 법령 등에서 정하는 공공적 소관업무에 부합하고 개인의 동의에 따라 연구의 교류를 목적으로 제공되어지기 때문에 공공성이 있다고 볼 수 있다. 공동 데이터 공유를 위해 개인별 데이터에 대한 수집 및 관리가 가능하며, dataset에 대한 지분도 포함하여 소유가 발생되므로 작지만 개인별 이익도 고려가 된다. 법령에서 정의한 개인정보의 범위별 열람 권한 제어를 통해 공개대상을 최소화하고 사용자 권한별로 개인정보의 일반정보 중 일부만 공개하여 공개 항목을 최소화해야 한다. 서면, 전자우편, 모사전송, 전화, 전화 문자전송, 홈페이지와 같은 시스템을 통한 개인정보 동의방법으로 수집 및 이용 목적, 수집항목, 개인정보 보유 및 이용기간의 내용을 전달해야 한다.
다. EML 개인정보
EML(Ecological Metadata Language)은 생태연구 데이터 집합에 대해 연구자들이 문서화 할 수 있는 수단을 제공한다. EML은 XML 스키마를 기반으로 하고 있으며, 단위별로 규격화된 모듈을 이용하여 확장이 가능하도록 지원하고 있다. 도 4와 같이 EML에서 사용되는 개인정보를 살펴보면, 여러 메타데이터로 구성되어 있다. 데이터에서 많이 사용되는 <creator> 정보에서, 생산자의 성, 이름, 주소, 전화번호, 이메일 주소를 기본으로 한다. 주소의 경우, 여러 개의 주소를 표현할 수 있고, 생산자도 부가적으로 메타데이터를 제공하는 <metadataProvider>와 데이터 생성에 관계하는 <associatedParty>의 형태도 있다.
라. 국제 장기생태정보시스템 개인정보
장기생태정보시스템의 데이터는 글로벌 장기생태연구(International Long-Term Ecological Research) 교환을 필요로 한다. 그러기 위해서는 메타데이터와 데이터의 호환을 고려해야 하고, 정보의 주체인 개인들에 대한 정보들도 국제 상황을 고려하여 구축해야 한다.
2) 개인정보 구축 방안
국제 장기생태정보시스템의 개인정보 공개현황에서는 가장 기본적인 개인정보만을 공유하고 있으며, 국내 관련 법령의 공공성, 공개 대상 최소화, 공개 항목 최소화를 만족하고 있다. 개인정보의 수집 범위와 공개 범위를 논하기 위해서는 장기생태정보시스템에서의 사용자 그룹에 대해 먼저 살펴보아야 한다. 장기생태정보시스템은 누구나 이용할 수 있는 권한인 일반사용자, 계정 획득을 통한 데이터 기여자(Data Contributor), 데이터를 관리하는 주체인 데이터 관리자(Data Manager), 데이터를 의미론적으로 검증하는 관련 분야의 전문성을 가지는 데이터 검토자(Data Reviewer), 과제관리기관과 같은 관련기관 담당과 커뮤니티의 참여하고 있는 관련자(Associated Parties), 시스템의 모든 권한을 가지는 시스템 관리자로 분류가 되며, 필요한 개인정보의 범위는 역할과 활용 측면에서 고려될 수 있다. 그리고, 시스템을 통해 데이터를 제공하는 데이터 기여자 외에도 데이터 수집에 참여하는 데이터 수집자의 정보도 공개가 되어야 한다. 개인정보의 범위는 관계 법령의 수집 및 이용이 가능한 범위에 해당하며, 공개 정책 수립에도 부합한다. 개인정보 동의방법과 동의내용은 정보시스템 가입 시 안내문을 통해 개인이 확인할 수 있게 하며, 제 3자의 정보 공개는 개인별 안내 메일로 제공하고, 공개 범위와 공개기간 등을 시스템을 통해 확인 시 최소한의 해당 정보항목을 공개할 수 있도록 한다. 표 3에서는 장기생태정보시스템에서 사용자 역할별로 해당 개인정보의 공개 범위를 보여준다. 성명, Email, 직책, 기관 정보는 최소한의 공개항목으로 시스템에서 사용자를 정의하는 식별자로 활용될 뿐만 아니라 커뮤니티에서 개인을 확인하는 최소항목으로 시스템에 필수 입력되고 공개되는 항목이다.
[표 3]
Figure pat00003
또한 주소, 전화번호 등과 같은 추가정보항목은 선택적 공유를 통한 계정을 가지는 커뮤니티 사용자에게 공유되고 비고 항목을 통해 보다 적극적인 협업이 가능한 부가적인 개인정보를 관리할 수 있다.
3) 소결론
장기생태정보의 국제적 호환성을 유지하고 관련 커뮤니티 사용자의 공동 활용을 만족하기 위해서 개인정보의 공개는 반드시 필요하다. 하지만 개인의 프라이버시 침해를 최소화하면서 장기생태연구 커뮤니티의 협업에 도움이 될 수 있는 데이터 관련자 정보의 공개의 최대화는 상호간의 균형(Trade-off)을 요구한다. 장기생태정보시스템은 장기간 구축되는 데이터의 공동 활용을 기본으로 하고 있고, 데이터 관리를 위해 데이터 입력, 데이터 관리, 데이터 검토, 데이터 배포 등의 역할을 가지고 있는 사용자간의 협업이 이루어진다. 그러기 위해서는 커뮤니티 특성상 공동의 주제에 대한 협업이 반드시 필요하며 이를 위해 LTER 인프라에서 개인정보는 개인의 동의에 의해 연구의 교류를 목적으로 제공되어야 한다.
본 연구에서는 국내 관련 법에 대한 시스템 구축 측면에서의 해석과 글로벌 장기생태인프라에서 제공하고 있는 개인정보의 현황을 토대로 개인정보 관련 기능을 살펴보았다. 개인정보의 공개 범위는 항목별 사용자의 권한에 따라 차별적으로 제공하고, 개인정보의 수집은 개인의 동의를 기반으로 공개기간, 공개범위 등에 대한 공지 및 동의절차를 계정획득과 이메일 연동과 같은 시스템적으로 처리할 수 있는 방법에 대해 제시하였다. 개인정보는 아니지만 데이터 보안도 개인별 사용 권한에 따라 접근제어가 가능해야 하고, 데이터 기여자 이상의 권한을 가진 사용자는 데이터 이용이 가능해야 한다. 데이터 접근 권한 역시 사용자 개인정보의 공유를 기반으로 이루어짐으로 데이터 활용에도 반드시 필요한 요소라 할 것이다.
5. 데이터 전환 및 가공 방안
국내 데이터는 물론 해외 데이터와의 연관성 분석 수요가 증대하고, 국제장기생태연구 네트워크(ILTER)에서는 활용성을 높이는 데 많은 관심을 기울여 왔다. 일관성 있게 수집된 데이터를 하나의 포맷으로 통합하여 타임시리즈 형태로 전환 및 가공을 통해 분석이 용이한 데이터로 만드는 과정을 거쳐 관측 데이터간의 상관성 분석도 가능해진다. 과거에는 사람이 일일이 데이터를 전환하고, 하나의 가공된 형태로 데이터를 생성하는 절차를 거쳐 많은 시간과 노력이 소요됨은 물론 잠재적 에러가 데이터 품질을 저해하는 요소가 되어 왔다.
본 연구에서는 프로토콜을 가지는 사이트 기반의 측정된 소스데이터를 어떻게 관리하고 데이터 전환 및 가공을 통해 통합 데이터를 생성하는 일련의 프로세스에 대해 논의하고자 한다.
1) 전환 및 가공 프로세스
관측 프로토콜대로 수집된 입력 데이터는 다양한 형태로 첨부되어 입력되고, 비정형데이터는 별도 어플리케이션에서 활용될 수 있게 스토리지에 저장되고, 정형데이터에 대해서는 스토리지에 저장될 뿐만 아니라 DBMS로 변환되어 활용된다.
도 5는 동일 프로토콜의 데이터의 가공을 개념적으로 표현한 도면이다. 전환 및 가공 프로세스는 도 6에서와 같이 데이터 입력부터 가공데이터 활용에 이르기까지 몇 단계를 거치게 되며 세부 모듈은 아래와 같다.
가. FL(로컬 스키마 처리)
사이트에서 관측데이터를 기반으로 하는 로컬 스키마를 정의하고 원시데이터를 해당 저장소로 이동시키고 텍스트 기반 데이터는 파싱(parsing) 후 생태관측 프로토콜인 EML에 맞는지 유효성 검사를 실시하고 문제가 없으면, 데이터셋에 맞는 데이터를 해당 저장소로 이동시킨다.
직접입력을 통한 데이터도 동일 과정을 거쳐 CSV 파일로 저장 후 저장소로 이동시킨다. 이때 텍스트 기반의 데이터는 거쳐 타임시리즈 형태의 가공 데이터를 생성하는 전환/가공(Converting/Synthesizing) 모듈로 보내진다.
나. FG(글로벌 스키마 처리)
텍스트 기반의 정형데이터는 로컬 스키마와 글로벌 스키마의 매핑으로 글로벌 스키마에 정의된 룰 기반의 가공 규칙에 준해 데이터 타입을 전환한다. 이 때 단위변환, 언어통합, 글로벌 스키마에 맞는 타임시리즈 형태로 데이터를 가공한다.
통합된 가공 데이터는 RDB에 저장되고, 사용자 서비스 호출에 데이터 파일과 통계정보를 함께 제공한다. 국내외 생태관측 데이터는 입력 사전에 정의된 프로토콜을 시스템에 로딩해서 관리를 해야 하고, 한번 등록된 데이터셋은 향후에는 다시 작성할 필요 없이 업데이트만 하면 된다. 비교적 용량이 큰 비정형 데이터는 확장성이 좋은 클라우드 저장소에 저장을 하고, 텍스트 기반의 정형 데이터는 활용을 고려하여 원시 데이터를 저장할 뿐만 아니라 RDB에도 관리하여 저장한다.
2) 소결론
생태관측 데이터의 활용을 극대화하기 위해서는 다양한 생태관측 프로토콜로 수집되는 데이터들을 통합하는 과정이 필요하다. 하지만, 생태관측 프로토콜은 그 대상과 목적에 따라 다르고, 제공되는 데이터의 커뮤니티에 따라 데이터 타입, 단위, 언어, 샘플링 주기 또한 제 각각이다. 생태관측 데이터 제공자간의 데이터 활용성을 가장 높일 수 있는 방법은 공통된 데이터 필드만으로 구성되는 데이터셋을 구성하는 것이다. 국제 장기생태연구 컨소시엄(ILTER)에서는 타임시리즈 기반의 데이터 값을 중심으로 가공 데이터를 생성하는 것에 초점을 모아왔다.
본 연구에서는 국내 여러 기관에서 생성되는 생태데이터와 국제 데이터를 대상으로 국내 생태관측 시스템에 적합한 전환 및 가공 프로세스를 설계하여 제시하였다. 본 프로세스는 커뮤니티의 특성이 고려된 사용자 품질제어에 대한 내용은 언급하지 않고 시스템에서 처리되는 품질제어에 대해서만 얘기하였지만, 사이트에서 1차적 품질제어가 이루어진다면, 본 프로세스에서는 데이터 관리자가 확인할 수 있는 절차만 고려하면 될 것이다.
입력되는 원시데이터는 등록된 데이터셋을 토대로 검증절차를 거쳐 해당 저장소 및 DMBS에 저장이 되고, 전환/가공 모듈을 거쳐 통합된 형태의 가공 데이터로 관리된다. 이를 통해 다른 기관에서 제공된 데이터, 다른 생태관측 데이터는 하나의 포맷으로 공동 활용될 수 있다.
6. 글로벌 데이터 공유
데이터 기반의 국제 협력연구에서 데이터에 대한 장기적 축적과 재사용이 이슈가 되고, 데이터 공유를 위한 신뢰성 있는 data publication에 대한 요구가 증대되고 있다. 국제 데이터 교류는 다양한 분야와 복잡한 구조의 네트워크로 구성이 되어 데이터 센터 또는 국가차원의 고려가 필요하다. 과거 KNLTER(Korean National Long-Term Ecological Research) 시스템은 데이터의 통합 저장소 관리와 데이터 품질관리가 이루어지지 않았음은 물론, 데이터셋에 사용된 용어도 한국어에 이르는 등 국제 데이터 교환에 근본적인 문제를 가지고 있었다. 또한 국제 생태 메타데이터 표준인 EML(Ecological Metadata Language)를 준수하지 않았고, 데이터 교환을 위한 표준적 소프트웨어 스택을 사용하지 않아 데이터 기반의 국제 협력 연구가 이루어 질 수 없었다. 사전연구에서 언급한 LTER 네트워크와 데이터 공유가 가능한 네트워크는 생물복잡성(Biocomplexity) 분야의 KNB(Knowledge Network for Biocomplexity)와 보다 큰 범위의 지구 과학분야의 DataONE(Data Observation Network for Earth), 글로벌 연구 데이터의 공유를 위한 RDA(Research Data Alliance)가 있다.
본 연구에서는 국제 네트워크 연계 모범 사례(best practice)인 TERN 네트워크 구조 분석을 통해 KNLTER의 글로벌 네트워크 및 데이터 교환 모델과 필수 기술에 대해 논의한다.
1) Best Practice: TERN Network
TERN은 장기 생태 모니터링 기관들을 통합하여 만들어진 사이버 인프라 환경으로 다양한 Facilities로 구성된 네트워크이다. 생태 과학자를 위한 환경을 제공하여 데이터 수집, 저장, 공유에 걸친 데이터 통합을 지원한다. Facilities 크게는 다섯 가지 영역으로 분류가 되며, 첫째, Ecological Plot Data 영역; SuperSites, Transects, AusPlots-F, AusPlots-R, 둘째, Physical Environment 영역; Coasts, OzFlux, Soils, AusCover, 셋째, Biodiversity & Physical Environment 영역; OzFlux, Soils, AusCover, 넷째, Data Cyberinfrastructure 영역; Eco-Informatics(AeKOS), 다섯째, Data Analysis & Synthesis; eMAST, ACEAS로 구분된다.
도 7은 TERN의 Facility의 네트워크 구성을 나타내는 도면으로, 각 Facilities는 데이터셋을 관리하는 포털 서비스를 제공하고 있다. 상위 TERN DDP(Data Discovery Portal)에서는 harvest된 메타데이터만 공유하는 약하게 결합된 구조지만, 하위 네트워크 노드의 데이터를 통합하여 관리하고 검색과 함께 데이터를 찾아갈 수 있는 링크를 제공한다. 각각의 Facilities에서 데이터에 대한 데이터 라이센스를 관리하고 DOI minting service를 한다. Eco-Informatics facility인 AeKOS(Advanced Ecological Knowledge and Observation System)는 다른 Facilities와는 다르게 생태관측 장비가 없고, Data aggregation과 integration을 담당하며 Fauna(동물), Flora(식물)에 대해서만 MSPL을 통해 데이터셋을 통합한다. eMAST와 ACEAS는 컴퓨팅 노드로 각각 Ecosystem modeling and scaling과 ecological analysis and synthesis를 담당한다.
도 8은 TERN을 중심으로 구성된 데이터 공유 네트워크를 도시한 도면으로, 다양한 네트워크 게이트웨이들과 연계되어 데이터셋을 교환하고 있다. 호주의 Data governance로써 ANDS(Australia National Data Service)는 과학, 연구분야를 커버하고 연구기관과 데이터 생산기관을 파트너로 두어 멀티분야(Multi-discipline) 협업연구까지 지원하는 체제를 갖추고 있다. 데이터 센터들에게 데이터셋 ID를 부여하는 DOI Minting 서비스를 제공할 뿐만 아니라 국가차원에서 데이터 관리를 지원하는 형태이다. TERN은 ANDS의 대표적 데이터 생산기관 중 하나이며, ANDS에게 메타데이터를 공유한다. 특이점은 하위 노드로 분류되었던, AusPlot도 생태 이외 분야의 원천 데이터이므로 ANDS에 직접적인 공유체계를 가진다. 또한 TERN은 앞서 언급한 대로 생태, 환경 분야의 데이터 센터로 DataONE과 그 하위 Member node인 KNB와도 데이터셋을 공유한다. 호주 data governance인 ANDS는 DataONE 마찬가지로 멀티분야 데이터 협력체계인 RDA와도 긴밀하게 데이터 공유를 진행 중에 있다.
2) KNLTER의 국제 데이터 연계 방안
가. 국제 데이터 연계 모델
장기생태연구는 장기적으로 모니터링된 지협적인 데이터부터 글로벌 데이터가 모일 때 정확한 분석이 용이해진다. 국제 장기생태연구 데이터는 각 연구 사이트에서 수집된 데이터를 1차 데이터 리파지토리(Primary data repository)에 통합 저장하고, 이를 2차, 3차 데이터 수집 리파지토리에서 저장하면, 데이터 분석할 수 있는 파라미터들이 늘어나 더욱 정교한 해석이 가능해진다. 국제 데이터 연계는 크게 두 가지로 적용할 수 있다
첫째로 개인이나 프로젝트 기반의 연구자들이 KNB에 PC 버전용 Morho와 웹 인터페이스를 통해 직접 데이터를 제출하는 방법이 있다. 이때 KNB는 제출된 데이터셋에 대해 EZID와 연계하여 DOI를 부여하고 Metacat 서버를 통해 DataONE에 복제하는 방식이다. 둘째, 입력 기능, EML 전환 기능, Metacat 등이 포함된 시스템을 구축해 Data Center가 DataONE에 직접 제공하는 방식이 있다. Metacat에 저장된 데이터셋은 KNB의 Member Node에도 복제가 되어 커뮤니티에서의 활용이 가능하다.
도 9는 국제 데이터 공유방안에서 (A)는 개인이나 프로젝트 연구자가 직접 공유하는 방식이고, (B)는 데이터 센터를 구축하여 DataONE의 Member node로 데이터를 공유하는 방식이다. KNLTER 시스템 역시 데이터 센터로 DataONE과 KNB에 수집된 데이터셋을 공유하는 것이 바람직한 모델이라 할 수 있다. DataONE으로 데이터를 공유할 때 실제 수집된 데이터뿐만 아니라 메타데이터 제공을 원칙으로 하며, 데이터 센터의 공유 정책에 따라 메타데이터만 제공하고, 데이터에 대해서는 링크정보만 제공하기도 한다.
Member Node의 데이터 중에 공유되는 데이터들의 라이선스는 CCL(Creative Commons License)의 CC-BY(저작자 표시)를 따라야 하며, Data Center는 이외의 라이선스에 해당하는 데이터도 관리해야 한다. 또한 한국의 경우 CCL를 사용하기도 하나 최근에는 KOGL(Korea Open Government License)로 전환하고 있어 국제 연계를 위해서는 두 개를 매핑 형태로 사용할 수 있다. 또한 데이터를 유통하기 위해서는 DOI를 데이터셋에 부여해야 하는 데 KNB의 경우는 데이터를 제출할 때 EZID로부터 data minting service를 이용하여 ID를 받기도 하지만, data center의 경우 자체적으로 DOI까지 관리를 하려면 별도의 DOI 발급을 연계가 필요하다. 한국의 경우는 2016년에 KISTI가 DOI 등록관리기관으로 승인되면서, 향후 DOI 발급 연계가 고려되어야 한다. 그 외에도 체계적인 Data Curation이 필수적 기능이라 할 수 있는데, Data center로 DataONE의 Member node도 등록하려면, Published data에 대해 식별자 부여를 통해 장기적 보존을 통해 엑세스가 보장되어야 하고, 데이터 패키지에 대해 Resource Maps 제공과 높은 품질의 데이터를 제공할 수 있는 시스템을 갖추어야 한다.
나. DOI
DOI는 모든 객체에 부여될 수 있는 식별자로 인터넷 문서와 같은 디지털 콘텐츠에 부여되는 고유 식별자이다. 디지털 콘텐츠의 저자, 날짜 등과 같은 메타데이터와 객체에 대한 위치정보를 제공함으로써 객체에 대한 영구적 접근이 가능하다. IDF(International DOI Foundation)은 DOI 체계의 정책과 등록관리를 총괄하고 있고 2007년 ISO TC46에 ISO식별자의 Actionable Identifier로 DOI를 표준으로 제시하여 현재 ISO 26324 국제 표준으로 채택되었다. DataONE 데이터 역시 DOI를 기반으로 유통되고 있고, 대부분은 IDF의 RA(Registration Agency) DataCite의 member node로 DOI를 관리하고 있다. 한국은 2016년도에 KISTI(Korea Institute of Science and Technology Information)가 RA 기관으로 지정 받아 운영을 시작하였다. KNLTER도 국제적 데이터 센터 역할을 수행하고 데이터를 공유하기 위해서는 유통에 필요한 식별자가 반드시 필요하며, DOI 연계체계를 구축함으로 데이터 접근성을 향상시킬 수 있을 것이다.
다. Data License
데이터를 서로 교환하기 위해서는 몇 가지 주요 요소가 있다. 첫째 생태계 연구 정보에 대한 오픈 액세스가 가능해야 하고, 둘째 기존의 데이터 활용에 대한 권리를 인정하야 하며, 셋째 여러 조직의 협업 구조가 반영이 되어야 한다.
3) 소결론
본 연구에서는 KNLTER 시스템의 국제 데이터 교환을 위해 필요한 국제 데이터 공유 체계를 분석하여 국제 데이터 연계 방향과 데이터 관리 기능들을 가지는 국제 연동 모델을 제시하였다. 특히 호주의 TERN 모델은 자국 내 다양한 생태 관련 facilities를 통합하는 네트워크 구성으로 전문적인 사이버 인프라 제공 facilities를 포함하고 호주 내 데이터 거버넌스를 통해 국가 단위의 데이터 공유 네트워크를 구축하고 있다. 또한 국제 데이터 공유를 위해 KNB, DataONE 연계와 다양한 분야간 협업을 리딩하는 RDA와의 협력을 지향하고 있다. KNLTER에 제시한 국제 연동 모델은 선행적으로 네트워크 노드간의 유통 정책이 필요하고, 네트워크 정책에 따라 다양한 네트워크에 위치될 수 있다. node간의 데이터 연계는 Metacat을 통해 harvesting, replication을 통해 이루어지며, 노드간의 replication은 전세계 데이터에 대한 Centralized Search도 기술적 측면에서 가능해진다. 데이터에 대한 식별은 데이터 DOI를 활용으로 세계 어디서든 해당 데이터에 대한 접근이 이루어질 수 있다. 데이터 재사용 시 지적재산권의 침해를 막고 활용 가능한 범위를 명시하는 데이터 라이센스를 국내외 모두 적용할 수 있도록 매핑 테이블을 구성하여 데이터 활용의 범위를 극대화 할 수 있다.
7. 사용자 권한 및 역할
본 발명의 시스템(K-Ecohub)에서 데이터 관리를 위한 사용자의 역할은 다음과 같다.
data manager는 데이터 생명주기 전체를 관리하는 역할이다. 각 사이트별 data contributor는 수집된 데이터를 K-Ecohub에 제공하는 역할이다. reviewer는 K-Ecohub에 입력된 데이터를 검증하는 역할을 수행한다.
표 4와 표 5는 역할별 수행 내용과 권한을 보여준다.
[표 4]
Figure pat00004
[표 5]
Figure pat00005
8. QA(Quality Assurance)/QC(Quality Control)
장기생태연구에서 필수적인 요소 중의 하나는 데이터의 처리와 품질관리로서, 품질이 보장되지 않은 데이터는 신뢰할 수 없다. 데이터 수집부터 품질 표준을 설정하고, 이 품질 표준이 지켜졌는지 모니터링하고 시스템적으로 스크리닝 할 수 있어야 한다. K-Ecohub는 ECN과 유사하게 여러 사이트들에서 적용될 수 있는 데이터 수집을 위한 표준화된 프로토콜을 정의한다. 이 프로토콜은 모니터링하는 대상, 내용, 방법뿐 아니라 측정 데이터의 타입, 단위까지도 정의함으로써 데이터 수집의 일관성을 보장한다. 이러한 표준 프로토콜에 따라 수집된 데이터는 정해진 스키마에 따라 K-Ecohub 시스템에 입력되며, 스키마와 일관성 있게 작성되었는지 검증된다.
도 10은 K-Ecohub에 데이터셋이 입력되는 경우의 검증 절차를 보여준다. 데이터셋의 품질 관리를 위해 데이터셋은 표 6과 같이 6개의 상태로 관리된다. Draft 상태는 data contributor의 데이터셋의 입력 완료 이전 임시로 저장된 상태이다. Need Data Manager Work는 data contributor의 입력 작업이 완료되어 검증을 요구하거나, 데이터셋에 오류가 발견되어 data manager의 처리가 필요한 상태이다.
Need Review는 분야별 전문가인 reviewer의 분석을 통한 상세 검토를 기다리는 상태이다. Need Contributor Work는 오류가 발견되어 최초 데이터셋 입력자인 data contributor의 수정을 기다리는 상태이다. Ready to Publish(Ready for Publication)은 data manager가 데이터셋의 최종 publish를 위한 마지막 작업(DOI 발급 등) 처리하기를 기다리는 상태이고, Published는 문서가 최종 Publish된 상태를 말한다. 일반적인 데이터셋의 입력은 Draft, Need Data Manager Work, Need Review, Ready to Publish의 과정을 거쳐 최종 Published 상태로 진입한다.
[표 6]
Figure pat00006
이 과정에서 데이터 검증에 대한 핵심 역할은 data manager와 reviewer, 그리고 시스템에 의해 자동화된 검증 기능에 의해 수행된다. 표 7은 데이터의 품질 관리와 관련한 작업(jobs)에 관해 설명한 것이다. 시스템에 의해 자동화된 검증은 Draft의 마지막 단계에서 수행된다. 입력된 메타데이터의 필수 값 입력 여부, 값의 범위 등의 적합성 여부가 웹 폼을 통해 자동 검증된다. 그리고 입력된 데이터에 대해서도 타입, 범위, 카테고리 등에 대해 시스템적인 자동 검증이 수행된다.
data manager는 Need Data Manager Work 단계에서 data contributor가 입력한 메타데이터와 데이터에 대한 검증을 수동으로 진행한다. 데이터에 이상이 발견되지 않는 경우 데이터 변환과 가시화를 위한 데이터 생성 과정을 진행하고 reviewer에게 상세 검토를 요청하는 Need Review 상태로 데이터셋의 상태를 변경하고, 오류가 발견되는 경우 반려의견을 통해 data contributor에게 데이터셋에 대한 수정을 요청하는 Need Contributor Work 상태로 데이터셋의 상태를 변경한다. reviewer는 Need Review 단계에서 데이터에 대한 상세 검증을 수행한다. data manager에 의해 생성된 데이터 가시화 자료 등을 통한 의미론적인 검증을 거친다. 데이터에 이상이 발견되지 않는 경우 Ready for Publication 상태로, 오류가 발견되는 경우 Need Contributor Work 상태로 데이터셋의 상태를 변경한다.
[표 7]
Figure pat00007
이상에서 설명된 장치는 하드웨어 구성 요소, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소 및 소프트웨어 구성 요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성 요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
도 11은 본 발명의 일 실시예에 따른 장기생태연구를 지원하는 전주기 데이터 관리 방법을 설명하기 위해 도시한 흐름도이다.
여기서 설명하는 장기생태연구를 지원하는 전주기 데이터 관리 방법은 본 발명의 하나의 실시예에 불과하며, 그 이외에 필요에 따라 다양한 단계들이 부가될 수 있고, 하기의 단계들도 순서를 변경하여 실시될 수 있으므로, 본 발명이 하기에 설명하는 각 단계 및 그 순서에 한정되는 것은 아니다.
도 1 및 도 11을 참조하면, 단계(1110)에서 전주기 데이터 관리 장치(100)는 미리 정해진 프로토콜에 따라 생태 데이터 및 상기 생태 데이터와 연관된 메타데이터(Metadata)를 수집한다.
다음으로, 단계(1120)에서 상기 전주기 데이터 관리 장치(100)는 미리 정의된 스키마를 통해 상기 생태 데이터 및 상기 메타데이터의 유효성을 검증한다.
다음으로, 단계(1130)에서 상기 전주기 데이터 관리 장치(100)는 시스템 관점에서의 데이터 스크리닝 및 전문가의 의미론적 검증에 의한 데이터 리뷰를 통해, 상기 생태 데이터 및 상기 생태 데이터의 메타데이터를 포함하는 데이터셋(Dataset)에 대한 품질을 모니터링한다.
다음으로, 단계(1140)에서 상기 전주기 데이터 관리 장치(100)는 상기 모니터링 결과에 따라 기준 품질을 만족하는 데이터셋을 출판한다.
한편, 상기 전주기 데이터 관리 장치(100)는 XML 스키마를 기반으로 하는 EML(Ecological Metadata Language) 형식으로 상기 메타데이터를 저장하거나 변환할 수 있다. 또한, 상기 전주기 데이터 관리 장치(100)는 서로 다른 형식으로 저장된 데이터의 통합을 지원하기 위해 각 조사 방법마다 통일된 변환 가공 규칙을 정의하고, 데이터 내용에 변경이 있을 때마다 상기 통일된 변환 가공 규칙에 기초하여 변환 가공을 수행할 수 있다. 또한, 상기 전주기 데이터 관리 장치(100)는 상기 의미 기반의 툴을 이용하여, 외부 시스템 내에 다양한 표준 형태로 저장되어 있는 생태를 포함한 시간, 공간, 기상 정보를 통일된 형식의 데이터로 변환 가공할 수 있다.
상기 전주기 데이터 관리 장치(100)는 통제 어휘 또는 이의 확장된 형태의 텍사노미(Taxonomy), 시소러스(Thesaurus)와 같은 의미 기반의 툴을 이용하여, 이질적 데이터에 대한 통합 검색을 지원할 수 있다. 또한, 상기 전주기 데이터 관리 장치(100)는 조사 방법과 사이트들을 기준으로 상기 생태 데이터를 시계열(Time series) 차트로 표현하거나 데이터 분석의 평이성을 향상시키기 위해 서로 다른 조사 방법 간 데이터를 비교하여 표현할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CDROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.
110: 데이터 수집부
120: 데이터 검증부
130: 데이터 품질 관리부
140: 메타데이터 관리부
150: 데이터 변환 가공부
160: 데이터 검색 및 공유부
170: 제어부
210: 데이터 스크리닝부
220: DB 임포트부
230: 정보 보호부
240: 가시화 데이터 생성부
250: 데이터 리뷰부

Claims (15)

  1. 미리 정해진 프로토콜에 따라 생태 데이터 및 상기 생태 데이터와 연관된 메타데이터(Metadata)를 수집하는 데이터 수집부;
    미리 정의된 스키마를 통해 상기 생태 데이터 및 상기 메타데이터의 유효성을 검증하는 데이터 검증부; 및
    시스템 관점에서의 데이터 스크리닝 및 전문가의 의미론적 검증에 의한 데이터 리뷰를 통해, 상기 생태 데이터 및 상기 생태 데이터의 메타데이터를 포함하는 데이터셋(Dataset)에 대한 품질을 모니터링하고, 상기 모니터링 결과에 따라 기준 품질을 만족하는 데이터셋을 출판하는 데이터 품질 관리부
    를 포함하는 것을 특징으로 하는 장기생태연구를 지원하는 전주기 데이터 관리 장치.
  2. 제1항에 있어서,
    상기 데이터 수집부는
    상기 장기생태연구와 관련하여 공통의 목적, 대상, 조사방법, 데이터 표현방법 및 데이터 품질관리 중 적어도 하나에 대한 표준화된 프로토콜을 정의하고, 각 사이트(Site)별로 해당 프로토콜에 따라 상기 생태 데이터 및 상기 메타데이터를 수집하는 것을 특징으로 하는 장기생태연구를 지원하는 전주기 데이터 관리 장치.
  3. 제1항에 있어서,
    상기 데이터 품질 관리부는
    상기 유효성의 검증 후 데이터 기여자에 의해 제출된 데이터셋의 각 필드 입력 값의 의미적 유효성을 검증하는 데이터 스크리닝부;
    CSV 형태로 전달된 생태 데이터를 데이터베이스(DB)에 임포트(Import)하는 DB 임포트부;
    상기 데이터베이스 내 종 분류 테이블(Species Taxonomy Table)의 민감정보 항목을 선별하여 선별된 민감정보 항목에 대한 공개 데이터를 보호하는 정보 보호부;
    상기 데이터베이스에 임포트된 생태 데이터의 원시 데이터로부터 요약 데이터를 추출하고, 상기 요약 데이터를 포함하는 뷰(View) 테이블을 통해 가시화 데이터를 생성하는 가시화 데이터 생성부; 및
    상기 데이터베이스에 저장된 생태 데이터 값의 타입, 범위의 의미론적 유효성을 상기 가시화 데이터를 통해 검증하는 데이터 리뷰부
    를 포함하는 것을 특징으로 하는 장기생태연구를 지원하는 전주기 데이터 관리 장치.
  4. 제1항에 있어서,
    상기 데이터 품질 관리부는
    상기 데이터셋의 출판 시 상기 데이터셋에 데이터 라이선스를 부여하거나 글로벌 데이터 유통을 위해 DOI(Data Object Identification)를 부여하는 것을 특징으로 하는 장기생태연구를 지원하는 전주기 데이터 관리 장치.
  5. 제1항에 있어서,
    상기 데이터 품질 관리부는
    상기 데이터셋의 출판 시 상기 데이터셋을 XML 스키마를 기반으로 하는 EML(Ecological Metadata Language) 형식으로 변환하는 것을 특징으로 하는 장기생태연구를 지원하는 전주기 데이터 관리 장치.
  6. 제1항에 있어서,
    상기 메타데이터는
    데이터셋, 조사 방법, 사이트, 사용자, 기관, 유효성 규칙 중 적어도 하나를 포함하고, 상기 데이터셋의 설명과 함께 측정 장치 정보와 품질 정보를 더 포함하는 것을 특징으로 하는 장기생태연구를 지원하는 전주기 데이터 관리 장치.
  7. 제1항에 있어서,
    XML 스키마를 기반으로 하는 EML(Ecological Metadata Language) 형식으로 상기 메타데이터를 저장하거나 변환하는 메타데이터 관리부
    를 더 포함하는 것을 특징으로 하는 장기생태연구를 지원하는 전주기 데이터 관리 장치.
  8. 제7항에 있어서,
    상기 메타데이터 관리부는
    메타데이터 카탈로그이자 데이터 리포지토리인 Metacat 오픈소스를 사용하여 상기 메타데이터를 상기 EML 형식으로 저장하거나 변환하는 것을 특징으로 하는 장기생태연구를 지원하는 전주기 데이터 관리 장치.
  9. 제1항에 있어서,
    서로 다른 형식으로 저장된 데이터의 통합을 지원하기 위해 각 조사 방법마다 통일된 변환 가공 규칙을 정의하고, 데이터 내용에 변경이 있을 때마다 상기 통일된 변환 가공 규칙에 기초하여 변환 가공을 수행하는 데이터 변환 가공부
    를 더 포함하는 것을 특징으로 하는 장기생태연구를 지원하는 전주기 데이터 관리 장치.
  10. 제9항에 있어서,
    상기 데이터 변환 가공부는
    상기 의미 기반의 툴을 이용하여, 외부 시스템 내에 다양한 표준 형태로 저장되어 있는 생태를 포함한 시간, 공간, 기상 정보를 통일된 형식의 데이터로 변환 가공하는 것을 특징으로 하는 장기생태연구를 지원하는 전주기 데이터 관리 장치.
  11. 제1항에 있어서,
    통제 어휘 또는 이의 확장된 형태의 텍사노미(Taxonomy), 시소러스(Thesaurus)와 같은 의미 기반의 툴을 이용하여, 이질적 데이터에 대한 통합 검색을 지원하는 데이터 검색 및 공유부
    를 더 포함하는 것을 특징으로 하는 장기생태연구를 지원하는 전주기 데이터 관리 장치.
  12. 제11항에 있어서,
    상기 데이터 검색 및 공유부는
    조사 방법과 사이트들을 기준으로 상기 생태 데이터를 시계열(Time series) 차트로 표현하거나, 데이터 분석의 평이성을 향상시키기 위해 서로 다른 조사 방법 간 데이터를 비교하여 표현하는 것을 특징으로 하는 장기생태연구를 지원하는 전주기 데이터 관리 장치.
  13. 미리 정해진 프로토콜에 따라 생태 데이터 및 상기 생태 데이터와 연관된 메타데이터(Metadata)를 수집하는 단계;
    미리 정의된 스키마를 통해 상기 생태 데이터 및 상기 메타데이터의 유효성을 검증하는 단계;
    시스템 관점에서의 데이터 스크리닝 및 전문가의 의미론적 검증에 의한 데이터 리뷰를 통해, 상기 생태 데이터 및 상기 생태 데이터의 메타데이터를 포함하는 데이터셋(Dataset)에 대한 품질을 모니터링하는 단계; 및
    상기 모니터링 결과에 따라 기준 품질을 만족하는 데이터셋을 출판하는 단계
    를 포함하는 것을 특징으로 하는 장기생태연구를 지원하는 전주기 데이터 관리 방법.
  14. 제13항에 있어서,
    XML 스키마를 기반으로 하는 EML(Ecological Metadata Language) 형식으로 상기 메타데이터를 저장하거나 변환하는 단계
    를 더 포함하는 것을 특징으로 하는 장기생태연구를 지원하는 전주기 데이터 관리 방법.
  15. 제13항에 있어서,
    서로 다른 형식으로 저장된 데이터의 통합을 지원하기 위해 각 조사 방법마다 통일된 변환 가공 규칙을 정의하는 단계; 및
    데이터 내용에 변경이 있을 때마다 상기 통일된 변환 가공 규칙에 기초하여 변환 가공을 수행하는 단계
    를 더 포함하는 것을 특징으로 하는 장기생태연구를 지원하는 전주기 데이터 관리 방법.
KR1020170068426A 2017-06-01 2017-06-01 장기생태연구를 지원하는 전주기 데이터 관리 장치 및 방법 KR20180131829A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170068426A KR20180131829A (ko) 2017-06-01 2017-06-01 장기생태연구를 지원하는 전주기 데이터 관리 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170068426A KR20180131829A (ko) 2017-06-01 2017-06-01 장기생태연구를 지원하는 전주기 데이터 관리 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20180131829A true KR20180131829A (ko) 2018-12-11

Family

ID=64671697

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170068426A KR20180131829A (ko) 2017-06-01 2017-06-01 장기생태연구를 지원하는 전주기 데이터 관리 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20180131829A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102109044B1 (ko) 2019-09-17 2020-05-11 한국과학기술정보연구원 연구데이터 리포지터리 시스템 및 연구데이터 리포지터리 시스템의 동작 방법
CN113393049A (zh) * 2021-06-25 2021-09-14 中国人民解放军32181部队 一种基于线性回归模型的维修保障对象消耗预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102109044B1 (ko) 2019-09-17 2020-05-11 한국과학기술정보연구원 연구데이터 리포지터리 시스템 및 연구데이터 리포지터리 시스템의 동작 방법
CN113393049A (zh) * 2021-06-25 2021-09-14 中国人民解放军32181部队 一种基于线性回归模型的维修保障对象消耗预测方法

Similar Documents

Publication Publication Date Title
US10592310B2 (en) System and method for detecting, collecting, analyzing, and communicating event-related information
Munné Big data in the public sector
Leite et al. Social registries for social assistance and beyond: a guidance note and assessment tool
Sundgren What is a public information system?
Muritala et al. A bibliometric analysis of online reviews research in tourism and hospitality
CN111190881A (zh) 一种数据治理方法和系统
Li et al. A geospatial cyberinfrastructure for urban economic analysis and spatial decision-making
Radanliev et al. Epistemological and bibliometric analysis of ethics and shared responsibility—health policy and IoT systems
Schintler et al. Encyclopedia of big data
CN113868318B (zh) 一种大气环境综合数据采集及共享系统
Morano et al. A systematic review of the existing literature for the evaluation of sustainable urban projects
Soylu et al. Data quality barriers for transparency in public procurement
Tschöpe et al. Annotating biodiversity data via the Internet
Narock et al. Quantifying the growth of preprint services hosted by the Center for Open Science
Green et al. Policy-making for Research Data in Respositories: A Guide
Huang Data processing
KR20180131829A (ko) 장기생태연구를 지원하는 전주기 데이터 관리 장치 및 방법
Falcão et al. A Reference Architecture for Enabling Interoperability and Data Sovereignty in the Agricultural Data Space
Barry et al. Visualising changing tenure relationships: the talking titler methodology, data mining and social network analysis
Hall et al. Open data and charities
Chalikias et al. Evidence-driven policy-making using heterogeneous data sources—The case of a controlled parking system in Thessaloniki
Ariza-López et al. An analysis of existing production frameworks for statistical and geographic information: synergies, gaps and integration
Bastin et al. Volunteered metadata, and metadata on VGI: challenges and current practices
Tavakoli et al. Blockchain-based digital twin data provenance for predictive asset management in building facilities
Kouper Data curation in interdisciplinary and highly collaborative research

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E601 Decision to refuse application