KR20220116976A - 바이오 데이터를 분산 병렬 처리하는 방법 및 시스템 - Google Patents

바이오 데이터를 분산 병렬 처리하는 방법 및 시스템 Download PDF

Info

Publication number
KR20220116976A
KR20220116976A KR1020210020504A KR20210020504A KR20220116976A KR 20220116976 A KR20220116976 A KR 20220116976A KR 1020210020504 A KR1020210020504 A KR 1020210020504A KR 20210020504 A KR20210020504 A KR 20210020504A KR 20220116976 A KR20220116976 A KR 20220116976A
Authority
KR
South Korea
Prior art keywords
data
data type
dimensional
data set
type
Prior art date
Application number
KR1020210020504A
Other languages
English (en)
Other versions
KR102619707B1 (ko
Inventor
김남욱
정성진
강병수
Original Assignee
재단법인대구경북과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 재단법인대구경북과학기술원 filed Critical 재단법인대구경북과학기술원
Priority to KR1020210020504A priority Critical patent/KR102619707B1/ko
Publication of KR20220116976A publication Critical patent/KR20220116976A/ko
Application granted granted Critical
Publication of KR102619707B1 publication Critical patent/KR102619707B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Image Processing (AREA)

Abstract

바이오 데이터를 분산 병렬 처리하는 시스템이 개시된다. 본 시스템은 제1 데이터 타입 및 제2 데이터 타입 각각에 대응하는 EM 데이터를 포함하는 소정 용량의 3차원 데이터 셋을 입력받고, 3차원 데이터 셋에 포함된 데이터 타입 정보에 기초하여, 제1 데이터 타입에 대응하는 EM 데이터 및 제2 데이터 타입에 대응하는 EM 데이터를 분류하는 마스터 노드 및 마스터 노드와 클러스터링된 하나 이상의 연산 노드를 포함한다. 이에 따라, 대용량의 영상 데이터의 처리가 수행될 수 있다.

Description

바이오 데이터를 분산 병렬 처리하는 방법 및 시스템{METHOD AND SYSTEM FOR PROCESSING BIO DATA BASED ON DISTRIBUTED PARALLEL PROCESSING}
본 발명은 바이오 데이터를 분산 병렬 처리하는 방법 및 이를 적용한 시스템에 관한 것으로 더 상세하게는 전자 현미경으로 관찰된 3차원 데이터 셋을 분산 병렬 처리하는 방법 및 이를 적용한 시스템에 관한 것이다.
생물학 연구 분야에 있어서 차세대 시퀀싱 기술의 발전으로 영상 기반으로 활성 데이터, 유전체 데이터, 전사체 데이터, 단백질체 데이터 등이 생성되고 있으며, 이들 데이터들은 고해상도가 요구되는 등의 특성으로 인해 대용량 데이터라는 특징을 갖는다.
아울러, 생물의 시료를 촬영하는 기술도 계속 발전하고 있다. 대표적으로, 전자 현미경은 전자빔을 광원으로 이용하는 현미경으로, 광결정부터, 단백질 분자, 세포 그리고 세포의 조직 등 다양한 샘플을 관찰할 수 있고, 단백질의 경우 샘플을 초저온상태로 관찰하여 원자 수준의 해상도로 단백질의 구조 분석을 수행할 수 있다.
전자현미경에 의해 관찰되어 생성된 3차원 영상 데이터는 기가 바이트 또는 테라 바이트 급의 대용량 데이터이므로, 종래 기술에서는 이러한 대용량 데이터를 처리 및 가공하기에 어려움이 있었다.
한편, 상기와 같은 정보는 본 발명의 이해를 돕기 위한 백그라운드(background) 정보로서만 제시될 뿐이다. 상기 내용 중 어느 것이라도 본 발명에 관한 종래 기술로서 적용 가능할지 여부에 관해, 어떤 결정도 이루어지지 않았고, 또한 어떤 주장도 이루어지지 않는다.
공개특허공보 제10-2016-0099762호(공개일: 2016.08.23)
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 일 과제는 전자 현미경의 3차원 영상 데이터 셋을 영상 처리하는 분산 병렬 처리하는 방법을 제공하는 데에 있다.
본 발명의 또 다른 과제는, 3차원 영상 데이터 셋을 복수의 3차원 청크(Chunk)로 가공하는 방법을 제공하는 데에 있다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기한 과제를 실현하기 위한 본 발명의 일 실시 예에 따른 바이오 데이터를 분산 병렬 처리하는 방법은 제1 데이터 타입 및 제2 데이터 타입 각각에 대응하는 EM(Electron Microscope) 데이터를 포함하는 소정 용량의 3차원 데이터 셋을 입력받는 단계; 상기 3차원 데이터 셋에 포함된 데이터 타입 정보에 기초하여, 상기 제1 데이터 타입에 대응하는 EM 데이터 및 상기 제2 데이터 타입에 대응하는 EM 데이터를 분류하는 단계; 상기 제1 데이터 타입 및 제2 데이터 타입 각각에 대응하는 키(Key) 및 밸류(Value) 정보에 기초하여, 제1 데이터 타입에 대응하는 제1 메시지 큐 및 제2 데이터 타입에 대응하는 제2 메시지 큐에 연산 태스크(Task)를 순차적으로 제공하는 단계; 상기 제1 메시지 큐 및 제2 메시지 큐에 공유 자원을 할당하기 위한 세마포어를 생성하며, 순차적으로 제공된 상기 연산 태스크를 수행할 연산 노드를 결정하는 단계; 및 상기 결정된 연산 노드가 연산 태스크를 수행하는 단계를 포함할 수 있다.
본 발명의 일 실시 예에 따른 바이오 데이터를 분산 병렬 처리하는 시스템은 제1 데이터 타입 및 제2 데이터 타입 각각에 대응하는 EM(Electron Microscope) 데이터를 포함하는 소정 용량의 3차원 데이터 셋을 입력받고, 상기 3차원 데이터 셋에 포함된 데이터 타입 정보에 기초하여, 상기 제1 데이터 타입에 대응하는 EM 데이터 및 상기 제2 데이터 타입에 대응하는 EM 데이터를 분류하는 마스터 노드; 및 상기 마스터 노드와 클러스터링된 하나 이상의 연산 노드를 포함할 수 있다.
상기 마스터 노드는, 상기 제1 데이터 타입 및 제2 데이터 타입 각각에 대응하는 키 및 밸류 정보에 기초하여, 제1 데이터 타입에 대응하는 제1 메시지 큐 및 제2 데이터 타입에 대응하는 제2 메시지 큐에 연산 태스크(Task)를 순차적으로 제공하고, 상기 제1 메시지 큐 및 제2 메시지 큐에 공유 자원을 할당하기 위한 세마포어를 생성하며, 순차적으로 제공된 상기 연산 태스크를 수행할 연산 노드를 결정할 수 있다. 결정된 연산 노드는 연산 태스크를 수행하도록 구성될 수 있다.
본 발명에서 이루고자 하는 기술적 해결 수단들은 이상에서 언급한 기술적 해결 수단들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 해결 수단들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 다양한 실시 예에 따르면, 전자 현미경에 의해 관찰된 대용량의 3차원의 영상 데이터가 분산 병렬 처리로 신속하게 처리되어 다수의 3차원 청크 데이터로 생성될 수 있다.
본 발명에서 이루고자 하는 기술적 효과들은 이상에서 언급한 기술적 효과들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시 예에 따른 바이오 데이터를 분산 병렬 처리하는 시스템을 개략적으로 설명하기 위한 도면,
도 2는 본 발명의 일 실시 예에 따른 분산 병렬 처리 시스템의 클러스터링된 마스터 노드 및 복수의 연산 노드를 설명하기 위한 도면,
도 3은 본 발명의 일 실시 예에 따른 분산 병렬 처리 시스템의 마스터 노드 프로세스 및 연산 노드 프로세스를 설명하기 위한 도면, 그리고,
도 4는 본 발명의 일 실시 예예 따른 바이오 데이터를 분산 병렬 처리하는 방법을 나타내는 시퀀스도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시예를 설명하기 위한 도면에 개시된 형상, 크기, 비율, 각도, 개수 등은 예시적인 것이므로 본 발명이 도시된 사항에 한정되는 것은 아니다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
또한, 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.
본 명세서에서 언급된 '포함한다', '갖는다', '이루어진다' 등이 사용되는 경우 '~만'이 사용되지 않는 이상 다른 부분이 추가될 수 있다. 구성 요소를 단수로 표현한 경우에 특별히 명시적인 기재 사항이 없는 한 복수를 포함하는 경우를 포함한다.
구성 요소를 해석함에 있어서, 별도의 명시적 기재가 없더라도 오차 범위를 포함하는 것으로 해석한다. 위치 관계에 대한 설명일 경우, 예를 들어, '~상에', '~상부에', '~하부에', '~옆에' 등으로 두 부분의 위치 관계가 설명되는 경우, '바로' 또는 '직접'이 사용되지 않는 이상 두 부분 사이에 하나 이상의 다른 부분이 위치할 수도 있다.
시간 관계에 대한 설명일 경우, 예를 들어, '~후에', '~에 이어서', '~다음에', '~전에' 등으로 시간적 선후 관계가 설명되는 경우, '바로' 또는 '직접'이 사용되지 않는 이상 연속적이지 않은 경우도 포함할 수 있다.
제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않는다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.
"X축 방향", "Y축 방향" 및 "Z축 방향"은 서로 간의 관계가 수직으로 이루어진 기하학적인 관계만으로 해석되어서는 아니 되며, 본 발명의 구성이 기능적으로 작용할 수 있는 범위 내에서보다 넓은 방향성을 가지는 것을 의미할 수 있다.
"적어도 하나"의 용어는 하나 이상의 관련 항목으로부터 제시 가능한 모든 조합을 포함하는 것으로 이해되어야 한다. 예를 들어, "제 1 항목, 제 2 항목 및 제 3 항목 중에서 적어도 하나"의 의미는 제 1 항목, 제 2 항목 또는 제 3 항목 각각 뿐만 아니라 제 1 항목, 제 2 항목 및 제 3 항목 중에서 2개 이상으로부터 제시될 수 있는 모든 항목의 조합을 의미할 수 있다.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하고, 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관관계로 함께 실시할 수도 있다.
도 1은 본 발명의 일 실시 예에 따른 바이오 데이터를 분산 병렬 처리하는 시스템(이하, “분산 병렬 처리 시스템”으로 칭함)을 개략적으로 설명하기 위한 도면이다.
도 1을 참고하면, 전자 현미경(10)은 샘플을 촬영할 수 있다. 여기서, 샘플(17)은 생체의 다양한 부위에서 추출될 수 있다. 일 예로, 샘플(17)은 생물의 뇌로부터 추출될 수 있다.
전자 현미경(10)은 전자 건(Electron gun, 11)을 이용하여 전자 빔(Electron beam, 15)을 출력하고, 출력된 전자 빔(15)이 자성 렌즈(Magnetic Lens, 13)를 통과하여, 샘플(17)에 대한 영상을 스크린(Screen, 19)에 출력할 수 있다.
영상 가공 모듈(20)은, 별도의 장치 또는 클라우드에서, 촬영된 영상을 가공할 수 있다. 구체적으로, 영상 가공 모듈(20)은 전자 현미경(10)으로부터 촬영된 수많은 2차원 영상에 스티치 프로세스(Stich Process) 및 얼라인먼트 프로세스(Alignment Process) 등을 수행하여, 2차원 영상을 3차원 영상으로 생성할 수 있다.
영상 가공 모듈(20)은 생성된 3차원(3D) 영상을 분산 병렬 처리 시스템(100)으로 제공할 수 있다. 생성된 3차원 영상은 단일 파일로 구현될 수 있으며, 수백 기가 바이트 내지 수십 테라 바이트의 용량으로 구현될 수 있도 있다.
분산 병렬 처리 시스템(100)은 클라우드(CLOUD)로 구현될 수 있으나, 선택적 실시 예로, 서버 또는 장치로 구현될 수도 있다.
분산 병렬 처리 시스템(100)은 영상 가공 모듈(20)로부터 3차원(3D) 영상을 수신하여, 수신된 영상을 처리할 수 있다. 선택적 실시 예로, 분산 병렬 처리 시스템(100)은 특정 입력 수단을 통해 직접 3차원 영상을 입력받을 수도 있다. 분산 병렬 처리 시스템(100)의 구체적인 구성 및 동작을 이하에서 자세히 설명하기로 한다.
도 2는 본 발명의 일 실시 예에 따른 분산 병렬 처리 시스템(100)의 클러스터링된 마스터 노드(110) 및 복수의 연산 노드(1501~150N)를 설명하기 위한 도면이며,
도 2를 참고하면, 분산 병렬 처리 시스템(100)의 마스터 노드(110) 및 복수의 연산 노드(1501~150N)는 클러스터(CLU) 단위로 그룹을 형성할 수 있다.
도 3은 본 발명의 일 실시 예에 따른 분산 병렬 처리 시스템(100)의 마스터 노드 프로세스(S31) 및 연산 노드 프로세스(S33)를 설명하기 위한 도면이다.
마스터 노드 프로세스(S31)는 마스터 노드(110) 또는 마스터 노드(110)와 직접 또는 간접적으로 연결된 모듈에 의해 수행되는 프로세스를 의미하며, 마스터 노드(110)에 의해 수행되는 것으로 기술하기로 하며, 연산 노드 프로세스(S33)는 연산 노드(150) 또는 연산 노드(150)와 직접 또는 간접적으로 연결된 모듈에 의해 수행되는 프로세스를 의미하며, 연산 노드(150)에 의해 수행되는 것으로 기술하기로 한다.
마스터 노드 프로세스(S31)는 마스터 노드(110), 채널 & 세그먼테이션 분류 모듈(120), 복수의 메시지 큐(130A, 130B), 에러 리포트 모듈, 스레드 세이프 큐 등을 포함할 수 있다.
먼저, 마스터 노드 프로세스(S31)는 EM(Electron Microscope) 데이터 셋을 입력받을 수 있다. 구체적으로, 마스터 노드(110)가 EM 데이터 셋을 입력받아, 해당 데이터 셋을 채널 & 세그먼테이션 분류 모듈(120)로 제공할 수 있다.
여기서, EM 데이터 셋은 3차원 데이터를 포함하는 단일 파일 형태로 구현될 수 있다. EM 데이터 셋은 복수의 데이터 타입으로 구분될 수 있는 복수의 EM 데이터(셋)를 포함할 수 있다.
가령, EM 데이터 셋은 인간, 동물 등의 뇌에 위치한 생체 샘플로부터 수집된 3차원 영상 데이터 셋일 수 있으며, 3차원 영상 데이터 셋은 서로 다른 데이터 타입으로 표현된 3차원 영상 데이터(셋)를 단일 파일 내부에 함께 저장할 수 있다. 단일 파일의 확장자는 <.H5>일 수 있다. 여기서, 단일 파일의 사이즈는 기가 바이트 내지 테라 바이트 급의 용량으로 구성될 수 있다.
여기서, 3차원 기반의 EM 데이터 셋은 제1 데이터 타입 및 제2 데이터 타입 각각에 대응하는 EM데이터(셋)를 포함할 수 있다. 제1 데이터 타입은 채널(Channel) 타입일 수 있으며, 제2 데이터 타입은 세그먼테이션(Segmentation) 타입일 수 있다. 채널은 3차원 영상 데이터 셋을 픽셀별로 그레이 스케일로 표현한 영상이며, 세그먼테이션은 3차원 영상 데이터 셋을 픽셀별로 컬러 스케일로 표현한 영상이다.
또한, 제1 데이터 타입(채널 타입)에 대응하는 EM 데이터는 EM 데이터 셋에 대해, 그레이 스케일 기반으로 표현한 EM 데이터인데, 3차원으로 표현된 EM 데이터 셋의 각 픽셀에 대해 회색조 기반으로 표현한 EM 데이터이다. 밝은 광도를 갖는 픽셀을 백색으로 어두운 광도를 갖는 픽셀을 흑색으로 표현할 수 있다.
제2 데이터 타입(세그먼테이션)에 대응하는 EM 데이터는 EM 데이터 셋에 대해, 컬러 스케일 기반으로 표현한 EM 데이터인데, 3차원으로 표현된 EM 데이터 셋의 각 픽셀에 대해 컬러 픽셀값을 포함할 수 있다. 가령, 컬러 픽셀값이 UNIT16 사이즈로 표현되는 경우, 픽셀 당 0~65535 범위의 컬러값이 세팅될 수 있다.
즉, 본 발명의 일 실시 예에 따른 EM 데이터 셋은 여러 타입으로 표현된 3차원 EM 데이터를 하나의 파일로 구성된 것으로, 여러 타입으로 표현된 3차원 EM 데이터를 하나의 파일로 구성하지 못한 종래기술의 한계를 극복한 것이라 할 수 있다.
마스터 노드 프로세스(S31)는 채널 & 세그먼테이션 분류 모델(120)을 이용하여 3차원 기반의 EM 데이터 셋에 포함된 데이터 타입 정보에 기초하여, 제1 데이터 타입(채널 타입)에 대응하는 EM 데이터 및 제2 데이터 타입(세그먼테이션 타입)에 대응하는 EM 데이터를 분류(Classification)할 수 있다.
이때, 마스터 노드 프로세스(S31)는 스레드 세이프 큐(Thread Safe Queue) 메시지에 순차적으로 연산을 위한 잡(Job)을 전달할 수 있으며, 잡(Job)이 큐에 순차적으로 적재되는지 마스터 노드(110) 및/또는 태스크 매니저 등을 통해 모니터링할 수 있다.
마스터 노드 프로세스(S31)는 제1 데이터 타입 및 제2 데이터 타입 각각에 대응하는 키(Key) 및 밸류(Value) 정보에 기초하여, 제1 데이터 타입에 대응하는 제1 메시지 큐(130A) 및 제2 데이터 타입에 대응하는 제2 메시지 큐(130B)에 연산 태스크(Task)를 순차적으로 제공할 수 있다.
여기서, 키 및 밸류 정보는 메모리 기반으로 대용량의 3차원 EM 데이터 셋을 저장하기 위한 정보이며, 키 정보는 파일의 확장자(H5) 정보 또는 확장자 정보와 연관된 정보를 포함할 수 있으며, 밸류 정보는 제1 데이터 타입(채널 타입)에 대한 정보 또는 제2 데이터 타입(세그먼테이션 타입)에 대한 정보를 포함할 수 있다.
또한, 메시지 큐(130A, 130B)에 적재된 연산 태스크는 3차원 EM 데이터 셋을 소정 사이즈의 3차원 EM 데이터 청크로 생성하기 위한 연산 태스크일 수 있다.
마스터 노드 프로세스(S31)는 상기 제1 메시지 큐(130A) 및 제2 메시지 큐(130B)에 공유 자원을 할당하기 위한 세마포어를 생성하여, 중복 처리 또는 데드락을 방지할 수 있다.
마스터 노드 프로세스(S31)는 순차적으로 제공된 연산 태스크를 수행할 연산 노드(1501~150N)를 결정할 수 있다.
마스터 노드 프로세스(S31)가 수행된 후, 결정된 연산 노드들(150, 1501~150N)은 연산 태스크를 수행할 수 있다. 구체적으로, 연산 노드들(150, 1501~150N)은 제1 메시지 큐(130A) 또는 제2 메시지 큐(130B)의 공유 자원을 사용하기 위한 권한을 세마포어를 통해 획득할 수 있다. 연산 노드들(150)은 제1 데이터 타입에 관련된 연산 및 제2 데이터 타입에 관련된 연산을 모두 수행할 수 있다.
실시 예에서, 제1 및 제2 데이터 타입보다 많은 데이터 타입이 적용될 수 있으며, 이 경우, 메시지 큐는 데이터 타입에 따라 개수가 늘어날 수 있다.
연산 노드들(1501~150N)은 상기 연산 태스크에 대응하는 3차원 데이터 셋을 3차원 청크(Chunk) 데이터로 생성할 수 있다. 3차원 청크는 대용량의 3차원 데이터 셋을 소정 사이즈로 분할한 3차원 영상 데이터일 수 있다. 가령, 3차원 X, Y, Z 좌표 기준으로, 3차원의 10X, 10Y, 10Z 사이즈의 영상 데이터 셋을 1X, 1Y, 1Z사이즈 단위로 분할한 데이터일 수 있다(총 1000 개의 청크).
분산 병렬 처리 시스템(100)은 디스플레이를 더 포함하여, 연산 노드들(1501~150N)이 생성된 3차원 청크를 디스플레이에 출력할 수 있다.
또한, 마스터 노드 프로세스(31S)는 연산 노드에서 연산 에러가 발생된 경우, 연산 에러 로그 정보를 수신할 수 있다.
마스터 노드 프로세스(31S)는 연산 에러 로그 정보에 기반하여, 비교적 가벼운 연산 에러 로그는 무시(Ignore)할 수 있으며, 소정 수준의 에러 로그가 발견되면, 프로세스를 중단할 수 있다.
마스터 노드 프로세스(31S)는 인공 지능 기반의 에러 처리 모델을 포함하여, 소정 기준을 초과한 에러 로그가 발견되면, 자동적으로 분산 병렬 처리를 중단시킬 수 있다.
도 4는 본 발명의 일 실시 예에 따른 바이오 데이터를 분산 병렬 처리하는 방법을 나타내는 시퀀스도이다.
우선, 바이오 데이터 분산 병렬 처리 시스템(100)의 처리 방법은 제1 데이터 타입 및 제2 데이터 타입 각각에 대응하는 EM(Electron Microscope) 데이터를 포함하는 소정 용량의 3차원 데이터 셋을 입력받는 단계(S510), 3차원 데이터 셋에 포함된 데이터 타입 정보에 기초하여, 상기 제1 데이터 타입에 대응하는 EM 데이터 및 상기 제2 데이터 타입에 대응하는 EM 데이터를 분류하는 단계(S520)를 포함할 수 있다.
그 다음, 처리 방법은 제1 데이터 타입 및 제2 데이터 타입 각각에 대응하는 키(Key)-밸류(Value) 정보에 기초하여, 제1 데이터 타입에 대응하는 제1 메시지 큐 및 제2 데이터 타입에 대응하는 제2 메시지 큐에 연산 태스크(Task)를 순차적으로 제공하는 단계(S530) 및 제1 메시지 큐 및 제2 메시지 큐에 공유 자원을 할당하기 위한 세마포어를 생성하며, 순차적으로 제공된 상기 연산 태스크를 수행할 연산 노드를 결정하는 단계(S540)를 포함할 수 있다.
그 후에, 처리 방법은 결정된 연산 노들들이 3차원 데이터 셋을 3차원 기반의 청크 데이터로 생성하는 단계(S550)를 포함할 수 있다.
한편, 본 발명의 다양한 실시 예에 따라, 서로 다른 데이터 타입의 EM 데이터를 분산 병렬 처리함으로써, 600 기가 바이트의 EM 데이터의 분산 처리에 몇 시간이 소요됨으로써, 종래 기술에 따라 몇 일이 소요되는 한계가 개선될 수 있다.
또한, 본 발명의 다양한 실시 예에 따라, 전두엽의 의사 결정 관련된 신경 회로에 대한 규명하는데 있어, 도움이 될 수 있다. 또한, 뇌 신경 회로망 이미지 데이터, 구조 데이터, 분자 데이터 등의 저장, 추출 및 분석 기술과 가시화 기술을 통해, 뇌신경회로망 분야 기술에 도움이 될 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 마찬가지로, 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
또한, 본 명세서에서는 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다.
이와 같이, 본 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하려는 의도가 아니다. 따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (12)

  1. 바이오 데이터를 분산 병렬 처리하는 방법으로서,
    제1 데이터 타입 및 제2 데이터 타입 각각에 대응하는 EM(Electron Microscope) 데이터를 포함하는 소정 용량의 3차원 데이터 셋을 입력받는 단계;
    상기 3차원 데이터 셋에 포함된 데이터 타입 정보에 기초하여, 상기 제1 데이터 타입에 대응하는 EM 데이터 및 상기 제2 데이터 타입에 대응하는 EM 데이터를 분류하는 단계;
    상기 제1 데이터 타입 및 제2 데이터 타입 각각에 대응하는 키(Key) 및 밸류(Value) 정보에 기초하여, 제1 데이터 타입에 대응하는 제1 메시지 큐 및 제2 데이터 타입에 대응하는 제2 메시지 큐에 연산 태스크(Task)를 순차적으로 제공하는 단계;
    상기 제1 메시지 큐 및 제2 메시지 큐에 공유 자원을 할당하기 위한 세마포어를 생성하며, 순차적으로 제공된 상기 연산 태스크를 수행할 연산 노드를 결정하는 단계; 및
    상기 결정된 연산 노드가 연산 태스크를 수행하는 단계를 포함하는, 분산 병렬 처리 방법.
  2. 제1항에 있어서,
    상기 3차원 데이터 셋은 단일 파일로 구성되며, 상기 3차원 데이터 셋은 기가 바이트 내지 테라 바이트 급의 용량으로 구성되는, 분산 병렬 처리 방법.
  3. 제1항에 있어서,
    상기 제1 데이터 타입에 대응하는 EM 데이터는 상기 3차원 데이터 셋에 대해, 그레이 스케일 기반으로 표현한 EM 데이터이며,
    상기 제2 데이터 타입에 대응하는 EM 데이터는 상기 3차원 데이터 셋에 대해, 컬러 스케일 기반으로 표현한 EM 데이터인, 분산 병렬 처리 방법.
  4. 제1항에 있어서,
    상기 연산 태스크를 수행하는 단계는,
    상기 연산 태스크에 대응하는 3차원 데이터 셋을 3차원 청크(Chunk) 데이터로 생성하는 단계를 포함하는, 분산 병렬 처리 방법.
  5. 제4항에 있어서,
    생성된 3차원 청크 데이터를 디스플레이하는 단계를 더 포함하는, 분산 병렬 처리 방법.
  6. 제1항에 있어서,
    상기 연산 노드에서 연산 에러가 발생된 경우, 연산 에러 로그 정보를 수신하는 단계를 더 포함하는, 분산 병렬 처리 방법.
  7. 바이오 데이터를 분산 병렬 처리하는 시스템으로서,
    제1 데이터 타입 및 제2 데이터 타입 각각에 대응하는 EM(Electron Microscope) 데이터를 포함하는 소정 용량의 3차원 데이터 셋을 입력받고, 상기 3차원 데이터 셋에 포함된 데이터 타입 정보에 기초하여, 상기 제1 데이터 타입에 대응하는 EM 데이터 및 상기 제2 데이터 타입에 대응하는 EM 데이터를 분류하는 마스터 노드; 및
    상기 마스터 노드와 클러스터링된 하나 이상의 연산 노드를 포함하며,
    상기 마스터 노드는,
    상기 제1 데이터 타입 및 제2 데이터 타입 각각에 대응하는 키 및 밸류 정보에 기초하여, 제1 데이터 타입에 대응하는 제1 메시지 큐 및 제2 데이터 타입에 대응하는 제2 메시지 큐에 연산 태스크(Task)를 순차적으로 제공하고,
    상기 제1 메시지 큐 및 제2 메시지 큐에 공유 자원을 할당하기 위한 세마포어를 생성하며, 순차적으로 제공된 상기 연산 태스크를 수행할 연산 노드를 결정하며,
    결정된 연산 노드는 연산 태스크를 수행하도록 구성되는, 분산 병렬 처리 시스템.
  8. 제7항에 있어서,
    상기 3차원 데이터 셋은 단일 파일로 구성되며, 상기 3차원 데이터 셋은 기가 바이트 내지 테라 바이트 급의 용량으로 구성되는, 분산 병렬 처리 시스템.
  9. 제7항에 있어서,
    상기 제1 데이터 타입에 대응하는 EM 데이터는 상기 3차원 데이터 셋에 대해, 그레이 스케일 기반으로 표현한 EM 데이터이며,
    상기 제2 데이터 타입에 대응하는 EM 데이터는 상기 3차원 데이터 셋에 대해, 컬러 스케일 기반으로 표현한 EM 데이터인, 분산 병렬 처리 시스템.
  10. 제7항에 있어서,
    상기 결정된 연산 노드는,
    상기 연산 태스크에 대응하는 3차원 데이터 셋을 3차원 청크 데이터로 생성하도록 구성되는, 분산 병렬 처리 시스템.
  11. 제10항에 있어서,
    생성된 3차원 청크(Chunk) 데이터를 디스플레이하는 디스플레이를 더 포함하는, 분산 병렬 처리 시스템.
  12. 제7항에 있어서,
    상기 마스터 노드는,
    연산 노드에서 연산 에러가 발생된 경우, 연산 에러 로그 정보를 수신하도록 구성되는, 분산 병렬 처리 방법.
KR1020210020504A 2021-02-16 2021-02-16 바이오 데이터를 분산 병렬 처리하는 방법 및 시스템 KR102619707B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210020504A KR102619707B1 (ko) 2021-02-16 2021-02-16 바이오 데이터를 분산 병렬 처리하는 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210020504A KR102619707B1 (ko) 2021-02-16 2021-02-16 바이오 데이터를 분산 병렬 처리하는 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20220116976A true KR20220116976A (ko) 2022-08-23
KR102619707B1 KR102619707B1 (ko) 2023-12-28

Family

ID=83092493

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210020504A KR102619707B1 (ko) 2021-02-16 2021-02-16 바이오 데이터를 분산 병렬 처리하는 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102619707B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160099762A (ko) 2015-02-12 2016-08-23 소프트온넷(주) 자동 분산병렬 처리 하둡 시스템을 지원하는 클라우드 시스템
KR20190041707A (ko) * 2017-10-13 2019-04-23 인천대학교 산학협력단 Gpu를 사용한 실시간 빅 데이터 스트림 처리 장치 및 방법
KR20190048790A (ko) * 2017-10-31 2019-05-09 한국과학기술원 공간 데이터를 분산 처리하는 시스템 및 방법
KR20190088835A (ko) * 2018-01-19 2019-07-29 재단법인대구경북과학기술원 웹-기반 삼차원 뇌 신경회로 이미지를 제공하는 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160099762A (ko) 2015-02-12 2016-08-23 소프트온넷(주) 자동 분산병렬 처리 하둡 시스템을 지원하는 클라우드 시스템
KR20190041707A (ko) * 2017-10-13 2019-04-23 인천대학교 산학협력단 Gpu를 사용한 실시간 빅 데이터 스트림 처리 장치 및 방법
KR20190048790A (ko) * 2017-10-31 2019-05-09 한국과학기술원 공간 데이터를 분산 처리하는 시스템 및 방법
KR20190088835A (ko) * 2018-01-19 2019-07-29 재단법인대구경북과학기술원 웹-기반 삼차원 뇌 신경회로 이미지를 제공하는 시스템 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J. B. Heymann 외, "Bsoft: Image processing and molecular modeling for electron microscopy", Journal of Structure biology, 157(1):3-18. (2006.06.28.)* *
J.M. de la Rosa-Trevín 외, "Scipion: A software framework toward integration, reproducibility and validation in 3D electron microscopy", Journal of Structural Biology, 195(1):93-99. (2016.04.20.)* *

Also Published As

Publication number Publication date
KR102619707B1 (ko) 2023-12-28

Similar Documents

Publication Publication Date Title
Cai et al. Experimental and computational framework for a dynamic protein atlas of human cell division
Collman et al. Mapping synapses by conjugate light-electron array tomography
CN110853022B (zh) 病理切片图像的处理方法、装置、系统及存储介质
US11544843B2 (en) Tracking biological objects over time and space
JP6197659B2 (ja) 検出制御装置、プログラム及び検出システム
Zhang et al. Non-invasive single-cell morphometry in living bacterial biofilms
CN106815070B (zh) 一种用于图像分析的高性能计算框架方法及系统
CN111340831A (zh) 点云边缘检测方法和装置
Zhou et al. EASE: EM-Assisted Source Extraction from calcium imaging data
Martins et al. R2OBBIE-3D, a fast robotic high-resolution system for quantitative phenotyping of surface geometry and colour-texture
DE102022121509A1 (de) Einzelbild-inversrendering
Tosi et al. AutoScanJ: a suite of ImageJ scripts for intelligent microscopy
Ara et al. A COMPARATIVE REVIEW OF AI-GENERATED IMAGE DETECTION ACROSS SOCIAL MEDIA PLATFORMS
KR20220116976A (ko) 바이오 데이터를 분산 병렬 처리하는 방법 및 시스템
Marblestone et al. Conneconomics: the economics of dense, large-scale, high-resolution neural connectomics
CN111462005B (zh) 处理显微图像的方法、装置、计算机设备及存储介质
Starborg et al. Serial block face‐scanning electron microscopy: A tool for studying embryonic development at the cell–matrix interface
Hodneland et al. Automated detection of tunneling nanotubes in 3D images
Ardelean et al. Counting cells with tissue-like P systems
CN112613521B (zh) 基于数据转换的多层次数据分析系统及方法
Liang et al. A multiple hypothesis based method for particle tracking and its extension for cell segmentation
DE102021119725A1 (de) Überlagern von metadaten über videoströme on-demand zur intelligenten videoanalytik
Sage et al. Benchmarking image-processing algorithms for biomicroscopy: reference datasets and perspectives
Cazzolato et al. Efficient and reliable estimation of cell positions
Fan et al. Moving Target Detection and Tracking Technology Based on Genetic Algorithm

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant