KR20190128391A

KR20190128391A - 특정 데이터 군집의 종단지점 탐색 방법 및 이를 위한 데이터 처리시스템

Info

Publication number: KR20190128391A
Application number: KR1020180052522A
Authority: KR
Inventors: 김선우; 이동윤; 이창대
Original assignee: 주식회사 딥바이오
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2019-11-18
Also published as: US20210224268A1; JP7281827B2; CN112119465A; EP3779993A1; JP2021523459A; KR102273373B1; EP3779993A4; WO2019216643A1

Abstract

특정 데이터 군집의 종단지점 탐색 방법 및 이를 위한 데이터 처리시스템이 개시된다. 상기 특정 데이터 군집의 종단지점 탐색 방법은 a) 탐색시스템이 데이터 세트에 포함된 다수의 개별 데이터 각각의 수치 값을 입력받는 단계, b) 상기 탐색시스템이 입력받은 상기 각각의 수치 값을 이용해 상기 수치 값이 가질 수 있는 수치범위를 미리 정해진 빈 폭을 갖는 복수 개의 빈들로 분할하고, 분할 된 빈들 각각에 해당하는 개별 데이터의 개수를 빈 값으로 갖는 히스토그램 데이터를 생성하는 단계, 및 c) 상기 탐색시스템이 생성한 히스토그램 데이터에 기초하여 특정 군집의 종단에 존재하는 목표 빈을 탐색하는 단계를 포함한다.

Description

특정 데이터 군집의 종단지점 탐색 방법 및 이를 위한 데이터 처리시스템{Data Processing system and method for searching end-point of preset data cluster}

본 발명은 특정 데이터 군집의 종단지점 탐색 방법 및 이를 위한 데이터 처리시스템에 관한 것으로, 보다 상세하게는 적어도 하나의 데이터 군집을 갖는 데이터 세트에서 특정 데이터 군집의 종단지점(예컨대, 끝지점 또는 시작지점 등)을 효과적으로 탐색할 수 있는 방법 및 그 시스템에 관한 것이다.

많은 기술 또는 서비스 분야에서 다수의 데이터를 분석하고 활용하고 있다.

예컨대, 특정 의료데이터들을 분석하여 환자별로 의약을 적용할지 말지 여부를 결정하거나, 개인에 특화딘 치료법을 적용하는 등의 방식이 활발히 적용되고 있다.

도 1은 소정의 표적항암제에 적합한 환자를 선별하기 위한 수단인 소정의 동반진단키트에서 활용되는 의료데이터의 일 예를 나타내고 있다.

도 1은 일 실시 예로써, 폐암의 대표적인 바이오 마커인 EGFR 중 특정 유전자(예컨대, exon 18, 19, 20, 21)에 존재하는 돌연변이의 존재 여부를 알려주는 검사키트(예컨대, GenesWell ^™ ddEGFR Mutation Test)를 이용해서 얻어지는 의료데이터이다. 이러한 의료데이터를 분석하여 수술 후 표적항암제 처방 전에 치료제에 효과를 보이는 환자를 선별하는데 이용될 수 있다. 하지만 본 발명의 기술적 사상은 이러한 실시 예에 국한되어 적용되는 것은 아니며, 다양한 데이터 분석에 이용될 수 있음은 물론이다.

또한 도 1에 도시된 바와 같은 그래프에서 각각의 점은 개별적인 의료데이터를 나타낸다. 그리고 실시 예에서 개별적인 의료데이터는 도 1에 도시된 바와 같이 좌표계에서 적어도 하나의 군집(예컨대, 도 1에서는 3개의 군집)으로 군집화를 이루고 있을 수 있다.

이때 특정 데이터 군집에서의 종단지점(예컨대, 첫 번째 군집인 최하단 데이터 군집에서 가장 상부에 존재하는 적어도 한 개의 개별 의료데이터(예컨대, y 측 값이 가장 큰 순서로 적어도 한 개) 또는 이러한 개별 의료데이터의 데이터 값(y축 값))을 판단할 필요가 있을 수 있다.

하지만 각각의 개별 의료데이터만으로는 어떤 개별 의료데이터가 어떤 군집에 포함되는지 데이터 수치 값 또는 좌표계에서 표시된 좌표위치만으로는 알기가 어렵고 특히 데이터 군집과 데이터 군집 사이에 다수의 개별 의료데이터가 존재하는 경우에는 이러한 어려움은 더욱 증대될 수 있다.

실제로 종래에는 도 1에 도시된 바와 같이 사람이 육안으로 좌표계에 표시된 개별 의료데이터를 확인하고, 임의로 종단지점(예컨대, 첫 번째(최하위) 군집에서의 상단지점)을 구분하기 위한 구분선(10)을 긋는 작업 방식을 이용하고 있다.

하지만 이러한 경우 작업 수행자에 따라 종단지점이 달라질 수 있고, 정확도가 떨이질 수 있는 문제점이 있었다.

따라서 본 발명이 이루고자 하는 기술적인 과제는 적어도 하나의 데이터 군집이 존재하는 데이터 세트에서 신속히 특정 데이터 군집의 종단지점을 자동으로 탐색할 수 있는 방법 및 그 시스템을 제공하는 것이다.

본 발명의 일 측면에 따르면, 적어도 하나의 군집을 갖는 데이터 세트에서 특정 군집의 종단지점을 탐색하는 방법은 a) 탐색시스템이 상기 데이터 세트에 포함된 다수의 개별 데이터 각각의 수치 값을 입력받는 단계, b) 상기 탐색시스템이 입력받은 상기 각각의 수치 값을 이용해 상기 수치 값이 가질 수 있는 수치범위를 미리 정해진 빈 폭을 갖는 복수 개의 빈들로 분할하고, 분할 된 빈들 각각에 해당하는 개별 데이터의 개수를 빈 값으로 갖는 히스토그램 데이터를 생성하는 단계, c) 상기 히스토그램 데이터를 평활화하는 단계, d) 상기 평활화된 히스토그램 데이터를 차분하는 단계, 및 e) 차분된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하며 특정 군집의 종단에 존재하는 목표 빈을 탐색하는 단계를 포함한다.

상기 차분된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하며 특정 군집의 종단에 존재하는 목표 빈을 탐색하는 단계는, 차분된 히스토그램 데이터에서 일정 방향으로 빈들 각각의 빈 값을 탐색하면서, 탐색하고 있는 현재 빈의 이전 빈 값이 이후 빈 값보다 작고, 상기 이전 빈 값이 0보다 같거나 작고 상기 이후 빈 값이 0보다 같거나 큰 경우를 갖는 첫 번째 빈인 것을 상기 기준조건으로 하여 상기 기준조건을 만족하는 빈을 상기 목표 빈으로 탐색하는 단계를 포함할 수 있다.

상기 특정 데이터 군집의 종단지점 탐색 방법은, f) 미리 설정된 빈 폭을 이용하여 상기 기준조건을 만족하는 목표 빈이 탐색되지 않는 경우, 상기 빈 폭을 일정 수치만큼 줄이는 단계, 줄어든 빈 폭을 이용하여 상기 b) 내지 e)단계를 재수행하는 단계를 더 포함할 수 있다.

상기 기술적 과제를 해결하기 위한 다른 실시 예에 의하면, 적어도 하나의 군집을 갖는 데이터 세트에서 특정 군집의 종단지점을 탐색하는 방법은 a) 탐색시스템이 상기 데이터 세트에 포함된 다수의 개별 데이터 각각의 수치 값을 입력받는 단계, b) 상기 탐색시스템이 입력받은 상기 각각의 수치 값을 이용해 상기 수치 값이 가질 수 있는 수치범위를 미리 정해진 빈 폭을 갖는 복수 개의 빈들로 분할하고, 분할 된 빈들 각각에 해당하는 개별 데이터의 개수를 빈 값으로 갖는 히스토그램 데이터를 생성하는 단계, c) 상기 히스토그램 데이터를 평활화하는 단계, 및 d) 평활화된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하며 특정 군집의 종단에 존재하는 목표 빈을 탐색하는 단계를 포함한다.

상기 평활화된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하는 상기 목표 빈을 탐색하는 단계는, 평활화된 히스토그램 데이터에서 일정 방향으로 빈들 각각의 빈 값을 탐색하면서, 탐색하고 있는 현재 빈의 이전 빈 값이 컷오프 값이 아니면서 현재 빈 값이 컷오프 값이고 적어도 하나의 다음 빈 값이 컷오프 값을 갖는 것을 상기 기준조건으로 하여 상기 기준조건을 만족하는 빈을 상기 목표 빈으로 탐색하는 단계를 포함할 수 있다.

상기의 방법들은 데이터 처리시스템에 설치되는 컴퓨터 프로그램에 의해 구현될 수 있다.

상기의 기술적 과제를 해결하기 위한 시스템은 프로세서, 상기 프로세서에 의해 실행되는 소프트웨어가 저장된 메모리 장치를 포함하며, 상기 소프트웨어는 적어도 하나의 데이터 군집을 갖는 데이터 세트에 포함된 다수의 개별 데이터 각각의 수치 값을 입력받고, 입력받은 상기 각각의 수치 값을 이용해 상기 수치 값이 가질 수 있는 수치범위를 미리 정해진 빈 폭을 갖는 복수 개의 빈들로 분할하고, 분할 된 빈들 각각에 해당하는 개별 데이터의 개수를 빈 값으로 갖는 히스토그램 데이터를 생성하며, 생성한 히스토그램 데이터에 기초하여 특정 군집의 종단에 존재하는 목표 빈을 탐색한다.

상기 소프트웨어는 상기 히스토그램 데이터를 평활화하고, 상기 평활화된 히스토그램 데이터를 차분하며, 차분된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하며 특정 군집의 종단에 존재하는 목표 빈을 탐색할 수 있다.

상기 소프트웨어는 상기 히스토그램 데이터를 평활화하고, 상기 평활화된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하는 상기 목표 빈을 탐색할 수 있다.

상기 소프트웨어는 미리 설정된 빈 폭을 이용하여 상기 기준조건을 만족하는 목표 빈이 탐색되지 않는 경우, 상기 빈 폭을 일정 수치만큼 줄이고, 줄어든 빈 폭을 이용하여 히스토그램을 재생성하여, 재생성된 히스토그램을 이용하여 상기 특정 군집의 종단에 존재하는 목표 빈을 재탐색할 수 있다.

본 발명의 기술적 사상에 따르면 다수의 개별 데이터들을 별도로 클러스터링 하지 않고도, 개별 데이터들의 수치 값을 이용해 빠르게 특정 데이터 군집의 종단지점을 자동으로 탐색할 수 있는 효과가 있다.

이를 통해 기존에 수동으로 수행하던 작업에 비해 일관성 있고 정확한 종단지점의 탐색이 가능한 효과가 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 종래의 특정 데이터 군집의 종단지점 탐색 방법을 설명하기 위한 예시적인 도면이다.
도 2는 본 발명의 일 실시 예에 따른 탐색시스템의 개략적인 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시 예에 따른 특정 데이터 군집의 종단지점 탐색 방법을 개념적으로 설명하기 위한 도면들이다.
도 4는 본 발명의 일 실시 예에 따른 특정 데이터 군집의 종단지점 탐색 방법을 설명하기 위한 플로우 차트를 나타낸다.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시 예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.

또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다.

반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 2는 본 발명의 일 실시 예에 따른 탐색시스템의 개략적인 구성을 설명하기 위한 도면이다.

도 2를 참조하면, 본 발명의 기술적 사상에 따른 탐색시스템(100)은 프로세서(110) 및 메모리(120)를 포함한다.

상기 메모리(120)는 본 발명의 기술적 사상을 구현하기 위한 컴퓨터 프로그램(소프트웨어)를 저장할 수 있다.

상기 소프트웨어는 상기 프로세서(110)에 의해 구동되어 본 발명의 기술적 사상에 따른 특정 데이터 군집의 종단지점 탐색 방법을 수행할 수 있다.

상기 탐색시스템(100)은 실시 예에 따라 소정의 주변장치(130)를 적어도 하나 포함할 수 있다. 상기 주변장치는 예컨대, 디스플레이장치, 스피커, 오디오/비디오 처리모듈, 외장메모리, 입출력장치, 통신장치 등 다양할 수 있다.

상기 탐색시스템(100)는 컴퓨터, 서버, 모바일 폰 등 본 발명의 기술적 사상에 따라 특정 데이터 군집의 종단지점을 탐색할 수 있는 데이터 프로세싱 능력을 가지는 어떠한 데이터 처리시스템으로도 구현 가능할 수 있다.

상기 탐색시스템(100)은 소정의 데이터 세트를 입력받을 수 있다. 상기 데이터 세트는 다수의 개별 데이터를 포함할 수 있다. 다수의 개별 데이터는 소정의 값을 갖는다. 상기 값은 수치 값일 수 있다. 그리고 다수의 개별 데이터는 적어도 하나의 데이터 군집을 형성할 수 있다.

본 발명의 기술적 사상에 따른 예시는 도 1에서 설명한 바와 같이 의료데이터일 수 있지만, 본 발명의 권리범위는 이에 한정되지는 않으며 다양한 데이터에 활용될 수 있음은 물론이다.

상기 탐색시스템(100)은 입력되는 데이터 세트를 이용해 히스토그램 데이터를 생성한다. 상기 히스토그램 데이터는 상기 개별 데이터가 가질 수 있는 수치 값의 범위를 제1축(예컨대, x축)의 도메인으로 하며, 이러한 제1축이 소정의 빈 폭을 갖는 복수의 빈(bin)들로 분할된 경우의 각각의 빈에 대한 정보를 포함할 수 있다.

상기 개별 데이터가 가질 수 있는 수치 값은 양의 실수 값일 수 있으며, 최대 값이 미리 정해질 수 있다.

각각의 빈에 대한 정보는 해당 빈의 제1축 값의 범위(또는 몇 번째 빈인지를 나타내는 빈의 인덱스) 및 해당 빈의 제2축(예컨대, y축) 값을 가질 수 있다. 빈의 제2축 값은 제1축 값의 범위(즉, 상기 빈 폭만큼의 범위를 가지는 상기 개별 데이터의 수치 값)에 해당하는 개별 데이터의 개수일 수 있다.

그리고 이러한 빈에 대한 정보를 포함하는 상기 히스토그램 데이터에 기초하여 상기 탐색시스템(100)은 적어도 하나의 데이터 군집에서 특정 군집(예컨대, 첫 번째 군집)의 종단지점(예컨대, 상단지점)을 탐색할 수 있다.

종단지점을 탐색한다고 함은, 상기 특정 군집에 포함된 개별 데이터 중 개별 데이터의 수치 값이 높은 순으로(예컨대, 도 1에서 y축 방향으로 위쪽) 첫 번째 개별 데이터의 수치 값(또는 상기 첫 번째 개별 데이터의 수치 값 직후의 수치 값의 범위) 또는 높은 순으로 몇 개의 개별 데이터가 갖는 수치 값의 범위(또는 상기 범위 직후의 수치 값의 범위)를 의미할 수 있다.

또는, 상기 종단지점은 상기 특정 군집에 포함된 개별 데이터 중 개별 데이터의 수치 값이 낮은 순으로(예컨대, 도 1에서 y축 방향으로 아래쪽) 첫 번째 개별 데이터가 갖는 수치 값(또는 첫 번째 개별 데이터의 수치 값 보다 낮은 직전 수치 값의 범위) 또는 낮은 순으로 미리 정해진 개수(예컨대, 2~3개)의 개별 데이터가 갖는 수치 값의 범위(또는 그 직전 수치 값의 범위)를 의미할 수 있다.

도 1에서 설명한 예에서는, 복수의 데이터 군집에서 수치 값이 낮은 순으로 첫 번째 데이터 군집의 상단지점을 찾는 경우를 예시적으로 나타내고 있지만, 본 발명의 기술적 사상이 반드시 첫 번째 데이터 군집에 적용되어야 하거나 특정 데이터 군집의 상단지점을 탐색하는 데만 적용되는 것은 아니다. 예컨대, 후술하는 바와 같이 히스토그램 데이터를 이용하여 특정 군집의 종단지점을 탐색할 경우, 탐색방향(예컨대, 제1축의 수치 값이 낮은 빈에서 높은 빈 방향으로)에 따라 몇 번째(예컨대, 2번째) 종단지점을 찾는지에 따라 임의의 데이터 군집(예컨대, 2번째 데이터 군집)의 종단지점을 찾을 수 있다. 또한 탐색방향(예컨대, 제1축의 수치 값이 높은 빈에서 낮은 빈 방향으로)에 따라 특정 데이터 군집의 상단지점이 아니라 하단지점을 찾을 수도 있다.

이하에서는 설명의 편의를 위해, 복수의 데이터 군집에서 수치 값이 낮은 순서로 첫 번째 데이터 군집의 상단지점을 찾는 경우를 일 예로 설명하지만 본 발명의 권리범위가 이에 한정되지는 않는다.

본 발명의 기술적 사상에 의하면, 히스토그램 데이터를 이용하여 특정 데이터 군집의 종단지점을 찾을 수 있으며, 이러한 경우 히스토그램 데이터에서 해당하는 데이터 군집에 상응하는 종단 빈 즉, 목표 빈을 탐색하는 문제로 정의될 수 있다.

또한 실시 예에 따라서, 본 발명의 기술적 사상에 의하면 상기 히스토그램 데이터를 그대로 이용하는 것이 아니라, 평활화된 히스토그램 데이터 및/또는 평활화된 히스토그램 데이터를 차분한 히스토그램 데이터를 이용할 수 있다.

즉, 본 발명의 실시 예에서는 평활화된 히스토그램 데이터를 이용하여 목표 빈을 탐색할 수도 있고, 평활화된 히스토그램 데이터를 다시 차분화하여 차분한 히스토드램 데이터를 이용하여 목표 빈을 탐색할 수도 있다. 또한 차분화를 수행하는 경우에는 보다 직관적으로 히스토그램 데이터의 변곡점을 직관적으로 판단하기 용이한 효과가 있다.

본 발명의 기술적 사상에 의하면, 평활화 또는 평활화 및 차분화를 통해 원래의 개별 데이터를 단순히 히스토그램 데이터로 변환하여 목표 빈을 탐색하는 경우에 일시적으로 특정 빈(즉, 특정 수치 값 인근 범위)에 해당하는 개별 데이터가 존재하지 않고 다시 개별 데이터가 존재하는 경우에 상기 특정 빈을 목표 빈 즉, 탐색하고자 하는 특정 데이터 그룹의 종단지점으로 탐색하는 경우를 방지할 수 있는 효과가 있다.

이하에서는 도 3 및 도 4를 참조하여 이러한 본 발명의 기술적 사상을 보다 구체적으로 설명하도록 한다.

도 3은 본 발명의 일 실시 예에 따른 특정 데이터 군집의 종단지점 탐색 방법을 개념적으로 설명하기 위한 도면이다. 또한, 도 4는 본 발명의 일 실시 예에 따른 특정 데이터 군집의 종단지점 탐색 방법을 설명하기 위한 플로우 차트를 나타낸다.

도 3은 마스크의 지름(즉, 파라미터의 수)이 3이고 단순히 파라미터의 값들이 각각 [-1. 0. 1]인 마스크로 평활화 및/또는 차분화를 수행할 경우의 예시적인 히스토그램 데이터를 도시하고 있지만, 평활화 마스크 및/또는 차분화 마스크의 지름과 파라미터 값 등은 다양해질 수 있음은 물론이다.

도 3 및 도 4를 참조하면, 상기 탐색시스템(100)은 데이터 세트에 포함된 원본 개별 데이터(O)를 순차적으로 입력받을 수 있다(S100).

원본 개별 데이터(O)는 도 3에 도시된 바와 같이 양의 실수 값(예컨대, 1.23425, 2.13425, 4.23252, 3.13141, 1.14452 등)을 가질 수 있다. 이러한 양의 실수 값은 도 1에 도시된 그래프에서 제2축(예컨대, y축)에 상응하는 값일 수 있다.

그러면 상기 탐색시스템(100)은 입력된 원본 개별 데이터(O)에 기초하여 히스토그램 데이터(H)를 생성할 수 있다(S110).

상기 히스토그램 데이터(H)는 개별 데이터가 가질 수 있는 수치 값의 범위를 일정 폭을 가지는 복수의 빈(bin)들(20)로 분할하고, 분할된 빈들 각각에 해당하는 수치 값을 갖는 개별 데이터의 개수가 각각의 빈들의 빈 값을 가지도록 생성되는 데이터일 수 있다.

이러한 히스토그램 데이터(H)를 도식화하면 도 3의 히스토그램 데이터(H)와 같을 수 있다.

도 3의 히스토그램 데이터(H)에서 빈 값을 갖는 빈들(21)은 어느 하나의 데이터 군집에 상응하는 히스토그램의 부분 영역일 수 있다.

따라서 상기 데이터 군집의 종단지점 즉, 상기 탐색시스템(100)이 탐색하고자 하는 목표 빈(30)은 도 3에 도시된 바와 같을 수 있다. 즉, 도 3에서는 마지막 개별 데이터 즉, 목표 빈(30)의 직전 빈(21-1)에 해당하는 개별 데이터의 수치 값 범위(즉, 상기 직전 빈(21-1)의 제1축 값의 범위)가 아니라 그 빈 값이 존재하는 상기 직전 빈(21-1) 직후의 빈을 목표 빈(30)으로 탐색하는 경우를 도시하고 있지만, 실시 예에 따라서는 상기 직전 빈(21-1)이 목표 빈이 될 수도 있음은 물론이다.

상기 탐색시스템(100)은 이러한 히스토그램 데이터(H)로부터 직접 목표 빈(30)을 탐색하는 것이 아니라, 상기 히스토그램 데이터(H)를 평활화 할 수 있다(S120).

그리고 평활화된 히스토그램 데이터(S)를 이용하여 상기 목표 빈(30)을 탐색할 수 있다(S150).

이처럼 평활화된 히스토그램 데이터(S)를 이용함으로써, 상기 빈 값을 갖는 일련의 빈들(21) 사이에 일시적으로 빈 값이 0인 빈(공백 빈이라 함)이 적어도 하나 존재하는 경우 즉, 탐색하고자 하는 데이터 군집에 해당하는 수치 값의 범위 중에서 개별 데이터가 존재하지 않는 일부 범위가 존재하는 경우, 이러한 공백 빈을 목표 빈으로 판단할지 또는 공백 빈으로 판단할지가 불명확한 문제를 해결할 수 있다. 즉, 평활화된 히스토그램 데이터(S)를 이용하는 경우에는 원래의 히스토그램(H)에서는 공백 빈이라 하더라도 좌우의 빈 값에 따라 일정 값을 갖게 되어 빈 값이 0이 아니게 될 수 있기 때문에 평활화된 히스토그램 데이터(S)를 활용하는 것이 더욱 효과적일 수 있다.

이처럼 원본 히스토그램 데이터(H)를 평활화한 결과를 예시적으로 도시하면 도 3의 히스토그램(S)과 같을 수 있다.

히스토그램을 평활화하기 위한 평활화 마스크(또는 필터) 및/또는 차분 마스크는 널리 알려져 있다.

본 발명의 실시 예에서는 평활화 마스크 및/또는 차분 마스크는 컨볼루션 마스크를 이용할 수 있고, 소정의 숫자열 x와 콘볼루션 마스크 h는 다음과 같이 정의될 수 있다.

[수학식 1]

본 발명의 일 실시 예에서, 평활화 마스크 및 차분 마크의 일 예는 각각 [1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [-1, -1, -1, -1, 0, 1, 1, 1, 1]을 이용하였고, 또 다른 실시 예에서는 [1, 1, 1, 1, 1, 1, 1, 1, 1], [-1, -1, -1, -1, 0, 1, 1, 1, 1]을 이용하였다. 하지만 평활화 마스크 및 차분 마스크는 데이터 세트에 포함된 개별 데이터의 개수 및 군집도 등 데이터 세트의 특성에 따라 다양하게 설정될 수도 있다.

한편, 전술한 바와 같이 상기 탐색시스템(100)은 평활화된 히스토그램 데이터(S)를 이용하여 목표 빈(30)을 탐색할 수 있지만, 다른 케이스의 경우에는 평활화된 히스토그램 데이터(S)를 차분화함으로써 보다 명확하게 목표 빈(30)을 탐색할 수 있다.

어떤 경우에 평화화된 히스토그램 데이터(S)를 이용하여 목표 빈(30)을 탐색하고, 또 어떤 경우에 차분화된 히스토그램 데이터(D)를 이용하여 목표 빈(30)을 탐색할지는 데이터 세트의 특성에 따라 미리 결정되어 있을 수 있다. 데이터 세트의 특성은 데이터의 개수, 데이터의 밀집도, 데이터 군집의 개수를 포함하는 데이터 세트의 특성에 기초하여 결정될 수 있으며, 미리 수행되는 반복되는 실험을 통해 상기 특성이 어떤 범위에 들 경우에는 제1케이스 즉, 평활화 히스토그램 데이터(S)를 이용하여 목표 빈(30)을 탐색하고, 다른 제2케이스에는 차분화 히스토드램 데이터(D)를 이용하여 목표 빈(30)을 탐색하는 것으로 그 기준이 정해질 수도 있음은 물론이다.

물론 실시 예에 따라서는 랜덤하게 두 방식 중 어느 하나를 선택할 수도 있고, 구현 예에 따라서는 두 방식을 모두 이용하여 목표 빈(30)을 탐색하고 그 결과를 비교할 수도 있다.

만약 두 방식을 모두 이용하여 목표 빈(30)을 탐색하는 경우에는, 탐색된 목표 빈들 각각의 위치(제1축 값)가 동일하거나 또는 미리 정해진 위치(제1축값) 범위내인 경우 어느 하나의 방식으로 찾아진 목표 빈을 최종 목표 빈으로 결정할 수 있다.

따라서 상기 탐색시스템(100)은 입력되는 원본 개별 데이터(O)에 기초하여 제1케이스라고 판단한 경우(S130), 상술한 바와 같이 평활화된 히스토그램 데이터(S)를 이용하여 목표 빈(30)을 탐색할 수 있다(S150).

그리고 상기 탐색시스템(100)이 제2케이스라고 판단한 경우, 상기 탐색시스템(100)은 상기 평활화 된 히스토그램 데이터(S)를 다시 차분화할 수 있다(S140). 그러면 상기 탐색시스템(100)은 차분화한 히스토그램 데이터(D)를 이용하여 목표 빈(30)을 탐색할 수 있다(S150).

상기 탐색시스템(100)이 평활화된 히스토그램 데이터(S)로부터 목표 빈(30)을 탐색하는 경우의 일 예는 다음과 같을 수 있다.

예컨대, 상기 탐색시스템(100)은 평활화된 히스토그램 데이터(S)에서 일정 방향(예컨대, 수치 값이 커지는 방향)으로 빈들 각각의 빈 값을 탐색할 수 있다.

그러면서 탐색하고 있는 현재 빈의 이전 빈 값이 컷오프 값(예컨대, 0)이 아니면서 현재 빈 값이 컷오프 값(예컨대, 0)이고 미리 정해진 개수(예컨대, 1개 또는 2개 이상)의 다음 빈 값이 컷오프 값(예컨대, 0)을 갖는 목표 빈(30)을 탐색할 수 있다.

이러한 경우 도 3에서 상기 목표 빈(30)이 현재 탐색되고 있는 현재 빈일 경우, 직전 빈(21-1)의 빈값은 0이 아니고, 현재 빈의 빈 값은 0이면 미리 정해진 개수(예컨대 2개)의 직후 빈들의 빈 값들은 0이므로 상기 현재 빈을 목표 빈(30)으로 결정할 수 있다.

컷 오프 값은 0일 수 있지만, 실시 예에 따라서는 1 등과 같이 작은 값을 가지도록 설정될 수도 있다. 이러한 경우는 탐색하는 종단지점은 데이터 군집에서 종단측에 개별 데이터가 1개 정도만 존재하는 수치 값을 찾는 알고리즘으로 정의될 수 있으며, 실시 예에 따라 컷오프 값은 다양하게 설정될 수 있다.

한편, 차분화된 히스토그램 데이터(D)로부터 목표 빈(30)을 탐색하는 경우의 일 예는 다음과 같을 수 있다.

예컨대, 상기 탐색시스템(100)은 차분화된 히스토그램 데이터(D)에서 일정 방향(예컨대, 수치 값이 커지는 방향)으로 빈들 각각의 빈 값을 탐색할 수 있다.

그러면서 탐색하고 있는 현재 빈이 목표 빈(30)이라면, 상기 현재 빈의 직전 빈(21-1)의 빈 값이 직후 빈(31)의 빈 값보다 작고, 상기 직전 빈(21-1)의 빈 값이 0보다 같거나 작고 상기 직후 빈(31)의 빈 값이 0보다 같거나 큰 경우를 갖는 경우가 탐색하고자 하는 목표 빈(30)일 수 있다.

즉, 빈 값이 음의 값에서 점점 작아지면서 0이 되는 영역에 해당하는 지점이 탐색하고자 하는 목표 빈(30)이 될 수 있다.

한편, 상술한 바와 같은 히스토그램 데이터를 생성할 때 빈 폭을 어떻게 설정하느냐에 따라 목표 빈(30)이 탐색되지 않을 수도 있다. 예컨대, 빈의 폭이 너무 큰 경우에는 탐색하고자 하는 데이터 군집과 그 다음 데이터 군집 사이에 개별 데이터가 다수 존재하고 상대적으로 밀집되어 있을 경우, 컷오프 값을 갖는 빈이 존재하지 않을 수도 있다.

그렇다고 너무 빈 폭을 좁히는 경우에는 하나의 데이터 군집 내에서도 컷오프 값을 갖는 빈이 다수 검출될 수 있는 문제점, 또는 빈의 개수가 많아져서 탐색시간이 오래 걸리는 문제점 등이 발생할 수 있다.

따라서 반복적인 실험을 통해 적절한 빈 폭을 미리 결정해두는 것이 필요할 수도 있다.

만약 이러한 빈 폭을 미리 결정해두는 것이 어려운 경우에는, 소정의 디폴트 빈 폭 값을 이용하여 탐색을 수행하고, 상술한 바와 같은 목표 빈이 탐색되지 않을 경우(즉, 탐색하고자 하는 목표 데이터 군집의 종단 빈과 상기 목표 데이터 군집에 이웃하는 데이터 군집의 상기 목표 데이터 군집 측 종단 빈 사이에 빈 값이 0인 빈이 존재하지 않을 정도로 빈 폭이 넓을 경우)에는 순차적으로 미리 정해진 단위 값만 큼 빈 폭을 좁혀가면서 좁혀진 빈폭을 이용하여 다시 히스토그램 데이터를 생성할 수 있다. 그리고 다시 생성된 히스토그램 데이터를 이용하여 전술한 바와 같은 목표 빈 탐색과정(평활화된 히스토그램 데이터를 이용한 목표 빈 탐색 또는 차분화된 히스토그램 데이터를 이용한 목표 빈 탐색)을 수행할 수 있다.

이러한 경우, 상대적으로 탐색효율이 뛰어난 빈 폭이 탐색되고 탐색된 빈 폭을 이용하여 전술한 바와 같은 목표 빈이 탐색될 수 있는 효과가 있다.

한편, 본 발명의 실시 예에 따른 특정 데이터 군집의 종단지점 탐색 방법은 컴퓨터가 읽을 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명의 실시예에 따른 제어 프로그램 및 대상 프로그램도 컴퓨터로 판독 가능한 기록 매체에 저장될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

기록 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터로 읽을 수 있는 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 전자적으로 정보를 처리하는 장치, 예를 들어, 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타나며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

적어도 하나의 군집을 갖는 데이터 세트에서 특정 군집의 종단지점을 탐색하는 방법에 있어서,
a) 탐색시스템이 상기 데이터 세트에 포함된 다수의 개별 데이터 각각의 수치 값을 입력받는 단계;
b) 상기 탐색시스템이 입력받은 상기 각각의 수치 값을 이용해 상기 수치 값이 가질 수 있는 수치범위를 미리 정해진 빈 폭을 갖는 복수 개의 빈들로 분할하고, 분할 된 빈들 각각에 해당하는 개별 데이터의 개수를 빈 값으로 갖는 히스토그램 데이터를 생성하는 단계;
c) 상기 히스토그램 데이터를 평활화하는 단계; 및
d) 상기 평활화된 히스토그램 데이터를 차분하는 단계;
e) 차분된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하며 특정 군집의 종단에 존재하는 목표 빈을 탐색하는 단계를 포함하는 특정 데이터 군집의 종단지점 탐색 방법.
제1항에 있어서, 상기 차분된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하며 특정 군집의 종단에 존재하는 목표 빈을 탐색하는 단계는,
차분된 히스토그램 데이터에서 일정 방향으로 빈들 각각의 빈 값을 탐색하면서, 탐색하고 있는 현재 빈의 이전 빈 값이 이후 빈 값보다 작고, 상기 이전 빈 값이 0보다 같거나 작고 상기 이후 빈 값이 0보다 같거나 큰 경우를 갖는 첫 번째 빈인 것을 상기 기준조건으로 하여 상기 기준조건을 만족하는 빈을 상기 목표 빈으로 탐색하는 단계를 포함하는 특정 데이터 군집의 종단지점 탐색 방법.
제1항에 있어서, 상기 특정 데이터 군집의 종단지점 탐색 방법은,
f) 미리 설정된 빈 폭을 이용하여 상기 기준조건을 만족하는 목표 빈이 탐색되지 않는 경우, 상기 빈 폭을 일정 수치만큼 줄이는 단계;
줄어든 빈 폭을 이용하여 상기 b) 내지 e)단계를 재수행하는 단계를 더 포함하는 것을 특징으로 하는 특정 데이터 군집의 종단지점 탐색 방법.
적어도 하나의 군집을 갖는 데이터 세트에서 특정 군집의 종단지점을 탐색하는 방법에 있어서,
a) 탐색시스템이 상기 데이터 세트에 포함된 다수의 개별 데이터 각각의 수치 값을 입력받는 단계;
b) 상기 탐색시스템이 입력받은 상기 각각의 수치 값을 이용해 상기 수치 값이 가질 수 있는 수치범위를 미리 정해진 빈 폭을 갖는 복수 개의 빈들로 분할하고, 분할 된 빈들 각각에 해당하는 개별 데이터의 개수를 빈 값으로 갖는 히스토그램 데이터를 생성하는 단계;
c) 상기 히스토그램 데이터를 평활화하는 단계; 및
d) 평활화된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하며 특정 군집의 종단에 존재하는 목표 빈을 탐색하는 단계를 포함하는 특정 데이터 군집의 종단지점 탐색 방법.
제4항에 있어서, 상기 평활화된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하는 상기 목표 빈을 탐색하는 단계는,
평활화된 히스토그램 데이터에서 일정 방향으로 빈들 각각의 빈 값을 탐색하면서, 탐색하고 있는 현재 빈의 이전 빈 값이 컷오프 값이 아니면서 현재 빈 값이 컷오프 값이고 적어도 하나의 다음 빈 값이 컷오프 값을 갖는 것을 상기 기준조건으로 하여 상기 기준조건을 만족하는 빈을 상기 목표 빈으로 탐색하는 단계를 포함하는 특정 데이터 군집의 종단지점 탐색 방법.
데이터 처리시스템에 설치되며 제1항 내지 제5항 중 어느 한 항에 기재된 방법을 수행하기 위한 프로그램을 기록한 컴퓨터 프로그램.
프로세서;
상기 프로세서에 의해 실행되는 소프트웨어가 저장된 메모리 장치를 포함하며,
상기 소프트웨어는,
적어도 하나의 데이터 군집을 갖는 데이터 세트에 포함된 다수의 개별 데이터 각각의 수치 값을 입력받고, 입력받은 상기 각각의 수치 값을 이용해 상기 수치 값이 가질 수 있는 수치범위를 미리 정해진 빈 폭을 갖는 복수 개의 빈들로 분할하고, 분할 된 빈들 각각에 해당하는 개별 데이터의 개수를 빈 값으로 갖는 히스토그램 데이터를 생성하며, 생성한 히스토그램 데이터에 기초하여 특정 군집의 종단에 존재하는 목표 빈을 탐색하는 데이터 처리시스템.
제7항에 있어서, 상기 소프트웨어는,
상기 히스토그램 데이터를 평활화하고, 상기 평활화된 히스토그램 데이터를 차분하며, 차분된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하며 특정 군집의 종단에 존재하는 목표 빈을 탐색하는 데이터 처리시스템.
제7항에 있어서, 상기 소프트웨어는,
상기 히스토그램 데이터를 평활화하고, 상기 평활화된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하는 상기 목표 빈을 탐색하는 데이터 처리시스템.
제7항에 있어서, 상기 소프트웨어는,
미리 설정된 빈 폭을 이용하여 상기 기준조건을 만족하는 목표 빈이 탐색되지 않는 경우, 상기 빈 폭을 일정 수치만큼 줄이고, 줄어든 빈 폭을 이용하여 히스토그램을 재생성하여, 재생성된 히스토그램을 이용하여 상기 특정 군집의 종단에 존재하는 목표 빈을 재탐색하는 데이터 처리시스템.