KR101475624B1 - 컴퓨터가 수행하는 해양 기상 표본 추출 방법 - Google Patents

컴퓨터가 수행하는 해양 기상 표본 추출 방법 Download PDF

Info

Publication number
KR101475624B1
KR101475624B1 KR1020130114010A KR20130114010A KR101475624B1 KR 101475624 B1 KR101475624 B1 KR 101475624B1 KR 1020130114010 A KR1020130114010 A KR 1020130114010A KR 20130114010 A KR20130114010 A KR 20130114010A KR 101475624 B1 KR101475624 B1 KR 101475624B1
Authority
KR
South Korea
Prior art keywords
data
sample
zone
meteorological
weather
Prior art date
Application number
KR1020130114010A
Other languages
English (en)
Inventor
김윤식
김광수
Original Assignee
한국해양과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국해양과학기술원 filed Critical 한국해양과학기술원
Priority to KR1020130114010A priority Critical patent/KR101475624B1/ko
Application granted granted Critical
Publication of KR101475624B1 publication Critical patent/KR101475624B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은, 컴퓨터가 수행하는 해양 기상 표본 추출 방법으로서, 함정의 적외선신호 해석을 포함하여 기상환경에 민감한 특성을 갖는 물리적 현상에 대한 해석을 위해 추출된 표본 기상조건이 모집단(해양기상 관측 데이터)이 갖는 통계적 분포특성에 최대한 근접하도록 하고, 해양기상 변수들 간의 상관관계를 반영할 수 있도록 하는, 새로운 개념의 해양 기상 표본 추출 방법을 제공하는 것을 목적으로 한다. 이러한 목적을 달성하기 위하여, 본 발명은, 모집단을 이루는 기온, 수온, 상대습도, 풍속, 풍향의 각 기상변수별로 누적분포함수를 구하고 상기 누적분포함수를 추출하고자 하는 표본의 수만큼의 슬롯으로 분할하는 단계; 주성분분석법을 이용하여 서로 상관관계를 가지면서 결합된 상기 기상변수들의 발생확률을 구하고 상기 발생확률이 낮은 데이터에 표본 추출의 높은 우선순위를 설정하는 단계 및; 상기 기상변수들 간의 구역을 분할하고 상기 구역별로 상기 우선순위에 따라 표본을 추출하는 단계;를 포함하는, 컴퓨터가 수행하는 해양 기상 표본 추출 방법을 제공한다.

Description

컴퓨터가 수행하는 해양 기상 표본 추출 방법{ocean climatic data sampling method by computer}
본 발명은 컴퓨터가 수행하는 해양 기상 표본 추출 방법에 관한 것으로, 보다 구체적으로는, 함정의 적외선신호 해석을 포함하여 기상환경에 민감한 특성을 갖는 물리적 현상에 대한 해석을 위해 추출된 표본 기상조건이 모집단(해양기상 관측데이터)이 갖는 통계적 분포특성에 최대한 근접하도록 하고, 해양기상 변수들 간의 상관관계를 반영할 수 있도록 하는, 새로운 개념의 해양 기상 표본 추출 방법에 관한 것이다.
함정의 적외선(IR: InfraRed) 스텔스 성능은 해양의 기상조건에 매우 큰 영향을 받는다. 함정 적외선신호(IR signature) 및 (대함 미사일에 대한) 피탐거리(detection range) 등의 해석을 위해서는 대상함이 운용될 수 있는 해상의 기상데이터(기온, 수온, 상대습도, 풍속, 풍향)를 적용하여 해석해야만 대상함의 신호특성을 합리적으로 예측할 수 있다. 설계 중인 함정의 경우 설계 대상함이 가질 신호값의 최대값(또는 변화범위)을 예측하는 것은 건조된 함정에 대한 신호요구성능(signature requirement)을 결정하는 데 매우 중요한 참고자료로 활용될 수 있다. 따라서 정확한 신호예측이 필요하며 신호예측결과에 가장 큰 영향을 미치는 기상조건의 설정법은 함의 신호예측에서 가장 중요한 부분이다.
종래의 적외선 신호해석을 위한 기상조건 설정법은 다음과 같다. 먼저 기상변수(기온, 수온 등)별로 월별 평균, 표준편차를 구하고 12개월 각각에 대한 신호를 해석한 후 가장 큰 신호(또는 피탐거리)를 나타내는 월을 확인한다(예, 1월). 그리고 각 기상요소별 변화에 따라 신호의 변화 특성을 고찰한다(민감도(sensitivity) 해석). 예를 들어, 기온이 상승함에 따라 함의 신호가 감소하는 경우(반비례 관계) 해석을 위한 기온조건은 "1월평균기온-기온표준편차", 수온이 상승함에 따라 신호가 증가하는 경우(정비례 관계) 해석에 적용하는 수온조건은 "1월평균기온+수온표준편차"를 적용한다. 이와 같은 방법으로 해석에 적용되는 기상변수(기온, 수온, 상대습도, 풍속, 풍향 등 5개)를 설정한다('기준환경조건' 설정). 이와 같이 '기준환경조건'을 이용한 신호해석결과를 대상함의 신호해석 결과 중 가장 큰 신호값을 나타내는 것으로 가정한다(시험 결과와 비교 검증 된 바 없음. 왜냐하면 시험을 위해 실제 해양기상을 변화시킬 수 없기 때문). 하지만, 위와 같은 종래의 해양 기상조건 설정법은 다음과 같은 중대한 문제점을 내포하고 있다.
첫째, 종래의 해양 기상조건 설정법에 따르면 추출된 몇 가지 기상조건에만 의지하여 신호해석을 수행하므로 그 해석결과가 모집단(해양기상 관측데이터)이 갖는 통계적 분포특성에 근접하지 않는다.
둘째, 모든 기상변수들이 독립적으로 변화할 수 있다고 가정하고 있다. 즉, 기온, 수온, 상대습도, 풍속, 풍향 등의 해양 기상변수들 중 특정변수의 변화가 다른 변수들의 변화특성과 무관하게 변화할 수 있다고 가정하고 있다. 하지만, 이러한 가정은 실제 해양기상 관측데이터를 분석해 보면 각 기상변수들이 서로 상관관계를 맺으면서 변화하고 있으므로 사실과 다른 것이다. 즉, 종래의 해양 기상조건 설정법에 따르면 사실과 다른 기상조건으로 해석을 수행하므로 그 해석결과를 신뢰하기가 어렵다.
데이터 추출 장치 및 추출 방법(특허출원 제10-1998-0046138호)
본 발명은 상기와 같은 문제점을 해결하기 위해 제안된 것으로, 함정의 적외선신호 해석을 포함하여 기상환경에 민감한 특성을 갖는 물리적 현상에 대한 해석을 위해 추출된 표본 기상조건이 모집단(해양기상 관측데이터)이 갖는 통계적 분포특성에 최대한 근접하도록 하고, 해양기상 변수들 간의 상관관계를 반영할 수 있도록 하는, 새로운 개념의 해양 기상 표본 추출 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위하여 본 발명은, 컴퓨터가 수행하는 해양 기상 표본 추출 방법으로서, 모집단을 이루는 기온, 수온, 상대습도, 풍속, 풍향의 각 기상변수별로 누적분포함수를 구하고 상기 누적분포함수를 추출하고자 하는 표본의 수만큼의 슬롯으로 분할하는 단계(4-1); 주성분분석법을 이용하여 서로 상관관계를 가지면서 결합된 상기 기상변수들의 발생확률을 구하고 상기 발생확률이 낮은 데이터에 표본 추출의 높은 우선순위를 설정하는 단계(4-2) 및; 상기 기상변수들 간의 구역을 분할하고 상기 구역별로 상기 우선순위에 따라 표본을 추출하는 단계(4-3);를 포함하는, 컴퓨터가 수행하는 해양 기상 표본 추출 방법을 제공한다.
본 발명에 있어서, 상기 누적분포함수는 균일하게 분할하는 것을 특징으로 한다.
본 발명에 있어서, 상기 우선순위는 상기 슬롯의 개수에 비례하고 상기 발생확률에 반비례하는 관계식을 갖는 것을 특징으로 한다.
본 발명에 있어서, 상기 구역의 수는 추출하고자 하는 표본의 수보다 큰 것을 특징으로 한다.
본 발명에 있어서, 상기 구역의 수는 상기 기상변수별로 분할된 구역의 수의 곱으로 나타나는 것을 특징으로 한다.
본 발명에 있어서, 상기 구역의 분할 기준은 상기 기상변수별 누적분포함수 값을 기준으로 하는 것을 특징으로 한다.
본 발명에 있어서, 표본 추출 절차는, 상기 구역별로 포함된 데이터 수를 확인하고 상기 구역별 데이터 비를 구하는 단계(①); 상기 데이터 비를 큰 순으로 정렬하고 상기 데이터 비가 상위 50%에 속하는 구역(큰 구역)과 하위 50%에 속하는 구역(작은 구역)으로 분류하여 상기 데이터 비가 큰 구역과 작은 구역을 번갈아가며 표본을 추출할 구역을 선택하는 단계(②); 선택된 각 구역에 포함된 데이터들 별로 상이한 우선순위 값을 이용하여 정렬하고 우선순위가 가장 상위인 데이터를 표본으로 추출하는 단계(③); 표본이 추출될 때마다 나머지 모든 데이터들 간의 우선순위 값을 갱신하는 단계(④) 및; 원하는 개수의 표본이 추출될 때까지 상기 ③ 내지 ④의 과정을 반복하는 단계(⑤);에 따라 이루어지는 것을 특징으로 한다.
본 발명에 있어서, 상기 데이터 비는, 각 구역별 데이터 수를 n이라 하고 모집단의 데이터 수를 S라 할 때, n/S의 관계식을 갖는 것을 특징으로 한다.
본 발명은, 함정의 적외선신호 해석을 포함하여 기상환경에 민감한 특성을 갖는 물리적 현상에 대한 해석을 위해 실제 관측된 기상데이터에서 적정한 수의 표본을 추출하여 해석을 수행할 수 있도록 함으로써, 실제 환경에서 발생할 수 있는 다양한 특성들을 해석할 수 있도록 하였다. 또한, 모집단이 갖는 통계적 특성과 유사한 특성을 유지하는 표본을 추출할 수 있도록 함으로써, 적은 수의 표본을 이용한 해석을 수행하고 그 결과를 이용하여 실제 해양기상 조건에서 나타날 수 있는 현상을 예측할 수 있도록 하였다. 또한, 각각의 기상변수들이 서로 상관관계를 가질 때 관측데이터들의 발생확률을 계산할 수 있는 방법으로써 주성분분석법을 적용하였으며, 이를 이용하여 광범위한 범위의 기상변화현상을 포함할 수 있는 해양 기상 표본 추출 방법을 구현하였다. 또한, 각 기상변수들 간의 변화범위에 따라 구역을 설정하고 각 구역 내에서 표본을 추출하도록 함으로써 특정 구역에 집중되지 않고 광범위한 모집단에 상응하는 표본을 추출할 수 있는 절차를 확립하였다.
도 1은 기온(Ta), 수온(Ts), 상대습도(RH)에 대한 CDF 분포.
도 2는 풍속(Ws), 풍향(Wd)에 대한 CDF 분포.
도 3은 본 발명에서, 기온(Ta)에 대한 구간분할 예(N=10 인 경우).
도 3a는 본 발명에서, 수온(Ts)에 대한 구간분할 예(N=10 인 경우).
도 4는 기온(Ta)에 대한 구간별 확률분포.
도 5는 기온(Ta)과 수온(Ts) 데이터 분포특성.
도 6은 기온(Ta)과 상대습도(RH) 데이터 분포특성.
도 7은 기온(Ta)과 풍향(Wd) 데이터 분포특성.
도 8은 본 발명에서, 기온(Ta)에 대한 구간분할 예(B=3인 경우).
도 9는 본 발명에서, 기온(Ta)과 수온(Ts)에 대한 구역분할 예(B=3인 경우).
도 9a는 도 9에서, 첫 번째 표본이 추출된 이후 우선순위 조정 구간.
도 10은 본 발명에서, 모집단과 표본집단의 기온 PDF 분포.
도 11은 본 발명에서, 모집단과 표본집단의 기온 CDF 분포.
도 12는 본 발명에서, 모집단과 표본집단의 수온 PDF 분포.
도 13은 본 발명에서, 모집단과 표본집단의 수온 CDF 분포.
도 14는 본 발명에서, 모집단과 표본집단의 상대습도 PDF 분포.
도 15는 본 발명에서, 모집단과 표본집단의 상대습도 CDF 분포.
도 16은 본 발명에서, 모집단과 표본집단의 풍속 PDF 분포.
도 17은 본 발명에서, 모집단과 표본집단의 풍속 CDF 분포.
도 18은 본 발명에서, 모집단과 표본집단의 풍향 PDF 분포.
도 19는 본 발명에서, 모집단과 표본집단의 풍향 CDF 분포.
도 20은 본 발명에서, 모집단과 표본집단의 기온-수온 분포특성 비교.
도 21은 본 발명에서, 모집단과 표본집단의 기온-상대습도 분포특성 비교.
도 22는 본 발명에서, 모집단과 표본집단의 풍속-수온 분포특성 비교.
도 23은 본 발명에서, 모집단과 표본집단의 풍속-상대습도 분포특성 비교.
도 24는 기상변수들 간 상관관계계수(correlation coefficients).
도 25는 PCA변수들 간 상관관계계수(correlation coefficients).
도 26은 본 발명에서, 표본 후보점들 사이의 비교.
도 27은 본 발명에서, 표본의 기상변수들 간 상관관계계수(correlation coefficients).
이하, 첨부된 도면들을 참조하여 본 발명에 대하여 상세히 설명한다. 한편, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 발명에 따른 해양 기상 표본 추출 방법은 그것이 구현되기에 앞서 다음과 같은 (1) 내지 (3)의 과정이 선행될 필요가 있다.
(1) 데이터 획득
해양기상을 관측한 데이터를 획득한다. 해양기상 관측용 부이(buoy)를 기상청에서 운용하고 있으며, 연안에 설치된 등대에서도 유사한 기상관측자료를 얻을 수 있다. 관측된 기상자료는 데이터베이스화해서 일반에 제공되고 있으며 현재 국내 연안에서는 10개의 해양기상관측용 부이가 운용되고 있다.
(2) 품질검사
관측 데이터에 대한 품질검사를 수행한다. 상기 과정 (1)을 통해 획득된 데이터들 중 관측 장비 오류 등으로 인해 오염된 자료가 포함될 수 있으므로 이 과정을 통해 오염된 자료 등을 걸러낸다. 품질검사를 위한 방법은 기상청 자료(관측국 기술 노트 2006-2, "기상관측자료 실시간 품질관리시스템 활용법", 2006)를 참고한다.
(3) 데이터 후처리
상기 과정 (2)를 통해 얻어진 자료에서 월별 데이터양을 분석하고 가급적 월별 데이터의 수를 유사하게 갖도록 한다. 일반적으로 해양기상 데이터는 시간변화(주간/야간)에 따른 기상변수의 변화는 크지 않으나 월별변화에 따른 기상변수의 변화는 매우 크게 나타난다. 이 때문에 특정 월에 데이터가 집중되거나 부족한 경우 해당 해상의 연중 기상특성을 대표하는 적절한 모집단으로 활용되기 부적절할 수 있다. 월별 데이터 수를 비교하여 가장 적은 데이터 수를 갖는 월을 기준으로 나머지 월의 데이터는 난수(random number)를 이용하여 선택하여 제거한다.
상기 설명한 바와 같은 (1) 내지 (3)의 과정이 경과하면 본 발명에 따른 해양 기상 표본 추출 방법(과정 (4)에 해당)이 구현될 수 있다. 이하, 본 발명에 따른 해양 기상 표본 추출 방법을 단계별로 구분하여 구체적으로 설명한다. 참고로, 본 발명에 따른 해양 기상 표본 추출 방법의 모든 과정은 컴퓨터를 통하여 수행될 수 있다.
(4) 해양 기상 표본 추출
본 발명에서 해석에 적용하기 위해 구하는 기상조건은 가정 등을 통해 생성된 기상조건(예, 평균값+표준편차 등)이 아니고 실제 관측된 자료에서 표본을 추출하는 방식을 이용한다. 그리고 표본 추출을 위해 다음과 같은 세 가지 요구조건을 적용한다.
첫째, 추출된 표본 데이터들의 기상변수(기온, 수온, 상대습도, 풍속, 풍향)들은 모집단 기상변수들의 분포특성에 최대한 근접하도록 한다.
둘째, 가급적 다양한 기상조건에 대한 해석을 위해 발생확률이 낮은 데이터에 (표본 추출을 위한) 높은 우선순위를 적용한다.
셋째, 추출된 표본 데이터들이 특정 구역에 집중되지 않고 고루 분포할 수 있도록 한다. 이를 위해 여러 변수들 간의 상관관계를 고려하여 구역을 나누고 각 구역에서 하나의 표본을 추출함을 원칙으로 한다. 단, 위의 첫 번째 요구조건을 만족시키기 어려운 경우 동일 구역에서 반복적으로 표본을 추출할 수 있다. 이때 추출할 표본의 수(N)는 지나치게 많은 경우 추후 수행할 적외선 신호해석 경우의 수(와 계산시간)를 늘리게 됨으로 적절히 제한되어야 하며, 너무 적은 경우 모집단의 통계적 특성을 반영하기 어려울 수 있다(통상 N=100개를 기준으로 하며, 40∼200 정도로 변화시킬 수 있다).
이하, 상기 세 가지 요구조건을 만족시키기 위하여 본 발명이 적용한 방법은 다음과 같다.
(4-1) 표본과 모집단간의 분포특성 유지
본 발명을 설명함에 있어서 사용되는 기본 용어를 정의하면 다음과 같다.
Figure 112013502770863-pat00035
확률밀도함수(PDF, Probability Density Function):
Figure 112013502770863-pat00001
Figure 112013502770863-pat00036
누적분포함수(CDF, Cumulative Distribution Function):
Figure 112013502770863-pat00002
Figure 112013502770863-pat00037
모집단(S): 해양기상 관측용 부이에서 관측한 모집단의 데이터 수로, 본 발명의 실시 예에서는 56,675개로 설정
Figure 112013502770863-pat00038
표본수(N): 모집단에서 추출한 표본 데이터의 수로, 본 발명의 실시 예에서는 100개로 설정
(4-1-1) 모집단의 각 변수별로 CDF를 구한다: 도 1의 실시 예는 기온(Ta), 수온(Ts), 상대습도(RH)에 대한 CDF 분포를, 도 2의 실시 예는 풍속(Ws), 풍향(Wd)에 대한 CDF 분포를 보여준다.
(4-1-2) CDF를 N개로 분할한다: 즉, CDF( =F(Xi) ) = 0, 1/N, 2/N, ... , N/N(=1)값에 대응하는 Xi(=기온(Ta), 수온(Ts), 상대습도(RH), 풍속(Ws), 풍향(Wd))를 구한다. 이때 CDF는 반드시 균일하게 분할해야 하며 대응되는 X(예, X1 = 기온 (Ta), X2 = 수온(Ts))의 분포는 불균일한 값들을 가지게 된다(도 3, 도 3a 참조). 이때 CDF의 기울기가 클수록 X의 간격은 좁아지게 된다. 이러한 현상은 CDF는 PDF의 적분값이므로 CDF의 기울기는 PDF를 의미하고, 균일하게 분할된 CDF는 동일한 확률을 갖는 구간과 동일한 의미가 된다. 즉, 발생확률이 높은 구간에는 좁은 X간격을, 발생확률이 낮은 구간에는 넓은 X간격을 갖도록 X값이 N개의 구간으로 나눠진다(도 3, 도 4 참조). 이와 같이 나눠진 각 구간들을 '슬롯(slot)'이라고 칭한다.
즉, Slot(Xj) = Xj - Xj-1 (j=1,2, ..., N)
여기서, F(Xj) = j/N
따라서 기온(Ta), 수온(Ts), 상대습도(RH), 풍속(Ws), 풍향(Wd)과 같은 각 기상변수별 slot의 수는 추출할 표본의 수와 같아진다. 즉, 각 변수별(기온, 수온 등)로 각 slot 구간에서 중복되거나 빠뜨림 없이 하나씩의 표본만을 추출하면 추출된 표본들이 갖는 확률분포는 모집단이 갖는 확률분포와 같아지게 되는 것이다. 예를 들어, 도 3에서 -9.3 ≤ Ta < 3.6 구간(slot)에 해당되는 표본을 하나 추출하면 이 slot에 해당되는 표본은 더 이상 추출할 수 없으며, 21.1 ≤ Ta < 23.1 구간에 해당되는 표본을 하나 추출하면 마찬가지로 이 slot에 해당되는 표본은 더 이상 추출할 수 없다. 즉, 두 구간의 발생확률은 각각 10%로 동일하게 되는 것이다.
(4-2) 표본 추출을 위한 우선순위 적용
(4-2-1) 상관관계를 갖는 관측 데이터의 발생확률을 계산한다: 일반적으로 기상변수들은 서로 상관관계(correlation)를 갖는다. 예를 들어, 기온과 수온의 경우 매우 강한 상관관계를 가지며(도 5 참조), 기온과 상대습도는 중간 정도의 상관관계를 가지며(도 6 참조), 기온과 풍향은 매우 낮은 상관관계를 가진다(도 7 참조). 참고로, 본 발명의 실시 예에서 해석에 적용한 데이터(동해 부이 관측데이터)의 기상변수들 간 상관관계(correlation coefficient)를 정리하면 도 24에서 보는 것과 같다.
따라서 관측된 기상데이터들의 발생확률을 계산하기 위해서는 기상변수들 간의 상관관계를 고려한 발생확률을 계산해야 한다. 그러나 각 기상변수들은 서로 상관관계를 가지므로(즉, 서로 독립이 아니므로) 아래 식과 같이 각 변수들 간의 발생확률을 구한 후 각각을 곱하여 구할 수 없다.
Figure 112013502770863-pat00039
이 경우, 이와 같이 서로 상관관계를 가지면서 결합된 변수들의 발생확률을 구하기 위해서는 주성분분석법(PCA: Principal Component Analysis)을 이용하여 각 기상변수(Xk)를 서로 독립인 변수(Yk)로 변환시킬 수 있으며, 이 때 서로 독립인 변수(Yk)에 대한 상관관계계수를 구하면 도 25에서 보는 것과 같이 얻어진다.
이처럼 변수 Yk를 구하면 각각의 Yk(k=1~5)에 대한 F(Yk)( = CDF(Yk) )를 구할 수 있으며, 그 과정은 상기 X에 대한 CDF를 구하는 과정과 동일하다. 참고로, CDF(Yk)를 이용하여 PDF(Yk)를 구하는 과정은 아래와 같이 PDF와 CDF에 대한 정의식으로부터 구할 수 있다.
Figure 112013502770863-pat00040
위 식을 이용하면 i-번째 데이터의 결합확률(joint probability)은 다음 식과 같이 구할 수 있다(Y 변수는 모두 독립이므로 각각의 확률을 곱하여 결합확률을 구할 수 있다).
Figure 112013502770863-pat00041
그리고 위의 결합확률은 전체 값을 이용하여 다음과 같이 표준화(normalize)해서 사용하는 것이 편리하다. 이러한 결합확률은 각 관측데이터들의 발생확률을 의미한다. 즉, 본 발명에서 주성분분석법을 이용하면 서로 상관관계를 가지면서 결합된 변수들의 발생확률을 구할 수 있는 것이다.
Figure 112013502770863-pat00042
(4-2-2) 표본 추출의 우선순위를 설정한다: 상술한 (4-1-2)와 (4-2-1)의 내용을 참조하면, 추출 후보가 되는 모든 관측데이터는 각각 처음에 5개의 기상변수(기온, 수온, 상대습도, 풍속, 풍향)에 관한 slot들과 각각의 발생확률(
Figure 112014001476603-pat00043
)을 가진다. 예를 들어, 기상변수가 2개(기온, 수온)인 경우에 대해 도 9 및 이와 연계한 도 26의 네 점(A, B, C, D)을 비교하여 설명하면 다음과 같다. 이 경우, 기온 slot과 관련하여서는 도 3을 참조하고 수온 slot과 관련하여서는 도 3a를 참조한다.
도 9 및 도 26의 네 점들 중 먼저 구역-8(여기서, '구역(block)'의 의미 및 그 설정방법에 대해서는 후술함)에 속해 있는 점 A와 점 B를 비교하면 A보다 B의 발생확률이 높다(일반적으로 점들의 분포에서 가장자리에 위치할수록 그 발생확률이 낮은 특징을 갖는다). 이 때, 본 발명에서는 가급적 넓은 범위의 데이터를 활용하기 위해서(= 추출된 표본들이 가급적 다양한 기상조건을 구성할 수 있도록 하기 위해서 = 추출된 표본들이 가급적 광범위한 분포특성을 갖도록 하기 위해서) 발생확률이 낮은 데이터에 높은 우선순위를 부여한다. 즉, 발생확률이 낮은 점들에 표본 추출의 우선순위를 높게 설정하는 것이다. 따라서 상기 예에서는 B보다 발생확률이 낮은 A가 표본으로 추출된다.
표본이 하나도 추출되지 않은 단계에서는 모든 점들이 기본적으로 5개(기온, 수온, 상대습도, 풍속, 풍향)의 가용(available) slot을 갖는다. 그러나 첫 번째 추출한 점이 A인 경우, A와 동일한 slot에 속한 점들은 가용 slot의 수가 줄어들게 된다. 예를 들어, A와 동일한 기온 slot에 속한 점 C(도 9a 참조)는 해당 기온 slot에 해당되는 표본(점 A)이 이미 추출되었기 때문에 기온의 가용 slot이 1에서 0으로 줄어들게 된다. 따라서 기상변수가 상기 예처럼 2개(기온, 수온)인 경우에는
Figure 112014001476603-pat00044
이 2에서 1로 줄어들게 된다(일반적으로 볼 때, 기상변수가 기온, 수온, 상대습도, 풍속, 풍향 등 5개이고 기온을 제외한 다른 기상변수들의 가용 slot이 A와 겹치지 않는다면
Figure 112014001476603-pat00045
이 5에서 4로 줄어들게 된다). 이와 유사하게 A와 동일한 수온 slot에 속한 점 D도 수온의 가용 slot이 1에서 0으로 줄어들게 된다. 즉, 도 9a에 나타낸 것과 같이 먼저 추출된 표본에 의해 해당 구간(slot)에 해당되는 표본(점)들은 가용 slot의 수가 줄어들어 우선순위가 낮아지게 되는 것이다.
이와 같은 과정을 통해 기온, 수온, 상대습도, 풍속, 풍향 등 5개의 변수로 구성된 각각의 관측데이터들에 가용한 slot의 수와 발생확률로 결정되는 우선순위를 부여하고, 표본(점)을 추출할 때마다 나머지 모든 점들의 우선순위를 갱신한다. 참고로, 우선순위(Rank, Ri)는 다음의 식과 같이 표현될 수 있다. 하지만, 우선순위는 반드시 아래 식의 형태를 가질 필요는 없으며, Nslot(슬롯의 개수)에 비례하고 PJi(발생확률)에 반비례할 수 있는 관계식이면 무방하다.
Figure 112013502770863-pat00046
위의 예에서 점 A가 표본으로 추출된 경우 위와 같은 우선순위 조정을 통해 도 9a의 경우 구역 2, 5, 7에서 회색구간(slot)에 포함되어 있는 점들은 동일 구역 내의 다른 점들에 비해 우선순위가 낮아지게 된다. 따라서 구역 2, 5, 7에서 다음 번째 표본을 추출하는 경우 회색구간(slot) 바깥의 점들이 표본으로 추출될 수 있게 된다.
(4-3) 구역 설정 및 각 구역에서의 표본 추출
(4-3-1) 여러 변수들 간의 상관관계를 고려하여 구역(block)을 설정한다: 도 5 내지 도 7에서 보는 바와 같이 모든 기상변수들 간에는 상관관계가 존재한다. 추출된 표본을 이용한 해석결과가 광범위한 기상조건에 대한 해석결과를 대표하기 위해서는 다양한 조합에 해당되는 표본을 추출하는 것이 바람직하다. 이를 위하여 각 기상변수들 간의 구역을 분할하고 각 구역별로 표본을 추출한다. 따라서 분할되는 전체 구역의 수는 추출하고자 하는 표본의 수(N)보다 커야 하며, 전체 구역의 수(Btot)는 각 변수(기온, 수온, 상대습도, 풍속, 풍향 등 5개의 변수)별로 분할된 구역의 수의 곱으로 나타난다. 즉, 다음과 같다.
Figure 112013502770863-pat00047
이 때, 각 변수별로 분할된 구역의 수를 동일하게 하는 경우
Figure 112013502770863-pat00048
가 된다. 따라서 N=100인 경우
Figure 112013502770863-pat00049
이므로
Figure 112013502770863-pat00050
이 된다. 즉, 각 변수별로 3개의 구역으로 분할해야 한다. 이 때 분할 기준은 각 변수별 CDF값을 기준으로 한다. 즉,
Figure 112013502770863-pat00051
인 경우 CDF(X) = 0.33, 0.67을 기준으로 구역을 분할한다. 이와 같이 분할하면 각 구역 내에 위치하는 관측데이터의 수가 동일해진다. 예를 들어 도 1에서 기온(Ta)의 CDF = 0.33, 0.67에 해당되는 Ta = 9.9(℃), 18.8(℃)이다. 이에 해당되는 구역을 나누면 도 8과 같이 나타날 수 있으며, 각 구역에 위치한 관측데이터(모집단)의 수는 동일하게 된다.
이와 같은 방식으로 다른 기상변수(수온, 상대습도 등)에 대해서도 구역을 나눌 수 있고 모든 기상변수들에 대해 구역을 나누면 5차원적 구역으로 설정되고, 전체 구역의 수는 35=243개가 된다. 이해를 돕기 위해 만일 기온과 수온만을 고려하는 것으로(2차원 문제)로 단순화시키면 전체 구역의 수는 9개(32)가 되며 도 9에 나타낸 것과 같이 각 구역을 표시할 수 있다. 이 때 모든 구역에 위치하는 관측데이터의 수가 동일한 것은 아니다. 도 9에서 수평으로 분할된 구역들(수온 기준 분할) 3개에는 모두 같은 수의 데이터가 존재하고, 수직으로 분할된 구역들(기온 기준 분할) 3개도 같은 수의 데이터가 존재하지만, 수평과 수직으로 모두 분할된 9개 구역들은 동일한 수의 데이터가 아니라 각 구역별로 다른 데이터 수가 존재하게 된다. 이러한 현상은 차원의 수를 2차원(기온, 수온)에서 5차원(기온, 수온, 상대습도, 풍속, 풍향)까지 올리는 경우도 동일하게 나타난다. 즉, 243개(35)의 구역들에는 서로 다른 개수(n)의 관측데이터들이 포함되어 있으며, 관측데이터를 전혀 포함하지 않는 경우(n=0)도 다수 생길 수 있다(예, 도 9에서 구역-9).
(4-3-2) 각 구역별로 표본을 추출한다: 상기한 바와 같이 구역을 설정하고 나면 각 구역별로 표본을 추출한다. 표본 추출 절차는 다음과 같다.
① 각 구역(B1∼B243)별로 포함된 데이터 수(n)를 확인하고 각 구역별 데이터 비(D = 데이터 수(n) / 전체 데이터 수(S))를 구한다.
② 데이터 비(D=n/S)를 큰 순으로 정렬하고, 데이터 비가 상위 50%에 속하는 구역(큰 구역)과 하위 50%에 속하는 구역(작은 구역)으로 분류하여, 난수(random number) 발생기를 이용하여 데이터 비가 큰 구역과 작은 구역을 번갈아가며 표본을 추출할 구역을 선택한다. 이 과정을 생략하면 먼저 선택된 구역(임의 선택 구역)에서 우선적으로 표본이 추출됨으로 인하여 추출된 표본이 특정 방향으로 치우칠 수 있다.
③ 선택된 각 구역에 포함된 관측데이터들 별로 상이한 우선순위 값을 이용하여 정렬하고 우선순위가 가장 상위인 데이터를 표본으로 추출한다.
④ 표본이 추출될 때마다 나머지 모든 데이터들이 가진 가용 slot의 수가 줄어들 수 있으므로 나머지 모든 데이터들 간의 우선순위 값을 갱신한다.
⑤ 원하는 개수의 표본이 추출될 때까지 ③∼④의 과정을 반복한다.
이와 같이 추출된 표본(본 발명의 실시 예에서, N=100)과 모집단(본 발명의 실시 예에서, S=56,675)에 대한 통계적 특성을 비교하면 도 10 내지 도 19와 같다. 모집단의 PDF는 1/S(=0.0000176)의 간격으로 표시되지만 표본집단의 PDF는 1/N(=0.01)의 간격으로만 표시되므로 두 그래프가 정확하게 일치할 수는 없다. 하지만 추출된 표본데이터들이 각 기상변수들 간의 상관관계에 따라 모집단의 특성과 유사한 분포 특성을 가짐을 확인할 수 있다. 그리고 추출된 표본데이터들이 특정 구역에 집중되지 않고 고루 분포된 특성을 확인하기 위해 도 20 내지 도 23에 추출된 표본데이터와 모집단 데이터를 함께 나타내었다. 추출된 표본(N=100)에서 기상변수들 간의 상관관계 계수를 정리하면 도 27과 같다.
이상에서 설명한 바와 같이 본 발명은, 함정의 적외선신호 해석을 포함하여 기상환경에 민감한 특성을 갖는 물리적 현상에 대한 해석을 위해 실제 관측된 기상데이터에서 적정한 수의 표본을 추출하여 해석을 수행할 수 있도록 함으로써, 실제 환경에서 발생할 수 있는 다양한 특성들을 해석할 수 있도록 하였다. 또한, 모집단이 갖는 통계적 특성과 유사한 특성을 유지하는 표본을 추출할 수 있도록 함으로써, 적은 수의 표본을 이용한 해석을 수행하고 그 결과를 이용하여 실제 해양기상 조건에서 나타날 수 있는 현상을 예측할 수 있도록 하였다. 또한, 각각의 기상변수들이 서로 상관관계를 가질 때 관측데이터들의 발생확률을 계산할 수 있는 방법으로써 주성분분석법을 적용하였으며, 이를 이용하여 광범위한 범위의 기상변화현상을 포함할 수 있는 해양 기상 표본 추출 방법을 구현하였다. 또한, 각 기상변수들 간의 변화범위에 따라 구역을 설정하고 각 구역 내에서 표본을 추출하도록 함으로써 특정 구역에 집중되지 않고 광범위한 모집단에 상응하는 표본을 추출할 수 있는 절차를 확립하였다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서 본 발명에 개시된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (8)

  1. 컴퓨터가 수행하는 해양 기상 표본 추출 방법으로서,
    모집단을 이루는 기온, 수온, 상대습도, 풍속, 풍향의 각 기상변수별로 누적분포함수를 구하고 상기 누적분포함수를 추출하고자 하는 표본의 수만큼의 슬롯으로 분할하는 단계(4-1);
    주성분분석법을 이용하여 서로 상관관계를 가지면서 결합된 상기 기상변수들의 발생확률을 구하고 상기 발생확률이 낮은 데이터에 표본 추출의 높은 우선순위를 설정하는 단계(4-2) 및;
    상기 기상변수들 간의 구역을 분할하고 상기 구역별로 상기 우선순위에 따라 표본을 추출하는 단계(4-3);
    를 포함하는, 컴퓨터가 수행하는 해양 기상 표본 추출 방법.
  2. 청구항 1에 있어서,
    4-1 단계에서, 상기 누적분포함수는 균일하게 분할하는 것을 특징으로 하는, 컴퓨터가 수행하는 해양 기상 표본 추출 방법.
  3. 청구항 1에 있어서,
    4-2 단계에서, 상기 우선순위는 상기 슬롯의 개수에 비례하고 상기 발생확률에 반비례하는 관계식을 갖는 것을 특징으로 하는, 컴퓨터가 수행하는 해양 기상 표본 추출 방법.
  4. 청구항 1에 있어서,
    4-3 단계에서, 상기 구역의 수는 추출하고자 하는 표본의 수보다 큰 것을 특징으로 하는, 컴퓨터가 수행하는 해양 기상 표본 추출 방법.
  5. 청구항 1에 있어서,
    4-3 단계에서, 상기 구역의 수는 상기 기상변수별로 분할된 구역의 수의 곱으로 나타나는 것을 특징으로 하는, 컴퓨터가 수행하는 해양 기상 표본 추출 방법.
  6. 청구항 1에 있어서,
    4-3 단계에서, 상기 구역의 분할 기준은 상기 기상변수별 누적분포함수 값을 기준으로 하는 것을 특징으로 하는, 컴퓨터가 수행하는 해양 기상 표본 추출 방법.
  7. 청구항 1에 있어서,
    4-3 단계에서, 표본 추출 절차는,
    상기 구역별로 포함된 데이터 수를 확인하고 상기 구역별 데이터 비를 구하는 단계(①);
    상기 데이터 비를 큰 순으로 정렬하고 상기 데이터 비가 상위 50%에 속하는 구역(큰 구역)과 하위 50%에 속하는 구역(작은 구역)으로 분류하여 상기 데이터 비가 큰 구역과 작은 구역을 번갈아가며 표본을 추출할 구역을 선택하는 단계(②);
    선택된 각 구역에 포함된 데이터들 별로 상이한 우선순위 값을 이용하여 정렬하고 우선순위가 가장 상위인 데이터를 표본으로 추출하는 단계(③);
    표본이 추출될 때마다 나머지 모든 데이터들 간의 우선순위 값을 갱신하는 단계(④) 및;
    원하는 개수의 표본이 추출될 때까지 상기 ③ 내지 ④의 과정을 반복하는 단계(⑤);
    에 따라 이루어지는 것을 특징으로 하는, 컴퓨터가 수행하는 해양 기상 표본 추출 방법.
  8. 청구항 7에 있어서,
    ① 단계에서, 상기 데이터 비는, 각 구역별 데이터 수를 n이라 하고 모집단의 데이터 수를 S라 할 때, n/S의 관계식을 갖는 것을 특징으로 하는, 컴퓨터가 수행하는 해양 기상 표본 추출 방법.
KR1020130114010A 2013-09-25 2013-09-25 컴퓨터가 수행하는 해양 기상 표본 추출 방법 KR101475624B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130114010A KR101475624B1 (ko) 2013-09-25 2013-09-25 컴퓨터가 수행하는 해양 기상 표본 추출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130114010A KR101475624B1 (ko) 2013-09-25 2013-09-25 컴퓨터가 수행하는 해양 기상 표본 추출 방법

Publications (1)

Publication Number Publication Date
KR101475624B1 true KR101475624B1 (ko) 2014-12-22

Family

ID=52679697

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130114010A KR101475624B1 (ko) 2013-09-25 2013-09-25 컴퓨터가 수행하는 해양 기상 표본 추출 방법

Country Status (1)

Country Link
KR (1) KR101475624B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180080393A (ko) * 2017-01-02 2018-07-12 서울대학교산학협력단 기후변화에 따른 해양 생태계의 데이터 변환 및 위해도 분석장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06347563A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 気象予測システムおよびニューロコンピュータ制御システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06347563A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 気象予測システムおよびニューロコンピュータ制御システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
김윤식, '함정 표면 적외선 신호에 대한 해양기상 영향분석', 대한조선학회논문집, 2012.06, pp.264-272 *
조용진 외 1인, '함정 적외선신호 민감도 해석을 통한 기상변수 영향에 관한 연구', 한국해양공학회지 2013.06, pp.36-42 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180080393A (ko) * 2017-01-02 2018-07-12 서울대학교산학협력단 기후변화에 따른 해양 생태계의 데이터 변환 및 위해도 분석장치

Similar Documents

Publication Publication Date Title
Ahijevych et al. Probabilistic forecasts of mesoscale convective system initiation using the random forest data mining technique
Walker et al. An enhanced geostationary satellite–based convective initiation algorithm for 0–2-h nowcasting with object tracking
CN112052755B (zh) 基于多路注意力机制的语义卷积高光谱图像分类方法
Lee et al. Applying machine learning methods to detect convection using Geostationary Operational Environmental Satellite-16 (GOES-16) advanced baseline imager (ABI) data
CN115437036A (zh) 一种基于葵花卫星的对流初生预报方法
Chen et al. Spatial spread‐skill relationship in terms of agreement scales for precipitation forecasts in a convection‐allowing ensemble
Schön et al. The error is the feature: How to forecast lightning using a model prediction error
Peterson et al. Thunderstorm cloud-type classification from space-based lightning imagers
KR101475625B1 (ko) 컴퓨터가 수행하는 해양 기상 표본 추출 및 이를 이용한 통계적 신호 해석 방법
Frediani et al. Object-based analog forecasts for surface wind speed
CN108734122A (zh) 一种基于自适应样本选择的高光谱城区水体检测方法
Pirooz et al. New Zealand design wind speeds, directional and lee-zone multipliers proposed for AS/NZS 1170.2: 2021
Shield et al. Diagnosing supercell environments: A machine learning approach
CN112946643B (zh) 基于时序雷达遥感的海上风电提取方法及系统
Wang et al. A review of recent advances (2018–2021) on tropical cyclone intensity change from operational perspectives, part 2: Forecasts by operational centers
Pegion et al. Understanding predictability of daily southeast US precipitation using explainable machine learning
Clark et al. An automated, multiparameter dryline identification algorithm
CN116739172B (zh) 一种基于爬坡识别的海上风电功率超短期预测方法及装置
KR101475624B1 (ko) 컴퓨터가 수행하는 해양 기상 표본 추출 방법
Miller et al. A preliminary assessment of using spatiotemporal lightning patterns for a binary classification of thunderstorm mode
Sokolov et al. Automated classification of regional meteorological events in a coastal area using in situ measurements
Yan et al. Analysis of extreme wind speed estimates in the northern South China Sea
Vaughan et al. Climatology and analysis of high-impact, low predictive skill severe weather events in the northeast United States
Maftei et al. Statistical analysis of precipitation time series in Dobrudja region
Hallgren et al. Machine learning methods to improve spatial predictions of coastal wind speed profiles and low-level jets using single-level ERA5 data

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170927

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181002

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20191001

Year of fee payment: 6