KR20050007309A - 자동 신경망 모델 생성 및 유지 - Google Patents

자동 신경망 모델 생성 및 유지 Download PDF

Info

Publication number
KR20050007309A
KR20050007309A KR10-2004-7016704A KR20047016704A KR20050007309A KR 20050007309 A KR20050007309 A KR 20050007309A KR 20047016704 A KR20047016704 A KR 20047016704A KR 20050007309 A KR20050007309 A KR 20050007309A
Authority
KR
South Korea
Prior art keywords
neural network
node
network model
model
nodes
Prior art date
Application number
KR10-2004-7016704A
Other languages
English (en)
Inventor
주오 멩
요-한 파오
Original Assignee
컴퓨터 어소시에이츠 싱크, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 컴퓨터 어소시에이츠 싱크, 인코포레이티드 filed Critical 컴퓨터 어소시에이츠 싱크, 인코포레이티드
Publication of KR20050007309A publication Critical patent/KR20050007309A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)
  • Image Analysis (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

신경망 모델을 점차적으로 형성하고 적응적으로 갱신하는 방법이 제공된다. 함수 근사화 노드는 신경망 모델에 점차적으로 추가된다. 함수 근사화 노드를 신경망 모델에 추가하기 전에 신경망 모델 내의 다른 노드의 함수 파라미터를 사용함으로써, 함수 근사화 노드에 대한 함수 파라미터가 결정되고 신경망 모델 내의 다른 노드의 함수 파라미터가 갱신된다.

Description

자동 신경망 모델 생성 및 유지{AUTOMATIC NEURAL-NET MODEL GENERATION AND MAINTENANCE}
사람들은 자신이 하는 많은 일에 있어서 또한 특히 문제를 해결하기 위해 그 자신의 패턴 인식 능력을 사용한다. 이하의 것은 사람들이 문제를 예견 및/또는 검지하고 그 문제에 대한 해결책을 찾기 위해 어떻게 패턴 인식을 사용하는지의 몇가지 예이다.
(a) 경험많은 관리자는 고객의 구매 패턴에 대한 자신의 경험 및 지식과 현재의 상황(예를 들어, 날씨, 요일, 날짜, 지역 경제 등)에 대한 자신의 관찰에 기초하여, 내달에 주문해야만 하는 상품의 단위수를 예측한다.
(b) 맥주 양조 전문가는 시간에 따라 그의 제품을 시음해보고 그의 직관 및 경험은 제품을 개선시키기 위해 그 자신이 해야 하는 성분 또는 공정에 대한 변경을 제안한다.
인공 신경망("신경망") 기술은 분류된 애플리케이션에 대한 입력-출력 모델을 제공하기 위해 훈련될 수 있는 유사한 패턴 인식 기능을 갖는 정보 처리 툴을 제공한다.
일반적인 신경망은 연결을 따라 데이터를 서로에게 전송하는 다수의 상호 연결된 뉴런 형태의 처리 요소(또는 노드)를 포함한다. 처리 요소는 다른 처리 요소로부터 또는 직접 네트워크의 입력으로부터 다수의 입력을 수신하여, 각각의 입력을 대응하는 가중치와 곱하고 그 결과를 모두 합산하여 가중합을 형성한다. 처리 요소는 전달 함수(transfer function)(본 명세서에서 "활성화 함수(activation function)" 및 "기초 함수(basis function)"라고도 함)를 그 합에 적용하여 요소의 상태라고 하는 값을 획득한다. 이 상태는 이어서 가중된 연결(weighted connection)을 따라 하나 이상의 다른 처리 요소로 계속 전달되거나 네트워크의 출력으로서 제공된다. 집합적으로, 상태들은 정보를 단기적으로 표현하는 데 사용되는 반면, 가중치는 장기간 정보(long-term information) 또는 학습을 나타낸다.
신경망 내의 처리 요소는 계층으로 구성될 수 있다. 예를 들어, 다층 은폐층 네트워크(multi-layer hidden-layer net)는 입력층, 출력층 및 입력층과 출력층 사이의 하나 이상의 은폐층을 갖는다. 입력층의 출력은 은폐층 중의 하나로 전달된다. 일반적으로 은폐층 처리 요소는 신경망 모델이 훈련을 통해 더 높은 정확도로 원하는 입력-출력 매핑을 학습하는 것을 돕는 방식으로, 네트워크가 입력 데이터를 결합시키는 중간 표현(intermediate representation)을 작성할 수 있도록 해준다. 은폐층의 출력은 출력층으로 전달되고, 출력층은 하나 이상의 출력을 생성한다.
훈련은 신경망이 데이터에의 노출 및 처리 노드 사이의 연결과 관련된 가중치의 조정을 통해 입력-출력 모델을 학습하는 프로세스이다. 훈련 프로세스는 이하의 단계, 즉
1) 특정의 입력/출력 태스크의 예를 신경망 모델에 반복적으로 제공하는 단계,
2) 에러를 측정하기 위해 모델 출력과 원하는 출력을 비교하는 단계, 및
3) 에러를 감소시키기 위해 모델 가중치를 수정하는 단계를 포함할 수 있다.
이 프로세스는 더 이상의 반복이 에러를 감소시키지 못하게 될 때까지(또는 에러가 미리 정해진 최소값 이하로 떨어질 때까지) 반복된다. 그러면, 네트워크는 "훈련된(trained)" 것으로 말해진다.
예를 들어, 샘플 데이터의 훈련 세트를 사용한 훈련을 통해, 신경망은 사람이 경험으로부터 학습하는 방식과 유사하게, 데이터로부터 관계를 추출하기 위해 학습할 수 있으며, 동작(종종 "조회(consultation)"라고도 함) 중에 있을 때 (예를 들어, 훈련 데이터에 명시적으로 표현되어 있지 않은) 새로운 상황에서 적당한 해결책을 외삽(extrapolate)하기 위해 학습된 관계를 상기할 수 있다. 특정의 선택된 샘플의 세트를 적용함으로써 신경망을 학습시키는 것은 그 네트워크가 일반적인 입력-출력 모델을 개발하는 것을 돕는다. 훈련된 모델은 블랙박스의 모습을 유지하면서(즉, 훈련된 모델 내의 가중치 및 노드 등의 상세 또는 내부 작용이 사용자 또는 관찰자에게 즉시 명백한 것은 아님) 각각의 입력 패턴에 대해 그 입력 패턴과관련된 하나 이상의 출력값을 출력할 것으로 예상된다.
적절한 네트워크 구조를 선택하는 것은 함수 관계 또는 시스템의 신경망 계산 모델을 구축하는 데 중요한 역할을 한다. 문제의 선험적 지식이 알려져 있지 않고 따라서 통상 사용되는 노드 활성화 함수만이 사용되는 것으로 가정되는 경우, 신경망 생성 프로세스에서의 문제는 이하의 것을 포함한다. 첫째, 네트워크 유형(예를 들어, 네트워크에서의 계층)이 선택된다. 네트워크 유형이 선택되면, 네트워크에서의 노드의 적절한 수 및 연결은 물론 노드 파라미터를 결정한다.
도 1은 7개의 입력과 1개의 출력의 샘플 데이터 세트의 경우 종래의 단일 은폐층 네트워크의 은폐층에서의 노드의 수(1 내지 20의 범위에 있음) 대 훈련 에러의 플롯을 나타낸 것이다. 도 1에 예시한 바와 같이, 훈련 에러와 은폐층 노드의 수 사이의 관찰가능한 관계가 없는 경우가 있다. 종래의 신경망 모델에서 사용되는 노드의 수는 일반적으로 경험과 시행 착오에 의해 결정되며, 이는 물론 자동 모델 작성에는 적당하지 않다.
게다가, 종래의 신경망은 점차적(incremental) 및/또는 적응적(adaptive) 학습에 도움이 되지 않는다. 용어 "점차적 학습"은 본 명세서에서 사용되는 바와 같이 (a) 네트워크가 새로운 노드를 부가하여 확장될 수 있다는 것과 (b) 확장된 네트워크에 대한 새로운 가중치 세트의 계산이 처음부터 시작하는 것이 아니라 확장 이전으로부터의 가중치를 시작점으로서 이용한다는 것을 의미한다. 용어 "적응적 학습"은 본 명세서에서 사용되는 바와 같이 신경망 모델이 확립된 후에 부가의 데이터가 그 모델을 갱신하여 더 나은 전체적 결과를 달성하기 위해 사용될 수 있음을 의미한다. 예를 들어, 점차적 학습이나 적응적 학습 어느 것도 은폐층 네트워크에 의해 효율적으로 달성될 수 없는데, 그 이유는 은폐층 네트워크에 의한 비선형 처리가 노드에 걸쳐 널리 분포되고 상호 연결되어 있으며, 따라서 결정된 에러에 기초한 가중치에 대한 임의의 조정도 역시 비선형적으로 분포되어야만 하기 때문이다.
따라서, 점차적 및 적응적 학습을 용이하게 해주는 신경망 모델 생성 및 유지 방법이 필요하다.
관련 출원의 상호 참조
본 출원은 2003년 2월 26일자로 출원된 발명의 명칭이 "자동 신경망 모델 생성 및 유지(AUTOMATIC NEURAL-NET MODEL GENERATION AND MAINTENANCE)"인 미국 특허출원 제10/374,406호의 우선권을 주장하며, 이하의 공동 양도되고 동시 계류 중인 미국 가특허출원의 이익을 향수한다.
(a) 2002년 4월 19일자로 출원된 발명의 명칭이 "PROCESSING MIXED NUMERIC AND/OR NON-NUMERIC DATA(숫자 및/또는 비숫자 혼합 데이터의 처리)"인 제60/374,064호,
(b) 2002년 4월 19일자로 출원된 발명의 명칭이 "AUTOMATIC NEURAL-NET MODEL GENERATION AND MAINTENANCE(자동 신경망 모델 생성 및 유지)"인 제60/374,020호,
(c) 2002년 4월 19일자로 출원된 발명의 명칭이 "VIEWING MULTI-DIMENSIONAL DATA THROUGH HIERARCHICAL VISUALIZATION(계층적 시각화를 통한 다차원 데이터 보기)"인 제60/374,024호,
(d) 2002년 4월 19일자로 출원된 발명의 명칭이 "METHOD AND APPARATUS FORDISCOVERING EVOLUTIONARY CHANGES WITHIN A SYSTEM(시스템에서의 점진적 변화의 발견 방법 및 시스템)"인 제60/374,041호,
(e) 2002년 4월 19일자로 출원된 발명의 명칭이 "AUTOMATIC MODEL MAINTENANCE THROUGH LOCAL NETS(로컬 네트워크를 통한 자동 모델 유지)"인 제60/373,977호, 및
(f) 2002년 4월 19일자로 출원된 발명의 명칭이 "USING NEURAL NETWORKS FOR DATA MINING(데이터 마이닝을 위한 신경망의 사용)"인 제60/373,780호.
본 출원은 신경망에 관한 것이다. 상세하게는, 본 출원은 신경망 모델 구축 및 유지에 관한 것이다.
도 1은 단일층 은폐층 네트워크의 은폐층 내의 노드 수 대 훈련 에러의 플롯을 그래프로 나타낸 도면.
도 2a는 본 발명의 일 실시예에 따라 신경망 모델을 점차적으로 형성하는 방법의 플로우차트.
도 2b는 일 실시예에 따른 계층적 클러스터링 방법의 플로우차트.
도 2c는 도 2b에 도시한 계층적 클러스터링 방법을 사용하여, 일 실시예에 따라 후보 노드 함수의 순서화된 리스트를 생성하는 방법의 플로우차트.
도 2d는 후보 노드 함수의 리스트를 사용하여, 일 실시예에 따라 모델을 점차적으로 구축하는 방법의 플로우차트.
도 3a는 본 발명의 일 실시예에 따라 신경망 모델을 점차적으로 형성하고 이를 적절한 정확도 레벨에 적응적으로 유지하는 방법의 플로우차트.
도 3b는 새로운 데이터를 사용하여, 일 실시예에 따라 모델의 정확도를 유지하기 위해 모델을 적응적으로 갱신하는 방법의 플로우차트.
도 4는 함수 링크 네트워크 구조의 개략도.
도 5는 비선형 시계열 예의 경우, 본 발명에 의해 제공되는 방법을 적용함으로써 생성된 모델에 의해 생성된 출력과 데이터 패턴의 플롯을 나타낸 도면.
도 6은 비선형 시계열(드리프트를 가짐) 예의 경우, 본 발명에 의해 제공되는 방법을 적용함으로써 생성되고 갱신되는 모델에 의해 생성된 출력과 데이터 패턴의 플롯을 나타낸 도면.
본 발명은 신경망 모델 점차적으로 형성하고 적응적으로 갱신하는 방법을 제공한다. 일 실시예에 따르면, 본 방법은, (a) 상기 신경망 모델에 함수 근사화 노드를 점차적으로 추가하는 단계, 및 (b) 상기 신경망 모델에 상기 함수 근사화 노드를 추가하기 전에, 상기 신경망 모델 내의 다른 노드의 함수 파라미터를 사용함으로써, 상기 함수 근사화 노드에 대한 함수 파라미터를 결정하고 상기 다른 노드의 함수 파라미터를 갱신하는 단계를 포함한다. 상기 함수 근사화 노드가 추가되어 있는 상기 신경망 모델의 모델 정확도가 미리 정해진 정확도 레벨 이하인 경우, 상기 단계 (a) 및 (b)가 반복될 수 있다.
일 실시예에 따르면, 일련의 샘플 데이터 패턴이 함수 근사화 노드 후보의 리스트를 형성하기 위해 사용되고, 상기 함수 근사화 노드는 상기 함수 근사화 노드 후보의 리스트로부터 선택된다. 상기 함수 근사화 노드 후보의 리스트는, 상기 일련의 샘플 데이터 패턴을 클러스터 계층 구조의 제1 레벨에 있는 복수의 클러스터로 분할하는 단계, 상기 제1 레벨에 있는 선택된 클러스터가 미리 정해진 크기를 초과하는 모집단을 갖는 것으로 결정하는 단계, 및 상기 선택된 클러스터를 2개 이상의 클러스터로 분할하고 상기 선택된 클러스터를 상기 클러스터 계층 구조의 그 다음 레벨에 있는 2개 이상의 클러스터로 대체하는 단계에 의해 형성될 수 있다. 정렬된 함수 근사화 노드 후보의 리스트를 형성하기 위해, 상기 클러스터 계층 구조의 각 레벨 상의 클러스터들이 클러스터 크기에 기초하여 정렬된다.
상기 신경망 모델 내의 노드들에 대한 함수 파라미터는 일련의 샘플 데이터 패턴에 계층적 k-평균 클러스터링 방법을 적용함으로써 결정될 수 있다. 예를 들어, 함수 근사화 노드는 방사형 기초 노드일 수 있으며, 방사형 기초 노드의 중심 및 반경은 계층적 k-평균 클러스터링 방법을 통해 결정된다.
본 방법은, 상기 신경망 모델이 온라인으로 사용되고 있는 동안 상기 신경망 모델의 모델 정확도를 모니터링하는 단계, 및 상기 신경망 모델의 모델 정확도가 미리 정해진 임계값 이하인 경우, 상기 신경망 모델을 적응적으로 갱신하는 단계를 더 포함할 수 있다. 상기 적응적 갱신은 새로운 데이터를 표현하기 위해 하나 이상의 부가의 노드를 상기 신경망 모델에 점차적으로 추가하는 단계를 포함할 수 있다. 상기 새로운 데이터는 상기 일련의 샘플 데이터 패턴에 표현되지 않은 데이터 범위 및/또는 시스템 동태(system dynamics)의 변화에 대응할 수 있다. 상기 적응적 갱신은 상기 신경망 모델 내의 노드의 함수 파라미터를 갱신하는 단계를 포함할 수 있다. 상기 적응적 갱신이 한계에 도달한 경우, 상기 신경망 모델의 전체적인 재훈련이 수행될 수 있다.
일 실시예에 따르면, 상기 부가의 노드는 새로운 데이터 패턴에 클러스터링 방법을 적용함으로서 형성될 수 있다. 상기 클러스터링 방법은, 상기 새로운 데이터 패턴을, 상기 신경망 모델 내의 노드의 수와 거의 같은 수의 클러스터로 클러스터링하는 단계, 선택된 클러스터가 상기 신경망 모델 내의 개별적인 노드와 관련된 위치로부터 멀리 떨어져 있는 것으로 결정하는 단계, 및 상기 선택된 클러스터와 관련된 부가의 노드 및 상기 선택된 클러스터의 중심을 상기 신경망 모델에 추가하는 단계를 포함할 수 있다.
직교 최소 제곱 방법이 상기 신경망 모델에 대한 일련의 가중치를 결정하기 위해 적용될 수 있다. 일련의 가중치는 새로운 데이터 패턴을 사용함으로써 및/또는 시스템 드리프트를 보상하기 위해 적응적으로 갱신될 수 있다. 적응적 갱신 이전에 상기 신경망 모델 내의 노드의 가중치는 소멸 인자에 기초하여 일련의 새로운 가중치와 합성될 수 있다. 소멸 인자는 모델 열화의 원인에 기초하여 결정될 수 있다.
본 발명은 또한 신경망 모델을 점차적으로 형성하는 방법을 제공한다. 일 실시예에서, 본 방법은, 함수 근사화 노드 후보의 리스트를 형성하기 위해 계층적 클러스터링 방법을 일련의 샘플 데이터 패턴에 적용하는 단계, 및 선택된 정확도 레벨 또는 그 이상의 정확도를 갖는 모델을 형성하기 위해 함수 근사화 노드 후보의 리스트로부터의 함수 근사화 노드를 점차적으로 적용하는 단계를 포함한다.
다른 실시예에 따르면, 본 방법은 일련의 샘플 데이터 패턴에 계층적 클러스터링 방법을 적용함으로써 신경망 모델에 대한 복수의 함수 근사화 노드를 형성하는 단계, 및 함수 근사화 노드와 관련된 일련의 가중치를 결정하기 위해 직교 최소 제곱 방법을 적용하는 단계를 포함한다.
본 발명의 특징은 첨부 도면을 참조한 이하의 상세한 설명으로부터 보다 쉽게 이해될 수 있다.
본 발명은 신경망 모델 생성 및 유지를 위한 (방법 및 시스템 형태의) 툴을 제공한다. 훈련을 통해 학습된 적절한 정확도를 갖는 신경망 매핑 모델을 효율적으로 구축하고 그 모델의 정확도를 유지하기 위한 신규의 점차적 및/또는 적응적 방법이 제공된다. 본 명세서에 기술된 점차적 방법(incremental methodology)은 다른 방식과 비교할 때 효율성을 제공하며, 적응적 방법(adaptive methodology)은 데이터의 속성 또는 시스템 응답의 변화에 응답하여 실시된다.
일 실시예에 따르면, 효율적이고 점차적인 모델의 개선은 적절한 방식으로 노드를 추가하는 것과 개선된 시스템 모델 파라미터를 이전에 학습된 모델로부터 재귀적으로 계산하는 것을 포함하며, 따라서 점차적으로 개선된다.
다른 실시예에 따르면, 점차적 학습은 계층적 클러스터링에 의해 제공되는 안내에 기초하여 순차적으로 순서화된 후보 리스트(ordered candidate list)로부터 노드를 추가하는 것을 포함한다. 계층적 클러스터링의 아키텍처는 제1 레벨을 넘어 이진일 수 있으며, 최대 수의 레벨을 가질 수 있다. 후보 리스트는 클러스터를 레벨에 따라 정렬하고 이어서 클러스터 크기에 따라 정렬함으로써 생성될 수 있다. 노드는 최상위 클러스터로부터의 함수로 시작하는 정렬된 리스트로부터 선택된다.모델의 정확도가 적절하지 않은 경우, 후보 리스트내의 노드 모두가 다 사용될 때까지 또는 원하는 정확도가 얻어질 때까지 더 많은 노드가 순차적으로 추가된다. 이 방법은 적절한 정확도와 적당한 크기를 갖는 모델을 획득하기 위해 적용될 수 있다.
적응적 학습은 시스템 동태의 변화 또는 데이터의 범위 또는 둘다에 응답하여, 일 실시예에 따르면 전체적인 재훈련을 받을 필요 없이 네트워크 파라미터 및/또는 구조를 조정하기 위한 간단한 방법을 포함한다. 이 방법 하에서, 새로운 데이터의 클러스터링은 새로운 노드가 추가되어야만 하는지를 결정하기 위해 사용되며, 기존의 노드 및 생성된 임의의 새로운 노드에 대한 최상위의 가장 선형인 가중치는 최초의 모델의 성능 열화의 원인의 결정 및 훈련을 위해 사용되는 패턴의 수에 기초한 "소멸 인자"(forgetting factor)에 따라 새로운 데이터만을 네트워크 내의 기존의 가중치와 함께 사용함으로써 계산된다.
본 발명의 실시예는 점차적 모델 구축 및 적응적 유지를 제공하기 위해 계층적 클러스터링 방법, 방사형 기초 함수(radial basis function) 방법, 및 선형 직교 최소 제곱(linear orthogonal least squares) 방법의 조합을 사용할 수 있다.
본 발명의 일 실시예에 따라 신경망 모델을 점차적으로 형성하기 위한 예시적인 방법이 도 2a를 참조하여 기술된다. 계층적 클러스터링 방법은 함수 근사화 노드 후보의 리스트를 형성하기 위해 일련의 샘플 데이터 패턴에 적용된다(단계 S21). 함수 근사화 노드 후보의 리스트로부터 선택된 함수 근사화 노드는 선택된 정확도 레벨 또는 그 이상의 정확도를 갖는 모델을 형성하기 위해 점차적으로 신경망 모델에 추가된다(단계 S22).
다른 실시예에 따라 신경망 모델을 점차적으로 형성하는 방법은 함수 근사화 노드 후보의 리스트를 형성하기 위해 계층적 클러스터링 방법을 일련의 샘플 데이터 패턴에 적용하는 단계와, 선택된 정확도 레벨 또는 그 이상의 정확도를 갖는 모델이 얻어질 때까지, 함수 근사화 노드 후보의 리스트로부터 선택된 하나 이상의 함수 근사화 노드를 신경망 모델에 점차적으로 추가하는 단계를 포함한다. 함수 근사화 노드 후보는 가우시안 노드(Gaussian node), S자형 기초 노드(sigmoidal basis node), 웨이블릿 기초 노드(wavelet basis node) 등을 포함할 수 있다. 노드는 비선형일 수 있다.
한 예시적인 실시예에 따른 계층적 클러스터링 방법은 도 2b를 참조하여 기술된다. 일련의 샘플 데이터 패턴은 클러스터 계층 구조의 제1 레벨에 있는 복수의 클러스터로 분할된다(단계 S211). 현재의 (제1) 레벨에 있는 클러스터를 선택하고 클러스터의 모집단을 미리 정해진 크기 임계값과 비교한다(단계 S212). 클러스터의 모집단이 임계값을 초과하는 경우(단계 S213), 클러스터는 클러스터 계층 구조의 그 다음 레벨에 있는 2개 이상의 클러스터로 분할되고 그것으로 대체된다(단계 S214). 프로세스는 크기 임계값을 초과하는 클러스터가 남아 있지 않을 때까지(단계 S215) 반복된다.
한 예시적인 실시예(도 2c)에 따른 후보 노드 함수의 순서화된 리스트를 생성하는 방법은 도 2b의 방법을 사용하여 클러스터 계층 구조를 개발한다. 남아 있는 클러스터 모두가 적절한 크기를 갖는 경우(예를 들어, 모집단이 임계값 이하인경우)[단계 S212 내지 단계 S215], 후보 노드 함수의 리스트는 클러스터 계층 구조의 각 레벨 상의 클러스터들을 클러스터 크기에 기초하여 정렬함으로써 생성될 수 있다.
일 실시예(도 2d)에 따라 적당한 정확도를 갖는 적절한 크기의 모델을 점차적으로 구축하는 방법은 예를 들어 도 2c에 도시한 방법을 적용함으로써 생성된 후보 노드 함수의 리스트를 사용할 수 있다. 후보 리스트 상에 임의의 노드 함수가 있는 경우(단계 S221), 리스트 상의 첫번째 노드 함수가 선택되어 모델에 추가된다(단계 S222). 새로운 가중치가 시스템 에러(또는 다른 정확도 표시자)와 함께 계산된다(단계 S223). 모델의 정확도가 적절하지 않은 경우(단계 S224), 프로세스는 단계 S221로 되돌아가서 리스트 상에 남아 있는 임의의 후보 노드 함수를 처리한다.
다른 실시예에 따른 신경망 모델을 오프라인으로 점차적으로 형성하고 신경망 모델을 적당한 정확도 레벨 및 적절한 크기로 적응적으로 유지시키는 방법이 도 3a를 참조하여 기술된다. 함수 근사화 노드는 신경망 모델에 점차적으로 추가된다(단계 S31). 함수 근사화 노드의 추가 이전에 다른 노드의 기존의 함수 파라미터 및 새로운 데이터를 사용함으로써 함수 근사화 노드에 대한 함수 파라미터가 결정되고 신경망 모델 내의 다른 노드의 함수 파라미터가 갱신된다(단계 S32). 함수 근사화 노드는 모델이 적절한 정확도를 가질 때까지 신경망 모델에 추가될 수 있다(단계 S31 및 단계 S32)(예를 들어, 도 2d 참조). 오프라인으로 형성된 모델은 온라인으로 배포되어 사용될 수 있다(단계 S33). 모델의 정확도는 새로운 데이터가모델에 입력으로서 피드될 때 모니터링된다(단계 S34). 모델의 정확도가 적절하지 않은 경우(예를 들어, 최소 정확도 레벨을 충족시키지 않는 경우)(단계 S35), 모델 파라미터 및/또는 구조가 적응적으로 갱신될 수 있다(단계 S36). 적응적 갱신은 예를 들어 시스템 동태의 변화 또는 시스템의 드리프트에 의해 필요하게 될 수 있다. 신경망 모델은 함수 근사화 노드에 대응하는 샘플 데이터 패턴의 클러스터 중 임의의 것에 의해 표현되지 않은(예를 들어, 그로부터 멀리 떨어진) 새로운 데이터에 대해 형편없는 정확도를 가질 수 있다. 이 후자의 경우에, 적응적 갱신은 새로운 데이터를 사용하여 부가의 노드를 모델에 추가할 수 있다. 예를 들어, 도 3b 및 이하의 대응하는 설명을 참조하기 바란다.
적응적 갱신의 한계에 도달한 경우(예를 들어, 적응적 갱신을 통해 정확도가 개선되지 않는 경우)(단계 S37), 전체적인 오프라인 재훈련을 위한 준비가 수행되고(단계 S38), 이어서 프로세스는 단계 S21에서 재시작한다. 한편, 적응적 갱신이 모델의 정확도를 개선시키는 경우(단계 S37), 적응적으로 갱신된 모델이 온라인으로 재배포되어 사용되고(단계 S33), 갱신된 모델의 정확도가 모니터링된다(단계 S34).
본 발명의 일 실시예(도 3b)에 따라 모델의 정확도를 유지하기 위해(예를 들어, 단계 S36) 모델을 적응적으로 갱신하는 방법은 예를 들어 시스템 동태 및/또는 데이터의 범위의 변화에 대응하는 새로운 데이터에 응답하여 적용될 수 있다. 새로운 데이터는 모델 내의 현재의 노드의 수와 거의 같은 수의 클러스터로 클러스터링된다(단계 S361). 모델 내의 현재의 노드로부터 멀리 떨어져 있는 클러스터의경우, 대응하는 새로운 노드는 클러스터 중심의 위치에 추가된다(또한 새로운 노드 의 출력 링크 상의 가중치는 0으로 초기화될 수 있다)(단계 S362). 일련의 새로운 가중치가 새로운 데이터에 기초하여 모든 노드(현재의 노드 및 새로운 노드)에 대해 계산된다(단계 S363). 소멸 인자를 적용함으로써 새로운 가중치가 기존의 노드의 기존의 가중치와 합성된다(단계 S364). 소멸 인자는 예를 들어 모델 성능의 열화의 원인 및/또는 훈련 패턴의 수에 기초하여 선택될 수 있다.
신경망 모델 내의 노드와 관련된 함수 파라미터는 계층적 k-평균 클러스터링 방법(hierarchical k-means clustering methodology)을 사용함으로써 생성될 수 있다. 예를 들어, 노드는 방사형 기초 노드를 포함할 수 있으며, 방사형 기초 노드의 중심 및 반경은 계층적 k-평균 클러스터링 방법을 통해 결정된다.
어떤 신경망은 모든 가능한 입력 패턴을 사용하여 훈련할 필요없이 입력과 출력 사이의 함수 관계를 모델링 또는 근사화하기 위해 훈련될 수 있다. 입력과 출력 사이의 관계는 입력-출력 관계가 수학적 함수에 의해 근사화될 수 있음을 나타내기 위해, 예를 들어 각각의 입력 패턴에 대해 입력 패턴은 단지 하나의 관련된 출력값을 가짐(예를 들어, 입력 x와 y가 4와 5인 경우, 출력 z는 항상 9이고, x와 y가 94와 73인 경우, z는 항상 26이고, 기타 마찬가지임)을 나타내기 위해 "함수적"인 것으로 기술된다.
함수 관계는 선형이거나 비선형일 수 있다. 선형성은 출력 (y)이 입력 (x)에 비례 관계에 있는 (예를 들어 함수의 입력과 출력 사이의 관계에 적용될 수 있는) 수학적 특성이며(예를 들어, y=2x, y=5-4x 등), 따라서 입력에서의 작은/큰 변화는 출력에서의 대응하는 작은/큰 변화를 생성한다. 문제가 변수들간의 선형 관계를 나타냄을 알게 되면, 선형 인자가 공지의 방법을 통해 숫자로, 경험적으로 및/또는 일정 방식으로 결정될 수 있다. 그렇지만, 실제 생활에서, 수학적 문제에서의 독립 변수 사이의 관계는 일반적으로 비선형적이다(즉, 이러한 일정한 비가 없다). 따라서, 신경망이 (충분한 노드가 네트워크에 제공되어 있는 경우, 네트워크가 임의의 함수를 임의의 정밀도로 근사화하기 위해 사용될 수 있음을 의미하는) 범용 근사자(universal approximator)가 되기 위해서는, 신경망은 비선형 입력-출력 관계를 모델링할 수 있어야만 한다. 어떤 신경망은 사전 지정(pre-specification)없이 자동적으로 독립 변수들 사이의 비선형성 및 상호작용을 포착하도록 훈련될 수 있다.
함수 링크 네트워크(functional-link network, "FLN")는 입력과 출력 사이의 함수 관계를 모델링하는 데 사용될 수 있는 신경망의 한 유형이다. FLN은 입력의 벡터,x와 출력 y를 갖는 임의의 스칼라 함수를 근사화하기 위해 사용될 수 있다. 비선형성이 함수 링크 계층에 완전히 포함되어 있는 FLN의 구조가 도 4에 도시되어 있다. 함수 링크 계층 내의 노드들은 관련된 비선형 기초 함수를 가지고 있다. FLN의 예는 공동 소유의 미국 특허 제4,979,126호, 제5,734,796호, 제6,134,537호, 및 제6,212,509호에 기술되어 있으며, 이들은 여기에 인용함으로써 그 전체 내용이 본 명세서에 포함된다. 벡터 함수는 스칼라 차원으로 분해될 수 있고 따라서 다수의 출력 노드 또는 다수의 네트워크를 사용하여 근사화될 수 있기 때문에, 본 발명에서의 FLN에 대한 기술은 다수의 출력 노드가 있는 일반적인 상황을 포함시키기위해 일반성을 상실하지 않고 도 4에 도시한 것과 같은 하나의 출력 노드의 경우에 집중되어 있다.
은폐층 네트워크 및 FLN은 범용 근사자로서 기능할 수 있는 2가지 유형의 신경망이다. 그렇지만, 비선형성의 위치는 이 2가지 유형의 네트워크의 경우 서로 다르다. 다층 은폐층 네트워크의 경우, 은폐층 노드에 대한 활성화 함수가 일반적으로 비선형이다. 모든 가중치가 선형 가중치이지만, 이러한 네트워크를 훈련시키는 데 사용되는 임의의 방법은 비선형이어야만 한다. 한편, FLN이 사용되는 경우, 비선형성은 함수 링크 계층에 완전히 포함될 수 있으며, 네트워크의 나머지는 선형일 수 있다. 따라서, 회귀 기반 훈련(regression-based training) 등의 선형 훈련 기술이 사용될 수 있다. 선형 훈련은 선형 대수 기술을 통해 네트워크 내의 파라미터의 해를 구하는 기술을 말한다.
2가지 유형의 네트워크(즉, 다층 은폐층 네트워크 및 함수 링크 네트워크) 둘다가 범용 근사자일 수 있지만, 몇개의 노드가 충분한 것인지는 데이터 및/또는 문제에 따라 변한다. 게다가, 네트워크에서의 일련의 초기 가중치 및/또는 함수 파라미터가 보통 랜덤하게 생성되기 때문에, 그 결과 얻어지는 훈련된 네트워크는 보통 에러 공간에서 국소 최소(local minimum)이다(예를 들어, 관련 에러는 최소인 것처럼 보인다). 훈련된 네트워크가 국소 최소라는 결과는 상당한 수의 서로 다른 초기 가중치 및/또는 일련의 파라미터 값을 시도해보지 않는 경우 노드를 하나 더 추가하는 것이 모델 에러를 전혀 감축시킬 수 없다는 것이다. 랜덤하게 생성된 파라미터값이 선형 문제를 거의 특이한 것(예를 들어, 문제 공간에서의 어떤 지점에서 미정의된 수학적 도함수를 갖는 것)으로 만들지 않는 한, 이것은 선형적으로 훈련가능한 FLN에 대해서는 그다지 문제가 되지 않는다. 따라서, 훈련 에러를 국소 최소로 안정시키는 문제는 은폐층 네트워크에서 훨씬 더 중요하고 발생할 가능성이 있다.
본 발명의 신경망 모델 생성 및 유지 방법(본 명세서에서는 합하여 "직교 함수 링크 네트워크(orthogonal function-link net) 방법" 또는 "OFLN" 방법이라고 함)은 양호한 실시예에 따라 효율적인 고성능의 함수 근사화 신경망을 생성하기 위해 적용될 수 있다. OFLN 방법은 또한 네트워크가 모델링되고 있는 시스템으로부터 획득된 데이터에 따라 자동적으로 갱신될 수 있도록 대상 네트워크(subject net)의 유지를 위한 대책을 포함한다.
선형 출력 노드를 갖는 FLN은 OFLN 방법 하에서 네트워크 유형으로서 선택된다. FLN의 이점은 직교 최소 제곱(orthogonal least squares, OLS) 학습 방법(이하에 기술됨) 등의 선형 회귀 훈련 기술이 점차적 및 적응적 학습을 달성하기 위해 사용될 수 있다는 것이다.
OFLN 방법 하에서, 적절한 수의 함수 근사화 노드가 노드의 파라미터와 함께 고려된다. 방사형 기초 함수 근사화 노드(이하에 기술됨)의 경우, 파라미터는 중심의 위치 및 어떤 경우에는 유효 반경을 포함한다. 랜덤한 중심과 함께 발견적 반경(heuristic radius)을 사용할 수 있거나, 랜덤하게 선택된 기존의 패턴 상에 중심을 배치할 수 있다. 그렇지만, 단점은 이용가능한 데이터를 표현하는 능력의 관점에서 파라미터의 품질을 결정하는 것이 어려울 수 있다는 것이다. 따라서, 다수의 시도 및/또는 사용자 경험, 즉 문제에 특유한 발견적 학습법이 양호한 모델에 도달하는 데 필요할 수 있다. OFLN 방법 하에서는, 데이터를 보면 알 수 있다, 즉 후보 중심 및 반경 값은 계층적 클러스터링을 통해 생성된다(이하에 기술함).
반경 기초 FLN, 계층적 클러스터링 및 직교 최소 제곱 방법의 이점을 결합하면, OFLN 방법은 훈련 데이터 세트가 이용가능한 경우 시스템의 적당한 모델의 자동 생성을 제공하는 데 적용될 수 있다. OFLN 방법에 의해 생성된 모델은 또한 적응적으로 갱신될 수 있다. 새로운 데이터가 축적될 때 오프라인으로 주기적으로 수행될 수 있는 것인 효과적인 모델 구축과, 새로운 데이터가 이용가능할 때 온라인으로 수행될 수 있는 것인 적응적 모델 갱신의 결합은 모델에 의해 최적의 성능을 유지하기 위한 툴을 제공한다.
OFLN 방법은 이 방법을 새로운 복잡한 실세계 문제를 해결하는 데 특히 적합한 이하의 것을 포함한 다수의 특징을 제공한다.
(a) 학습: 본 발명의 방법은 사람이 경험으로부터 학습하는 방법과 유사한 방식으로 데이터로부터 관계를 추출함으로써 해결 방안을 개발한다.
(b) 다차원: 본 발명의 방법 하에서는, 한번에 유한개의 데이터 스트림을 분석할 수 있는 사람의 능력 및 많은 특징을 갖는 문제를 해결하기 위해 대량의 복잡한 프로그래밍을 필요로 할 수 있는 종래의 순차적 알고리즘과는 반대로, 문제의 모든 특징이 한번에 병렬로 고려될 수 있다.
(c) 비선형: 본 발명의 방법은 문제의 기초 속성에 대한 얼마간의 지식이 미리 알려져 있거나 추정되고 그 해결 방안이 그 형태로 한정될 것을 요구하는 종래의 모델링 또는 문제 해결 기술과 연계되어 있지 않다.
(d) 적응적: 이 모델은 새로운 데이터를 수용하기 위해 쉽게 갱신될 수 있으며, 계속하여 문제에 대한 그의 지식을 향상시킨다.
직교 최소 제곱 방법
직교 최소 제곱(OLS) 학습 방법은 점차적 학습 방법이다.
일련의 관찰된 관련 입력-출력 패턴쌍(여기서, p=1,..., P이고, 단, P는 패턴쌍의 수임)이 제공되는 경우, FLN은 이하의 스칼라 함수를 근사화하기 위해 훈련될 수 있다.
도 4에 도시한 네트워크를 사용하여, 일련의 비선형 기초 함수의(여기서, j=1,...,J, 단, J는 노드의 수임) 이하의 선형 합산은 수학식 1의 함수에 대한 근사화를 표현하기 위해 사용될 수 있다.
수학식 2가 근사화이기 때문에, 이 식을 완전한 등식으로 만들기 위해서는 이 식의 우변에 추가로 오차항이 있을 수 있다. 그렇지만, 오차항은 간명함을 위해 수학식 2에 누락되어 있다. 가우시안 함수 등의 방사형 기초 함수는 종종 수학식 2에서로서 선택되지만, S자형 또는 웨이블릿 함수 등의 다른 함수들도역시 사용될 수 있다. 기지의 패턴을 수학식 2에 대입하면, P개의 연립 방정식이 얻어진다. P(즉, 패턴쌍의 수)가 보통 J(즉, 함수 근사화 노드의 수)보다 훨씬 더 크기 때문에, 문제는 필요 이상으로 명세되어 있고(over-specified), 해결책은 에러 제곱의 최소합, 즉 최소 제곱의 의미에서 획득될 수 있을 뿐이다.
최소 제곱에 기초한 훈련 방법이 네트워크를 훈련시키는 데 사용되는 경우, 선택된 기초 함수가 그 결과 얻어진 선형 시스템을 거의 특이한 것으로 만들지 않는다고 가정할 때 사용되는 기초 함수의 수가 많을수록, 훈련 에러가 더 적게 된다. 그렇지만, 목표는 물론 암시적인 함수적 관계를 정확하게 나타내는 근사화를 획득하는 것이다. 훈련된 네트워크는 검증 세트 패턴(예를 들어, 훈련 세트와 별개인 테스트 세트)의 도움을 받아 테스트될 수 있다. 학습된 관계가 검증 세트 전반에 걸쳐 널리 유효하지 않은 것으로 검증 세트를 사용한 테스트가 나타내는 경우(예를 들어 훈련 세트에 있지 않은 입력 패턴이 적용될 때 학습된 관계가 적절한 출력을 생성하지 않는 경우), 훈련 세트 패턴만의 사소한 에러는 학습 프로세서의 만족스러운 결과가 아니다. 이러한 환경 하에서, 점차적 학습 및/또는 적응적 학습 기술이 모델을 개량하기 위해 적용될 수 있다.
수학식 2로부터 얻어진 연립 방정식 세트는 다음과 같이 행렬 형태로 쓰여질 수 있다.
또는
각각의 비선형 함수는 파라미터의 항으로 기술된다. 이들 파라미터도 훈련 프로세스에서 변화될 수 있지만, 보통은 사전 선택되어 일정하게 유지되며, 이러한 네트워크 구조에 대한 훈련 프로세스 동안 선형 가중치만이 조정된다.
선형 최소 제곱 기술을 사용하여, 수학식 4의 해는 다음과 같이 표현될 수 있다.
그렇지만, 실제 계산에서, 가중치 벡터는 수학식 5에 대응하는 의사 역행렬(pseudo-inverse) 기술보다는 오히려 보통의 특이값 분해(singular value decomoposition, SVD) 또는 LU 분해를 사용하여 직접 계산된다.가 고정되어 있는 경우 계산은 간단하다. 함수 근사화 노드를 동적으로 추가하는 경우에서와 같이 훈련 동안에가 증가될 때 문제가 발생한다.에서의 유일한 변화가 추가된 열이지만,의 직접 계산은 증가된의 완전히 새로운 SVD 또는 LU 분해를 필요로 할 수 있다.
훈련 동안의 증가를 처리하기 위해, OLS 방법은 직교화(orthogonalization)라는 추가의 단계를 제공한다. 이 추가의 단계는가 증가되기 전의 계산으로부터의 결과 대부분이가 증가된 후에 예를 들면 재귀적 방식으로 재사용될 수 있게 해준다.
수학식 4에서, 행렬의 각 행은 J개의 기초 함수의 항으로 된 단일 패턴 벡터의 표현이다. 이에 따라, 행렬는 J개의 기초 함수의 항으로 된 P개의 패턴 벡터의 전체 세트의 표현이다. 행렬는 또한 다음과 같이 열벡터의 행으로 볼 수도 있다.
OLS 방법에서, 일련의 직교 벡터는 다음과 같이 그람-슈미트(Gram-Schmidt) 방식으로벡터로부터 작성될 수 있다.
계수는 이하의 직교화 조건에 의해 결정된다.
따라서,
이다.
이 표기에서, 행렬는 다음과 같이 다시 쓸 수 있다.
여기서,는 계수를 그의 원소로서 갖고 그의 대각선 상에 1을 갖는 상삼각행렬(upper triangular matrix)이다.
이제, 수학식 4는 다음과 같이 다시 쓸 수 있다.
다음과 같이 표기하면,
연립 방정식 세트는 수학식 12로 변환된다.
에 대한 최소 제곱해는 다음과 같다.
여기서,는 다음의 대각 행렬이다.
따라서,는 다음과 같다.
또하나의벡터가 그 표현에 추가되면, 새로운벡터가 다음과 같이 재귀적으로 구해질 수 있으며, 이는 간단한 선형 대수로 증명될 수 있다.
에 대한 해는 다음과 같다.
가 상삼각행렬이기 때문에, 역행렬도 또한 다음과 같이 재귀적으로 계산될 수 있다.
여기서
새로운벡터 및행렬을 사용하여, 새로운 가중치 벡터가 수학식 17을 사용하여 획득될 수 있다.
따라서, 비선형성이 함수 링크 계층에 완전히 포함되어 있는 FLN은 OLS 방법을 적용함으로써 점차적으로 구축될 수 있다. OLS 방법은 노드의 수에 대한 자연 제어를 제공한다. 노드가 네트워크에 추가될 때, 훈련 에러는 일반적으로 감소된다. 훈련의 목표에 도달될 때 또는 과잉 훈련의 징후가 명백할 때, 노드의 추가는 중단된다.
계층적 클러스터링
OLS 방법은 훈련 시간 동안 새로운 함수 근사화 노드의 용이한 추가를 가능하게 해준다. 그 다음 문제는 어떤 새로운 노드가 추가되어야만 하는지이다, 즉 어느 파라미터가 새로운 노드 함수에 사용되어야만 하는지이다.
랜덤한 선택이 한가지 기술이다. 랜덤 벡터 FLN은 랜덤하게 선택된 노드 파라미터를 사용하고, OLS 방법을 그에 적용하는 것은 이러한 유형의 네트워크의 자연스런 확장일 수 있다. 그렇지만, 랜덤하게 선택된 파라미터는 데이터 분포의 적절한 적용범위를 제공하지 않을 수 있으며, 앙상블 네트워크(ensemble net) 기술에 기술된 것과 같은 양호한 모델을 얻기 위해 다수의 (랜덤 선택) 시도가 요망될 수 있다.
일 실시예에 따른 OFLN 방법은 함수 링크 계층에 방사형 기초 함수 근사화 노드를 사용한다. 방사형 기초 함수 링크 계층 노드를 사용하는 것의 이점은 클러스터링 방법이 중심과 반경을 생성하는 데 사용될 수 있다는 것이다.
k-평균 클러스터링 방법은 중심과 반경을 결정하기 위해 사용될 수 있다. 클러스터의 수는 일반적으로 훈련 이전에는 미지이기 때문에, 계층적 k-평균 클러스터링(이하에 기술함)은 일 실시예에 따라 노드 파라미터를 생성하는 데 사용될 수 있다. 계층적 k-평균 클러스터링 방법은 분할 기술(divisive technique)이다. 전체적인 샘플 데이터 세트는 먼저 적은 수의 클러스터로 클러스터링된다. 그 결과 얻어지는 클러스터의 모집단에 따라, 클러스터의 모집단이 적절하거나 클러스터 계층 구조 내의 레벨의 수가 선택된 최대를 초과할 때까지, 큰 것은 보다 작은 클러스터로 추가로 분할될 수 있다. 레벨의 수의 한계는 결과 모델의 최대 복잡도를 제어하는 데 사용된다. k-평균 방법은 클러스터링의 각 레벨에서 사용된다.
단일 레벨 클러스터링에 대비해 계층적 클러스터링을 사용하는 것에 대한 몇가지 이점이 있다. 예를 들어, 어떤 다른 클러스터링 방법에서는 미리 요구되는 것인 생성될 클러스터의 수 또는 클러스터의 반경을 추측할 필요가 없다. 게다가, 클러스터 계층 구조 내의 서로 다른 레벨은 서로 다른 상세 레벨에서의 데이터의 기술을 나타낸다. 서로 다른 레벨은 모델을 구축하는 데 있어서 아주 중요한데, 왜냐하면 모델이 잘 일반화되도록 하기 위해서는 훈련 에러가 허용가능한 것인 한 네트워크에 적은 수의 노드를 갖는 것이 더 낫기 때문이다. 서로 다른 상세 레벨의 경우, 네트워크는 제1 레벨 상의 대략적 설명에서 시작할 수 있으며, 훈련 에러가 만족스럽지 않은 경우, 모델이 허용할 만한 것이 될 때까지 부가의 상세가 하위 레벨 클러스터로부터의 결과를 사용하여 추가될 수 있다. 이것에 의해 자동적으로 적절한 복잡도의 모델이 얻어진다.
많은 다른 방법 하에서는, 충분한 상세를 얻기 위해 노드의 수가 종종 필요 이상으로 많게 선택된다. 그렇지만, 순방향 선택(forward selection)이나 역방향 제거(backward elimination)가 복잡도를 제어하기 위해 요망될 수 있다. 계층적 클러스터링에 있어서, 프로세스는 순방향 선택과 비슷하다. 그렇지만, 후보의 수는 어떤 단계에서도 훨씬 더 적은데, 그 이유는 동일한 레벨 또는 그 다음 레벨 내의 클러스터만이 고려될 수 있기 때문이다. 그 다음 레벨의 클러스터를 생성하는데 k의 값이 적은 경우(예를 들어, 2인 경우), 전체적인 선택 프로세스는 제거될수 있는데, 그 이유는 남아 있는 동일한 레벨 또는 그 다음 레벨 클러스터 중에서 가장 큰 모집단을 갖는 클러스터에 대응하는 후보를 단순히 추가하는 것이 순방향 선택으로 획득한 것과 유사한 성능을 달성하기 때문이다. 이러한 단순화는 종종 훈련 시간을 크게 단축시킬 수 있다.
적응적 모델 갱신
최상의 환경 하에서조차도, 모델은 모델을 훈련시키는 데 사용되었던 데이터가 수집되었을 기간 동안 기초적인 함수 관계 또는 시스템의 근사화에 불과하다. 모델을 갱신하기 위한 동기에 기여하는 많은 요인이 있다.
동일한 입력이 서로 다른 시간에 제공되는 경우, 모델은 동일한 계산된 출력 값을 반환해야만 한다. 그렇지만, 값은 모델링되는 함수 관계 또는 시스템을 반드시 나타낼 필요는 없다. 관찰에 있어서의 노이즈는 일반적으로 이전에 계산된 값이 새로 관찰된 것과 어느 정도 다르게 되도록 만든다.
모델은 또한 쓸모없을 수 있다. 시스템의 수학적 모델의 사용에 있어서, 입력에 중점을 두며, 시스템 파라미터는 일정한 것으로 간주된다. 그렇지만, 모델이 확립된 후에, 시스템 파라미터는 드리프트할 수 있고 기초적인 시스템 거동이 변동되도록 할 수 있다. 예를 들어, 운전자가 차의 브레이크 페달을 더 멀리 밟을수록, 차는 더 빨리 멈추며, 모델은 브레이크 페달이 움직인 특정의 거리에 대해 그 자동차가 얼마나 빨리 멈추는지를 예측하기 위해 구축될 수 있다. 그렇지만, 브레이크 패드가 닳아져 얇아지고 브레이크 액이 시간에 따라 노후됨에 따라, 브레이크 페달의 동일한 이동량은 그 자동차가 이전보다 더 느리게 멈추는 결과를 가져온다.
어떤 적절한 파라미터, 예를 들어 FLN 모델에서의 가중치를 갱신함으로써 노이즈 또는 시스템 드리프트로 인한 작은 변화를 보상하는 것이 가능하다. 새로 이용가능한 데이터는 이전의 훈련 데이터에서의 노이즈를 소거하거나 그 모델을 보다 최신의 것으로 만드는 데 도움을 줄 수 있다. 실제로, 원인이 노이즈인지 드리프트인지를 결정하는 것은 어려운데, 그 이유는 통상 둘다 존재하며 노이즈 효과가 단기적으로는 우세할 가능성이 있지만 드리프트는 장기적인 효과에 영향을 줄 수 있으며 장기적으로 우세하기 때문이다.
모델의 갱신이 요망되는 다른 상황은 새로 이용가능한 데이터에서 새로운 경우가 식별되는 때이다. 신규 데이터의 경우에, 기존의 노드와 관련된 가중치를 변경하는 것으로는 신규 데이터의 효과를 나타내는 데 충분하지 않을 수 있다. 신규의 경우가 존재하는 데이터 영역과 관련된 새로운 노드를 추가하는 것은 이 문제를 해결하기 위해 사용될 수 있다. 다시 말하면, 새로운 노드 함수의 위치 및 범위를 결정하기 위해 클러스터링이 사용될 수 있다. 클러스터링 결과로부터의 중심을 사용하여, 기지의 범위를 벗어나는 패턴을 식별하는 것은 쉽다.
훈련 방법 내의 비선형성으로 인해 종래의 다층 은폐층 네트워크 구조에 대한 적응적 학습을 수행하는 것은 어렵지만, OFLN 방법에 의해 생성된 네트워크 등의 비선형성이 함수 링크 계층 내에 포함되어 있는 FLN에 대한 적응적 갱신은 다음과 같이 수행될 수 있다.
이고, P'이 훈련 세트 내의 원래의 패턴 수 P보다 훨씬 더 작은 것인 새로 획득된 관련 패턴쌍의 세트가 제공되는 경우, 새로운 F' 행렬이 보증된 부가의 노드가 보충된 동일한 방사형 기초 함수 근사화 노드를 사용하여 획득될 수 있다. 수학식 5에 대응하는 최소 제곱 해가 획득될 수 있다.가 모델에서의 현재의 가중치를 나타내며 부가의 노드로부터의 링크에 대해 0을 갖는 것으로 가정할 때, 새로운 가중치가 이하의 식을 사용하여 획득될 수 있다.
여기서,는 0과 1 사이의 파라미터이다.의 결정은 이전의 훈련 세트에 비해 새로운 세트 내의 패턴의 수, 이전의 세트에 대비하여 새로 이용가능한 세트에서의 신뢰도 수준, 기반 시스템에서의 추정 변동율 및 모델이 처음으로 확립된 이후의 경과 시간 등의 몇가지 파라미터에 기초한다. 파라미터를 계산하는 한가지 방법은 이하의 식을 사용하는 것이다.
여기서, P 및 P'은 각각 현재의 모델을 훈련시키는 데 사용되는 훈련 세트 및 새로 이용가능한 데이터 세트에서의 패턴의 수이다. 파라미터는 소멸 인자(forgetting factor)이다. 그의 값도 또한 [0, 1] 내에 있다.의 값이 높을수록, 기존의 가중치가 새로운 가중치에 미치는 영향이 더 적다. 환언하면, 현재의 가중치는 더 많이 무시된다.를 도입하는 것의 이점은 그것이 파라미터에 대한 결정 프로세스의 무형 부분으로부터 유형 부분(즉, 패턴의 수)을 분리시킨다는 것이다.
적응적 학습이 노이즈 및 드리프트 둘다에 의해 야기되는 차이를 감소시키는 데 도움을 줄 수 있지만, 이 2가지 원인 사이에는 차이점이 있다. 원하는 응답을 얻기 위해, 입력 파라미터는 여전히 제로 평균 노이즈에 의해 야기되는 차이에 대해 동일한 이웃에 있을 수 있지만, 드리프트에 의해 야기된 차이에 대해 점차적으로 다를 수 있다. 게다가, 모델을 갱신하기 위해 요망되는 동작도 다를 수 있다. 노이즈 경우에, 기존의 모델에서의 파라미터는 똑같이 중요하게 취급된다. 이와 반대로, 드리프트의 경우, 이들은 무시될 필요가 있다. 수학식 20에서 파라미터는 이를 위해 제공된 것이다.
모델 파라미터의 적응적 갱신이 동작하기 위해서는, 함수적 관계 또는 모델에 있어서의 일반적인 기초적 원리가 여전히 유효할 수 있으며, 변화량은 적을 수 있다. 이들 조건이 정확하지 않은 경우, 완전히 새로운 모델이 확립될 수 있다. 변화가 점진적인 경우조차도, 변화량은 시간에 따라 상당하게 될 수 있다. 따라서, 적응적 갱신은 단기간 해결책을 위해 최상이다. 새로운 데이터가 축적됨에 따라, 전체적인 재훈련이 주기적으로 또는가 원래의와 충분히 다를 때 실행될 수 있다. 적응적 갱신과 전체적인 재훈련의 차이는 적응적 갱신이 모든 기존의노드를 유지하고 그 노드에 대한 가중치를 조정할 뿐인 반면, 전체적인 재훈련의 경우 모든 함수 근사화 노드 (및 가중치)가 새로 생성된다는 것이다. 전체적인 재훈련은 보다 양호한 성능을 제공할 수 있지만 또한 더 많은 시간이 걸린다. 온라인 모델에 대해 적응적 갱신을 수행하는 것과 전체적으로 재훈련된 모델을 오프라인으로부터 주기적으로 설치하는 것을 종종 결합시키는 것이 모델이 항상 최신의 것이 되도록 보장하는 효과적인 기술일 수 있다.
이전의 훈련 데이터가 보관될 수 있는지 여부는 절충의 문제이다. 적응적 갱신은 이전의 훈련 데이터를 필요로 하지 않는다. 전체적인 재훈련이 그 데이터를 사용하는지 여부는 재훈련이 대량의 새로운 데이터에 의해 요구되는지 또는 가중치의 큰 차이에 의해 요구되는지에 달려 있다. 소량의 새로운 데이터를 갖는 후자의 경우에(즉, 가중치에 큰 차이가 있는 경우), 이전의 훈련 데이터의 전부 또는 그 일부를 사용한 재훈련이 요망될 수 있다. 그렇지만, 빠르게 변화하는 상황의 경우, 오래된 데이터를 폐기시키는 것은 더 나은 결과를 생성할 수 있다. 대부분의 경우에 충분히 잘 동작할 수 있는 한가지 기술은 고정량의 데이터를 유지하여, 새로운 데이터가 이용가능할 때 오래된 데이터를 폐기시키는 것이다.
OFLN 방법을 사용함으로써 자동 모델 생성 및 갱신하는 프로세스를 설명하기 위해 간단한 비선형 시계열 예가 이하에 기술된다. 이 예는 예시적으로 네트워크 성능 및 네트워크 중심의 위치 설정에 적용될 수 있다.
비선형 시계열은 이하의 식에 의해 시뮬레이션된다.
여기서, e(t)는 0.01의 분산을 갖는 제로 평균 노이즈 시퀀스이다. 초기 조건은로서 설정되었다. 이전의 2개의 점은 현재의 점의 값을 예측하는 데 사용된다.
2000개의 시계열 샘플이 생성되었다. 처음 1000개의 패턴은 훈련 세트로서 사용되었고, 나머지 1000개는 검증 세트로서 사용되었다. 가우시안이 함수 근사화 노드로서 사용되었다. 중심은 클러스터 중심을 사용하여 결정되었고, 범위는 클러스터의 반경을 사용하여 결정되었다. 제1 레벨에 3개의 클러스터가 있고 그 다음 2개의 레벨에 이진 분할(binary split)이 있는 계층적 k-평균 클러스터링이 사용되었다. 계층적 클러스터링의 결과 총 21개의 클러스터가 얻어졌다. 클러스터들은 레벨은 오름차순으로 모집단은 내림차순으로 하여 정렬되었다. 네트워크는 최상위 레벨 클러스터에 대응하는 3개의 노드로 시작하였으며, 노드들이 클러스터의 리스트로부터 순차적으로 추가되었다. 에러 목표가 5e-4인 경우, 총 12개의 노드가 선택되었다. 검증 세트의 에러도 또한 5e-4 이하로 설정되었으며, 이는 결과 모델을 양호하게 일반화할 수 있음을 나타낸다.
도 5는 시뮬레이션된 비선형 시계열 및 FLN 모델로부터의 결과에 대한, 훈련 패턴, 노이즈 없는 한계 사이클, 모델 출력이 입력으로 피드백되었을 때 모델에 의해 생성된 한계 사이클, 및 클러스터링의 서로 다른 레벨로부터의 클러스터 중심의 위치를 나타낸다. 작은 점은 훈련 패턴에 대응한다. 회색 루프는 노이즈 없는 한계 사이클에 대응한다. 검정색 루프는 출력이 입력으로 피드백되었을 때 FLN 모델에 의해 생성된 한계 사이클에 대응한다. 검정색 큰 원은 제1 레벨 클러스터의 중심의 위치에 대응한다. 삼각형은 제2 레벨 클러스터에 대응한다. 다이아몬드는 선택된 제3 레벨 클러스터에 대응한다. 선택된 중심은 전략적 위치에 있는 것처럼 보이며, 모델에 의해 생성된 한계 사이클은 노이즈 없는 시스템 한계 사이클과 잘 부합한다.
적응적 모델 갱신과 모델의 주기적인 재훈련의 조합을 통해 최적의 모델 성능을 유지하는 프로세스를 설명하기 위해, t>1000인 경우 다음과 같이 상수 드리프트 항이 수학식 21에 대응하는 비선형 시계열 시스템에 추가된다.
각 세트에 500개 패턴을 포함하는 2개의 부가의 훈련 데이터 세트가 생성되었다. 최초의 모델을 사용하여 이들 패턴을 조회한 것의 에러는 0.00326이었다. 각각의 훈련 세트를 사용하여 순차적으로 적응적 학습이 적용되었다. 양쪽 경우 모두에 사용된 소멸 인자는 0.5이었다. 훈련 데이터 세트에 대응하는 수정된 모델의 결과 에러는 각각 0.00114 및 0.000713이었다. 새로운 모델도 또한 주기적인 재훈련을 시뮬레이션하기 위해 새로운 훈련 데이터 세트 둘다를 사용하여 구축되었다. 다시 말하면, 에러 목표가 5e-4인 경우, 단지 12개의 새로운 노드만이 사용되었다.
도 6은 출력이 입력으로 피드백되었을 때 서로 다른 단계에서 모델들에 의해 생성된 한계 사이클을 수학식 22에 대응하는 드리프트된 시스템에 대한 노이즈 없는 한계 사이클과 비교하여 나타낸 것이다. 회색 점 루프는 노이즈 없는 한계 사이클에 대응한다. 회색 실선 루프는 최초 모델에 의해 생성된 한계 사이클에 대응한다. 검정색 실선 루프는 첫번째 적응적 학습 이후에 생성된 한계 사이클에 대응한다. 별표 점 루프는 두번째 적응적 학습 이후에 생성된 한계 사이클에 대응한다. 플러스 점 루프는 새로운 데이터로 전체적인 재훈련 이후의 새로운 모델에 대응한다.
도 6으로부터, 모델 출력이 점차적으로 목표에 가깝게 되도록 모델 파라미터를 정정하기 위해 적응적 학습이 사용될 수 있음이 명백하다. 그렇지만, 새로운 패턴이 재훈련을 보증하기 위해 축적됨에 따라, 새로운 모델은 적응적으로 갱신된 모델보다 더 양호하게 작동하는데, 그 이유는 재훈련된 모델이 최초의 모델에서의 오래된 파라미터에 의해 영향을 받지 않기 때문이다. 게다가, 중심은 새로운 데이터 세트에 튜닝될 수 있다.
따라서, 역전파(backpropagation) 등의 OFLN 방법의 다른 기존의 방법에 대한 이점은 데이터 점이 어디에 위치하는지에 대한 지식을 이용함으로써 OFLN 방법이 후보 처리 노드를 자동적으로 또한 효과적으로 생성하는 데 사용될 수 있다는 것이다. OFLN 방법은 또한 사용자 간섭 없이 함수 근사화의 충실도를 유지 또는향상시키기 위해 처리 노드의 수를 동적으로 조정하는 데 사용될 수 있다. 함수 링크 네트워크 구조는 적응적 학습을 용이하게 하며, 이를 통해 FLN 모델은 성공적으로 노이즈가 많은 훈련 데이터로 학습하는 것, 이전의 관찰에 기초하여 현재의 관찰의 값을 에측하는 것, 및 기초적인 함수 관계 또는 시스템(예를 들어, 신호 생성 메카니즘)에서의 드리프트의 존재 시에 정확도를 유지하는 것의 태스크를 수행할 수 있다.
OFLN 방법의 적용
OFLN 방법을 통해 형성되고 유지되는 신경망 모델은 사람의 패턴 인식 및 예측 기술과 유사한 기능을 갖는 컴퓨터 애플리케이션 소프트웨어를 제공하기 위해 적용될 수 있다. 이 방법들이 컴퓨팅 시스템의 메모리에, 컴퓨터 판독가능 매체 상에 저장되어 있고 및/또는 컴퓨터 네트워크 및/또는 하나 이상의 세그먼트 내의 다른 전송 매체를 통해 전송되는, 컴퓨팅 장치 상에서 실행가능한 컴퓨터 프로그램 또는 소프트웨어에 포함될 수 있다.
이하는 애플리케이션 소프트웨어가 가지도록 구성될 수 있는 이러한 기술들의 몇가지 예에 불과하다.
애플리케이션 소프트웨어는 예를 들어 너무 많은 (예를 들어, 그 달에 필요한 것 이상의) 재고를 유지하지 않으면서 내달에 재고가 바닥나는 것을 피하기 위해 공급자에 주문할 상품량을 예측하는 것 등의 현재의 상태 및 과거의 경향에 기초하여 예측을 하도록 구성될 수 있다. 시간에 따라, 모델은 유행 흐름의 변화,경제적 조건 등을 고려하기 위해 적응적 갱신 방법을 적용함으로써 갱신될 수 있다.
애플리케이션 소프트웨어는 또한 이하와 같은 다른 지능적 행동을 에뮬레이트하도록 구성될 수 있다.
(a) 예측 모델링: 시스템 거동을 기술하는 데이터로부터 시스템의 원인과 결과 모델을 개발하는 것과 새로운 "원인" 데이터에 기초하여 시스템의 거동을 예측하는 것, 및
(b) 최적화: 시스템의 성능을 개선시키는 것 또는 문제를 해결하는 것. 시스템의 동작점이 드리프트된 경우(예를 들어, 마멸로 인해 야기됨) 또는 시스템 요건이 변동된 경우(예를 들어, 수요 증가로 인함), 시스템 모델은 적응적으로 갱신될 수 있다.
OFLN 방법은 예를 들어 데이터 내의 흥미있는 패턴을 찾아 내기 위한 프로파일링(정보 기술 분야에서는 "데이터 마이닝"으로서 알려져 있음) 및 이들을 설명하려고 시도하는 것에 적용될 수 있다. 모델은 일반적으로 새로운 데이터가 수집됨에 따라 점차적으로 갱신되는데, 그 이유는 적어도 새로운 데이터 중 일부는 기존의 모델에서 표현될 수 없기 때문이다.
OFLN 방법은 값 예측에 적용될 수 있다. 예를 들어, FLN 모델로의 입력은 고무, 폴리머, 유리, 금속, 석유 화학 제품, 음식 등을 생산하기 위한 성분과 처리 조건의 리스트를 포함하는 제조법 및 그 결과 얻어지는 제품의 특성일 수 있다. FLN 모델은 생산 공정을 모델링하기 위해 훈련될 수 있다. 예측 모델은 각각의 제조법의 제품 특성에 대응하는 데이터베이스 내의 과거의 제품 데이터로부터 훈련될 수 있다. 예를 들어, 빵 제조법의 특성을 예측하기 위해 훈련된 모델은 여러가지 성분의 양 및 굽기 조건을 입력으로서 수신하여 빵 제품의 측정가능 특성을 예측할 수 있다. 다른 대안에서, 그 모델은 원하는 특성의 입력에 기초하여 적절한 제조법을 지정하도록 훈련될 수 있다. 그 모델은 드리프트(예를 들어, 장비 마멸) 또는 새로운 데이터(예를 들어, 예측된 제조법이 테스트될 때)를 고려하기 위해 적응적으로 갱신될 수 있다. 독립적으로 발견된 부가의 제조법은 모델을 점차적으로 갱신하는 것을 필요로 할 수 있다.
OFLN 방법은 비지니스 지능(business intelligence)에 맞게 구성될 수 있다. 예를 들어, 지역 공익 설비는 전력 요금을 예측하는 방식을 개량하는 데 관심이 있을 수 있다. 전통적으로, 관리자들은 매일 어느 공장 설비가 생산 중에 가동되고 그 다음날의 수요 및 가격의 예측에 기초하여 현물 시장에서 얼마나 많은 전력을 구입하거나 판매할지를 결정한다. 이들 결정은 또한 다음날의 시간 단위로 행해질 수 있으며, 따라서 그 다음날의 매 시간마다의 예측이 요망된다. 모델은 이전의 24시간의 외부 온도 및 실제 수요에 기초하여 그 다음날의 매시간별 전력 수요를 예측하기 위해 훈련될 수 있다. 훈련된 모델은 사회적 동향(예를 들어, 한 주간의 각 요일에 대한 수요에 영향을 미치는 주 5일 근무에서 주 4일 근무로의 변화)을 고려하기 위해 적응적으로 갱신될 수 있다.
부가의 변형예는 이하의 미국 출원을 읽어보면 당업자에게는 자명한 것일 수 있으며, 이들은 여기에 인용함으로써 그 전체 내용이 본 명세서에 포함된다.
(a) 2002년 4월 19일자로 출원된 발명의 명칭이 "PROCESSING MIXED NUMERIC AND/OR NON-NUMERIC DATA(숫자 및/또는 비숫자 혼합 데이터의 처리)"인 제60/374,064호,
(b) 2002년 4월 19일자로 출원된 발명의 명칭이 "AUTOMATIC NEURAL-NET MODEL GENERATION AND MAINTENANCE(자동 신경망 모델 생성 및 유지)"인 제60/374,020호,
(c) 2002년 4월 19일자로 출원된 발명의 명칭이 "VIEWING MULTI-DIMENSIONAL DATA THROUGH HIERARCHICAL VISUALIZATION(계층적 시각화를 통한 다차원 데이터 보기)"인 제60/374,024호,
(d) 2002년 4월 19일자로 출원된 발명의 명칭이 "METHOD AND APPARATUS FOR DISCOVERING EVOLUTIONARY CHANGES WITHIN A SYSTEM(시스템에서의 점진적 변화의 발견 방법 및 시스템)"인 제60/374,041호,
(e) 2002년 4월 19일자로 출원된 발명의 명칭이 "AUTOMATIC MODEL MAINTENANCE THROUGH LOCAL NETS(로컬 네트워크를 통한 자동 모델 유지)"인 제60/373,977호, 및
(f) 2002년 4월 19일자로 출원된 발명의 명칭이 "USING NEURAL NETWORKS FOR DATA MINING(데이터 마이닝을 위한 신경망의 사용)"인 제60/373,780호.
(g) 2003년 2월 26일자로 출원된 발명의 명칭이 "AUTOMATIC NEURAL-NET MODEL GENERATION AND MAINTENANCE(자동 신경망 모델 생성 및 유지)"인 제10/374,406호.

Claims (29)

  1. 신경망 모델을 점차적으로 형성하고 적응적으로 갱신하는 방법으로서,
    (a) 상기 신경망 모델에 함수 근사화 노드를 점차적으로 추가하는 단계, 및
    (b) 상기 신경망 모델에 상기 함수 근사화 노드를 추가하기 전에, 상기 신경망 모델 내의 다른 노드의 함수 파라미터를 사용함으로써, 상기 함수 근사화 노드에 대한 함수 파라미터를 결정하고 상기 다른 노드의 함수 파라미터를 갱신하는 단계를 포함하는 방법.
  2. 제1항에 있어서, 상기 함수 근사화 노드가 추가되어 있는 상기 신경망 모델의 모델 정확도가 미리 정해진 정확도 레벨 이하인 경우, 상기 단계 (a) 및 (b)가 반복되는 것인 방법.
  3. 제1항에 있어서, 일련의 샘플 데이터 패턴이 함수 근사화 노드 후보의 리스트를 형성하기 위해 사용되고,
    상기 함수 근사화 노드는 상기 함수 근사화 노드 후보의 리스트로부터 선택되는 것인 방법.
  4. 제3항에 있어서, 상기 함수 근사화 노드 후보의 리스트는,
    상기 일련의 샘플 데이터 패턴을 클러스터 계층 구조의 제1 레벨에 있는 복수의 클러스터로 분할하는 단계,
    상기 제1 레벨에 있는 선택된 클러스터가 미리 정해진 크기를 초과하는 모집단을 갖는 것으로 결정하는 단계, 및
    상기 선택된 클러스터를 2개 이상의 클러스터로 분할하고 상기 선택된 클러스터를 상기 클러스터 계층 구조의 그 다음 레벨에 있는 2개 이상의 클러스터로 대체하는 단계에 의해 형성되는 것인 방법.
  5. 제4항에 있어서, 정렬된 함수 근사화 노드 후보의 리스트를 형성하기 위해, 클러스터 크기에 기초하여 상기 클러스터 계층 구조의 각 레벨 상의 클러스터들을 정렬하는 단계를 더 포함하는 방법.
  6. 제3항에 있어서, 상기 신경망 모델은 상기 일련의 샘플 데이터 패턴에 표현되어 있지 않은 데이터 범위에 대응하는 새로운 데이터를 표현하기 위해 하나 이상의 부가의 노드를 상기 신경망 모델에 점차적으로 추가함으로써 적응적으로 갱신되는 것인 방법.
  7. 제1항에 있어서, 상기 신경망 모델이 온라인으로 사용되고 있는 동안 상기 신경망 모델의 모델 정확도를 모니터링하는 단계, 및
    상기 신경망 모델의 모델 정확도가 미리 정해진 임계값 이하인 경우, 상기 신경망 모델을 적응적으로 갱신하는 단계를 더 포함하는 방법.
  8. 제7항에 있어서, 상기 적응적 갱신은 새로운 데이터를 표현하기 위해 하나 이상의 부가의 노드를 상기 신경망 모델에 점차적으로 추가하는 단계를 포함하는 것인 방법.
  9. 제8항에 있어서, 상기 새로운 데이터는 시스템 동태(system dynamics)의 변화에 대응하는 것인 방법.
  10. 제7항에 있어서, 상기 적응적 갱신은 상기 신경망 모델 내의 노드의 함수 파라미터를 갱신하는 단계를 포함하는 것인 방법.
  11. 제7항에 있어서, 상기 적응적 갱신이 한계에 도달한 경우, 상기 신경망 모델의 전체적인 재훈련이 수행되는 것인 방법.
  12. 제1항에 있어서, 새로운 데이터 패턴에 기초하여, 하나 이상의 부가의 노드를 상기 신경망 모델에 추가함으로써 상기 신경망 모델을 적응적으로 갱신하는 단계를 더 포함하는 방법.
  13. 제12항에 있어서, 상기 부가의 노드는 상기 새로운 데이터 패턴에 클러스터링 방법을 적용함으로서 형성되는 것인 방법.
  14. 제13항에 있어서, 상기 클러스터링 방법은,
    상기 새로운 데이터 패턴을, 상기 신경망 모델 내의 노드의 수와 거의 같은 수의 클러스터로 클러스터링하는 단계,
    선택된 클러스터가 상기 신경망 모델 내의 개별적인 노드와 관련된 위치로부터 멀리 떨어져 있는 것으로 결정하는 단계, 및
    상기 선택된 클러스터와 관련된 부가의 노드 및 상기 선택된 클러스터의 중심을 상기 신경망 모델에 추가하는 단계를 포함하는 것인 방법.
  15. 제12항에 있어서, 상기 신경망 모델이 형성될 때 상기 신경망 모델 내의 노드들에 대해 일련의 초기 가중치가 결정되고,
    적응적 갱신 동안 상기 부가의 노드들이 추가될 때, 상기 신경망 모델 내의 노드들에 대한 일련의 새로운 가중치가 계산되며, 상기 초기 가중치는 소멸 인자(forgetting factor)에 기초하여 상기 노드들에 대한 새로운 가중치와 합성되는 것인 방법.
  16. 제15항에 있어서, 상기 소멸 인자는 모델 열화(model degradation)의 원인에 기초하여 결정되는 것인 방법.
  17. 제1항에 있어서, 상기 신경망 모델에 대한 일련의 가중치를 결정하기 위해직교 최소 제곱(orthogonal least squares) 방법을 적용하는 단계를 더 포함하는 방법.
  18. 제17항에 있어서, 상기 일련의 가중치는 새로운 데이터 패턴을 사용함으로써 적응적으로 갱신되는 것인 방법.
  19. 제17항에 있어서, 상기 일련의 가중치는 시스템 드리프트를 보상하기 위해 갱신되는 것인 방법.
  20. 제1항에 있어서, 상기 신경망 모델 내의 노드들에 대한 함수 파라미터는 계층적 k-평균 클러스터링(hierarchical k-means clustering) 방법을 일련의 샘플 데이터 패턴에 적용함으로써 결정되는 것인 방법.
  21. 제1항에 있어서, 상기 함수 근사화 노드는 방사형 기초 노드(radial basis node)이며,
    상기 방사형 기초 노드의 중심 및 반경은 계층적 k-평균 클러스터링 방법을 통해 결정되는 것인 방법.
  22. 제1항에 있어서, 상기 함수 근사화 노드는 가우시안 노드(Gaussian node)인 것인 방법.
  23. 제1항에 있어서, 상기 함수 근사화 노드는 S자형 기초 노드(sigmoidal basis node)인 것인 방법.
  24. 제1항에 있어서, 상기 함수 근사화 노드는 웨이블릿 기초 노드(wavelet bisis node)인 것인 방법.
  25. 제1항에 있어서, 상기 함수 근사화 노드는 비선형인 것인 방법.
  26. 신경망 모델을 점차적으로 형성하는 방법으로서,
    함수 근사화 노드 후보의 리스트를 형성하기 위해 계층적 클러스터링 방법을 일련의 샘플 데이터 패턴에 적용하는 단계, 및
    미리 정해진 정확도 레벨 또는 그 이상의 정확도를 갖는 모델이 형성될 때까지, 하나 이상의 함수 근사화 노드를 상기 신경망 모델에 점차적으로 추가하는 단계를 포함하며,
    상기 함수 근사화 노드는 상기 함수 근사화 노드 후보의 리스트로부터 선택되는 것인 방법.
  27. 컴퓨터 시스템으로서,
    프로세서, 및
    제26항의 방법을 수행하며 상기 프로세서에 의해 실행가능한 명령어의 프로그램을 유형적으로 포함하는, 상기 컴퓨터 시스템에 의해 판독가능한 프로그램 저장 장치를 포함하는 컴퓨터 시스템.
  28. 기계에 의해 판독가능한 프로그램 저장 장치로서,
    제26항의 방법을 수행하며 상기 기계에 의해 실행가능한 명령어의 프로그램을 유형적으로 포함하는 프로그램 저장 장치.
  29. 제26항의 방법을 수행하며 컴퓨터에 의해 실행가능한 명령어를 포함하는 전송 매체에 포함된 컴퓨터 데이터 신호.
KR10-2004-7016704A 2002-04-19 2003-04-15 자동 신경망 모델 생성 및 유지 KR20050007309A (ko)

Applications Claiming Priority (15)

Application Number Priority Date Filing Date Title
US37406402P 2002-04-19 2002-04-19
US37378002P 2002-04-19 2002-04-19
US37397702P 2002-04-19 2002-04-19
US37402402P 2002-04-19 2002-04-19
US37402002P 2002-04-19 2002-04-19
US37404102P 2002-04-19 2002-04-19
US60/373,780 2002-04-19
US60/374,024 2002-04-19
US60/374,020 2002-04-19
US60/373,977 2002-04-19
US60/374,064 2002-04-19
US60/374,041 2002-04-19
US10/374,406 US7483868B2 (en) 2002-04-19 2003-02-26 Automatic neural-net model generation and maintenance
US10/374,406 2003-02-26
PCT/US2003/011713 WO2003090163A2 (en) 2002-04-19 2003-04-15 Automatic neural-net model generation and maintenance

Publications (1)

Publication Number Publication Date
KR20050007309A true KR20050007309A (ko) 2005-01-17

Family

ID=29220109

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2004-7016704A KR20050007309A (ko) 2002-04-19 2003-04-15 자동 신경망 모델 생성 및 유지

Country Status (10)

Country Link
US (1) US7483868B2 (ko)
EP (1) EP1504413B1 (ko)
JP (1) JP2005523534A (ko)
KR (1) KR20050007309A (ko)
CN (1) CN1647107A (ko)
AU (1) AU2003223638A1 (ko)
BR (1) BR0309382A (ko)
CA (1) CA2481433A1 (ko)
IL (1) IL164614A0 (ko)
WO (1) WO2003090163A2 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012015450A1 (en) * 2010-07-30 2012-02-02 Hewlett-Packard Development Company, L.P. Systems and methods for modeling binary synapses
KR20190090251A (ko) * 2018-01-24 2019-08-01 경남대학교 산학협력단 해양운항체의 자율운항시스템 및 그 방법
KR102187327B1 (ko) * 2020-05-21 2020-12-04 에스텍아이앤씨(주) 자동기계학습 기반의 건물 부하 최적 관리 및 제어 시스템
KR20220104595A (ko) * 2021-01-18 2022-07-26 성균관대학교산학협력단 중단 없는 기계학습 클러스터 재구성 방법

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005523533A (ja) * 2002-04-19 2005-08-04 コンピュータ アソシエイツ シンク,インコーポレイテッド 混合型数字及び/又は非数字データの処理
US7777743B2 (en) * 2002-04-19 2010-08-17 Computer Associates Think, Inc. Viewing multi-dimensional data through hierarchical visualization
US7620807B1 (en) * 2004-02-11 2009-11-17 At&T Corp. Method and apparatus for automatically constructing application signatures
US8762540B2 (en) * 2004-09-01 2014-06-24 Hewlett-Packard Development Company, L.P. Managing multiple remote computing sessions displayed on a client device
US20060059145A1 (en) * 2004-09-02 2006-03-16 Claudia Henschke System and method for analyzing medical data to determine diagnosis and treatment
US20090083075A1 (en) * 2004-09-02 2009-03-26 Cornell University System and method for analyzing medical data to determine diagnosis and treatment
DE102005031117A1 (de) * 2005-07-04 2007-01-11 Siemens Ag Verfahren und Einrichtung zur Bestimmung eines Betriebsparameters einer Stoßwellenquelle
US8700607B2 (en) * 2005-08-02 2014-04-15 Versata Development Group, Inc. Applying data regression and pattern mining to predict future demand
TWI315054B (en) * 2006-05-10 2009-09-21 Nat Cheng Kung Universit Method for evaluating reliance level of a virtual metrology system in product manufacturing
US8392418B2 (en) 2009-06-25 2013-03-05 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and model
US20090276385A1 (en) * 2008-04-30 2009-11-05 Stanley Hill Artificial-Neural-Networks Training Artificial-Neural-Networks
WO2010053743A1 (en) * 2008-10-29 2010-05-14 The Regents Of The University Of Colorado Long term active learning from large continually changing data sets
US11395594B2 (en) 2008-10-29 2022-07-26 Flashback Technologies, Inc. Noninvasive monitoring for fluid resuscitation
US11406269B2 (en) 2008-10-29 2022-08-09 Flashback Technologies, Inc. Rapid detection of bleeding following injury
US11478190B2 (en) 2008-10-29 2022-10-25 Flashback Technologies, Inc. Noninvasive hydration monitoring
US8512260B2 (en) 2008-10-29 2013-08-20 The Regents Of The University Of Colorado, A Body Corporate Statistical, noninvasive measurement of intracranial pressure
US20110172545A1 (en) * 2008-10-29 2011-07-14 Gregory Zlatko Grudic Active Physical Perturbations to Enhance Intelligent Medical Monitoring
US11857293B2 (en) 2008-10-29 2024-01-02 Flashback Technologies, Inc. Rapid detection of bleeding before, during, and after fluid resuscitation
US11382571B2 (en) 2008-10-29 2022-07-12 Flashback Technologies, Inc. Noninvasive predictive and/or estimative blood pressure monitoring
US11395634B2 (en) 2008-10-29 2022-07-26 Flashback Technologies, Inc. Estimating physiological states based on changes in CRI
US8396870B2 (en) 2009-06-25 2013-03-12 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
US8429153B2 (en) * 2010-06-25 2013-04-23 The United States Of America As Represented By The Secretary Of The Army Method and apparatus for classifying known specimens and media using spectral properties and identifying unknown specimens and media
WO2013016212A1 (en) 2011-07-22 2013-01-31 Flashback Technologies, Inc. Hemodynamic reserve monitor and hemodialysis control
US9477926B2 (en) * 2012-11-20 2016-10-25 Qualcomm Incorporated Piecewise linear neuron modeling
CN103428282B (zh) * 2013-08-06 2016-05-18 浪潮(北京)电子信息产业有限公司 一种云计算数据中心的在线节能控制方法及装置
US10552734B2 (en) 2014-02-21 2020-02-04 Qualcomm Incorporated Dynamic spatial target selection
US20180075360A1 (en) * 2015-03-23 2018-03-15 Nec Corporation Accuracy-estimating-model generating system and accuracy estimating system
US10542961B2 (en) 2015-06-15 2020-01-28 The Research Foundation For The State University Of New York System and method for infrasonic cardiac monitoring
US10163061B2 (en) * 2015-06-18 2018-12-25 International Business Machines Corporation Quality-directed adaptive analytic retraining
US11144842B2 (en) * 2016-01-20 2021-10-12 Robert Bosch Gmbh Model adaptation and online learning for unstable environments
EP3416105A4 (en) * 2016-02-12 2019-02-20 Sony Corporation INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING DEVICE
CN106352244A (zh) * 2016-08-31 2017-01-25 中国石油化工股份有限公司 一种基于分层神经网络的管道泄漏检测方法
US10789548B1 (en) * 2016-09-12 2020-09-29 Amazon Technologies, Inc. Automatic re-training of offline machine learning models
US11042802B2 (en) * 2016-10-07 2021-06-22 Global Optimal Technology, Inc. System and method for hierarchically building predictive analytic models on a dataset
CN107063509A (zh) * 2017-04-26 2017-08-18 深圳市相位科技有限公司 一种基于神经网络的热敏温度计校准方法
AU2019280053B2 (en) * 2017-05-12 2020-05-07 Autonomous Healthcare, Inc. Hierarchical adaptive closed-loop fluid resuscitation and cardiovascular drug administration system
EP3851141A1 (en) 2017-05-12 2021-07-21 Autonomous Healthcare, Inc. Hierarchical adaptive closed-loop fluid resuscitation and cardiovascular drug administration system
US11748607B2 (en) 2017-07-31 2023-09-05 Syntiant Systems and methods for partial digital retraining
CN109492747A (zh) * 2017-09-13 2019-03-19 杭州海康威视数字技术股份有限公司 一种神经网络的网络结构生成方法及装置
DE102017219282A1 (de) * 2017-10-26 2019-05-02 Albert-Ludwigs-Universität Freiburg Verfahren und Vorrichtung zum automatischen Erzeugen eines künstlichen neuronalen Netzes
CN111602149B (zh) * 2018-01-30 2024-04-02 D5Ai有限责任公司 自组织偏序网络
CN110352297B (zh) 2018-02-05 2020-09-15 丰田自动车株式会社 机器学习装置
US10634081B2 (en) * 2018-02-05 2020-04-28 Toyota Jidosha Kabushiki Kaisha Control device of internal combustion engine
EP3871155A4 (en) * 2018-10-23 2022-09-28 HRL Laboratories, LLC ARTIFICIAL NEURAL NETWORK AND METHOD OF TRAINING AN ARTIFICIAL NEURAL NETWORK WITH EPIGENETIC NEUROGENESIS
US11918386B2 (en) 2018-12-26 2024-03-05 Flashback Technologies, Inc. Device-based maneuver and activity state-based physiologic status monitoring
CN110782031A (zh) * 2019-09-27 2020-02-11 北京计算机技术及应用研究所 多框架卷积神经网络模型结构可视化以及网络重建方法
US11810013B2 (en) 2019-11-14 2023-11-07 International Business Machines Corporation Systems and methods for alerting to model degradation based on survival analysis
US11768917B2 (en) 2019-11-14 2023-09-26 International Business Machines Corporation Systems and methods for alerting to model degradation based on distribution analysis
US11455561B2 (en) 2019-11-14 2022-09-27 International Business Machines Corporation Alerting to model degradation based on distribution analysis using risk tolerance ratings
US11256597B2 (en) 2019-11-14 2022-02-22 International Business Machines Corporation Ensemble approach to alerting to model degradation
US11741344B2 (en) * 2019-12-09 2023-08-29 Bank Of America Corporation Custom convolutional neural network architectures for exposure detection
US20220319494A1 (en) * 2021-03-31 2022-10-06 International Business Machines Corporation End to end spoken language understanding model
EP4334850A1 (en) 2021-05-07 2024-03-13 HRL Laboratories, LLC Neuromorphic memory circuit and method of neurogenesis for an artificial neural network

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4193115A (en) * 1977-12-15 1980-03-11 The United States Of America As Represented By The Secretary Of Commerce Method and apparatus for implementation of the CMAC mapping algorithm
US4215396A (en) * 1978-08-24 1980-07-29 Texas Instruments Incorporated Intelligent programmable process control system
US4438497A (en) * 1981-07-20 1984-03-20 Ford Motor Company Adaptive strategy to control internal combustion engine
US4649515A (en) * 1984-04-30 1987-03-10 Westinghouse Electric Corp. Methods and apparatus for system fault diagnosis and control
JPH0789283B2 (ja) * 1984-11-02 1995-09-27 株式会社日立製作所 数式処理制御システム
US4670848A (en) * 1985-04-10 1987-06-02 Standard Systems Corporation Artificial intelligence system
US4663703A (en) * 1985-10-02 1987-05-05 Westinghouse Electric Corp. Predictive model reference adaptive controller
US4754410A (en) * 1986-02-06 1988-06-28 Westinghouse Electric Corp. Automated rule based process control method with feedback and apparatus therefor
US4858147A (en) * 1987-06-15 1989-08-15 Unisys Corporation Special purpose neurocomputer system for solving optimization problems
FR2625347B1 (fr) * 1987-12-23 1990-05-04 Labo Electronique Physique Structure de reseau de neurones et circuit et arrangement de reseaux de neurones
US4979126A (en) * 1988-03-30 1990-12-18 Ai Ware Incorporated Neural network with non-linear transformations
US4928484A (en) * 1988-12-20 1990-05-29 Allied-Signal Inc. Nonlinear multivariable control system
US4972363A (en) 1989-02-01 1990-11-20 The Boeing Company Neural network using stochastic processing
JPH0660826B2 (ja) * 1989-02-07 1994-08-10 動力炉・核燃料開発事業団 プラントの異常診断方法
US5119468A (en) 1989-02-28 1992-06-02 E. I. Du Pont De Nemours And Company Apparatus and method for controlling a process using a trained parallel distributed processing network
JPH0738186B2 (ja) * 1989-03-13 1995-04-26 シャープ株式会社 自己拡張形ニユーラル・ネットワーク
JP2821189B2 (ja) * 1989-09-01 1998-11-05 株式会社日立製作所 学習型意思決定支援システム
US5140523A (en) * 1989-09-05 1992-08-18 Ktaadn, Inc. Neural network for predicting lightning
JPH0711256B2 (ja) * 1989-09-06 1995-02-08 本田技研工業株式会社 内燃エンジンの制御装置
IT1232989B (it) * 1989-09-14 1992-03-13 Rizzi & Co Spa Luigi Macchina per la rasatura delle pelli a passaggio unico
CA2031765C (en) * 1989-12-08 1996-02-20 Masahide Nomura Method and system for performing control conforming with characteristics of controlled system
US4972663A (en) * 1989-12-11 1990-11-27 J. I. Case Company Cotton picker spindle lubrication system
US5111531A (en) * 1990-01-08 1992-05-05 Automation Technology, Inc. Process control using neural network
US5052043A (en) * 1990-05-07 1991-09-24 Eastman Kodak Company Neural network with back propagation controlled through an output confidence measure
US5113483A (en) * 1990-06-15 1992-05-12 Microelectronics And Computer Technology Corporation Neural network with semi-localized non-linear mapping of the input space
US5142612A (en) * 1990-08-03 1992-08-25 E. I. Du Pont De Nemours & Co. (Inc.) Computer neural network supervisory process control system and method
US5175678A (en) * 1990-08-15 1992-12-29 Elsag International B.V. Method and procedure for neural control of dynamic processes
US5335291A (en) * 1991-09-20 1994-08-02 Massachusetts Institute Of Technology Method and apparatus for pattern mapping system with self-reliability check
US5349541A (en) * 1992-01-23 1994-09-20 Electric Power Research Institute, Inc. Method and apparatus utilizing neural networks to predict a specified signal value within a multi-element system
KR970008532B1 (ko) * 1993-08-10 1997-05-24 재단법인 한국전자통신연구소 비선형 함수의 근사를 위한 비선형 추정망의 학습방법
US5485390A (en) * 1993-11-30 1996-01-16 The United States Of America As Represented By The Secrectary Of The Air Force Inductive-deductive process design for machined parts
US5835901A (en) * 1994-01-25 1998-11-10 Martin Marietta Corporation Perceptive system including a neural network
US5848402A (en) * 1994-07-07 1998-12-08 Ai Ware, Inc. Universal system for artificial intelligence based learning, categorization, and optimization
US5734796A (en) * 1995-09-29 1998-03-31 Ai Ware, Inc. Self-organization of pattern data with dimension reduction through learning of non-linear variance-constrained mapping
US6134537A (en) * 1995-09-29 2000-10-17 Ai Ware, Inc. Visualization and self organization of multidimensional data through equalized orthogonal mapping
US5822741A (en) * 1996-02-05 1998-10-13 Lockheed Martin Corporation Neural network/conceptual clustering fraud detection architecture
US6128609A (en) * 1997-10-14 2000-10-03 Ralph E. Rose Training a neural network using differential input
US6327550B1 (en) * 1998-05-26 2001-12-04 Computer Associates Think, Inc. Method and apparatus for system state monitoring using pattern recognition and neural networks
US6269351B1 (en) * 1999-03-31 2001-07-31 Dryken Technologies, Inc. Method and system for training an artificial neural network

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012015450A1 (en) * 2010-07-30 2012-02-02 Hewlett-Packard Development Company, L.P. Systems and methods for modeling binary synapses
US9342780B2 (en) 2010-07-30 2016-05-17 Hewlett Packard Enterprise Development Lp Systems and methods for modeling binary synapses
KR20190090251A (ko) * 2018-01-24 2019-08-01 경남대학교 산학협력단 해양운항체의 자율운항시스템 및 그 방법
KR102187327B1 (ko) * 2020-05-21 2020-12-04 에스텍아이앤씨(주) 자동기계학습 기반의 건물 부하 최적 관리 및 제어 시스템
KR20220104595A (ko) * 2021-01-18 2022-07-26 성균관대학교산학협력단 중단 없는 기계학습 클러스터 재구성 방법

Also Published As

Publication number Publication date
CA2481433A1 (en) 2003-10-30
US7483868B2 (en) 2009-01-27
US20030200189A1 (en) 2003-10-23
BR0309382A (pt) 2007-02-21
WO2003090163A3 (en) 2004-12-16
EP1504413B1 (en) 2019-06-12
CN1647107A (zh) 2005-07-27
IL164614A0 (en) 2005-12-18
JP2005523534A (ja) 2005-08-04
EP1504413A2 (en) 2005-02-09
AU2003223638A1 (en) 2003-11-03
WO2003090163A2 (en) 2003-10-30

Similar Documents

Publication Publication Date Title
KR20050007309A (ko) 자동 신경망 모델 생성 및 유지
Kuo A sales forecasting system based on fuzzy neural network with initial weights generated by genetic algorithm
Luna et al. Top-down strategies based on adaptive fuzzy rule-based systems for daily time series forecasting
WO2020198520A1 (en) Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions
US11087344B2 (en) Method and system for predicting and indexing real estate demand and pricing
Frantti et al. Fuzzy logic-based forecasting model
Rivero et al. Energy associated tuning method for short-term series forecasting by complete and incomplete datasets
CN117875724B (zh) 一种基于云计算的采购风险管控方法及系统
US11468352B2 (en) Method and system for predictive modeling of geographic income distribution
Liu et al. A new ART-counterpropagation neural network for solving a forecasting problem
Momeni et al. A neuro-fuzzy based approach to software quality requirements prioritization
Astiningrum et al. Forecasting Model of Staple Food Prices Using Support Vector Regression with Optimized Parameters
Sabzian et al. A Neural Network Model for Determining the Success or Failure of High-tech Projects Development: A Case of Pharmaceutical industry
Khumaidi et al. Forecasting of Sales Based on Long Short Term Memory Algorithm with Hyperparameter
Hoffmann et al. Forecasting irregular demand using single hidden layer neural networks
Saen The use of artificial neural networks for technology selection in the presence of both continuous and categorical data
Baisch et al. A neural fuzzy system to evaluate software development productivity
Motzev Statistical learning networks in simulations for business training and education
Motzev et al. Accuracy in Business Simulations
Bekar et al. Using Adaptive Neuro-Fuzzy Inference System, Artificial Neural Network and Response Surface Method to Optimize Overall Equipment Effectiveness for An Automotive Supplier Company.
Chasparis et al. Supervisory output prediction for bilinear systems by reinforcement learning
Nayak et al. 12 Cognitive Intelligence-Based Framework for Financial Forecasting
Toluevs ILYA JACKSON
Tudoroiu et al. Neural Networks architectures for modeling and simulation of the economy system dynamics
Vincent et al. Adaptation of stochasticity into activation function of deep learning for stock price forecasting

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid