KR102055656B1

KR102055656B1 - 텍스트의 의미 처리를 위한 방법, 장치 및 제품

Info

Publication number: KR102055656B1
Application number: KR1020147023545A
Authority: KR
Inventors: 소우자 웨버 프란시스코 에두아르도 드
Original assignee: 코티칼.아이오 아게
Priority date: 2012-03-15
Filing date: 2013-02-22
Publication date: 2020-01-22
Also published as: US8886579B2; CA2864946A1; US20130246322A1; EP2639749B1; JP6265921B2; HUE030528T2; DK2639749T3; CN104169948A; EP2639749A1; PL2639749T3; ES2611177T3; CN104169948B; AU2013231564B2; PT2639749T; JP2015515674A; KR20140138648A; CA2864946C; AU2013231564A1; WO2013135474A1; HK1199319A1

Abstract

본 발명은 텍스트를 신경망-판독가능 형태로 번역하기 위한 컴퓨터-판독가능 사전을 생성하는 컴퓨터-구현 방법으로서, 각각의 텍스트 문서(3)를 의미 클러스터링에 의하여 자기 조직 맵(5) 내의 포인트(X_i/Y_j)로 매핑하기 위한 의미 콘텍스트 내의 하나 이상의 키워드(7)를 각각 포함하는 제 1 텍스트 문서(3)의 제 1 세트(2)로써 자기 조직 맵 타입의 제 1 신경망(4)을 훈련시키는 단계; 상기 제 1 세트(2) 내에서 발생하는 각각의 키워드(7)에 대하여, 상기 키워드(7)를 포함하는 텍스트 문서(3)가 매핑되는 자기 조직 맵(5) 내의 모든 포인트(X_i/Y_j)를 상기 키워드(7)와 연관된 포인트(X_i/Y_j)의 패턴(6)으로서 결정하는 단계; 및 모든 키워드(7) 및 연관된 패턴(6)을 컴퓨터-판독가능 패턴 사전(9)으로서 저장하는 단계를 포함하는, 방법에 관련된다. 본 발명은 더 나아가 훈련 신경망의 컴퓨터-구현 방법, 및 신경망에 기초한 분류, 예측 및 번역 머신에 관련된다.

Description

텍스트의 의미 처리를 위한 방법, 장치 및 제품{METHODS, APPARATUS AND PRODUCTS FOR SEMANTIC PROCESSING OF TEXT}

발명의 분야

본 발명은 신경망을, 특히 텍스트의 의미 처리, 분류 및 예측을 위하여 훈련시키는 방법에 관련된다. 본 발명은 더 나아가 컴퓨터-판독가능 미디어 및 신경망에 기초하는 분류, 예측 및 번역 머신에 관련된다.

발명의 배경

본 개시물의 콘텍스트에서, 용어 "신경망"은 컴퓨터-구현된 인위적 신경망을 지칭한다. 신경망의 이론, 타입 및 구현 세부사항의 개관은 예를 들어 Bishop C. M., "Neural Networks for Pattern Recognition", Oxford University Press, New York, 1995/2010; or Rey, G. D., Wender K. F., "Neurale Netze", 2^nd edition, Hans Huber, Hofgrefe AG, Bern, 2011에 제공된다.

본 발명은 특히 신경망에 의한 텍스트의 의미(semantic) 처리, 즉 텍스트의 의미를 이것의 단어 및 이들이 실세계 및 그들의 콘텍스트에서 무엇을 나타내는지 사이의 관련성에 집중함으로써 분석하는 것을 다룬다. 후속하는 설명에서, 텍스트의 "단어"(토큰)는 언어의 일반적 용어에서의 단어 및 텍스트를 형성하기 위하여 결합될 수 있는 언어의 임의의 단위, 예컨대 심볼 및 부호 모두를 포함한다. 이러한 단어로부터, 우리는 의미 관련성을 거의 가지지 않는 "the", "he", "at" 등과 같은 과도하게 무소부재한(all-too-ubiquitous) 단어를 배제하여 우리가 텍스트의 "키워드"라고 부르는 것들을 남긴다.

의미 텍스트 처리의 적용 분야는 광범위하며 예를 들어 관련성 정렬, 저장, 데이터 마이닝(mining) 및 정보 취출 목적을 위한 특정 키워드 하에서의 텍스트의 분류를 포괄한다. 텍스트 내에서의 키워드의 의미를 이해하고 예를 들어 그 텍스트 내에서 발생할 "의미있는" 다른 키워드를 예측하는 것은 검색 엔진에서의 의미론적 질의 확장(semantic query expansion)을 위하여 유용하다. 마지막이지만 중요한 것은, 텍스트 처리가 이것의 단어를 더 큰 의미 콘텍스트에서 고려할 때 소스 텍스트의 모호성을 해결함으로써 머신 번역의 품질을 향상시킨다는 것이다.

특히 검색 엔진에서의 질의 확장을 위한 의미 텍스트 처리의 현재까지 존재하는 방법들은 키워드에 대한 방대한 통계적 인덱스, 그들의 기본형(lemma)(어근(lexical root)) 및 키워드들 사이의 통계적 관련성을 가지고 작업하여 관련성의 분석을 위한 대용량의 유의어(thesaurus) 파일, 통계적 및 사전을 건립한다. 그러나, 통계적 방법들은 더 길고 복잡한 단어 시퀀스가 고려될 경우 의미 분석의 깊이에 있어서 제한된다.

반면에, 신경망은 주로 복잡하고 다양한 데이터 내의 패턴을 인식, 예컨대 이미지 내의 오브젝트 인식 또는 발화, 음악 또는 측정 데이터 내의 신호 인식을 위하여 사용된다. 신경망은 분석될 "실시간" 샘플이 공급될 때 그들의 인식 태스크를 수행할 수 있기 위해서, 방대한 양의 훈련 데이터로써 정확하게 "훈련"되어야 한다. 신경망을 훈련시킨다는 것은 이것의 망 노드("뉴런") 사이의 내부 연결 및 가중치를 구성하는 것과 등가이다. 훈련의 결과는 신경망 내의 보통으로 가중된 연결들의 특정한 구성이다.

신경망을 훈련시키는 것은 그 자체로 복잡한 태스크이고 예를 들어 반복적 또는 적응적 알고리즘으로써 복수의 파라미터들을 설정하는 것을 수반한다. 그러므로, 신경망에 대한 훈련 알고리즘은 특정한 적용예에 대하여 신경망을 건립하기 위한 기술적 수단으로서 간주될 수 있다.

신경망이 현재 방대한 양의 숫자 데이터에서 패턴 인식을 위한 넓게 사용되고 있지만, 텍스트 처리에 대한 그들의 적용예는 현재 텍스트가 머신-판독가능 형태인 신경망에 제공되는 형태에 의하여 한정된다.

발명의 개요

본 발명의 목적은 의미 텍스트 처리를 위한 신경망의 분석 능력을 더욱 잘 활용하기 위하여 한 편으로는 텍스트 및 다른 편으로는 신경망 사이의 인터페이스를 개선하는 것이다.

본 발명의 제 1 양태에서, 신경망을 훈련시키는 컴퓨터-구현 방법으로서,

의미 콘텍스트(semantic context) 내의 하나 이상의 키워드를 각각 포함하는 제 1 텍스트 문서의 제 1 세트로써 자기 조직 맵(self organizing map) 타입의 제 1 신경망을 훈련시켜서 각각의 문서를 의미 클러스터링에 의하여 상기 자기 조직 맵 내의 포인트로 매핑하는 단계;

상기 제 1 세트 내에서 발생하는 각각의 키워드에 대하여, 상기 키워드를 포함하는 제 1 문서가 매핑되는 자기 조직 맵 내의 모든 포인트를 패턴으로서 결정하고 상기 키워드에 대한 상기 패턴을 패턴 사전 내에 저장하는 단계; 및

키워드의 적어도 하나의 시퀀스를 의미 콘텍스트 내의 하나 이상의 키워드를 각각 포함하는 제 2 텍스트 문서의 제 2 세트로부터 형성하는 단계;

키워드의 상기 적어도 하나의 시퀀스를 상기 패턴 사전을 사용하여 패턴의 적어도 하나의 시퀀스로 번역하는 단계; 및

제 2 신경망을 패턴의 상기 적어도 하나의 시퀀스로써 훈련시키는 단계를 포함하는, 방법이 제공된다.

혁신적 방법으로써 훈련된 제 2 신경망은 후속하는 적용예를 포함하는 다양한 적용예에 대하여 구성되고 사용되도록 준비된다:

i) 적어도 하나의 키워드를 포함하는 텍스트를 처리하는 단계로서:

상기 적어도 하나의 키워드를 상기 패턴 사전을 사용하여 적어도 하나의 패턴으로 번역하는 단계,

상기 적어도 하나의 패턴을 입력 패턴으로서 상기 훈련된 제 2 신경망으로 공급하는 단계,

적어도 하나의 출력 패턴을 상기 훈련된 제 2 신경망으로부터 획득하는 단계, 및

상기 적어도 출력 패턴을 상기 패턴 사전을 사용하여 적어도 하나의 키워드로 번역하는 단계를 포함하는, 단계;

ii) 계층적 타입(hierarchical type)의 제 2 신경망이 사용될 경우 텍스트의 의미 분류 단계로서, 상기 적어도 하나의 입력 패턴은 상기 계층성의 적어도 하나의 더 낮은 계층으로 공급되며, 상기 적어도 하나의 출력 패턴은 상기 계층성의 적어도 하나의 더 높은 계층으로부터 획득되는, 단계; 및

iii) 계층적 타입의 제 2 신경망이 사용될 경우 텍스트의 의미 예측 단계로서, 상기 적어도 하나의 입력 패턴은 상기 계층성의 적어도 하나의 더 높은 계층으로 공급되며, 상기 적어도 하나의 출력 패턴은 상기 계층성의 적어도 하나의 더 낮은 계층으로부터 획득되는, 단계.

추가적인 양태에서 본 발명은 텍스트를 신경망-판독가능 형태로 번역하기 위한 컴퓨터-판독가능 사전을 생성하는 방법으로서,

의미 콘텍스트 내의 하나 이상의 키워드를 각각 포함하는 텍스트 문서로써 자기 조직 맵 타입의 신경망을 훈련시켜서 각각의 텍스트 문서를 의미 클러스터링에 의하여 상기 자기 조직 맵 내의 포인트로 매핑하는 단계;

상기 제 1 세트 내에서 발생하는 각각의 키워드에 대하여, 상기 키워드를 포함하는 텍스트 문서가 매핑되는 자기 조직 맵 내의 모든 포인트를 상기 키워드와 연관된 포인트들의 패턴으로서 결정하는 단계; 및

모든 키워드 및 연관된 패턴을 컴퓨터-판독가능 사전으로서 저장하는 단계를 포함하는 방법을 제공한다.

또한 본 발명은 컴퓨터 판독가능 매체 상에 구현되는 이러한 종류의 컴퓨터 판독가능 사전을 제공한다.

본 발명의 다른 양태들은:

- 본 발명의 제 1 양태에 따라서 상기 제 2 신경망처럼 훈련된 바 있는 계층적 시간적 메모리 타입의 신경망을 포함하는 분류 머신;

- 본 발명의 제 1 양태에 따라서 상기 제 2 신경망처럼 훈련된 바 있는 계층적 시간적 메모리 타입의 신경망을 포함하는 예측 머신;

- 이러한 분류 머신을 포함하고, 그것의 신경망이 제 1 언어의 제 1 및 제 2 텍스트 문서를 사용하여 훈련된 바 있는 번역 머신, 및 그것의 신경망이 제 2 언어의 제 1 및 제 2 텍스트 문서를 사용하여 훈련된 바 있는 예측 머신인데, 분류 머신의 신경망의 노드는 예측 머신의 신경망의 노드에 연결된다.

모든 양태에서 본 발명은 3 개의 상이한 기술을 전체적으로 신규한 방법으로 결합하는데, 이들은 즉 자기-조직 맵(self-organizing maps; SOMs), SOM 내의 키워드의 리버스-인덱싱, 및 패턴의 스트림으로 번역되는 텍스트에 노출되는 타겟 신경망이다.

본 발명의 원리 중 하나는 키워드 및 두 개의(또는 그 이상의) 차원의 패턴 간의 연관성을 포함하는, 신규한 타입의 "키워드 대 패턴" 사전(축약: "패턴 사전")을 생성하는 것이다. 이러한 패턴은 제 1 문서 세트의 콘텍스트 내에서의 키워드의 의미론을 나타낸다. 의미 콘텍스트의 적합한 콜렉션을 제 1 문서 세트, 예를 들어 추후 계속 설명될 백과사전의 아티클로서 선택함으로써, 각각의 패턴은 의미 콘텍스트(semantic context)를 그리고 따라서 키워드의 의미(meaning)를 반영한다.

패턴들은 SOM 신경망, 특히 "코호넨 자기 조직 맵"("코호넨 피쳐 맵")에 의하여 생성된다. SOM의 세부사항에 대해서는 예를 들어 Kohonen, T., "The Self-Organizing Map", Proceedings of the IEEE, 78(9), 1464-1480, 1990; Kohonen, T., Somervuo, P., "Self-Organizing Maps of Symbol Strings", Neurocomputing, 21(1-3), 19-30, 1998; Kaski, S., Honkela, T., Lagus, K., Kohonen, T., Websom-Self-Organizing Maps of Document Collections", Neurocomputing, 21(1-3), 101-117, 1998; Merkl, D., "Text Classification with Self-Organizing Maps: Some Lessons Learned", Neurocomputing, 21(1-3), 61-77, 1998; Vesanto, J., Alhoniemi, E., "Clustering of the Self-Organizing Map", IEEE Transactions on Neural Networks, 11(3), 586-600, 2000; Pㆆlzlbauer G., Dittenbach M., Rauber A., "Advanced Visualization of Self-Organizing Maps with Vector Fields", IEEE Transactions on Neural Networks 19, 911-922, 2006 을 참조하는데 이들 논문의 개시물은 본 명세서에 참조에 의하여 통합된다.

SOM-생성된 패턴은 후속하여 텍스트 문서의 제 2(훈련) 세트 로부터의 키워드 시퀀스를 패턴 인식을 위한 제 2(타겟) 신경망으로 공급될 패턴 시퀀스로 번역하기 위하여 사용된다. 패턴 인식은 신경망의 핵심 능력 중 하나이다. 각각의 패턴이 키워드의 내재적 의미를 나타내고, 패턴의 시퀀스가 키워드의 콘텍스트 의미를 나타내기 때문에, 제 2 문서 세트 내의 키워드의 의미는 제 1 문서 세트의 콘텍스트 내에서의 키워드의 내재적 의미를 참조하여, 그리고 그 배경에 기초하여 타겟 신경망에 의하여 분석된다. 결과적으로, 타겟 신경망은 텍스트의 의미를 효율적으로 그리고 의미있게 분석할 수 있다.

본 발명의 방법 및 장치는 모든 종류의 타겟 신경망을 훈련시키기 위하여 적합하다. 바람직한 적용예는 계층적이며 - 적어도 부분적으로 - 재귀적인 신경망, 특히 메모리 예측 프레임워크(memory prediction framework; MPF) 또는 계층적 시간적 메모리(hierarchical temporal memory; HTM) 타입의 신경망인 신경망의 훈련이다. MPF 및 HTM의 이론 및 구현형태 세부사항에 대해서는 예를 들어 Hawkins, J., George, D., Niemasik, J., "Sequence Memory for Prediction, Inference and Behaviour", Philosophical Transactions of the Royal Society of London, Series B, Biological Sciences, 364(1521), 1203-9, 2009; Starzyk, J. A., He, H., "Spatio-Temporal Memories for Machine Learning: A Long-Term Memory Organization", IEEE Transactions on Neural Networks, 20(5), 768-80, 2009; Numenta, Inc., "Hierarchical Temporal Memory Including HTM Cortical Learning Algorithms", Whitepaper of Numenta, Inc., Version 0.2.1, September 12, 2011; Rodriguez A., Whitson J., Granger R., "Derivation and Analysis of Basic Computational Operations of Thalamocortical Circuits", Journal of Cognitive Neuroscience, 16:5, 856-877, 2004; Rodriguez, R. J., Cannady, J. A., "Towards a Hierarchical Temporal Memory Based Self-Managed Dynamic Trust Replication Mechanism in Cognitive Mobile Ad-hoc Networks", Proceedings of the 10th WSEAS international conference on artificial intelligence, knowledge engineering and data bases, 2011; 및 특허(출원) 번호 제 US 2007/0276774 A1 호, 제 US 2008/0059389 A1 호, 제 US 7 739 208 B2 호, 제 US 7 937 342 B2 호, 제 US 2011/0225108 A1 호, 제 US 8 037 010 B2 호 및 제 US 8 103 603 B2 호를 참조하는데, 이러한 문헌들 및 특허의 개시물들은 본 명세서에 참조에 의하여 통합된다.

MPF 및 HTM 신경망은 입력 패턴 스트림의 계층이고 시간-시퀀싱된(sequenced) 표현을 저장하고 텍스트의 시간-스패닝(spanning) 및 계층적 의미를 파악하기에 특히 적합하다. 상이한 계층적 계층상의 그들의 노드(뉴런)는 그 자체로서 키워드의 계층적 추상화(클래스) 이다; 분류(추상화)는 입력이 계층성의 아래에서 위로 공급될 경우의 이러한 망의 내재적 동작 원리이고, 예측(구체화)은 입력이 계층성의 위에서 아래로 공급될 경우의 내재적 동작 원리이다.

본 발명의 추가적인 양태에서 키워드의 전체 클래스(추상화, 카테고리)를 나타내는 노드의 개념이 번역 머신을 분류 머신의 노드 출력으로 매핑되는 예측 머신으로서 건립하기 위하여 이용된다.

본 발명의 다른 양태에 따르면, 수 개의 제 2 문서가 사용되고 훈련 패턴 스트림으로 번역되어 제 2 신경망을 제 2 문서의 특정한 세트 상에서 훈련시킬 수 있다.

본 발명의 실시예들에서, 제 2 문서는 증가하는 복잡도에 의하여 정렬되고, 제 2 신경망을 훈련시킬 경우, 패턴의 별개의 시퀀스는 그들이 각각 형성되고 번역된 제 2 문서의 정렬 순서로 상기 제 2 신경망에 공급된다. 이것은 제 2 신경망의 더 빠른 훈련을 유도한다.

본 발명의 몇몇 다른 양태에서, 제 2 문서의 복잡도는: 그 제 2 문서 내의 상이한 키워드의 개수, 그 제 2 문서 내의 문장의 평균 길이, 및 그 제 2 문서 내의 상기 제 1 세트의 하나 이상의 키워드의 빈도 중 하나 이상에 기초하여 확인된다.

본 발명은 첨부된 도면들을 참조하여 상세하게 더욱 설명된다:
도 1 은 본 발명에 따르는 제 1 및 제 2 신경망, 패턴 사전, 및 분류, 예측 및 번역 머신의 블록도를 포함하는, 본 발명의 방법의 개괄적인 흐름도이다;
도 2 는 도 1 내의 제 1 신경망으로의 입력 벡터로서의 제 1 문서 세트에 대한 벡터 처리 스테이지의 흐름도이다;
도 3 은 도 1 의 제 1 신경망의 출력으로서 생성되는 예시적인 자기 조직 맵(SOM)이다;
도 4 는 벡터 처리 스테이지 및 SOM으로부터 입력을 수신하여 도 1 에서의 패턴 사전을 생성하는 리버스-인덱싱 스테이지의 흐름도이다;
도 5 는 SOM 내의 두 개의 상이한 키워드에 대한 예시적인 패턴이 있는 리버스-인덱싱된 SOM 표현을 도시한다;
도 6 은 불용어(stop word)(비-키워드)에 대한 몇몇 선결정된 패턴의 예들을 도시한다;
도 7 은 도 1 에서의 제 2 문서의 제 2 세트에 대한 키워드 시퀀스 추출 스테이지의 흐름도이다;
도 8 은 제 2 세트의 제 2 문서에 대한 선택적인 문서 정렬 단계의 결과를 도시한다;
도 9 는 키워드 시퀀스를 도 1 에서의 패턴 시퀀스로 번역하는 단계의 흐름도이다; 그리고
도 10 은 도 1 에서의 제 2 신경망으로서 사용되는 MPF의 예시적인 계층적 노드 구조를 도시한다.

일반적 개관에서, 도 1 은 제 1 신경망(4)을 훈련시키기 위하여 제 1 텍스트 문서(3)의 제 1 세트(2)를 사용하는 의미 텍스트 처리 방법 및 시스템(1)을 도시한다. 제 1 신경망(4)은 자기 조직 맵(SOM) 타입이며 자기 조직 맵(SOM; 5)을 생성한다. SOM(5)으로부터 제 1 문서 세트(2)에서 발생하는 키워드(7)를 나타내는 패턴(6)이 리버스-인덱싱 스테이지(8)에 의하여 생성되고 패턴 사전(9)에 추가된다.

패턴 사전(9)은 번역 스테이지(10)에서 제 2 문서(13)의 제 2 세트(12)로부터 추출된 키워드 시퀀스(11)를 패턴 시퀀스(14)로 번역하기 위하여 사용된다. 패턴 시퀀스(14)로써 제 2 신경망(15)이 훈련된다. 제 2 신경망(15)은 바람직하게는(하지만 필수적인 것은 아님) 메모리 예측 프레임워크(MPF) 또는 계층적 시간적 메모리(HTM) 타입이다. 그러면 훈련된 제 2 신경망(15)은 패턴 사전(9)으로써 번역된 텍스트를 의미론적으로 분류하거나(경로 16 참조), 또는 패턴 사전(9)으로써 번역된 텍스트를 의미론적으로 예측하기 위하여(경로 17 참조) 사용될 수 있다. 훈련된 제 2 신경망(15)의 다른 선택적인 적용예는 구조에 있어서 제 2 신경망(15)과 유사하지만 제 2 신경망(15)과 상이한 언어로 훈련된 바 있는 선택적인 제 3 신경망(19)으로의 계층적 매핑이다; 그러면 노드 매핑(18)은 제 1 언어망(15)의 의미 노드(15') 및 제 2 언어망(19)의 의미 노드(19') 사이의 의미 일치를 나타낸다.

도 1 에 도시되는 컴포넌트의 처리 및 기능이 이제 도 2 내지 도 10 을 참조하여 자세하게 설명된다.

도 2 는 제 1 문서(3)의 제 1 세트(2)를 인덱싱하고 벡터화하기 위한 전처리 및 벡터화 단계(20)를 도시한다. 단계(20)에서 제 1 세트(2)로부터 입력 벡터(21)의 시퀀스가 각각의 제 1 문서(3)에 대하여 하나의 벡터(21)의 방식으로 제 1 신경망(SOM; 4)의 입력 계층(23)으로 적용되는 입력 훈련 벡터 세트 또는 행렬(테이블)(22)로서 생성된다. 당업자에게 공지되는 바와 같이, SOM 신경망(4)은 보통 오직 두 개의 계층인 뉴런(노드)의 입력 계층(23) 및 출력 계층(24)만을 포함하고, 이들은 연결(25)에 의하여 상호연결되고 이것의 가중치는 가중치 행렬에 의하여 표현될 수 있다. SOM 신경망은 두 개(또는 그 이상의) 차원의 맵(5) 내의 출력 계층(24)의 노드들의 공간적 관련성을 고려하면서 입력 계층(23)의 노드를 출력 계층(24)의 노드로 구체적으로 매핑하기 위하여 가중치 행렬의 가중치들이 입력 벡터에 자기-적응하는 무감독 학습 알고리즘(unsupervised learning algorithms)으로써 훈련될 수 있다. 이것은 입력 벡터(21)를 그들의 유사성에 관련하여 클러스터링하는 맵(5)을 유도하고, 매우 유사한 입력 벡터(21)가 있는 맵(5) 내의 지역(26)을 산출한다. SOM 신경망의 세부사항에 대해서는, 위에서 인용된 참조 문헌들을 참고한다.

제 1 세트(2) 및 그 안의 제 1 문서(3)는, 예를 들어 문서(3)의 각각이 의미 콘텍스트 내에 예를 들어 1 개 내지 10 개, 1 개 내지 20 개, 1 개 내지 100 개, 1 개 내지 1000 개 이상, 바람직하게는 약 250 개 내지 500 개의 키워드(7)를 포함하도록 하는 개수 및 그래뉼래러티, 예를 들어 개별 문서(3)의 길이로서 선택된다. 제 1 문서(3)는 키워드(7)에 추가하여 보통 불용어라고 불리고, 여기에서는 비-키워드라고 불리는 거의 의미 관련성이 없는 단어(예컨대 관사 "a", "the" 등)를 포함할 수도 있다.

세트(2) 내의 문서(3)의 개수는 키워드(7)에 대한 의미 콘텍스트의 대표적 코퍼스를 획득하도록, 예를 들어 수천 개 또는 수백만 개의 문서(3)로서 선택된다. 예시적인 실시예에서, 각각 약 250 개 내지 500 개의 키워드(7)를 포함하는 약 1.000.000 개의 문서(3)가 제 1 문서 세트(2)로서 사용된다.

문서(3)의 길이(키워드 카운트)는 전체 세트(2)에 걸쳐 아주 일관적이어야 하고, 키워드(7)는 세트(2) 내의 문서(3)에 걸쳐 균일하게 그리고 성기게(sparsely) 분포되어야 하며, 각각의 문서(3)는 키워드(7)의 양호한 다양성을 포함해야 한다.

또한 키워드(7)는 단어의 어근(lemma)일 수 있음으로써, 단수 및 복수의 형태(고양이/고양이들) 또는 상이한 동사 형태(go/going)에 대하여 오직 하나의 키워드(7)가 고려된다. 따라서 키워드(7)는 특정한 단어 형태 및/또는 어근 모두일 수 있다. 불용어와 같은 의미있는 키워드를 건립할 수 없는 단어를 벗겨낸(stripping-off)한 이후에, 각각의 문서(3)는 키워드(7)의 "단어 주머니(bag of words)"로 간주될 수 있다.

실용적 실시예에서, 적합한 제 1 세트(2)는 예를 들어 백과사전으로부터의 아티클, 예컨대 Wikipedia^®프로젝트의 "Creative Commons Attribution Licence" 또는 "GNU Free Documentation Licence" 하에서 획득된 Wikipedia^® 아티클로부터 생성될 수 있다. 이러한 백과사전 아티클, 또는 엔트리는 각각 챕터, 절 등에 따라서 아주 균일한 길이의 문서(3)로 파싱됨으로써, 각각의 문서(3)가 의미, 즉 의미있는 콘텍스트에서 키워드(7)를 포함하도록 할 수 있다.

벡터(21)를 생성하기 위하여, 전체 세트(2) 내에서 발생하는 모든 키워드(7)의 인덱스는 생성되고 행렬(테이블)(22)의 열 헤딩(27)으로서 수평으로 펼쳐진다. 그 반대의 경우에, 전체 세트(2) 내의 모든 문서(3)의 문서 식별자("id")는 행렬(22) 내의 행 헤딩(28)으로서 수직으로 펼쳐진다. 그러면 특정한 문서(3) 내의 특정한 키워드(7)의 각각의 발생에 대하여, 플래그 또는 이진수 "1"이 행렬(22)의 개별적인 셀 내에 추가된다. 따라서, 행렬(22)에서 하나의 수평 행은 하나의 문서(3)에 대한 정규화된 "키워드-발생" 벡터(21)를 나타내는데, 여기에서 특정한 키워드 포지션(열 포지션)에서의 이진수 "1" 는 이러한 키워드(7)가 이러한 문서(3)의 "단어 주머니" 내에 포함된다는 것을 나타내고; 이진수 "0"은 이러한 문서(3) 내에 이러한 키워드(7)의 부재를 표시한다. 또는, 다른 방법에서, 행렬(22) 내의 각각의 열은 특정한 키워드(7)에 대하여 그 키워드(7)를 포함하며 이진수 "1"로써 마킹된 모든 그러한 문서(3)를 보여준다.

그러면, 입력 벡터(21), 즉 문서(3) 및 그들의 키워드 콘텐츠를 나타내는 행렬(22)의 행은 SOM 신경망(4)의 입력 계층(23)으로 연속적으로 공급되어 그것을 훈련시킨다. 이것은, 예를 들어 1.000.000 개의 제 1 문서(3)의 제 1 세트(2)가 사용된다면, 1.000.000 개의 벡터 입력의 훈련 런(training run)이 제 1 신경망(4)으로 공급된다는 것을 의미한다.

이러한 훈련 런의 결과로서, SOM 신경망(4)의 출력 계층(24)은 문서(3)(벡터(21))가 유사성에 의하여 클러스터링되어 맵(5)의 개개의 포인트("픽셀")(X_i/Y_j)로 매핑된 바 있는 맵(5)을 생성하였다. 도 3 은 맵(5)의 일 예를 도시한다. 각각의 맵 포인트 X₁/Y₁, X₂/Y₂, …,(X_i/Y_j), …로, 그들의 키워드(7)의 주머니를 가지는 0 개의, 또는 하나 이상의 문서(들)(3)가 매핑되었다. 문서(3)(벡터(21))는 예를 들어 행 헤딩(28)으로부터의 그들의 문서 id에 의하여 맵(5) 내에서 식별된다. 그러한 SOM 클러스터링 프로세스에 의하여, 매우 유사한 키워드(7)를 포함하는 상이한 문서(3), 예를 들어 그들의 키워드의 80% 또는 90%에 있어서 일치하는 것들은 서로 밀접한 공간적 관련성으로 매핑되고, 따라서 맵(5) 내에 의미 "지역"(26_a, 26_b, 26_c, 26_d) 등을 형성한다.

다음으로, 도 4 의 리버스-인덱싱 스테이지(8)에서, 키워드 인덱스(27) 로부터의 주어진 키워드(7)에 대한 행렬(22)에 기초하여 그 키워드(7)를 포함하는 모든 그러한 문서(3)가 식별된다. 이것은 예를 들어 행렬(22) 내의 주어진 키워드(7)의 특정한 열 내의 모든 이진수 "1"을 취출하고 행 헤딩(28) 내에 나열된 문서(3)의 id를 룩업함으로써 용이하게 수행될 수 있다.

그 주어진 키워드(7)를 포함하는 것으로 확인된 바 있는 그러한 문서(3)에 대하여, 그 특정한 문서 id를 참조하는 모든 맵 포인트(X_i/Y_j)가 맵(5)으로부터 결정된다. 맵 포인트의 이러한 세트 {X_i/Y_j}가 패턴(6)을 나타낸다. 패턴(6)은 그 주어진 키워드(7)가 제 1 세트(2) 내에서 발생되는 의미 콘텍스트를 나타낸다: 패턴(6) 내의 포인트(X_i/Y_j)의 공간적(즉 2차원- 또는 그 이상의 차원의) 분포는 그 키워드(7)가 제 1 세트(2) 내에서 발생된 콘텍스트 내의 그러한 특정한 의미 지역(26_a, 26_b,…)을 반영한다.

패턴(6)은 이진 맵(31)으로서 코딩될 수 있고(도 4 참조), 또한 제 1 세트(2)와 같은 문서 콜렉션 내의 키워드(7)의 의미론적 의미의 이진 "지문" 또는 "풋프린트"로서 간주될 수 있다. 만일 제 1 세트(2)가 특정한 언어 내의 매우 다양한 의미있는 텍스트를 커버한다면, 패턴(6)은 키워드(7)의 높은 의미 중요도를 가진다.

패턴(6)의 공간적 해상도는 SOM 신경망(4) 및/또는 맵(5)의 공간적 해상도 이하일 수 있다. 후자의 공간적 해상도는 요구된 분석 성능에 따라서 선택될 수 있다: 예를 들어, 맵(5)은 수백만 개의 맵 포인트(X_i/Y_j), 예를 들어 1000 x 1000 포인트로 구성될 수 있고, 패턴(6)은 높은 정밀도에 대하여 동일한 해상도를, 또는 더 낮은 메모리 요구 사항에 대하여 더 성긴 해상도를 가질 수 있다.

도 5 는 이해의 편의를 위하여 맵(5)에 상재하는 두 개의 상이한 패턴(6)(흑점으로서 묘사됨)의 일 예를 도시한다. 이러한 예에서, 지역(26_a, 26_b, 26_c, 26_d)은 "육식동물(predator)", "고양이과(felines)", "내 애완동물(my pet)" 및 "갯과(canis)"와 같은 의미 클래스로써 수동으로 명명되었다. 이것은 오직 예시적인 목적을 위한 것이다; 이러한 명명이 맵 포인트(X_i/Y_j)의 공간적 SOM 분포만을 요구하는 본 방법, 프로세스 및 알고리즘의 정확한 기능을 위하여 필수적이지 않다는 것에 주의해야 한다.

도 5 의 좌측 표현에서, 키워드 "고양이"가 발생된 모든 문서(3)는 점으로 마킹되었다. 도 5 의 우측 표현에서, 키워드 "개"가 발생된 모든 문서(3)는 점으로 마킹되었다. "고양이" 문서가 주로 지역(26_b)("내 애완동물") 및(26_d)("고양이과")에 속하거나 그곳으로 클러스터링되는 반면에, "개" 문서(3)는 주로 지역(26_b)("내 애완동물") 및(26_c)("갯과")로 클러스터링된다는 것을 용이하게 알 수 있다.

도 1 로 돌아가면, 제 1 세트(2) 내에서 발생하는 각각의 키워드(7)에 대하여, 개별적인 패턴(6)이 양-방향 매핑, 즉 키워드(7) 및 자신의 패턴(6) 사이의 연관성의 형태로 패턴 사전(9) 내에 저장된다. 패턴 사전(9)은 도 1 의 방법 및 시스템(1)의 첫 번째인, 중간 제품을 구성한다. 패턴 사전(9)은 컴퓨터-판독가능 매체, 예를 들어 하드 디스크, CD-Rom, DVD, 메모리 칩, 인터넷 서버, 인터넷 내의 클라우드 스토리지 등과 같은 데이터 캐리어에 저장("구현")될 수 있다.

패턴 사전(9)을 생성하는 것은 제 1 신경망(4) 및 리버스-인덱싱 맵(5)을 훈련시키기 위한 방대한 처리 능력의 사용을 수반할 수도 있다는 것에 주의해야 한다. 그러므로, 패턴 사전(9)은 바람직하게는 한 번 사전-계산되고, 그러면 도 1 의 프로세스 및 머신의 다른 스테이지 및 모듈에서 반복적으로 사용될 수 있다.

예를 들어 선택된 적용예-특이적으로 및/또는 및 언어-특이적으로 선택될 수 있는 제 1 문서(3)의 상이한 제 1 세트(2)에 기초하여, 상이한 패턴 사전(9)이 사전-계산되고 컴퓨터-판독가능 미디어 상에서 이제 자세하게 설명될 프로세스 및 머신의 후속 스테이지를 수행하고 후속 모듈을 구현하는 그러한 엔티티로 배포될 수 있다.

In 이러한 후속 스테이지 및 모듈에서 제 2(타겟) 신경망(15)이 제 2 문서(13)의 제 2 세트(12)에 기초하여 의미 텍스트 처리를 위하여 훈련된다. 제 2 세트(12)가 제 1 세트(2)와 동일한 반면에, 실제로는 제 2 세트(12)는 제 1 세트(2)의 서브세트 또는 사실상 매우 상이한 적용예-특이적 제 2 문서(13)를 포함할 수도 있다. 예를 들어, 제 1 세트(2)가 방대한 개수의 일반("백과사전적") 문서(3)를 포함하는 반면에, 제 2 세트(12)는, 예를 들어 의미 질의(키워드) 확장에 의하여 검색되고, 의미 분류에 의하여 분류되거나 정렬되며, 또는 의미 번역에 의하여 번역될 필요가 있는 사용자 문서(13)의 적용예-특이적 사용자 데이터 세트일 수 있다. 그러면 패턴 사전(9)은 키워드(7)의 일반적 의미론적 의미에 대한 배경 의미론적 지식을 반영하는 반면에, 제 2 신경망(15)은 사용자 문서(13)의 사용자 데이터 세트(12)의 심층 분석을 수행한다.

사용자 문서(13)는 예를 들어 제품 데이터베이스로부터의 레코드, 웹-페이지, 특허 문서, 의학적 레코드 또는 제 2 신경망(15)에 의하여 분석될 모든 종류의 데이터 콜렉션일 수 있다. 제 2 세트(12)에 대한 하나의 전제 조건은 이것이 제 1 세트(2)와 동일한 언어로 기록되었을 것인데, 이는 그렇지 않으면 패턴 사전(9)이 제 2 세트(12)로 의미있게 적용될 수 없기 때문이다. 더욱이, 제 2 세트(12)의 제 2 문서(13) 내에서 발생하는 키워드(7)가 제 1 세트(2) 내의 키워드(7)의 전체 세트, 즉 인덱스(27) 내에 포함됨으로써, 제 2 세트(12)의 키워드(7)가 목록화되고 패턴 사전(9)에서 룩업될 수 있게 하는 것이 바람직하지만 필수적인 것은 아니다.

패턴 사전(9)에서, 불용어 또는 비-키워드는 배제되거나 도 6 에 도시되는 것과 같은 선결정된 또는 사전구성된 심볼의 패턴으로서 포함될 수 있다.

제 2 신경망(15)을 훈련시키기 위하여, 제 1 스테이지(32)에서 키워드(7)의 시퀀스(11)가 제 2 세트(12)로부터 추출된다. 도 1, 도 7 및 도 8 은 이러한 추출 스테이지를 자세하게 보여준다. 기본적으로 오직 하나의 또는 수 개의 제 2 문서(들)(13)가 정상 리딩(reading) 시퀀스(33)에서 단어별로, 줄별로, 문단별로, 챕터별로, 문서별로 순차적으로 리딩된다면 충분할 것이다. 불용어 또는 비-키워드는 스킵될 것이고(또는 개별적으로 도 6 에서 설명되는 바와 같이 처리됨), 결과는 키워드(7)의 하나의 시퀀스(11)이다. 그러나, 바람직하게는, 제 2 세트(12)는 복수의 제 2 문서(13)로 분할되고, 키워드(7)의 하나의 시퀀스(11)가 하나의 문서(13)에 대하여 생성된다. 그러면 시퀀스(11)는 - 예를 들어 문서(13)들이 유래하는 순서로 - 제 2 신경망(15)에 대한 훈련 입력으로서 사용된다.

제 2 신경망(15)을 훈련시키는 것은 문서(13) 및/또는 시퀀스(11)의 선택적인 정렬이 추출 스테이지(32)에서 수행된다면 가속화될 수 있다. 이러한 선택적인 정렬에 대하여, "복잡도 인자(CompF)가 제 2 세트(12)의 각각의 문서(13)에 대하여 프로세스(34)에서 계산된다. 복잡도 인자(CompF)는 문서(13)의 하나 이상의 후속하는 파라미터에 기초하여 계산될 수 있다:

- 문서(13) 내의 상이한 키워드(7)의 개수;

- 문서(13) 내의 문장 또는 문단의 평균 단어 카운트;

- 하나 이상의 키워드(7), 예를 들어 문서(13) 내의 제 1 세트(2)의 모든 키워드(7)의 빈도, 또는 다양성;

- 하나 이상의 키워드(7), 예를 들어 전체 제 1 세트(2) 내의 문서(13) 또는 구어를 나타내는 다른 텍스트 코퍼스, 예를 들어 신문의 콜렉션의 모든 키워드(7)의 빈도.

추출 스테이지(32)에서 문서(13)는 이제 증가하는 복잡도 인자(CompF)에 따라서 정렬(순위결정)될 수 있는데, 이는 도 8 을 참조한다. 이러한 방식으로 제 2 신경망(15)에는 증가하는 복잡도의 시퀀스(11)가 공급되는데, 예를 들어 제 2 신경망(15)을 훈련시키기 위하여 원시적이거나 간단한 시퀀스(11) 또는 키워드(7)의 적은 다양성을 가진 시퀀스(11)가 우선 사용되고 복잡한 의미론적 및 언어적 구조를 가지는 시퀀스(11)가 마지막에 사용된다.

제 2 신경망(15)에 공급되기 이전에, 키워드(7)의 시퀀스(11)는 패턴 사전(9)에 기초하여 번역 스테이지(10)에서 번역된다. 시퀀스(11) 내의 각각의 키워드(7)는 패턴 사전(9)에서 룩업되고, 연관된 패턴(6)이 취출되며, 결과는 각각의 문서(13) 당 하나의 패턴 시퀀스(14)로서 패턴(6)의 시퀀스(14)이다. 각각의 패턴 시퀀스(14)는 제 1 문서 세트(2)의 글로벌 의미 콘텍스트 내에서의 문서(13) 내의 키워드(7)의 의미 콘텍스트를 나타내는 패턴(6)의 시간-시리즈 또는 "영화 클립"으로서 간주될 수 있다.

간단한 실시예에서는 제 2 신경망(15)을 훈련시키기 위하여 패턴(6)의 오직 하나의 긴 시퀀스(14)를 사용하면 충분할 것이라는 것에 주의해야 한다. 바람직하게는 많은 수의 패턴 시퀀스(14)("시퀀스의 시퀀스 ")가 사용되는데, 각각의 패턴 시퀀스(14)는 제 2 신경망(15)에 대하여 타임-라인(time-lined) 훈련 벡터(행렬)를 나타낸다. 도 9 는 키워드 시퀀스(11)를 패턴 시퀀스(14)로 번역하는 번역 스테이지(10)의 일 예를 도시한다.

훈련 스테이지(도 1 에서 화살표(35))에서 제 2 신경망(15)에는 연속적으로 패턴 시퀀스(14)가 공급되어 시간이 지남에 따라서 패턴(6) 및 그들의 시퀀스를 학습한다. 서두에 논의된 바와 같이, 패턴의 시간-시리즈 처리를 위하여 적응된 모든 타입의 신경망, 예를 들어 슬라이딩 윈도우가 있는 피드-포워드 패턴 처리 신경망이 사용될 수 있다. 대안적으로 그리고 바람직하게는, 지연 루프가 있거나 없는 재귀적이거나 적어도 부분적으로 재귀적인 신경망, 예를 들어 자기- 또는 자기-연관성 신경망이 시간적 시퀀스를 학습하고 기억하기 위하여 사용될 수 있다.

바람직한 실시예에서, 계층성의 상부 계층이 계층성의 더 낮은 계층보다 더 적은 노드(뉴런)를 포함한다는 점에서 제 2 신경망(15)도 역시 계층적이다. 도 10 은 이러한 계층망의 일 예, 특히 시간적 시퀀스를 학습하기 위한 측방향(인트라-계층, 도 1 을 참조한다) 및 수직(교차-계층) 피드백 연결을 역시 포함하는 메모리 예측 프레임워크(MPF)를 도시한다. 이러한 MPF 아키텍처의 바람직한 형태는 계층적 시간적 메모리(HTM) 타입의 신경망이다. MPF 및 HTM 신경망의 이론 및 구현형태 세부사항은 위에 인용된 논문에 설명되며, 이들의 개시물은 참조에 의하여 본 명세서에 통합된다.

MPF 및 HTM 망은 - 훈련된 구성에서 - 계층성의 더 낮은 계층 내의 뉴런(노드)의 파이어링(firing) 패턴의 추상화(분류)를 대표하는 뉴런(노드)을 계층성 내에 발전시킨다. 훈련된 재귀적(피드백) 인트라-계층 및 교차-계층 연결을, 특히 "열적(columnar)" 서브-계층 구조의 노드들 사이에서 사용함으로써, 이들은 파이어링 패턴의 전체 시간적 스트림의 시간적 거동을 모델링할 수 있다. 이러한 방식으로, MPF 및 HTM 망은 패턴의 스트림을 학습, 기억 및 분류할 수 있고, 패턴 시퀀스를 인식하는 것 및 과거 패턴 시퀀스로부터 가능한 미래 패턴 시퀀스를 예측하는 것 모두를 할 수 있다.

신경망(15)이 패턴 시퀀스(14)로써 훈련된 바 있으면, 새 패턴(6) 또는 새 패턴 시퀀스(14)가 새 입력으로서 망(15)의 더 낮은 계층성 레벨에 있는 "분류" 입력에 인가되어 의미 분류/추상화를 더 높은 계층성 레벨에 있는 노드의 출력으로부터의 패턴으로서 획득할 수 있다(루트(16) 참조); 또는, 새 패턴(6) 또는 새 패턴 시퀀스(14)는 더 높은 계층성 레벨에 있는 "예측" 입력에 공급될 수 있고 및 예측된 패턴(의미론적 예측)은 계층성에서의 더 낮은 레벨로부터 획득될 수 있다(루트(17) 참조).

도 1 에서 알 수 있는 바와 같이, 패턴 사전(9)은 루트(16, 17) 모두에서 사용되어 임의의 키워드(7)의 새 "질의" 시퀀스를 "질의" 시퀀스(14)로 번역하고 신경망(15)의 출력 패턴을 "결과적인" 분류 또는 예측 키워드(7)로 재번역한다.

따라서 분류 루트(16)는 질의 텍스트를 망(15)의 입력 및 출력 인터페이스 상의 패턴 사전(9)을 사용하여 훈련된 신경망(15)에 의하여 분류하기 위하여 사용될 수 있다; 및 예측 루트(17)는 질의 텍스트로부터 키워드를 예측하여, 예를 들어 질의 키워드 어구를 신경망(15)의 입력 및 출력 인터페이스 모두에서의 패턴 사전(9)을 사용하여 의미론적으로 그 질의 어구와 매칭하는 다른(예측된) 키워드(7)로 "확장"시키기 위하여 사용될 수 있다.

훈련된 신경망(15)의 다른 적용예가 도 1 에서 점선으로 도시된다. 신경망(15)이 훈련되었던 것과 상이한 언어로 된 문서(3, 13)의 세트(2, 12)로써 훈련되는 제 3 신경망(19)은 - 만일 망(15 및 19) 내의 대응하는 분류 노드(15', 19')가 식별될 수 있다면 - 제 2 망(15)으로 노드 단위로(nodewise) 매핑된다. 제 3 신경망(19)의 입력 및 출력(38, 39) 상에서, 제 3 망(19)의 언어로 된 문서 세트(2)로부터 생성된 다른 패턴 사전(9)이 사용된다. 이러한 방식으로, 두 언어 사이의 의미 번역이 두 개의 훈련된 MPF 또는 HTM 망(15, 19)의 의미 매핑에 의하여 획득될 수 있다.

비록 본 발명이 2-차원의 맵(5) 및 패턴(6)을 참조하여 설명되었지만, 제 1 신경망(4)이 3차원- 또는 더 높은 차원- 맵(5)을 역시 생성할 수 있으며, 따라서 패턴 사전(9) 내에 3 차원- 더 높은-차원의 패턴(6), 후속하여 3 차원- 또는 더 높은-차원의 패턴 시퀀스(14) 및 3차원 또는 그 이상의 차원에서 작동하는 제 2 및 제 3 신경망(15, 19)을 유도한다는 것에 주의해야 한다.

본 발명은 예로서 자세하게 설명된 특정한 실시예로 절대 제한되어서는 안되며 오히려 모든 첨부된 청구항들의 범위에 의하여 망라되는 변형물, 변경예 및 이들의 조합을 포함한다.

Claims

텍스트를 신경망-판독가능 형태로 번역하기 위한 컴퓨터-판독가능 사전을 생성하기 위해 컴퓨터로 구현되는 방법으로서,
의미 콘텍스트(semantic context) 내의 하나 이상의 키워드를 각각 포함하는 제 1 텍스트 문서의 제 1 세트로써 자기 조직 맵(self organizing map) 타입의 제 1 신경망을 훈련시켜서 각각의 텍스트 문서를 의미 클러스터링에 의하여 상기 자기 조직 맵 내의 포인트로 매핑하는 단계;
상기 제 1 세트 내에서 발생하는 각각의 키워드에 대하여, 상기 키워드를 포함하는 텍스트 문서가 매핑되는 자기 조직 맵 내의 모든 포인트를 포인트들의 패턴으로서 결정하는 단계 - 상기 패턴은 상기 키워드와 연관됨 -; 및
상기 하나 이상의 키워드의 모든 키워드 및 상기 연관된 패턴을 컴퓨터-판독가능 패턴 사전으로서 저장하는 단계를 포함하는, 방법.
제 1 항에 있어서,
키워드의 적어도 하나의 시퀀스를 의미 콘텍스트 내의 하나 이상의 키워드를 각각 포함하는 제 2 텍스트 문서의 제 2 세트로부터 형성하는 단계;
키워드의 상기 적어도 하나의 시퀀스를 상기 패턴 사전을 사용하여 패턴의 적어도 하나의 시퀀스로 번역하는 단계; 및
제 2 신경망을 패턴의 상기 적어도 하나의 시퀀스로써 훈련시키는 단계를 더 포함하는, 방법.
제 2 항에 있어서,
상기 제 2 신경망은 계층성이 있고(hierarchical) 적어도 부분적으로 재귀적(recurrent)인, 방법.
제 2 항에 있어서,
상기 제 2 신경망은 메모리 예측 프레임워크인, 방법.
제 2 항에 있어서,
상기 제 2 신경망은 계층적 시간적 메모리인, 방법.
제 2 항에 있어서,
상기 제 1 신경망은 코호넨(Kohonen) 자기 조직 맵인, 방법.
제 2 항에 있어서,
상기 제 2 세트의 제 2 문서 각각에 대하여 키워드별 개별적인 시퀀스가 형성되고 패턴별 개별적인 시퀀스로 번역되며,
상기 제 2 신경망은 상기 패턴별 개별적인 시퀀스의 각각으로써 연속적으로 훈련되는, 방법.
제 7 항에 있어서,
상기 제 2 문서는 정렬되고,
상기 제 2 신경망을 훈련시킬 경우, 상기 패턴별 개별적인 시퀀스는 그들이 각각 형성되고 번역된 제 2 문서의 정렬 순서로 상기 제 2 신경망에 공급되는, 방법.
제 8 항에 있어서,
상기 제 2 문서는 증가하는 복잡도에 의하여 정렬되고,
제 2 문서의 상기 복잡도는: 상기 제 2 문서 내의 상이한 키워드의 개수, 상기 제 2 문서 내의 문장의 평균 길이, 상기 제 2 문서 내의 상기 제 1 세트의 하나 이상의 키워드의 빈도, 상기 제 1 세트 또는 다른 텍스트 코퍼스(corpus) 내의 상기 제 2 문서의 하나 이상의 키워드의 빈도 중 하나 이상에 기초하여 확인되는, 방법.
제 2 항 내지 제 9 항 중 어느 한 항에 있어서,
적어도 하나의 키워드를 포함하는 텍스트를 처리하기 위하여,
상기 적어도 하나의 키워드를 상기 패턴 사전을 사용하여 적어도 하나의 패턴으로 번역하는 단계;
상기 적어도 하나의 패턴을 입력 패턴으로서 상기 훈련된 제 2 신경망으로 공급하는 단계;
적어도 하나의 출력 패턴을 상기 훈련된 제 2 신경망으로부터 획득하는 단계; 및
상기 적어도 하나의 출력 패턴을 상기 패턴 사전을 사용하여 적어도 하나의 키워드로 번역하는 단계를 포함하는, 방법.
제 10 항에 있어서,
텍스트의 의미 분류를 위하여,
상기 제 2 신경망은 계층성이 있고, 상기 적어도 하나의 입력 패턴은 상기 계층성의 적어도 하나의 더 낮은 계층으로 공급되며, 상기 적어도 하나의 출력 패턴은 상기 계층성의 적어도 하나의 더 높은 계층으로부터 획득되는, 방법.
제 10 항에 있어서,
텍스트의 의미 예측을 위하여,
상기 제 2 신경망은 계층성이 있고, 상기 적어도 하나의 입력 패턴은 상기 계층성의 적어도 하나의 더 높은 계층으로 공급되며, 상기 적어도 하나의 출력 패턴은 상기 계층성의 적어도 하나의 더 낮은 계층으로부터 획득되는, 방법.
제 2 항 내지 제 9 항 중 어느 한 항에 따르는 방법을 이용하여 상기 제 2 신경망으로서 훈련된 바 있는 계층성 타입의 신경망을 포함하는, 분류 머신.
제 2 항 내지 제 9 항 중 어느 한 항에 따르는 방법을 이용하여 상기 제 2 신경망으로서 훈련된 바 있는 계층성 타입의 신경망을 포함하는, 예측 머신.
번역 머신으로서,
제 2 항 내지 제 9 항 중 어느 한 항에 따르는 방법에 따라 제 1 언어의 제 1 및 제 2 텍스트 문서를 사용하여 상기 제 2 신경망으로서 훈련된 바 있는 계층성 타입의 신경망을 포함하는, 분류 머신; 및
제 2 항 내지 제 9 항 중 어느 한 항에 따르는 방법에 따라 제 2 언어의 제 1 및 제 2 텍스트 문서를 사용하여 상기 제 2 신경망으로서 훈련된 바 있는 계층성 타입의 신경망을 포함하는, 예측 머신을 포함하고,
상기 분류 머신의 신경망의 노드는 예측 머신의 신경망의 노드에 연결되는, 번역 머신.