KR20150127101A - 심볼 공간 기반의 패턴 압축을 위한 다층 시스템 - Google Patents

심볼 공간 기반의 패턴 압축을 위한 다층 시스템 Download PDF

Info

Publication number
KR20150127101A
KR20150127101A KR1020157025153A KR20157025153A KR20150127101A KR 20150127101 A KR20150127101 A KR 20150127101A KR 1020157025153 A KR1020157025153 A KR 1020157025153A KR 20157025153 A KR20157025153 A KR 20157025153A KR 20150127101 A KR20150127101 A KR 20150127101A
Authority
KR
South Korea
Prior art keywords
data layer
symbol
generated
symbols
pattern
Prior art date
Application number
KR1020157025153A
Other languages
English (en)
Other versions
KR101655835B1 (ko
Inventor
이갈 라이첼가우즈
카리나 오디네브
예호수아 와이. 지비
Original Assignee
코르티카 엘티디.
카리나 오디네브
예호수아 와이. 지비
이갈 라이첼가우즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코르티카 엘티디., 카리나 오디네브, 예호수아 와이. 지비, 이갈 라이첼가우즈 filed Critical 코르티카 엘티디.
Publication of KR20150127101A publication Critical patent/KR20150127101A/ko
Application granted granted Critical
Publication of KR101655835B1 publication Critical patent/KR101655835B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/04Protocols for data compression, e.g. ROHC
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/46Conversion to or from run-length codes, i.e. by representing the number of consecutive digits, or groups of digits, of the same kind by a code word and a digit indicative of that kind

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

패턴의 심볼 공간 기반의 압축을 위한 방법 및 장치가 제공된다. 상기 방법은 입력 열을 수신하고, 상기 입력 열은 제1 길이를 갖고 복수의 심볼을 포함하고; 상기 입력 열 내의 모든 공통 패턴을 추출하고, 상기 공통 패턴은 적어도 2 이상의 심볼을 포함하고; 상기 모든 공통 패턴의 추출에 응답하여 출력 열을 생성하고, 상기 출력 열은 상기 제1 길이보다 짧은 제2 길이를 갖고; 상기 출력 열은 데이터 층으로서 메모리에 저장하는 것을 포함하고, 상기 출력 열은 데이터 층의 후속의 생성을 위한 새로운 입력 열로서 제공된다.

Description

심볼 공간 기반의 패턴 압축을 위한 다층 시스템{A MULTI-LAYER SYSTEM FOR SYMBOL-SPACE BASED COMPRESSION OF PATTERNS}
본 출원은 2013년 2월 12일에 출원된 미국 가출원 제61/763,554호에 대해 우선권을 주장하며, 그 내용 전부는 참조에 의해 본 명세서에 포함된다.
본 발명은 일반적으로 패턴 인식(pattern recognition) 및 빅 데이터(big-data), 특히 패턴 인식 기술, 빅 데이터 기억 장치 및 분석을 이용하는 시스템 및 방법에 관한 것이다.
패턴 인식 및 이들의 패턴 인식을 적절히 기억 장치에 간결하게 정리하는 것은, 계속적으로 시도되고 있다. 그렇지만, 별도의 설명이 없는 한, 모든 패턴이 데이터에 따라 균등하게 분류(distribute)되는 것을 상정할 수 없다. 일부 패턴은 다른 패턴보다 더욱 현저하기 때문에, 이들 패턴은 다른 패턴이 매우 드문 것과는 달리 높은 출현 수를 가질 수 있다. 또한, 일부 패턴은 서로 관련되어, 매우 대중적(popular)일 수 있는 패턴 조합을 함께 형성할 수 있다. 이것은 패턴 인식 시스템의 애플리케이션에 문제를 일으킨다. 예를 들면, 두 개의 콘텐츠 세그먼트 간의 유사성 측정(similarity measurement)을 읽어내기 위해서, 대응하는 패턴의 수를 고려하는 것은 충분하지 않고, 각각의 패턴의 출현 확률도 또한 고려되어야 한다. 또한, 패턴간의 상관관계도 고려되는 것이 당연하다. 예를 들면, 두 개의 패턴이 항상 함께 출현한 경우, 본질적으로, 두 패턴은 단일의 패턴보다 많은 정보를 포함하지 않는다.
이러한 영향은, 차례로, 패턴 인식 시스템의 정확성 및 확장 가능성(scalability)에 있어서 폐해를 가져온다. 즉, 다른 패턴 취급이 패턴 인식 시스템의 복수의 컴퓨터(machine) 사이에 퍼진 경우, "대중적(popular)인" 패턴을 처리하는 소수의 컴퓨터가 액세스에 대해서 과도한 부담을 받는 반면, "덜 대중적(less-popular)인" 패턴을 처리하는 대부분의 컴퓨터는 작동하지 않는 채로 있다. 상정할 수 없는, 패턴 상의 상관관계로 인해 사전 확률(a-priory probability)에 따라 패턴 취급을 분류하는 것도 불가능하다. 또한, 일반적으로, 패턴 인식 시스템의 능력을 향상시키기 위해서, 패턴 공간의 중복을 회피하는 것이 바람직하고, 각각의 컴퓨터 내의 패턴의 카피(copy)를 유지할 필요가 있다.
용이하게 인식 가능한, 패턴과 같은 복수의 심볼의 관리하기 용이한 소수의 심볼로의 감축(reduction)은 몇몇의 경우에 수동적으로 수행된다. 예를 들면, 화음(chord)으로 결합되는 음표의 열(sequence of notes)을 고려해보자. 화음은 연주되는 2 이상의 음표의 조합이지만, 동시에 연주되는 것과 같이 들린다. 그러나 화음은 자연스럽게 반복하고, 이에 따라, 연주자(performer)에게 제공되는 음표의 수를 감축시키기 위해, 음표의 열은 복수의 음표를 나타내는 화음의 심볼로 감축된다. 따라서, C7로 표시되는 화음은 연주자가 근음(root note) A, 단 3도(minor third) C, 및 완전 5도(perfect fifth) E를 동시에 연주하고 있는 것 같이 연주하는 것을 의미한다. 사람은 화음의 심볼을 그것이 나타내는 특정한 음표로 용이하게 변환할 수 있다. 이와 유사하게, 심볼의 2 세트 사이의 매핑의 구축은 필요에 따라 추가, 삭제, 또는 수정하는 특정의 룰에 기초하여 수동적으로 실행된다.
특히 인식 처리의 인간의 수동 개입이 필요한 종래의 결함을 극복하는 패턴 인식에 대한 효율적인 해결 방안을 제공하는 것이 유리하다.
본 발명은 심볼 공간 기반의 패턴 압축을 위한 다층 시스템을 제공하기 위한 것이다.
본 명세서에 개시된 몇몇의 실시예는 패턴의 심볼 공간 기반의 압축을 위한 방법을 포함한다. 상기 방법은 입력 열을 수신하고, 상기 입력 열은 제1 길이를 갖고 복수의 심볼을 포함하고; 상기 입력 열 내의 모든 공통 패턴을 추출하고, 상기 공통 패턴은 적어도 2 이상의 심볼을 포함하고; 상기 모든 공통 패턴의 추출에 응답하여 출력 열을 생성하고, 상기 출력 열은 상기 제1 길이보다 짧은 제2 길이를 갖고; 상기 출력 열은 데이터 층으로서 메모리에 저장하는 것을 포함하고, 상기 출력 열은 데이터 층의 후속의 생성을 위한 새로운 입력 열로서 제공된다.
본 명세서에 개시된 몇몇의 실시예는 또한 패턴의 심볼 공간 기반의 압축을 위한 장치를 포함한다. 상기 장치는 프로세싱 유닛; 상기 프로세싱 유닛에 접속되고, 제1 길이를 갖고 복수의 심볼을 포함하는 입력 열을 수신하는 인터페이스; 및 상기 프로세싱 유닛에 접속되고, 그 내부에 복수의 명령을 저장하는 메모리를 포함하고, 상기 복수의 명령은, 상기 프로세싱 유닛에 의해 실행되는 경우, 상기 입력 열 내의 모든 공통 패턴을 추출하고, 상기 공통 패턴은 적어도 2 이상의 심볼을 포함하고, 상기 모든 공통 패턴의 추출에 응답하여 출력 열을 생성하고, 상기 출력 열은 상기 제1 길이보다 짧은 제2 길이를 갖고, 상기 출력 열을 데이터 층으로서 상기 메모리에 저장하고, 상기 출력 열을 데이터 층의 후속의 생성을 위한 새로운 입력 열로서 제공한다.
본 명세서에 개시된 몇몇의 실시예는 또한 빅 데이터 기억 장치 시스템을 포함한다. 상기 시스템은 입력 열에 응답하여 코텍스(Cortex) 함수에 의해 순차적으로 생성된 복수의 데이터 층을 저장하는 메모리 유닛을 포함하고, 각각의 데이터 층은 상기 데이터 층에 사용되는 심볼의 컬렉션(collection)을 포함하고, 생성된 각각의 데이터 층의 심볼 공간은, 후속으로 생성된 임의의 데이터 층에 대해 생성된 심볼 공간보다 작고, 생성된 각각의 데이터 층은 후속으로 생성된 임의의 데이터 층보다 가변이고(less invariant), 반복 가능하지 않고(less repeatable), 상관관계가 있고(less de-correlated), 균형이 유지되지 않는다(less balanced).
본 명세서에 개시된 발명의 사상은 본 명세서의 결론부의 청구범위에 구체적으로 지적되고 명확하게 청구된다. 앞선 그리고 다른 본 발명의 목적, 특징 및 유리한 효과는 첨부된 도면과 함께 이어지는 상세한 설명으로부터 명백할 것이다.
도 1은 본 발명의 일 실시예에 따라 처리를 위한 입력으로서 사용되는 제1 심볼 공간을 갖는 심볼의 오리지널 열(original sequence)을 나타낸다.
도 2는 본 발명의 일 실시예에 따라 심볼의 열에 대해 입력 열을 매핑하기 위해, 그리고 치환 심볼(replacement symbol)을 결정하기 위해 이용되는 제1 레벨 테이블을 나타낸다.
도 3은 본 발명의 일 실시예에 따라 제1 심볼 공간보다 큰 제2 심볼 공간을 사용하여 생성된 감축된 수의 심볼을 나타내는 심볼의 열을 나타낸다.
도 4는 본 발명의 일 실시예에 따라 심볼의 열에 대해 입력 열을 매핑하기 위해, 그리고 치환 심볼을 결정하기 위해 이용되는 제2 레벨 테이블을 나타낸다.
도 5는 본 발명의 일 실시예에 따라 제2 심볼 공간보다 큰 제3 심볼 공간을 사용하여 생성된 감축된 수의 심볼을 나타내는 심볼의 열을 나타낸다.
도 6은 본 발명의 일 실시예에 따라 심볼의 열에 대해 입력 열을 매핑하기 위해, 그리고 치환 심볼을 결정하기 위해 이용되는 제3 레벨 테이블을 나타낸다.
도 7은 본 발명의 일 실시예에 따라 제3 심볼 공간보다 큰 제4 심볼 공간을 사용하여 생성된 감축된 수의 심볼을 나타내는 심볼의 열을 나타낸다.
도 8a 내지 도 8d는 본 발명의 일 실시예에 따라 각각 사용되는 직선, 사각형, 원형, 및 삼각형의 이미지 심볼의 개략도를 나타낸다.
도 9a 및 도 9b는 본 발명의 일 실시예에 따라 기초 심볼로부터 생성되는 "집(house)" 및 "의자(chair)"의 고레벨 이미지 심볼을 나타낸다.
도 10a 내지 도 10d는 각각 대응하는 접속 포트를 갖는, 직선, 사각형, 원형, 및 삼각형의 기초 심볼을 나타낸다.
도 11a 내지 도 11c는 본 발명의 일 실시예에 따라 기초 심볼로부터 생성되는 "남성(man)", "여성(woman)" 및 "개(dog)"의 고레벨 이미지 심볼을 나타낸다.
도 12는 본 발명의 일 실시예에 따라 패턴의 심볼 공간 기반의 압축을 달성하기 위한 입력 심볼의 열의 입력에 응답해 데이터 층의 생성을 설명하기 위한 순서도를 나타낸다.
도 13은 본 발명의 일 실시예에 따라 패턴의 심볼 공간 기반의 압축을 달성하기 위한 입력 심볼의 열의 입력에 응답해 데이터 층의 생성을 위한 시스템을 나타낸다.
본 명세서에 개시된 실시예는 본 명세서의 혁신적인 교시의 다수의 유리한 사용의 예에 지나지 않는다. 일반적으로, 본 출원의 명세서 내에 작성된 문장은 다양한 청구된 발명의 한정을 필요로 하지 않는다. 또한, 몇몇의 문장은 몇몇의 발명의 특징에 적용할 수 있지만, 다른 몇몇의 발명에는 적용할 수 없을 수 있다. 일반적으로, 별도로 지시되지 않은 한, 단일의 요소는 복수일 수 있고, 일반성을 잃는 일 없이, 그 반대의 경우도 마찬가지이다. 도면 내에 있어서, 유사한 숫자는 여러 도면에서 유사한 부분을 참조한다.
본 명세서에서 개시된 다양한 기술은 자연 신호 및/또는 자연 신호로부터 추출된 특성을, 반복 가능성(repeatability) 및 불변성(invariance)을 가지는 고차원 공간내의 압축된 표현에 매핑시킨다. 특히, 소정의 입력 공간(given input space)에 대해, 복수의 데이터 층(코텍스(Cortex))은 보다 많은 심볼, 즉, 심볼의 직전의 리스트보다 적어도 하나 이상의 더 많은 심볼, 그러나 전체 길이는 더 짧은, 즉, 심볼의 열의 직전의 길이보다 더 짧은 길이를 갖는 심볼에 의해서 표현되는 입력 데이터에 응답해 생성된다.
따라서, 정보는 보다 간결하게 표현되어 보다 간단하게 심볼 공간에 인식된다. 입력 데이터는 이미지, 비디오, 텍스트, 음성, 및 복수의 데이터 층 내에 매핑될 수 있는 다른 종류의 데이터 일 수 있다. 일 실시예에서, 개시된 기술은 그것을 고차의 데이터층(higher data layer)의 "이상적인 테이블(ideal table)"과 비교함으로써 "테이블(table)"이 무엇인지 결정하기 위한 기능으로서 설명될 수 있다. 특히, 패턴 공간은 각각의 컴퓨터가 패턴 공간에 있어서 다른 범위를 취급하는 패턴 인식 시스템의 복수의 컴퓨터(또는 프로세서)로 확대하기 위해서 충분히 크게 생성된다. 패턴 공간은 하나 이상의 패턴을 포함한다.
일 실시예에 따르면, 입력된 "패턴"은 콘텐츠 세그먼트(content-segment) 내의 "패턴"을 찾아내기 위해 설계된 메커니즘(또는 시스템)로부터 수신된다. 입력 패턴은 콘텐츠 세그먼트 내의 몇몇의 특징의 임의의 표현으로서 막연히 정의된다. 그렇지만, 수신한 "패턴"은 이들 패턴이 표현하는 것, 및 이들 패턴의 국소성(locality)에 대한 임의의 정보에 관련된 것임을 주목해야 한다. 이러한 패턴의 컬렉션(collection)은 "기술자(descriptor)"로서 본 명세서에서 참조된다. 콘텐츠 세그먼트는 하나 이상의 "기술자"에 의해서 표현될 수 있다. 예를 들면, 콘텐츠 세그먼트가 이차원의 이미지인 경우, 패턴은 특정의 형상 또는 특정의 색이 그 이미지 내에서 검출된 것임을 나타낼 수 있다.
개시된 실시예에 따르면, 수신한 입력 패턴의 패턴 공간은 사이즈가 보다 큰 패턴 공간으로 변화한다. 그렇지만, 수신한 입력 패턴의 패턴 공간은 본 명세서에 상세하게 더 기재된 바와 같이, 보다 균형이 유지되고(balanced), 상관관졔가 없고(de-correlated), 반복 가능하고, 불변이다. 특히, 각각의 기술자에 있어서, 오리지널 입력 패턴은 오리지널 패턴 공간으로부터의 패턴의 조합을 표현하는 새로운 패턴으로 치환된다. 따라서, 첫째로 개시된 기술은 보다 큰 패턴 공간을 만들기 위해 이용되므로, 확장 가능성(scalability)이 향상된다. 둘째로 개시된 기술은 보다 좋은 정확성을 위한 패턴 공간을 평탄화(flatten)해, 무관계(de-correlate)로 한다. 셋째로 개시된 기술은 단일 분야로부터의 콘텐츠 세그먼트상의 복수의 패턴의 대규모 정보를 포함함으로써, 불변성(invariance) 및 반복 가능성(repeatability)을 향상시킨다.
이하는 일 실시예에 따라 개시한 (아래에서 설명하는 시스템 및 방법에 의해서 실현되는) 기술의 동작(operation)의 개요이다. 코텍스(Cortex)는 임의의 k{k=0,1, ...n}의 함수(function) F: S0→Sn이다. Sk는 하나 이상의 패턴을 포함하는 패턴 공간이다. 초기 패턴 공간 S0는 입력 패턴에 의해서 정의되고; 코텍스의 다음 층인 각각의 이하의 심볼 공간은 하나 이상의 미리 정해진 변경 규칙(conversion rules)에 따라, Sk 내의 패턴의 임의의 세트를, Sk +1 내의 패턴의 하나의 세트로 변경하는 "반복 함수(iteration function) Fk" Fk:Sk→Sk +1에 의해 정의되고 생성된다. 임의의 "반복 함수" 내의 변경 규칙은 특정 분야로부터의 콘텐츠 세그먼트와 같은 패턴의 대규모 컬렉션의 패턴의 분류(distribution)에 따라 생성된다. 예를 들면, 대상 분야(domain of interest)가 "이차원의 자연의 사진(2D natural photo)"인 경우, Sk의 몇몇의 큰 N 기술자가 생성되어 S0...SN으로 표시된다. 이들의 예의 콘텐츠 세그먼트는 자연의 이차원 이미지를 포함한다.
일 실시예에 따르면, 코텍스의 데이터 층 Fk의 생성을 위한 반복(iteration)은 이들의 N 기술자의 패턴의 분류에 따라 정의되어 수 개의 스텝을 가진다. 우선, Sk+1는 Sk의 카피로서 초기화된다. 그리고 S1...Sn는 {ci⊂Sk}로 표시되는 Sk 내의 패턴의 공통 조합의 컬렉션을 구축 하기 위해 사용되고, 여기서 ⊂는 부분집합 함수(subset function)이다. 그 후, 각각의 조합 ci{i=1,2,..,N}에 대해서, S1...SN 내의 ci의 확률은 제1 문턱값 T1보다 크고, 새로운 라벨(label)은 Sk +1에 추가되므로, 1씩 공간을 증가시킨다. Sk 내의 각각의 "오리지널 라벨(original label)"은 제2 문턱값 T2보다 큰 {S1...SN}내의 확률을 가진다. 각각의 "오리지널 라벨"은 Sk +1로부터 제거된다. 마지막으로, 각각의 "오리지널 라벨"이 포함된 조합 ci의 수인 Sk 내의 각각의 "오리지널 라벨"은 제3 문턱값 T3보다 크다. 그리고, 각각의 "오리지널 라벨"은 Sk +1로부터 제거된다. 일반적으로, T1, T2, 및 T3은 본 명세서에서 설명되는 예 등의 특정의 확률을 의미하는 수치이다.
Sk +1 내의 각각의 패턴이 Sk 내의 패턴인가, 또는 Sk 내의 패턴의 컬렉션으로서 강하게 정의되거나, 중 어느 하나인 경우, 이러한 처리의 종료 시, 데이터 층 Fk의 일관된 정의(consistent definition)가 달성된다. 따라서, 새로운 패턴이 포함되어야 할 것인지 아닌지를 나타내는 컬렉션에 대해 테스트할 수 있다. 매우 흔히 있던 패턴이 제거되거나 및/또는 다른 패턴의 조합으로 치환된 경우, Sk + 1은 보다 큰 부호 공간(signature-space)이다라는 결과가 된다.
문턱값 파라미터 T1, T2 및 T3은 패턴의 가치를 잃는 일 없이, 동시에 "노이지(noisy)" 패턴을 포함하지 않도록, 주의 깊게 조정 되어야 한다. 계층적인 처리는, 길이가 감소하고 사용되는 고유 심볼의 수가 증가하는 한, 문턱값의 선택과 함께, 원하는 횟수만큼 반복할 수 있다. 각각의 반복은 직전의 데이터 층의 것보다 더욱 간결한 표현인 데이터 층을 생성한다. 즉, 각각의 입력 패턴의 복수의 심볼은 단일의 심볼에 매핑된다.
일 실시예에서, 입력 패턴 또는 입력 데이터는, 예컨대 영어의 문자열, 인간의 얼굴, 클래식 음악 등의 분야에 고유하다. 다른 실시예에서, 분야 별 데이터의 임의의 조합이 사용될 수 있다. 일 실시예에 따르면, 심볼은 심볼이 높은 상관관계를 가진 경우 결합된다. 그렇지만, 심볼은 심볼이 공통의 공기성(common co-occurrence), 즉, 실제로 서로 관련되지 않으면서 함께 출현하는 경향을 나타냄으로써 서로 관련되지 않은 경우라도 결합할 수 있다.
본 명세서에서 설명되는 처리에 대해 적어도 2 가지의 중요한 결과가 있음을 이해해야 한다. 우선, 처리는 확장성이 있다(scalable). 즉, 본 명세서에서 설명되는 처리가 실행된 후, 패턴 공간은 크고 균형을 이루므로, 패턴 공간은 패턴 공간의 서브 범위(sub-range)를 취급하는 각각의 컴퓨터와 함께, 복수의 컴퓨터 간에 균등하게 넓히는(spread) 것을 할 수 있다. 따라서, "루트(route)" 전략은 쿼리 중복(query duplication)보다 쿼리를 위해 사용될 수 있다.
개시된 처리의 다른 중요한 결과는 그 정확성이다. 즉, 데이터 층 반복 구축 처리(data layer iteration-building process)에 있어서, "실재의(real-world)" 데이터 S1...SN의 한 세트는 필요한 통계를 기준으로서 이용하기 위해서 사용될 수 있다. 이것은 본 명세서에 개시된 교시를 적용함으로써, 무작위 표본 내의 덜 대중적인(그리고 이에 따라 더욱 현저한) 패턴에 가중치(weight)가 더 부여되는 것을 의미한다. 이와 같이, 동일한 분야로부터의 입력 콘텐츠 세그먼트를 상정하면, 생성된 데이터 층은 중요한 "검출(detection)" 패턴으로부터 "노이즈(noisy)" 패턴을 분리하기 위해 사용된다. 또한, 개시된 처리에 따라 생성된 데이터 층은 보다 고레벨 개념(higher level concept)에 속하도록 패턴을 인식하는 능력이 있는 뇌기능(brain function)과 같은 기능을 제공한다.
개시된 패턴 인식처리는 빅 데이터의 분석에 있어서 특히 이점이 있는 것을 주목해야 한다. 빅 데이터는 일반적으로, 관련 기술로 설명되는 데이터 처리 애플리케이션과 같이, 수제의 데이터베이스 관리 툴 또는 전통적인 데이터 처리 애플리케이션을 사용해 분석할 수 없는 크기를 갖고 복잡한 데이터 세트의 컬렉션을 참조한다. 상술한 것처럼, 개시된 처리는 크고 균형이 유지된 패턴 공간이 되는 결과가 된다. 따라서, 각각의 컴퓨터가 패턴 공간의 서브 범위를 취급한 경우, 패턴 공간은 복수의 컴퓨터 간에 균등하게 넓혀질 수 있다. 따라서, 개시된 처리는 빅 데이터 분석을 위해서 효과적으로 이용할 수 있다.
이하는 데이터 층을 생성하기 위한 처리의 동작(operation)을 위한 비한정적인(non-limiting) 두 개의 예이다. 제1의 비한정적인 예에 있어서, 도 1에 나타난 바와 같이, 500 개의 심볼의 열(sequence)을 포함한 오리지널 열은 4 가지의 다른 심볼 "R", "G", "B", 및 "Y"를 포함한다. 본 명세서에서 설명되는 처리를 적용하는 것, 즉, 심볼, 패턴, 또는 열을 식별해, 어느 심볼의 열이 다른 심볼에 의해서 치환될 것인지 판정하기 위한 문턱값을 적용하는 것은 결과적으로 도 2에 도시된 테이블이 된다. 이 경우, 두 개나 세 개 중 어느 하나의 심볼의 조합을 나타내는 심볼 열은 입력 열 내의 출현 횟수로서 판정된다. 모든 열이 도 2에 도시된 것은 아니지만, 열의 모든 가능성은 고려됨을 주목하여야 한다. 제일 긴 열은 데이터 자신이다. 그것은 한 번만 출현하고 필요한 반복 문턱값 미만이다.
전형적인 실시 형태에 의하면, 도 2에 나타나는 제1 레벨 테이블은, 예컨대 10 이상인 문턱값인 제1 문턱값 T1을 초과해 출현하는 열만 포함한다. 문턱값 T1을 초과하는 이들의 열로부터, 긴 열을 가지는 이들의 열만은 테이블 내에 나타나는 열을 포함한 경우, 심볼 치환을 위해서 사용된다. 예를 들면, 열 "BYY" 및 "YY"는 종속되지만, 긴 열은 짧은 열보다 선호된다. 따라서, 도 2에 도시된 바와 같이, 열 "YY"가 입력 열로 28회 출현하고 있는 동안, 그것은 8회만 단독으로 출현하고 있는 것에 비해 열 "BYY"는 단독으로 13회 출현하고 있다. 10 이상으로 결정된 문턱값으로, 열 "BYY"가 심볼 "A"에 의해서 치환되는 동안, 열 "YY"는 대용 심볼(substitute symbol)에 의해서 치환되지 않는다. 데이터 층 생성 처리 스텝의 제1 반복 후의 결과 열(resultant sequence)이 도 3에 나타난다. 도 3에 나타나는 열은 4 개의 심볼에서 17 개의 심볼(A, C, D, E, F, H, I, J, K, L, M, N, O, Y, R, G, B)까지의 심볼 공간내의 심볼의 수의 증가, 및 초기의 열의 500 개의 심볼로부터 후속의 열의 283 개의 심볼까지 감축된 열의 심볼의 수에 대응하는 감소를 나타낸다.
처리는 심볼 공간을 확대함으로써 열 내의 심볼의 수를 더욱 감소시키기 위해 추가적인 반복을 실행함과 동시에 계속할 수 있다. 다음 반복에 있어서, (도 3에 도시된) 입력 열은 283 개의 심볼의 감축된 심볼 열을 포함한다. 도 4는 5 이상의 문턱값을 사용함으로써 생성되는 제2 레벨 테이블을 나타낸다. 결과적으로, 심볼의 특정 열(certain sequence)은 대응하는 단일 심볼에 의해서 각각 치환된다. 따라서, 출력 열 내의 심볼의 수를 20 (A, C, D, E, F, H, I, J, K, L, M, N, O, Y, R, G, B, P, S, T)의 심볼 공간과 함께 262 개의 심볼로 감축할 수 있다. 제2의 반복의 결과가 되는 출력 열은 도 5에 나타난다.
그렇지만 다른 반복은 도 6의 테이블에 도시된 바와 같이 문턱값이 3 이상인 경우 개시된 처리에 의해서 수행된다. 심볼의 합성 감축 열(resulatant reduced sequence)은 도 7에 도시되어 있다. 도 6의 "치환 심볼" 칼럼에 심볼로부터 알 수 있듯이, 심볼 공간은 37 개의 심볼로 증가된다. 출력 심볼 열(도 7)은 221 개의 심볼의 길이로 감축된다. 즉, 500 개의 심볼의 오리지널 길이의 절반보다 적다. (도 3, 도 5 및 도 7에 도시된 바와 같은) 각각의 반복에서 생성된 열의 각각의 세트는 데이터 층 또는 코텍스 층 (코텍스의 데이터 층)으로서 참조되는 것에 유의해야 한다.
따라서, 개시된 실시예에 따르면, 상기의 예의 데이터 층의 생성에 대해서, 입력 데이터 층(entry data layer)에 있어서, 4의 심볼 공간을 사용하는 500 개의 심볼의 심볼 열의 세트가 존재하는 것을 이해할 수 있다. 제2 데이터 층에 있어서, 제1 데이터 층의 처리 후, 17의 심볼 공간을 사용하는 283 개의 심볼을 포함하는 심볼의 열이 있다. 제3 데이터 층에 있어서, 제2 데이터 층의 처리 후, 20의 심볼 공간을 사용하는 262 개의 심볼을 포함한 심볼의 열이 있다. 마지막으로, 제4 데이터 층에 있어서, 제3 데이터 층의 처리 후, 37의 심볼 공간을 사용하는 221 개의 심볼을 포함한 심볼의 열이 있다.
일 실시예에서, 심볼은 동시 계속의 미국 특허출원 제12/084,150 호 명세서, 및 미국 특허출원 제12/507,489 호 명세서 뿐만이 아니라, 미국 특허 제 8,112,376 호 명세서, 미국 특허 제 8,266,185 호 명세서, 미국 특허 제 8,312,031 호 명세서, 및 미국 특허 제 8,326,775 호 명세서에 기재되어 있는 부호(signature)에 의해서 치환될 수도 있다. 이들의 모두는 공통의 양수인에게 양도되어 이들의 모두가 포함한 모든 기재는 참조에 의해서, 본 출원에 포함될 수 있다.
개시된 데이터 층 생성 처리의 동작에 대한 제2의 비한정적인 예에 있어서, 4 개의 이미지 심볼, 직선(810), 사각형(820), 원형(830) 및 삼각형(840)은 도 8a 내지 도 8d에 각각 도시되어 있고, 일 실시예에 따라 사용된다. 기본 이미지 심볼(basic image symbols)(810, 820, 830, 840)의 조합은 도 9a 및 도 9b에 각각 도시된, 일 실시예에 따라 사용되는 집(910) 또는 의자(920)라고 하는 다양한 고레벨 이미지 심볼을 가져올 수 있다. 집(910)의 이미지 심볼은 "집"의 심볼 이미지로서 인식되어 특정한 방법으로 결합된 사각형(820-1) 및 삼각형(840-1)으로 구성된다. 이와 유사하게, 의자(920)의 이미지 심볼은 "의자"의 심볼 이미지로서 인식되어 특정한 방법으로 결합된 직선(810-1, 810-2, 810-3, 810-4)의 4 개의 심볼로 구성된다.
일 실시예에 따르면, 4 개의 기본 이미지 심볼(810, 820, 830, 840) 중 어느 하나는 다른 기본 이미지 심볼(810, 820, 830, 840)와 접속포트(connecting port)에서 접속할 수 있다. 접속포트의 예시적이고 비한정적인 기호표시(designation)로서, 다른 포트와 구별 하기 위해 번호가 할당된 각각의 포트는 도 10a 내지 도 10d에 각각 나타난다. 예를 들면, 비한정적으로, 직선(1010)은 1, 2 및 3으로 할당된 3 개의 번호를 갖고, 사각형(1020)은 1, 2, 3, 4, 5, 6, 7 및 8의 번호를 가질 수 있다.
각각의 기본 이미지 심볼(1010, 1020, 1030, 1040)에 대해 할당된 접속포트의 수는 단순한 예에 불과하며, 각각의 이미지 심볼은 보다 적은 또는 보다 많은 접속포트로 구성될 수도 있음을 이해해야 한다. 예를 들면, 각각의 이미지 심볼은 예컨대, 직선은 문자(character) "A", 사각형 "B", 원형 "C", 및 삼각형 "D"를 가지는 등의 식별 문자열(identification character)에 의해서 또한 지정된다. 따라서, 도 9a에 도시된 "집"의 상위 레벨 이미지는 다음과 같이 간결하게 기재될 수 있다
D(4)<0°>B(2)
이것은 이미지 심볼 "D"가 "4" 및 "2"의 포트에서 이미지 심볼 "B"에 상대 배향(relative orientation) 0°로 각각 접속하는 것을 의미한다. 이와 유사하게, 도 9b에 나타나는 "의자"의 상위 레벨 이미지는 다음과 같이 간결하게 기재될 수 있다.
A(3)<[0°>A(1),90°>A(1),(3)<90°>A(1)]
이것은 이미지 심볼 "A"가 포트 3을 통해, 상대 배향 0°로 다른 이미지 심볼 "A"의 포트 1에, 그리고 상대 배향 90°로 다른 이미지 심볼 "A"의 포트 1에 접속되고, 차례로 포트 3을 통해, 상대 배향 90°로 다른 이미지 심볼 "A"의 포트 1에 접속된다.
일 실시예에 따르면, 패턴 식별 및 패턴 추출은 데이터 층(코텍스(Cortex))의 결과로서 가능하다. 도 11a, 도 11b 및 도 11c는 3개의 상위 레벨 심볼, "남성"의 상위 레벨 심볼(1110), "여성"의 상위 레벨 심볼(1120) 및 "개"의 상위 레벨 심볼(1130_을 나타내고, 각각의 상위 레벨 심볼은 도 10에 도시된 기본 이미지 심볼을 포함한다. 따라서, 상기에 기재된 표기 방법을 사용하여, "남성"의 상위 레벨 심볼(1110)은 다음과 같이 기재할 수 있다.
C(6)<90°>A(1),(2)<0°>A(2)
"여성"의 상위 레벨 심볼(1120)은 다음과 같이 기재할 수 있다.
C(6)<90°>A(1),(3)<0°>D(1)
그리고, "개"의 상위 레벨 심볼(1130)은 다음과 같이 기재할 수 있다.
C(6)<90°>A(1),(2)<0°>A(1),(3)<90°>A(2)
일 실시예에 따르면, 공통 패턴은 추출되어 상대 배향 90°로 접속포트 "6"을 통해 직선 "A"의 심볼의 포트 1에 접속하는 원형 "C"의 기본 심볼을 포함한다.
C(6)<90°>A(1)
그리고, 식별된 패턴은 식별된 패턴이 발견된 데이터 층 내의 심볼을 수신한다. 예를 들면, 심볼 Ω은 추출한 공통 패턴 C(6)<90°>A(1)을 치환한다. 따라서, "남성"의 상위 레벨 심볼(1110)은 현재의 데이터 층에 다음과 같이 기재할 수 있다.
Ω(2)<0°>A(2)
"여성"의 상위 레벨 심볼(1120)은 현재의 데이터 층에 다음과 같이 기재할 수 있다.
Ω(3)<0°>D(1)
그리고, "개"의 상위 레벨 심볼(1130)은 현재의 데이터 층에 다음과 같이 기재할 수 있다.
Ω(2)<0°>A(1),(3)<90°>A(2)
따라서, 개시된 처리를 사용함으로써, 심볼의 수는 이 데이터 층에 있어서 증가된다. 그렇지만, 데이터 세트 그 자체는 짧다. 일 실시예에서, 데이터 층은 직전의 데이터 층 내에 있어서 사용된 심볼의 적어도 하나의 컬렉션을 포함한다. 또한, 상기의 예에 있어서, C(6)<90°>A(1)는 공통 패턴이다. 이것은 조합 C(6)<90°>A(1)는 제1 문턱값 T1보다 큰 확률(probability)을 갖는 것을 의미한다. 이와 같이, 새로운 라벨 Ω는 Sk +1에 추가됨으로써, 1씩 심볼 공간이 증가된다. 조합 C 및 A 내의 각각의 요소의 확률은 제2 문턱값 T2보다 현재 크기 때문에, 각각의 "오리지널 라벨(original labels)"(C 및 A)은 Sk +1로부터 제거된다. 따라서, 개시된 처리에 이용된 문턱값은 요소가 후속의 데이터 층에서 발견될 것이라고 하는 일정한 확률에 기초하고 있다.
도 12는 일 실시예에 따라 입력 심볼의 입력 열에 응답하는 데이터 층의 생성을 설명하는 예시적이고 비한정적인 순서도(1200)를 나타낸다. 스텝 S1210에 있어서, 심볼의 열을 포함한 입력이 수신된다. 심볼은 신호(signal) 등의 표현을 포함하는, 문자, 이미지, 사운드, 비디오, 및 기타 입력 열 일 수 있다.
일 실시예에서, 열은 멀티미디어 콘텐츠 요소에 대해 생성된 부호의 세트를 포함한다. 이러한 부호는 위에서 참조한 동시 계속의 미국 특허출원 제12/084,150 호 명세서, 미국 특허출원 제12/507,489 호 명세서뿐만이 아니라, 미국 특허 제 8,112,376 호 명세서, 미국 특허 제 8,266,185 호 명세서, 미국 특허 제 8,312,031 호 명세서, 및 미국 특허 제 8,326,775 호 명세서에서 논의된 바와 같이 생성된다.
스텝 S1220에 있어서, 모든 심볼의 조합, 즉, 미리 정해진 문턱값을 초과하는 빈도(frequency)(출현수(number of appearances))로 출현하는 둘 이상의 심볼이 식별된다. 스텝 S1230에 있어서, 스텝 S1220로 식별된 심볼의 조합의 포함하는 조합 및 파생된 조합은 제거된다. 일 실시예에서, 이것은 사용되는 합성 심볼의 조합(resultant symbol combination)을 또한 필터링 하기 위해, 부가적인 문턱값(예컨대, 상술한 문턱값 T2)의 사용을 추가로 필요로 한다. 예를 들면, 심볼 열 "YYR"는 도 2에 도시된 바와 같이, 입력 열(도 1) 내에 식별되지만, 합성 데이터 층(resultant data layer) 내에 포함되지 않는다.
스텝 S1240에 있어서, 잔존하는 심볼의 조합(remaining symbol combination)은 고유한 새로운 심볼에 의해서 각각 치환된다. 일 실시예에서, 잔존하는 심볼 조합은 입력 열 내의 출현수가, 심볼 조합을 필터링하기 위해 사용되는 미리 정해진 문턱값을 초과하는 심볼 조합이다. 스텝 S1250에 있어서, 심볼의 합성 열은 입력 데이터 층의 후속의 데이터 층으로서 메모리에 저장된다.
스텝 S1260에 있어서, 마지막에 생성되는 데이터 층에 대해, 부가적인 데이터 층이 파생될 것인지 여부를 검사한다. 만일 그렇다면, 스텝 S1210를 실행하고. 심볼의 열의 새로운 입력은 스텝 S1250에 있어서 메모리에 저장된 것이고; 그렇지 않다면, 실행을 종료한다.
도 13은 일 실시예에 따라 입력 심볼의 입력 열로 응답해 데이터 층의 생성을 위한 예시적이고 비한정적인 시스템(1300)을 나타낸다. 시스템(1300)은 컴퓨터의 주요부(computational core)와 같은, 하나 이상의 프로세싱 요소를 포함할 수도 있는 프로세싱 유닛(processing unit, PU)을 포함한다. PU(1310)은 메모리(1320)에 통신 가능하도록 접속된다. 메모리(1320)는 휘발성 메모리 및 비휘발성 메모리 모두로 구성되고, PU(1310)에 근접하거나 또는 PU(1310)로부터 떨어져 있을 수도 있다. 메모리(1320)는 PU(1310)에 의해서 실행될 때에, 순서도(1200)에 대해서, 앞서 상세하게 설명한 적어도 데이터 층 생성 처리를 실행하는, 메모리부(memory portion)(1325) 내의 명령을 포함한다.
입력 심볼의 열은 PU(1310)에 통신 가능하도록 결합된 입출력 인터페이스(Input/Output Inerface)(1330)를 통해 외부 정보원(external source)으로부터 공급될 수도 있고, 또는 메모리(1320)로부터 공급될 수도 있다. 데이터 층을 생성하기 위한 입력 정보원(input source)은, 비한정적으로, 오디오, 비디오, 터치(touch), 냄새, 문자열 등을 포함한다. 또한, 다른 입력 데이터 정보원의 조합 또한 가능하다.
일 실시예에서, 시스템(1300)은 PU(1310) 및/또는 메모리(1320)에 통신 가능하도록 접속되는 부호 생성기(signature generator)(1340)도 포함한다. 부호 생성기(1340)는 입출력 인터페이스(1330)에 접속되는 하나 이상의 정보원을 통해 공급되는 데이터에 응답해 부호를 생성할 수 있다. 생성된 부호는 데이터 층을 생성 하기 위해, PU(1310)에 의해서 처리된다. 부호 생성기(1340) 및 그 기능성을 위한 예시적인 구현은 앞서 참조된 동시 계속의 미국 특허출원 제12/084,150 호 명세서, 미국 특허출원 제12/507,489 호 명세서뿐만 아니라, 미국 특허 제 8,112,376 호 명세서, 미국 특허 제 8,266,185 호 명세서, 미국 특허 제 8,312,031 호 명세서, 및 미국 특허 제 8,326,775 호 명세서에 있어서 적어도 발견할 수 있다.
데이터 층은 복수의 속성(properities)을 지지한다. 고레벨 데이터 층은 더 큰 심볼 공간, 즉, .새로운 층이 생성되도록 보다 큰 심볼 공간을 실연(demonstrate)한다. 또한 데이터 층은 심볼간의 상관관계가 저하하는 동안 심볼이 근접하는 확률을 유지한다. 층화 처리(layering process) 전에 서로 가깝게 있던 심볼은 층화 처리가 실행된 후에도 또한 서로 가깝게 있다.
다른 실시예에 따르면, 데이터 층은 불변성(invariance)을 유지한다. 즉, 보완하는 두 개의 심볼은 불변의 속성(invariant property)을 유지한다. 예를 들면, 입력 데이터(심볼의 열)가 얼굴인 경우, 생성된 데이터 층은 동일한 얼굴의 닫은 눈 또는 열린 눈에 관해 불변이다. 데이터 층의 생성은 다른 정보원으로부터의 입력 패턴의 조합인 공통의 패턴을 포함한다. 데이터 층의 출력은 색인(indices)의 포괄적인 세트(generic set)에 의해서 표현되는 복수의 정보원으로부터의 정보의 융합(fusion)이다.
다른 실시 형태에 의하면, 데이터 층의 모든 속성은 생성된 층에 있어서 중요하다. 즉, 예를 들면, 오디오 정보원은 비디오에 비해 우위(dominant)를 갖고 데이터 층이 관련된 공통의 패턴(relevant common patterns)을 생성함으로써 오디오 패턴을 억제한다. 또한, 두 개의 데이터 정보원이 서로 관련이 있는 경우, 데이터 층은 무상관의 융합 표현(de-correrated fused representation)을 생성한다.
본 명세서에 개시된 다양한 실시 형태는 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 임의의 조합으로서 구현될 수 있다. 또한, 소프트웨어는 프로그램 스토리지 유닛, 또는 컴퓨터 판독 가능한 매체상에 명확하게 구체화되는 응용 프로그램으로서 구현되는 것이 바람직하다. 응용 프로그램은 적절한 아키텍처를 포함한 컴퓨터에 의해서 업로드 및 실행될 수 있다. 컴퓨터는 하나 이상의 중앙 처리 유닛("CPUs"), 메모리, 및 입출력 인터페이스 등의 하드웨어를 가지는 컴퓨터 플랫폼상에 구현되는 것이 바람직하다. 컴퓨터 플랫폼은 OS(operating system) 및 마이크로 명령 코드(microinstruction code)를 포함할 수도 있다. 본 명세서에 기재된 다양한 처리 및 기능은 컴퓨터 또는 프로세서가 명확하게 나타나고 있어도 않아도, CPU에 의해서 실행될 수 있는, 마이크로 명령 코드, 응용 프로그램의 일부, 또는 이들의 임의의 조합 일 수 있다. 또한, 다양한 다른 주변기기(peripheral unit)는 부가적인 데이터 스토리지 유닛 및 인쇄유닛 등의 컴퓨터 플랫폼에 접속될 수 있다. 또한, 비일시적인 컴퓨터 판독 가능한 매체는 신호를 전반하는 일시적인 매체를 제외한, 임의의 컴퓨터 판독 가능한 매체이다.
본 명세서에 열거된 모든 예 및 조건부 언어(conditional language)는 개시된 실시 형태 및 기술을 전진시키기 위한 발명자에 의해서 기여된 개념을 독자가 이해한다고 하는 교육상의 목적이 있어, 구체적으로 열거된 예 및 조건 등에 한정되는 것은 아닌 것으로 간주된다. 또한, 발명의 원리, 발명의 양태, 발명의 실시 형태도, 이들의 특정의 예도 열거하는 본 명세서의 모든 문장은 구조적 및 기능적으로 이들과 균등의 것을 포함하는 의도가 있다. 부가적으로, 균등은 기존의 균등의 것도, 장래에 개발되는 균등의 것, 즉, 구조에 관계없이, 동일한 기능을 발휘하는 개발된 임의의 요소도 포함하는 의도가 있다.

Claims (26)

  1. 프로세싱 유닛;
    상기 프로세싱 유닛에 접속되고, 제1 길이를 갖고 복수의 심볼을 포함하는 입력 열을 수신하는 인터페이스; 및
    상기 프로세싱 유닛에 접속되고, 그 내부에 복수의 명령을 저장하는 메모리를 포함하고,
    상기 복수의 명령은, 상기 프로세싱 유닛에 의해 실행되는 경우,
    상기 입력 열 내의 모든 공통 패턴을 추출하고, 상기 공통 패턴은 적어도 2 이상의 심볼을 포함하고,
    상기 모든 공통 패턴의 추출에 응답하여 출력 열을 생성하고, 상기 출력 열은 상기 제1 길이보다 짧은 제2 길이를 갖고,
    상기 출력 열을 데이터 층으로서 상기 메모리에 저장하고,
    상기 출력 열을 데이터 층의 후속의 생성을 위한 새로운 입력 열로서 제공하는 패턴의 심볼 공간 기반의 압축을 위한 장치.
  2. 제1항에 있어서,
    상기 출력 열을 생성하는 것은,
    미리 정해진 문턱 값보다 길이가 짧은 공통 패턴을 제거하는 것을 더 포함하는 패턴의 심볼 공간 기반의 압축을 위한 장치.
  3. 제2항에 있어서,
    상기 출력 열을 생성하는 것은,
    제2 공통 패턴 내에 포함되는 제1 공통 패턴을 제거하는 것을 더 포함하고, 상기 제2 공통 패턴은 상기 제1 공통 패턴보다 더 긴 패턴의 심볼 공간 기반의 압축을 위한 장치.
  4. 제1항에 있어서,
    상기 복수의 심볼의 각각의 심볼은, 문자, 이미지, 오디오 신호, 비디오 신호 및 유형의 신호의 표현 중 어느 하나인 패턴의 심볼 공간 기반의 압축을 위한 장치.
  5. 제1항에 있어서,
    상기 프로세싱 유닛 및 상기 메모리에 통신 가능하도록 접속되는 부호 생성기(signature generator)를 더 포함하고,
    상기 부호 생성기는 적어도 하나의 심볼에 응답하여 적어도 하나의 부호를 생성하고,
    상기 부호 생성기에 의해 생성된 상기 부호는 상기 입력 열로서 상기 장치에 의해 처리되는 패턴의 심볼 공간 기반의 압축을 위한 장치.
  6. 제1항에 있어서,
    각각의 생성된 데이터 층은 상기 데이터 층에 사용되는 심볼의 컬렉션(collection)을 포함하는 패턴의 심볼 공간 기반의 압축을 위한 장치.
  7. 제6항에 있어서,
    생성된 데이터 층의 심볼 공간은, 후속으로 생성된 임의의 데이터 층에 대해 생성된 심볼 공간보다 작은 패턴의 심볼 공간 기반의 압축을 위한 장치.
  8. 제6항에 있어서,
    생성된 데이터 층은 후속으로 생성된 임의의 데이터 층보다 가변인(less invariant) 패턴의 심볼 공간 기반의 압축을 위한 장치.
  9. 제6항에 있어서,
    생성된 데이터 층은 후속으로 생성된 임의의 데이터 층보다 반복 가능하지 않는(less repeatable) 패턴의 심볼 공간 기반의 압축을 위한 장치.
  10. 제6항에 있어서,
    생성된 데이터 층은 후속으로 생성된 임의의 데이터 층보다 상관관계가 있는(less de-correlated) 패턴의 심볼 공간 기반의 압축을 위한 장치.
  11. 제6항에 있어서,
    생성된 데이터 층은 후속으로 생성된 임의의 데이터 층보다 균형이 유지되지 않는(less balanced) 패턴의 심볼 공간 기반의 압축을 위한 장치.
  12. 입력 열을 수신하고, 상기 입력 열은 제1 길이를 갖고 복수의 심볼을 포함하고,
    상기 입력 열 내의 모든 공통 패턴을 추출하고, 상기 공통 패턴은 적어도 2 이상의 심볼을 포함하고,
    상기 모든 공통 패턴의 추출에 응답하여 출력 열을 생성하고, 상기 출력 열은 상기 제1 길이보다 짧은 제2 길이를 갖고,
    상기 출력 열은 데이터 층으로서 메모리에 저장하는 것을 포함하고,
    상기 출력 열은 데이터 층의 후속의 생성을 위한 새로운 입력 열로서 제공되는 패턴의 심볼 공간 기반의 압축을 위한 컴퓨터화된 방법.
  13. 제12항에 있어서,
    상기 출력 열을 생성하는 것은,
    미리 정해진 문턱 값보다 길이가 짧은 공통 패턴을 제거하는 것을 더 포함하는 패턴의 심볼 공간 기반의 압축을 위한 컴퓨터화된 방법.
  14. 제13항에 있어서,
    상기 출력 열을 생성하는 것은,
    제2 공통 패턴 내에 포함되는 제1 공통 패턴을 제거하는 것을 더 포함하고, 상기 제2 공통 패턴은 상기 제1 공통 패턴보다 더 긴 패턴의 심볼 공간 기반의 압축을 위한 컴퓨터화된 방법.
  15. 제12항에 있어서,
    상기 심볼은, 문자, 이미지, 오디오 신호, 비디오 신호 및 유형의 신호의 표현 중 어느 하나인 패턴의 심볼 공간 기반의 압축을 위한 컴퓨터화된 방법.
  16. 제12항에 있어서,
    적어도 하나의 심볼에 응답하여 적어도 하나의 부호를 생성하는 것을 더 포함하고,
    상기 부호는 상기 입력 열로서 처리되는 패턴의 심볼 공간 기반의 압축을 위한 컴퓨터화된 방법.
  17. 제12항에 있어서,
    각각의 생성된 데이터 층은 상기 데이터 층에 사용되는 심볼의 컬렉션(collection)을 포함하는 패턴의 심볼 공간 기반의 압축을 위한 컴퓨터화된 방법.
  18. 제17항에 있어서,
    생성된 데이터 층의 심볼 공간은, 후속으로 생성된 임의의 데이터 층에 대해 생성된 심볼 공간보다 작은 패턴의 심볼 공간 기반의 압축을 위한 컴퓨터화된 방법.
  19. 제17항에 있어서,
    생성된 데이터 층은 후속으로 생성된 임의의 데이터 층보다 가변인(less invariant) 패턴의 심볼 공간 기반의 압축을 위한 컴퓨터화된 방법.
  20. 제17항에 있어서,
    생성된 데이터 층은 후속으로 생성된 임의의 데이터 층보다 반복 가능하지 않는(less repeatable) 패턴의 심볼 공간 기반의 압축을 위한 컴퓨터화된 방법.
  21. 제17항에 있어서,
    생성된 데이터 층은 후속으로 생성된 임의의 데이터 층보다 상관관계가 있는(less de-correlated) 패턴의 심볼 공간 기반의 압축을 위한 컴퓨터화된 방법.
  22. 제17항에 있어서,
    생성된 데이터 층은 후속으로 생성된 임의의 데이터 층보다 균형이 유지되지 않는(less balanced) 패턴의 심볼 공간 기반의 압축을 위한 컴퓨터화된 방법.
  23. 컴퓨터 상에서 실행되는 경우 제12항의 방법을 수행하는 명령을 포함하는 비 일시적인(non-transient) 컴퓨터로 판독 가능한 매체에 내장된 컴퓨터 소프트웨어 제품.
  24. 입력 열에 응답하여 코텍스(Cortex) 함수에 의해 순차적으로 생성된 복수의 데이터 층을 저장하는 메모리 유닛을 포함하고,
    각각의 데이터 층은 상기 데이터 층에 사용되는 심볼의 컬렉션(collection)을 포함하고,
    생성된 각각의 데이터 층의 심볼 공간은, 후속으로 생성된 임의의 데이터 층에 대해 생성된 심볼 공간보다 작고,
    생성된 각각의 데이터 층은 후속으로 생성된 임의의 데이터 층보다 가변이고(less invariant), 반복 가능하지 않고(less repeatable), 상관관계가 있고(less de-correlated), 균형이 유지되지 않는(less balanced) 빅 데이터 기억 장치 시스템.
  25. 제24항에 있어서,
    데이터 층의 심볼은, 문자, 이미지, 오디오 신호, 비디오 신호 및 유형의 신호의 표현 중 어느 하나인 빅 데이터 기억 장치 시스템.
  26. 제24항에 있어서,
    상기 심볼은 상기 심볼에 대해 부호 생성기(signature generator)에 의해 생성된 적어도 하나의 부호를 포함하는 빅 데이터 기억 장치 시스템.
KR1020157025153A 2013-02-12 2013-06-17 심볼 공간 기반의 패턴 압축을 위한 다층 시스템 KR101655835B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361763554P 2013-02-12 2013-02-12
US61/763,554 2013-02-12
PCT/US2013/046155 WO2014126600A1 (en) 2013-02-12 2013-06-17 A multi-layer system for symbol-space based compression of patterns

Publications (2)

Publication Number Publication Date
KR20150127101A true KR20150127101A (ko) 2015-11-16
KR101655835B1 KR101655835B1 (ko) 2016-09-08

Family

ID=51297113

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157025153A KR101655835B1 (ko) 2013-02-12 2013-06-17 심볼 공간 기반의 패턴 압축을 위한 다층 시스템

Country Status (7)

Country Link
US (4) US8922414B2 (ko)
JP (1) JP5922841B2 (ko)
KR (1) KR101655835B1 (ko)
CN (1) CN104583972B (ko)
DE (1) DE112013006650T5 (ko)
GB (1) GB2515938B (ko)
WO (1) WO2014126600A1 (ko)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9330189B2 (en) * 2005-10-26 2016-05-03 Cortica, Ltd. System and method for capturing a multimedia content item by a mobile device and matching sequentially relevant content to the multimedia content item
US9558449B2 (en) 2005-10-26 2017-01-31 Cortica, Ltd. System and method for identifying a target area in a multimedia content element
US11003706B2 (en) 2005-10-26 2021-05-11 Cortica Ltd System and methods for determining access permissions on personalized clusters of multimedia content elements
US9529984B2 (en) 2005-10-26 2016-12-27 Cortica, Ltd. System and method for verification of user identification based on multimedia content elements
US10635640B2 (en) 2005-10-26 2020-04-28 Cortica, Ltd. System and method for enriching a concept database
US10535192B2 (en) 2005-10-26 2020-01-14 Cortica Ltd. System and method for generating a customized augmented reality environment to a user
US9953032B2 (en) 2005-10-26 2018-04-24 Cortica, Ltd. System and method for characterization of multimedia content signals using cores of a natural liquid architecture system
US11032017B2 (en) 2005-10-26 2021-06-08 Cortica, Ltd. System and method for identifying the context of multimedia content elements
US9191626B2 (en) 2005-10-26 2015-11-17 Cortica, Ltd. System and methods thereof for visual analysis of an image on a web-page and matching an advertisement thereto
US11019161B2 (en) 2005-10-26 2021-05-25 Cortica, Ltd. System and method for profiling users interest based on multimedia content analysis
US10360253B2 (en) 2005-10-26 2019-07-23 Cortica, Ltd. Systems and methods for generation of searchable structures respective of multimedia data content
US10191976B2 (en) 2005-10-26 2019-01-29 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US11403336B2 (en) 2005-10-26 2022-08-02 Cortica Ltd. System and method for removing contextually identical multimedia content elements
US10380164B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for using on-image gestures and multimedia content elements as search queries
US9747420B2 (en) 2005-10-26 2017-08-29 Cortica, Ltd. System and method for diagnosing a patient based on an analysis of multimedia content
US10776585B2 (en) 2005-10-26 2020-09-15 Cortica, Ltd. System and method for recognizing characters in multimedia content
US10585934B2 (en) 2005-10-26 2020-03-10 Cortica Ltd. Method and system for populating a concept database with respect to user identifiers
US9646005B2 (en) 2005-10-26 2017-05-09 Cortica, Ltd. System and method for creating a database of multimedia content elements assigned to users
US11604847B2 (en) 2005-10-26 2023-03-14 Cortica Ltd. System and method for overlaying content on a multimedia content element based on user interest
US8312031B2 (en) 2005-10-26 2012-11-13 Cortica Ltd. System and method for generation of complex signatures for multimedia data content
US9639532B2 (en) 2005-10-26 2017-05-02 Cortica, Ltd. Context-based analysis of multimedia content items using signatures of multimedia elements and matching concepts
US9477658B2 (en) 2005-10-26 2016-10-25 Cortica, Ltd. Systems and method for speech to speech translation using cores of a natural liquid architecture system
US10742340B2 (en) 2005-10-26 2020-08-11 Cortica Ltd. System and method for identifying the context of multimedia content elements displayed in a web-page and providing contextual filters respective thereto
US11386139B2 (en) 2005-10-26 2022-07-12 Cortica Ltd. System and method for generating analytics for entities depicted in multimedia content
US11620327B2 (en) 2005-10-26 2023-04-04 Cortica Ltd System and method for determining a contextual insight and generating an interface with recommendations based thereon
US10621988B2 (en) 2005-10-26 2020-04-14 Cortica Ltd System and method for speech to text translation using cores of a natural liquid architecture system
US10698939B2 (en) 2005-10-26 2020-06-30 Cortica Ltd System and method for customizing images
US10949773B2 (en) 2005-10-26 2021-03-16 Cortica, Ltd. System and methods thereof for recommending tags for multimedia content elements based on context
US8326775B2 (en) 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US10193990B2 (en) 2005-10-26 2019-01-29 Cortica Ltd. System and method for creating user profiles based on multimedia content
US10691642B2 (en) 2005-10-26 2020-06-23 Cortica Ltd System and method for enriching a concept database with homogenous concepts
US11361014B2 (en) 2005-10-26 2022-06-14 Cortica Ltd. System and method for completing a user profile
US10380623B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for generating an advertisement effectiveness performance score
US9767143B2 (en) 2005-10-26 2017-09-19 Cortica, Ltd. System and method for caching of concept structures
US9372940B2 (en) 2005-10-26 2016-06-21 Cortica, Ltd. Apparatus and method for determining user attention using a deep-content-classification (DCC) system
US8266185B2 (en) 2005-10-26 2012-09-11 Cortica Ltd. System and methods thereof for generation of searchable structures respective of multimedia data content
US9031999B2 (en) 2005-10-26 2015-05-12 Cortica, Ltd. System and methods for generation of a concept based database
US10372746B2 (en) 2005-10-26 2019-08-06 Cortica, Ltd. System and method for searching applications using multimedia content elements
US10614626B2 (en) 2005-10-26 2020-04-07 Cortica Ltd. System and method for providing augmented reality challenges
US9466068B2 (en) 2005-10-26 2016-10-11 Cortica, Ltd. System and method for determining a pupillary response to a multimedia data element
US10380267B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for tagging multimedia content elements
US11216498B2 (en) 2005-10-26 2022-01-04 Cortica, Ltd. System and method for generating signatures to three-dimensional multimedia data elements
US10387914B2 (en) 2005-10-26 2019-08-20 Cortica, Ltd. Method for identification of multimedia content elements and adding advertising content respective thereof
US9384196B2 (en) 2005-10-26 2016-07-05 Cortica, Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US9286623B2 (en) 2005-10-26 2016-03-15 Cortica, Ltd. Method for determining an area within a multimedia content element over which an advertisement can be displayed
US9396435B2 (en) 2005-10-26 2016-07-19 Cortica, Ltd. System and method for identification of deviations from periodic behavior patterns in multimedia content
US9218606B2 (en) 2005-10-26 2015-12-22 Cortica, Ltd. System and method for brand monitoring and trend analysis based on deep-content-classification
US9489431B2 (en) 2005-10-26 2016-11-08 Cortica, Ltd. System and method for distributed search-by-content
US10607355B2 (en) 2005-10-26 2020-03-31 Cortica, Ltd. Method and system for determining the dimensions of an object shown in a multimedia content item
US10848590B2 (en) 2005-10-26 2020-11-24 Cortica Ltd System and method for determining a contextual insight and providing recommendations based thereon
US8818916B2 (en) 2005-10-26 2014-08-26 Cortica, Ltd. System and method for linking multimedia data elements to web pages
US10180942B2 (en) 2005-10-26 2019-01-15 Cortica Ltd. System and method for generation of concept structures based on sub-concepts
US10733326B2 (en) 2006-10-26 2020-08-04 Cortica Ltd. System and method for identification of inappropriate multimedia content
US8922414B2 (en) * 2013-02-12 2014-12-30 Cortica, Ltd. Multi-layer system for symbol-space based compression of patterns
US10061822B2 (en) * 2013-07-26 2018-08-28 Genesys Telecommunications Laboratories, Inc. System and method for discovering and exploring concepts and root causes of events
US9971764B2 (en) 2013-07-26 2018-05-15 Genesys Telecommunications Laboratories, Inc. System and method for discovering and exploring concepts
IT201800006644A1 (it) * 2018-07-09 2020-01-09 Carlo Amanti Metodo per la rappresentazione simbolica di oggetti geometrici digitali

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006287518A (ja) * 2005-03-31 2006-10-19 Fujitsu Ltd 圧縮規則生成方法、圧縮通信装置及びプログラム
WO2011105463A1 (ja) * 2010-02-23 2011-09-01 日本電気株式会社 データ圧縮装置、データ圧縮方法およびプログラム記憶媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5915041A (en) 1993-03-04 1999-06-22 Unisys Corporation Method and apparatus for efficiently decoding variable length encoded data
US5666114A (en) 1994-11-22 1997-09-09 International Business Machines Corporation Method and means for managing linear mapped address spaces storing compressed data at the storage subsystem control unit or device level
JP3111958B2 (ja) 1997-12-26 2000-11-27 日本電気株式会社 パタン符号化を用いた符号化装置及び符号化方法
US6208273B1 (en) 1999-01-29 2001-03-27 Interactive Silicon, Inc. System and method for performing scalable embedded parallel data compression
DE60100416T2 (de) * 2000-04-28 2004-06-09 Matsushita Electric Industrial Co., Ltd., Kadoma Dekoder für Kode variabler Länge
US6362756B1 (en) 2001-03-28 2002-03-26 Hewlett-Packard Company System and method for compressing data
US7126500B2 (en) 2002-06-26 2006-10-24 Microsoft Corporation Method and system for selecting grammar symbols for variable length data compressors
US7546158B2 (en) 2003-06-05 2009-06-09 The Regents Of The University Of California Communication methods based on brain computer interfaces
US8266185B2 (en) 2005-10-26 2012-09-11 Cortica Ltd. System and methods thereof for generation of searchable structures respective of multimedia data content
US9143160B2 (en) 2010-09-03 2015-09-22 Telefonaktiebolaget L M Ericsson (Publ) Co-compression and co-decompression of data values
CN102033924B (zh) * 2010-12-08 2012-10-31 浪潮(北京)电子信息产业有限公司 一种数据存储方法和系统
EP2530843A3 (en) 2011-06-03 2013-01-02 Alcatel Lucent Dictionary based data compression
JP6123975B2 (ja) 2011-07-29 2017-05-10 パナソニックIpマネジメント株式会社 特徴量抽出装置及び特徴量抽出方法
US8922414B2 (en) * 2013-02-12 2014-12-30 Cortica, Ltd. Multi-layer system for symbol-space based compression of patterns

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006287518A (ja) * 2005-03-31 2006-10-19 Fujitsu Ltd 圧縮規則生成方法、圧縮通信装置及びプログラム
WO2011105463A1 (ja) * 2010-02-23 2011-09-01 日本電気株式会社 データ圧縮装置、データ圧縮方法およびプログラム記憶媒体

Also Published As

Publication number Publication date
GB201417750D0 (en) 2014-11-19
KR101655835B1 (ko) 2016-09-08
JP5922841B2 (ja) 2016-05-24
CN104583972B (zh) 2016-05-11
JP2015519828A (ja) 2015-07-09
US9691164B2 (en) 2017-06-27
US9438270B2 (en) 2016-09-06
CN104583972A (zh) 2015-04-29
US20140225757A1 (en) 2014-08-14
GB2515938B (en) 2016-02-10
US8922414B2 (en) 2014-12-30
US20160328863A1 (en) 2016-11-10
US9197244B2 (en) 2015-11-24
US20150102948A1 (en) 2015-04-16
US20160079997A1 (en) 2016-03-17
WO2014126600A1 (en) 2014-08-21
DE112013006650T5 (de) 2015-12-31
GB2515938A (en) 2015-01-07

Similar Documents

Publication Publication Date Title
KR101655835B1 (ko) 심볼 공간 기반의 패턴 압축을 위한 다층 시스템
CN108804530B (zh) 对图像的区域加字幕
Jaderberg et al. Reading text in the wild with convolutional neural networks
Wang et al. Contextual weighting for vocabulary tree based image retrieval
Li et al. Mid-level deep pattern mining
Penatti et al. Visual word spatial arrangement for image retrieval and classification
Hu et al. Learning spatial-temporal features for video copy detection by the combination of CNN and RNN
Liu et al. Contextual hashing for large-scale image search
Pedrosa et al. From bag-of-visual-words to bag-of-visual-phrases using n-grams
CN111782768B (zh) 基于双曲空间表示和标签文本互动的细粒度实体识别方法
JP5523543B2 (ja) 共学習に基づく概念認識方法および概念認識装置
CN109344403A (zh) 一种增强语义特征嵌入的文本表示方法
CN113487024A (zh) 交替序列生成模型训练方法、从文本中抽取图的方法
Sitaula et al. Content and context features for scene image representation
Phan et al. Action recognition based on motion of oriented magnitude patterns and feature selection
CN114328988A (zh) 多媒体数据的特征提取方法、多媒体数据检索方法及装置
Dong et al. Holons visual representation for image retrieval
Zhang et al. Towards optimal VLAD for human action recognition from still images
Zhu et al. Multi‐image matching for object recognition
Gupta et al. Recognition of varying size scene images using semantic analysis of deep activation maps
Wang et al. Improving feature matching strategies for efficient image retrieval
CN110047569A (zh) 基于胸片报告生成问答数据集的方法、装置及介质
Chaudhuri et al. GuCNet: A guided clustering-based network for improved classification
CN110298228A (zh) 一种多目标图像检索方法
Cui et al. Multi-modality frequency-aware cross attention network for fake news detection

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190903

Year of fee payment: 4