KR102403330B1 - 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법 - Google Patents

텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법 Download PDF

Info

Publication number
KR102403330B1
KR102403330B1 KR1020170152299A KR20170152299A KR102403330B1 KR 102403330 B1 KR102403330 B1 KR 102403330B1 KR 1020170152299 A KR1020170152299 A KR 1020170152299A KR 20170152299 A KR20170152299 A KR 20170152299A KR 102403330 B1 KR102403330 B1 KR 102403330B1
Authority
KR
South Korea
Prior art keywords
text data
virtual
computer
phonetic
readable storage
Prior art date
Application number
KR1020170152299A
Other languages
English (en)
Other versions
KR20190055499A (ko
Inventor
고경표
Original Assignee
주식회사 세진마인드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 세진마인드 filed Critical 주식회사 세진마인드
Priority to KR1020170152299A priority Critical patent/KR102403330B1/ko
Priority to PCT/KR2017/015627 priority patent/WO2019098454A1/ko
Priority to US16/760,003 priority patent/US11373043B2/en
Publication of KR20190055499A publication Critical patent/KR20190055499A/ko
Application granted granted Critical
Publication of KR102403330B1 publication Critical patent/KR102403330B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Abstract

본 개시내용의 일 실시예에 따라 컴퓨팅 장치에서 수행되는, 텍스트 지문(text fingerprint)을 생성 및 활용하는 방법이 개시된다. 상기 방법은: 사전결정된 텍스트 분할 알고리즘에 기초하여, 텍스트 데이터를 하나 이상의 세그먼트들로 분할하는 단계, 사전결정된 맵핑 알고리즘에 기초하여, 상기 분할된 세그먼트를 구성하는 하나 이상의 서브세그먼트들에 할당된 맵핑 값을 결정하는 단계, 상기 결정된 맵핑 값에 기초하여, 상기 하나 이상의 세그먼트들 각각에 대한 좌표 값을 생성하는 단계, 및 상기 생성된 좌표 값에 기초하여, 상기 텍스트 데이터에 대한 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 단계를 포함할 수 있다. 즉, 사람마다 고유의 지문을 가지듯이 텍스트 데이터 또한 발음을 기준으로 한 고유의 가상 핑거프린트를 갖는 경우, 복수의 텍스트 데이터들 간의 유사 여부가 용이하게 판단될 수 있다.

Description

텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법{TECHNIQUE FOR GENERATING AND UTILIZING VIRTUAL FINGERPRINT REPRESENTING TEXT DATA}
본 발명은 컴퓨터 분야에 관한 것이며, 보다 구체적으로 텍스트 데이터의 처리에 관한 것이다.
머신러닝(machine learning)은 데이터를 이용한 모델링 기법으로서, 임의의 형태의 데이터를 이용하여 모델을 학습 또는 찾아가는 기법으로 정의될 수 있다. 머신러닝에서 사용되는 데이터는 트레이닝(training) 데이터로 정의될 수 있으며, 컴퓨팅 장치가 이러한 트레이닝 데이터를 활용하여 원하는 모델을 구축하는 것이 머신러닝의 핵심 개념이다.
딥러닝(심층학습, deep learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstraction, 다량의 데이터나 복잡한 자료들 속에서 특징, 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 머신러닝 알고리즘의 집합으로 정의될 수 있으며, 사람의 사고방식을 컴퓨터에게 가르치는 머신러닝의 한 분야이다. 딥러닝은 기계로부터 만들어진 지능을 의미하는 인공지능과 함께 산업 전반에 사용되고 있다.
수 년 전부터 전 세계적으로 주목받아 온 딥러닝은 이제 인공지능 및 머신러닝 분야에서 가장 중요한 방법론이 되었다. 딥러닝은 딥 뉴럴 네트워크(DNN, deep neural networks)를 이용하는 머신러닝으로서, 데이터로부터 원하는 형태의 모델을 찾아가는 기법이다. 뉴럴 네트워크의 각 레이어는 하위 레이어에서 추출한 정보를 전달받은 후 이를 이용해 좀 더 추상화된 정보를 생성해 상위 레이어 전달한다. 여러 계층으로 구성된 뉴럴 네트워크는 여러 번의 추상화를 통해 매우 높은 수준의 특징을 추출할 수 있다. 고수준의 특징은 저수준의 특징보다 많은 정보를 포함하면서도 변이에도 강하기 때문에, 이를 이용해 인식을 수행할 경우 높고 안정적인 성능을 얻을 수 있다.
과거에는 방향성 소실 문제(Diminishing gradient problem) 등 이론적 문제와 학습 데이터 수집의 어려움, 계산 성능의 한계 등 여러 문제로 인해 딥 뉴럴 네트워크를 사용하는데 어려움이 있었다. 최근 들어, 새로운 학습 알고리즘이 개발되고 대용량 데이터 처리를 위한 기술이 발전함에 따라 이론적, 현실적 문제들이 극복되기 시작하면서 딥러닝은 다양한 분야에서 뛰어난 성능을 보이고 있다.
특히, 컨볼루션 뉴럴 네트워크(CNN, Convolutional Neural Networks)는 특징(feature) 추출 단계와 지식(knowledge) 학습 단계가 딥 러닝 알고리즘 안에 포함된 딥러닝 방법론 중 하나로서, 현재 분류(classification) 알고리즘 분야에서의 활용도가 높은 것으로 평가되고 있다.
컨볼루션 뉴럴 네트워크의 기원은 1980년대 Fukushima가 동물의 시각 처리과정을 모방해 만든 Neocognitron이다. 그 후, 1990년대에 LeCun이 기울기 기반 학습 알고리즘(gradient-based learning algorithm)을 성공적으로 적용함으로써 현실적인 문제에 널리 사용되기 시작했다. 컨볼루션 뉴럴 네트워크의 성능은 많은 연구자들의 관심을 끌었고, 이에 따라 컨볼루션 뉴럴 네트워크를 개선하거나 새로운 문제에 적용하기 위한 연구가 활발히 진행되고 있다. 이러한 연구 결과를 바탕으로 다양한 형태의 실제 제품 및 서비스에 적용하기 위한 시도가 대두되고 있다.
한국 특허 등록 번호 제10-1769918호는 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식 장치를 제시하고 있다.
본 개시내용은 전술한 배경기술에 따라 안출된 것으로서, 본 개시내용의 다양한 목적들 중 하나는, 텍스트 데이터를 표현하는 텍스트 지문(text finger print)을 생성하여 이를 다양한 형태로 활용하기 위한 것이다.
본 개시내용의 일 실시예에 따라, 인코딩된 명령들을 포함하는 컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램이 개시된다. 컴퓨터 프로그램은 컴퓨터 시스템의 하나 이상의 프로세서들에 의해 실행되는 경우, 상기 하나 이상의 프로세서들로 하여금 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 방법을 수행하도록 하며, 상기 방법은: 사전결정된 텍스트 분할 알고리즘에 기초하여, 텍스트 데이터를 하나 이상의 세그먼트(segment)들로 분할하는 단계; 사전결정된 맵핑 알고리즘에 기초하여, 상기 분할된 세그먼트를 구성하는 하나 이상의 서브세그먼트(subsegment)들에 할당된 맵핑 값을 결정하는 단계; 상기 결정된 맵핑 값에 기초하여, 상기 하나 이상의 세그먼트들 각각에 대한 좌표 값을 생성하는 단계; 및 상기 생성된 좌표 값에 기초하여, 상기 텍스트 데이터에 대한 음성학적(phonetic) 특징을 갖는 가상 핑거프린트를 생성하는 단계를 포함할 수 있다.
본 개시내용의 다른 실시예에 따라, 텍스트 지문(text finger print)을 생성 및 활용하는 방법을 구현하기 위한 컴퓨팅 장치가 개시된다. 상기 컴퓨팅 장치는 하나 이상의 프로세서; 및 상기 하나 이상의 프로세서에서 실행가능한 명령들을 저장하는 메모리를 포함할 수 있다. 상기 하나 이상의 프로세서는: 사전결정된 텍스트 분할 알고리즘에 기초하여, 텍스트 데이터를 하나 이상의 세그먼트들로 분할하고; 사전결정된 맵핑 알고리즘에 기초하여, 상기 분할된 세그먼트를 구성하는 하나 이상의 서브세그먼트들에 할당된 맵핑 값을 결정하고; 상기 결정된 맵핑 값에 기초하여, 상기 하나 이상의 세그먼트들 각각에 대한 좌표 값을 생성하고; 및 상기 생성된 좌표 값에 기초하여, 상기 텍스트 데이터에 대한 음성학적 특징을 갖는 가상 핑거프린트를 생성할 수 있다.
본 개시내용의 다른 실시예에 따라, 컴퓨팅 장치에서 수행되는, 텍스트 지문(text fingerprint)을 생성 및 활용하는 방법이 개시된다. 상기 방법은: 사전결정된 텍스트 분할 알고리즘에 기초하여, 텍스트 데이터를 하나 이상의 세그먼트들로 분할하는 단계; 사전결정된 맵핑 알고리즘에 기초하여, 상기 분할된 세그먼트를 구성하는 하나 이상의 서브세그먼트들에 할당된 맵핑 값을 결정하는 단계; 상기 결정된 맵핑 값에 기초하여, 상기 하나 이상의 세그먼트들 각각에 대한 좌표 값을 생성하는 단계; 및 상기 생성된 좌표 값에 기초하여, 상기 텍스트 데이터에 대한 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 단계를 포함할 수 있다.
본 개시내용의 다양한 효과들 중 하나에 따르면, 텍스트 데이터를 표현하는 텍스트 지문가 생성되어 다양한 형태로 활용될 수 있다.
상기 언급된 본 개시내용의 특징들이 상세하게, 보다 구체화된 설명으로, 이하의 실시예들을 참조하여 이해될 수 있도록, 실시예들 중 일부는 첨부되는 도면에서 도시된다. 또한, 도면과의 유사한 참조번호는 여러 실시예들에 걸쳐서 동일하거나 유사한 기능을 지칭하는 것으로 의도된다. 그러나, 첨부된 도면들은 단지 본 개시내용의 특정한 전형적인 실시예들만을 도시하는 것일 뿐, 본 발명의 범위를 한정하는 것으로 고려되지는 않으며, 동일한 효과를 갖는 다른 실시예들이 충분히 인식될 수 있다는 점을 유의하도록 한다.
도 1은 본 개시내용의 일 실시예에 따라 텍스트 데이터를 가상 핑거프린트로 표현하고 이를 활용하는 컴퓨팅 장치에 대한 개략도를 도시한다.
도 2는 본 개시내용의 일 실시예에 따라 텍스트 데이터를 가상 핑거프린트로 표현하는 예시적인 흐름도를 도시한다.
도 3은 본 개시내용의 일 실시예에 따라 텍스트 데이터를 가상 핑거프린트로 표현하고 이를 활용하는 예시적인 방법을 도시한다.
도 4는 본 개시내용의 일 실시예에 따라 가상 핑거프린트로 표현된 텍스트 데이터에 대한 예시적인 트레이닝 프로세스를 도시한다.
도 5는 본 개시내용의 일 실시예에 따라 트레이닝된 딥러닝 네트워크를 통해 텍스트 데이터들을 비교하는 예시적인 방법을 도시한다.
도 6a는 본 개시내용의 일 실시예에 따라 가상 핑거프린트로 표현된 텍스트 데이터를 예시적으로 도시한다.
도 6b는 본 개시내용의 일 실시예에 따라 가상 핑거프린트로 표현된 텍스트 데이터들을 비교하는 방식을 예시적으로 도시한다.
도 6c는 본 개시내용의 일 실시예에 따라 가상 핑거프린트로 표현된 텍스트 데이터를 예시적으로 도시한다.
도 7은 본 개시내용의 일 실시예에 따라 가상 핑거프린트로 표현된 텍스트 데이터를 예시적으로 도시한다.
도 8은 본 개시내용의 일 실시예에 따라 라벨링된 트레이닝 데이터가 딥 뉴럴 네트워크를 통해 트레이닝되는 예시적인 프로세스를 도시한다.
도 9는 본 개시내용의 일 실시예에 따라 딥 뉴럴 네트워크를 통해 가상 핑거프린트로 표현된 텍스트 데이터의 특징이 추출되는 예시적인 프로세스를 도시한다.
도 10은 본 개시내용의 일 실시예에 따라 텍스트 데이터를 가상 핑거프린트로 표현하고 이를 활용하는 예시적인 수단을 도시한다.
도 11은 본 개시내용의 일 실시예에 따라 텍스트 데이터를 가상 핑거프린트로 표현하고 이를 활용하는 예시적인 로직을 도시한다.
도 12는 본 개시내용의 일 실시예에 따른 컴퓨팅 장치의 예시적인 블록 구성도(block diagram)를 도시한다.
다양한 실시예들 및/또는 양상들이 이제 도면들을 참조하여 개시된다. 하기 설명에서는 설명을 목적으로, 하나 이상의 양상들의 전반적 이해를 돕기 위해 다수의 구체적인 세부사항들이 개시된다. 그러나, 이러한 양상(들)은 이러한 구체적인 세부사항들 없이도 실행될 수 있다는 점 또한 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 인식될 수 있을 것이다. 이후의 기재 및 첨부된 도면들은 하나 이상의 양상들의 특정한 예시적인 양상들을 상세하게 기술한다. 하지만, 이러한 양상들은 예시적인 것이고 다양한 양상들의 원리들에서의 다양한 방법들 중 일부가 이용될 수 있으며, 기술되는 설명들은 그러한 양상들 및 그들의 균등물들을 모두 포함하고자 하는 의도이다.
또한, 다양한 양상들 및 특징들이 다수의 디바이스들, 컴포넌트들 및/또는 모듈들 등을 포함할 수 있는 시스템에 의하여 제시될 것이다. 다양한 시스템들이, 추가적인 장치들, 컴포넌트들 및/또는 모듈들 등을 포함할 수 있다는 점 그리고/또는 도면들과 관련하여 논의된 장치들, 컴포넌트들, 모듈들 등 전부를 포함하지 않을 수도 있다는 점 또한 이해되고 인식되어야 한다.
본 명세서에서 사용되는 "실시예", "예", "양상", "예시" 등은 기술되는 임의의 양상 또는 설계가 다른 양상 또는 설계들보다 양호하다거나, 이점이 있는 것으로 해석되지 않을 수도 있다. 아래에서 사용되는 용어들 '컴포넌트', '모듈', '시스템', '인터페이스' 등은 일반적으로 컴퓨터 관련 엔티티(computer-related entity)를 의미하며, 예를 들어, 하드웨어, 하드웨어와 소프트웨어의 조합, 및 소프트웨어를 의미할 수 있다.
더불어, 용어 "또는"은 배타적 "또는"이 아니라 내포적 "또는"을 의미하는 것으로 의도된다. 즉, 달리 특정되지 않거나 문맥상 명확하지 않은 경우에, "X는 A 또는 B를 이용한다"는 자연적인 내포적 치환 중 하나를 의미하는 것으로 의도된다. 즉, X가 A를 이용하거나; X가 B를 이용하거나; 또는 X가 A 및 B 모두를 이용하는 경우, "X는 A 또는 B를 이용한다"가 이들 경우들 어느 것으로도 적용될 수 있다. 또한, 본 명세서에 사용된 "및/또는"이라는 용어는 열거된 관련 아이템들 중 하나 이상의 아이템의 가능한 모든 조합을 지칭하고 포함하는 것으로 이해되어야 한다.
또한, "포함한다" 및/또는 "포함하는"이라는 용어는, 해당 특징 및/또는 구성요소가 존재함을 의미하지만, 하나 이상의 다른 특징, 구성요소 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는 것으로 이해되어야 한다. 또한, 달리 특정되지 않거나 단수 형태를 지시하는 것으로 문맥상 명확하지 않은 경우에, 본 명세서와 청구범위에서 단수는 일반적으로 "하나 또는 그 이상"을 의미하는 것으로 해석되어야 한다.
본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다. 또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.
본 명세서에서의 컴퓨터 판독가능 매체는 컴퓨터 시스템에 의해서 판독될 수 있도록 프로그램 및 데이터가 저장되는 모든 종류의 매체를 포함할 수 있다. 본 개시내용에서의 컴퓨터 판독가능 매체는, "컴퓨터 판독가능 저장 매체" 및 "컴퓨터 판독가능 전송 매체"를 포함할 수 있다. 본 발명의 일 양상에 따르면, 컴퓨터 판독가능 저장 매체는: ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등을 포함할 수 있다. 또한, 컴퓨터 판독가능 전송 매체는 캐리어 웨이브(예컨대, 인터넷을 통한 전송)의 형태로 구현되는 임의의 전송 가능한 형태의 매체를 포함할 수 있다. 추가적으로, 이러한 컴퓨터 판독가능 매체는 네트워크로 연결된 시스템에 분산되어, 분산 방식으로 컴퓨터가 판독가능한 코드들 및/또는 명령들을 저장할 수도 있다.
도 1은 본 개시내용의 일 실시예에 따라 텍스트 데이터를 가상 핑거프린트로 표현하고 이를 활용하는 컴퓨팅 장치(100)에 대한 개략도를 도시한다.
도 1 에 도시된 컴퓨팅 장치(100)의 구성은 간략화하여 나타낸 예시일 뿐이며, 본 개시의 일 실시예에 따른 컴퓨팅 장치(100)는 청구범위에 포함된 기능들을 구현하기 위한 추가적인 구성들 또한 권리범위에 포함될 수 있다. 예를 들어, 컴퓨팅 장치(100)가 사용자로부터의 입력을 수신하는 기능을 수행하는 경우, 해당 기능은 네트워크부(130)에 의해 수행될 수 있거나 또는 추가적인 구성(예컨대, 입력부(미도시))에 의해 수행될 수도 있다. 또한, 컴퓨팅 장치(100)가 특정 결과 데이터를 출력하는 기능을 수행하는 경우, 해당 기능은 프로세서(1100)에 의해 수행될 수 있거나 또는 추가적인 구성(예컨대, 출력부(미도시))에 의해 수행될 수도 있다. 다른 예시로, 컴퓨팅 장치(100)가 이미지 또는 텍스트에 대한 촬영이 필요한 경우, 이러한 동작은 추가적인 구성(촬영부(미도시))에 의해 수행될 수도 있다.
도 1에서 도시되는 바와 같이, 컴퓨팅 장치(100)는 프로세서(110), 메모리(120), 및 네트워크부(130)를 포함할 수 있다.
본 개시내용의 일 실시예에 따른 컴퓨팅 장치(100)는 마이크로프로세서, 메인프레임 컴퓨터, 디지털 프로세서, 사용자 단말, 휴대용 디바이스, 및 제어기(controller), 서버 등과 같은 임의의 타입의 컴퓨터 시스템 또는 컴퓨터 디바이스를 포함할 수 있다. 추가적으로, 컴퓨팅 장치(100)는 복수의 컴퓨팅 장치들의 조합으로 구성될 수도 있다. 예를 들어, 컴퓨팅 장치(100)의 특정 동작은 제 1 컴퓨팅 장치에서 수행되고 다른 동작은 제 2 컴퓨팅 장치에서 수행되어, 복수의 컴퓨팅 장치들이 서로 협동하여 동작될 수도 있다.
프로세서(110)는 하나 이상의 코어로 구성될 수 있으며, 컴퓨팅 장치의 중앙 처리 장치(CPU: central processing unit), 범용 그래픽 처리 장치(GPGPU: general purpose graphics processing unit), 텐서 처리 장치(TPU: tensor processing unit) 등의 데이터 분석 및 딥러닝을 위한 임의의 형태의 프로세서를 포함할 수 있다. 프로세서(110)는 메모리(120)에 저장된 컴퓨터 프로그램을 판독하여 본 개시의 일 실시예에 따른 텍스트 데이터를 가상 핑거프린트로 표현하고 이를 활용하는 기법들을 수행할 수 있다. 본 개시의 일 실시예에 따라 프로세서(110)는 신경망의 학습을 위한 계산을 수행할 수 있다. 프로세서(110)는 딥러닝(DL: deep learning)에서 학습을 위한 입력 데이터의 처리, 입력 데이터에서의 피쳐(feature) 추출, 오차 계산, 역전파(backpropagation)를 이용한 신경망의 가중치 업데이트 등의 신경망의 학습을 위한 임의의 형태의 계산 동작들을 수행할 수 있다. 프로세서(110)의 CPU, GPGPU, 및 TPU 중 적어도 하나가 네트워크 함수의 학습을 처리할 수 있다. 예를 들어, CPU 와 GPGPU가 함께 네트워크 함수의 학습, 네트워크 함수를 이용한 데이터 분류를 처리할 수 있다. 또한, 본 개시의 일 실시예에서 복수의 컴퓨팅 장치의 프로세서를 함께 사용하여 네트워크 함수의 학습, 네트워크 함수를 이용한 데이터 분류를 처리할 수 있다. 또한, 본 개시의 일 실시예에 따른 컴퓨팅 장치(100)에서 수행되는 컴퓨터 프로그램은 CPU, GPGPU 또는 TPU에 의해 실행가능한 임의의 형태의 프로그램일 수 있다.
본 개시의 일 실시예에서 컴퓨팅 장치(100)는 CPU, GPGPU, 및 TPU 중 적어도 하나를 이용하여 네트워크 함수를 분산하여 처리할 수 있다. 또한 본 개시의 일 실시예에서 컴퓨팅 장치(100)는 다른 컴퓨팅 장치와 함께 네트워크 함수를 분산하여 처리할 수 있다.
프로세서(110)는 사전결정된 텍스트 분할 알고리즘에 기초하여, 텍스트 데이터를 하나 이상의 세그먼트들로 분할하고, 사전결정된 맵핑 알고리즘에 기초하여, 상기 분할된 세그먼트를 구성하는 하나 이상의 서브세그먼트들에 할당된 맵핑 값을 결정하고, 상기 결정된 맵핑 값에 기초하여, 상기 하나 이상의 세그먼트들 각각에 대한 좌표 값을 생성하고, 그리고 상기 생성된 좌표 값에 기초하여, 상기 텍스트 데이터에 대한 음성학적 특징을 갖는 가상 핑거프린트(virtual fingerprint)를 생성할 수 있다. 전술한 바와 같이, 프로세서(110)의 동작들은 딥 뉴럴 네트워크로의 학습을 위하여 데이터에 대한 전처리 프로세스를 수행할 수 있다.
본 명세서에서의 "가상 핑거프린트"는 텍스트 데이터를 고유하게 표현할 수 있는 임의의 형태의 정보를 포함할 수 있으며, 예를 들어, 벡터, 이미지, 텐서 및/또는 메트릭스가 가상 핑거프린트에 포함될 수 있다. 또한, "음성학적 특징을 갖는 가상 핑거프린트"는 텍스트 데이터가 발음되는 특징들이 고유하게 표현되는 임의의 형태의 정보(예컨대, 벡터, 이미지, 텐서 및/또는 메트릭스)를 포함할 수 있다.
본 명세서에서의 텍스트 데이터는 단어(word), 문장(sentence), 및/또는 단락(paragraph)을 포함하는 텍스트(text) 형태로 표현되는 임의의 형태의 데이터를 의미할 수 있다. 또한, 본 명세서에서의 세그먼트는 텍스트 데이터가 분할되는 단위를 의미할 수 있으며, 서브세그먼트는 세그먼트가 분할되는 단위를 의미할 수 있다. 예를 들어, "APPLE" 이라는 단어가 처리되는 경우, "APPLE" 자체가 텍스트 데이터와 대응될 수 있으며, "-A", "AP", "PP", "PL", "LE" 및 "E_" 등이 세그먼트와 대응될 수 있다. 이러한 예시에서, "-" "A", "P", "P", "L", "E" 및 "_" 등이 서브세그먼트와 대응될 수 있다. 일례로, 본 명세서에서의 세그먼트는 발음 요소(element), 발음 단위(unit), 낱자(letter)들의 조합, 문자(character)들의 조합, 숫자들의 조합 및/또는 기호(symbol)들의 조합을 포함할 수 있다. 일례로, 본 명세서에서의 서브세그먼트는 낱자, 문자, 발음기호, 숫자, 기호 및/또는 이들의 조합을 포함할 수 있다.
본 명세서에서의 음성학적 특징을 갖는 가상 핑거프린트는, 텍스트 데이터를 표현하는 벡터값을 의미할 수 있다. 또한, 음성학적 특징을 갖는 가상 핑거프린트는 텍스트 데이터를 고유하게 나타내는 벡터값을 의미할 수 있으며, 이는 텍스트 지문(text fingerprint)로도 정의될 수 있다.
또한, 본 명세서에서의 "데이터" 및 "정보"는 종종 서로 상호교환가능하게 사용될 수 있다.
본 개시의 일 실시예에서 네트워크 함수를 이용하여 처리되는 가상 핑거프린트는 컴퓨팅 장치(100)의 메모리(120)에 저장된 가상 핑거프린트, 컴퓨팅 장치(100)의 프로세서(110)에 의하여 생성된 가상 핑거프린트 및/또는 네트워크 모듈(130)에 의하여 데이터베이스 및 사용자 입력 등 다른 컴퓨팅 장치로부터 전송된 가상 핑거프린트 정보일 수 있다. 또한, 본 개시의 일 실시예에서 네트워크 함수를 이용하여 처리되는 가상 핑거프린트는 컴퓨터 판독가능 저장 매체(예를 들어, 플래시 메모리 등을 포함할 수 있으나 본 개시는 이에 제한되지 않음)에 저장된 가상 핑거프린트일 수 있다. 컴퓨팅 장치(100)는 입출력 인터페이스(미도시)를 통해 컴퓨터 판독가능 저장 매체에 저장된 텍스트 데이터 및/또는 가상 핑거프린트 데이터를 입력받을 수 있다.
메모리(120)는 본 개시의 일 실시예에 따른 텍스트 데이터를 표현하는 가상 핑거프린트 생성 방법 및 생성된 가상 핑거프린트의 비교 방법을 수행하기 위한 컴퓨터 프로그램을 저장할 수 있으며, 저장된 컴퓨터 프로그램은 프로세서(110)에 의하여 판독되어 구동될 수 있다. 메모리(120)는 버퍼 캐시를 포함하는 하나 이상의 메모리를 포함할 수 있다. 여기에서의 메모리(120)는 동적 램(DRAM, dynamic random access memory), 정적 램(SRAM, static random access memory) 등의 랜덤 액세스 메모리(RAM)와 같은, 프로세서가 직접 접근하는 주된 저장 장치로서 전원이 꺼지면 저장된 정보가 순간적으로 지워지는 휘발성(volatile) 저장 장치를 의미할 수 있지만, 이들로 한정되는 것은 아니다. 추가적으로, 메모리(120)는 별도의 DBMS(Database Management System) 및/또는 영구저장매체(persistent storage)를 포함할 수도 있다. 이러한 경우, 영구저장매체는 예를 들어 자기(magnetic) 디스크, 광학(optical) 디스크 및 광자기(magneto-optical) 저장 디바이스 뿐만 아니라 플래시 메모리 및/또는 배터리-백업 메모리에 기초한 저장 디바이스와 같은, 임의의 데이터를 지속적으로 할 수 있는 비-휘발성(non-volatile) 저장 매체를 의미한다. 이러한 영구 저장 매체는 네트워크부(130)를 포함하는 다양한 통신 수단을 통하여 다른 컴퓨팅 장치의 프로세서 및 메모리와 통신할 수도 있다.
네트워크부(130)는 본 개시내용의 일 실시예에 따른 텍스트 데이터를 가상 핑거프린트로 표현하고 그리고 가상 핑거프린트들 간의 비교 방법을 수행하기 위한 임의의 데이터를 다른 컴퓨팅 장치, 서버 등과 송수신할 수 있다. 네트워크부(130)는 텍스트 데이터 및/또는 가상 핑거프린트 데이터 등 본 개시의 실시예에 필요한 데이터들을 다른 컴퓨팅 장치, 서버등과 송수신할 수 있다. 예를 들어, 네트워크 모듈(130)은 학습 이미지 데이터베이스 등과 같은 메모리(120)로부터 학습 이미지 데이터를 수신할 수 있다. 또한, 네트워크부(130)는 복수의 컴퓨팅 장치 사이의 통신을 가능하게 하여 복수의 컴퓨팅 장치 각각에서 네트워크 함수의 학습이 분산 수행되도록 할 수 있고, 네트워크 함수를 사용한 데이터 분류를 분산 처리할 수 있도록 할 수 있다. 추가적으로, 컴퓨팅 장치(100) 내부에서의 컴포넌트들 간의 통신 또한 네트워크부(130)에 의해 수행될 수 있다.
도 2는 본 개시내용의 일 실시예에 따라 텍스트 데이터를 가상 핑거프린트로 표현하는 예시적인 흐름도(200)를 도시한다.
도 2에서 도시되는 흐름도(200)는 컴퓨팅 장치(100)에 의해 수행될 수 있다. 예를 들어, 흐름도(200)는 컴퓨팅 장치(100)의 프로세서(110)에 의해 수행될 수 있다.
도 2에서 도시되는 흐름도(200)에 기재된 본 개시내용의 일 실시예에 따라, 텍스트 데이터가 음성학적 특징을 갖는 가상 핑거프린트로 변환될 수 있으며, 그리고 변환된 가상 핑거프린트들 간의 비교를 통하여 텍스트 데이터 간의 칭호 비교가 효율적으로 이루어질 수 있다.
예를 들어, 본 명세서에서의 "음성학적 특징"은 벡터값, 텐서값, 메트릭스 값 및/또는 이미지 형태로 정의될 수 있다. 일례로, 본 개시내용에서 음성학적 특징이 벡터값인 일 실시예에 따라, 텍스트 데이터는 발음요소를 이용하여 벡터값으로 변환될 수 있으며, 변환된 벡터값을 통해 복수의 텍스트 데이터 간의 칭호 유사도가 측정될 수 있다.
본 개시내용의 일 실시예에 따르면, 텍스트 데이터의 칭호 유사도 측정은 규칙기반의 Soundex 및/또는 Metaphone 방식을 통해 텍스트 데이터를 발음 단위로 변형하고, 변형된 텍스트를 Euclidean distance, Edit distance, Cosine distance, 및/또는 Jaccard distance와 같은 유사도 측정 방식을 이용할 수 있다. 본 개시내용의 일 실시예에 따르면, 벡터값을 갖는 음성학적 특징이 구비된 가상 핑거프린트들이 CNN(Convolutional Neural Network) 및/또는 RNN(Recurrent Neural Network)등 과 같은 DNN(Deep Neural Network)을 활용하여 비교될 수 있다.
도 2에 기재된 바와 같이, 컴퓨팅 장치(100)는 수신 또는 입력된 텍스트 데이터(210)를 텍스트 분할 알고리즘(220)을 이용하여, 하나 이상의 세그먼트들(230)로 분할할 수 있다. 텍스트 데이터(210)는, 문장 및/또는 단어를 포함하는 텍스트 타입으로 표현되는 임의의 데이터를 의미할 수 있다.
텍스트 분할 알고리즘(220)은 텍스트 데이터(210)로부터 분할되는 세그먼트(230) 하나가 갖는 서브세그먼트의 개수를 분할의 단위로서 결정할 수 있다. 예를 들어, 세그먼트(230) 하나가 3개의 서브세그먼트들로 구성되는 경우, 텍스트 분할 알고리즘(220)은 하나의 세그먼트(230)가 3차원 좌표값을 갖도록 세그먼트들(230)을 분할할 수 있다. 이러한 예시에서, 텍스트 데이터(210)가 "APPLE"인 경우, 텍스트 데이터는 "_AP", "APP", "PPL", "PLE" 및 "LE_"의 세그먼트들(230)로 분할될 수 있다.
본 개시내용의 일 실시예에서, 텍스트 분할 알고리즘(220)은, 텍스트 데이터(210)의 최초(initial) 서브세그먼트 앞에 시작(start) 서브세그먼트을 추가하고 그리고 텍스트 데이터(210)의 최종(final) 서브세그먼트 뒤에 종료(end) 서브세그먼트을 추가하는 방식으로, 텍스트 데이터(210)를 세그먼트들(230)로 분할할 수 있다. 예를 들어, "APPLE"이라는 텍스트 데이터(210)가 인입된 경우 그리고 텍스트 분할 알고리즘(220)이 세그먼트(230) 하나가 2개의 서브세그먼트들로 구성된다고 정의하는 경우, 텍스트 데이터(210)는 "-A", "AP", "PP", "PL", "LE" 및 "E_"의 총 6개의 세그먼트들(230)로 분할될 수 있다. 전술한 예시에서, "-" 은 상기 텍스트 데이터(210)의 최초 서브세그먼트인 "A" 앞에 추가되는 시작 서브세그먼트로 정의되며, "_" 은 상기 텍스트 데이터(210)의 최종 서브세그먼트인 "E" 뒤에 추가되는 종료 서브세그먼트로 정의될 수 있다.
본 개시내용의 일 실시예에서, 텍스트 분할 알고리즘(220)은, 시작 서브세그먼트 및 종료 서브세그먼트를 포함하는 m개의 서브세그먼트들을 하나의 세그먼트(230)로 구성하는 방식으로, 텍스트 데이터(210)를 세그먼트들(230)로 분할할 수 있다. 여기에서의 m은 자연수를 의미할 수 있다. 예를 들어, m이 3인 경우, 시작 서브세그먼트 및 종료 서브세그먼트를 포함하는 3개의 서브세그먼트가 하나의 세그먼트(230)로 구성될 수 있다. 이러한 예시에서, 텍스트 데이터(210)가 "APPLE"인 경우, 텍스트 데이터(210)는 "_AP", "APP", "PPL", "PLE" 및 "LE_"의 세그먼트들(230)로 분할될 수 있으며, 여기에서의 분할된 세그먼트들(230) 각각은 3개의 서브세그먼트들을 포함할 수 있다.
본 개시내용의 일 실시예에서, 맵핑 알고리즘(240)은, 세그먼트들(230)을 구성하는 서브세그먼트들 각각에 대한 맵핑 값을 결정할 수 있다. 서브세그먼트들 각각에 할당된 맵핑 값에 기초하여, 세그먼트(230)에 대한 좌표값(250)이 결정될 수 있다.
본 개시내용의 일 실시예에서, 맵핑 알고리즘(240)은, 텍스트 데이터(210)가 속한 언어(language)를 구성하는 낱자들의 발음 형태에 기초하여, 서브세그먼트 단위로 또는 상기 서브세그먼트들의 조합 단위로 고유의 맵핑값을 할당할 수 있다. 이러한 예시에서, 서브세그먼트 단위는 알파벳 단위, 숫자 단위, 심볼 단위, 발음기호 단위 및/또는 다른 형태의 언어 낱자 단위를 포함할 수 있다. 더불어, 서브세그먼트들의 조합 단위는, 알파벳들의 조합, 숫자들의 조합, 심볼들의 조합, 발음기호들의 조합 및/또는 다른 형태의 언어 낱자들의 조합 단위를 포함할 수 있다.
또한, 맵핑 알고리즘(240)은 텍스트 데이터(210)의 최초 서브세그먼트 앞에 추가되는 시작 서브세그먼트 및 텍스트 데이터(210)의 종료 서브세그먼트 뒤에 할당되는 종료 서브세그먼트에 고유의 맵핑값을 할당할 수 있다. 또한, 맵핑 알고리즘(240)은 낱자들(서브세그먼트들) 간의 발음의 유사도가 사전결정된 범위 내에 있는 경우, 상기 낱자들에 대응되는 서브세그먼트들의 맵핑 값들 간의 차이가 제 1 차이값을 갖도록 설정하고, 상기 낱자들 간의 발음의 유사도가 사전결정된 범위 밖에 있는 경우, 상기 낱자들에 대응되는 서브세그먼트들의 맵핑 값들 간의 차이가 제 2 차이값을 갖도록 설정할 수 있다. 여기서, 제 1 차이값은 제 2 차이값보다 작은 값일 수 있다.
예를 들어, 텍스트 데이터(210)가 속한 언어가 영문(English)인 경우, 맵핑 알고리즘(240)은 다음과 같은 맵핑 규칙(rule)을 가질 수 있다: {"-": 0, "a": 3, "e": 4, "i": 5, "o": 6, "u": 7, "h": 8, "b": 11, "v": 12, "p": 13, "f": 14, "c": 17, "k": 18, "q": 19, "g": 20, "d": 23, "t": 24, "j": 27, "z": 28, "w": 31, "y": 32, "r": 35, "l": 36, "s": 39, "x": 40, "n": 43, "m": 44, "_": 47}
다른 예시로, 텍스트 데이터(210)가 속한 언어가 영문인 경우, 맵핑 알고리즘(240)은 다음과 같은 맵핑 규칙을 가질 수 있다: {"-": 0, "a": 1, "e": 2, "i": 3, "o": 4, "u": 5, "b": 6, "v": 7, "p": 8, "f": 9, "c": 10, "k": 11, "q": 12, "g": 13, "d": 14, "t": 15, "j": 16, "z": 17, "w": 18, "y": 19, "r": 20, "l": 21, "s": 22, "x": 23, "n": 24, "m": 25, "h": 26, "_": 27}
전술한 예시들에서 알파벳을 기초로 하여 서브세그먼트들이 표현되었으나, 예를 들어, "th", "oo", "sh", "ch" 및 "kn"와 같이, 발음되는 형태를 기초로 하여 서브세그먼트들이 표현될 수도 있다.
전술한 첫번째 예시에서, 맵핑 알고리즘(240)에 따라 시작 서브세그먼트 및 종료 서브세그먼트를 포함하는 각각의 서브세그먼트들에 고유의 값이 맵핑될 수 있다. 서로 유사한 발음/호칭을 갖는 서브세그먼트들에 유사한 값이 맵핑될 수 있다(첫번째 예시에서는 1 단위의 차이값이 할당됨). 또한, 특정 임계범위를 초과하여 서로 유사하지 않은 발음/호칭을 갖는 서브세그먼트들에 대해서는 보다 큰 차이값이 할당될 수 있다(위의 예시에서는 3 단위의 차이값이 할당됨). 위의 예시에서는 비슷한 발음이 비슷한 위치에 분포되도록 하기 위하여, 비슷한 발음을 갖는 서브세그먼트들은 1단위의 차이를 두었고, 비슷하지 않은 발음을 갖는 서브세그먼트들은 3단위의 차이를 둠으로써, 총 길이 48(28개의 값)의 매핑 알고리즘(240)이 생성될 수 있다.
전술한 두번째 예시에서, 맵핑 알고리즘(240)에 따라 시작 서브세그먼트 및 종료 서브세그먼트를 포함하는 각각의 서브세그먼트들에 고유의 값이 맵핑될 수 있다. 서로 유사한 발음/호칭을 갖는 서브세그먼트들에 유사한 값이 맵핑될 수 있다. 두번째 예시에서는 서브세그먼트들에 1단위의 차이값이 맵핑될 수 있다. 따라서, 총 길이 28(28개의 값)의 맵핑 알고리즘(240)이 생성될 수 있다.
전술한 맵핑 알고리즘(240)은 예시적인 것이며, 영문 뿐만 아니라 한글, 발음기호(국제표준발음기호 IPA 등)을 포함하는 임의의 형태의 언어 구조 및/또는 임의의 숫자 구조 또한 전술한 맵핑 알고리즘(240)과 동일한 방식으로 분할 및 맵핑될 수 있다. 추가적인 실시예에서, 영문 이외의 다른 형태의 언어/숫자/기호를 포함하는 구조가 인입되는 경우, 컴퓨팅 장치(100)는 상기 다른 형태의 구조를 영문으로 변환한 후에, 텍스트 분할 알고리즘(220)을 수행할 수도 있다.
본 개시내용의 일 실시예에 따른 맵핑 알고리즘(240)에 따라서, "-A", "AP", "PP", "PL", "LE" 및 "E_"의 총 6개의 세그먼트들(230) 각각에 대한 좌표값(250)이 생성될 수 있다. 이러한 예시에서, 상기 6개의 세그먼트들(230) "-A", "AP", "PP", "PL", "LE" 및 "E_"은 각각 “-A” : (0, 1), “AP” : (1, 8), “PP” : (8, 8), “PL” : (8, 21), “LE” : (21, 2), 및 “E_” : (2, 28)의 좌표값(250)을 할당받을 수 있다. 전술한 예시는 텍스트 분할 알고리즘(220)이 세그먼트(230)를 구성하는 서브세그먼트들의 개수를 2개로 설정한 경우이다. 만약, 텍스트 분할 알고리즘(220)이 세그먼트(230)를 구성하는 서브세그먼트들의 개수를 3개로 설정한 경우, 3차원 형태의 좌표값(250)이 각 세그먼트(230)에 할당될 수 있다. 즉, 텍스트 분할 알고리즘(220)에 의해 텍스트 데이터(210)로부터 분할된 세그먼트(230)의 크기값에 기초하여, 음성학적 특징을 갖는 가상 핑거프린트(270)를 표현하기 위한 차원의 크기가 결정될 수 있다.
본 개시내용의 일 실시예에 따라, 가상 핑거프린트 생성 알고리즘(260)은 생성된 좌표값(250)들을 n차원 공간에 표시하여 텍스트 데이터(210)에 대한 음성학적 특징을 갖는 가상 핑거프린트(270)를 생성할 수 있다. 가상 핑거프린트 생성 알고리즘(260)은 하나 이상의 세그먼트들 각각에 대해 생성된 좌표 값들과 대응되는 n차원 공간에서의 지점들을 결정하고 그리고 상기 결정된 지점들을 연결함으로써, 상기 텍스트 데이터에 대한 음성학적 특징을 갖는 가상 핑거프린트(270)를 생성할 수 있다.
본 개시내용의 일 실시예에 따라, n차원 공간 중 첫번째 차원 내지 n-1번째 차원은 세그먼트(230)를 구성하는 서브세그먼트들에 할당된 n-1 차원 좌표값(250)과 대응되며, 그리고 상기 n차원 공간 중 n번째 차원은 분할된 세그먼트(230) 단위로 할당된 1차원 값과 대응될 수 있다. 예를 들어, 텍스트 데이터(210)에 대해 "-A", "AP", "PP", "PL", "LE" 및 "E_"의 총 6개의 세그먼트들(230)이 분할되고 각 세그먼트들(230)에 대한 좌표값(250)이 “-A” : (0, 1), “AP” : (1, 8), “PP” : (8, 8), “PL” : (8, 21), “LE” : (21, 2), 및 “E_” : (2, 28)와 같이 생성된 경우, 각 좌표값(250)은 예컨대 X축 및 Y축의 2차원 공간을 형성할 수 있다. 또한, 각 세그먼트들(230)의 좌표값(250)들은 Z축의 1차원의 공간을 형성할 수 있어서, 예를 들어 "-A" 세그먼트는 0의 Z축 값을 할당받고, "AP" 세그먼트는 1의 Z축 값을 할당받고, "PP" 세그먼트는 2의 Z축 값을 할당받고, "PL" 세그먼트는 3의 Z축 값을 할당받고, "LE" 세그먼트는 4의 Z축 값을 할당받고, 그리고 "E_" 세그먼트는 5의 Z축 값을 할당받을 수 있다. 이러한 방식으로, n=3인 3차원 공간 상에서 할당받은 좌표값들(250)을 연결함으로써 텍스트 데이터(210)에 대한 음성학적 특징을 갖는 가상 핑거프린트(270)가 표현될 수 있다. 이러한 음성학적 특징을 갖는 가상 핑거프린트(270)는 벡터값을 가질 수 있다.
추가적으로, 가상 핑거프린트 생성 알고리즘(270)은 텍스트 데이터(210)에 대해 분할된 세그먼트들(230)에 할당된 좌표값의 차원 정보와 동일한 차원 정보를 갖는 공간 상에 음성학적 특징을 갖는 가상 핑거프린트(270)를 표현할 수도 있다.
가상 핑거프린트 생성 알고리즘(270)은 텍스트 데이터(210)로부터 분할된 세그먼트들(230)의 순서 정보에 기초하여, 좌표값(250)들에 대응되는 지점들 간의 연결들을 상이하게 표시하는 방식으로 상기 음성학적 특징을 갖는 가상 핑거프린트(270)를 생성할 수 있다. 예를 들어, 가상 핑거프린트 생성 알고리즘(270)은 텍스트 데이터(210)로부터 분할된 세그먼트들(230)의 순서 정보에 기초하여, 뒷선 순서의 세그먼트들 간의 연결 보다 앞선 순서의 세그먼트들 간의 연결에 높은 가중치를 부여하여 표시하는 방식으로, 음성학적 특징을 갖는 가상 핑거프린트를 생성할 수 있다. 다른 예시로, 가상 핑거프린트 생성 알고리즘(270)은 텍스트 데이터(210)로부터 분할된 세그먼트들(250)의 순서 정보에 기초하여, 가장 앞선 순서를 갖는 세그먼트들(250) 간의 연결에 가중치를 부여하여 표시하는 방식으로, 음성학적 특징을 갖는 가상 핑거프린트(270)를 생성할 수 있다.
이러한 예시들에서, 가중치를 부여하여 표시하는 방식은: 가중치가 낮은 연결에 비해 가중치가 높은 연결에 대한 두께를 크게 표시하는 방식; 및 가중치가 낮은 연결에 비해 가중치가 높은 연결에 대한 색의 강도(color intensity)를 높게 표시하는 방식 중 적어도 하나의 방식을 포함할 수 있다. 일례로, 텍스트 데이터(210)의 길이 정보에 기초하여, 표현되는 가상 핑거프린트의 두께의 값 및 색의 강도 값 중 적어도 하나가 결정될 수 있다. 예를 들어, 텍스트 데이터(210)들 간의 발음/호칭의 유사도를 비교하는데 있어서, 초성이 중성 또는 종성보다 중요할 수 있다. 따라서, 텍스트 데이터(210)의 중성 또는 종성에 비하여 초성에 보다 높은 가중치(두께 및/또는 색의 강도)를 부여함에 따라, 보다 정확한 발음/호칭의 유사도가 결정될 수 있다. 추가적으로, 좌표값(250)들에 대한 연결의 두께 및/또는 색의 강도를 결정하는데 있어서, 텍스트 데이터(210)의 길이가 짧을 수록 연결의 초기 두께 및/또는 색의 강도를 두껍게 그리고/또는 진하게 표현함에 따라, 보다 정확한 발음 유사도가 결정될 수 있다. 본 명세서에서의 "색의 강도"는 색의 투명도 및/또는 색의 진한 정도를 포함할 수 있다.
다른 예시에서, 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 이미지 생성 알고리즘(260)은 결정된 지점들에 대해 결정된 두께 및 색의 강도(intensity) 중 적어도 하나에 기초하여, 상기 결정된 지점들을 연결하는 연결선의 두께 및 색의 강도 중 적어도 하나가 점차적으로(점진적으로) 변경되는 방식으로 상기 음성학적 특징을 갖는 가상 핑거프린트를 생성할 수 있다. 즉, 양 지점들을 연결하는 연결선의 두께 및 색 강도 값은 양 지점들에 할당된 두께 및/또는 색 강도값에 기초하여 단계적으로 변경될 수 있다. 이러한 예시에서, 그라데이션(gradation) 형태로 연결선이 생성될 수도 있다.
다른 예시에서, 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 이미지 생성 알고리즘(260)은, 두 개의 지점들을 연결하는 연결선의 중심부와 주변부의 색의 강도를 상이하게 표현하는 방식으로 상기 음성학적 특징을 갖는 가상 핑거프린트를 생성할 수 있다. 즉, 연결선은 내부 및 외부로 나뉠 수 있으며, 내부에 대한 색 강도는 외부에 대한 색 강도보다 높은 값을 가질 수 있다.
본 개시내용의 일 실시예에 따라, 컴퓨팅 장치(100)는 둘 이상의 텍스트 데이터(210)에 대한 발음/호칭의 유사도를 결정하기 위하여, 음성학적 특징을 갖는 가상 핑거프린트(270)들 간의 유사성을 비교할 수 있다.
도 3은 본 개시내용의 일 실시예에 따라 텍스트 데이터를 가상 핑거프린트로 표현하고 이를 활용하는 예시적인 방법을 도시한다. 예를 들어, 도 3에서 구현되는 방법은 컴퓨팅 장치(100)에 의해 수행될 수 있다. 도 3에서 표현되는 방법의 단계들은 예시적인 것이며, 설계의 형태에 따라, 추가적인 단계들이 포함될 수 있거나 또는 상기 단계들 중 일부는 생략될 수도 있다.
도 3에 기재된 바와 같이, 컴퓨팅 장치(100)는 사전결정된 텍스트 분할 알고리즘에 기초하여 텍스트 데이터를 하나 이상의 세그먼트들로 분할할 수 있다(310). 그리고나서, 컴퓨팅 장치(100)는 사전결정된 맵핑 알고리즘에 기초하여, 분할된 세그먼트를 구성하는 하나 이상의 서브세그먼트들 각각에 할당된 맵핑 값을 결정할 수 있다(320). 컴퓨팅 장치(100)는 결정된 맵핑 값에 기초하여, 하나 이상의 세그먼트들 각각에 대한 좌표 값을 생성할 수 있다(330). 그리고나서, 컴퓨팅 장치(100)는 생성된 좌표 값에 기초하여, 텍스트 데이터에 대한 음성학적 특징을 갖는 가상 핑거프린트를 생성할 수 있다(340). 컴퓨팅 장치(100)는 복수의 텍스트 데이터들에 대해 생성된 음성학적 특징을 갖는 가상 핑거프린트들을 서로 비교할 수 있으며(350), 그리고 상기 비교의 결과에 따라 복수의 텍스트 데이터들에 대한 발음 유사도(호칭 유사도)를 결정할 수 있다.
텍스트 데이터들에 대한 발음/호칭 유사도를 결정하는 예시적인 실시예는 상표(trademark) 출원에 대한 심사에 활용될 수 있다. 상표 출원에 대한 등록여부를 심사할 때, 비교가 되는 2개의 상표들이 칭호적으로 서로 유사(그리고 지정상품(designated good or service)이 서로 유사)한 경우, 후 출원된 상표 출원은 거절될 수 있다. 따라서, 상표 출원을 진행하기에 앞서, 선행 출원된 상표와의 유사 여부가 중요한 쟁점이 될 수 있다.
본 개시내용의 일 실시예에 따르면 텍스트 데이터에 대한 칭호 유사를 효율적이고 정확하게 결정할 수 있기 때문에, 상표 출원을 진행하기 이전에 해당 상표 출원이 거절될 가능성을 효율적으로 예측할 수 있다. 즉, 본 개시내용의 일 실시예에 따른 기법은 2개의 상표 출원에 대한 칭호 유사를 두 상표의 발음에 따른 벡터값을 서로 비교함으로써 결정할 수 있다. 예를 들어, 벡터값을 서로 비교하는 기법들은 Cosine distance, Jaccard distance, Levenshtein distance 및/또는 딥러닝 기법을 활용할 수 있다. 예를 들어, 도 3에서 도시되는 방법이 딥러닝을 활용하는 비교 기법에 해당하는 경우, 단계 310 내지 340은 딥 뉴럴 네트워크에 입력하기 위한 전처리(pre-processing) 단계를 의미할 수 있다.
본 개시내용의 일 실시예에 따라, 텍스트 데이터의 발음/호칭을 고유하게 식별하는 n차원의 가상 핑거프린트가 생성되기 때문에, 기존의 텍스트 데이터들 간의 발음을 비교하는 방식들에 비해 보다 정확하고 효율적인 발음 유사 판단이 가능해질 수 있다. 즉, 텍스트 데이터 마다 발음 기준으로 고유한 핑거프린트가 할당되기 때문에, 핑거프린트들 간의 비교를 통하여 텍스트 데이터의 발음 유사 판단이 효율적으로 이루어질 수 있다.
도 4는 본 개시내용의 일 실시예에 따라 가상 핑거프린트로 표현된 텍스트 데이터에 대한 예시적인 트레이닝 프로세스를 도시한다. 도 4에서 도시되는 단계들은 예시적인 것이며, 설계 형태에 따라 추가적인 단계들이 포함되거나 또는 상기 단계들 중 일부는 생략될 수도 있다. 본 명세서에서의 딥 뉴럴 네트워크는, 컨벌루셔널 뉴럴 네트워크(CNN:Convolutional Neural Network) 구조 및 리커런트 뉴럴 네트워크(RNN: Recurrent Neural Network) 구조 중 적어도 하나를 포함할 수 있다.
도 4에서 도시되는 예시는, 가상 핑거프린트를 활용하여 텍스트 데이터들의 칭호/발음의 유사도를 판단하는데 있어서 딥러닝 기법을 활용하는 예시이다.
도 4에서 도시되는 바와 같이, 컴퓨팅 장치(100)는 둘 이상의 텍스트 데이터들에 대한 유사 판단 결과 정보 및 둘 이상의 텍스트 데이터들에 대응되어 생성된 음성학적 특징을 갖는 가상 핑거프린트들을 포함하는 라벨링된(labeled) 트레이닝 데이터를 생성할 수 있다(410). 예를 들어, 상기 유사 판단 결과 정보는 사용자에 의해 교사된(taught) 둘 이상의 텍스트 데이터들에 대한 유사 판단 결과값(즉, 유사 또는 비유사)을 의미할 수 있다.
그리고나서, 컴퓨팅 장치(100)는 라벨링된 트레이닝 데이터가 딥 뉴럴 네트워크를 통해 출력된 결과 데이터와, 라벨링된 트레이닝 데이터에 포함된 유사 판단 결과 데이터를 서로 비교할 수 있다(420). 즉, 단계 420에서는 딥 뉴럴 네트워크의 출력 오차를 구하는 과정을 의미할 수 있다. 예를 들어, 딥 뉴럴 네트워크로 입력되는 라벨링된 트레이닝 데이터는, 사용자로부터 교사된 유사 판단의 결과 정보 및 음성학적 특징을 갖는 가상 핑거프린트들에 대한 정보가 하나의 쌍(pair)이 되도록 표현될 수 있다. 또한, 라벨링된 트레이닝 데이터가 딥 뉴럴 네트워크를 통해 출력된 결과 데이터는, 둘 이상의 가상 핑거프린트들에 대한 데이터가 딥 뉴럴 네트워크에 입력된 이후 딥 뉴럴 네트워크의 출력 노드를 통해 출력된 결과값(즉, 양 텍스트 데이터들이 유사한지 혹은 비유사한지를 나타내는 값)을 의미할 수 있다. 따라서, 단계 420에서는 라벨링된 교사값과 딥 뉴럴 네트워크를 통해 출력된 결과값의 오차가 존재하는지 여부가 판단될 수 있다.
그리고나서, 컴퓨팅 장치(100)는 단계 420에서의 비교 결과에 기초하여, 딥 뉴럴 네트워크의 노드(node)들을 역전파(back-propagation) 방식을 이용하여 트레이닝시킬 수 있다(430). 여기에서의 역전파 방식이란, 심층 뉴럴 네트워크(즉, 복수개의 은닉층(hidden layer)들을 포함한 뉴럴 네트워크에서, 오차가 출력층에서 시작하여 은닉층의 방향으로 전달되어 노드들 간의 가중치가 변경되는 방식을 의미할 수 있다. 따라서, 단계 430은 오차를 통해 뉴럴 네트워크 내의 노드들 간의 가중치를 업데이트하여 뉴럴 네트워크의 일반화(generalization) 성능을 향상시키는 뉴럴 네트워크 트레이닝 프로세스를 의미할 수 있다.
도 4에서 기재되는 단계들은 생성된 가상 핑거프린트들을 활용하여, 둘 이상의 텍스트 데이터에 대한 유사여부를 뉴럴 네트워크가 학습하는 프로세스를 나타낸다.
본 개시내용의 일 실시예에 따른 딥 뉴럴 네트워크의 구조는 도 8에서 후술하기로 한다.
도 5는 본 개시내용의 일 실시예에 따라 트레이닝된 딥러닝 네트워크를 통해 텍스트 데이터들을 비교하는 예시적인 방법을 도시한다.
도 5에서 도시되는 단계들은 예시적인 것이며, 설계 형태에 따라 추가적인 단계들이 존재하거나 또는 상기 단계들 중 일부가 생략될 수도 있다.
도 5에서 도시되는 단계들은, 뉴럴 네트워크에 대한 학습이 완료된 이후에(즉, 뉴럴 네트워크가 일반화된 이후에), 임의의 둘 이상의 텍스트 데이터들에 대한 입력을 수신하는 경우 상기 둘 이상의 텍스트 데이터들에 대한 비교 결과를 출력하는 뉴럴 네트워크의 프로세스를 나타낸다.
컴퓨팅 장치(100)는 둘 이상의 텍스트 데이터들에 대한 입력을 수신할 수 있다(510). 상기 입력되는 둘 이상의 텍스트 데이터들은 발음/호칭이 유사한지 여부를 판단하고자 하는 텍스트 데이터들을 의미할 수 있다.
그리고나서, 컴퓨팅 장치(100)는 둘 이상의 텍스트 데이터들에 대한 음성학적 특징을 갖는 가상 핑거프린트들을 생성할 수 있다(520). 가상 핑거프린트들을 생성하는 방식은, 도 3에서 전술한 단계 310 내지 340과 동일한 방식으로 수행될 수 있다.
그리고나서, 컴퓨팅 장치(100)는 트레이닝된 딥 뉴럴 네트워크의 네트워크 함수에 의해, 음성학적 특징을 갖는 가상 핑거프린트들에 대한 비교 결과 정보를 생성할 수 있다(530). 즉, 단계 530은 비교하고자 하는 가상 핑거프린트들이 딥 뉴럴 네트워크로 입력된 이후에, 딥 뉴럴 네트워크의 출력층에서 결과값(즉, 둘 이상의 가상 핑거프린트들의 칭호/발음의 유사 여부)이 출력되는 프로세스를 의미할 수 있다.
그리고나서, 컴퓨팅 장치(100)는 출력층에서 상기 둘 이상의 가상 핑거프린트들의 칭호/발음의 유사 여부에 대한 결과값을 출력할 수 있다(540). 즉, 단계 540을 통하여, 둘 이상의 텍스트 데이터들 간의 칭호/발음의 유사 여부 결과가 출력될 수 있다.
도 6a는 본 개시내용의 일 실시예에 따라 가상 핑거프린트로 표현된 텍스트 데이터를 예시적으로 도시한다.
도 6에서의 참조번호 600A는 텍스트 데이터 "KTLIB"에 대한 가상 핑거프린트를 나타내며, 참조번호 600B는 텍스트 데이터 "KTRIBE"에 대한 가상 핑거프린트를 나타낸다. 상기 2개의 텍스트 데이터들은 외형에 있어서는 차이가 있지만 발음상으로는 서로 유사하다.
도 6에서의 2개의 가상 핑거프린트들을 표현하는 2개의 축들에 대한 숫자값들은 각 세그먼트들에 맵핑되는 좌표값과 대응될 수 있다.
도 6에서 도시되는 바와 같이, 텍스트 데이터 "KTLIB"은 "-K", "KT", "TL", "LI", "IB" 및 "B_"의 6개의 세그먼트들로 분할될 수 있다. 또한, 맵핑 알고리즘에 따라, 상기 6개의 세그먼트들 각각에는 601, 602, 603, 604, 605 및 606의 순서로 좌표값이 맵핑될 수 있다. 상기 좌표값들을 서로 연결하는 경우, 600A에서 표현되는 가상 핑거프린트가 생성될 수 있다. 600A에서 도시되는 바와 같이, 601에서 606으로 갈수록(즉, 초성에서 종성으로 갈수록), 색의 강도값이 작아질 수 있다. 즉, 초성은 보다 높은 가중치를 갖기 때문에, 발음의 유사도를 결정하는데 있어서 보다 높은 정확도가 달성될 수 있다.
도 6에서 도시되는 바와 같이, 텍스트데이터 "KTRIBE"는 "-K", "KT", "TR", "RI", "IB", "BE" 및 "E_"의 7개의 세그먼트들로 분할될 수 있다. 또한, 맵핑 알고리즘에 따라 상기 7개의 세그먼트들 각각에는 611, 612, 613, 614, 615, 616 및 617의 순서로 좌표값이 맵핑될 수 있다. 상기 좌표값들을 서로 연결하는 경우, 600B에서 표현되는 가상 핑거프린트가 생성될 수 있다. 600B에서 도시되는 바와 같이, 611에서 617로 갈수록(즉, 초성에서 종성으로 갈수록), 색의 강도값이 작아질 수 있다. 즉, 초성은 보다 높은 가중치를 갖기 때문에, 발음의 유사도를 결정하는데 있어서 보다 높은 정확도가 달성될 수 있다.
전술한 방식으로 생성되는 가상 핑거프린트들(600A 및 600B)은 서로 유사한 형태의 기하학적 구조를 가질 수 있으며, 이들에 대한 비교를 통하여, 양 가상 핑거프린트들(600A 및 600B)은 서로 발음적으로 유사하다고 판단될 수 있다.
도 6b는 본 개시내용의 일 실시예에 따라 가상 핑거프린트로 표현된 텍스트 데이터들을 비교하는 방식을 예시적으로 도시한다.
참조번호 650은 텍스트 데이터 "VOOCHO"의 가상 핑거프린트와 텍스트 데이터 "VOCHO"의 가상 핑거프린트를 비교한 결과 데이터를 나타낸다.
본 개시내용의 일 실시예에 따라서, 2개의 가상 핑거프린트들 각각을 RGB의 제 1 채널 및 제 2 채널에 입력하고 그리고 나머지 제 3 채널에는 0값을 할당함으로써, 2개의 가상 핑거프린트들에 대한 발음 비교 결과 값이 생성될 수 있다. 이러한 예시에서 가상 핑거프린트는 특정 벡터값을 갖는 이미지를 의미할 수 있다. 2개의 가상 핑거프린트들은 하나의 이미지로 연관되고 그리고 연관된 하나의 이미지 내에서의 중첩되는 색의 강도 값에 기초하여 2개의 가상 핑거프린트들 간의 발음 유사도가 결정될 수 있다.
참조번호 650에서, 650B는 R로 표현된 가상 핑거프린트 부분(예컨대, 텍스트 데이터 "VOOCHO"에 대한 가상 핑거프린트 부분)을 나타내며, 650C는 G로 표현된 가상 핑거프린트 부분(예컨대, 텍스트 데이터 "VOCHO"에 대한 가상 핑거프린트 부분)을 나타내며, 그리고 650A는 R과 G가 중첩되는(즉, Yellow 형태로 표현되는) 2개의 가상 핑거프린트들이 중첩되는 부분을 나타낸다. 따라서, 650A의 색 강도(또는 면적의 크기)에 기초하여, 상기 2개의 텍스트 데이터들에 대한 발음의 유사 여부가 결정될 수 있다. 참조 번호 650에서는 양 텍스트 데이터들 간의 발음이 유사하다는 비교 결과 값이 획득될 수 있다.
참조번호 660에서, 660B는 R로 표현된 가상 핑거프린트 부분(예컨대, 텍스트 데이터 "LABIT"에 대한 가상 핑거프린트 부분)을 나타내며, 660C는 G로 표현된 가상 핑거프린트 부분(예컨대, 텍스트 데이터 "COCOON"에 대한 가상 핑거프린트 부분)을 나타내며, 그리고 660A는 R과 G가 중첩되는(즉, Yellow 형태로 표현되는) 2개의 가상 핑거프린트들이 중첩되는 부분을 나타낸다. 따라서, 660A의 색 강도(또는 면적의 크기)에 기초하여, 상기 2개의 텍스트 데이터들에 대한 발음의 유사 여부가 결정될 수 있다. 참조 번호 660에서는 양 텍스트 데이터들 간의 발음이 비유사하다는 비교 결과 값이 획득될 수 있다.
전술한 바와 같이, 본 개시내용의 일 실시예에 따라, 둘 이상의 가상 핑거프린트들을 비교하는 다양한 방식들이 존재할 수 있다.
일례로, 둘 이상의 가상 핑거프린트들을 비교하는 기법은: 복수의 텍스트 데이터들 중 제 1 텍스트 데이터에 대한 음성학적 특징을 갖는 제 1 가상 핑거프린트와 복수의 텍스트 데이터들 중 제 2 텍스트 데이터에 대한 음성학적 특징을 갖는 제 2 가상 핑거프린트를 연관시킴으로써(concatenate), 상기 연관된 가상 핑거프린트를 이용하여 상기 음성학적 특징을 갖는 가상 핑거프린트들을 비교하는 기법을 포함할 수 있다.
일례로, 둘 이상의 가상 핑거프린트들을 비교하는 기법은: 복수의 텍스트 데이터들 중 제 1 텍스트 데이터에 대한 음성학적 특징을 갖는 제 1 가상 핑거프린트에 R(Red), G(Green) 및 B(Blue) 중 하나의 색채를 적용하고, 복수의 텍스트 데이터들 중 제 2 텍스트 데이터에 대한 음성학적 특징을 갖는 제 2 가상 핑거프린트에 R, G 및 B 중 다른 하나의 색채를 적용하며, 그리고 색채가 적용된 상기 제 1 가상 핑거프린트 및 제 2 가상 핑거프린트를 연관시켜, 연관된 가상 핑거프린트에서의 색채의 강도 및 비중 중 적어도 하나에 기초하여, 음성학적 특징을 갖는 가상 핑거프린트들을 비교하는 기법을 포함할 수 있다.
일례로, 둘 이상의 가상 핑거프린트들을 비교하는 기법은: 가상 핑거프린트들에 포함된 픽셀값에 기초하여, 상기 가상 핑거프린트들을 비교하는 기법을 포함할 수 있다.
일례로, 둘 이상의 가상 핑거프린트들을 비교하는 기법은: 복수의 텍스트 데이터들 중 제 1 텍스트 데이터에 대한 음성학적 특징을 갖는 제 1 가상 핑거프린트와 복수의 텍스트 데이터들 중 제 2 텍스트 데이터에 대한 음성학적 특징을 갖는 제 2 가상 핑거프린트의 픽셀값들간의 유클라디안 거리(Euclidean distance)값을 계산하는 기법, 및 제 1 가상 핑거프린트와 상기 제 2 가상 핑거프린트의 픽셀값들의 코사인 거리(Cosine distance)값을 계산하는 기법, 중 적어도 하나를 포함할 수 있다.
도 6c는 본 개시내용의 일 실시예에 따라 가상 핑거프린트로 표현된 텍스트 데이터를 예시적으로 도시한다.
도 6c는 X축(670A)에 맵핑 알고리즘에 따라 서브세그먼트들이 할당되고, 그리고 Y축(670B)에 맵핑 알고리즘에 따라 X축(670A)에 할당된 서브세그먼트들의 순서와 동일한 순서의 서브세그먼트들이 할당되는 예시적인 가상 핑거프린트를 나타낸다. 도 6c에서의 가상 핑거프린트는 텍스트 데이터 "Castic"을 고유하게 표현할 수 있다.
도 6c에서 도시되는 가상 핑거프린트는 텍스트 데이터의 발음 순서(즉, 세그먼트들의 순서)에 기초하여, 연결의 색 강도 및/또는 연결의 면적이 가변될 수 있다. 예를 들어, 텍스트 데이터의 발음 순서대로 연결의 색 강도 값이 작아질 수 있다. 예를 들어, 텍스트 데이터의 발음 순서대로 연결의 면적이 작아질 수 있다.
도 6c에서는 X축(670A)과 Y축(670B)에는 영문 알파벳이 서브세그먼트들로서 할당되었다. 추가적인 실시예에서, 영문 이외의 언어 또한 서브세그먼트들로 구성될 수 있으며, 이러한 경우 영문으로 번역(translation) 또는 음역(transliteration)된 후에 영문 알파벳의 형태의 서브세그먼트들이 X축(670A)과 Y축(670B)에 할당될 수 있다. 또한, 영문 이외의 언어들을 구성하는 낱자, 숫자, 심볼 및 이들의 조합이 서브세그먼트들로서 X축(670A)과 Y축(670B)에 할당될 수도 있다. 또한, 발음 기호 및 이의 조합이 서브세그먼트들로서 X축(670A)과 Y축(670B)에 할당될 수도 있다. 또한, 영문 알파벳의 조합으로 새로운 발음이 파생되는 경우, 파생된 새로운 발음들 또한 서브세그먼트들로서 X축(670A)과 Y축(670B)에 할당될 수도 있다.
도 6c에서는 X축(670A)과 Y축(670B)에 할당되는 서브세그먼트들 또는 서브세그먼트들의 값의 순서가 동일하다. 본 개시내용의 추가적인 실시예에서, X축(670A)과 Y축(670B)에 할당되는 서브세그먼트들의 순서가 상이할 수도 있다. 본 개시내용의 추가적인 실시예에서, X축(670A)과 Y축(670B)에 할당되는 서브세그먼트들은 서로 상이한 형태를 가질 수도 있다. 예를 들어, X축(670A)은 영문 알파벳의 서브세그먼트를 갖고 그리고 Y축(670B)은 숫자의 서브세그먼트를 가질 수도 있다. 예를 들어, 예를 들어, X축(670A)은 영문 이외의 다른 언어의 낱자의 서브세그먼트를 갖고 그리고 Y축(670B)은 발음기호의 서브세그먼트를 가질 수도 있다. 예를 들어, 예를 들어, X축(670A)은 발음기호의 서브세그먼트를 갖고 그리고 Y축(670B)은 심볼의 서브세그먼트를 가질 수도 있다. 예를 들어, 예를 들어, X축(670A)은 숫자의 서브세그먼트를 갖고 그리고 Y축(670B)은 영문 알파벳의 서브세그먼트를 가질 수도 있다. 전술한 바와 같이, 설계 형태에 따라, X축(670A)과 Y축(670B)에는 다양한 형태의 서브세그먼트들또는 이들의 조합들이 할당될 수 있다.
도 7은 본 개시내용의 일 실시예에 따라 가상 핑거프린트로 표현된 텍스트 데이터를 예시적으로 도시한다.
도 7에서 도시되는 바와 같이, 참조번호 710은 "PEN"이라는 텍스트 데이터를 표현하는 가상 핑거프린트이고, 참조번호 720은 "IS"라는 텍스트 데이터를 표현하는 가상 핑거프린트이고, 참조번호 730은 "STRONGER"라는 텍스트 데이터를 표현하는 가상 핑거프린트이고, 참조번호 740은 "THAN"이라는 텍스트 데이터를 표현하는 가상 핑거프린트이고, 그리고 참조번호 750은 "SWORD"라는 텍스트 데이터를 표현하는 가상 핑거프린트이다. 참조번호 760은 전술한 참조번호들 710 내지 750에 대응되는 가상 핑거프린트들이 N차원(도 7의 예시에서는 5차원) 형태로 쌓여있는 N차원 가상 핑거프린트를 나타낸다.
본 개시내용의 일 실시예에 따라 단어에 대한 가상 핑거프린트를 N 차원 상에 쌓아나가면 문장 또는 문단에 대한 고유의 가상 핑거프린트가 생성될 수 있다. 도 6c에서 도시되는 바와 같이, 문장을 의미 단위 또는 발음 단위로 분할하여 각각의 가상 핑거프린트(일례로, 벡터값)를 스택(stack)형태로 쌓아나가면 문장은 다채널을 갖는 가상 핑거프린트(일례로, 다채널 이미지)로 변형될 수 있다. 이러한 방식으로 만들어진 다채널 가상 핑거프린트를 활용하여 문장 또는 단락 간의 발음 유사도 또한 계산될 수 있다.
본 개시내용의 일 실시예에 따라, 문장 데이터가 수신되는 경우, 문장 분할 알고리즘에 기초하여 상기 문장 데이터를 발음 단위 또는 의미 단위로 분할함으로써, 복수의 텍스트 데이터가 생성될 수 있다. 그리고나서, 컴퓨팅 장치(100)는 상기 복수의 텍스트 데이터에 대응하여 생성된 음성학적 특징을 갖는 가상 핑거프린트들을 N 차원 상에 스택(stack)시킴으로써, 문장 데이터를 N 채널의 가상 핑거프린트로 변환할 수 있다.
현재 논문 등의 표절의 문제를 차단하기 위하여, 문장 및/또는 문단을 포함하는 문서 간의 유사 여부를 판단하는 것이 큰 화두로 떠오르고 있다. 본 개시내용의 일 실시예에 따른 문장/문단의 발음 유사도를 판단하는 기법은 칭호적인 유사도를 기준으로 유사한 문서를 찾을 수 있기 때문에, 이러한 논문 표절 여부를 용이하게 판단할 수 있다.
도 8은 본 개시내용의 일 실시예에 따라 라벨링된 트레이닝 데이터가 딥 뉴럴 네트워크를 통해 트레이닝되는 예시적인 프로세스를 도시한다. 도 8에서 도시되는 딥 뉴럴 네트워크(820)는 예시적인 것이며, 레이어들 및 노드들의 개수는 설계 형태에 따라 변경될 수 있다.
본 개시내용의 일 실시예에 따라, 라벨링된 트레이닝 데이터(810)은 딥 뉴럴 네트워크(820)로 입력될 수 있다(810A). 라벨링된 트레이닝 데이터(810)는 둘 이상의 텍스트 데이터들에 대한 유사 판단 결과 데이터, 및 상기 둘 이상의 텍스트 데이터들에 대응되어 생성된 음성학적 특징을 갖는 가상 핑거프린트들에 대한 데이터를 포함할 수 있다.
본 명세서에 걸쳐, 신경망, 네트워크 함수, 뉴럴 네트워크는 동일한 의미로 사용될 수 있다. 뉴럴 네트워크는 일반적으로 "노드"라 지칭될 수 있는 상호연결된 계산 단위들의 집합으로 구성될 수 있다. 이러한 "노드"들은 "뉴런(neuron)"들로 지칭될 수도 있다. 뉴럴 네트워크는 적어도 하나 이상의 노드들을 포함하여 구성된다. 뉴럴 네트워크들을 구성하는 노드(또는 뉴런)들은 하나 이상의 "링크"에 의해 상호 연결될 수 있다.
뉴럴 네트워크 내에서, 링크를 통해 연결된 하나 이상의 노드들은 상대적으로 입력 노드 및 출력 노드의 관계를 형성할 수 있다. 입력 노드 및 출력 노드의 개념은 상대적인 것으로서, 하나의 노드에 대하여 출력 노드 관계에 있는 임의의 노드는 다른 노드와의 관계에서 입력 노드 관계에 있을 수 있으며, 그 역도 성립할 수 있다. 전술한 바와 같이, 입력 노드 대 출력 노드 관계는 링크를 중심으로 생성될 수 있다. 하나의 입력 노드에 하나 이상의 출력 노드가 링크를 통해 연결될 수 있으며, 그 역도 성립할 수 있다.
하나의 링크를 통해 연결된 입력 노드 및 출력 노드 관계에서, 출력 노드는 입력 노드에 입력된 데이터에 기초하여 그 값이 결정될 수 있다. 여기서 입력 노드와 출력 노드를 상호연결하는 링크는 가중치(weight)를 가질 수 있다. 가중치는 가변적일 수 있으며, 뉴럴 네트워크가 원하는 기능(즉, 모델링하고자 하는 기능)을 수행하기 위해 사용자 또는 알고리즘에 의해 변화될 수 있다. 예를 들어, 하나의 출력 노드에 하나 이상의 입력 노드가 각각의 링크에 의해 상호 연결된 경우, 출력 노드는 상기 출력 노드와 연결된 입력 노드들에 입력된 값들 및 각각의 입력 노드들에 대응하는 링크에 설정된 가중치에 기초하여 출력 노드 값을 결정할 수 있다.
전술한 바와 같이, 뉴럴 네트워크는 하나 이상의 노드들이 하나 이상의 링크를 통해 상호연결 되어 뉴럴 네트워크 내에서 입력 노드 및 출력 노드 관계를 형성한다. 뉴럴 네트워크 내에서 노드들과 링크들의 개수 및 노드들과 링크들 사이의 연관관계, 링크들 각각에 부여된 가중치의 값에 따라, 뉴럴 네트워크의 특성이 결정될 수 있다. 예를 들어, 동일한 개수의 노드 및 링크들이 존재하고, 링크들 사이의 가중치 값이 상이한 두 개의 뉴럴 네트워크가 존재하는 경우, 두 개의 뉴럴 네트워크들은 서로 상이한 것으로 인식될 수 있다.
뉴럴 네트워크는 하나 이상의 노드들을 포함하여, 구성될 수 있다. 신경망을 구성하는 노드들 중 일부는, 최초 입력 노드로부터의 거리들에 기초하여, 하나의 레이어(layer)를 구성할 수 있다, 예를 들어, 최초 입력 노드로부터 거리가 n인 노드들의 집합은, n 레이어를 구성할 수 있다. 최초 입력 노드로부터 거리는, 최초 입력 노드로부터 해당 노드까지 도달하기 위해 거쳐야 하는 링크들의 최소 개수에 의해 정의될 수 있다. 그러나, 이러한 레이어의 정의는 설명을 위한 임의적인 것으로서, 뉴럴 네트워크 내에서 레이어의 차수는 전술한 것과 상이한 방법으로 정의될 수도 있다. 예를 들어, 노드들의 레이어는 최종 출력 노드로부터 거리에 의해 정의될 수도 있다.
도 8에서 도시되는 바와 같이, 뉴럴 네트워크(820)는 입력 레이어(821), 은닉(hidden) 레이어들(822 및 823), 및 출력 레이어(824)를 포함할 수 있다.
최초 입력 노드(또는 입력 레이어(821))는 뉴럴 네트워크 내의 노드들 중 다른 노드들과의 관계에서 링크를 거치지 않고 데이터가 직접 입력되는 하나 이상의 노드들을 의미할 수 있다. 또는, 뉴럴 네트워크 내에서, 링크를 기준으로 한 노드 간의 관계에 있어서, 링크로 연결된 다른 입력 노드들 가지지 않는 노드들을 의미할 수 있다. 이와 유사하게, 최종 출력 노드는 신경망 내의 노드들 중 다른 노드들과의 관계에서, 출력 노드를 가지지 않는 하나 이상의 노드들(예컨대, 824와 같은 출력 레이어)을 의미할 수 있다. 또한, 은닉 노드는 최초 입력 노드 및 최후 출력 노드가 아닌 신경망을 구성하는 노드들을 의미할 수 있다.
본 개시의 일 실시예에 따른 뉴럴 네트워크(820)는 입력 레이어(821)의 노드가 출력 레이어(824)에 가까운 은닉 레이어(823)의 노드보다 많을 수 있으며, 입력 레이어(821)에서 은닉 레이어(822 및 823)로 진행됨에 따라 노드의 수가 감소하는 형태의 뉴럴 네트워크일 수 있다. 일례로, 본 개시의 일 실시예에 따른 뉴럴 네트워크(820)의 출력 레이어(824)의 출력 노드들은 2개일 수 있다. 이러한 예시에서, 유사 또는 비유사를 포함하는 2개의 출력 결과를 표현하기 위하여 출력 노드들은 2개로 설정될 수 있다.
딥 뉴럴 네트워크(DNN: deep neural network, 심층신경망)는 도 8에서 도시되는 바와 같이 입력 레이어(821)와 출력 레이어(824) 사이에 복수의 은닉 레이어(822 및 823)를 포함하는 뉴럴 네트워크를 의미할 수 있다. 딥 뉴럴 네트워크를 이용하면 데이터의 잠재적인 구조(latent structures)를 파악할 수 있다. 즉, 가상 핑거프린트, 사진, 글, 비디오, 음성, 음악의 잠재적인 구조(예를 들어, 어떤 물체가 사진에 있는지, 글의 내용과 감정이 무엇인지, 음성의 내용과 감정이 무엇인지 등)가 파악될 수 있다. 딥 뉴럴 네트워크는 컨볼루셔널 뉴럴 네트워크(CNN: convolutional neural network), 리커런트 뉴럴 네트워크(RNN: recurrent neural network), 제한 볼츠만 머신(RBM: restricted boltzmann machine), 심층 신뢰 네트워크(DBN: deep belief network), Q 네트워크, U 네트워크 및/또는 샴 네트워크를 포함할 수 있다.
도 8에서 도시되는 바와 같이, 라벨링된 트레이닝 데이터(810)의 둘 이상의 텍스트 데이터들에 대한 유사 판단 결과 데이터는 810B의 경로를 따라 비교 모듈(830)에 도달할 수 있다. 또한, 둘 이상의 가상 핑거프린트들이 뉴럴 네트워크(820)를 통과한 결과값은 참조번호 820A의 경로를 통해 비교 모듈(830)에 도달할 수 있다. 비교 모듈(830)은 유사 판단 결과 데이터와 뉴럴 네트워크(820)를 통과한 결과값을 비교하여, 오차를 결정할 수 있다. 오차가 발생되는 경우, 참조번호 820B의 경로를 따라서 출력 레이어(824)로부터 은닉 레이어들(823 및 822)로의 방향으로 역전파 방식으로 오차가 전달될 수 있다. 오차가 전달됨에 따라, 각 노드들 간의 링크의 가중치가 오차를 반영하여 업데이트될 수 있다.
도 9는 본 개시내용의 일 실시예에 따라 딥 뉴럴 네트워크를 통해 가상 핑거프린트로 표현된 텍스트 데이터의 특징이 추출되는 예시적인 프로세스를 도시한다. 도 9에서 도시되는 실시예는 예시적인 것이며, 설계 형태에 따라 컴포넌트들의 개수 등이 변화될 수 있다.
도 9에서는 CNN을 통하여 N채널의 가상 핑거프린트들의 특징이 추출되는 예시적인 프로세스를 나타낸다. 본 개시내용의 일 실시예에 따른 CNN은 도 9에서 도시되는 특징 추출 뉴럴 네트워크 및 도 8에서 도시되는 범주 분류 뉴럴 네트워크(즉, 도 8에서의 820)를 포함할 수 있다. 추가적으로, 도 8에서 도시되는 뉴럴 네트워크는 특징 추출 뉴럴 네트워크 및 범주 분류 뉴럴 네트워크를 모두 포함할 수도 있다. 추가적으로, 도 9에서 도시되는 뉴럴 네트워크는 특징 추출 뉴럴 네트워크 및 범주 분류 뉴럴 네트워크를 모두 포함할 수도 있다.
둘 이상의 텍스트 데이터들에 대한 가상 핑거프린트들이 연관되어 N채널의 가상 핑거프린트(900a)가 생성될 수 있다. 도 9에 따른 예시에서, 두 개의 텍스트 데이터들에 대한 가상 핑거프린트들이 서로 연관되어 2채널의 가상 핑거프린트가 생성될 수 있다. 이러한 2채널의 가상 핑거프린트는 하나 이상의 컨볼루션 레이어(910 및 950) 및 하나 이상의 풀링(pooling) 레이어(930 및 970)를 통과하여, 분류 뉴럴 네트워크에 입력되도록 특징들이 추출될 수 있다.
본 명세서에서의 컨볼루션 레이어(910 및 950)는 컨볼루션 연산을 통해 입력 가상 핑거프린트를 필터링하는 기능을 수행한다. 컨볼루션 레이어(910 및 950)는 입력 가상 핑거프린트에 대한 특징 맵(feature map)을 생성할 수 있다. 따라서, 컨볼루션 레이어(910 및 950)는 입력된 가상 핑거프린트와 컨볼루션 필터를 연산하여 특징 맵을 획득할 수 있다. 이러한 특징 맵은 활성 함수(예컨대, ReLU 함수, 시그모이드 함수 및/또는 tanh 함수 등)를 통해 최종적으로 출력될 수 있다.
본 명세서에서의 풀링 레이어(930 및 970)는 입력되는 가상 핑거프린트의 크기를 줄이는 역할을 수행할 수 있다. 풀링 레이어(930 및 970)는 입력된 가상 핑거프린트에서 특정 영역에 속하는 픽셀들을 그룹화시킴으로써 그룹에 대한 대표값(예컨대, 최대값 또는 평균값 등)을 생성할 수 있다. 이러한 풀링 레이어(930 및 970)는 입력된 가상 핑거프린트의 크기를 줄임으로써 컴퓨팅 장치(100)의 계산량을 줄이고 과적합(overfitting)을 방지하는데 도움이 될 수 있다.
CNN에 입력되는 2채널의 가상 핑거프린트(900A)는 예를 들어, 28(가로) x 28(세로) x 2(채널수)의 형태를 가질 수 있다. 이러한 2채널의 가상 핑거프린트(900A)는 5(가로) x 5(세로) x 32(필터수)의 제 1 컨볼루션 레이어(910)를 활용하여 28 x 28 x 32의 형태로 변형될 수 있다(920). 그리고나서, 예를 들어 CNN은 가상 핑거프린트(920)는 max pooling 기법을 활용하는 2 x 2 (stride : 2)의 제 1 풀링 레이어(930)를 통하여 14 x 14 x 32의 크기로 변형된다(940).
전술한 과정을 한번 더 진행하면(즉, 제 2 컨볼루션 레이어(950) 및 제 2 풀링 레이어(970)를 활용하면), 7 x 7 x 64로 변형된 가상 핑거프린트(960을 거쳐 980이 됨)가 획득될 수 있다. 그리고나서, 가상 핑거프린트(980)에 flatten shape를 적용하여 1 x 1 x 1024 형태의 변형된 가상 핑거프린트(990)가 획득될 수 있다. 마지막으로 1 x 1 x 1024 형태의 가상 핑거프린트(990)는 softmax를 통해 0 또는 1 값을 갖도록 학습될 수 있다(900B). 해당 과정에서, 예를 들어, Batch Normalize, Dropout 등의 딥러닝 기법들이 활용될 수 있다.
CNN에서의 학습을 통하여 컨볼루션 레이어의 파라미터 값 및/또는 풀링 레이어의 파라미터 값이 가변적으로 업데이트될 수 있다.
도 10은 본 개시내용의 일 실시예에 따라 텍스트 데이터를 가상 핑거프린트로 표현하고 이를 활용하는 예시적인 수단을 도시한다.
예를 들어, 도 10에서 구현되는 수단은 컴퓨팅 장치(100)와 관련될 수 있다. 도 10에서 표현되는 방법의 수단들은 예시적인 것이며, 설계의 형태에 따라, 추가적인 수단들이 포함될 수 있거나 또는 상기 수단들 중 일부는 생략될 수도 있다.
도 10에 기재된 바와 같이, 컴퓨팅 장치(100)는: 사전결정된 텍스트 분할 알고리즘에 기초하여 텍스트 데이터를 하나 이상의 세그먼트들로 분할하는 수단(1010), 사전결정된 맵핑 알고리즘에 기초하여, 분할된 세그먼트를 구성하는 하나 이상의 서브세그먼트들 각각에 할당된 맵핑 값을 결정하는 수단(1020), 결정된 맵핑 값에 기초하여, 하나 이상의 세그먼트들 각각에 대한 좌표 값을 생성하는 수단(1030), 생성된 좌표 값에 기초하여, 텍스트 데이터에 대한 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 수단(1040), 복수의 텍스트 데이터들에 대해 생성된 음성학적 특징을 갖는 가상 핑거프린트들을 서로 비교하는 수단(1050), 및 상기 비교의 결과에 따라 복수의 텍스트 데이터들에 대한 발음 유사도(호칭 유사도)를 결정하는 수단(1060)을 포함할 수 있다.
도 11은 본 개시내용의 일 실시예에 따라 텍스트 데이터를 가상 핑거프린트로 표현하고 이를 활용하는 예시적인 로직을 도시한다.
예를 들어, 도 10에서 구현되는 로직은 컴퓨팅 장치(100)에 의해 수행될 수 있다. 도 10에서 표현되는 방법의 로직들은 예시적인 것이며, 설계의 형태에 따라, 추가적인 로직들이 포함될 수 있거나 또는 상기 로직들 중 일부는 생략될 수도 있다.
도 11에 기재된 바와 같이, 컴퓨팅 장치(100)는: 사전결정된 텍스트 분할 알고리즘에 기초하여 텍스트 데이터를 하나 이상의 세그먼트들로 분할하는 로직(1110), 사전결정된 맵핑 알고리즘에 기초하여, 분할된 세그먼트를 구성하는 하나 이상의 서브세그먼트들 각각에 할당된 맵핑 값을 결정하는 로직(1120), 결정된 맵핑 값에 기초하여, 하나 이상의 세그먼트들 각각에 대한 좌표 값을 생성하는 로직(1130), 생성된 좌표 값에 기초하여, 텍스트 데이터에 대한 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 로직(1140), 복수의 텍스트 데이터들에 대해 생성된 음성학적 특징을 갖는 가상 핑거프린트들을 서로 비교하는 로직(1150), 및 상기 비교의 결과에 따라 복수의 텍스트 데이터들에 대한 발음 유사도(호칭 유사도)를 결정하는 로직(1160)을 수행할 수 있다.
도 12는 본 개시내용의 일 실시예에 따른 컴퓨팅 장치의 예시적인 블록 구성도(block diagram)를 도시한다.
본 개시내용이 일반적으로 하나 이상의 서버 또는 컴퓨팅 장치 또는 프로세서 상에서 실행될 수 있는 특징들과 관련하여 전술되었지만, 당업자라면 본 발명이 기타 프로그램 모듈들과 결합되어 그리고/또는 하드웨어와 소프트웨어의 조합으로서 구현될 수 있다는 것을 잘 알 것이다.
일반적으로, 프로그램 모듈은 특정의 태스크를 수행하거나 특정의 추상 데이터 유형을 구현하는 루틴, 프로그램, 컴포넌트, 데이터 구조, 기타 등등을 포함한다. 또한, 당업자라면 본 발명의 방법이 단일-프로세서 또는 멀티프로세서 컴퓨터 시스템, 미니컴퓨터, 메인프레임 컴퓨터는 물론 퍼스널 컴퓨터, 핸드헬드 컴퓨팅 장치, 마이크로프로세서-기반 또는 프로그램가능 가전 제품, 기타 등등(이들 각각은 하나 이상의 연관된 장치와 연결되어 동작할 수 있음)을 비롯한 다른 컴퓨팅 장치의 구성으로 실시될 수 있다는 것을 잘 알 것이다.
본 발명의 설명된 실시예들은 또한 어떤 태스크들이 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 수행되는 분산 컴퓨팅 환경에서 실시될 수도 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 로컬 및 원격 메모리 저장 장치 둘 다에 위치할 수 있다.
컴퓨팅 장치는 통상적으로 다양한 컴퓨터-판독가능 매체를 포함한다. 컴퓨터에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 일시적(transitory) 및 비일시적(non-transitory) 매체, 이동식 및 비-이동식 매체를 포함한다. 제한이 아닌 예로서, 컴퓨터 판독가능 매체는 컴퓨터 판독가능 저장 매체 및 컴퓨터 판독가능 전송 매체를 포함할 수 있다.
컴퓨터 판독가능 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성 매체, 일시적 및 비-일시적 매체, 이동식 및 비이동식 매체를 포함한다. 컴퓨터 판독가능 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital video disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함하지만, 이에 한정되지 않는다.
컴퓨터 판독가능 전송 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘(transport mechanism)과 같은 피변조 데이터 신호(modulated data signal)에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터등을 구현하고 모든 정보 전달 매체를 포함한다. 피변조 데이터 신호라는 용어는 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상을 설정 또는 변경시킨 신호를 의미한다. 제한이 아닌 예로서, 송수신(통신) 매체는 유선 네트워크 또는 직접 배선 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선, 기타 무선 매체와 같은 무선 매체를 포함한다. 상술된 매체들 중 임의의 것의 조합도 역시 컴퓨터 판독가능 전송 매체의 범위 안에 포함되는 것으로 한다.
도 12에서는 본 개시내용의 일 실시예에 따른 컴퓨팅 장치(1602)를 포함하는 본 발명의 여러가지 측면들을 구현하는 예시적인 환경이 나타내어져 있으며, 컴퓨팅 장치(1602)는 처리 장치(1604), 시스템 메모리(1606) 및 시스템 버스(1608)를 포함한다. 시스템 버스(1608)는 시스템 메모리(1606)(이에 한정되지 않음)를 비롯한 시스템 컴포넌트들을 처리 장치(프로세서)(1604)에 연결시킨다. 처리 장치(1604)는 다양한 상용 프로세서들 중 임의의 프로세서일 수 있다. 듀얼 프로세서 및 기타 멀티프로세서 아키텍처도 역시 처리 장치(1604)로서 이용될 수 있다.
시스템 버스(1608)는 메모리 버스, 주변장치 버스, 및 다양한 상용 버스 아키텍처 중 임의의 것을 사용하는 로컬 버스에 추가적으로 상호 연결될 수 있는 몇가지 유형의 버스 구조 중 임의의 것일 수 있다. 시스템 메모리(1606)는 판독 전용 메모리(ROM)(1610) 및 랜덤 액세스 메모리(RAM)(1612)를 포함한다. 기본 입/출력 시스템(BIOS)은 ROM, EPROM, EEPROM 등의 비휘발성 메모리(1610)에 저장되며, 이 BIOS는 시동 중과 같은 때에 컴퓨팅 장치(1602) 내의 구성요소들 간에 정보를 전송하는 일을 돕는 기본적인 루틴을 포함한다. RAM(1612)은 또한 데이터를 캐싱하기 위한 정적 RAM 등의 고속 RAM을 포함할 수 있다.
컴퓨팅 장치(1602)는 또한 내장형 하드 디스크 드라이브(HDD)(1614)(예를 들어, EIDE, SATA)이 내장형 하드 디스크 드라이브(1614)는 또한 적당한 섀시(도시 생략) 내에서 외장형 용도로 구성될 수 있음), 자기 플로피 디스크 드라이브(FDD)(1616)(예를 들어, 이동식 디스켓(1618)으로부터 판독을 하거나 그에 기록을 하기 위한 것임), 및 광 디스크 드라이브(1620)(예를 들어, CD-ROM 디스크(1622)를 판독하거나 DVD 등의 기타 고용량 광 매체로부터 판독을 하거나 그에 기록을 하기 위한 것임)를 포함한다. 하드 디스크 드라이브(1614), 자기 디스크 드라이브(1616) 및 광 디스크 드라이브(1620)는 각각 하드 디스크 드라이브 인터페이스(624), 자기 디스크 드라이브 인터페이스(1626) 및 광 드라이브 인터페이스(1628)에 의해 시스템 버스(1608)에 연결될 수 있다. 외장형 드라이브 구현을 위한 인터페이스(1624)는 USB(Universal Serial Bus) 및 IEEE 1394 인터페이스 기술 중 적어도 하나 또는 그 둘 다를 포함한다.
이들 드라이브 및 그와 연관된 컴퓨터 판독 가능 저장 매체는 데이터, 데이터 구조, 컴퓨터 실행가능 명령어, 기타 등등의 비휘발성 저장을 제공한다. 컴퓨팅 장치(602)의 경우, 드라이브 및 매체는 임의의 데이터를 적당한 디지털 형식으로 저장하는 것에 대응한다. 상기에서의 컴퓨터 판독 가능 저장 매체에 대한 설명이 HDD, 이동식 자기 디스크, 및 CD 또는 DVD 등의 이동식 광 매체를 언급하고 있지만, 당업자라면 집 드라이브(zip drive), 자기 카세트, 플래시 메모리 카드, 카트리지, 기타 등등의 컴퓨터에 의해 판독 가능한 다른 유형의 매체도 역시 예시적인 운영 환경에서 사용될 수 있으며 또 임의의 이러한 매체가 본 발명의 방법들을 수행하기 위한 컴퓨터 실행가능 명령어를 포함할 수 있다는 것을 잘 알 것이다.
운영 체제(1630), 하나 이상의 애플리케이션 프로그램(1632), 기타 프로그램 모듈(1634) 및 프로그램 데이터(1636)를 비롯한 다수의 프로그램 모듈이 드라이브 및 RAM(1612)에 저장될 수 있다. 운영 체제, 애플리케이션, 모듈 및/또는 데이터의 전부 또는 그 일부분이 또한 RAM(1612)에 캐싱될 수 있다. 본 발명이 여러가지 상업적으로 이용 가능한 운영 체제 또는 운영 체제들의 조합에서 구현될 수 있다는 것을 잘 알 것이다.
사용자는 하나 이상의 유선/무선 입력 장치, 예를 들어, 키보드(1638) 및 마우스(1640) 등의 포인팅 장치를 통해 컴퓨팅 장치(602)에 명령 및 정보를 입력할 수 있다. 기타 입력 장치(도시 생략)로는 마이크, IR 리모콘, 조이스틱, 게임 패드, 스타일러스 펜, 터치 스크린, 기타 등등이 있을 수 있다. 이들 및 기타 입력 장치가 종종 시스템 버스(1608)에 연결되어 있는 입력 장치 인터페이스(1642)를 통해 처리 장치(1604)에 연결되지만, 병렬 포트, IEEE 1394 직렬 포트, 게임 포트, USB 포트, IR 인터페이스, 기타 등등의 기타 인터페이스에 의해 연결될 수 있다.
모니터(1644) 또는 다른 유형의 디스플레이 장치도 역시 비디오 어댑터(1646) 등의 인터페이스를 통해 시스템 버스(1608)에 연결된다. 모니터(1644)에 부가하여, 컴퓨터는 일반적으로 스피커, 프린터, 기타 등등의 기타 주변 출력 장치(도시 생략)를 포함한다.
컴퓨팅 장치(1602)는 유선 및/또는 무선 통신을 통한 원격 컴퓨터(들)(1648) 등의 하나 이상의 원격 컴퓨터로의 논리적 연결을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(들)(1648)는 워크스테이션, 서버 컴퓨터, 라우터, 퍼스널 컴퓨터, 휴대용 컴퓨터, 마이크로프로세서-기반 오락 기기, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있으며, 일반적으로 컴퓨팅 장치(1602)에 대해 기술된 구성요소들 중 다수 또는 그 전부를 포함하지만, 간략함을 위해, 메모리 저장 장치(1650)만이 도시되어 있다. 도시되어 있는 논리적 연결은 근거리 통신망(LAN)(1652) 및/또는 더 큰 네트워크, 예를 들어, 원거리 통신망(WAN)(1654)에의 유선/무선 연결을 포함한다. 이러한 LAN 및 WAN 네트워킹 환경은 사무실 및 회사에서 일반적인 것이며, 인트라넷 등의 전사적 컴퓨터 네트워크(enterprise-wide computer network)를 용이하게 해주며, 이들 모두는 전세계 컴퓨터 네트워크, 예를 들어, 인터넷에 연결될 수 있다.
LAN 네트워킹 환경에서 사용될 때, 컴퓨팅 장치(1602)는 유선 및/또는 무선 통신 네트워크 인터페이스 또는 어댑터(1656)를 통해 로컬 네트워크(1652)에 연결된다. 어댑터(1656)는 LAN(1652)에의 유선 또는 무선 통신을 용이하게 해줄 수 있으며, 이 LAN(1652)은 또한 무선 어댑터(1656)와 통신하기 위해 그에 설치되어 있는 무선 액세스 포인트를 포함하고 있다. WAN 네트워킹 환경에서 사용될 때, 컴퓨팅 장치(1602)는 모뎀(1658)을 포함할 수 있거나, WAN(1654) 상의 통신 서버에 연결되거나, 또는 인터넷을 통하는 등, WAN(1654)을 통해 통신을 설정하는 기타 수단을 갖는다. 내장형 또는 외장형 및 유선 또는 무선 장치일 수 있는 모뎀(1658)은 직렬 포트 인터페이스(1642)를 통해 시스템 버스(1608)에 연결된다. 네트워크화된 환경에서, 컴퓨팅 장치(1602)에 대해 설명된 프로그램 모듈들 또는 그의 일부분이 원격 메모리/저장 장치(1650)에 저장될 수 있다. 도시된 네트워크 연결이 예시적인 것이며 컴퓨터들 사이에 통신 링크를 설정하는 기타 수단이 사용될 수 있다는 것을 잘 알 것이다.
컴퓨팅 장치(1602)는 무선 통신으로 배치되어 동작하는 임의의 무선 장치 또는 개체, 예를 들어, 프린터, 스캐너, 데스크톱 및/또는 휴대용 컴퓨터, PDA(portable data assistant), 통신 위성, 무선 검출 가능 태그와 연관된 임의의 장비 또는 장소, 및 전화와 통신을 하는 동작을 한다. 이것은 적어도 Wi-Fi 및 블루투스 무선 기술을 포함한다. 따라서, 통신은 종래의 네트워크에서와 같이 미리 정의된 구조이거나 단순하게 적어도 2개의 장치 사이의 애드혹 통신(ad hoc communication)일 수 있다.
Wi-Fi(Wireless Fidelity)는 유선 없이도 인터넷 등으로의 연결을 가능하게 해준다. Wi-Fi는 이러한 장치, 예를 들어, 컴퓨터가 실내에서 및 실외에서, 즉 기지국의 통화권 내의 아무 곳에서나 데이터를 전송 및 수신할 수 있게 해주는 셀 전화와 같은 무선 기술이다. Wi-Fi 네트워크는 안전하고 신뢰성 있으며 고속인 무선 연결을 제공하기 위해 IEEE 802.6(a,b,g, 기타)이라고 하는 무선 기술을 사용한다. 컴퓨터를 서로에, 인터넷에 및 유선 네트워크(IEEE 802.3 또는 이더넷을 사용함)에 연결시키기 위해 Wi-Fi가 사용될 수 있다. Wi-Fi 네트워크는 비인가 2.4 및 5 GHz 무선 대역에서, 예를 들어, 6Mbps(802.6a) 또는 54 Mbps(802.6b) 데이터 레이트로 동작하거나, 양 대역(듀얼 대역)을 포함하는 제품에서 동작할 수 있다.
본 발명의 기술 분야에서 통상의 지식을 가진 자는 여기에 개시된 실시예들과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 프로세서들, 수단들, 회로들 및 알고리즘 단계들이 전자 하드웨어, (편의를 위해, 여기에서 "소프트웨어"로 지칭되는) 다양한 형태들의 프로그램 또는 설계 코드 또는 이들 모두의 결합에 의해 구현될 수 있다는 것을 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호 호환성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들 및 단계들이 이들의 기능과 관련하여 위에서 일반적으로 설명되었다. 이러한 기능이 하드웨어 또는 소프트웨어로서 구현되는지 여부는 특정한 애플리케이션 및 전체 시스템에 대하여 부과되는 설계 제약들에 따라 좌우된다. 본 발명의 기술 분야에서 통상의 지식을 가진 자는 각각의 특정한 애플리케이션에 대하여 다양한 방식들로 설명된 기능을 구현할 수 있으나, 이러한 구현 결정들은 본 발명의 범위를 벗어나는 것으로 해석되어서는 안 될 것이다.
여기서 제시된 다양한 실시예들은 방법, 장치, 또는 표준 프로그래밍 및/또는 엔지니어링 기술을 사용한 제조 물품(article)으로 구현될 수 있다. 용어 "제조 물품"은 임의의 컴퓨터-판독 가능 장치로부터 액세스 가능한 컴퓨터 프로그램, 캐리어, 또는 매체(media)를 포함한다. 예를 들어, 컴퓨터-판독 가능 매체는 자기 저장 장치(예를 들면, 하드 디스크, 플로피 디스크, 자기 스트립, 등), 광학 디스크(예를 들면, CD, DVD, 등), 스마트 카드, 및 플래쉬 메모리 장치(예를 들면, EEPROM, 카드, 스틱, 키 드라이브, 등)를 포함하지만, 이들로 제한되는 것은 아니다. 용어 "기계-판독 가능 매체"는 명령(들) 및/또는 데이터를 저장, 보유할 수 있는 다양한 다른 매체를 포함하지만, 이들로 제한되는 것은 아니다.
제시된 프로세스들에 있는 단계들의 특정한 순서 또는 계층 구조는 예시적인 접근들의 일례임을 이해하도록 한다. 설계 우선순위들에 기반하여, 본 발명의 범위 내에서 프로세스들에 있는 단계들의 특정한 순서 또는 계층 구조가 재배열될 수 있다는 것을 이해하도록 한다. 첨부된 방법 청구항들은 샘플 순서로 다양한 단계들의 엘리먼트들을 제공하지만 제시된 특정한 순서 또는 계층 구조에 한정되는 것을 의미하지는 않는다.
제시된 실시예들에 대한 설명은 임의의 본 발명의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 발명의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 발명은 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.

Claims (30)

  1. 인코딩된 명령들을 포함하는 컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램은 컴퓨터 시스템의 하나 이상의 프로세서들에 의해 실행되는 경우, 상기 하나 이상의 프로세서들로 하여금 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 방법을 수행하도록 하며, 상기 방법은:
    사전결정된 텍스트 분할 알고리즘에 기초하여, 텍스트 데이터를 하나 이상의 세그먼트(segment)들로 분할하는 단계;
    사전결정된 맵핑 알고리즘에 기초하여, 상기 분할된 세그먼트를 구성하는 하나 이상의 서브세그먼트(subsegment)들에 할당된 맵핑 값을 결정하는 단계;
    상기 결정된 맵핑 값에 기초하여, 상기 하나 이상의 세그먼트들 각각에 대한 좌표 값을 생성하는 단계; 및
    상기 생성된 좌표 값에 기초하여, 상기 텍스트 데이터에 대한 음성학적(phonetic) 특징을 갖는 가상 핑거프린트(virtual fingerprint)를 생성하는 단계;
    를 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  2. 제 1 항에 있어서,
    상기 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 단계는:
    상기 하나 이상의 세그먼트들 각각에 대해 생성된 좌표 값들에 기초하여, n차원 공간에서의 지점들을 결정하는 단계; 및
    상기 결정된 지점들을 연결함으로써, 상기 텍스트 데이터에 대한 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 단계;
    를 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  3. 제 2 항에 있어서,
    상기 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 단계는:
    상기 텍스트 분할 알고리즘에 의해 상기 텍스트 데이터로부터 분할된 세그먼트의 크기값에 기초하여, 상기 음성학적 특징을 갖는 가상 핑거프린트를 표현하기 위한 차원의 크기를 결정하는 단계;
    를 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  4. 제 2 항에 있어서,
    상기 n차원 공간 중 첫번째 차원 내지 n-1번째 차원은 상기 세그먼트를 구성하는 서브세그먼트들에 할당된 n-1 차원 좌표 값과 대응되며, 그리고 상기 n차원 공간 중 n번째 차원은 상기 분할된 세그먼트 단위로 할당된 1차원 값과 대응되는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  5. 제 2 항에 있어서,
    상기 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 단계는:
    상기 텍스트 데이터로부터 분할된 상기 세그먼트들의 순서 정보에 기초하여, 상기 세그먼트들의 좌표 값에 대응되는 지점들 간의 연결들을 상이하게 표시하는 방식으로 상기 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 단계;
    를 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  6. 제 2 항에 있어서,
    상기 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 단계는:
    상기 결정된 지점들에 대해 결정된 두께 및 색의 강도(intensity) 중 적어도 하나에 기초하여, 상기 결정된 지점들을 연결하는 연결선의 두께 및 색의 강도 중 적어도 하나가 점차적으로 변경되는 방식으로 상기 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 단계; 및
    상기 지점들을 연결하는 연결선의 중심부와 주변부의 색의 강도를 상이하게 표현하는 방식으로 상기 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 단계;
    중 적어도 하나를 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  7. 제 5 항에 있어서,
    상기 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 단계는:
    상기 텍스트 데이터로부터 분할된 상기 세그먼트들의 순서 정보에 기초하여, 뒷선 순서의 세그먼트들 간의 연결 보다 앞선 순서의 세그먼트들 간의 연결에 높은 가중치를 부여하여 표시하는 방식으로, 상기 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 단계;
    를 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  8. 제 7 항에 있어서,
    상기 가중치를 부여하여 표시하는 방식은:
    상기 가중치가 낮은 연결에 비해 상기 가중치가 높은 연결에 대한 두께를 크게 표시하는 방식; 및
    상기 가중치가 낮은 연결에 비해 상기 가중치가 높은 연결에 대한 색의 강도(color intensity)를 높게 표시하는 방식;
    중 적어도 하나를 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  9. 제 8 항에 있어서,
    상기 텍스트 데이터의 길이 정보에 기초하여, 상기 두께의 값 및 상기 색의 강도의 값 중 적어도 하나가 결정되는,
    를 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  10. 제 5 항에 있어서,
    상기 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 단계는:
    상기 텍스트 데이터로부터 분할된 상기 세그먼트들의 순서 정보에 기초하여, 가장 앞선 순서를 갖는 세그먼트들 간의 연결에 가중치를 부여하여 표시하는 방식으로, 상기 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 단계;
    를 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  11. 제 1 항에 있어서,
    상기 사전결정된 분할 알고리즘은,
    상기 텍스트 데이터로부터 분할되는 세그먼트 하나가 갖는 서브세그먼트의 개수를 분할의 단위로서 결정하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  12. 제 1 항에 있어서,
    상기 사전결정된 분할 알고리즘은,
    상기 텍스트 데이터의 최초(initial) 서브세그먼트 앞에 시작(start) 서브세그먼트을 추가하고 그리고 상기 텍스트 데이터의 최종(final) 서브세그먼트 뒤에 종료(end) 서브세그먼트을 추가하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  13. 제 12 항에 있어서,
    상기 사전결정된 분할 알고리즘은,
    상기 시작 서브세그먼트 및 상기 종료 서브세그먼트를 포함하는 m개의 서브세그먼트들을 하나의 세그먼트로 구성하는 방식으로, 상기 텍스트 데이터를 세그먼트들로 분할하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  14. 제 1 항에 있어서,
    상기 사전결정된 맵핑 알고리즘은,
    상기 텍스트 데이터가 속한 언어(language)를 구성하는 낱자들의 발음 형태에 기초하여, 서브세그먼트 단위로 또는 서브세그먼트들의 조합 단위로 고유의 맵핑값을 할당하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  15. 제 14 항에 있어서,
    상기 사전결정된 맵핑 알고리즘은 추가적으로,
    상기 텍스트 데이터의 최초 서브세그먼트 앞에 추가되는 시작 서브세그먼트 및 상기 텍스트 데이터의 종료 서브세그먼트 뒤에 할당되는 종료 서브세그먼트에 고유의 맵핑값을 할당하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  16. 제 14 항에 있어서,
    상기 사전결정된 맵핑 알고리즘은 추가적으로,
    상기 낱자들 간의 발음의 유사도가 사전결정된 범위 내에 있는 경우, 상기 낱자들에 대응되는 서브세그먼트들의 맵핑 값들 간의 차이가 제 1 차이값을 갖도록 설정하고,
    상기 낱자들 간의 발음의 유사도가 사전결정된 범위 밖에 있는 경우, 상기 낱자들에 대응되는 서브세그먼트들의 맵핑 값들 간의 차이가 제 2 차이값을 갖도록 설정하며, 그리고
    상기 제 1 차이값은 제 2 차이값보다 작은,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  17. 제 1 항에 있어서,
    상기 생성된 텍스트 데이터에 대한 음성학적 특징을 갖는 가상 핑거프린트는, 상기 텍스트 데이터를 표현하는 고유의 벡터값, 텐서값, 메트릭스값 및 이미지 구조 중 적어도 하나를 가지는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  18. 제 1 항에 있어서,
    상기 방법은:
    문장 데이터가 수신되는 경우, 문장 분할 알고리즘에 기초하여 상기 문장 데이터를 발음 단위 또는 의미 단위로 분할함으로써, 복수의 텍스트 데이터를 생성하는 단계; 및
    상기 복수의 텍스트 데이터에 대응하여 생성된 음성학적 특징을 갖는 가상 핑거프린트들을 N 차원 상에 스택(stack)시킴으로써, 상기 문장 데이터를 N 채널의 가상 핑거프린트로 변환하는 단계;
    를 더 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  19. 제 1 항에 있어서,
    상기 방법은:
    복수의 텍스트 데이터들 각각에 대해 생성된 음성학적 특징을 갖는 가상 핑거프린트들을 비교하는 단계; 및
    상기 비교의 결과에 기초하여, 비교된 복수의 텍스트 데이터들에 대한 발음 유사도를 판단하는 단계;
    를 더 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  20. 제 19 항에 있어서,
    상기 음성학적 특징을 갖는 가상 핑거프린트들을 비교하는 단계는:
    상기 복수의 텍스트 데이터들 중 제 1 텍스트 데이터에 대한 음성학적 특징을 갖는 제 1 가상 핑거프린트와 상기 복수의 텍스트 데이터들 중 제 2 텍스트 데이터에 대한 음성학적 특징을 갖는 제 2 가상 핑거프린트를 연관시킴으로써(concatenate), 상기 연관된 가상 핑거프린트를 이용하여 상기 음성학적 특징을 갖는 가상 핑거프린트들을 비교하는 단계;
    를 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  21. 제 19 항에 있어서,
    상기 음성학적 특징을 갖는 가상 핑거프린트들을 비교하는 단계는:
    상기 복수의 텍스트 데이터들 중 제 1 텍스트 데이터에 대한 음성학적 특징을 갖는 제 1 가상 핑거프린트에 R(Red), G(Green) 및 B(Blue) 중 하나의 색채를 적용하는 단계;
    상기 복수의 텍스트 데이터들 중 제 2 텍스트 데이터에 대한 음성학적 특징을 갖는 제 2 가상 핑거프린트에 R, G 및 B 중 다른 하나의 색채를 적용하는 단계; 및
    색채가 적용된 상기 제 1 가상 핑거프린트 및 제 2 가상 핑거프린트를 연관시켜, 연관된 가상 핑거프린트에서의 색채의 강도 및 비중 중 적어도 하나에 기초하여, 상기 음성학적 특징을 갖는 가상 핑거프린트들을 비교하는 단계;
    를 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  22. 제 19 항에 있어서,
    상기 음성학적 특징을 갖는 가상 핑거프린트들을 비교하는 단계는:
    상기 가상 핑거프린트들에 포함된 픽셀값에 기초하여, 상기 가상 핑거프린트들을 비교하는 단계;
    를 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  23. 제 22 항에 있어서,
    상기 음성학적 특징을 갖는 가상 핑거프린트들을 비교하는 단계는:
    상기 복수의 텍스트 데이터들 중 제 1 텍스트 데이터에 대한 음성학적 특징을 갖는 제 1 가상 핑거프린트와 상기 복수의 텍스트 데이터들 중 제 2 텍스트 데이터에 대한 음성학적 특징을 갖는 제 2 가상 핑거프린트의 픽셀값들간의 유클라디안 거리(Euclidean distance)값을 계산하는 단계; 및
    상기 제 1 가상 핑거프린트와 상기 제 2 가상 핑거프린트의 픽셀값들의 코사인 거리(Cosine distance)값을 계산하는 단계;
    중 적어도 하나를 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  24. 제 1 항에 있어서,
    상기 방법은:
    둘 이상의 텍스트 데이터들에 대한 유사 판단 결과 데이터, 및 상기 둘 이상의 텍스트 데이터들에 대응되어 생성된 음성학적 특징을 갖는 가상 핑거프린트들에 대한 데이터,를 포함하는 라벨링된(labeled) 트레이닝 데이터를 생성하는 단계; 및
    상기 라벨링된 트레이닝 데이터를 이용하여, 딥 뉴럴 네트워크(deep neural network)를 트레이닝 하는 단계;
    를 더 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  25. 제 24 항에 있어서,
    상기 딥 뉴럴 네트워크는,
    컨벌루셔널 뉴럴 네트워크(CNN:Convolutional Neural Network) 구조 및 리커런트 뉴럴 네트워크(RNN: Recurrent Neural Network) 구조 중 적어도 하나를 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  26. 제 24 항에 있어서,
    상기 딥 뉴럴 네트워크를 트레이닝하는 단계는:
    상기 라벨링된 트레이닝 데이터가 상기 딥 뉴럴 네트워크를 통해 출력된 결과 데이터와, 상기 라벨링된 트레이닝 데이터에 포함된 유사 판단 결과 데이터를 비교하는 단계; 및
    비교 결과에 기초하여, 상기 딥 뉴럴 네트워크의 노드들을 역전파(back-propagation) 방식을 이용하여 트레이닝하는 단계;
    를 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  27. 제 24 항에 있어서,
    상기 방법은:
    상기 딥 뉴럴 네트워크가 트레이닝된 이후에,
    둘 이상의 텍스트 데이터들에 대한 입력을 수신하는 단계;
    상기 둘 이상의 텍스트 데이터들에 대한 음성학적 특징을 갖는 가상 핑거프린트들을 생성하는 단계;
    트레이닝된 딥 뉴럴 네트워크의 네트워크 함수에 의해, 상기 생성된 음성학적 특징을 갖는 가상 핑거프린트들에 대한 비교 결과 정보를 결정하는 단계; 및
    상기 네트워크 함수에 의해 결정된 비교 결과 정보를 출력하는 단계;
    를 더 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  28. 제 1 항에 있어서,
    상기 방법은:
    상기 텍스트 데이터를 하나 이상의 세그먼트들로 분할하기 전에, 상기 텍스트 데이터가 영문(English) 기반 텍스트 데이터인지 여부를 확인하는 단계; 및
    상기 영문 기반 텍스트 데이터가 아닌 경우, 상기 텍스트 데이터의 발음 정보에 기초하여 상기 텍스트 데이터를 영문 기반 텍스트 데이터로 변환하는 단계;
    를 더 포함하는,
    컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램.
  29. 텍스트 지문(text finger print)을 생성 및 활용하는 방법을 구현하기 위한 컴퓨팅 장치로서,
    하나 이상의 프로세서; 및
    상기 하나 이상의 프로세서에서 실행가능한 명령들을 저장하는 메모리;
    를 포함하며,
    상기 하나 이상의 프로세서는:
    사전결정된 텍스트 분할 알고리즘에 기초하여, 텍스트 데이터를 하나 이상의 세그먼트들로 분할하고;
    사전결정된 맵핑 알고리즘에 기초하여, 상기 분할된 세그먼트를 구성하는 하나 이상의 서브세그먼트들에 할당된 맵핑 값을 결정하고;
    상기 결정된 맵핑 값에 기초하여, 상기 하나 이상의 세그먼트들 각각에 대한 좌표 값을 생성하고; 및
    상기 생성된 좌표 값에 기초하여, 상기 텍스트 데이터에 대한 음성학적 특징을 갖는 가상 핑거프린트를 생성하는,
    컴퓨팅 장치.
  30. 컴퓨팅 장치에서 수행되는, 텍스트 지문(text fingerprint)을 생성 및 활용하는 방법으로서,
    사전결정된 텍스트 분할 알고리즘에 기초하여, 텍스트 데이터를 하나 이상의 세그먼트들로 분할하는 단계;
    사전결정된 맵핑 알고리즘에 기초하여, 상기 분할된 세그먼트를 구성하는 하나 이상의 서브세그먼트들에 할당된 맵핑 값을 결정하는 단계;
    상기 결정된 맵핑 값에 기초하여, 상기 하나 이상의 세그먼트들 각각에 대한 좌표 값을 생성하는 단계; 및
    상기 생성된 좌표 값에 기초하여, 상기 텍스트 데이터에 대한 음성학적 특징을 갖는 가상 핑거프린트를 생성하는 단계;
    를 포함하는,
    방법.
KR1020170152299A 2017-11-15 2017-11-15 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법 KR102403330B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020170152299A KR102403330B1 (ko) 2017-11-15 2017-11-15 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법
PCT/KR2017/015627 WO2019098454A1 (ko) 2017-11-15 2017-12-28 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법
US16/760,003 US11373043B2 (en) 2017-11-15 2017-12-28 Technique for generating and utilizing virtual fingerprint representing text data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170152299A KR102403330B1 (ko) 2017-11-15 2017-11-15 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법

Publications (2)

Publication Number Publication Date
KR20190055499A KR20190055499A (ko) 2019-05-23
KR102403330B1 true KR102403330B1 (ko) 2022-05-30

Family

ID=66538643

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170152299A KR102403330B1 (ko) 2017-11-15 2017-11-15 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법

Country Status (3)

Country Link
US (1) US11373043B2 (ko)
KR (1) KR102403330B1 (ko)
WO (1) WO2019098454A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11397707B2 (en) * 2017-10-30 2022-07-26 AtomBeam Technologies Inc. System and method for computer data type identification
US11917240B2 (en) * 2018-08-14 2024-02-27 Inscape Data, Inc. Dynamic content serving using automated content recognition (ACR) and digital media watermarks
KR20210098250A (ko) * 2020-01-31 2021-08-10 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN112101251B (zh) * 2020-09-18 2022-06-10 电子科技大学 基于可变卷积神经网络的sar自动目标识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140259157A1 (en) 2013-03-08 2014-09-11 Bitdefender IPR Management Ltd. Document Classification Using Multiscale Text Fingerprints
US20170039211A1 (en) 2015-08-05 2017-02-09 Facebook, Inc. Systems and methods for determining content similarity

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7562125B2 (en) * 2005-02-02 2009-07-14 Cisco Technology, Inc. Techniques for locating distributed objects on a network based on physical communication costs
TWI412941B (zh) * 2008-11-25 2013-10-21 Inst Information Industry 產生及驗證一訊息之一語音簽章之裝置、方法及其電腦程式產品
US8151186B1 (en) * 2011-03-11 2012-04-03 Google Inc. Comparing text pages using image features based on word positions
US8706723B2 (en) * 2011-06-22 2014-04-22 Jostle Corporation Name-search system and method
US9679554B1 (en) 2014-06-23 2017-06-13 Amazon Technologies, Inc. Text-to-speech corpus development system
US9632999B2 (en) 2015-04-03 2017-04-25 Klangoo, Sal. Techniques for understanding the aboutness of text based on semantic analysis
CN105589962B (zh) 2015-12-22 2018-11-02 北京奇虎科技有限公司 一种文本指纹信息的生成方法与装置
US10438083B1 (en) * 2016-09-27 2019-10-08 Matrox Electronic Systems Ltd. Method and system for processing candidate strings generated by an optical character recognition process
KR101769918B1 (ko) 2017-05-17 2017-08-21 주식회사 마인드그룹 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140259157A1 (en) 2013-03-08 2014-09-11 Bitdefender IPR Management Ltd. Document Classification Using Multiscale Text Fingerprints
US20170039211A1 (en) 2015-08-05 2017-02-09 Facebook, Inc. Systems and methods for determining content similarity

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Chow Kok Kent and Naomie Salim, Features Based Text Similarity Detection, JOURNAL OF COMPUTING, VOLUME 2, ISSUE 1, JANUARY 2010, ISSN 2151-9617.
김진규 외 3인, 단어 공기 통계 정보 기반 색인어 추출을 활용한 문서 유사도 검사 알고리즘, 한국컴퓨터정보학회 학술발표논문집 24(1), 2016.1, 111-113페이지.

Also Published As

Publication number Publication date
KR20190055499A (ko) 2019-05-23
WO2019098454A1 (ko) 2019-05-23
US20200349323A1 (en) 2020-11-05
US11373043B2 (en) 2022-06-28

Similar Documents

Publication Publication Date Title
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN110785767B (zh) 紧凑的无语言面部表情嵌入和新颖三元组的训练方案
WO2022007823A1 (zh) 一种文本数据处理方法及装置
KR102189688B1 (ko) 동의어 추출 방법
KR102403330B1 (ko) 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법
CN109558487A (zh) 基于层次性多注意力网络的文档分类方法
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN109492666A (zh) 图像识别模型训练方法、装置及存储介质
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN110619044B (zh) 一种情感分析方法、系统、存储介质及设备
CN110232123B (zh) 文本的情感分析方法及其装置、计算设备与可读介质
KR102379660B1 (ko) 딥러닝 기반 의미역 분석을 활용하는 방법
CN113095415A (zh) 一种基于多模态注意力机制的跨模态哈希方法及系统
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN112949647A (zh) 三维场景描述方法、装置、电子设备和存储介质
CN109271513B (zh) 一种文本分类方法、计算机可读储存介质及系统
KR20230094955A (ko) 문서 데이터 검색 기법
KR20230073138A (ko) 유사 컨텐츠 제공 기법
CN111159340A (zh) 基于随机优化预测的机器阅读理解的答案匹配方法及系统
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质
KR102456409B1 (ko) 인공 신경망의 추론 데이터에 대한 신뢰도를 판단하는 방법
CN113095072A (zh) 文本处理方法及装置
CN115357712A (zh) 方面级情感分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant