KR102073102B1 - 언어인식을 위한 언어모델 db, 언어인식장치와 언어인식방법, 및 언어인식시스템 - Google Patents

언어인식을 위한 언어모델 db, 언어인식장치와 언어인식방법, 및 언어인식시스템 Download PDF

Info

Publication number
KR102073102B1
KR102073102B1 KR1020130030290A KR20130030290A KR102073102B1 KR 102073102 B1 KR102073102 B1 KR 102073102B1 KR 1020130030290 A KR1020130030290 A KR 1020130030290A KR 20130030290 A KR20130030290 A KR 20130030290A KR 102073102 B1 KR102073102 B1 KR 102073102B1
Authority
KR
South Korea
Prior art keywords
user
language
recognition
model data
language model
Prior art date
Application number
KR1020130030290A
Other languages
English (en)
Other versions
KR20140115588A (ko
Inventor
조경선
최영일
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to KR1020130030290A priority Critical patent/KR102073102B1/ko
Priority to US14/205,843 priority patent/US9672819B2/en
Priority to PCT/KR2014/002226 priority patent/WO2014148784A1/en
Publication of KR20140115588A publication Critical patent/KR20140115588A/ko
Priority to US15/581,633 priority patent/US10217455B2/en
Application granted granted Critical
Publication of KR102073102B1 publication Critical patent/KR102073102B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/171Editing, e.g. inserting or deleting by use of digital ink
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Abstract

본 발명은 일반적인 언어모델 데이터뿐만 아니라 사용자와 관련된 인식관련정보로부터 사용자별 언어모델데이터를 고려하여 언어인식 정확도를 향상시킬 수 있도록 한 언어인식을 위한 언어모델 DB, 언어인식장치와 언어인식방법, 및 언어인식시스템에 관한 것이다.
본 발명의 언어인식장치는 사용자가 언어를 입력하는 사용자 언어입력부, 상기 사용자 언어입력부로부터 입력된 언어로부터 문자를 인식하는 문자인식부, 사용자로부터 입력되는 언어를 인식하여 얻은 문자로부터 확률적으로 단어 또는 문장을 추론하기 위해 기본적으로 저장하는 공통 언어모델데이터와 상기 공통 언어데이터의 저장 이후 사용자가 사용하는 하나 이상의 클라이언트 장치를 통해 인식관련정보를 수집하고, 상기 수집한 인식관련정보를 분석하여 상기 사용자와 관련된 단어 또는 문장을 추론하기 위해 추가적으로 저장하는 사용자별 언어모델데이터를 포함하는 저장부, 및 상기 문자인식부에서 인식한 문자에 대해 상기 저장부에 저장된 공통 언어모델데이터와 사용자별 언어모델데이터를 기초로 확률적으로 단어 또는 문장을 추론하는 단어인식부를 포함한다.

Description

언어인식을 위한 언어모델 DB, 언어인식장치와 언어인식방법, 및 언어인식시스템{A Linguistic Model Database For Linguistic Recognition, Linguistic Recognition Device And Linguistic Recognition Method, And Linguistic Recognition System}
본 발명은 사용자가 입력하는 언어 인식을 위한 언어모델 데이터베이스, 언어인식장치와 언어인식방법, 및 언어인식시스템, 더욱 상세하게는 일반적인 언어모델 데이터뿐만 아니라 사용자와 관련된 인식관련정보로부터 사용자별 언어모델데이터를 고려하여 언어인식 정확도를 향상시킬 수 있도록 한 언어인식을 위한 언어모델 DB, 언어인식장치와 언어인식방법, 및 언어인식시스템에 관한 것이다.
디바이스(Device)의 발전으로 인하여 고전적인 키보드나 마우스를 벗어나 터치, 제스처, 필기인식, 음성인식 등 여러 가지 형태로 입력 인터페이스 방식이 발전하고 있다. 새롭게 적용되고 있는 단말입력방식의 상당수는 인식(recognition)기술을 기반으로 하고 있으며, 필기인식, 음성인식 등 언어를 인식하는 인식기술의 경우 인식장치(recognition Device)에서 언어모델(linguisticmodel) 기반처리를 필요로 하는 경우가 있다.
언어인식장치는 인식기술에 따라서 그 구조가 다르지만, 예를 들면 필기인식과 같은 언어기반기술은 도 9에 나타나 있는 바와 같이 필기입력된 이미지 내의 필체 픽셀정보, 필기순서에 따른 필적정보 등을 획득한 후 필기인식엔진(16) 및 필체모델 데이터베이스(12)를 통하여 문자(character)를 인식하고, 인식된 문자를 기반으로 사전에 저장된 공통 언어모델 데이터베이스(14)의 단어 또는 문장과 비교하여 단어 또는 문장을 추론하며, 문자 단위, 단어 또는 문장 단위로 인식된 결과에서 최종 인식결과를 결정한다.
단어 또는 문장인식에서는 인식된 글자들이 언어학적으로 단어 또는 문장으로 구성될 수 있으며, 유사한 단어 또는 문장과 비교하여 문자 단위에서의 오인식된 결과를 보정하는 역할을 수행한다. 인식엔진은 단어인식부를 위하여 언어모델기반으로 단어 데이터베이스가 필요하며, 독립실행형(standalone) 인식엔진의 경우 일반적 사용자를 고려하여 인식언어모델을 위한 일반적인 정보를 저장하는 공통 언어모델 데이터베이스(14)를 인식엔진에 탑재하는 방식을 사용하고 있다. 이러한 공통 언어모델 데이터는 다수의 일반사용자에 최적화가 되어 있어 상당히 긴 기간을 주기로 업데이트를 수행하게 된다. 또한 인식엔진에 따라 훈련도구(training tool)을 제공하는 경우도 있으나, 사용자가 훈련하고자하는 단어를 입력시키는 등 엔진을 훈련하는 과정을 별도로 수행하여야 한다.
그러나, 인식엔진에서의 언어모델 데이터베이스는 일반 사용자를 위하여 최적화되어 있으나, 사용자별로 고유하게 사용하는 단어(줄임말 등), 속어, 어투 등, 새롭게 등장한 신조어, 속어, 비어 등, 급부상한 인물, 지명 등 고유명사, 사용자가 속한 집단(연령대, 학교, 취미 등)에서 제한으로 사용하는 전문용어, 속어 등은 단어인식 추론결과가 오히려 인식성능 저하를 발생할 수 있다.
본 발명의 목적은 상술한 종래의 문제를 해결하기 위한 것으로, 언어인식의 언어모델 확률적 추론의 정확도를 보완하기 위한 언어인식장치용 데이터베이스 및 그 그의 구축방법을 제공함에 있다.
본 발명의 다른 목적은 언어인식장치의 사용자에 특화한 사용자별 언어모델 데이터베이스를 구비한 언어인식장치 및 언어인식방법을 제공함에 있다.
본 발명의 또 다른 목적은 사용자나 사용자소속집단별 언어 패턴을 분석하여 언어인식의 언어모델 확률적 추론하는 언어인식장치 및 언어인식방법을 제공함에 있다.
본 발명의 또 다른 목적은 사용자가 사용하는 복수의 클라이언트 장치들에서 인식관련정보를 수집 및 분석한 사용자별 언어모델 데이터베이스를 구비하는 클라우드 서버를 제공함에 있다.
본 발명의 또 다른 목적은 클라우드 서버에서 사용자별 언어모델 데이터를 수집한 후 언어인식장치의 언어모델 데이터베이스를 업데이트하는 언어인식시스템을 제공함에 있다.
상술한 본 발명의 과제를 해결하기 위한 언어인식장치용 데이터베이스는 사용자로부터 입력되는 언어를 인식하여 얻은 문자에 대해 확률적으로 단어 또는 문장을 추론하기 위해 기본적으로 저장하는 공통 언어모델데이터, 상기 공통 언어데이터의 저장 이후 사용자가 사용하는 하나 이상의 클라이언트 장치를 통해 인식관련정보를 수집하고, 상기 수집한 인식관련정보를 분석하여 상기 사용자와 관련된 단어 또는 문장을 추론하기 위해 추가적으로 저장하는 사용자별 언어모델데이터를 포함하여 구성할 수 있다.
상기 데이터베이스에서, 상기 사용자별 언어모델데이터는 사용자별 고유언어 패턴 분석, 사용자 소속집단별 언어 패턴분석, 및 웹상의 실시간 단어분석 중 적어도 하나를 통해 얻어질 수 있다.
상기 데이터베이스에서, 상기 저장된 사용자별 언어모델데이터는 상기 클라우드 서버에 저장된 사용자별 언어모델데이터로부터 업데이트될 수 있다.
상기 데이터베이스에서, 상기 공통 언어모델데이터와 사용자별 언어모델데이터는 서로 다른 데이터 영역 내에 저장될 수 있다.
상기 데이터베이스에서, 사용자로부터 입력되는 언어는 음성 또는 문자를 포함할 수 있다.
상기 데이터베이스에서, 상기 클라우드 서버의 사용자별 언어모델데이터는 상기 사용자가 사용하는 하나 이상의 클라이언트 장치를 통해 수집되어 전송된 인식관련정보를 분석하여 얻을 수 있다.
상기 데이터베이스에서, 상기 인식관련정보는 사용자가 사용하는 하나 이상의 클라이언트 장치를 통해 소정 기간 동안 수집되어 전송될 수 있다.
본 발명의 일 실시예에 따른 언어인식장치용 데이터베이스의 구축방법은, 사용자로부터 입력되는 언어를 인식하여 얻은 문자에 대해 확률적으로 단어 또는 문장을 추론하기 위한 공통 언어모델데이터를 상기 언어인식장치의 저장부에 사전 저장하는 단계; 상기 공통 언어모델데이터의 저장 이후 상기 사용자와 관련된 인식관련정보를 수집하는 단계; 및 상기 수집된 인식관련정보를 분석하여 사용자별 언어모델데이터로 저장하는 단계를 포함하여 구성할 수 있다.
상기 데이터베이스의 구축방법에서, 상기 사용자별 언어모델데이터는 사용자별 고유언어 패턴 분석, 사용자 소속집단별 언어 패턴분석, 및 웹상의 실시간 단어분석 중 적어도 하나를 통해 얻을 수 있다.
상기 데이터베이스의 구축방법에서, 상기 분석은 클라우드 서버에서 수행되고, 상기 분석되어 얻어진 사용자별 언어모델데이터는 클라우드 서버의 저장부에 저장할 수 있다.
상기 데이터베이스의 구축방법에서, 상기 분석은 상기 사용자가 사용하는 하나 이상의 클라이언트 장치를 통해 수집되어 전송된 인식관련정보를 대상으로 수행될 수 있다.
상기 데이터베이스의 구축방법에서, 상기 인식관련정보는 소정 기간 동안 수집되어 상기 클라우드 서버에 전송될 수 있다.
상기 데이터베이스의 구축방법은, 상기 저장된 사용자별 언어모델데이터를 상기 클라우드 서버에 저장된 사용자별 언어모델데이터를 통하여 업데이트하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 언어인식장치는, 사용자가 언어를 입력하는 사용자 언어입력부, 상기 사용자 언어입력부로부터 입력된 언어로부터 문자를 인식하는 문자인식부, 사용자로부터 입력되는 언어를 인식하여 얻은 문자로부터 확률적으로 단어 또는 문장을 추론하기 위해 기본적으로 저장하는 공통 언어모델데이터와 상기 공통 언어데이터의 저장 이후 사용자가 사용하는 하나 이상의 클라이언트 장치를 통해 인식관련정보를 수집하고, 상기 수집한 인식관련정보를 분석하여 상기 사용자와 관련된 단어 또는 문장을 추론하기 위해 추가적으로 저장하는 사용자별 언어모델데이터를 포함하는 저장부, 및 상기 문자인식부에서 인식한 문자에 대해 상기 저장부에 저장된 공통 언어모델데이터와 사용자별 언어모델데이터를 기초로 확률적으로 단어 또는 문장을 추론하는 단어인식부를 포함하여 구성할 있다.
상기 언어인식장치에서, 상기 사용자별 언어모델데이터는 사용자별 고유언어 패턴 분석, 사용자 소속집단별 언어 패턴분석, 및 웹상의 실시간 단어분석 중 적어도 하나를 통해 얻을 수 있다.
상기 언어인식장치는 클라우드 서버와 통신할 수 있는 통신부를 더 포함할 수 있다.
상기 언어인식장치에서, 상기 저장부에 저장된 사용자별 언어모델데이터는 상기 클라우드 서버에 저장된 사용자별 언어모델데이터로부터 업데이트될 수 있다.
상기 언어인식장치에서, 상기 공통 언어모델데이터와 사용자별 언어모델데이터는 서로 다른 데이터 영역 내에 저장될 수 있다.
상기 언어인식장치에서, 상기 사용자 언어입력부는 음성입력 마이크 및 문자입력 인터페이스 중 적어도 하나를 포함할 수 있다.
상기 언어인식장치에서, 상기 클라우드 서버에 저장되는 사용자별 언어모델데이터는 상기 사용자가 사용하는 하나 이상의 클라이언트 장치를 통해 수집되어 전송된 인식관련정보를 분석하여 얻을 수 있다.
상기 언어인식장치에서, 상기 인식관련정보는 상기 사용자가 사용하는 하나 이상의 클라이언트 장치를 통해 소정 기간 동안 수집되고, 상기 통신부를 통해 상기 클라우드 서버에 전송될 수 있다.
본 발명의 일 실시예에 따른 언어를 인식하기 위한 언어인식방법은 사용자로부터 입력되는 언어를 인식하여 얻은 문자로부터 확률적으로 단어 또는 문장을 추론하기 위해 기본적으로 공통 언어모델데이터를 사전 저장하는 단계, 상기 공통 언어데이터의 저장 이후 사용자가 사용하는 하나 이상의 클라이언트 장치를 통해 인식관련정보를 수집하는 단계, 상기 수집한 인식관련정보를 분석하여 상기 사용자와 관련된 단어 또는 문장을 추론하기 위해 추가적으로 사용자별 언어모델데이터를 저장하는 단계, 사용자가 입력하는 언어를 수신하는 단계, 상기 입력된 언어로부터 문자를 인식하는 단계; 및 상기 인식한 문자에 대해 상기 저장된 공통 언어모델데이터와 사용자별 언어모델데이터를 기초로 확률적으로 단어 또는 문장을 추론하여 단어를 인식하는 단계를 포함할 수 있다.
상기 언어인식방법에서, 상기 사용자별 언어모델데이터는 사용자별 고유언어 패턴 분석, 사용자 소속집단별 언어 패턴분석, 및 웹상의 실시간 단어분석 중 적어도 하나를 통해 얻을 수 있다.
상기 언어인식방법에서, 상기 저장부에 저장된 사용자별 언어모델데이터는 상기 클라우드 서버에 저장된 사용자별 언어모델데이터로부터 업데이트될 수 있다.
상기 언어인식방법에서, 상기 공통 언어모델데이터와 사용자별 언어모델데이터는 단일 저장부의 서로 다른 데이터 영역 내에 저장될 수 있다.
상기 언어인식방법에서, 상기 사용자 언어는 음성입력 마이크 및 문자입력 인터페이스 중 적어도 하나를 통하여 수신할 수 있다.
상기 언어인식방법에서, 상기 클라우드 서버에 저장되는 사용자별 언어모델데이터는 상기 사용자가 사용하는 하나 이상의 클라이언트 장치를 통해 수집되어 전송된 인식관련정보를 분석하여 얻을 수 있다.
상기 언어인식방법에서, 상기 인식관련정보는 상기 사용자가 사용하는 하나 이상의 클라이언트 장치를 통해 소정 기간 동안 수집되고, 상기 클라우드 서버에 전송될 수 있다.
본 발명에 의하면, 사용자별 또는 소속집단별 및 웝(Web) 상 신조어 등 인식 관련 사용자별 언어모델 데이터베이스를 사용하여, 공통 언어모델 데이터베이스가 처리하기 어려운 인식성능의 향상을 기대할 수 있다.
또한, 공통 언어모델 데이터베이스를 통한 다수 사용자 타겟 공통 인식성능 보장 및 사용자별 인식정보 관리를 통한 사용자 특화된 추가적인 인식성능의 향상을 기대할 수 있다.
또한, 웹상 신조어 등의 사용빈도(hitting rate)를 추적하여 사용빈도에 따라 사용자별 언어모델 데이터베이스에 추가 또는 삭제하는 등의 최적화된 사용자별 언어모델 데이터베이스 관리가 가능하다.
또한, 클라우드 서버상 사용자 계정 기반으로 인식 관련 정보를 관리함으로써, 사용자가 사용하는 하나 이상의 클라이언트 장치에 축적된 사용자 특화된 훈련결과를 반영하는 것이 가능하다.
도 1은 본 발명의 언어인식시스템을 나타내는 개략도,
도 2는 본 발명에 따른 언어인식장치를 나타내는 블록도,
도 3은 본 발명에 따른 클라우드 기반의 언어인식시스템을 나타내는 블록도,
도 4는 본 발명에 따른 클라우드 기반의 언어인식관련 데이터 관리 방법을 나타내는 개략도,
도 5는 본 발명에 따른 클라우드 기반 사용자별 언어모델 데이터 관리형 필기인식시스템을 나타내는 개략도,
도 6은 본 발명에 따른 언어인식장치용 데이터베이스 구축방법을 나타내는 흐름도,
도 7은 본 발명에 따른 언어인식방법을 나타내는 흐름도,
도 8은 본 발명에 따른 클라우드 기반의 언어인식방법을 나타내는 흐름도, 및
도 9는 종래의 언어인식장치를 나타내는 개략도이다.
이하에서는 첨부도면을 참조하여 본 발명에 대해 상세히 설명한다. 이하 실시예에서는 본 발명의 사상과 직접적인 관련이 있는 구성들에 관해서만 설명하며, 그 외의 구성에 관해서는 설명을 생략한다. 그러나, 본 발명의 사상이 적용된 장치 또는 시스템을 구현함에 있어서, 이와 같이 설명이 생략된 구성이 불필요함을 의미하는 것이 아님을 밝힌다.
본 발명에서 인식하고자 하는 대상은 '언어'로서, 이미지 형태의 필기문자나 주파수 형태의 음성을 통해 의도하는 언어를 인식하는 것이다.
도 2에 나타낸 바와 같이, 언어인식장치(100)는 사용자 언어입력부(110), 외부장치(클라우드 서버; 300)와 통신할 수 있는 통신부(120), 공통 언어모델 데이터와 사용자별 언어모델 데이터를 포함하는 저장부(130), 언어인식장치(100)의 부품들을 제어하는 제어부(130), 상기 사용자 언어입력부(110)를 통해 입력된 언어(필기 문자)를 인식하는 언어인식엔진(150), 및 언어인식장치(100)에서 사용자가 사용하는 언어 인식관련정보를 처리하여 사용자별 언어모델데이터를 얻는 인식관련정보 처리부(160)를 포함할 수 있다.
여기서, 언어인식장치(100)는 TV, 스마트 폰과 같은 모바일장치, 컴퓨터 등과 같이 문자나 음성을 입력할 수 있는 수단을 포함하는 장치들을 포함할 수 있다.
여기서 인식관련정보는 사용자 개인의 사용언어, 즉 사용자가 축약하여 사용하는 단어(줄임말)나 독특한 어미 유형 등을 반영한 언어정보, SNS나 SMS 상에서의 사용자별 언급 언어 정보. SNS나 SMS 상에서의 사용자 소속집단 별 언급 언어정보, 및 웹(Web) 상의 사용빈도가 높은 신조어, 유행어 등의 언어정보를 포함할 수 있다.
사용자 언어입력부(110)는 키보드, 마우스, 키패드, 터치스크린, 마이크 등의 사용자 언어입력 인터페이스를 포함할 수 있다.
통신부(120)는 유무선 인터넷 접속을 위한, 유무선공유기(Access Point: 미도시)를 통하여 인터넷에 접속될 수 있다. 통신부(120)는 VDSL, 이더넷, 토큰링, HDMI(high definition multimedia interface), USB, 컴포넌트(component), LVDS, HEC 등의 데이터통신, 2G, 3G, 4G, 롱텀에볼루션(LTE)와 같은 이동 통신, WLAN (Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등의 무선인터넷 기술, 및 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등의 근거리 통신 기술을 적용할 수 있다.
제어부(130)는 언어인식장치(100)의 각 구성요소들을 제어할 수 있다. 예를 들면 언어인식엔진(150)을 제어하여 입력되는 언어에 대한 인식 수행, 저장부(140)에 액세스하여 데이터를 저장 및 삭제, 통신부(110)를 통해 외부 장치(200)와 통신을 수행하도록 할 수 있다.
제1제어부는 인식관련정보 처리부(160)를 제어하여 언어인식장치(100)에서 사용하는 인식관련정보를 수집하고 분석하여 사용자별 언어모델데이터를 추출하고 저장할 수 있다.
제어부(130)는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors)를 포함할 수 있다.
저장부(140)는 한정되지 않은 데이터가 저장된다. 저장부(140)는 제어부(130)에 의해 액세스 되며, 이들에 의한 데이터의 독취, 기록, 수정, 삭제, 갱신 등이 수행된다. 저장부(140)에 저장되는 데이터는, 예를 들면 사용자 언어입력부(110)에서 수신한 각종 언어 데이터, 운영체제, 운영체제 상에서 실행 가능한 다양한 애플리케이션, 영상데이터, 부가데이터 등을 포함한다.
저장부(140)는 사전 저장되는 공통 언어모델 데이터베이스(DB)와 특정 사용자에 대해 개별적으로 관련된 사용자별 언어모델 데이터베이스(DB)를 포함할 수 있다.
도 6에 나타나 있는 바와 같이, 본 발명에 따른 언어인식장치용 데이터베이스 구축방법은, 사용자로부터 입력되는 언어를 인식하여 얻은 문자에 대해 확률적으로 단어 또는 문장을 추론하기 위한 공통 언어모델데이터를 상기 언어인식장치의 저장부에 사전 저장하는 단계(S110), 상기 공통 언어모델데이터의 저장 이후 상기 사용자와 관련된 인식관련정보를 수집하는 단계(S120), 및 상기 수집된 인식관련정보를 분석하여 사용자별 언어모델데이터로 저장하는 단계(S130)를 거쳐 달성될 수 있다.
또한, 저장부(140)는 언어인식장치(100)에서 수신하는 각종 인식관련정보를 축적하여 저장할 수 있다. 물론, 인식관련정보는 압축된 형태로 저장될 수 있다.
저장부(140)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory) 자기메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
저장부(140)에 공통 언어모델데이터는 통상적으로 언어인식을 위해 장치 공급자에 의해 기본적으로 제공되는 언어모델 데이터로서, 상당한 기간이 지난 후에 패치를 통해 갱신되는 것이 일반적이다.
저장부(140)에 저장되는 공통 언어모델 데이터(DB)와 특정 사용자에 대해 개별적으로 관련된 사용자별 언어모델 데이터(DB)는 갱신하는 패턴이 다르기 때문에 서로 다른 저장 영역에 저장되는 것이 바람직하다.
인식관련정보 처리부(160)는 언어인식장치(100)에서 사용자가 사용하는 언어 인식관련정보를 수집하여 분석하여 사용자별 언어모델데이터를 얻고, 이를 저장부(140)에 저장하거나 실시간으로 갱신할 수 있다. 인식관련정보 처리부(160)는 언어 검색 및 단어 추출 프로그램과 같은 소프트웨어나 소프트웨어 알고리즘을 포함하는 하드웨어로 구현될 수 있다.
상기 인식관련정보의 수집 및 분석은 사용자별 사용언어 수집 및 고유 언어 유형 분석할 수 있다. 사용자별로 축약하여 사용하는 단어(줄임말)나 독특한 어미 유형 등이 존재할 수 있는데, 이런 사용자마다 고유한 패턴은 공통 언어모델데이터베이스의 범위를 벗어나는 경우가 많다. 이를 위하여 언어인식장치(100)에서 입력하는 사용자의 입력 인식결과를 저장하고 유형을 분석하여 주로 사용하는 언어 유형을 결정할 수 있다.
또한, 상기 인식관련정보의 수집 및 분석은 SNS나 SMS 상에서의 사용자별 언급 정보 수집 및 고유 언어 유형 분석을 포함할 수 있다. 즉, 인식관련정보 처리부(160)는 SNS 상의 해당 사용자가 올린 언급 정보를 수집하고 SNS 상에서 사용하는 고유한 언어 유형을 분석, 결정할 수 있다.
또한, 상기 인식관련정보의 수집 및 분석은 SNS나 SMS 상에서의 사용자 소속집단 별 언급 정보 수집 및 고유 언어 유형 분석을 포함할 수 있다. 즉, 인식관련정보 처리부(160)는 SNS나 SMS 상 사용자 간의 관계를 분석하여 특정 사용자와 관련된 사용자 그룹을 결정하고, 결정된 사용자 그룹에 속한 사용자들의 언급 정보를 수집, 분석함으로 해당 그룹의 고유한 언어 사용 유형을 결정할 수 있다.
또한, 상기 인식관련정보의 수집 및 분석은 웹(Web) 상의 사용빈도가 높은 신조어, 유행어 수집 및 분석을 포함할 수 있다. 즉, 인식관련정보 처리부(160)는 웹(Web) 상에서 웹 포탈 API(Web Portal Open API) 등을 활용하여 급격히 사용빈도(hitting rate)가 증가하는 신조어, 유행어 등을 수집하고, 주기적으로 모니터링하여 사용빈도 생명주기(lifetime)을 결정할 수 있다.
또한, 상기 인식관련정보의 수집 및 분석은 사용자 계정 기반 생성 인식정보 분석을 포함할 수 있다. 하나의 사용자가 여러 클라이언트 장치를 보유하고 있는 경우 각 클라이언트 장치에서 생성된 인식관련정보를 저장 관리하여, 사용자가 보유한 다른 클라이언트장치의 인식관련정보를 공유할 수 있다.
언어인식엔진(150)은 필기 입력된 이미지 내의 필체 픽셀정보, 필기순서에 따른 필적정보 등을 획득하고, 필요에 따라 입력정보에서 노이즈를 제거하는 등의 미디어 도메인의 선처리(pre-processing)를 수행하는 미디어 선처리부(Media Pre-processing unit)(151), 전체입력정보에서 문자(character)등 인식을 처리하기 위한 엘리먼트(element)를 분리하는 엘리먼트 분리부(Element Segmentation unit)(152), 필기인식에서의 최소 엘리먼트에 해당하는 문자 각각을 필체정보기반으로 인식하는 문자인식부(character recognition unit)(153), 인식된 문자를 기반으로 단어 또는 문장 데이터베이스(DB)와 비교하여 확률적으로 단어 또는 문장을 추론하는 단어인식부(Sentence Recognition unit)(154), 및 문자 단위, 단어 또는 문장 단위로 인식된 결과에서 최종 인식결과를 결정하는 결과결정부(Result Decision unit)(155)를 포함할 수 있다. 언어인식엔진(150)은 소프트웨어나 하드웨어로 구현될 수 있다.
도 7에 나타나 있는 바와 같이, 본 발명에 따른 언어인식장치(100)의 언어인식방법은, 사용자로부터 입력되는 언어를 인식하여 얻은 문자에 대해 확률적으로 단어 또는 문장을 추론하기 위한 공통 언어모델데이터를 상기 언어인식장치의 저장부에 사전 저장하는 단계(S210), 상기 공통 언어모델데이터의 저장 이후 상기 사용자와 관련된 인식관련정보를 수집하는 단계(S220), 상기 수집된 인식관련정보를 분석하여 사용자별 언어모델데이터로 저장하는 단계(S230), 사용자가 입력하는 언어를 수신하는 단계(S240), 상기 입력된 언어로부터 문자를 인식하는 단계(S250) 및 상기 인식한 문자에 대해 상기 저장된 공통 언어모델데이터와 사용자별 언어모델데이터를 기초로 확률적으로 단어 또는 문장을 추론하여 단어를 인식하는 단계(S260)를 포함할 수 있다.
도 2는 언어인식장치(100)에서 자체적으로 사용자별 언어모델 데이터베이스(DB)를 구축하여 사용자 입력 언어를 인식할 수 있다. 이와 같이 언어인식장치(100)에서 자체적으로 사용자별 언어모델 데이터베이스(DB)를 구축하고 실시간으로 갱신하는 것은 스마트폰과 같은 이동단말기의 경우 과다한 배터리를 소모할 수도 있다. 또한 사용자가 사용하는 모든 클라이언트장치마다 인식관련정보 처리부(160)를 보유하는 것은 비경제적일 수 있다.
도 1 및 도 3은 클라우드 기반으로 사용자별 언어모델 데이터를 확보하여 각 클라이언트 장치에 저장하고 갱신하는 언어인식시스템(1)을 나타낸다.
본 발명에 따른 클라우드(cloud) 기반 언어인식시스템(1)은 하나 이상의 클라이언트장치(200, 400)와 각 클라언트장치에 통신 연결된 클라우드 서버(300)를 포함하여 구성할 수 있다.
도 3에 나타낸 바와 같이, 클라언트장치(200)는 사용자 언어입력부(210), 클라우드 서버(300)와 통신할 수 있는 제1통신부(220), 공통 언어모델 데이터와 사용자별 언어모델 데이터를 포함하는 제1저장부(230), 클라이언트장치(200)의 부품들을 제어하는 제1제어부(230), 및 상기 사용자 언어입력부(210)를 통해 입력된 언어(필기 또는 음성)을 인식하는 언어인식엔진(250)를 포함하여 구성할 수 있다.
사용자 언어입력부(210)는 키보드, 마우스, 키패드, 터치스크린, 마이크 등의 사용자 언어입력 인터페이스를 포함할 수 있다.
제1통신부(220)는 클라우드 서버(300)와 같은 외부장치와 통신할 수 있다. 제1통신부(220)는 유무선 인터넷 접속을 위한, 유무선공유기(Access Point: 미도시)를 통하여 인터넷에 접속될 수 있다. 제1통신부(220)는 VDSL, 이더넷, 토큰링, HDMI(high definition multimedia interface), USB, 컴포넌트(component), LVDS, HEC 등의 데이터통신, 2G, 3G, 4G, 롱텀에볼루션(LTE)와 같은 이동 통신, WLAN (Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등의 무선인터넷 기술, 및 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등의 근거리 통신 기술을 적용할 수 있다.
제1제어부(230)는 클라언트장치(200)의 각 구성요소들을 제어할 수 있다. 예를 들면 언어인식엔진(250)을 제어하여 입력되는 언어에 대한 인식 수행, 제2저장부(240)에 액세스하여 데이터를 저장 및 삭제, 제1통신부(210)를 통해 클라우드 서버(300)와 통신을 수행하도록 할 수 있다.
제1제어부(230)는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors)를 포함할 수 있다.
제1저장부(240)는 한정되지 않은 데이터가 저장된다. 제1저장부(240)는 제1제어부(230)에 의해 액세스 되며, 이들에 의한 데이터의 독취, 기록, 수정, 삭제, 갱신 등이 수행된다. 제1저장부(240)에 저장되는 데이터는, 예를 들면 사용자 언어입력부(210)에서 수신한 각종 언어 데이터, 운영체제, 운영체제 상에서 실행 가능한 다양한 애플리케이션, 영상데이터, 부가데이터 등을 포함한다.
제1저장부(240)는 사전 저장되는 공통 언어모델 데이터(DB)와 특정 사용자에 대해 개별적으로 관련된 사용자별 언어모델 데이터(DB)를 포함할 수 있다. 또한, 저장부(240)는 각 클라언트장치(200)에서 사용하는 각종 인식관련정보를 축적하여 저장할 수 있다. 물론, 인식관련정보는 압축된 형태로 저장될 수 있다.
제1저장부(240)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory) 자기메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
제1저장부(240)에 공통 언어모델데이터는 통상적으로 언어인식을 위해 장치 공급자에 의해 기본적으로 제공되는 언어모델 데이터로서, 상당한 기간이 지난 후에 패치를 통해 갱신되는 것이 일반적이다.
제1저장부(240)에 저장되는 공통 언어모델 데이터(DB)와 특정 사용자에 대해 개별적으로 관련된 사용자별 언어모델 데이터(DB)는 갱신하는 패턴이 다르기 때문에 서로 다른 저장 영역에 저장되는 것이 바람직하다.
사용자별 언어모델데이터는 클라우드 서버(300)에서 수신하고 이를 제1저장부(240)에 저장하거나 실시간으로 갱신할 수 있다.
언어인식엔진(150)은 필기입력된 이미지 내의 필체 픽셀정보, 필기순서에 따른 필적정보 등을 획득하고, 필요에 따라 입력정보에서 노이즈를 제거하는 등의 미디어 도메인의 선처리(pre-processing)를 수행하는 미디어 선처리부(Media Pre-processing unit)(251), 전체입력정보에서 문자(character)등 인식을 처리하기 위한 엘리먼트(element)를 분리하는 엘리먼트 분리부(Element Segmentation unit)(252), 필기인식에서의 최소 엘리먼트에 해당하는 문자 각각을 필체정보기반으로 인식하는 문자인식부(character recognition unit)(253), 인식된 문자를 기반으로 단어 또는 문장 데이터베이스(DB)와 비교하여 확률적으로 단어 또는 문장을 추론하는 단어인식부(Sentence Recognition unit)(254), 및 문자 단위, 단어 또는 문장 단위로 인식된 결과에서 최종 인식결과를 결정하는 결과결정부(Result Decision unit)(255)를 포함할 수 있다.
도 3에 나타나 있는 바와 같이, 클라우드 서버(300)는 클라이언트장치(100,300)와의 통신을 위한 제2통신부(320), 각 클라이언트장치에서 수집하여 전송한 인식관련정보를 분석하여 얻은 사용자별 언어모델데이터를 저장하는 제2저장부(340), 각 클라이언트장치에서 수집하여 전송한 인식관련정보를 분석하는 인식관련정보 처리부(360), 및 클라우드 서버(300)의 각 구성 부품을 제어하는 제2제어부(330)를 포함하여 구성할 수 있다.
클라우드 서버(300)는 네트워크로 연결된 홈서버, 셋탑박스, 컴퓨터 등으로 구성될 수 있다.
제2통신부(320)는 클라언트장치(100,300)와 같은 외부장치와 통신할 수 있다. 제2통신부(320)는 유무선 인터넷 접속을 위한, 유무선공유기(Access Point: 미도시)를 통하여 인터넷에 접속될 수 있다. 제2통신부(320)는 VDSL, 이더넷, 토큰링, HDMI(high definition multimedia interface), USB, 컴포넌트(component), LVDS, HEC 등의 데이터통신, 2G, 3G, 4G, 롱텀에볼루션(LTE)와 같은 이동 통신, WLAN (Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등의 무선인터넷 기술, 및 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등의 근거리 통신 기술을 적용할 수 있다.
제2제어부(330)는 클라우드 서버(300)의 각 구성요소들을 제어할 수 있다. 예를 들면 인식관련정보 처리부(360)을 제어하여 입력되는 인식관련정보를 분석하여 사용자별 언어모델 데이터를 추출할 수 있다. 또한, 제2제어부(330)는 제2저장부(340)에 액세스하여 데이터를 저장 및 삭제하고, 제2통신부(310)를 통해 각 클라이언트장치(100,300)의 사용자별 언어모델데이터를 전송할 수 있다.
제2제어부(330)는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors)를 포함할 수 있다.
제2저장부(340)는 한정되지 않은 데이터가 저장된다. 제2저장부(340)는 제2제어부(330)에 의해 액세스 되며, 이들에 의한 데이터의 독취, 기록, 수정, 삭제, 갱신 등이 수행된다. 제2저장부(340)에 저장되는 데이터는, 예를 들면 각 클라언트장치(100,300)에서 수신한 각종 언어 인식관련정보, 운영체제, 운영체제 상에서 실행 가능한 다양한 애플리케이션, 부가데이터 등을 포함한다.
제2저장부(340)는 각 클라언트장치(200)에서 사용하는 각종 인식관련정보를 수신하여 분석한 사용자별 언어모델데이터를 저장할 수 있다.
제2저장부(340)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory) 자기메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
인식관련정보 처리부(360)는 클라이언트장치(100,300)에서 사용자가 사용하는 언어 인식관련정보를 수집하여 분석하여 사용자별 언어모델데이터를 얻고, 이를 제2저장부(340)에 저장하거나 실시간으로 갱신할 수 있다. 즉,
인식관련정보 처리부(360)의 인식관련정보의 수집 및 분석은 각 클라이언트장치에서 사용한 사용자별 사용언어 수집 및 고유 언어 유형 분석할 수 있다.
또한, 인식관련정보 처리부(360)의 상기 인식관련정보의 수집 및 분석은 각 클라이언트장치에서 사용한 SNS나 SMS 상에서의 사용자별 언급 정보 수집 및 고유 언어 유형 분석을 포함할 수 있다. 즉, 인식관련정보 처리부(160)는 각 클라이언트장치를 통해 SNS 상의 해당 사용자가 올린 언급 정보를 수집하고 SNS 상에서 사용하는 고유한 언어 유형을 분석, 결정할 수 있다.
또한, 인식관련정보 처리부(360)의 상기 인식관련정보의 수집 및 분석은 각 클라이언트장치에서 사용한 SNS나 SMS 상에서의 사용자 소속집단 별 언급 정보 수집 및 고유 언어 유형 분석을 포함할 수 있다. 즉, 인식관련정보 처리부(160)는 각 클라이언트장치에서의 SNS나 SMS 상 사용자 간의 관계를 분석하여 특정 사용자와 관련된 사용자 그룹을 결정하고, 결정된 사용자 그룹에 속한 사용자들의 언급 정보를 수집, 분석함으로 해당 그룹의 고유한 언어 사용 유형을 결정할 수 있다.
또한, 인식관련정보 처리부(360)의 상기 인식관련정보의 수집 및 분석은 각 클라이언트장치에서의 웹(Web) 상의 사용빈도가 높은 신조어, 유행어 수집 및 분석을 포함할 수 있다. 즉, 인식관련정보 처리부(160)는 각 클라이언트장치의 웹(Web) 상에서 웹 포탈 API(Web Portal Open API) 등을 활용하여 급격히 사용빈도(hitting rate)가 증가하는 신조어, 유행어 등을 수집하고, 주기적으로 모니터링하여 사용빈도 생명주기(lifetime)을 결정할 수 있다.
이와 같이, 인식관련정보 처리부(360)의 상기 인식관련정보의 수집 및 분석은 사용자 계정 기반 생성 인식정보 분석함으로써, 하나의 사용자가 여러 클라이언트장치를 보유하고 있는 경우 각 클라이언트 장치에서 생성된 인식관련정보를 저장 관리하여, 사용자가 보유한 다른 클라이언트장치의 인식관련정보를 공유할 수 있다.
도 8에 나타나 있는 바와 같이, 본 발명에 따른 클라우드 기반의 언어인식방법은, 사용자로부터 입력되는 언어를 인식하여 얻은 문자에 대해 확률적으로 단어 또는 문장을 추론하기 위한 공통 언어모델데이터를 상기 언어인식장치(200)의 저장부(240)에 사전 저장하는 단계(S310), 상기 언어인식장치(200)를 포함한 하나 이상의 클라이언트장치(200,400)에서 사용자와 관련된 각종 인식관련정보를 수집하는 단계(S320), 소정 기간 동안 각 클라이언트장치에서 수집한 인식관련정보를 클라우드 서버(300)에 전송하는 단계(S330), 클라우드 서버(300)의 인식관련정보 처리부(360)에서 수신한 인식관련정보를 분석하여 사용자별 언어모델데이터를 추출하는 단계(S340), 상기 인식관련정보 처리부(360)에서 추출한 사용자별 언어모델데이터를 제2저장부(340)에 저장하는 단계(S360), 상기 저장된 사용자별 언어모델데이터를 언어인식장치(200)에 전송하는 단계(S360), 언어인식장치(200)의 제1저장부(240)에 수신한 사용자별 언어모델데이터를 저장(갱신)하는 단계(S370), 사용자가 입력하는 언어를 수신하는 단계(S380), 상기 입력된 언어로부터 문자를 인식하는 단계(S390) 및 상기 인식한 문자에 대해 상기 저장된 공통 언어모델데이터와 사용자별 언어모델데이터를 기초로 확률적으로 단어 또는 문장을 추론하여 단어를 인식하는 단계(S400)를 포함할 수 있다.
이하, 본 발명에 따른 클라우드 기반의 언어인식시스템의 동작을 예를 들어 상세히 설명하면 다음과 같다.
(전제조건)
1. 전제로 언어인식장치(클라이언트장치)에 저장된 SNS 사용자 계정정보는 클라우드 상의 통합 사용자계정에 저장할 수 있다. 이때. 사용자 정보사용 동의 등의 단계가 추가로 진행될 수 있다.
2. 통합 사용자 계정에서 Web Portal Open API, Web Crawling 등으로 실시간 인기 검색어 등을 정보 획득할 수 있다.
(인식 실행 전 사전정보 수집 단계)
3. SNS 사용자 계정을 통하여 SNS 사이트에서 사용자 언급 내용을 가져온다.
4. 획득된 사용자 언급내용을 NLP(자연어 처리) 등을 활용하여 사용자 주로 사용하는 단어, 어투 등 언어 패턴을 분석, 결정한다.
5. 웹포탈(Web Portal) 등에서 실시간 검색어, 신조어, 유행어 등(이하 신조어)을 Open API, Web Crawling 등을 활용하여 획득한다.
6. 획득된 신조어는 사전 정의된 주기에 따라 모니터링하여 생명주기(lifetime)을 결정하고 추가 또는 제거 시기를 결정한다.
7. 언어인식장치에서 필기 또는 음성 등 인식결과를 통합 사용자계정에 저장하고, 저장된 인식결과를 분석하여 사용자의 입력정보의 언어적 특성을 분석한다. 인식결과 외 SMS 등에서의 사용단어, 어미 변화 등 언어적 특성을 분석한다. 이와 같이 수집, 분석된 사용자 언어 특성 정보를 클라우드 상의 통합 사용자계정에 저장하고, 사용빈도 등을 분석하여 현재 시점의 사용자 언어 특성 정보를 결정한다.
(클라우드 기반 인식 사용자별 언어모델 DB 구축 및 동기화 단계)
8. 각 클라이언트장치(언어인식장치), SNS, Web 등에서 수집된 인식관련 언어 특성 정보를 기반으로 해당 사용자의 언어모델 DB에 추가 또는 삭제할 정보를 결정한다. 사용자별 언어모델 DB의 모든 언어 특성 정보는 사용빈도(hitting rate)를 추적하여 하여 추가 또는 삭제 시기를 결정한다.
9. 언어인식장치의 사용자별 언어모델 DB의 버전(Version)정보 등을 체크하여 클라우드 서버와 언어인식장치 간의 사용자별 언어모델 DB를 갱신하여 동기화한다.
(사용자별 언어모델 DB를 활용한 단말 인식 수행 단계)
10. 언어인식장치에서는 글자 인식 단계, 공통 언어모델 DB를 활용한 단어 인식 단계 등 일반적인 인식 실행 단계와 사용자별 언어모델 DB를 활용한 단어 인식 단계를 추가로 실행한다.
11. 인식결과는 클라우드 서버에 전송하여 저장한다.
도 4에 나타나 있는 바와 같이, 언어인식장치(200)는 필체인식엔진(250)의 문자인식을 위한 필체모델 DB(242), 공통 언어모델 DB(244) 및 사용자별 언어모델 DB(246)를 포함할 수 있다.
클라우드 서버(300)는 각 클라이언트장치(언어인식장치)에서의 사용자 입력단어를 수집하여 저장한 사용자별 사용단어DB(341), 웹상의 신조어 등을 수집하여 저장한 공통 신조어 크롤링(crawling) DB(343), SNS에서의 사용자 입력단어를 수집하여 저장한 사용자별 SNS 사용단어 DB(345)를 포함할 수 있다. 이들 사용자별 사용단어DB(341), 공통 신조어 크롤링(crawling) DB(343), 및 사용자별 SNS 사용단어 DB(345)는 예를 들어 설명한 것으로 필요에 따라 다른 종류의 DB가 추가될 수 있다.
클라우드 서버(300)의 인식관련정보 처리부(360)는 상기 사용자별 사용단어DB(341), 공통 신조어 크롤링(crawling) DB(343), 사용자별 SNS 사용단어 DB(345)에 저장된 인식관련정보를 분석하여 공통 언어모델 DB에서 빠져 있는 개인별 사용단어 또는 신조어를 추출하여 사용자별 언어모델 DB(346)에 저장(갱신)할 수 있다. 클라우드 서버(300)는 사용자별 언어모델 DB(346)에 저장(갱신)된 사용자별 사용단어 또는 신조어를 이용하여 언어인식장치(200)의 사용자별 언어모델DB(246)를 주기적으로 갱신할 수 있다.
도 5에 나타나 있는 바와 같이, 언어인식장치(200)는 사용자입력 인터페이스(210) 상에서 입력된 필체를 필체입력 파일(.ink)을 생성한 후, 필기인식엔진(250)을 통하여 특징추출, 문자분류, 텍스트 스프릿팅(text splitting), 단어추론, 결과결정을 통하여 언어인식을 수행한다. 이와 같은 필체인식은 언어인식장치(200)에 저장된 알파벳 DB(242)와 언어모델 DB(244)를 활용할 수 있다.
클라우드 서버(300)는 연결된 하나 이상의 클라이언트 장치로부터 수신된 사용자 사용 알파벳 DB(342), 및 사용자별 언어모델 DB(344)를 포함할 수 있다. 클라우드 서버(300)의 사용자별 언어모델 DB(344)는 외부로부터 직접 개인별 사용 단어나 웹상의 신조어 등을 추가로 업데이트할 수 있다. 즉, 클라우드 서버(300)의 언어모델 DB(344)는 클라우드 서버(300)의 인식관련정보 처리부(360)를 통하여 외부로부터 수신한 인식관련정보를 분석하여 추출된 사용자별 언어모델 데이터를 포함한다.
언어인식장치(200)의 알파벳DB(242)와 언어모델 DB(244)는 공통 언어모델 데이터 및 사용자별 언어모델 데이터를 포함할 수 있다. 언어인식장치(200)에 저장된 알파벳 DB(242)와 언어모델 DB(244)는 통신으로 연결된 클라우드 서버(300)에 저장된 알파벳 DB(342)와 언어모델 DB(344)를 통하여 주기적으로 갱신될 수 있다.
또한, 언어인식장치(200)는 음성에 대한 인식을 위해 음성 DB(247)가 탑재된 음성인식엔진(270)을 포함할 수 있다. 음성인식엔진(270)에 탑재된 음성 DB(247)는 마찬가지로 클라우드 서버(300)의 음성 DB(347)에 의해 주기적으로 갱신될 수 있다.
상기한 실시예는 예시적인 것에 불과한 것으로, 당해 기술 분야의 통상의 지식을 가진 자라면 다양한 변형 및 균등한 타 실시예가 가능하다. 따라서, 본 발명의 진정한 기술적 보호범위는 하기의 특허청구범위에 기재된 발명의 기술적 사상에 의해 정해져야 할 것이다.
100, 200, 400: 언어인식장치(클라이언트장치)
110,210: 사용자 언어입력부
120,220,320: 통신부
130,230,330: 제어부
140,240,340: 저장부
150,250: 언어인식엔진
360: 인식관련정보 처리부
400: 클라우드 서버

Claims (28)

  1. 전자장치에 있어서,
    언어를 포함하는 사용자입력을 수신하는 사용자입력수신부;
    데이터 통신을 수행하는 통신부; 및
    상기 통신부를 통하여 수신된 언어데이터로부터 복수의 사용자에 대응하는 공통 언어데이터를 포함하는 공통 언어모델데이터에 포함되지 않은 사용자 언어데이터를 추출하고,
    상기 추출된 사용자 언어데이터를 상기 사용자에 대응하는 사용자 언어데이터를 포함하는 사용자 언어모델데이터에 저장하고,
    상기 사용자입력수신부를 통해 수신되는 상기 사용자입력의 언어에 대해 상기 공통 언어모델데이터 및 상기 사용자 언어모델데이터에 기초하여 인식을 수행하는 제어부를 포함하는 것을 특징으로 하는 전자장치.
  2. 제1항에 있어서,
    상기 사용자 언어모델데이터는 상기 사용자의 고유언어 패턴 분석, 상기 사용자의 소속집단별 언어 패턴분석, 및 웹상의 실시간 단어분석 중 적어도 하나를 통해 얻는 것을 특징으로 하는 전자장치.
  3. 제1항에 있어서,
    상기 사용자 언어모델데이터는 클라우드 서버에 저장된 사용자 언어모델데이터에 기초하여 업데이트되는 것을 특징으로 하는 전자장치.
  4. 제1항에 있어서,
    상기 공통 언어모델데이터와 상기 사용자 언어모델데이터는 서로 다른 데이터 영역 내에 저장되는 것을 특징으로 하는 전자장치.
  5. 제1항에 있어서,
    상기 사용자입력의 언어는 음성 또는 문자를 포함하는 것을 특징으로 하는 전자장치.
  6. 제3항에 있어서,
    상기 클라우드 서버의 사용자 언어모델데이터는 상기 사용자가 사용하는 하나 이상의 클라이언트 장치를 통해 수집되어 전송된 인식관련정보에 기초하여 얻는 것을 특징으로 하는 전자장치.
  7. 제6항에 있어서,
    상기 인식관련정보는 상기 사용자가 사용하는 상기 하나 이상의 클라이언트 장치를 통해 소정 기간 동안 수집되는 것을 특징으로 하는 전자장치.
  8. 언어를 포함하는 사용자입력을 수신하는 전자장치의 제어방법에 있어서,
    데이터 통신을 통하여 수신된 언어데이터로부터 복수의 사용자에 대응하는 공통 언어데이터를 포함하는 공통 언어모델데이터에 포함되지 않은 사용자 언어데이터를 추출하는 단계;
    상기 추출된 사용자 언어데이터를 사용자에 대응하는 사용자 언어데이터를 포함하는 사용자 언어모델데이터에 저장하는 단계; 및
    상기 수신되는 사용자입력의 언어에 대해 상기 공통 언어모델데이터 및 상기 사용자 언어모델데이터에 기초하여 인식을 수행하는 단계를 포함하는 것을 특징으로 하는 전자장치의 제어방법.
  9. 제8항에 있어서,
    상기 사용자 언어모델데이터는 상기 사용자의 고유언어 패턴 분석, 상기 사용자의 소속집단별 언어 패턴분석, 및 웹상의 실시간 단어분석 중 적어도 하나를 통해 얻는 것을 특징으로 하는 전자장치의 제어방법.
  10. 제9항에 있어서,
    상기 저장하는 단계는, 상기 사용자 언어모델데이터가 클라우드 서버에 저장된 사용자 언어모델데이터에 기초하여 업데이트되는 단계를 더 포함하는 것을 특징으로 하는 전자장치의 제어방법.
  11. 제10항에 있어서,
    상기 클라우드 서버에 저장된 사용자 언어모델데이터는 상기 사용자가 사용하는 하나 이상의 클라이언트 장치를 통해 수집되어 전송된 인식관련정보에 기초하여 얻는 것을 특징으로 하는 전자장치의 제어방법.
  12. 제11항에 있어서,
    상기 인식관련정보는 상기 사용자가 사용하는 하나 이상의 클라이언트 장치를 통해 소정 기간 동안 수집되는 것을 특징으로 하는 전자장치의 제어방법.
  13. 제9항에 있어서,
    상기 저장되는 단계는, 상기 공통 언어모델데이터와 상기 사용자 언어모델데이터는 서로 다른 데이터 영역 내에 저장되는 단계를 더 포함하는 것을 특징으로 하는 전자장치의 제어방법.
  14. 제9항에 있어서,
    상기 사용자입력의 언어는 음성 또는 문자를 포함하는 것을 특징으로 하는 전자장치의 제어방법.
  15. 컴퓨터가 읽을 수 있는 코드로서, 언어를 포함하는 사용자입력을 수신하는 전자장치의 제어방법을 수행하는 코드를 포함하는 컴퓨터 프로그램이 저장된 기록매체에 있어서, 상기 전자장치의 제어방법은,
    데이터통신을 통하여 수신된 언어데이터로부터 복수의 사용자에 대응하는 공통 언어데이터를 포함하는 공통 언어모델데이터에 포함되지 않은 사용자 언어데이터를 추출하는 단계;
    상기 추출된 사용자 언어데이터를 사용자에 대응하는 사용자 언어데이터를 포함하는 사용자 언어모델데이터에 저장하는 단계; 및
    상기 수신되는 사용자입력의 언어에 대해 상기 공통 언어모델데이터 및 상기 사용자 언어모델데이터에 기초하여 인식을 수행하는 단계를 포함하는 것을 특징으로 하는 컴퓨터가 읽을 수 있는 프로그램이 기록된 기록매체.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
KR1020130030290A 2013-03-21 2013-03-21 언어인식을 위한 언어모델 db, 언어인식장치와 언어인식방법, 및 언어인식시스템 KR102073102B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020130030290A KR102073102B1 (ko) 2013-03-21 2013-03-21 언어인식을 위한 언어모델 db, 언어인식장치와 언어인식방법, 및 언어인식시스템
US14/205,843 US9672819B2 (en) 2013-03-21 2014-03-12 Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system
PCT/KR2014/002226 WO2014148784A1 (en) 2013-03-21 2014-03-17 Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system
US15/581,633 US10217455B2 (en) 2013-03-21 2017-04-28 Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130030290A KR102073102B1 (ko) 2013-03-21 2013-03-21 언어인식을 위한 언어모델 db, 언어인식장치와 언어인식방법, 및 언어인식시스템

Publications (2)

Publication Number Publication Date
KR20140115588A KR20140115588A (ko) 2014-10-01
KR102073102B1 true KR102073102B1 (ko) 2020-02-04

Family

ID=51569786

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130030290A KR102073102B1 (ko) 2013-03-21 2013-03-21 언어인식을 위한 언어모델 db, 언어인식장치와 언어인식방법, 및 언어인식시스템

Country Status (3)

Country Link
US (2) US9672819B2 (ko)
KR (1) KR102073102B1 (ko)
WO (1) WO2014148784A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9966073B2 (en) * 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10083697B2 (en) * 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
US9870196B2 (en) * 2015-05-27 2018-01-16 Google Llc Selective aborting of online processing of voice inputs in a voice-enabled electronic device
US10268683B2 (en) * 2016-05-17 2019-04-23 Google Llc Generating output for presentation in response to user interface input, where the input and/or the output include chatspeak

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
TW421764B (en) 1996-05-21 2001-02-11 Hitachi Ltd Input character string estimation and identification apparatus
US6487530B1 (en) * 1999-03-30 2002-11-26 Nortel Networks Limited Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models
US7505905B1 (en) * 1999-05-13 2009-03-17 Nuance Communications, Inc. In-the-field adaptation of a large vocabulary automatic speech recognizer (ASR)
US7203651B2 (en) * 2000-12-07 2007-04-10 Art-Advanced Recognition Technologies, Ltd. Voice control system with multiple voice recognition engines
US7111248B2 (en) * 2002-01-15 2006-09-19 Openwave Systems Inc. Alphanumeric information input method
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7340396B2 (en) * 2003-02-18 2008-03-04 Motorola, Inc. Method and apparatus for providing a speaker adapted speech recognition model set
KR20050032649A (ko) 2003-10-02 2005-04-08 (주)이즈메이커 인공생명을 학습시키는 방법 및 시스템
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US20060058999A1 (en) * 2004-09-10 2006-03-16 Simon Barker Voice model adaptation
US20060206544A1 (en) * 2005-03-09 2006-09-14 Microsoft Corporation Automatic backup and restore system and method
US7556204B2 (en) * 2006-04-19 2009-07-07 Nokia Corproation Electronic apparatus and method for symbol input
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
US7966171B2 (en) * 2007-10-31 2011-06-21 At&T Intellectual Property Ii, L.P. System and method for increasing accuracy of searches based on communities of interest
JP5470715B2 (ja) 2008-02-27 2014-04-16 日本電気株式会社 新語辞書生成シンクライアントシステム、新語辞書生成方法及びサーバ
US9026444B2 (en) * 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
US8255217B2 (en) * 2009-10-16 2012-08-28 At&T Intellectual Property I, Lp Systems and methods for creating and using geo-centric language models
KR101154011B1 (ko) * 2010-06-07 2012-06-08 주식회사 서비전자 다중 모델 적응화와 음성인식장치 및 방법
US8532994B2 (en) * 2010-08-27 2013-09-10 Cisco Technology, Inc. Speech recognition using a personal vocabulary and language model
KR101334196B1 (ko) * 2010-10-28 2013-11-28 (주)아크릴 지능형 감성 추론장치 및 그 추론방법
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
US9031839B2 (en) 2010-12-01 2015-05-12 Cisco Technology, Inc. Conference transcription based on conference data
US8700389B2 (en) 2010-12-23 2014-04-15 Sap Ag Systems and methods for model-based processing of linguistic user inputs using annotations
TWI480742B (zh) * 2011-03-18 2015-04-11 Ind Tech Res Inst 基於動態語言模型之推薦方法與推薦系統
GB2493413B (en) * 2011-07-25 2013-12-25 Ibm Maintaining and supplying speech models
US9001976B2 (en) * 2012-05-03 2015-04-07 Nexidia, Inc. Speaker adaptation
US9406299B2 (en) * 2012-05-08 2016-08-02 Nuance Communications, Inc. Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
US9489940B2 (en) * 2012-06-11 2016-11-08 Nvoq Incorporated Apparatus and methods to update a language model in a speech recognition system
US20140039893A1 (en) * 2012-07-31 2014-02-06 Sri International Personalized Voice-Driven User Interfaces for Remote Multi-User Services
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9959863B2 (en) * 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords

Also Published As

Publication number Publication date
US20170229118A1 (en) 2017-08-10
WO2014148784A1 (en) 2014-09-25
US20140288936A1 (en) 2014-09-25
US10217455B2 (en) 2019-02-26
KR20140115588A (ko) 2014-10-01
US9672819B2 (en) 2017-06-06

Similar Documents

Publication Publication Date Title
TWI729472B (zh) 特徵詞的確定方法、裝置和伺服器
CN109635296B (zh) 新词挖掘方法、装置计算机设备和存储介质
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
US9672818B2 (en) Updating population language models based on changes made by user clusters
US10325018B2 (en) Techniques for scheduling language models and character recognition models for handwriting inputs
CN111339268B (zh) 实体词识别方法和装置
KR102073102B1 (ko) 언어인식을 위한 언어모델 db, 언어인식장치와 언어인식방법, 및 언어인식시스템
US20150228259A1 (en) Method and apparatus for recognising music symbols
CN108304376B (zh) 文本向量的确定方法、装置、存储介质及电子装置
CN110069769B (zh) 应用标签生成方法、装置及存储设备
AU2019419891B2 (en) System and method for spatial encoding and feature generators for enhancing information extraction
KR102368188B1 (ko) 인공지능 기반 직업 매칭 시스템
WO2023116561A1 (zh) 一种实体提取方法、装置、电子设备及存储介质
US20160239470A1 (en) Context sensitive input tools
US9886498B2 (en) Title standardization
CN113408273A (zh) 实体识别模型的训练与实体识别方法、装置
US20230052623A1 (en) Word mining method and apparatus, electronic device and readable storage medium
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN114611625A (zh) 语言模型训练、数据处理方法、装置、设备、介质及产品
CN116955720A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN110574102B (zh) 信息处理系统、信息处理装置、记录介质以及词典数据库的更新方法
CN109511000B (zh) 弹幕类别确定方法、装置、设备及存储介质
KR20210109894A (ko) 신경망을 이용한 텍스트 인식 시스템 및 그 방법
JP2017157171A (ja) 認識用辞書登録装置、認識用辞書登録方法、認識用辞書登録・配信システム及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant