KR101597289B1 - 동적 화면에 따라 음성을 인식하는 장치 및 방법 - Google Patents

동적 화면에 따라 음성을 인식하는 장치 및 방법 Download PDF

Info

Publication number
KR101597289B1
KR101597289B1 KR1020090070833A KR20090070833A KR101597289B1 KR 101597289 B1 KR101597289 B1 KR 101597289B1 KR 1020090070833 A KR1020090070833 A KR 1020090070833A KR 20090070833 A KR20090070833 A KR 20090070833A KR 101597289 B1 KR101597289 B1 KR 101597289B1
Authority
KR
South Korea
Prior art keywords
screen
domain
weight
vocabulary
speech recognition
Prior art date
Application number
KR1020090070833A
Other languages
English (en)
Other versions
KR20110012920A (ko
Inventor
한익상
조정미
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020090070833A priority Critical patent/KR101597289B1/ko
Priority to US12/844,898 priority patent/US9269356B2/en
Publication of KR20110012920A publication Critical patent/KR20110012920A/ko
Application granted granted Critical
Publication of KR101597289B1 publication Critical patent/KR101597289B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/147Digital output to display device ; Cooperation and interconnection of the display device with other functional units using display panels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G3/00Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes
    • G09G3/20Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes for presentation of an assembly of a number of characters, e.g. a page, by composing the assembly by combination of individual elements arranged in a matrix no fixed position being assigned to or needed to be assigned to the individual characters or partial characters
    • G09G3/34Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes for presentation of an assembly of a number of characters, e.g. a page, by composing the assembly by combination of individual elements arranged in a matrix no fixed position being assigned to or needed to be assigned to the individual characters or partial characters by control of light from an independent source
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/14Display of multiple viewports
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/04Changes in size, position or resolution of an image
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/04Changes in size, position or resolution of an image
    • G09G2340/045Zooming at least part of an image, i.e. enlarging it or shrinking it
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

동적으로 바뀌는 화면의 화면 정보를 음성 인식에 반영하여 인식률을 향상시키고 인식 속도를 개선하기 위한 음성 인식 장치 및 방법이 개시된다. 음성 인식 장치는 화면이 변화되었음을 나타내는 화면 변화 신호 및 변화된 화면에 대한 화면 정보를 생성한다. 음성 인식 장치는 화면 변화 신호 및 화면 정보에 따라 화면과 관련된 어휘에 대한 어휘 가중치 및 도메인에 대한 도메인 가중치를 조절한다. 조절된 어휘 가중치 및 도메인 가중치는 음성 인식에 이용되는 언어 모델에 동적으로 반영된다.
음성 인식, 언어 모델, 화면 정보, 애플리케이션, 어휘 가중치, 도메인 가중치

Description

동적 화면에 따라 음성을 인식하는 장치 및 방법{Apparatus for recognizing speech according to dynamic picture and method thereof}
음성 인식 장치 및 방법에 관한 것으로, 더욱 상세하게는 애플리케이션 실행 과정에서 이용될 수 있는 음성 인식 장치 및 방법에 관한 것이다.
3차원 시뮬레이션이나 게임, 맵 탐험 형태의 가상 세계 등 사용자는 화면에 보여지는 공간을 직간접적으로 탐색하여 정보를 얻거나 재미를 추구할 수 있는 애플리케이션이 많아지고 있다. 이런 애플리케이션에서의 화면 구성은 정적이지 않고 사용자의 조작이나, 시간의 흐름에 따라 계속 바뀌는 동적인 구조이다. 이와 같은 애플리케이션이 실행되어 동적인 화면이 제공되는 환경에서, 통상적으로 사용자는 애플리케이션 실행에 몰입되어 있게 된다. 이와 같은 환경에서 애플리케이션 실행이나 환경 조작 등 애플리케이션과의 인터랙션에 음성 인식 방법이 유용하게 이용될 수 있다.
동적으로 바뀌는 화면의 정보를 음성인식에 반영하여 인식률을 향상시키고 인식 속도를 개선하기 위한 음성 인식 장치 및 방법이 제공된다.
일 양상에 따른 음성 인식 장치는 제어부 및 음성 인식부를 포함할 수 있다. 제어부는 화면이 변화되었음을 나타내는 화면 변화 신호 및 변화된 화면에 대한 화면 정보를 생성한다. 음성 인식부는 화면 변화 신호 및 화면 정보에 따라 화면과 관련된 적어도 하나의 어휘에 대한 어휘 가중치 및 화면에 속하는 적어도 하나의 도메인에 대한 도메인 가중치를 조절하고, 조절된 어휘 가중치 및 도메인 가중치가 반영된 동적인 언어 모델을 이용하여 음성 인식을 수행한다.
제어부는 화면을 조작하는 사용자 입력 신호에 의해 따라 화면 변화 신호를 생성할 수 있다. 사용자 입력 신호는 사용자의 커서 이동, 배율 조작, 화면 회전 중 적어도 하나를 포함할 수 있다. 제어부는 화면에 동적으로 움직이는 오브젝트가 등장할 때 화면 변화 신호를 생성할 수 있다.
음성 인식부는 현재 화면과 관련된 어휘 가중치 및 도메인의 가중치를 현재 화면과 관련되지 않은 어휘 가중치 및 도메인 가중치보다 높게 부여하여 생성된 언어 모델을 이용하여 음성 인식을 수행할 수 있다.
음성 인식부는 화면의 좌표 및 배율에 따라 관련된 적어도 하나의 어휘를 포함하는 어휘 구조체를 이용하여 화면에 속한 적어도 하나의 어휘를 결정하고, 화면의 좌표 및 배율에 따라 관련된 적어도 하나의 도메인을 포함하는 도메인 구조체를 이용하여 화면에 속한 적어도 하나의 도메인을 결정하고 도메인 가중치를 조절할 수 있다.
화면 정보는 화면 좌표의 범위, 배율 레벨, 화면과 관련된 적어도 하나의 어휘 및 화면에 속하는 적어도 하나의 도메인 중 적어도 하나를 포함할 수 있다.
음성 인식부는, 화면 정보 관리부, 가중치 조절부 및 음성 인식 엔진을 포함할 수 있다. 화면 정보 관리부는 시간에 따라 변화하는 화면 정보의 저장을 관리할 수 있다. 가중치 조절부는 화면 정보의 변화에 따라 어휘 가중치 및 도메인 가중치를 조절할 수 있다. 음성 인식 엔진은 음성이 입력되면 조절된 어휘 가중치 및 조절된 도메인 가중치를 획득하고, 획득된 어휘 가중치 및 도메인 가중치에 따라 동적으로 생성되는 언어 모델을 이용하여 음성 인식을 수행할 수 있다.
화면 정보 관리부는 이전 화면 변화 신호 입력 시간과 현재 화면 변화 입력 시간 사이의 간격, 이전 화면과 현재 화면 사이의 좌표 범위의 변화 및 화면에 대한 음성 인식이 수행되었는지 여부 중 적어도 하나를 이용하여 화면 정보를 저장할 수 있다.
가중치 조절부는 현재 화면 및 현재 화면과 시간적 또는 공간적으로 인근의 화면에 속하는 적어도 하나의 어휘에 대하여 현재 화면 및 인근의 화면에 속하지 않는 어휘들에 비하여 높은 가중치를 부여하도록 가중치를 조절할 수 있다. 또한, 가중치 조절부는 현재 화면 및 현재 화면과 시간적 또는 공간적으로 인근의 화면에 속하는 적어도 하나의 도메인에 대하여 현재 화면 및 인근의 화면에 속하지 않는 도메인들에 비하여 높은 가중치를 부여하고, 현재 화면 및 인근의 화면에 속하는 적어도 하나의 도메인에 대하여 해당 도메인이 화면을 차지하는 비율이 높고, 해당 도메인이 화면 중심으로부터의 거리가 가까울수록 높은 가중치를 부여하도록 가중 치를 조절할 수 있다.
동적인 언어 모델은 전체 도메인을 커버하는 일반 언어 모델, 특정 도메인에 국한된 도메인 언어 모델 및 어휘 가중치 정보를 반영하여 생성된 어휘 언어 모델 사이의 보간을 수행하여 계산될 수 있다.
다른 양상에 따른 음성 인식 방법은 화면이 변화되었음을 나타내는 화면 변화 신호 및 변화된 화면에 대한 화면 정보를 생성하는 동작과, 화면 변화 신호 및 화면 정보에 따라 화면과 관련된 적어도 하나의 어휘에 대한 어휘 가중치 및 화면에 속하는 적어도 하나의 도메인에 대한 도메인 가중치를 조절하는 동작과, 조절된 어휘 가중치 및 도메인 가중치가 반영된 동적인 언어 모델을 이용하여 음성 인식을 수행하는 동작을 포함하여 수행될 수 있다.
아바타 이동, 줌인/줌 아웃, 로테이션 등 사용자의 화면 조작 등에 의해 동적으로 바뀌는 화면의 화면 정보를 음성인식에 반영하여 인식률을 향상시키고 인식 속도를 개선할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러 므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 음성 인식 장치의 구성의 일 예를 나타내는 도면이다.
음성 인식 장치(100)는 제어부(110), 음성 인식부(120), 사용자 인터페이스부(130), 디스플레이부(140) 및 저장부(150)를 포함할 수 있다. 음성 인식 장치(100)는 휴대 전화, 휴대용 컴퓨터 등 휴대 장치나 데스크탑 컴퓨터나 고정형 가전 기기와 같은 고정형 전자 기기로 구현될 수 있다.
음성 인식 장치(100)는 동적 화면 변화에 대응하여 음성으로 화면 또는 화면 내의 오브젝트를 조작하기 위한 음성 입력을 처리할 수 있다. 여기에서, 오브젝트는 화면에서 식별될 수 있는 대상으로, 예를 들어, 화면상에서 정적으로 존재하는 환경, 화면에서 동적으로 움직이는 아바타 등 다양한 형태가 존재할 수 있으며, 음성 인식에 이용되는 언어 모델에 포함되는 어휘와 관련되는 한 오브젝트의 종류 및 형태에는 제한이 없다. 이를 위해, 음성 인식 장치(100)는 화면 정보에 기초하여 음성 인식에 이용되는 언어 모델을 동적으로 생성한다.
제어부(110)는 음성 인식부(120), 사용자 인터페이스부(130), 디스플레이부(140) 및 저장부(150)와 통신하여 음성 인식 장치(100) 전반의 동작을 제어한다. 제어부(110)는 애플리케이션 실행 화면을 제어할 수 있으며, 애플리케이션 실행화면과 관련된 화면 정보 및 화면이 변화되었음을 나타내는 화면 변화 신호를 생성할 수 있다.
화면 정보는 현재 화면에서 보여지는 좌표의 범위, 배율 레벨, 및 화면과 관련된 적어도 하나의 어휘 및 화면에 속하는 적어도 하나의 도메인에 대한 정보를 포함할 수 있다.
여기에서, 좌표의 범위란 화면을 2차원 맵으로 가정할 때 예를 들어, 화면의 4 꼭지점 중 좌상(UL: UpperLeft)과 우하(LR: LowerRight) 각각의 (x, y) 좌표로 나타낼 수 있으나, 좌표의 형태 및 종류에 제한되는 것은 아니다. 배율 레벨은 현재 화면에 보이는 화면의 축척 레벨일 수 있으며, 줌인/줌 아웃 동작시 변하는 줌 레벨을 나타낼 수 있다. 화면과 관련된 적어도 하나의 어휘 및 화면에 속하는 적어도 하나의 도메인에 대한 정보는 제어부(110)에서 애플리케이션 실행 과정에서 동적으로 생성될 수 있다. 어휘 및 도메인에 대한 정보는 주로 동적으로 움직이는 오브젝트를 처리하기 위해 존재하지만 정적인 오브젝트와 관련되어서도 생성될 수 있다.
여기에서, 어휘는 지도 시스템처럼 실제로 화면에 보이는 지명이나 오브젝트 이름을 포함할 수도 있다. 또한, 가상 세계처럼 오브젝트의 이름이 화면에 보이지 않는 경우에도 음성 인식 장치(100)의 시스템 내부적으로 관리하고 있는 오브젝트와 관련된 태그 정보가 있다면 태그 정보에 포함된 어휘들도 어휘의 범주에 포함될 수 있다. 이와 같이, 실제로 화면에 텍스트 형태로 보이는 어휘 뿐만 아니라 화면에 보이지 않더라도 화면의 오브젝트와 관련되어 미리 설정된 어휘들도 화면의 전환에 따라 가중치가 조절되는 대상이 될 수 있다.
한편, 도메인은 화면의 영역과 연관되며, 서로 관련이 있다고 인식될 수 있는 어휘들의 그룹을 나타낸다. 예를 들어, 지도 시스템에서는 서울권역, 경기권역 등 광범위한 도메인 등이 포함될 수 있으며, 인식기가 사용되는 상황에 따라 여행 도메인, 식당 도메인 등 상황을 표현하는 도메인이 포함될 수 있다. 또한, 작은 범위의 오브젝트에 대해서도 시스템에서 미리 관련 언어 모델을 만들어 도메인을 확장시킬 수 있다.
즉, 특정 영역에 대해 그 특정 영역에 종속적인 언어 모델이 존재한다면 이 특정 영역을 도메인이라고 정의할 수 있다. 예를 들어, 로마 내의 콜로세움 안에 들어가서 검투사를 보고 있는 장면에서는 로마 도메인, 콜로세움 도메인, 검투사 도메인이 포함될 수 있다. 또한, 가상 세계 상에서 어떤 캐릭터가 등장할 경우에 해당 캐릭터에 대해 언어 모델이 존재한다면 그 캐릭터 역시 도메인으로 볼 수 있다. 이렇게 도메인을 작은 단위까지로 확장할 경우에는 화면의 변화가 크지 않더라도 화면의 변화에 따라 어휘 뿐만 아니라 도메인 역시 빈번하게 변경될 수 있다.
다음으로, 화면 정보 중 화면과 관련된 적어도 하나의 어휘 및 화면에 속하는 적어도 하나의 도메인에 대한 정보는 제어부(110)에 의해 생성될 수 있다. 제어부(110)는 화면의 오브젝트에 어휘 정보 또는 도메인 정보와 관련된 태그 정보가 있는 경우, 오브젝트에 붙어 있는 태그 정보로부터 어휘 정보 또는 도메인 정보를 얻을 수도 있다. 제어부(110)는 알려진 오브젝트 인식 알고리즘을 이용하여 화면에 포함되는 오브젝트를 인식하고, 인식된 오브젝트에 대한 어휘 정보 또는 도메인 정보를 획득할 수도 있다.
음성 인식부(120)는 화면 변화 신호 및 화면 정보에 따라 화면과 관련된 적어도 하나의 어휘에 대한 어휘 가중치 및 화면에 속하는 적어도 하나의 도메인에 대한 도메인 가중치를 조절하고, 조절된 어휘 가중치 및 도메인 가중치가 반영된 동적인 언어 모델을 이용하여 음성 인식을 수행할 수 있다. 가중치를 조절한다는 의미는 가중치를 부여하거나, 기존의 가중치를 갱신하여 조절하는 것을 포함한다. 음성 인식부(120)는 현재 화면과 관련된 어휘 가중치 및 도메인의 가중치를 현재 화면과 관련되지 않은 어휘 가중치 및 도메인 가중치보다 높게 부여하여 생성된 언어 모델을 이용하여 음성 인식을 수행할 수 있다. 현재 화면과 관련된 어휘 및 도메인은 현재 화면뿐만 아니라 현재 화면과 시간적 공간적으로 인근의 화면에 속하거나 관련된 어휘 및 도메인을 포함한다.
음성 인식 결과는 제어부(110)에 전달되고, 제어부(110)는 음성 인식 결과를 화면 변화 신호가 생성된 해당 애플리케이션의 동작에 반영할 수 있다. 애플리케이션의 실행 동작은 디스플레이부(140)로 출력될 수 있다.
제어부(110)는 화면에 동적으로 움직이는 오브젝트가 등장할 때 화면 변화 신호를 생성할 수 있다. 또한, 화면 변화 신호는 화면을 조작하는 사용자 입력 신호가 사용자 인터페이스부(130)에 입력됨에 따라 제어부(110)에서 생성될 수 있다. 예를 들어, 화면 변화 신호는 사용자의 커서 이동, 배율 조작, 화면 회전와 같은 화면 조작을 위한 사용자 입력 신호의 입력에 따라 생성될 수 있다.
사용자 인터페이스부(130)는 키패드, 터치패드 등 다양한 형태의 사용자 입력 신호를 수신하여 제어부(110)에 전달할 수 있다. 제어부(110)는 사용자 입력 신호에 따라 애플리케이션 실행을 제어할 수 있다.
저장부(150)는 음성 인식 장치(100)의 동작에 필요한 오퍼레이팅 시스템, 애플리케이션, 음성 인식에 필요한 음향 모델 및 언어 모델과 같은 정보를 저장하고, 제어부(110) 및 음성 인식부(120)에 의해 액세스되도록 구성될 수 있다.
음성 인식 장치(100)는 사용자가 이용하는 몇 개의 카테고리에 대해 언어 모델을 스위칭하는 것이 아니고, 화면의 이동 및 줌인/줌 아웃, 사용자의 시선 변화 등에 의해 계속 변화하는 화면 또는 화면의 오브젝트 자체가 그대로 언어 모델에 반영한다. 즉, 일 실시예에 따른 언어 모델은 모든 어휘의 확률이 모두 동일하지 않고, 화면에 표시된 어휘 또는 사용자의 관심을 받고 있는 오브젝트나 도메인과 관련된 어휘에 대한 확률이 화면과 무관한 어휘들의 확률에 비하여 높다. 이와 같이, 화면과 관련된 어휘에 대한 확률이 높은 언어 모델을 이용함으로써 음성 인식의 정확도를 높이고, 음성 인식 속도를 향상시킬 수 있다.
도 2는 도 1의 음성 인식 장치에서 음성 인식부(120)의 구성의 일 예를 나타내는 도면이다.
음성 인식부(120)는 화면 정보 관리부(210), 가중치 조절부(220), 음성 인식 엔진(230) 및 가중치 관리 DB(240)를 포함할 수 있다. 가중치 조절부(220)는 어휘별 가중치를 조절하는 어휘 가중치 조절부(222), 도메인별로 가중치를 조절하는 도메인 가중치 조절부(244)를 포함할 수 있다. 가중치 관리 DB(240)는 화면 정보 히스토리 저장부(241), 어휘 가중치 저장부(222), 도메인 가중치 저장부(243), 어휘 구조체(244) 및 도메인 구조체(245)를 포함할 수 있다.
화면 정보 관리부(210)는 시간에 따라 변화하는 화면 정보의 저장을 관리한다. 화면 정보 관리부(210)는 화면 변화 정보가 수신되거나 음성 인식 엔진(230)로부터 음성 인식 완료 신호가 수신되는 경우, 해당 화면의 화면 정보를 화면 정보 히스토리 저장부(241)에 저장하도록 관리할 수 있다. 이때, 화면 정보 관리부(210)는 화면 변화 정보가 수신될 때마다 해당 시점의 화면 정보를 화면 정보 히스토리 저장부(241)에 저장하지 않고, 사용자가 관심을 갖고 있다고 인정될 수 있는 유효한 화면 정보를 화면 정보 히스토리 저장부(241)에 저장할 수 있다.
화면 정보 관리부(210)는 이전 화면 변화 신호 입력 시간과 현재 화면 변화 입력 시간 사이의 간격이 일정 시간 이상인 경우 또는 이전 화면과 현재 화면 사이의 좌표 범위의 변화가 일정 값 이상인 경우, 이전 화면 변화 신호에 대응하는 화면을 유효한 화면으로 결정할 수 있다. 또는, 화면 정보 관리부(210)는 이전 화면 변화 신호 입력 시간과 현재 화면 변화 입력 시간 사이의 간격이나 좌표 범위의 변화 정도와 무관하게 음성 인식이 수행된 화면을 유효한 화면으로 결정할 수 있다. 화면 정보 관리부(210)는 유효한 화면이라고 결정된 화면의 화면 정보를 화면 정보 히스토리 저장부(241)에 저장할 수 있다.
화면 정보 관리부(210)는 화면 정보로서 좌표의 범위와 배율 레벨이 입력되면, 어휘가 화면의 좌표 및 배율 정보와 함께 기록된 어휘 구조체(244)나 도메인이 화면의 좌표 및 배율 정보와 함께 기록된 도메인 구조체(245)를 참조하여 화면 상에 정적으로 표기되어 있는 모든 어휘 및 도메인을 결정할 수 있다.
또한, 제어부(110)로부터 현 화면에 포함된 어휘나 도메인이 직접 입력되어 화면과 관련된 어휘 및 도메인 정보가 화면 정보 관리부(210)에 저장될 수 있다. 특히, 갑자기 등장하는 어떤 캐릭터처럼 동적으로 바뀌는 오브젝트는 화면의 특정 좌표에 고정된 것이 아니어서 미리 구성된 어휘 구조체(244)나 도메인 구조체(245) 로부터 결정될 수 없는 경우, 제어부(110)가 직접 현 화면에 포함된 어휘 및 도메인 정보를 화면 정보 관리부(210)로 전달해 줄 수 있다. 어휘 정보는 어휘 id 및 어휘 좌표로 구성될 수 있으며, 도메인 정보는 도메인 id 및 도메인 영역 좌표로 구성될 수 있다.
화면 정보 히스토리 저장부(241)는 현재 화면 변화 신호가 주어진 시점의 화면 정보 및 이전의 설정된 시간 동안 화면 변화 신호가 입력된 시점의 화면 정보를 유지할 수 있다. 화면 정보 히스토리 저장부(241)에 저장된 화면 정보의 히스토리는 어휘 가중치 조절부(222)와 도메인 가중치 조절부(224)에서 이용될 수 있다.
어휘 가중치 조절부(222)는 현재 화면 또는 현재 화면의 시간적 또는 공간적으로 인근의 화면에 속해 있는 어휘에 대한 가중치를 현재 화면 또는 인근의 화면에 속해 있지 않은 어휘에 비하여 높일 수 있다. 음성 인식 엔진(230)는 가중치가 높은 어휘에 대해 인식 확률을 높인 언어 모델을 음성 인식에 이용함으로써 사용자의 발성 중에 해당 어휘가 포함될 때 음성 인식 성능이 높아질 수 있다.
도메인 가중치 조절부(224)는 현재 화면 또는 현재 화면의 시간적 또는 공간적으로 인근의 화면에서 유효한 도메인에 대해 현재 화면 또는 인근의 화면에 속해있지 않은 도메인에 비하여 가중치를 올릴 수 있다. 음성 인식 엔진(230)는 가중치가 높게 조절된 도메인에 종속적인 언어 모델을 음성 인식에 이용함으로써 사용자의 발성에 해당 도메인에 속하는 어휘가 포함될 때 음성 인식 성능이 높아질 수 있다.
음성 인식 엔진(230)는 어휘 가중치 조절부(222) 및 도메인 가중치 조절 부(224)에서 조절된 어휘 가중치 및 도메인 가중치가 반영된 언어 모델을 이용하여 음성 인식을 수행하고, 음성 인식 결과를 출력할 수 있다. 음성 인식 엔진(230)에서 음성 인식이 완료되면 화면 정보 관리부(210)로 음성 인식 완료 신호가 전달될 수 있다.
도 3은 음성이 입력된 경우 음성 인식 엔진(230)의 동작을 나타내는 도면이다.
음성이 입력되면(310), 음성 인식 엔진(230)는 음성 인식을 수행하기 전에 어휘 가중치 조절부(222)에 어휘별 가중치 정보를 요구하고, 도메인 가중치 조절부(224)에 도메인 가중치 정보를 요구할 수 있다. 그러면, 어휘 가중치 조절부(222) 및 도메인 가중치 조절부(224)는 각각 화면 정보 히스토리 저장부(115)로부터 화면 정보 히스토리를 획득한다(320).
어휘 가중치 조절부(222)는 화면 정보 히스토리 저장부(115)로부터 화면 정보 히스토리를 받아서 어휘 가중치를 조절하여 어휘 가중치 저장부(242)에 저장하고, 마찬가지로 도메인 가중치 조절부(224)는 화면 정보 히스토리 저장부(115)로부터 화면 정보 히스토리를 받아서 도메인 가중치를 조절하여 도메인 가중치 저장부(243)에 저장한다(330).
그러면, 음성 인식 엔진(230)는 어휘 가중치 저장부(242)로부터 어휘 가중치를 획득하고, 도메인 가중치 저장부(243)로부터 도메인 가중치를 획득하고, 어휘 가중치 및 도메인 가중치가 반영된 언어 모델을 이용하여 음성 인식을 수행하고, 음성 인식 결과를 제어부(110)로 출력한다(340).
음성 인식 엔진(230)이 가중치가 조절된 어휘 가중치 및 도메인 가중치가 반영된 언어 모델을 이용하여 음성 인식을 수행하는데 수학식 1이 이용될 수 있다.
Figure 112009047246130-pat00001
수학식 1은 주어진 음성 신호(0)에 대해 최고 확률의 W라는 어휘열을 출력하는 다중 도메인용 연속어 음성 인식 수식을 나타낸다. 여기에서, P(O|W)는 음향 모델 확률값을 나타내고, Pλ(W;dn)은 dn이라는 도메인을 고려한 언어 모델 확률 값을 나타낸다. λ는 음향 모델 매칭 스코어와 언어 모델 매칭 스코어 간의 가중치이며, n은 도메인 식별자(ID)이다.
다시 말해 수학식 1은 도메인 가중치 저장부(243)에 들어있는 N개의 도메인에 대한 가중치를 모두 고려하여 최고의 확률을 가지는 어휘열과 그 때의 도메인을 출력하도록 표현한 수식이다.
Figure 112009047246130-pat00002
수학식 2는 W라는 어휘열이 w1, w2, ...wQ로 이루어졌을 경우, 이를 풀어서 쓴 것으로, 개별 어휘의 언어 모델 확률을 모두 곱한 값이 어휘열에 대한 언어 모델 확률 값이 됨을 보여준다.
Figure 112009047246130-pat00003
수학식 3은 어휘별 언어모델 스코어를 계산하는 방식이다. 수학식 3에 나타난 바와 같이, 3가지 언어 모델을 보간(interpolation)하여 일 실시예에 따른 동적인 언어 모델이 구축될 수 있다.
여기에서, PgeneralLM은 전체 도메인을 커버하는 일반 언어 모델이고, PdomainLM은 도메인 가중치 저장부(243)의 각 도메인에 해당하는 도메인별 언어 모델이며, PwordLM은 어휘별 가중치 정보에 의한 어휘별 언어 모델이다. PgeneralLM은 화면이 바뀌어도 변하지 않지만, PdomainLM과 PwordLM은 주어진 화면 정보에 의해 변하게 된다.
수학식 4는 β0 및 도메인 가중치 저장부(243)에 저장되어 있는 총 N개의 도메인별 가중치(β1N)의 상대적인 크기를 나타낸다. 즉, 도메인별 가중치(β1N)는 도메인 가중치 조절부(224)에 의해 화면 정보 및 화면 변화 신호에 따라 조절된 각 도메인의 가중치를 나타낸다.
Figure 112009047246130-pat00004
β0 는 도메인 가중치가 적용되지 않은 상태를 나타낸다.
도 4는 언어 모델 보간에 이용되는 언어 모델의 가중치를 나타내는 도면이다.
일반 언어 모델의 가중치와, 어휘 언어 모델의 가중치 α 및 도메인별 언어 모델의 가중치 β를 합하면 1이 된다. 언어 모델에서, 화면상의 도메인에 대한 도메인별 가중치는 βn이라는 비율을 차지하며, PwordLM 은 도메인에 무관하게 일정한 α라는 비율을 차지하고, 나머지 비율은 PgeneralLM이 차지한다. 물론, 화면이 바뀌면 α이 바뀐다. 다만, 어떤 주어진 화면에서의 인식을 수행할 때 α는 β와 달리 도메인별로 달라지지 않는다. 도 4에서 d0내지 dN라고 표시된 부분은 d0내지 dN 도메인에서의 일반 언어 모델의 가중치, 어휘 언어 모델의 가중치 및 도메인별 언어 모델의 가중치의 가중치 조합을 나타낸다.
d0는 도메인 가중치 저장부(243)에 저장되어 있는 도메인이 아니라 도메인 언어 모델을 적용하지 않고 전체 도메인을 커버하는 일반 언어 모델과 어휘별 가중치 정보에 의한 언어 모델만이 적용된 상태를 의미한다. 즉, d0에 대한 도메인 가중치인 β0는 0이 된다.
도 5a는 도 2의 화면 정보 관리부(210)가 화면 정보 히스토리를 저장하는 과정의 일 예를 나타내는 도면이다.
화면 정보 관리부(210)는 화면 변화 신호나 음성 인식 완료 신호가 입력될 때 동작할 수 있다. 제어부(110)는 애플리케이션 실행이나 화면 설정 변화 등에 따라 화면이 변화되거나 사용자가 맵 내의 특정 부위를 클릭하여 맵을 이동시키거나 줌 동작으로 화면 배율을 조정하거나 아니면 동적으로 움직이는 오브젝트가 화면에 출몰하는 등 화면에 변화가 생길 경우, 화면 변화 신호를 화면 정보 관리부(210)에 전달할 수 있다. 이때, 제어부(110)는 화면에 관련된 어휘 및 도메인에 대한 정보도 함께 화면 정보 관리부(210)에 입력할 수 있다.
화면 정보 관리부(210)는 우선 현재 화면 변화 신호가 입력된 시간을 결정한다(510). 화면 정보 관리부(210)는 화면 변화 신호가 발생된 현재 화면의 좌표 범위의 배율 레벨을 결정한다(520). 현재 화면의 좌표 범위 및 배율 레벨은 화면 변화 신호와 함께 제어부(110)로부터 입력될 수 있다.
화면 정보 관리부(210)는 현재 화면 변화 신호가 입력된 시간과 이전 화면 변화 신호가 입력된 시간과의 시간 차이를 구해서 그 값이 일정치 이상이면(530), 화면 정보 히스토리 저장부(241)의 주소를 하나 증가시켜(560), 현재 화면 정보를 저장한다(570).
화면 정보 관리부(210)는 이전 화면 변화 신호 입력 시간에 비하여 일정 시간 이상 지나지 않았으나, 화면의 좌표의 범위의 변화가 일정치 이하이면(540), 화면 정보 히스토리 저장부(241)의 주소를 하나 증가시키고(560) 증가된 주소에 현재 화면 정보를 저장한다(570). 이전 화면 변화 신호에 대응하는 이전 화면은 일정 시간 유지되거나 시간에 따라 좌표 변화가 크지 않은 유효한 화면이므로, 이전 화면의 화면 정보를 유지하기 위함이다. 그렇지 않으면, 화면 정보 관리부(210)는 화면 정보 히스토리 저장부(241)의 현재 주소에 화면 정보를 덮어쓸 수 있다(580).
좌표의 범위의 변화분을 확인하는 것은 모의 주행이나 아바타가 가상 세계에서 천천히 움직일 때처럼 화면이 서서히 변하는 경우 이전 변화 신호가 입력된 시간과의 시간 차이는 작더라도 사용자의 관심을 받고 있는 화면으로 볼 수 있으므로 이 화면 정보를 보존하기 위해서이다. 결국, 화면의 좌표 범위가 급격히 빠른 시간 내에 변하는 경우를 제외하고 모두 사용자의 관심을 받고 있는 유효한 화면으로 간주될 수 있다. 특히, 화면의 좌표 범위는 동일한데 오브젝트가 출몰할 경우 이런 화면 역시 유효한 화면으로 결정될 수 있다.
도 5b은 화면 정보 히스토리 저장부(241)의 예시이다.
화면 정보 관리부(210)는 현재 화면 정보 히스토리 저장부(241)의 주소가 1번인 상황에서 화면 변화 신호가 입력되었고 그 입력 시간이 현재 1번 주소에 기록되어 있는 time(1)보다 일정치 이상 크거나 화면 정보 info(1)의 좌표 범위와 현재의 좌표 범위의 차이가 크지 않다면 저장부(241) 주소는 2번으로 하나 증가되어 2번 주소에 현재의 화면 정보(info(2))와 화면 변화 신호 입력 시간(time(2))를 기록한다.
그러나 위 조건이 만족하지 않는다면 그대로 1번 주소에 지금 입력된 화면 변화 신호 입력 시간과 화면 정보가 저장이 되어 기존의 화면 정보에 현재의 화면 정보를 덮어쓸 수 있다.
한편, 도 2에 도시된 바와 같이 음성 인식부(130)에서 음성 인식이 완료되면 음성 인식 완료 신호가 화면 정보 관리부(210)에 전달된다. 다시 도 5a를 참조하면, 화면 정보 관리부(210)는 음성 인식 완료 신호가 입력되면(550), 화면 정보 히 스토리 저장부(241)의 주소를 하나 증가시키고(560), 증가된 주소에 화면 정보를 저장한다(570). 예를 들면, 현재 1번 주소를 가르키고 있는 상황에서 음성 인식 완료 신호가 입력되면, 화면 정보 관리부(210)는 화면 정보 히스토리 저장부(241)의 주소를 2번으로 하나 증가시켜서 1번 주소에 있던 화면 정보가 그 이후의 화면 변화 신호 입력에 의해 덮어쓰일 수 있는 가능성을 차단할 수 있다.
이렇게 화면 유지 시간, 좌표 범위의 변화분 및 음성 인식 수행 여부를 고려하는 것은 유효한 화면 정보만을 저장하기 위한 것이다. 특정 화면이 오래 유지되었거나 좌표 범위의 변화가 작거나 특정 화면에서 음성 인식을 수행했다는 자체만으로 사용자는 해당 화면을 다른 화면들보다 기억할 가능성이 높아서 그 이후에 해당 화면 관련한 이야기를 할 가능성이 높을 것이라고 가정할 수 있기 때문이다. 즉, 이와 같은 동작은 지속 시간도 짧으며 화면 좌표 범위가 급격하게 변하는 화면은 다음 화면으로 넘어가기 위한 중간 과정에 불과하여 사용자의 기억에 남을 만한 정보를 담고 있지 않다는 가정하에 수행될 수 있다.
도 6은 화면 정보를 이용하여 어휘 가중치를 조절하는 방법을 나타내는 도면이다.
어휘 가중치 조절부(222)는 어휘 가중치 저장부(242)의 기존 어휘 가중치를 모두 지운다(610). 이 동작은 어휘 가중치 저장부(242)의 용량에 따라 선택적으로 수행될 수 있다.
어휘 가중치 조절부(222)는 화면 정보 히스토리 중 현재 화면에 포함된 어휘들에 대해서 일정 가중치를 부여하여 가중치를 조절한다(620). 또한, 어휘 가중치 조절부(222)는 현재 화면 인근의 어휘에 대한 가중치를 주기 위하여 현재 화면을 기준으로 시간 및 공간 관점에서 인근 어휘들에 대해 가중치를 조절한다(630).
시간 관점에서 본 인근이라 함은 최근의 화면 정보를 이용하는 것인데, 최근의 화면 정보는 화면 정보 히스토리 저장부(115)에 저장되어 있으며 가중치를 주는 방식은 현재 화면의 어휘에 대해 가중치를 부여하는 방식과 동일하다. 그러나, 현재에서 과거로 갈수록 부여되는 가중치를 낮게 부여할 수 있다.
공간 관점에서 본 현재 화면 인근의 어휘란 현재 화면의 일정치 이내의 외곽 화면의 어휘와 현재 배율보다 일정치 크거나 작은 배율의 화면에 속한 어휘들을 의미한다. 이 어휘들에는 현재 화면의 어휘들에게 부여된 것보다는 낮은 가중치가 부여될 수 있다.
어휘 가중치 조절부(222)는 최근 화면의 어휘 및 현재 화면 주변의 어휘에 대해 가중치를 부여하는 과정에서 부여하고자 하는 가중치보다 이미 높은 가중치를 가지고 있는 경우에는 기존의 높은 가중치 값을 그대로 유지할 수 있다. 이렇게 현재 화면의 시간 및 공간 관점에서 인근 화면의 어휘들에 가중치를 부여하는 것은 사용자가 현재 화면에 머무르기 전까지 주변을 둘러보거나 배율 조정 등을 하다가 현재 화면에 도달할 가능성이 있기 때문이다.
이와 같이 조절된 어휘별 가중치 즉 어휘 가중치는 어휘 가중치 저장부(242)에 저장된다(640).
도 7a는 화면 정보 히스토리를 이용한 어휘 가중치 조절의 일 예를 나타내는 도면이고, 도 7b는 어휘 가중치 조절 결과의 일 예를 나타내는 도면이다.
사용자는 t-1이라는 시간대에 중앙에 경희궁이 있는 t-1 화면(750)에서 시스템과 대화를 나누거나 화면을 응시하는 등 일정한 시간을 소요하여 해당 화면 정보가 화면 정보 히스토리 저장부(115)에 저장된 상태이다.
이후 사용자가 t라는 시간대의 화면(720)에 음성 인식을 시도하면, 도 7b의 테이블에 도시된 바와 같이 어휘 가중치 조절부(222)가 작동을 하여 우선 기존의 어휘 가중치 정보를 모두 지우고 t라는 시점의 화면에 있는 경복궁, 교태전 등의 어휘들에 가장 높은 가중치인 0.5를 부여한다. 실제로 주어지는 가중치 값은 최적화되어야 되지만, 이 예에서는 임의로 0.5를 최고의 가중치로 정했다.
어휘 가중치 조절부(222)는 현재 화면(720)으로부터 시간 및 공간 관점에서 인근에 있는 어휘들에 대해 가중치를 조절한다. 우선 시간 관점에서 봤을 때 t-1 시간대의 화면(750)에 있는 경희궁, 숭정전 등의 어휘에 0.5보다 작은 0.4가 부여되고, 만일 t-2 시간대의 화면에 어휘가 추가로 존재한다면 여기에서는 t-1시간대의 가중치보다 작은 0.3이란 가중치가 부여될 수 있다.
또한, 어휘 가중치 조절부(222)는 공간 관점에서 인근의 어휘들에게 가중치를 부여한다. 도 7b의 테이블에 도시된 바와 같이, 줌인 배율 조정에 의한 화면(710)에서 경회루, 강녕전 등의 어휘에, 줌아웃 배율 조정에 의한 화면(740)에서 경복궁역, 정보종합청사 등에 0.4 라는 가중치가 부여될 수 있다. 또한, 현재 화면(720)의 외곽 화면 정보(730)에서 고궁 박물관, 갤러리 현대 등에 변화 화면의 가중치와 동일한 0.4가 부여될 수 있다.
도 8은 화면 정보 히스토리로부터 도메인 가중치를 조절하는 방법의 일 예를 나타내는 도면이다.
도메인 가중치 조절부(224)는 기존에 도메인 가중치 저장부(243)에 저장되어 있던 내용들을 모두 지운다(810). 이 동작은 도메인 가중치 저장부(243)의 용량에 따라 선택적으로 수행될 수 있다.
도메인 가중치 조절부(224)는 어휘 가중치 조절부(222)의 동작과 유사하게 현재 화면의 도메인 가중치 및 최근 화면의 도메인 가중치를 부여한다(820). 도메인 가중치를 결정하는 상세한 방법의 일 예는 도 9를 참조하여 후술한다.
각 화면 정보로부터 현재 화면의 도메인 가중치 및 최근 화면의 도메인 가중치가 부여되면, 도메인 가중치 조절부(224)는 우선 현재 화면에 대한 도메인 가중치를 먼저 도메인 가중치 저장부(243)에 저장한다(830).
도메인 가중치 조절부(224)는 최근 화면의 각 도메인에 대한 가중치를 과거로 갈수록 가중치 값이 낮아지도록 조절하고, 조절된 최근 화면의 도메인 가중치를 도메인 가중치 저장부(243)에 저장한다(840). 이 경우, 현재 화면과 최근 화면에 중복된 도메인에 대해서는 기존에 저장되어 있는 것보다 가중치 값이 더 클 경우에만 도메인 가중치 저장부(243)에 저장할 수 있다.
현재 화면의 도메인 가중치 및 최근 화면의 도메인 가중치가 모두 도메인 가중치 저장부(243)에 입력되면, 도메인 가중치 조절부(224)는 도메인 가중치 저장부(243) 내용을 가중치 순으로 예를 들어, 가중치가 높아지는 순서 또는 낮아지는 순서로 정렬할 수 있다(850). 도메인 가중치 저장부(243)의 정보를 가중치 순으로 정렬하는 것은 구현예에 따라 선택적으로 수행될 수 있다.
도 9는 주어진 화면에 대한 도메인 가중치를 조절하는 방법의 일 예를 나타내는 도면이다.
도 8의 현재 화면의 도메인들 및 최근 화면의 도메인들에 대한 가중치를 구하는 동작(820)이 도 9에 도시된 순서에 따라 수행될 수 있다. 일 실시예에 따르면, 도메인 가중치 조절부(224)는 화면 포함 비율이 클수록, 화면의 중앙에 가까이 있을 수록 사용자의 관심을 많이 받을 것이라는 가정 하에 화면의 도메인들에 대한 가중치를 결정할 수 있다.
도 9를 참조하면, 도메인 가중치 조절부(224)는 주어진 화면 즉, 현재 화면 또는 최근 화면에서 유효한 도메인들을 결정한다(910). 여기에서, 유효한 도메인은 각 도메인을 나타내는 영역이 주어진 화면과 겹치는 부분에 위치한 도메인일 수 있다.
도메인 가중치 조절부(224)는 각 유효한 도메인들에 대해 각 도메인의 전 영역 중 화면에 포함된 영역의 비율이 얼마나 되는지를 측정하고 또한 각 도메인의 중심점이 화면 중앙으로부터 얼마나 떨어져 있는 지 거리를 계산한다(920).
다음으로 측정된 화면 포함 비율과 화면 중앙과의 거리 정보를 이용하여 각 도메인 가중치를 부여한다(930).
동작 930을 수행하기 위하여, 도메인 가중치 조절부(224)는 화면 포함 비율이 작은 도메인부터 화면 포함 비율이 큰 도메인 순으로 각 도메인을 정렬할 수 있다. 도메인 가중치 조절부(224)는 화면 포함 비율이 동일한 도메인들에 대해서는 화면 중앙과의 거리가 먼 도메인을 우선하여 정렬할 수 있다.
도메인 가중치 조절부(224)는 각 도메인의 정렬 순서에 따라 정렬 순서가 뒤로 갈수록 높은 가중치가 부여할 수 있다. 즉, 도메인 가중치 조절부(224)는 정렬 순서가 뒤로 갈수록 사용자의 관심을 가장 많이 받는 것으로 가정할 수 있으므로 높은 가중치를 부여하여, 사용자가 해당 도메인 관련해서 발성할 경우 인식률도 높이고 응답 속도도 향상시킬 수 있다.
도 10a는 화면상의 도메인 포함 비율의 일 예를 나타내고, 도 10b는 도 10a의 도메인 포함 비율에 따른 도메인 가중치 저장부의 도메인 가중치 조절 결과를 나타내는 테이블의 일 예를 나타낸다.
도 10a에서 t1이라는 시점의 화면은 박스(1010)이고, t2라는 시점의 화면은 박스(1020)이다. 시점 t1의 화면(1010) 및 시점 t2의 화면(1020)은 모두 a 도메인(1031), b 도메인(1032), c 도메인(1033), d 도메인(1034), e 도메인(1035)의 5개의 유효한 도메인을 가지고 있다. f 도메인(1040)은 2개의 시점 모두에서 유효한 도메인이 아니다.
시점 t1의 화면(1010) 및 시점 t2의 화면(1020) 모두에서 각 도메인의 화면 포함 비율은 a<b<c<d<e=100%이다. 특히, d 도메인(1034)와 e 도메인(1035)은 화면 차지 비율이 모두 100%이지만, 시점 t1의 화면(1010)에서는 d 도메인(1034)이 화면(1010)의 중앙에서 더 가깝고, 시점 t2의 화면(1020)에서는 e 도메인(1035)이 화면(1010)의 중앙에서 더 가깝다. 이 경우, 시간의 흐름에 따라 화면이 d 도메인(1034)를 중심으로 있다가 e 도메인(1035)를 중심으로 옮겨갔음을 알 수 있다. 화면이 옮겨감에 따라 사용자의 관심도 옮겨갔을 것이라는 예측을 할 수 있다.
이러한 2개의 시점에서의 도메인 가중치 저장부(243)의 저장 내용은 도 10b에 도시된 바와 같다.
시점 t1에서는 d 도메인(1034)가 시점 t2에서는 e 도메인(1035)이 가장 가중치가 높음을 알 수 있다. 부여되는 가중치의 절대값은 최적화를 위해 조절이 가능하지만 각 도메인 가중치 간의 상대적인 차이는 이와 같은 형태를 띠게 된다.
예를 들어, a는 로마, c는 콜로세움, d는 검투사, e는 네로 황제라고 하고, 이들은 모두 각각이 언어 모델을 가지고 있는 도메인이라고 가정한다.
시점 t1의 화면(1010)에서는 검투사가 화면의 중앙에 있고, 시점 t2의 화면(1020)에서는 네로 황제가 화면의 중앙에 있어서 사용자의 시선이 검투사에서 네로 황제로 옮겨간 상황이며, 시점 t1의 화면(1010)에서는 검투사 도메인이 가장 가중치가 높고, t2 시점의 화면(1020)에서는 황제 도메인이 가장 가중치가 높음을 알 수 있다. 물론 2개의 시점 모두에서 로마나 콜로세움 도메인의 가중치가 검투사나 네로 황제 도메인보다 낮지만, 일반 다른 도메인보다는 가중치가 높게 부여되어 사용자의 관심을 많이 받는 부분이라고 가정될 수 있다.
도 11a 및 도 11b는 어휘 구조체의 구성의 일 예를 나타내는 도면이다.
어휘 구조체는 각 오브젝트의 맵 상에서의 좌표를 배율 별로 어휘 id와 함께 좌표 크기 순으로 저장하는 방식으로 구성될 수 있다. 도 11a에서, 화면(1110)의 맵상에서의 좌표는 2차원의 경우 x좌표, y좌표로 표현되는데 x좌표 크기 순, y좌표 크기 순으로 순차적으로 저장될 수 있다. 이렇게 저장을 해두면 나중에 특정 화면에 포함되는 어휘들을 찾을 때 우선 x좌표부터 비교하고 다음은 y좌표를 비교하는 방식으로 검색할 수 있다.
한편, 어휘 구조체는 사용자가 선택한 배율에 따라 어휘들의 화면 표시 여부가 결정되므로 배율 별로 어휘 정보가 따로 구성되어 저장될 수 있다. 예를 들어, 거리 이름 같은 상세 지명들은 고배율에서만 나타나고 줌 아웃되어 저배율 상태가 되면 표시되지 않는 경우가 많다. 화면(1120)은 배율 레벨 8인 어떤 영역으로 좌측 상단의 실제 지도(1110)에 해당하는 화면을 좌표를 표시한 것이다.
도 11b는 화면(1110)에 이용되는 어휘 구조체를 나타내는 테이블이다.
도 11b의 예에서 편의성 어휘 id가 직접 해당 오브젝트의 이름으로 표시되었지만 실제 구현 시에는 어휘 id가 숫자로 표현될 수 있다. 박스(1112)로 표시된 것이 현재 화면으로 화면(1120)을 참조하면 좌표는 [(3.25, 5.40), (3.50, 5.85)]이고 여기에 속하는 어휘가 24번과 25번인 "민속 박물관"과 "곡수지"라는 것을 알 수 있다.
도 12a 및 도 12b는 도메인 구조체의 구성의 일 예를 나타내는 도면이다.
도메인 구조체 역시 어휘 구조체와 비슷한 방식으로 구성되어 저장될 수 있다. 일 실시예에 따르면, 도메인 구조체는 각 도메인의 맵 상에서의 좌표를 배율별로 도메인 id와 함께 좌표 크기 순으로 저장될 수 있다.
다만, 어휘는 점이지만 도메인은 영역이므로 맵 상에서의 도메인 좌표를 저장할 때는 2차원의 경우 2 꼭지점인 좌상(UL: UpperLeft)와 우하(LR: LowerRight) 2 점으로 표현이 가능하므로 UL의 x좌표 크기 순, y좌표 크기 순, LR의 x좌표 크기 순, y좌표 크기 순으로 순차적으로 저장될 수 있다. 이렇게 저장을 해두면 나중에 특정 화면에서 유효한 도메인들을 찾을 때 도메인 UL 또는 LR의 x, y 좌표를 화면의 UL 또는 LR의 x, y좌표와 비교하는 방식으로 검색이 가능하다. 즉, 도메인 UL 또는 LR이 화면의 LR보다는 좌상이고, 화면의 UL보다는 우하에 있으면 유효한 도메인으로 판단한다.
또한, 사용자가 선택한 배율에 따라 각 도메인이 해당 화면에서 유효한지 여부가 결정되므로 배율별로 도메인 정보가 별도로 구성되어 저장될 수 있다.
도 12a에서 화면(1210)은 배율 레벨이 8인 어떤 영역으로, 화면(1220)이 화면(1210)의 도메인 지도를 좌표로 표시한 것이다. 화면(1230)은 좌측 하단에 좌측 상단의 도메인 지도에 대해 더 낮은 배율, 즉, 화면이 축소된 상태에서의 도메인 지도의 변화를 보이고 있다.
박스(1211)로 표시된 것이 현재 화면(1211)으로 좌표는 [UL: (9.22, 7.45), LR: (9.52, 7.93)]이고, 이 화면에서 유효한 도메인, 즉, 이 화면과 겹치는 부분이 있는 도메인은 배율 레벨 7의 화면(1230)에서는 a, b, c, d, e이고, 배율 레벨 8의 화면(1210)에서는 a, b, c라는 것을 알 수 있다. 고배율에서는 유효하던 d, e같은 도메인이 저배율로 가면서 사라진 것을 알 수 있다. 이처럼 각 배율에 따라 사용 가능한 도메인 정보들이 다르므로 도메인 정보들을 배율에 따라 각각 저장해둘 수 있다.
도 12b는 도메인 구조체를 테이블 형태로 표시한 것이다. 도 12b에서는 편의상 도메인 id가 직접 해당 도메인의 이름으로 표시되었지만 실제 구현시에는 숫자로 표현될 수 있다.
본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 저장되고 실행될 수 있다.
이상의 설명은 본 발명의 일 실시예에 불과할 뿐, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 본질적 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
도 1은 음성 인식 장치의 구성의 일 예를 나타내는 도면이다.
도 2는 도 1의 음성 인식 장치에서 음성 인식부(120)의 구성의 일 예를 나타내는 도면이다.
도 3은 음성이 입력된 경우 음성 인식 엔진(230)의 동작을 나타내는 도면이다.
도 4는 언어 모델 보간에 이용되는 언어 모델의 가중치를 나타내는 도면이다.
도 5a는 도 2의 화면 정보 관리부(210)가 화면 정보 히스토리를 저장하는 과정의 일 예를 나타내는 도면이고, 도 5b는 화면 정보 히스토리 저장부(241)의 일 예를 나타내는 도면이다.
도 6은 화면 정보를 이용하여 어휘 가중치를 조절하는 방법을 나타내는 도면이다.
도 7a는 화면 정보 히스토리를 이용한 어휘 가중치 조절의 일 예를 나타내는 도면이고, 도 7b는 어휘 가중치 조절 결과의 일 예를 나타내는 도면이다.
도 8은 화면 정보 히스토리로부터 도메인 가중치를 조절하는 방법의 일 예를 나타내는 도면이다.
도 9는 주어진 화면에 대한 도메인 가중치를 조절하는 방법의 일 예를 나타내는 도면이다.
도 10a는 화면상의 도메인 포함 비율의 일 예를 나타내고, 도 10b는 도 10a 의 도메인 포함 비율에 따른 도메인 가중치 저장부의 도메인 가중치 조절 결과를 나타내는 테이블의 일 예를 나타낸다.
도 11a 및 도 11b는 어휘 구조체의 구성의 일 예를 나타내는 도면이다.
도 12a 및 도 12b는 도메인 구조체의 구성의 일 예를 나타내는 도면이다.

Claims (20)

  1. 화면이 변화되었음을 나타내는 화면 변화 신호 및 변화된 화면에 대한 화면 정보를 생성하는 제어부; 및
    상기 화면 변화 신호 및 상기 화면 정보에 따라 상기 화면과 관련된 적어도 하나의 어휘에 대한 어휘 가중치 및 상기 화면에 속하는 적어도 하나의 도메인에 대한 도메인 가중치를 조절하고, 상기 조절된 어휘 가중치 및 도메인 가중치가 반영된 동적인 언어 모델을 이용하여 음성 인식을 수행하는 음성 인식부를 포함하고,
    상기 음성 인식부는 상기 화면 정보의 변화에 따라 상기 어휘 가중치 및 도메인 가중치를 조절하고, 적어도 하나의 도메인에 대하여 해당 도메인이 화면을 차지하는 비율이 높고, 해당 도메인이 화면 중심으로부터의 거리가 가까울수록 높은 가중치를 부여하도록 조절하는 가중치 조절부를 포함하는 음성 인식 장치.
  2. 제1항에 있어서,
    상기 제어부는 화면을 조작하는 사용자 입력 신호에 따라 상기 화면 변화 신호를 생성하는 음성 인식 장치.
  3. 제2항에 있어서,
    상기 사용자 입력 신호는 사용자의 커서 이동, 배율 조작, 화면 회전 중 적어도 하나를 포함하는 음성 인식 장치.
  4. 제1항에 있어서,
    상기 제어부는 화면에 동적으로 움직이는 오브젝트가 등장할 때 화면 변화 신호를 생성하는 음성 인식 장치.
  5. 제1항에 있어서,
    상기 음성 인식부는 현재 화면과 관련된 어휘 가중치 및 도메인의 가중치를 상기 현재 화면과 관련되지 않은 어휘 가중치 및 도메인 가중치보다 높게 부여하여 생성된 언어 모델을 이용하여 음성 인식을 수행하는 음성 인식 장치.
  6. 제1항에 있어서,
    상기 음성 인식부는 화면의 좌표 및 배율에 따라 관련된 적어도 하나의 어휘를 포함하는 어휘 구조체를 이용하여 상기 화면에 속한 적어도 하나의 어휘를 결정하고, 화면의 좌표 및 배율에 따라 관련된 적어도 하나의 도메인을 포함하는 도메인 구조체를 이용하여 상기 화면에 속한 적어도 하나의 도메인을 결정하고 도메인 가중치를 조절하는 음성 인식 장치.
  7. 제1항에 있어서,
    상기 화면 정보는 화면 좌표의 범위, 배율 레벨, 상기 화면과 관련된 적어도 하나의 어휘 및 상기 화면에 속하는 적어도 하나의 도메인 중 적어도 하나를 포함하는 음성 인식 장치.
  8. 제1항에 있어서,
    상기 음성 인식부는,
    시간에 따라 변화하는 화면 정보의 저장을 관리하는 화면 정보 관리부;
    음성이 입력되면 상기 조절된 어휘 가중치 및 상기 조절된 도메인 가중치를 획득하고, 상기 획득된 어휘 가중치 및 상기 도메인 가중치에 따라 동적으로 생성되는 언어 모델을 이용하여 음성 인식을 수행하는 음성 인식 엔진을 포함하는 음성 인식 장치.
  9. 제8항에 있어서,
    상기 화면 정보 관리부는 이전 화면 변화 신호 입력 시간과 현재 화면 변화 입력 시간 사이의 간격, 이전 화면과 현재 화면 사이의 좌표 범위의 변화 및 화면에 대한 음성 인식이 수행되었는지 여부 중 적어도 하나를 이용하여 화면 정보를 저장하는 음성 인식 장치.
  10. 제8항에 있어서,
    상기 가중치 조절부는 현재 화면 및 현재 화면과 시간적 또는 공간적으로 인근의 화면에 속하는 적어도 하나의 어휘에 대하여 상기 현재 화면 및 상기 인근의 화면에 속하지 않는 어휘들에 비하여 높은 가중치를 부여하도록 가중치를 조절하는 음성 인식 장치.
  11. 제8항에 있어서,
    상기 가중치 조절부는 현재 화면 및 현재 화면과 시간적 또는 공간적으로 인근의 화면에 속하는 적어도 하나의 도메인에 대하여 상기 현재 화면 및 상기 인근의 화면에 속하지 않는 도메인들에 비하여 높은 가중치를 부여하도록 가중치를 조절하는 음성 인식 장치.
  12. 제1항에 있어서,
    상기 동적인 언어 모델은 전체 도메인을 커버하는 일반 언어 모델, 특정 도메인에 국한된 도메인 언어 모델 및 어휘 가중치 정보를 반영하여 생성된 어휘 언어 모델 사이의 보간을 수행하여 계산되는 음성 인식 장치.
  13. 화면이 변화되었음을 나타내는 화면 변화 신호 및 변화된 화면에 대한 화면 정보를 생성하는 단계;
    상기 화면 변화 신호 및 상기 화면 정보에 따라 상기 화면과 관련된 적어도 하나의 어휘에 대한 어휘 가중치 및 상기 화면에 속하는 적어도 하나의 도메인에 대한 도메인 가중치를 조절하는 단계; 및
    조절된 어휘 가중치 및 도메인 가중치가 반영된 동적인 언어 모델을 이용하여 음성 인식을 수행하는 단계를 포함하고,
    상기 가중치를 조절하는 단계는 적어도 하나의 도메인에 대하여 해당 도메인이 화면을 차지하는 비율이 높고, 해당 도메인이 화면 중심으로부터의 거리가 가까울수록 높은 가중치를 부여하도록 조절하는 음성 인식 방법.
  14. 제13항에 있어서,
    상기 화면 변화 신호는 화면을 조작하는 사용자 입력 신호에 따라 생성되는 음성 인식 방법.
  15. 제14항에 있어서,
    상기 사용자 입력 신호는 사용자의 커서 이동, 배율 조작, 화면 회전 중 적어도 하나를 포함하는 음성 인식 방법.
  16. 제13항에 있어서,
    상기 화면 변화 신호는 화면에 동적으로 움직이는 오브젝트가 등장할 때 생성되는 음성 인식 방법.
  17. 제13항에 있어서,
    상기 음성 인식을 수행하는 단계에서, 현재 화면과 관련된 어휘 가중치 및 도메인 가중치를 상기 현재 화면과 관련되지 않은 어휘 가중치 및 도메인 가중치보다 높게 부여하여 생성된 언어 모델을 이용하여 음성 인식을 수행하는 음성 인식 방법.
  18. 제13항에 있어서,
    상기 어휘 가중치를 조절하는 단계에서, 현재 화면 및 현재 화면과 시간적 또는 공간적으로 인근의 화면에 속하는 적어도 하나의 어휘에 대하여 상기 현재 화면 및 상기 인근의 화면에 속하지 않는 어휘들에 비하여 높은 가중치를 부여하도록 가중치를 조절하는 음성 인식 방법.
  19. 제13항에 있어서,
    상기 도메인 가중치를 조절하는 단계에서, 현재 화면 및 현재 화면과 시간적 또는 공간적으로 인근의 화면에 속하는 적어도 하나의 도메인에 대하여 상기 현재 화면 및 상기 인근의 화면에 속하지 않는 도메인들에 비하여 높은 가중치를 부여하 도록 가중치를 조절하는 음성 인식 방법.
  20. 제13항에 있어서,
    상기 동적인 언어 모델은 전체 도메인을 커버하는 일반 언어 모델, 특정 도메인에 국한된 도메인 언어 모델 및 어휘 가중치 정보를 반영하는 어휘 언어 모델 사이의 보간을 수행하여 생성되는 음성 인식 방법.
KR1020090070833A 2009-07-31 2009-07-31 동적 화면에 따라 음성을 인식하는 장치 및 방법 KR101597289B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020090070833A KR101597289B1 (ko) 2009-07-31 2009-07-31 동적 화면에 따라 음성을 인식하는 장치 및 방법
US12/844,898 US9269356B2 (en) 2009-07-31 2010-07-28 Method and apparatus for recognizing speech according to dynamic display

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090070833A KR101597289B1 (ko) 2009-07-31 2009-07-31 동적 화면에 따라 음성을 인식하는 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110012920A KR20110012920A (ko) 2011-02-09
KR101597289B1 true KR101597289B1 (ko) 2016-03-08

Family

ID=43527844

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090070833A KR101597289B1 (ko) 2009-07-31 2009-07-31 동적 화면에 따라 음성을 인식하는 장치 및 방법

Country Status (2)

Country Link
US (1) US9269356B2 (ko)
KR (1) KR101597289B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11100916B2 (en) 2018-11-21 2021-08-24 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9324323B1 (en) * 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US10157612B2 (en) * 2012-08-02 2018-12-18 Nuance Communications, Inc. Methods and apparatus for voice-enabling a web application
US9781262B2 (en) * 2012-08-02 2017-10-03 Nuance Communications, Inc. Methods and apparatus for voice-enabling a web application
US9697821B2 (en) * 2013-01-29 2017-07-04 Tencent Technology (Shenzhen) Company Limited Method and system for building a topic specific language model for use in automatic speech recognition
US9922650B1 (en) 2013-12-20 2018-03-20 Amazon Technologies, Inc. Intent-specific automatic speech recognition result generation
US10811013B1 (en) * 2013-12-20 2020-10-20 Amazon Technologies, Inc. Intent-specific automatic speech recognition result generation
US9412363B2 (en) 2014-03-03 2016-08-09 Microsoft Technology Licensing, Llc Model based approach for on-screen item selection and disambiguation
US10317992B2 (en) 2014-09-25 2019-06-11 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions
US10817672B2 (en) 2014-10-01 2020-10-27 Nuance Communications, Inc. Natural language understanding (NLU) processing based on user-specified interests
CN106156017A (zh) * 2015-03-23 2016-11-23 北大方正集团有限公司 信息识别方法和信息识别系统
WO2017079341A2 (en) 2015-11-04 2017-05-11 Zoox, Inc. Automated extraction of semantic information to enhance incremental mapping modifications for robotic vehicles
US11283877B2 (en) 2015-11-04 2022-03-22 Zoox, Inc. Software application and logic to modify configuration of an autonomous vehicle
US10248119B2 (en) * 2015-11-04 2019-04-02 Zoox, Inc. Interactive autonomous vehicle command controller
US10334050B2 (en) 2015-11-04 2019-06-25 Zoox, Inc. Software application and logic to modify configuration of an autonomous vehicle
US9632502B1 (en) 2015-11-04 2017-04-25 Zoox, Inc. Machine-learning systems and techniques to optimize teleoperation and/or planner decisions
US9754490B2 (en) 2015-11-04 2017-09-05 Zoox, Inc. Software application to request and control an autonomous vehicle service
US9606539B1 (en) 2015-11-04 2017-03-28 Zoox, Inc. Autonomous vehicle fleet service and system
US9630619B1 (en) 2015-11-04 2017-04-25 Zoox, Inc. Robotic vehicle active safety systems and methods
US10401852B2 (en) 2015-11-04 2019-09-03 Zoox, Inc. Teleoperation system and method for trajectory modification of autonomous vehicles
US9886958B2 (en) 2015-12-11 2018-02-06 Microsoft Technology Licensing, Llc Language and domain independent model based approach for on-screen item selection
US10896681B2 (en) 2015-12-29 2021-01-19 Google Llc Speech recognition with selective use of dynamic language models
US10360914B2 (en) * 2017-01-26 2019-07-23 Essence, Inc Speech recognition based on context and multiple recognition engines
JP6646001B2 (ja) 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
US10515625B1 (en) 2017-08-31 2019-12-24 Amazon Technologies, Inc. Multi-modal natural language processing
KR102449181B1 (ko) * 2017-11-24 2022-09-29 삼성전자 주식회사 전자장치 및 그 제어방법
CN110544480B (zh) * 2019-09-05 2022-03-11 思必驰科技股份有限公司 语音识别资源切换方法和装置
KR20190113693A (ko) * 2019-09-18 2019-10-08 엘지전자 주식회사 단어 사용 빈도를 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
US20240012611A1 (en) * 2022-07-06 2024-01-11 Speechly Oy Method and system for controlling speech-controlled graphical object

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007280364A (ja) * 2006-03-10 2007-10-25 Nec (China) Co Ltd 言語モデルの切替・適応方法及び言語モデル切替・適応装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143191A (ja) 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
US5995918A (en) * 1997-09-17 1999-11-30 Unisys Corporation System and method for creating a language grammar using a spreadsheet or table interface
US7206747B1 (en) 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US8275617B1 (en) 1998-12-17 2012-09-25 Nuance Communications, Inc. Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
US6192343B1 (en) * 1998-12-17 2001-02-20 International Business Machines Corporation Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
JP2001249686A (ja) 2000-03-08 2001-09-14 Matsushita Electric Ind Co Ltd 音声認識方法、音声認識装置、およびナビゲーション装置
ES2885435T3 (es) * 2001-04-30 2021-12-13 Activemap Llc Mapa interactivo presentado electrónicamente
US7155393B2 (en) * 2001-08-18 2006-12-26 Visionrx, Llc Method for establishing fixation employing speech recognition
US7308404B2 (en) 2001-09-28 2007-12-11 Sri International Method and apparatus for speech recognition using a dynamic vocabulary
US7222073B2 (en) * 2001-10-24 2007-05-22 Agiletv Corporation System and method for speech activated navigation
US20030125869A1 (en) * 2002-01-02 2003-07-03 International Business Machines Corporation Method and apparatus for creating a geographically limited vocabulary for a speech recognition system
US7143035B2 (en) 2002-03-27 2006-11-28 International Business Machines Corporation Methods and apparatus for generating dialog state conditioned language models
US20030204399A1 (en) 2002-04-25 2003-10-30 Wolf Peter P. Key word and key phrase based speech recognizer for information retrieval systems
AU2002952106A0 (en) * 2002-10-15 2002-10-31 Silverbrook Research Pty Ltd Methods and systems (npw008)
JP4019904B2 (ja) * 2002-11-13 2007-12-12 日産自動車株式会社 ナビゲーション装置
US7437296B2 (en) * 2003-03-13 2008-10-14 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation apparatus and information search apparatus
CA2431183A1 (en) * 2003-06-05 2004-12-05 Atc Dynamics Inc. Method and system for natural language recognition command interface and data management
JP2005148151A (ja) * 2003-11-11 2005-06-09 Mitsubishi Electric Corp 音声操作装置
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
US7742923B2 (en) * 2004-09-24 2010-06-22 Microsoft Corporation Graphic user interface schemes for supporting speech recognition input systems
JP4667138B2 (ja) * 2005-06-30 2011-04-06 キヤノン株式会社 音声認識方法及び音声認識装置
JP4804052B2 (ja) 2005-07-08 2011-10-26 アルパイン株式会社 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
JP5464785B2 (ja) * 2006-12-05 2014-04-09 キヤノン株式会社 情報処理装置および情報処理方法
US20080201148A1 (en) 2007-02-15 2008-08-21 Adacel, Inc. System and method for generating and using an array of dynamic grammar
DE102008051756A1 (de) * 2007-11-12 2009-05-14 Volkswagen Ag Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen
US20090240668A1 (en) * 2008-03-18 2009-09-24 Yi Li System and method for embedding search capability in digital images
US8849672B2 (en) * 2008-05-22 2014-09-30 Core Wireless Licensing S.A.R.L. System and method for excerpt creation by designating a text segment using speech
US20100312469A1 (en) * 2009-06-05 2010-12-09 Telenav, Inc. Navigation system with speech processing mechanism and method of operation thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007280364A (ja) * 2006-03-10 2007-10-25 Nec (China) Co Ltd 言語モデルの切替・適応方法及び言語モデル切替・適応装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11100916B2 (en) 2018-11-21 2021-08-24 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
US11935516B2 (en) 2018-11-21 2024-03-19 Samsung Electronics Co., Ltd. Speech recognition method and appratus using weighted scores

Also Published As

Publication number Publication date
US20110029301A1 (en) 2011-02-03
KR20110012920A (ko) 2011-02-09
US9269356B2 (en) 2016-02-23

Similar Documents

Publication Publication Date Title
KR101597289B1 (ko) 동적 화면에 따라 음성을 인식하는 장치 및 방법
CN110651325B (zh) 计算助理的延迟响应
CN113836507B (zh) 用于言语设备控制的多用户虚拟助手
CA2625726C (en) Optimization-based visual context management
Liu et al. Extracting semantic location from outdoor positioning systems
JP2020173462A (ja) コンピュータによるエージェントのための合成音声の選択
JP6017678B2 (ja) 音声制御ナビゲーション・システム用のランドマークに基づく場所思考追跡
US20100106407A1 (en) Navigation system
Bartie et al. Development of a Speech‐Based Augmented Reality System to Support Exploration of Cityscape
KR20110098938A (ko) 예측 모델 제공 방법, 장치 및 컴퓨터 판독가능 저장 매체
KR102049981B1 (ko) 컴퓨팅 디바이스 백그라운드의 속성들에 기초한 정보 랭킹
US20130006616A1 (en) Information retrieving apparatus, information retrieving method, and computer program product
US20170133015A1 (en) Method and apparatus for context-augmented speech recognition
KR20190023547A (ko) 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템
JP2014519606A (ja) 短距離において複数の曲がり角を曲がるための支援を備えるナビゲーションシステム
RU2711127C2 (ru) Способ получения пользовательской команды процессором электронного устройства с помощью сенсорного экрана электронного устройства
CN110192208B (zh) 共享物理图形的信号片段
KR102120749B1 (ko) 대화 이해 ai 시스템에 의하여, 키워드 기반 북마크 검색 서비스 제공을 위하여 북마크 정보를 저장하는 방법 및 컴퓨터 판독가능 기록 매체
WO2018136310A1 (en) Controlling creation/access of physically senses features
KR102441455B1 (ko) 시각적 IoT 서비스를 위한 강화학습 및 효과도 기반 동적 미디어 선택을 위한 전자 장치 및 그의 동작 방법
CN114925154A (zh) 地图生成方法、装置、电子设备、介质和计算机程序产品
CN114089841A (zh) 文本的生成方法、装置、电子设备以及存储介质
CN113536120A (zh) 基于用户行为的兴趣点召回和装置
JP2012043050A (ja) 地理情報管理装置、地理情報管理方法、コンピュータ・プログラム、および、データ構造
JPWO2016021058A1 (ja) 対話システム、および情報処理方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee