KR20120126641A - 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법 - Google Patents
단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법 Download PDFInfo
- Publication number
- KR20120126641A KR20120126641A KR1020110044613A KR20110044613A KR20120126641A KR 20120126641 A KR20120126641 A KR 20120126641A KR 1020110044613 A KR1020110044613 A KR 1020110044613A KR 20110044613 A KR20110044613 A KR 20110044613A KR 20120126641 A KR20120126641 A KR 20120126641A
- Authority
- KR
- South Korea
- Prior art keywords
- word
- words
- candidate
- speech recognition
- word string
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000005236 sound signal Effects 0.000 claims description 77
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000012790 confirmation Methods 0.000 abstract 2
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 31
- 238000010586 diagram Methods 0.000 description 10
- 241000220223 Fragaria Species 0.000 description 8
- 235000016623 Fragaria vesca Nutrition 0.000 description 8
- 235000011363 Fragaria x ananassa Nutrition 0.000 description 8
- 235000013948 strawberry juice Nutrition 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Navigation (AREA)
- Machine Translation (AREA)
Abstract
단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법이 개시된다. 음성 인식 시스템은 음성 인식 결과로서, 단어열 및 단어열에 포함된 단어 중 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 단어열 및 후보 단어를 확인하는 음성 인식 결과 확인부 및 단어열을 디스플레이 장치를 통해 표시하되, 후보 단어가 존재하는 적어도 하나의 단어를 단어열의 나머지 단어와 구분하여 표시하는 단어열 표시부를 포함하고, 단어열 표시부는 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어를 후보 단어로 변경하여 표시하는 것을 특징으로 한다.
Description
본 발명의 실시예들은 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법에 관한 것이다.
음성 인식을 통한 딕테이션(dictation)을 하고자 할 때, 음성 인식 후 출력된 후보 문장이 매우 많은 경우, 조금씩만 다른 n개의 문장을 사용자가 보고 원하는 문장을 선택하기 어려운 문제점이 있다. 즉, 모바일 단말과 같은 사용자의 단말기 입장에서는 해당 단말기의 작은 크기로 인하여 한번에 많은 문장들을 모두 노출하는 것이 어렵고, 사용자의 입장에서는 n개의 문장을 볼 때 어떤 문장이 알맞은 문장인지 한 순간에 파악하기 어려운 문제점이 있다.
본 명세서에서는 보다 효과적으로 음성 인식을 통한 딕테이션을 제공할 수 있는 음성 인식 시스템 및 방법이 제안된다.
사용자에게 음성 인식 결과에 따른 문자열을 표시하여 사용자에게 제공하되, 후보 단어가 존재하는 단어를 문자열 상의 다른 단어들과 구분하여 표시하고, 후보 단어가 존재하는 단어에 대한 사용자의 선택에 따라 해당 단어를 후보 단어로 변경하여 표시함으로써, 단 한번의 선택으로 사용자가 음성 인식 결과를 단어별로 수정할 수 있는 음성 인식 시스템 및 음성 인식 방법이 제공된다.
소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열을 선택하고, 선택된 단어열에 포함된 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에서 소리 신호에 대해 인식된 다른 단어들 중에서 다른 단어들 각각에 대해 계산되는 신뢰도를 이용하여 선택되는 적어도 하나의 단어를 후보 단어로 설정함으로써, 보다 정확한 단어별 결과를 제공할 수 있는 음성 인식 시스템 및 음성 인식 방법이 제공된다.
표시된 단어열 전체를 한번에 삭제할 수 있는 사용자 인터페이스를 제공함으로써, 표시된 단어열이 전혀 엉뚱한 결과인 경우 사용자가 직접 문장을 입력하거나 또는 다시 음성 인식 과정을 진행하도록 할 수 있는 음성 인식 시스템 및 음성 인식 방법이 제공된다.
음성 인식을 통해 작성되는 문장인 단어열에 대해, 해당 단어열이 음성 인식을 통해 작성되었음을 나타내는 서명을 단어열과 함께 표시 또는 전송함으로써, 표시된 단어열을 확인하는 사용자 또는 이러한 단어열을 SMS, 이메일 등으로 전송받은 사용자가 해당 단어열이 음성 인식을 통해 작성되었음을 확인할 수 있도록 하는 음성 인식 시스템 및 음성 인식 방법이 제공된다.
음성 인식 결과로서, 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 단어열 및 후보 단어를 확인하는 음성 인식 결과 확인부 및 단어열을 디스플레이 장치를 통해 표시하되, 후보 단어가 존재하는 적어도 하나의 단어를 단어열의 나머지 단어와 구분하여 표시하는 단어열 표시부를 포함하고, 단어열 표시부는 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어를 후보 단어로 변경하여 표시하는 것을 특징으로 하는 음성 인식 시스템이 제공된다.
일측에 따르면, 음성 인식 시스템은 표시된 단어열의 전체 삭제를 위한 사용자 인터페이스를 제공하는 사용자 인터페이스부를 더 포함할 수 있고, 단어열 표시부는 사용자 인터페이스를 통해 사용자 입력이 발생하는 경우, 표시된 단어열을 전부 삭제할 수 있다.
다른 측면에 따르면, 단어열이 디스플레이 장치를 통해 표시되는 경우, 또는 단어열이 다른 기기로 전송되는 경우, 단어열이 음성 인식을 통해 제공되었음을 나타내는 서명이 단어열과 함께 표시 또는 전송될 수 있다.
또 다른 측면에 따르면, 음성 인식 시스템은 입력 장치를 통해 입력되는 소리 신호를 음성 인식 서버로 전송하는 소리 신호 전송부 및 소리 신호에 대응하는 음성 인식 결과를 음성 인식 서버를 통해 수신하는 음성 인식 결과 수신부를 더 포함할 수 있다.
또 다른 측면에 따르면, 음성 인식 시스템은 입력 장치를 통해 입력되는 소리 신호에 대응하는 음성 인식 결과를 생성하는 음성 인식 결과 생성부를 더 포함할 수 있다.
또 다른 측면에 따르면, 단어열은 음성 인식 서버에서 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열로서 선택될 수 있다.
또 다른 측면에 따르면, 후보 단어는, 음성 인식 서버에서 적어도 하나의 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어로서 선택될 수 있다. 이 경우, 다른 단어들 중 적어도 하나의 단어는, 다른 단어들 각각에 대해 계산되는 신뢰도(confidence)에 기초하여 선택될 수 있다. 또한, 시간 범위는 인식이 시작된 시각 및 인식이 끝난 시각 그리고 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정될 수 있다.
소리 신호에 대응하는 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어를 결정하여 음성 인식 결과로서 생성하는 음성 인식 결과 생성부 및 사용자의 단말기로 음성 인식 결과를 제공하는 음성 인식 결과 제공부를 포함하고, 단말기의 디스플레이 장치에서 단어열이 표시되고, 후보 단어가 존재하는 적어도 하나의 단어는 단어열의 나머지 단어와 구분되어 표시되고, 구분하여 표시된 단어가 단말기에서 사용자에 의해 선택되는 경우, 구분하여 표시된 단어가 후보 단어로 변경되어 표시되는 것을 특징으로 하는, 음성 인식 시스템이 제공된다.
음성 인식 결과로서, 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 단어열 및 후보 단어를 확인하는 단계 및 단어열을 디스플레이 장치를 통해 표시하되, 후보 단어가 존재하는 적어도 하나의 단어를 단어열의 나머지 단어와 구분하여 표시하는 단계를 포함하고, 표시하는 단계는 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어를 후보 단어로 변경하여 표시하는 것을 특징으로 하는, 음성 인식 방법이 제공된다.
소리 신호에 대응하는 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어를 결정하여 음성 인식 결과로서 생성하는 단계 및 사용자의 단말기로 음성 인식 결과를 제공하는 단계를 포함하고, 단말기의 디스플레이 장치에서 단어열이 표시되고, 후보 단어가 존재하는 적어도 하나의 단어는 단어열의 나머지 단어와 구분되어 표시되고, 구분하여 표시된 단어가 단말기에서 사용자에 의해 선택되는 경우, 구분하여 표시된 단어가 후보 단어로 변경되어 표시되는 것을 특징으로 하는, 음성 인식 방법이 제공된다.
사용자에게 음성 인식 결과에 따른 문자열을 표시하여 사용자에게 제공하되, 후보 단어가 존재하는 단어를 문자열 상의 다른 단어들과 구분하여 표시하고, 후보 단어가 존재하는 단어에 대한 사용자의 선택에 따라 해당 단어를 후보 단어로 변경하여 표시함으로써, 단 한번의 선택으로 사용자가 음성 인식 결과를 단어별로 수정할 수 있다.
소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열을 선택하고, 선택된 단어열에 포함된 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에서 소리 신호에 대해 인식된 다른 단어들 중에서 다른 단어들 각각에 대해 계산되는 신뢰도를 이용하여 선택되는 적어도 하나의 단어를 후보 단어로서 설정함으로써, 보다 정확한 단어별 결과를 제공할 수 있다.
표시된 단어열 전체를 한번에 삭제할 수 있는 사용자 인터페이스를 제공함으로써, 표시된 단어열이 전혀 엉뚱한 결과인 경우 사용자가 직접 문장을 입력하거나 또는 다시 음성 인식 과정을 진행하도록 할 수 있다.
음성 인식을 통해 작성되는 문장인 단어열에 대해, 해당 단어열이 음성 인식을 통해 작성되었음을 나타내는 서명을 단어열과 함께 표시 또는 전송함으로써, 표시된 단어열을 확인하는 사용자 또는 이러한 단어열을 SMS, 이메일 등으로 전송받은 사용자가 해당 단어열이 음성 인식을 통해 작성되었음을 확인할 수 있다.
도 1은 본 발명의 일실시예에 있어서, 사용자 단말기 및 음성 인식 서버를 나타낸 도면이다.
도 2는 본 발명의 일실시예에 있어서, 사용자 단말기의 디스플레이 화면에 단어열이 표시된 모습을 나타낸 일례이다.
도 3은 본 발명의 일실시예에 있어서, 사용자 단말기의 디스플레이 화면에서 사용자의 선택에 따라 표시된 단어를 후보 단어로 변경하여 표시한 모습을 도시한 일례이다.
도 4는 본 발명의 일실시예에 있어서, 사용자 인터페이스를 이용하여 표시된 단어열을 전부 삭제하는 모습을 도시한 일례이다.
도 5는 본 발명의 일실시예에 있어서, 사용자 단말기에서 서명을 제공하는 모습을 도시한 일례이다.
도 6은 본 발명의 일실시예에 있어서, 소리 신호에 대해 검색된 단어들을 나타낸 도면이다.
도 7은 본 발명의 일실시예에 있어서, 음성 인식 시스템의 내부 구성을 설명하기 위한 블록도이다.
도 8은 본 발명의 일실시예에 있어서, 음성 인식 방법을 도시한 흐름도이다.
도 9는 본 발명의 다른 실시예에 있어서, 음성 인식 시스템의 내부 구성을 설명하기 위한 블록도이다.
도 10은 본 발명의 다른 실시예에 있어서, 음성 인식 방법을 도시한 흐름도이다.
도 11은 본 발명의 또 다른 실시예에 있어서, 음성 인식 시스템의 내부 구성을 설명하기 위한 블록도이다.
도 12는 본 발명의 또 다른 실시예에 있어서, 음성 인식 방법을 도시한 흐름도이다.
도 13은 본 발명의 또 다른 실시예에 있어서, 사용자에 의해 선택된 단어의 후보 단어를 표시한 화면의 일례이다.
도 2는 본 발명의 일실시예에 있어서, 사용자 단말기의 디스플레이 화면에 단어열이 표시된 모습을 나타낸 일례이다.
도 3은 본 발명의 일실시예에 있어서, 사용자 단말기의 디스플레이 화면에서 사용자의 선택에 따라 표시된 단어를 후보 단어로 변경하여 표시한 모습을 도시한 일례이다.
도 4는 본 발명의 일실시예에 있어서, 사용자 인터페이스를 이용하여 표시된 단어열을 전부 삭제하는 모습을 도시한 일례이다.
도 5는 본 발명의 일실시예에 있어서, 사용자 단말기에서 서명을 제공하는 모습을 도시한 일례이다.
도 6은 본 발명의 일실시예에 있어서, 소리 신호에 대해 검색된 단어들을 나타낸 도면이다.
도 7은 본 발명의 일실시예에 있어서, 음성 인식 시스템의 내부 구성을 설명하기 위한 블록도이다.
도 8은 본 발명의 일실시예에 있어서, 음성 인식 방법을 도시한 흐름도이다.
도 9는 본 발명의 다른 실시예에 있어서, 음성 인식 시스템의 내부 구성을 설명하기 위한 블록도이다.
도 10은 본 발명의 다른 실시예에 있어서, 음성 인식 방법을 도시한 흐름도이다.
도 11은 본 발명의 또 다른 실시예에 있어서, 음성 인식 시스템의 내부 구성을 설명하기 위한 블록도이다.
도 12는 본 발명의 또 다른 실시예에 있어서, 음성 인식 방법을 도시한 흐름도이다.
도 13은 본 발명의 또 다른 실시예에 있어서, 사용자에 의해 선택된 단어의 후보 단어를 표시한 화면의 일례이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 있어서, 사용자 단말기 및 음성 인식 서버를 나타낸 도면이다. 도 1은 사용자 단말기(110) 및 음성 인식 서버(120)를 나타내고 있다.
사용자 단말기(110)는 입력 장치를 통해 소리 신호를 입력받아, 음성 인식 서버(120)로 전송할 수 있다. 이때, 음성 인식 서버(120)는 수신된 소리 신호에 대응하는 음성 인식 결과를 생성하여 사용자 단말기(110)로 전송할 수 있다.
사용자 단말기(110)는 음성 인식 서버(120)를 통해 수신된 음성 인식 결과가 포함하는 단어열과 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어를 확인할 수 있고, 확인된 단어열을 디스플레이 장치를 통해 표시하되, 후보 단어가 존재하는 적어도 하나의 단어는 단어열의 나머지 단어들과 구분되도록 표시할 수 있다.
도 2는 본 발명의 일실시예에 있어서, 사용자 단말기의 디스플레이 화면에 단어열이 표시된 모습을 나타낸 일례이다. 도 2에 나타난 디스플레이 화면(200)은 도 1을 통해 설명한 사용자 단말기(110)의 디스플레이 화면 중 일부에 대응될 수 있다. 여기서, 디스플레이 화면(200)에는 "안드로이드 폰 추천좀 해조요"와 같이 음성 인식 결과가 포함하는 단어열이 표시되어 있다. 이때, 단어열에 포함된 단어 중 후보 단어를 가지고 있는 단어는 단어열에 포함된 다른 단어들과 구별되어 표시될 수 있다. 즉, 도 2에서는 후보 단어가 존재하는 단어 "안드로이드", "좀" 및 "해조요"가 후보 단어가 존재하지 않는 단어 "폰" 및 "추천"과는 구별되도록 밑줄과 함께 표시된 모습을 나타낸다.
다시 도 1을 참조하면, 사용자 단말기(110)는 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어를 후보 단어로 변경하여 표시할 수 있다. 여기서, 단어가 사용자에 의해 선택되는 것은 사용자 단말기(110)가 제공하는 사용자 인터페이스를 통해 해당 단어가 선택되는 것을 의미할 수 있다. 예를 들어, 사용자가 터치 패드에서 해당 단어가 표시된 위치를 터치함으로써, 해당 단어가 사용자에 의해 선택될 수 있다.
도 3은 본 발명의 일실시예에 있어서, 사용자 단말기의 디스플레이 화면에서 사용자의 선택에 따라 표시된 단어를 후보 단어로 변경하여 표시한 모습을 도시한 일례이다. 도 3에 나타난 디스플레이 화면들(310 내지 330)은 각각 도 1을 통해 설명한 사용자 단말기(110)의 디스플레이 화면 중 일부에 대응될 수 있다.
우선, 디스플레이 화면(310)에는 "안드로이드 폰 추천좀 해조요"와 같이 최초 음성 인식 결과가 포함하는 단어열이 표시되어 있다. 이때, 사용자가 단어 "해조요"를 선택하는 경우, 디스플레이 화면(320)에서와 같이 단어 "해조요"가 후보 단어 "해줘요"로 변경되어 표시될 수 있다. 이 경우, 변경되어 표시된 단어 "해줘요" 역시 후보 단어가 존재하지 않는 다른 단어들과 구분하기 위해 밑줄이 표시될 수 있다.
도 3에서는 단어를 구분하기 위해 밑줄을 이용하였으나, 밑줄은 하나의 일례일 뿐, 글자 크기, 글자 색상 또는 글자 모양 등을 서로 다르게 표시하는 방법과 같이 단어들을 구분 가능한 모든 방법 중 적어도 하나의 방법이 이용될 수 있다.
사용자가 단어 "해줘요"를 다시 선택하는 경우에는 디스플레이 화면(330)과 같이 단어 "해줘요"가 그 다음 다른 후보 단어 "해 조요"로 변경되어 표시될 수 있다.
만약, 또 다른 후보 단어 "해 조요"가 존재하지 않는 경우에는 다시 디스플레이 화면(310)과 같이 원래 단어열이 포함하는 단어 "해조요"로 변경되어 표시될 수 있다.
이와 같이, 본 실시예들에서는 단어열에 포함된 단어들에 대한 후보 단어들의 리스트를 제공하는 대신 사용자의 선택에 따라 음성 인식의 후보 단어들이 순차적으로 변경되도록 할 수 있고, 이러한 후보 단어들은 음성 인식에 따른 신뢰도에 따라 정렬되어 신뢰도가 높은 순서로 표시될 수 있다. 이때, 대부분의 경우, 한 두 번의 변경을 통해 사용자가 의도한 단어가 표시될 확률이 매우 높기 때문에, 후보 단어들의 리스트를 제공하는 것보다 효율적으로 사용자에게 음성 인식을 통한 딕테이션(dictation)을 제공할 수 있다. 여기서, 음성 인식에 따른 단어들의 신뢰도를 계산하는 방법은 이미 잘 알려져 있으며, 이러한 이미 알려진 다양한 방법들 중 하나가 단어들의 신뢰도를 계산하는데 이용될 수 있다.
또한, 도 3에서 사용자 인터페이스 "편집하기"를 통해 사용자가 해당 단어를 직접 편집할 수 있는 기능을 제공할 수 있다.
다시 도 1을 참조하면, 사용자 단말기(110)는 표시된 단어열을 전부 삭제하기 위한 사용자 인터페이스를 제공할 수 있다. 즉, 표시된 단어열 전체를 한번에 삭제할 수 있는 사용자 인터페이스를 제공함으로써, 표시된 단어열이 전혀 엉뚱한 결과인 경우 사용자가 직접 문장을 입력하거나 또는 다시 음성 인식 과정을 진행하도록 할 수 있다.
도 4는 본 발명의 일실시예에 있어서, 사용자 인터페이스를 이용하여 표시된 단어열을 전부 삭제하는 모습을 도시한 일례이다. 도 4에 나타난 디스플레이 화면들(410 및 420)은 각각 도 1을 통해 설명한 사용자 단말기(110)의 디스플레이 화면 중 일부에 대응될 수 있다.
디스플레이 화면(410)은 음성 인식 결과가 포함하는 단어열이 표시된 모습을 나타내고 있다. 이때, "지우기"(411)와 같이 사용자 단말기(110)가 제공하는 사용자 인터페이스를 통해 사용자가 이벤트를 발생시키는 경우, 디스플레이 화면(420)에서와 같이 표시된 단어열이 전부 삭제될 수 있다. 즉, "궁금증 해소의 소실 30분 도착"과 같이 사용자가 의도한 문장(단어열)과 전혀 다른 문장이 표시되는 경우, 사용자는 이러한 문장을 편집하기 보다, 사용자 자신이 문장을 직접 입력하거나 또는 새로 음성 인식 과정이 수행되기를 원할 수 있다.
이러한 경우, 본 실시예들에 따른 사용자 단말기(110)는 "지우기"(411)와 같은 사용자 인터페이스를 사용자에게 제공하고, 사용자가 "지우기"(411)를 터치하는 등의 이벤트를 발생시키는 경우, 표시된 문장 전체를 삭제할 수 있다.
다시 도 1을 참조하면, 사용자 단말기(110)는 음성 인식을 통해 작성된 문장(단어열)에 음성 인식에 대한 서명을 포함시킬 수 있다. 여기서, 음성 인식에 대한 서명은 해당 문장이 음성 인식을 통해 작성되었음을 나타낼 수 있다. 예를 들어, 사용자가 음성 인식을 통해 작성된 문장을 SMS나 이메일 등을 이용하여 다른 사용자에게 제공하는 경우, 다른 사용자는 해당 문장에 오타 또는 오류가 존재하더라도, 이러한 문장이 음성 인식을 통해 작성되었음을 바로 확인할 수 있다.
도 5는 본 발명의 일실시예에 있어서, 사용자 단말기에서 서명을 제공하는 모습을 도시한 일례이다. 도 5에 나타난 디스플레이 화면(510)은 도 1을 통해 설명한 사용자 단말기(110)의 디스플레이 화면 중 일부에 대응될 수 있다.
이때, 디스플레이 화면(510)은 "안드로이드 폰으로 영화를 보려고 합니다. By Speech"와 같이 단어열 "안드로이드 폰으로 영화를 보려고 합니다." 뿐만 아니라 서명 "By Speech"를 함께 표시하고 있다. 즉, 이러한 서명을 통해 해당 단어열이 음성 인식을 통해 작성된 문장임을 사용자들이 쉽게 파악할 수 있게 된다.
다시 도 1을 참조하면, 음성 인식 서버(120)는 상술한 바와 같이 사용자 단말기(110)를 통해 수신한 소리 신호에 대응하는 단어열 및 후보 단어를 결정하여 음성 인식 결과로서 사용자 단말기(110)로 제공할 수 있다. 이때, 음성 인식 서버(120)는 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열을 찾고, 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열을 음성 인식 결과에 포함될 단어열로서 선택할 수 있다. 또한, 음성 인식 서버(120)는 적어도 하나의 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어를 음성 인식 결과에 포함될 후보 단어로서 선택할 수 있다. 이 경우, 다른 단어들 중 적어도 하나의 단어는, 다른 단어들 각각에 대해 계산되는 신뢰도(confidence)에 기초하여 선택될 수 있고, 시간 범위는 인식이 시작된 시각 및 인식이 끝난 시각 그리고 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정될 수 있다.
도 6은 본 발명의 일실시예에 있어서, 소리 신호에 대해 검색된 단어들을 나타낸 도면이다. 도 6에서 화살표(610)는 시간의 흐름을 나타내고, 네모상자의 길이는 해당 단어가 인식된 시간 범위를 나타낼 수 있다. 이때, 서로 다른 시간 범위에 인식되는 동일한 단어들 즉, 도 6에서 "딸기" (1)과 "딸기" (2) 그리고 "즙" (1)과 "즙" (2)는 시작 시각은 동일하지만 끝나는 시간이 서로 다르며, 음성 인식기에서는 확률적으로 해당 시간대에서 가장 확률이 높은 단어를 찾았을 때 우연히 동일한 단어가 된 경우이다.
우선, 사용자의 발화 내용이 "딸기주"라고 가정한다. 즉, 사용자가 "딸기주"를 발화하여 도 1의 사용자 단말기(110)가 입력 장치를 통해 "딸기주"가 포함된 소리 신호를 입력받아 음성 인식 서버(120)로 전송하면, 음성 인식 서버(120)는 소리 신호를 분석하여 모든 가능한 단어열을 확인하여 가장 높은 확률을 갖는 단어열을 선택할 수 있다. 이때, 도 6에서는 가장 높은 확률을 갖는 단어열로서, 단어 "딸기" (1)와 단어 "즙" (2)이 결합된 "딸기즙"이 선택된 경우를 나타내고 있다.
이 경우, 음성 인식 서버(120)는 가장 높은 확률을 갖는 단어열에 포함된 단어 "딸기" (1)와 "즙" (2) 각각에 대한 후보 단어를 결정할 수 있다. 즉, "딸기" (1)와 "즙" (2) 각각에 대한 해당 시간 범위내에 포함된 다른 단어들에 대해서 각 단어의 신뢰도를 계산하고, 신뢰도 순으로 n개의 단어를 후보 단어로서 추출할 수 있다. 여기서 해당 시간 범위는 인식이 시작된 시각 및 인식이 끝난 시각 그리고 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정될 수 있다.
예를 들어, 단어 "즙" (2)에 대한 후보 단어를 구하기 위해, 음성 인식 서버(120)는 단어 "즙" (2)에 대해 결정된 시간 범위 내에 포함된 다른 단어를 확인할 수 있다. 이때, 시간 범위 내에 포함된 다른 단어는 단어 "즙" (2)의 인식이 끝난 시각에 기선정된 허용 시간값을 부여한 시각 그리고 "즙" (2)의 인식이 시작된 시각의 시간 범위 내에 포함되면서 시작 시간이 동일한 단어들을 포함할 수 있다. 이때, 허용 시간값은 30ms와 같이 음성 인식 서버(120)에 의해 결정될 수 있다.
이때, 시작 시각은 동일하나 끝난 시간이 "즙" (2)의 인식이 끝난 시간보다 기선정된 허용 시간값 이상으로 짧고, 해당 시간 범위 내에 또 다른 단어가 인식된 경우에는 인식된 각 단어를 결합하여 하나의 후보 단어로서 결정할 수도 있다.
즉, 상술한 일례에서는 단어 "즙" (1) 및 단어 "스"가 결합되어 하나의 단어 "즙스"로서 "즙" (2)의 후보 단어로서 선택되는 경우나 단어 "즙" (1) 및 단어 "소스"가 결합되어 하나의 단어 "즙 소스"로서 "즙" (2)의 후보 단어로 선택되는 경우를 예로 들 수 있다. 또한, 단어 "주" 및 "쥬" 그리고 "주스"가 단어 "즙" (2)의 후보 단어로서 선택될 수 있다. 즉, 도 6에서는 단어 "즙" (1)과 단어 "슈"가 결합된 "즙슈"만이 시간 범위를 벗어나는 관계로 후보 단어로 선택되지 못한 일례를 나타내고 있다. 만약, 허용 시간값을 줄여 시간 범위를 더 줄인다면, 후보 단어의 선택을 위한 범위는 더 줄어들 수도 있다.
이때, 선택된 후보 단어가 신뢰도의 순서로 "주", "즙 소스", "주스", "쥬" 및 "즙스"의 순서를 갖는다면, 선택된 후보 단어들은 신뢰도의 순서에 따라 음성 인식 결과에 포함될 수 있다.
즉, 도 1 및 도 6을 함께 참조하면, 사용자 단말기(110)는 디스플레이 장치를 통해 "딸기즙"을 표시할 수 있다. 이 경우에도 물론 후보 단어가 존재하는 단어와 후보 단어가 존재하지 않는 단어는 서로 구분되어 표시될 수 있다. 이때 단어 "즙"이 사용자에 의해 선택되는 경우, 단어 "즙"은 첫 번째 순서로 결정된 단어 "주"로 변경되어 표시될 수 있다. 또한, 변경된 단어 "주"가 다시 사용자에게 선택되는 경우에는 단어 "주"가 두 번째 순서로 결정된 단어 "즙 소스"로 변경되어 표시될 수 있다. 더 이상 변경할 후보 단어가 없는 경우에는 다시 최초 표시되었던 단어 "즙"이 사용자에게 표시하거나 사용자가 직접 해당 단어를 편집할 수 있는 기능이 제공될 수 있다.
이와 같이, 사용자는 전체 후보 단어의 목록에서 원하는 단어를 찾는 것이 아니라 선택을 통해 다음 후보 단어를 확인할 수 있게 된다. 이미 상술한 바와 같이, 신뢰도를 바탕으로 후보 단어를 선정하면, 대부분의 경우, 한 두 번의 선택을 통해 사용자가 의도한 단어가 표시되기 때문에 사용자는 전체 후보 단어를 살펴볼 필요 없이 단어열에서 특정 단어를 의도하는 단어로 쉽고 빠르게 편집할 수 있게 된다.
도 7은 본 발명의 일실시예에 있어서, 음성 인식 시스템의 내부 구성을 설명하기 위한 블록도이다. 이러한 음성 인식 시스템(700)은 도 7에 도시된 바와 같이 음성 인식 결과 확인부(730) 및 단어열 표시부(740)를 포함할 수 있고, 필요에 따라 선택적으로 소리 신호 전송부(710) 및 음성 인식 결과 수신부(720)를 포함할 수 있다. 이때, 음성 인식 시스템(700)이 소리 신호 전송부(710) 및 음성 인식 결과 수신부(720)를 포함하는 경우, 음성 인식 시스템(700)은 도 1을 통해 설명한 사용자 단말기(110)에 대응될 수 있다.
소리 신호 전송부(710)는 입력 장치를 통해 입력되는 소리 신호를 음성 인식 서버로 전송한다. 예를 들어, 사용자의 발화에 따른 소리 신호가 마이크와 같은 입력 장치를 통해 음성 인식 시스템(700)으로 입력될 수 있고, 소리 신호 전송부(710)는 이러한 소리 신호를 음성 인식 서버로 전송할 수 있다. 여기서, 음성 인식 서버는 도 1을 통해 설명한 음성 인식 서버(120)에 대응할 수 있다.
음성 인식 결과 수신부(720)는 소리 신호에 대응하는 음성 인식 결과를 음성 인식 서버를 통해 수신한다. 여기서, 단어열은 음성 인식 서버에서 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열로서 선택될 수 있다. 또한, 후보 단어는, 상기 음성 인식 서버에서 상기 적어도 하나의 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에 상기 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어로서 선택될 수 있다. 이때, 다른 단어들 중 적어도 하나의 단어는 다른 단어들 각각에 대해 계산되는 신뢰도(confidence)에 기초하여 선택될 수 있고, 시간 범위는 인식이 시작된 시각 및 인식이 끝난 시각 그리고 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정될 수 있다.
음성 인식 결과 확인부(730)는 음성 인식 결과로서, 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 단어열 및 후보 단어를 확인한다. 즉, 음성 인식 서버로부터 음성 인식 결과가 수신되는 등의 과정을 통해 음성 인식 시스템(700)에 음성 인식 결과가 제공되면, 음성 인식 시스템(700)은 음성 인식 결과 확인부(730)를 통해 이러한 제공된 음성 인식 결과에서 단어열과 후보 단어를 확인할 수 있다.
단어열 표시부(740)는 단어열을 디스플레이 장치를 통해 표시하되, 후보 단어가 존재하는 적어도 하나의 단어를 단어열의 나머지 단어와 구분하여 표시한다. 이때, 단어열 표시부(740)는 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어를 후보 단어로 변경하여 표시한다. 만약, 또 다른 후보 단어가 존재하고, 변경된 후보 단어가 다시 사용자에 의해 선택되는 경우, 변경된 후보 단어는 다시 또 다른 후보 단어로 변경될 수 있다.
또한, 음성 인식 시스템(700)은 표시된 단어열의 전체 삭제를 위한 사용자 인터페이스를 제공하는 사용자 인터페이스부(미도시)를 더 포함할 수 있다. 이 경우, 단어열 표시부(740)는 사용자 인터페이스를 통해 사용자 입력이 발생하는 경우, 표시된 단어열을 전부 삭제할 수 있다.
또한, 단어열이 디스플레이 장치를 통해 표시되는 경우, 또는 단어열이 다른 기기로 전송되는 경우, 단어열이 음성 인식을 통해 제공되었음을 나타내는 서명이 단어열과 함께 표시 또는 전송될 수 있다.
도 8은 본 발명의 일실시예에 있어서, 음성 인식 방법을 도시한 흐름도이다. 본 실시예에 따른 음성 인식 방법은 도 7을 통해 설명한 음성 인식 시스템(700)에 의해 수행될 수 있다. 도 8에서는 음성 인식 시스템(700)에 의해 각각의 단계가 수행되는 과정을 설명함으로써, 본 실시예에 따른 음성 인식 방법을 설명한다. 이 경우에도 단계(810) 및 단계(820)은 필요에 따라 선택적으로 음성 인식 시스템(700)에 의해 수행될 수 있다.
단계(810)에서 음성 인식 시스템(700)은 입력 장치를 통해 입력되는 소리 신호를 음성 인식 서버로 전송한다. 예를 들어, 사용자의 발화에 따른 소리 신호가 마이크와 같은 입력 장치를 통해 음성 인식 시스템(700)으로 입력될 수 있고, 음성 인식 시스템(700)은 이러한 소리 신호를 음성 인식 서버로 전송할 수 있다. 여기서, 음성 인식 서버는 도 1을 통해 설명한 음성 인식 서버(120)에 대응할 수 있다.
단계(820)에서 음성 인식 시스템(700)은 소리 신호에 대응하는 음성 인식 결과를 음성 인식 서버를 통해 수신한다. 여기서, 단어열은 음성 인식 서버에서 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열로서 선택될 수 있다. 또한, 후보 단어는, 상기 음성 인식 서버에서 상기 적어도 하나의 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에 상기 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어로서 선택될 수 있다. 이때, 다른 단어들 중 적어도 하나의 단어는 다른 단어들 각각에 대해 계산되는 신뢰도에 기초하여 선택될 수 있고, 시간 범위는 인식이 시작된 시각 및 인식이 끝난 시각 그리고 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정될 수 있다.
단계(830)에서 음성 인식 시스템(700)은 음성 인식 결과로서, 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 단어열 및 후보 단어를 확인한다. 즉, 음성 인식 서버로부터 음성 인식 결과가 수신되는 등의 과정을 통해 음성 인식 시스템(700)에 음성 인식 결과가 제공되면, 음성 인식 시스템(700)은 이러한 제공된 음성 인식 결과에서 단어열과 후보 단어를 확인할 수 있다.
단계(840)에서 음성 인식 시스템(700)은 단어열을 디스플레이 장치를 통해 표시하되, 후보 단어가 존재하는 적어도 하나의 단어를 단어열의 나머지 단어와 구분하여 표시한다. 이때, 음성 인식 시스템(700)은 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어를 후보 단어로 변경하여 표시한다. 만약, 또 다른 후보 단어가 존재하고, 변경된 후보 단어가 다시 사용자에 의해 선택되는 경우, 변경된 후보 단어는 다시 또 다른 후보 단어로 변경될 수 있다.
또한, 음성 인식 시스템(700)은 표시된 단어열의 전체 삭제를 위한 사용자 인터페이스를 제공하는 사용자 인터페이스부(미도시)를 더 포함할 수 있다. 이 경우, 음성 인식 시스템(700)은 사용자 인터페이스를 통해 사용자 입력이 발생하는 경우, 표시된 단어열을 전부 삭제할 수 있다.
또한, 단어열이 디스플레이 장치를 통해 표시되는 경우, 또는 단어열이 다른 기기로 전송되는 경우, 단어열이 음성 인식을 통해 제공되었음을 나타내는 서명이 단어열과 함께 표시 또는 전송될 수 있다.
도 9는 본 발명의 다른 실시예에 있어서, 음성 인식 시스템의 내부 구성을 설명하기 위한 블록도이다. 본 실시예에 따른 음성 인식 시스템(900)은 도 9에 도시된 바와 같이 음성 인식 결과 생성부(920) 및 음성 인식 결과 제공부(930)를 포함할 수 있고, 필요에 따라 선택적으로 소리 신호 수신부(910)를 포함할 수 있다. 이때, 음성 인식 시스템(900)이 소리 신호 수신부(910)를 포함하는 경우, 음성 인식 시스템(900)은 도 1을 통해 설명한 음성 인식 서버(120)에 대응될 수 있다.
소리 신호 수신부(910)는 단말기의 입력 장치를 통해 입력된 소리 신호를 단말기를 통해 수신한다. 여기서, 단말기는 사용자의 단말기로서 도 1을 통해 설명한 사용자 단말기(110)에 대응될 수 있다. 즉, 사용자 단말기(110)의 입력 장치를 통해 사용자가 발화한 소리 신호가 입력되면, 사용자 단말기(110)는 입력된 소리 신호를 음성 인식 시스템(900)으로 전송할 수 있고, 음성 인식 시스템(900)은 전송된 소리 신호를 수신할 수 있다.
음성 인식 결과 생성부(920)는 소리 신호에 대응하는 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어를 결정하여 음성 인식 결과로서 생성한다. 이때, 음성 인식 결과 생성부(920)는 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열을 음성 인식 결과에 포함될 단어열로서 선택할 수 있다. 또한, 음성 인식 결과 생성부(920)는 적어도 하나의 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어를 음성 인식 결과에 포함될 후보 단어로서 선택할 수 있다. 여기서, 다른 단어들 중 적어도 하나의 단어는, 다른 단어들 각각에 대해 계산되는 신뢰도에 기초하여 선택될 수 있고, 시간 범위는 인식이 시작된 시각 및 인식이 끝난 시각 그리고 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정될 수 있다.
음성 인식 결과 제공부(930)는 사용자의 단말기로 음성 인식 결과를 제공한다. 이때, 제공된 음성 인식 결과에 포함된 단어열은 단말기의 디스플레이 장치를 통해 표시되고, 후보 단어가 존재하는 적어도 하나의 단어는 단어열의 나머지 단어와 구분되어 표시된다. 또한, 구분하여 표시된 단어가 단말기에서 사용자에 의해 선택되는 경우, 구분하여 표시된 단어가 후보 단어로 변경되어 표시된다.
이러한 단말기에서, 표시된 단어열의 전체 삭제를 위한 사용자 인터페이스가 제공될 수 있고, 이때, 사용자 인터페이스를 통해 사용자 입력이 발생하는 경우, 표시된 단어열이 전부 삭제될 수 있다.
또한, 단어열이 디스플레이 장치를 통해 표시되는 경우, 또는 단어열이 단말기에서 다른 기기로 전송되는 경우, 단어열이 음성 인식을 통해 제공되었음을 나타내는 서명이 단어열과 함께 표시 또는 전송될 수 있다.
도 10은 본 발명의 다른 실시예에 있어서, 음성 인식 방법을 도시한 흐름도이다. 본 실시예에 따른 음성 인식 방법은 도 9을 통해 설명한 음성 인식 시스템(900)에 의해 수행될 수 있다. 도 10에서는 음성 인식 시스템(900)에 의해 각각의 단계가 수행되는 과정을 설명함으로써, 본 실시예에 따른 음성 인식 방법을 설명한다. 이 경우에도 단계(1010) 은 필요에 따라 선택적으로 음성 인식 시스템(700)에 의해 수행될 수 있다.
단계(1010)에서 음성 인식 시스템(900)은 단말기의 입력 장치를 통해 입력된 소리 신호를 단말기를 통해 수신한다. 여기서, 단말기는 사용자의 단말기로서 도 1을 통해 설명한 사용자 단말기(110)에 대응될 수 있다. 즉, 사용자 단말기(110)의 입력 장치를 통해 사용자가 발화한 소리 신호가 입력되면, 사용자 단말기(110)는 입력된 소리 신호를 음성 인식 시스템(900)으로 전송할 수 있고, 음성 인식 시스템(900)은 전송된 소리 신호를 수신할 수 있다.
단계(1020)에서 음성 인식 시스템(900)은 소리 신호에 대응하는 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어를 결정하여 음성 인식 결과로서 생성한다. 이때, 음성 인식 시스템(900)은 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열을 음성 인식 결과에 포함될 단어열로서 선택할 수 있다. 또한, 음성 인식 시스템(900)은 적어도 하나의 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어를 음성 인식 결과에 포함될 후보 단어로서 선택할 수 있다. 여기서, 다른 단어들 중 적어도 하나의 단어는, 다른 단어들 각각에 대해 계산되는 신뢰도에 기초하여 선택될 수 있고, 시간 범위는 인식이 시작된 시각 및 인식이 끝난 시각 그리고 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정될 수 있다.
단계(1030)에서 음성 인식 시스템(900)은 사용자의 단말기로 음성 인식 결과를 제공한다. 이때, 제공된 음성 인식 결과에 포함된 단어열은 단말기의 디스플레이 장치를 통해 표시되고, 후보 단어가 존재하는 적어도 하나의 단어는 단어열의 나머지 단어와 구분되어 표시된다. 또한, 구분하여 표시된 단어가 단말기에서 사용자에 의해 선택되는 경우, 구분하여 표시된 단어가 후보 단어로 변경되어 표시된다.
이러한 단말기에서, 표시된 단어열의 전체 삭제를 위한 사용자 인터페이스가 제공될 수 있고, 이때, 사용자 인터페이스를 통해 사용자 입력이 발생하는 경우, 표시된 단어열이 전부 삭제될 수 있다.
또한, 단어열이 디스플레이 장치를 통해 표시되는 경우, 또는 단어열이 단말기에서 다른 기기로 전송되는 경우, 단어열이 음성 인식을 통해 제공되었음을 나타내는 서명이 단어열과 함께 표시 또는 전송될 수 있다.
도 11은 본 발명의 또 다른 실시예에 있어서, 음성 인식 시스템의 내부 구성을 설명하기 위한 블록도이다. 본 실시예에 따른 음성 인식 시스템(1100)은 도 1에서 설명한 사용자 단말기(110) 및 음성 인식 서버(120)와는 달리 하나의 시스템에서 음성 인식 결과의 생성과 표시가 수행된다. 이러한 음성 인식 시스템(1100)은 도 11에 도시된 바와 같이 음성 인식 결과 확인부(1120) 및 단어열 표시부(1130)를 포함하고, 필요에 따라 선택적으로 음성 인식 결과 생성부(1110)를 포함할 수 있다.
여기서, 음성 인식 결과 생성부(1110)를 포함하지 않는 경우에는 도 7에서 음성 인식 시스템(700)이 소리 신호 전송부(710) 및 음성 인식 결과 수신부(720)를 포함하지 않는 경우와 동일하고, 음성 인식 결과 확인부(1120) 및 단어열 표시부(1130)는 음성 인식 결과 확인부(730) 및 단어열 표시부(740)와 동일하게 동작할 수 있기 때문에 음성 인식 결과 확인부(1120) 및 단어열 표시부(1130)에 대한 반복적인 설명은 생략한다.
음성 인식 결과 생성부(1110)는 입력 장치를 통해 입력되는 소리 신호에 대응하는 음성 인식 결과를 생성한다. 여기서, 음성 인식 결과를 생성하는 방법에 대해서는 이미 자세히 설명하였기 때문에 역시 반복적인 설명은 생략한다.
도 12는 본 발명의 또 다른 실시예에 있어서, 음성 인식 방법을 도시한 흐름도이다. 본 실시예에 따른 음성 인식 방법은 도 11을 통해 설명한 음성 인식 시스템(1100)을 통해 수행될 수 있다. 이때, 단계(1210)는 필요에 따라 음성 인식 시스템(1100)에 의해 수행될 수 있다.
여기서, 단계(1210)를 수행하지 않는 경우에는 도 8에서 음성 인식 시스템(700)이 단계(810) 및 단계(820)를 수행하지 않는 경우와 동일하고, 단계(1220) 및 단계(1230)는 단계(830) 및 단계(840)와 동일하기 때문에 단계(1220) 및 단계(1230) 에 대한 반복적인 설명은 생략한다.
단계(1210)에서 음성 인식 시스템(1100)은 입력 장치를 통해 입력되는 소리 신호에 대응하는 음성 인식 결과를 생성한다. 여기서, 음성 인식 결과를 생성하는 방법에 대해서는 이미 자세히 설명하였기 때문에 역시 반복적인 설명은 생략한다.
도 7 내지 도 12에서 생략된 내용은 도 1 내지 도 6을 참조할 수 있다.
본 발명의 또 다른 실시예에 따른 음성 인식 시스템 및 음성 인식 방법에서는 후보 단어를 리스트의 형태로 사용자에게 제공할 수도 있다. 예를 들어, 도 1을 통해 설명한 사용자 단말기(110)에 대응될 수 있는 음성 인식 시스템은 입력 장치를 통해 입력되는 소리 신호를 음성 인식 서버로 전송하고, 소리 신호에 대응하는 음성 인식 결과를 음성 인식 서버를 통해 수신할 수 있다. 이때, 음성 인식 시스템은 음성 인식 결과로서, 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 단어열 및 후보 단어를 확인하여 단어열을 디스플레이 장치를 통해 표시하되, 후보 단어가 존재하는 적어도 하나의 단어를 단어열의 나머지 단어와 구분하여 표시할 수 있다.
이때, 음성 인식 시스템은 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어에 대한 후보 단어들을 리스트의 형태로 표시할 수 있다. 일례로 도 7의 단어열 표시부(740)는 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어의 후보 단어 중 적어도 하나의 후보 단어를 포함하는 리스트를 표시할 수 있다. 이 경우, 단어열 표시부(740)는 구분하여 표시된 단어를 표시된 리스트에서 사용자에 의해 선택되는 후보 단어로 변경하여 표시할 수 있다. 이는 다른 실시예들에서도 동일하게 적용될 수 있다.
도 13은 본 발명의 또 다른 실시예에 있어서, 사용자에 의해 선택된 단어의 후보 단어를 표시한 화면의 일례이다. 여기서, 디스플레이 화면(1300)은 사용자에 의해 선택된 단어 '해조요'(1310)와 단어 '해조요'(1310)의 후보 단어들(1320 내지 1350)를 나타내고 있다. 사용자는 이와 같이 제시된 후보 단어들(1320 내지 1350) 중에서 단어 '해조요'(1310)를 대체하기 위한 후보 단어를 선택할 수 있다. 예를 들어, 도 13의 일례에서 사용자는 후보 단어 '해줘요'(1320)를 선택할 수 있고, 이 경우, 음성 인식 시스템은 단어 '해조요'(1310)를 후보 단어 '해줘요'(1320)로 변경하여 표시할 수 있다.
이와 같이, 음성 인식 시스템은 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어에 대한 후보 단어들을 리스트의 형태로 표시하고, 표시된 후보 단어들 중 사용자에 의해 선택된 후보 단어를, 처음 구분하여 표시된 단어 중 사용자에 의해 선택된 단어와 변경하여 표시할 수 있다.
본 발명의 실시예들에 따르면, 사용자에게 음성 인식 결과에 따른 문자열을 표시하여 사용자에게 제공하되, 후보 단어가 존재하는 단어를 문자열 상의 다른 단어들과 구분하여 표시하고, 후보 단어가 존재하는 단어에 대한 사용자의 선택에 따라 해당 단어를 후보 단어로 변경하여 표시함으로써, 단 한번의 선택으로 사용자가 음성 인식 결과를 단어별로 수정할 수 있다. 또한, 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열을 선택하고, 선택된 단어열에 포함된 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에서 소리 신호에 대해 인식된 다른 단어들 중에서 다른 단어들 각각에 대해 계산되는 신뢰도를 이용하여 선택되는 적어도 하나의 단어를 후보 단어로서 설정함으로써, 보다 정확한 단어별 결과를 제공할 수 있다. 뿐만 아니라, 표시된 단어열 전체를 한번에 삭제할 수 있는 사용자 인터페이스를 제공함으로써, 표시된 단어열이 전혀 엉뚱한 결과인 경우 사용자가 직접 문장을 입력하거나 또는 다시 음성 인식 과정을 진행하도록 할 수 있으며, 음성 인식을 통해 작성되는 문장인 단어열에 대해, 해당 단어열이 음성 인식을 통해 작성되었음을 나타내는 서명을 단어열과 함께 표시 또는 전송함으로써, 표시된 단어열을 확인하는 사용자 또는 이러한 단어열을 SMS, 이메일 등으로 전송받은 사용자가 해당 단어열이 음성 인식을 통해 작성되었음을 확인할 수 있다.
본 발명의 실시예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 또한, 상술한 파일 시스템은 컴퓨터 판독이 가능한 기록 매체에 기록될 수 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
110: 사용자 단말기
120: 음성 인식 서버
120: 음성 인식 서버
Claims (24)
- 음성 인식 결과로서, 단어열 및 상기 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 상기 단어열 및 상기 후보 단어를 확인하는 음성 인식 결과 확인부; 및
상기 단어열을 디스플레이 장치를 통해 표시하되, 상기 후보 단어가 존재하는 적어도 하나의 단어를 상기 단어열의 나머지 단어와 구분하여 표시하는 단어열 표시부
를 포함하고,
상기 단어열 표시부는,
상기 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 상기 구분하여 표시된 단어를 상기 후보 단어로 변경하여 표시하는 것을 특징으로 하는, 음성 인식 시스템. - 제1항에 있어서,
상기 표시된 단어열의 전체 삭제를 위한 사용자 인터페이스를 제공하는 사용자 인터페이스부
를 더 포함하고,
상기 단어열 표시부는,
상기 사용자 인터페이스를 통해 사용자 입력이 발생하는 경우, 상기 표시된 단어열을 전부 삭제하는 것을 특징으로 하는, 음성 인식 시스템. - 제1항에 있어서,
상기 단어열이 상기 디스플레이 장치를 통해 표시되는 경우, 또는 상기 단어열이 다른 기기로 전송되는 경우, 상기 단어열이 음성 인식을 통해 제공되었음을 나타내는 서명이 상기 단어열과 함께 표시 또는 전송되는 것을 특징으로 하는, 음성 인식 시스템. - 제1항에 있어서,
입력 장치를 통해 입력되는 소리 신호를 음성 인식 서버로 전송하는 소리 신호 전송부; 및
상기 소리 신호에 대응하는 상기 음성 인식 결과를 상기 음성 인식 서버를 통해 수신하는 음성 인식 결과 수신부
를 더 포함하는, 음성 인식 시스템. - 제1항에 있어서,
입력 장치를 통해 입력되는 소리 신호에 대응하는 상기 음성 인식 결과를 생성하는 음성 인식 결과 생성부
를 더 포함하는, 음성 인식 시스템. - 제1항에 있어서,
상기 단어열은, 상기 음성 인식 서버에서 상기 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열로서 선택되는 것을 특징으로 하는, 음성 인식 시스템. - 제1항에 있어서,
상기 후보 단어는, 상기 음성 인식 서버에서 상기 적어도 하나의 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에 상기 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어로서 선택되는 것을 특징으로 하는, 음성 인식 시스템. - 제7항에 있어서,
상기 다른 단어들 중 적어도 하나의 단어는, 상기 다른 단어들 각각에 대해 계산되는 신뢰도(confidence)에 기초하여 선택되는 것을 특징으로 하는, 음성 인식 시스템. - 제7항에 있어서,
상기 시간 범위는 상기 인식이 시작된 시각 및 상기 인식이 끝난 시각 그리고 상기 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정되는 것을 특징으로 하는, 음성 인식 시스템. - 소리 신호에 대응하는 단어열 및 상기 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어를 결정하여 음성 인식 결과로서 생성하는 음성 인식 결과 생성부; 및
사용자의 단말기로 상기 음성 인식 결과를 제공하는 음성 인식 결과 제공부
를 포함하고,
상기 단말기의 디스플레이 장치에서 상기 단어열이 표시되고,
상기 후보 단어가 존재하는 적어도 하나의 단어는 상기 단어열의 나머지 단어와 구분되어 표시되고,
상기 구분하여 표시된 단어가 상기 단말기에서 상기 사용자에 의해 선택되는 경우, 상기 구분하여 표시된 단어가 상기 후보 단어로 변경되어 표시되는 것을 특징으로 하는, 음성 인식 시스템. - 제10항에 있어서,
상기 단말기에서 상기 표시된 단어열의 전체 삭제를 위한 사용자 인터페이스가 제공되고,
상기 사용자 인터페이스를 통해 사용자 입력이 발생하는 경우, 상기 표시된 단어열이 전부 삭제되는 것을 특징으로 하는, 음성 인식 시스템. - 제10항에 있어서,
상기 단어열이 상기 디스플레이 장치를 통해 표시되는 경우, 또는 상기 단어열이 상기 단말기에서 다른 기기로 전송되는 경우, 상기 단어열이 음성 인식을 통해 제공되었음을 나타내는 서명이 상기 단어열과 함께 표시 또는 전송되는 것을 특징으로 하는, 음성 인식 시스템. - 제10항에 있어서,
상기 단말기의 입력 장치를 통해 입력된 상기 소리 신호를 상기 단말기를 통해 수신하는 소리 신호 수신부
를 더 포함하는, 음성 인식 시스템. - 제10항에 있어서,
상기 음성 인식 결과 생성부는,
상기 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열을 상기 음성 인식 결과에 포함될 단어열로서 선택하는 것을 특징으로 하는, 음성 인식 시스템. - 제10항에 있어서,
상기 음성 인식 결과 생성부는,
상기 적어도 하나의 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에 상기 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어를 상기 음성 인식 결과에 포함될 후보 단어로서 선택하는 것을 특징으로 하는, 음성 인식 시스템. - 제15항에 있어서,
상기 다른 단어들 중 적어도 하나의 단어는, 상기 다른 단어들 각각에 대해 계산되는 신뢰도(confidence)에 기초하여 선택되는 것을 특징으로 하는, 음성 인식 시스템. - 제15항에 있어서,
상기 시간 범위는 상기 인식이 시작된 시각 및 상기 인식이 끝난 시각 그리고 상기 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정되는 것을 특징으로 하는, 음성 인식 시스템. - 음성 인식 결과로서, 단어열 및 상기 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 상기 단어열 및 상기 후보 단어를 확인하는 음성 인식 결과 확인부; 및
상기 단어열을 디스플레이 장치를 통해 표시하되, 상기 후보 단어가 존재하는 적어도 하나의 단어를 상기 단어열의 나머지 단어와 구분하여 표시하는 단어열 표시부
를 포함하고,
상기 단어열 표시부는,
상기 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 상기 구분하여 표시된 단어의 후보 단어 중 적어도 하나의 후보 단어를 포함하는 리스트를 표시하는 것을 특징으로 하는, 음성 인식 시스템. - 소리 신호에 대응하는 단어열 및 상기 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어를 결정하여 음성 인식 결과로서 생성하는 음성 인식 결과 생성부; 및
사용자의 단말기로 상기 음성 인식 결과를 제공하는 음성 인식 결과 제공부
를 포함하고,
상기 단말기의 디스플레이 장치에서 상기 단어열이 표시되고,
상기 후보 단어가 존재하는 적어도 하나의 단어는 상기 단어열의 나머지 단어와 구분되어 표시되고,
상기 구분하여 표시된 단어가 상기 단말기에서 상기 사용자에 의해 선택되는 경우, 상기 구분하여 표시된 단어의 후보 단어 중 적어도 하나의 후보 단어를 포함하는 리스트가 표시되는 것을 특징으로 하는, 음성 인식 시스템. - 음성 인식 결과로서, 단어열 및 상기 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 상기 단어열 및 상기 후보 단어를 확인하는 단계; 및
상기 단어열을 디스플레이 장치를 통해 표시하되, 상기 후보 단어가 존재하는 적어도 하나의 단어를 상기 단어열의 나머지 단어와 구분하여 표시하는 단계
를 포함하고,
상기 표시하는 단계는,
상기 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 상기 구분하여 표시된 단어를 상기 후보 단어로 변경하여 표시하는 것을 특징으로 하는, 음성 인식 방법. - 소리 신호에 대응하는 단어열 및 상기 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어를 결정하여 음성 인식 결과로서 생성하는 단계; 및
사용자의 단말기로 상기 음성 인식 결과를 제공하는 단계
를 포함하고,
상기 단말기의 디스플레이 장치에서 상기 단어열이 표시되고,
상기 후보 단어가 존재하는 적어도 하나의 단어는 상기 단어열의 나머지 단어와 구분되어 표시되고,
상기 구분하여 표시된 단어가 상기 단말기에서 상기 사용자에 의해 선택되는 경우, 상기 구분하여 표시된 단어가 상기 후보 단어로 변경되어 표시되는 것을 특징으로 하는, 음성 인식 방법. - 음성 인식 결과로서, 단어열 및 상기 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 상기 단어열 및 상기 후보 단어를 확인하는 단계; 및
상기 단어열을 디스플레이 장치를 통해 표시하되, 상기 후보 단어가 존재하는 적어도 하나의 단어를 상기 단어열의 나머지 단어와 구분하여 표시하는 단계
를 포함하고,
상기 표시하는 단계는,
상기 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 상기 구분하여 표시된 단어의 후보 단어 중 적어도 하나의 후보 단어를 포함하는 리스트를 표시하는 것을 특징으로 하는, 음성 인식 방법. - 소리 신호에 대응하는 단어열 및 상기 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어를 결정하여 음성 인식 결과로서 생성하는 단계; 및
사용자의 단말기로 상기 음성 인식 결과를 제공하는 단계
를 포함하고,
상기 단말기의 디스플레이 장치에서 상기 단어열이 표시되고,
상기 후보 단어가 존재하는 적어도 하나의 단어는 상기 단어열의 나머지 단어와 구분되어 표시되고,
상기 구분하여 표시된 단어가 상기 단말기에서 상기 사용자에 의해 선택되는 경우, 상기 구분하여 표시된 단어의 후보 단어 중 적어도 하나의 후보 단어를 포함하는 리스트가 표시되는 것을 특징으로 하는, 음성 인식 방법. - 제20항 내지 제23항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110044613A KR101233561B1 (ko) | 2011-05-12 | 2011-05-12 | 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법 |
CN201210063752.3A CN102779511B (zh) | 2011-05-12 | 2012-03-12 | 基于单词级别的备选生成的语音识别系统及方法 |
US13/466,700 US9002708B2 (en) | 2011-05-12 | 2012-05-08 | Speech recognition system and method based on word-level candidate generation |
JP2012106776A JP5703256B2 (ja) | 2011-05-12 | 2012-05-08 | 単語レベルの変換候補生成に基づく音声認識システム及び方法 |
EP12167745A EP2523188A1 (en) | 2011-05-12 | 2012-05-11 | Speech recognition system and method based on word-level candidate generation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110044613A KR101233561B1 (ko) | 2011-05-12 | 2011-05-12 | 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120126641A true KR20120126641A (ko) | 2012-11-21 |
KR101233561B1 KR101233561B1 (ko) | 2013-02-14 |
Family
ID=46046025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110044613A KR101233561B1 (ko) | 2011-05-12 | 2011-05-12 | 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9002708B2 (ko) |
EP (1) | EP2523188A1 (ko) |
JP (1) | JP5703256B2 (ko) |
KR (1) | KR101233561B1 (ko) |
CN (1) | CN102779511B (ko) |
Families Citing this family (105)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
CN103366742B (zh) * | 2012-03-31 | 2018-07-31 | 上海果壳电子有限公司 | 语音输入方法及系统 |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
CN103076893B (zh) * | 2012-12-31 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 一种用于实现语音输入的方法与设备 |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
AU2014278592B2 (en) | 2013-06-09 | 2017-09-07 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
DE102015212413A1 (de) * | 2015-07-02 | 2017-01-05 | Volkswagen Aktiengesellschaft | Verfahren und Vorrichtung zum Auswählen eines Bestandteils einer Spracheingabe |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
CN106251869B (zh) | 2016-09-22 | 2020-07-24 | 浙江吉利控股集团有限公司 | 语音处理方法及装置 |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
EP3602542A2 (en) * | 2017-05-15 | 2020-02-05 | Apple Inc. | Multi-modal interfaces |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
KR102371313B1 (ko) * | 2017-05-29 | 2022-03-08 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법 |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07222248A (ja) | 1994-02-08 | 1995-08-18 | Hitachi Ltd | 携帯型情報端末における音声情報の利用方式 |
US5950160A (en) * | 1996-10-31 | 1999-09-07 | Microsoft Corporation | Method and system for displaying a variable number of alternative words during speech recognition |
US6006183A (en) * | 1997-12-16 | 1999-12-21 | International Business Machines Corp. | Speech recognition confidence level display |
DE19821422A1 (de) * | 1998-05-13 | 1999-11-18 | Philips Patentverwaltung | Verfahren zum Darstellen von aus einem Sprachsignal ermittelten Wörtern |
JP3369121B2 (ja) | 1999-05-20 | 2003-01-20 | 日本電気株式会社 | 音声認識方法および音声認識装置 |
KR20040008546A (ko) * | 2002-07-18 | 2004-01-31 | 엘지전자 주식회사 | 연속 음성인식 기기의 오인식 수정 방법 |
US8095364B2 (en) * | 2004-06-02 | 2012-01-10 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US8275618B2 (en) * | 2004-12-22 | 2012-09-25 | Nuance Communications, Inc. | Mobile dictation correction user interface |
US20060149551A1 (en) * | 2004-12-22 | 2006-07-06 | Ganong William F Iii | Mobile dictation correction user interface |
US20060293889A1 (en) * | 2005-06-27 | 2006-12-28 | Nokia Corporation | Error correction for speech recognition systems |
US8473295B2 (en) * | 2005-08-05 | 2013-06-25 | Microsoft Corporation | Redictation of misrecognized words using a list of alternatives |
US7941316B2 (en) * | 2005-10-28 | 2011-05-10 | Microsoft Corporation | Combined speech and alternate input modality to a mobile device |
US20070208567A1 (en) * | 2006-03-01 | 2007-09-06 | At&T Corp. | Error Correction In Automatic Speech Recognition Transcripts |
US7949536B2 (en) * | 2006-08-31 | 2011-05-24 | Microsoft Corporation | Intelligent speech recognition of incomplete phrases |
US8352261B2 (en) * | 2008-03-07 | 2013-01-08 | Canyon IP Holdings, LLC | Use of intermediate speech transcription results in editing final speech transcription results |
JP2009098490A (ja) | 2007-10-18 | 2009-05-07 | Kddi Corp | 音声認識結果編集装置、音声認識装置およびコンピュータプログラム |
US20090326938A1 (en) * | 2008-05-28 | 2009-12-31 | Nokia Corporation | Multiword text correction |
JP5244663B2 (ja) | 2009-03-18 | 2013-07-24 | Kddi株式会社 | 音声によってテキストを入力する音声認識処理方法及びシステム |
JP5364412B2 (ja) | 2009-03-26 | 2013-12-11 | 富士通テン株式会社 | 検索装置 |
US20100315266A1 (en) * | 2009-06-15 | 2010-12-16 | Microsoft Corporation | Predictive interfaces with usability constraints |
US8782556B2 (en) * | 2010-02-12 | 2014-07-15 | Microsoft Corporation | User-centric soft keyboard predictive technologies |
JP5642809B2 (ja) * | 2010-03-12 | 2014-12-17 | ニュアンス コミュニケーションズ, インコーポレイテッド | 携帯電話のタッチスクリーンとの使用等のためのマルチモーダルテキスト入力システム |
-
2011
- 2011-05-12 KR KR1020110044613A patent/KR101233561B1/ko active IP Right Grant
-
2012
- 2012-03-12 CN CN201210063752.3A patent/CN102779511B/zh active Active
- 2012-05-08 US US13/466,700 patent/US9002708B2/en active Active
- 2012-05-08 JP JP2012106776A patent/JP5703256B2/ja active Active
- 2012-05-11 EP EP12167745A patent/EP2523188A1/en not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
US9002708B2 (en) | 2015-04-07 |
KR101233561B1 (ko) | 2013-02-14 |
CN102779511A (zh) | 2012-11-14 |
EP2523188A1 (en) | 2012-11-14 |
JP2012237997A (ja) | 2012-12-06 |
CN102779511B (zh) | 2014-12-03 |
US20120290303A1 (en) | 2012-11-15 |
JP5703256B2 (ja) | 2015-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101233561B1 (ko) | 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법 | |
CN112216281B (zh) | 用于登记用户命令的显示装置和方法 | |
CN106098060B (zh) | 语音的纠错处理方法和装置、用于语音的纠错处理的装置 | |
US8275618B2 (en) | Mobile dictation correction user interface | |
CN107622054B (zh) | 文本数据的纠错方法及装置 | |
US11238854B2 (en) | Facilitating creation and playback of user-recorded audio | |
US8352261B2 (en) | Use of intermediate speech transcription results in editing final speech transcription results | |
US20190027147A1 (en) | Automatic integration of image capture and recognition in a voice-based query to understand intent | |
US20180060422A1 (en) | Method and apparatus for natural language query in a workspace analytics system | |
CN109791761B (zh) | 使用校正的术语的声学模型训练 | |
CN106251869B (zh) | 语音处理方法及装置 | |
CN113412514B (zh) | 用于设备上语音识别模型的训练的文本片段的设备上语音合成 | |
CN101876853B (zh) | 拼音输入方法及装置 | |
US9984689B1 (en) | Apparatus and method for correcting pronunciation by contextual recognition | |
JP2016529603A (ja) | オンライン音声翻訳方法及び装置 | |
CN103559880B (zh) | 语音输入系统和方法 | |
US20160275942A1 (en) | Method for Substantial Ongoing Cumulative Voice Recognition Error Reduction | |
CN102915733A (zh) | 交互式语音识别 | |
TW201606750A (zh) | 使用外國字文法的語音辨識 | |
CN102916815A (zh) | 用户身份验证的方法和装置 | |
WO2016136207A1 (ja) | 音声対話装置、音声対話システム、音声対話装置の制御方法、および、プログラム | |
KR101446468B1 (ko) | 자동완성 질의어 제공 시스템 및 방법 | |
US20160253313A1 (en) | Updating language databases using crowd-sourced input | |
CN109326284A (zh) | 语音搜索的方法、装置和存储介质 | |
US9697834B2 (en) | Text formatter with intuitive customization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
X091 | Application refused [patent] | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20151223 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20170117 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20180102 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20190102 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20200102 Year of fee payment: 8 |