KR20140112360A - 음성 인식의 단어 통합 시스템 및 단어군 추가 방법 - Google Patents

음성 인식의 단어 통합 시스템 및 단어군 추가 방법 Download PDF

Info

Publication number
KR20140112360A
KR20140112360A KR1020130113451A KR20130113451A KR20140112360A KR 20140112360 A KR20140112360 A KR 20140112360A KR 1020130113451 A KR1020130113451 A KR 1020130113451A KR 20130113451 A KR20130113451 A KR 20130113451A KR 20140112360 A KR20140112360 A KR 20140112360A
Authority
KR
South Korea
Prior art keywords
word
words
speech recognition
applications
unrecognized
Prior art date
Application number
KR1020130113451A
Other languages
English (en)
Other versions
KR102249687B1 (ko
Inventor
천싱 청
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20140112360A publication Critical patent/KR20140112360A/ko
Application granted granted Critical
Publication of KR102249687B1 publication Critical patent/KR102249687B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Abstract

음성 인식의 단어군 추가 방법은 프로세서를 이용해 복수의 음성 신호들을 복수의 단어들로 변환하는 단계, 상기 복수의 단어들에 신뢰도 점수들을 적용하는 단계, 분류 기준 및 각각의 단어에 대한 신뢰도 점수에 기초하여 상기 복수의 단어들을 복수의 분류들로 분류하는 단계, 상기 복수의 단어들의 적어도 하나의 상기 복수의 분류들에 기초하여 인식되지 않는지 여부를 판단하는 단계, 각각의 인식되지 않은 단어를 분류하는 단계 및 추가의 분류 기준에 기초하여 상기 인식되지 않은 단어에 대한 매치를 검출하는 단계, 및 인식되지 않은 단어에 대한 매치의 검출시, 상기 인식되지 않은 단어에 대응하여 상기 복수의 음성 신호들의 적어도 일 부분을 단어들로 변환하는 단계를 포함한다.

Description

음성 인식의 단어 통합 시스템 및 단어군 추가 방법{VOCABULARY INTEGRATION SYSTEM AND METHOD OF VOCABULARY INTEGRATION IN SPEECH RECOGNITION}
본 발명은 음성 인식에 관한 것으로서, 더욱 상세하게는 음성 인식과 3rd party 단어들의 통합에 관한 것이다.
본 출원은 2013년 3월 13일에 출원된 미국 출원번호 제13/802,390호 제목 "동적 대화 시스템 대리 통합"인 출원과 관련 있고, 그 전체가 참조에 의해 여기에 반영된다.
자동 음성 인식(ASR)은 발화된 음성을 일련의 단어들로 변환하는 데 사용된다. ASR은 받아쓰기와 같은, 사용자의 목적에 따라 사용된다. 전형적인 ASR 시스템들은 단어의 일반적인 세트(그 ASR 엔진이 인식할 수 있는 단어들)를 가지는 하나의 통로로 음성을 단어들로 변환한다.
본 발명은 음성 인식의 단어 통합 시스템 및 단어군 추가 방법을 제공하는 것을 목적으로 한다.
일 실시 예에 있어서, 음성 인식의 단어군 추가 방법이 제공된다.
일 실시 예는 프로세스를 이용해 복수의 음성 신호들을 복수의 단어들로 변환하는 단계 및 복수의 신뢰도 점수들을 상기 복수의 단어들에 적용하는 단계를 포함한다.
일 실시 예에 있어서, 상기 복수의 단어들은 분류 기준을 이용한 복수의 분류들 및 상기 복수의 단어들 각각에 대한 신뢰도 점수에 기초하여 분류된다.
일 실시 예에 있어서, 적어도 하나의 상기 복수의 분류들에 기초하여 인식되지 않는지 판단된다. 각각의 인식되지 않은 단어는 추가의 분류 기준에 기초하여 인식되지 않은 단어에 대한 일치를 검출하기 위해 분류된다.
일 실시 예에 있어서, 인식되지 않은 단어에 대한 매치의 검출시, 상기 인식되지 않은 단어에 대응하는 상기 복수의 음성 신호들의 적어도 일 부분은 복수의 인식된 단어들로 변환된다.
일 실시 예는 음성 인식의 단어 통합 시스템을 제공한다.
일 실시 예에 있어서, 전자 장치는 복수의 음성 신호들을 수신하기 위한 마이크로폰 및 상기 복수의 음성 신호들을 복수의 단어들로 변환하는 자동 음성 인식 (ASR) 엔진을 포함한다.
일 실시 예에 있어서, 상기 ASR 엔진은 단어 어플리케이션들을 통합하기 위한 단어 어플리케이션 인터페이스를 포함한다.
일 실시 예에 있어서, 상기 ASR 엔진을 이용한 제1음성 인식 통로로부터 기인된 복수의 인식되지 않은 단어들은 인식된 음성 결과를 제공하기 위해 제2음성 인식 통로를 위한 상기 ASR 엔진을 이용해 복수의 인식된 단어들로 변환된다.
다른 실시 예는 음성 인식의 단어 통합을 위한 컴퓨터 프로그램 생성물을 제공한다. 상기 컴퓨터 프로그램 생성물은 컴퓨터 시스템에 의해 판독될 수 있고 음성 신호들을 복수의 단어들로 변환할 수 있는 제1음성 인식 프로세스를 수행하는 단계를 포함하는 방법을 수행할 수 있는 상기 컴퓨터 시스템에 의한 실행을 위한 지시들을 저장하는 실체적인 저장 매체를 포함한다.
일 실시 예에 있어서, 상기 복수의 단어들은 분류 기준 및 상기 복수의 단어들 각각에 대한 신뢰도 점수를 이용하는 것에 의해 기초하여 분류된다.
일 실시 예에 있어서, 적어도 하나의 단어들이 상기 분류에 기초하여 인식되지 않을 때, 추가의 분류 기준이 수신된다.
일 실시 예에 있어서, 상기 적어도 하나의 인식되지 않은 단어들은 각각의 인식되지 않은 단어를 위한 복수의 신뢰도 점수들 및 추가의 분류 기준을 이용하는 것에 의해 기초하여 분류된다.
일 실시 예에 있어서, 상기 적어도 하나의 인식되지 않은 단어들에 대한 매치의 판단시, 제2음성 인식 프로세스가 상기 복수의 음성 신호들의 적어도 일 부분을 복수의 인식된 단어들로 변환하기 위해 수행된다.
상기 및 다른 장점들 및 측면들은 적어도 하나의 실시 예들의 원리들을 예를 드는 방법에 의해 설명하고 있는, 도면들과 함께, 이하의 상세한 설명으로부터 명백해질 것이다.
도 1은 일 실시 예에 따라, 전자 장치를 위한 음성 인식 단어 어플리케이션 통합을 위한 아키텍쳐 시스템의 블록도이다.
도 2는 일 실시 예에 따라, 전자 장치를 위한 음성 인식 단어 어플리케이션 통합을 위한 흐름도의 일 예이다.
도 3은 일 실시 예에 따라, 전자 장치를 위한 음성 인식 단어 어플리케이션 통합을 위한 시나리오의 일 예이다.
도 4는 일 실시 예에 따라, 전자 장치를 위한 음성 인식 단어 어플리케이션 통합을 위한 흐름도 시나리오의 일 예이다.
도 5는 일 실시 예에 따라, 전자 장치를 위한 음성 인식 단어 어플리케이션 통합을 위한 선형 분류의 일 예이다.
도 6은 일 실시 예에 따라, 전자 장치를 위한 음성 인식 단어 어플리케이션 통합을 위한 분류를 위한 흐름도의 다른 예이다.
도 7은 일 실시 예에 따라, 전자 장치를 위한 음성 인식 단어 어플리케이션 통합을 위한 2차 단어 어플리케이션을 이용하는 흐름도의 일 예이다.
도 8은 일 실시 예에 따라, 전자 장치를 위한 음성 인식 단어 어플리케이션 통합을 위한 흐름도의 일 예이다.
도 9는 일 실시 예를 구현하는 컴퓨팅 시스템을 포함하는 정보 처리 시스템을 보여주는 고차원 블록도이다.
이하의 상세한 설명은 적어도 하나의 실시 예들의 일반적인 원리들을 설명하기 위한 목적으로 만들어진 것이고 여기에 청구된 진보적인 개념들을 한정하기 위한 것은 아니다. 나아가, 여기에 설명되어진 특정한 특징들은 다양한 가능한 조합들 및 순열들로 다른 설명된 특징들과 조합되어 사용될 수 있다. 그렇지 않고 여기에 특별하게 정의되지 않는 한, 모든 용어들은 당업자에 의해 이해되는 의미 및/또는 사전, 논문 등에서 정의된 바와 같은 의미뿐만 아니라 상세한 설명으로부터 함축되는 의미를 포함하여 가능한 가장 넓게 해석되어야 한다.
적어도 하나의 실시 예들은 대체적으로 1차(예. 일반적인) 및 2차(예. 3rd party) 단어 어플리케이션들을 이용하는 음성 인식에 관련되어 있다.
일 실시 예에 있어서, 음성 인식 단어 어플리케이션 통합은 전자 장치를 위한 3rd party 단어 어플리케이션들을 위해 제공된다.
일 실시 예에 있어서, 상기 전자 장치들은 무선 통신 링크와 같은 통신 링크를 통해 데이터 통신이 가능한 하나 또는 그 이상의 정지 또는 이동가능한 전자 장치들을 포함한다. 이러한 이동 장치의 예들은 휴대폰 장치, 휴대 태블릿 장치 등을 포함한다. 정지 장치들의 예들은 텔레비젼들, 프로젝터 시스템들 등을 포함한다.
일 실시 예에 있어서, 전자 장치들을 위한 음성 인식 단어군 추가 방법이 제공된다.
일 실시 예는 복수의 음성 신호들을 단어들로 변환하는 단계 및 복수의 신뢰도 점수들을 상기 복수의 단어들에 적용하는 단계를 포함하는 방법을 포함한다.
일 실시 예에 있어서, 상기 복수의 단어들은 분류 기준 및 상기 복수의 단어들 각각에 대한 신뢰도 점수에 기초하여 분류된다.
일 실시 예에 있어서, 하나 또는 그 이상의 단어들은 상기 분류에 기초하여 인식되지 않는지 여부를 판단하고, 추가의 분류 기준이 상기 하나 또는 그 이상의 인식되지 않은 단어들을 위해 제공된다. 상기 하나 또는 그 이상의 인식되지 않은 단어들은 상기 추가의 분류 기준에 기초하여 매치를 판단하기 위해 분류된다. 일 실시 예에 있어서, 상기 하나 또는 그 이상의 인식되지 않은 단어들을 위한 매치의 판단시, 상기 복수의 음성 신호들 중 적어도 일 부분은 복수의 인식된 단어들로 변환된다.
일 실시 예에 있어서, 1차 단어 어플리케이션은 상기 복수의 음성 신호들을 상기 복수의 단어들로 변환하기 위해 사용되고 상기 추가의 분류 기준은 상기 인식되지 않은 단어들을 위한 하나 또는 그 이상의 2차 단어 어플리케이션들을 위해 제공된다.
일 실시 예에 있어서, 2차(예. 3rd party) 단어 어플리케이션들의 예들은, VoIP(voice-over-Internet protocol(IP)) 어플리케이션들을 위한 전화번호부들의 단어들, 문자 어플리케이션들을 위한 연락 목록들, 영화 제목들을 위한 합성어들, 음식들, 주제들, 인맥들, 벤더 어플리케이션들을 위한 판촉 용어들, 속어, 및 다른 어플리케이션-특정 용어들과 같이, 특정 단어들(예, 목표로 하는 이해가능한 단어들, 유사-단어들, 합성어들, 등의 목록(들))을 포함할 수 있다. 3rd party 특정 단어들은 매우 유동적이고 생성하기에 비용이 많이 들 수 있다.
일 실시 예에 있어서, 상기 단어들은 사용자에 종속될 뿐만 아니라 어플리케이션에 종속된다. 문자 어플리케이션들 및 VoIP를 위한 상기 전화번호부들 및 연락 목록들은 각 사용마다 다를 수 있고 특히 상기 목록들이 클라우드 환경에 저장된다면 언제든지 갱신될 수 있고 서로 다른 장치들을 이용해 갱신될 수 있다. 영화들은 계속적으로 생성되고, 영화를 위한 합성어들의 목록은 가장 최신의 음성 인식 결과들을 제공하기 위해 종종 갱신될 필요가 있다. 어플리케이션을 위한 특정 단어의 목록을 가져오는 것은 시간이 많이 걸리고, 클라우드에 접속하는 것이 필요할 수 있는 것과 같이, 많은 네트워크 트래픽을 수반할 수 있다.
일 실시 예는 효과적으로 어플리케이션-특정 단어들을 자동 음성 인식 (ASR) 엔진(예. ASR 엔진(135), 도 1 참조)에 통합한다. 일 실시 예에 있어서, 모든 어플리케이션들로부터 모든 가능한 단어들을 획득할 때의 오버헤드를 피하기 위해, (예. 1차 단어 어플리케이션으로부터) 단어의 일반적인 세트만이 상기 ASR 엔진(135) 상에서 상기 초기 음성 인식 프로세스를 위해 사용된다.
일 실시 예에 있어서, 상기 초기 음성 인식 결과를 가지고, 적어도 하나의 2차(예. 3rd party) 단어 어플리케이션들에서 상기 음성을 분류하기 위해 분류가 수행된다.
일 실시 예에 있어서, 상기 3rd party 어플리케이션들은 특정 단어들을 생성하고 상기 추가의 단어들을 가지고 상기 음성 인식(예. 제2음성 인식 프로세스)을 반복하기 위해 상기 ASR 엔진(135)으로 전달한다.
일 실시 예에 있어서, 3rd party 어플리케이션-특정 단어들은 음성 인식을 위해 요구된 때에 획득됨에 따라 동적으로 유지되고, 또한 그러므로 최신으로 유지된다.
일 실시 예에 있어서, 모든 어플리케이션들로부터의 모든 3rd party 단어들이 획득될 필요는 없기 때문에 오버헤드는 감소될 뿐만 아니라, 상기 인식되지 않는 음성에 가능하게 매치되게 분류되는 이러한 단어 어플리케이션들은 특정 단어들을 위해 요구된다.
일 실시 예에 있어서, 3rd party 단어 어플리케이션들에 더 나은 자연어 이해 및 서비스들을 위해 그 특정 단어들을 사용하는 인식 결과들이 제공될 수 있다.
도 1은 일 실시 예에 따라, 전자 장치(120)를 위한 단어 어플리케이션들의 음성 인식 통합을 위한 아키텍쳐 시스템(100)의 일 실시 예의 기능 블록도이다. 일 실시 예에 있어서, 상기 전자 장치(120)는 디스플레이(121), 마이크로폰(122), 및 ASR 엔진(135)을 포함한다.
일 실시 예에 있어서, 2차 단어 어플리케이션1(127), 2차 단어 어플리케이션2(128) 내지 2차 단어 어플리케이션N(129)이 3rd party 제공자들에 의해 제공되고 또한 클라우드 또는 네트워크(130)로부터 획득될 수 있는데, 이때 N은 3과 같거나 그보다 큰 양의 정수이다.
일 실시 예에 있어서, 상기 디스플레이(121)는 상기 전자 장치(120)로부터 분리된 장치이거나 또는 상기 전자 장치(120)에 통합된 것일 수 있다.
일 실시 예에 있어서, 상기 마이크로폰(122)은 상기 전자 장치(120)로부터 분리된 장치이거나 또는 상기 전자 장치(120)에 통합된 것일 수 있다.
일 실시 예에 있어서, 상기 전자 장치(120)는 디스플레이(121), 광역 위치 위성(GPS) 수신기 모듈, 나침반 모듈, 및 가속계 및 자이로스코프 모듈을 포함하는, 이동 장치 하드웨어 기능을 이용할 수 있는 이동 장치를 포함할 수 있다. 상기 GPS 모듈은 상기 이동 장치(즉, 사용자)의 현재 위치를 확인하기 위해 사용된다. 상기 나침반 모듈은 상기 이동 장치의 방향을 확인하기 위해 사용된다. 상기 가속계 및 자이로스코프 모듈은 상기 이동 장치의 틸트를 확인하기 위해 사용된다. 다른 실시 예들에 있어서, 상기 전자 장치는 텔레비전 또는 텔레비전 구성요소 시스템을 포함할 수 있다.
일 실시 예에 있어서, 상기 ASR 엔진(135)은 단어 어플리케이션 인터페이스(123), 로컬 메모리에 저장될 수 있는 1차(예. 일반적인) 단어 어플리케이션(124), 및 분류기(125)를 포함한다. 일 실시 예에 있어서, 상기 1차 단어 어플리케이션은 상기 ASR(135)에 의해 수행되는 초기 음성 인식 프로세스를 위해 사용된다. 일 실시 예에 있어서, 상기 ASR(135)은 처음에 상기 마이크로폰(122)을 통해 들어온 음성 신호들을 제1 또는 초기 음성 인식 통로 또는 프로세스를 위한 상기 1차 단어 어플리케이션에 기초하여 단어들을 변환한다.
일 실시 예에 있어서, 상기 인식 결과의 단어들은 변환된 단어들이 상기 음성의 의도된 용어들을 실제로 나타내는 확률을 특정하는 신뢰도 점수가 할당된다.
일 실시 예에 있어서, 상기 분류기(125)는 상기 단어들이 어떤 클래스 또는 그룹에 속하는지 확인하기 위해, 각각의 단어에 대한 신뢰도 점수를 이용하는 것에 기초하여 또한 상기 1차 단어 어플리케이션(124)의 분류 기준에 기초하여 상기 단어들을 통계적으로 분류한다. 2차 단어 어플리케이션들(예. 상기 2차 단어 어플리케이션1(127), 상기 2차 단어 어플리케이션2(128) 내지 상기 2차 단어 어플리케이션N(129))을 이용하는 제2음성 인식 프로세스에 있어서, 상기 분류기(125)는 인식되지 않은 단어들을 각각의 인식되지 않은 단어에 대한 신뢰도 점수를 이용하는 것에 기초하여 또한 상기 2차 단어 어플리케이션의 분류 기준에 기초하여 분류한다.
일 실시 예에 있어서, 상기 분류기는 상기 단어들을 분류하기 위해, 베이스의 프로세스(Bayesian process), 이진 분류, 특징 벡터들의 사용, 선형 분류, 비선형 분류 등과 같이, 서로 다른 처리 수단을 채용할 수 있다. 일 실시 예에 있어서, 신뢰도 점수들에 기초하여, 상기 분류기(125)는 상기 변환된 단어들이 1차 단어 어플리케이션(124) 분류 기준 또는 2차 단어 어플리케이션들(예. 상기 2차 단어 어플리케이션1(127), 상기 2차 단어 어플리케이션2(128) 내지 상기 2차 단어 어플리케이션N(129)) 분류 기준에 기초하여 아는 단어인지 또는 알지 못하는 단어인지 판단한다.
도 2는 일 실시 예에 따라, 전자 장치(예. 전자 장치(120))를 위한 다너 어플리케이션들(예. 3rd party)의 음성 인식 통합을 위한 흐름도 프로세스(200)의 일 예이다. 일 실시 예에 있어서, 상기 프로세스(200)는 시스템 레벨 부분(210), ASR 엔진(예. ASR 엔진(135)) 부분(220), 및 3rd party 어플리케이션 부분(230)으로 분할된다. 일 실시 예에 있어서, 상기 프로세스(200)는 음성이 마이크로폰(211)으로 들어와서 음성 신호들(212)로 변환되는 블록(210)에서 시작한다.
일 실시 예에 있어서, 상기 음성 신호들(212)은 블록(221) 안의 상기 인식 엔진으로 들어가고 단어들로 변환된다. 프로세스(200)은 상기 인식된 단어들에 (예. 최종 철자법에 기초하여 알고 있는 단어들과 비교해서) 상기 변환된 단어들이 정확할 확률에 기초하여 신뢰도 점수가 주어지는 블록(222)까지 계속된다. 프로세스(200)는 상기 최종 단어들 및 할당된 신뢰도 점수들이 블록(241)으로부터의 상기 1차 단어 어플리케이션으로부터의 분류 기준을 처음으로 이용하여 분류되는 블록(223)까지 계속된다. 상기 분류기(223)가 상기 1차 단어 어플리케이션 분류 기준에 기초하여 매치가 있는 것으로 판단하면, 프로세스(200)는 (예. 예약, 상품 구매, 정보 입력 등) 서비스를 위해 언어를 수용하고, 사용자와 통신을 주고 받기 위해 그 결과들을 사용할 수 있는 대화 시스템(250)과 같은, 서비스들을 위해 그 결과들을 사용한다.
블록(223)이 상기 초기의 음성 인식 통로로부터 단어들에 매치가 없는 것으로 판단하면, 프로세스(200)는 3rd party 어플리케이션들(245)로부터 분류 기준(241)을 요청하는 것에 의해 계속된다. 프로세스(200)은 (예. 클라우드/네트워크(130)로부터) 3rd party 어플리케이션들(245)으로부터 특정 단어(240)를 획득하고 또한 (예. 클라우드/네트워크(130)로부터) 3rd party 어플리케이션들(245)으로부터 분류 기준(241)을 획득하는 것에 계속된다. 프로세스(200)는 상기 획득된 특정 단어(240)가 다른 획득된 단어(예. 상기 1차 단어 어플리케이션(124)으로부터의 일반적인 단어)와 결합될 수 있는 블록(224)까지 계속된다. 상기 인식 엔진(221)은 상기 단어들에 대한 할당된 신뢰도 점수들을 판단하기 위해, 상기 단어들 및 결합된 단어를 상기 인식 결과 및 신뢰도 블록(222)으로 전달한다.
프로세스(200)는 상기 최종 단어들 및 할당된 신뢰도 점수들이 블록(241)로부터의 상기 3rd party 어플리케이션들(245)로부터 획득된 상기 2차 단어 어플리케이션들로부터의 분류 기준을 이용하여 2차적으로 분류되는 블록(223)까지 계속된다. 상기 분류기(223)가 상기 2차 단어 어플리케이션 분류 기준에 기초하여 매치가 있다고 판단하면, 그후 프로세스(200)은 상기 결과들을 출력한다. 매치가 발견되지 않으면, 또한 나아가 3rd party 어플리케이션들(245)이 특정 단어(242)를 위해 사용가능하다면, 상기 프로세스(200)는 매치가 있을 때까지 또는 다른 3rd party 단어 어플리케이션들(245)이 사용가능하지 않을 때까지 반복하는 것을 계속한다.
일 실시 예에 있어서, 상기 결과들은 (예. 예약, 상품 구매, 정보 입력 등) 서비스를 위해 언어를 수용하고, 사용자와 통신을 주고 받기 위해 그 결과들을 사용할 수 있는 대화 시스템(250)과 같은, 서비스들을 위해 사용될 수 있다. 일 실시 예에 있어서, 상기 대화 시스템(250)은 언어 및 문법 모델(251), 대화 트리(252), 및 (예. ASR 엔진(135)과 같은, ASR 엔진으로부터) 적어도 하나의 음성 인식을 가지고 양방향 대화를 수행하기 위한 자연어 응답들(253)을 사용한다.
도 3은 일 실시 예에 따라, 전자 장치(예. 전자 장치(120), 도 1 참조)를 위한 음성 인식 단어 어플리케이션 통합을 위한 시나리오(300)의 일 예이다. 일 실시 예에 있어서, 사용자는 피자 제공자에 의한 광고와 같은, 새 상품을 위한 광고를 볼 수 있다. 상기 사용자는 그후 상기 마이크로폰(122) 및 ASR 엔진(135)을 이용해 "I want to order a Cheeztastic pizza"와 같은 음성 예(310)를 넣기 위해, 전자 장치(120)(도 1)를 사용할 수 있다. 상기 시나리오 예(300)에 있어서, 용어 "Cheeztastic" 피자는 상기 피자의 제공자(예. 지역적으로 피자를 배달하는 피자 체인 회사)에 의해 만들어진 합성어이다.
도 4는 일 실시 예에 따라, 전자 장치(예. 전자 장치(120), 도 1 참조)를 위한 음성 인식 단어 어플리케이션 통합을 위한 흐름도 시나리오(400)의 일 예이다.
일 실시 예에 있어서, 상기 합성어 "Cheeztastic"을 가지는 상기 음성(310)은 일반적인 단어(420)를 사용하는 1차 단어 어플리케이션(124)을 이용해 상기 인식 블록(410)에 입력으로서 상기 ASR 엔진(135)에 의해 단어들로 변환된다. 상기 일반적인 단어(420)는 인식되지 않은 용어인 "Cheeztastic"을 포함하지 않기 때문에, 상기 변환된 단어 결과들(430)은 "I want to order <Unknown> pizza"의 출력 안에서 인식되지 않는 용어를 위해 <unknown>을 출력한다. 일 실시 예에 있어서, 상기 1차 단어 어플리케이션(124)의 상기 일반적인 단어(420)는 상기 인식되지 않는 용어 "Cheeztastic"를 변환할 수 없기 때문에, 2차 단어 어플리케이션들(예. 2차 단어 어플리케이션1(127), 2차 단어 어플리케이션2(128) 내지 2차 단어 어플리케이션N(129))이 상기 용어 "Cheeztastic"를 인식하기 위한 시도를 위해 요청된다.
도 5는 일 실시 예에 따라, 전자 장치(예. 전자 장치(120), 도 1 참조)를 위한 음성 인식 단어 어플리케이션 통합을 위한 선형 분류(600)의 일 예이다. 일 실시 예에 있어서, 관련 없는 단어 어플리케이션 UnrelatedApp(630)이 제공하는 분류기들은 매치로 귀결되지 않는다. 일 실시 예에 있어서, 피자 단어 어플리케이션 PizzaApp_1(610)와 같은, 2차 단어 어플리케이션이 제공하는 분류기들은 인식되지 않은 용어(예, "Cheeztastic"를 위한 가능한 매치로 귀결된다. 일 실시 예에 있어서, 피자 단어 어플리케이션 PizzaApp_2(620)와 같은, 2차 단어 어플리케이션이 제공하는 분류기들은 인식되지 않은 용어(예. "Cheeztastic"를 위한 가능한 매치로 귀결된다. 일 실시 예에 있어서, 인식되지 않은 용어의 그래픽적 표현까지의 선들의 거리는 상기 선형 분류(600)를 지시한다.
도 6은 일 실시 예에 따라, 전자 장치(예. 전자 장치(120))를 위한 음성 인식 단어 어플리케이션 통합을 위한 분류를 위한 흐름도(700)의 다른 예이다. 일 실시 예에 있어서, 상기 변환된 단어 결과들(430)은 상기 분류기(223)에 의해 분류를 위해 사용되는 "I want to order a <unknown> pizza"의 출력 안의 인식되지 않은 용어를 위해 <unknown>을 출력한다. 일 실시 예에 있어서, 상기 변환된 단어 결과들(430)의 주제에 관련 없는 단어 어플리케이션인 1차 단어 어플리케이션 UnrelatedApp(630), 2차 단어 어플리케이션 PizzaApp_1(610), 및 다른 2차 단어 어플리케이션 PizzaApp_2(620)은 상기 분류기(223)에 분류 기준을 제공한다. 일 실시 예에 있어서, 상기 분류기는 상기 UnrelatedApp(630)에 대해 "no match"의 상기 결과(711)를 리턴하고, PizzaApp_1(610)에 대해 "match"의 결과(721)를 리턴하고, PizzaApp_2(620)에 대해 "match"의 결과(731)를 리턴한다. 일 실시 예에 있어서, 상기 2개의 매칭 2차 어플리케이션들은 상기 음성에 있어서 모르는 용어 때문에 (신뢰도 점수들에 기초하여) 높은 신뢰도를 가지지 않는다. 그러므로, 일 실시 예에 있어서, 상기 2차 어플리케이션으로부터 추가의 단어들이 (예. 상기 클라우드/네트워크(130)를 통해) 요청된다. 일 실시 예에 있어서, 상기 결과들(721, 731)은 상기 2차 단어 어플리케이션들(예. PizzaApp_1(610) 및 PizzaApp_2(620))로부터 요청된 단어들을 이용해 인식을 시도하기 위해 다른 통로를 위한 상기 인식 엔진(221)을 통해 상기 변환된 단어 결과들(430)을 처리하기 위해 사용된다.
도 7은 일 실시 예에 따라, 전자 장치(예. 전자 장치(120), 도 1 참조)를 위한 음성 인식 단어 어플리케이션 통합을 위한 2차 단어 어플리케이션을 이용하는 흐름도(800)의 일 예이다. 일 실시 예에 있어서, 상기 인식 엔진(221)은 다시 한번 전체 음성(212)을 인식하거나 인식하지 않을 수 있다. 일 실시 예에 있어서, 상기 인식 엔진(221)은 상기 초기 인식으로부터 인식 결과를 보유할 수 있고, 상기 단어들에 신뢰도 점수들에 따라서, 모르는 단어들 또는 낮은 신뢰도 점수들을 가지는 상기 음성의 부분들만을 인식하도록 선택할 수 있다. 일 실시 예에 있어서, 상기 인식 엔진(221)은 상기 2차 단어 어플리케이션들에 의해 제공되는 특정 단어들 중 적어도 하나의으로부터만 상기 단어들을 사용하도록 선택할 수 있다.
일 실시 예에 있어서, 상기 2차 단어 어플리케이션들 PizzaApp_1(610) 및 PizzaApp_2(620)을 위한 상기 분류기(223)로부터 매치 결과들을 이용해, "I want to order a Cheeztastic pizza"의 상기 음성 예(310)는 1차 단어 어플리케이션(일반적인 단어(810)) 및 2차 단어 어플리케이션들(PizzaApp_1(610) 단어(820) 및 PizzaApp_2(620) 단어(830))의 조합으로부터의 단어들을 이용해 상기 인식 엔진(221)을 통해 인식하도록 시도된다. 일 실시 예에 있어서, 상기 2차 단어 어플리케이션 PizzaApp_1(610)으로부터의 상기 특정 단어(820)는 "Cheeztastic" 단어를 포함하고, 그 결과 상기 인식 엔진(221)은 상기 음성(310)에서 그 단어를 인식할 수 있고 높은 신뢰도를 가지는 완성된 인식 결과(840)를 생성한다. 일 실시 예에 있어서, 상기 인식 결과(840)는 다시 상기 분류기(223) 및 자연어 이해 프로세스(908)을 통해 처리된다(도 8 참조). 일 실시 예에 있어서, 상기 2차 인식 처리는 상기 완성된 인식 결과로 귀결되고, 상기 PizzaApp_1(610) 어플리케이션은 사용자 요구를 처리할 수 있다고 확신하고, 상기 ASR 엔진(135, 도 1 참조)은 3rd party가 처리하는 상기 PizzaApp_1(610) 어플리케이션에 제어를 넘긴다.
도 8은 일 실시 예에 따라, 전자 장치(예. 전자 장치(120), 도 1 참조)를 위한 음성 인식 단어 어플리케이션 통합을 위한 흐름도(900)의 일 예이다. 일 실시 예에 있어서, 상기 프로세스(900)는 상기 프로세스(900)이 시작하는 블록(901)으로 시작한다. 일 실시 예에 있어서, 상기 프로세스(900)은 예를 들어, 디스플레이 화면을 두드리거나, 버튼을 누르거나, 리모콘을 사용하거나 등에 의해, 이동가능한 또는 정지 전자 장치(예. 전자 장치(120) 상에서 사용자가 시작하는 음성 인식 어플리케이션에 의해 시작될 수 있다. 일 실시 예에 있어서, 마이크로폰(예. 마이크로폰(211))을 통해 들어가는 음성 신호들은 블록(903)으로부터 입력되는 (1차 단어 어플리케이션으로부터) 일반적인 단어 입력을 이용해 초기 인식(예. 제1음성 인식 프로세스 또는 통로)를 위한 블록(902)으로 들어간다.
일 실시 예에 있어서, 블록(904)에서, 블록(902)로부터 결과는 인식되도록 시도되고 신뢰도 점수들은 그 단어들에 할당된다. 프로세스(900)는 일 실시 예에 따라 상기 1차 단어 어플리케이션으로부터 분류 기준 및 상기 단어들에 할당된 신뢰도 점수들을 이용해 블록(904)의 출력 상에 상기 분류기가 분류 프로세스를 수행하는 블록(905)에서 계속된다. 블록(906)에서, 상기 분류기 블록(905)로부터 결과들은 1차 단어 어플리케이션으로 분류될지 말지 판단된다. 일 실시 예에 있어서, 상기 결과들이 분류되지 않는 것으로 판단되면, 프로세스(900)는 이해되지 않음으로 처리(구두 요청/단어들을 다시 말해줄 것을 요청, 등)하기 위한 블록(907)까지 계속된다.
일 실시 예에 있어서, 상기 단어들의 적어도 일 부분이 블록(906)에 의해 분류되면, 프로세스(900)은 블록(908)까지 계속된다. 블록(908)에서, 자연어 프로세스는 일 실시 예에 따라, 상기 단어들을 자연어(이해되는 단어들)인지 아닌지(예. 인식되지 않는 단어들, 합성어들, 등)를 분석하기 위해 수행된다. 프로세스(900)은 상기 블록(908)의 출력이 자연어들로 이해되는지 아닌지를 판단하는 블록(909)까지 계속된다. 일 실시 예에 있어서, 상기 단어들 전부가 이해되면, 그 후 프로세스(900)는 대화 프로세스들, 주문, 제작 요청 등과 같은, 서비스들을 위한 입력으로서 3rd party 단어 어플리케이션(들)이 상기 이해되는 단어들을 사용하는 블록(910)까지 계속된다.
일 실시 예에 있어서, 상기 단어들 전부가 블록(909)에서 이해되지 않는 것으로 판단되면, 상기 프로세스(900)는 3rd party들(예. 2차 단어 어플리케이션들)로부터 추가의 단어들을 요청하기 위해 특정 단어 구축이 수행되는 블록(911)까지 계속된다. 블록(912)에서, 다른 단어들이 3rd party 단어 어플리케이션 제공자들(또는 다른 제공자들)로부터 이용가능하지 않다면, 프로세스(900)은 이해되지 않음으로 처리(구두 요청/단어들을 다시 말해줄 것을 요청, 등)하기 위한 블록(913)까지 계속된다.
일 실시 예에 있어서, 블록(912)에서 다른 2차 단어 어플리케이션 단어들이 3rd party 제공자들(또는 다른 제공자들)로부터 이용가능하다면, 요청되는 단어들은 (예. 상기 클라우드/네트워크(130, 도 1 참조)를 통해) 제공자들로부터 수신된다. 일 실시 예에 있어서, 프로세스(900)은 상기 추가의 특정 2차 단어들이 인식을 위해 블록(903)으로부터 상기 일반적인 단어와 함께 사용되는 블록(914)까지 계속된다. 일 실시 예에 있어서, 상기 프로세스는 블록(904)까지 다시 계속되고 상기 단어들 모두가 인식되고 이해되거나, 다른 단어들이 이용가능하지 않고 적어도 하나의 단어들이 인식가능하지 않을 때까지 반복되고, 이때 프로세스(900)은 블록(907) 또는 블록(913)까지 계속된다.
도 9는 일 실시 예를 구현하는 컴퓨팅 시스템(500)을 포함하는 정보 처리 시스템을 보여주는 고차원 블록도이다. 상기 시스템(500)은 적어도 하나의 프로세서들(511)(예. ASIC, CPU, 등)을 포함하고, (그래식들, 문자, 및 다른 데이터를 디스플레이하기 위한) 전자 디스플레이 장치(512), 메인 메모리(513)(예. 랜덤 억세스 메모리(RAM), 저장 장치(514)(예. 하드 디스크 드라이브), 제거가능한 저장 장치(515)(예. 제거가능한 저장 드라이브, 제거가능한 메모리 모듈, 마그네틱 테이프 드라이브, 광 디스크 드라이브, 그 안에 저장된 컴퓨터 소프트웨어 및/또는 데이터를 가지는 컴퓨터 판독가능한 매체), 사용자 인터페이스 장치(516)(예. 키보드, 터치 스크린, 키패드, 포인팅 장치), 및 통신 인터페이스(517)(예. 모뎀, (WiFi, 셀 방식과 같은) 무선 송수신기, (이더넷 카드와 같은) 네트워크 인터페이스, 통신 포트, 또는 PCMCIA 슬롯 및 카드)를 더 포함할 수 있다. 상기 통신 인터페이스(517)는 소프트웨어 및 데이터가 상기 컴퓨터 시스템과 외부 장치들 사이에서 전송되는 것을 허용한다. 상기 시스템(500)은 상기에서 언급한 장치들/모듈들(511 내지 517)에 연결되는 통신 인프라스트럭쳐(518)(예. 통신 버스, 크로스-오버 바, 또는 네트워크)를 더 포함한다.
통신 인터페이스(517)를 통해 전송되는 정보는, 인터넷(550), 이동 전자 장치(551), 서버(552), 또는 네트워크(553)와 같이, 복수의 싱크들/소스들로/로부터 신호들을 전달하는 통신 링크를 통해, 전자적, 전자기적, 광학적, 또는 통신 인터페이스(517)에 의해 수신될 수 있는 다른 어떠한 신호들의 형태일 수 있고, 유선 또는 케이블, 광섬유, 전화선, 셀 방식의 전화 링크, 무선주파수(RF) 링크, 및/또는 다른 통신 채널들을 이용해 구현될 수 있다.
휴대폰과 같은, 이동가능한 무선 장치에서의 일 실시 예에 있어서, 상기 시스템(500)은 카메라(520)와 같은 이미지 캡쳐 장치를 더 포함한다. 상기 시스템(500)은 MMS 모듈(521), SMS 모듈(522), 이메일 모듈(523), 소셜 네트워크 인터페이스(SNI) 모듈(524), 오디오/비디오(AV) 플레이어(525), 웹 브라우저(526), 이미지 캡쳐 모듈(527) 등과 같은 어플리케이션 모듈들을 더 포함할 수 있다.
상기 시스템(500)은 일 실시 예에 따라, 여기서 설명하는 것과 같은 음성 인식 단어 어플리케이션 통합 모듈(530)을 더 포함한다. 일 실시 예에 있어서, 운영 시스템(529)과 함께 음성 인식 단어 어플리케이션 통합 모듈(530)은 상기 시스템(500)의 메모리에 상주하는 실행가능한 코드로서 구현될 수 있다. 다른 실시 예에 있어서, 이러한 모듈들은 펌웨어 등에 있을 수 있다.
당업자에게 알려진 바와 같이, 상기 아키텍쳐들에 따라, 상기에서 언급한 아키텍쳐들의 예는, 프로세서에 의한 실행을 위한 프로그램 지시들, 소프트웨어 모듈들, 마이크로코드, 컴퓨터로 판독가능한 매체 상의 컴퓨터 프로그램 생성물, 아날로그/로직 회로들, 어플리케이션 특정 집적 회로들, 펌웨어, 소비자의 전자 장치들, AV 장치들, 무선/유선 송신기들, 무선/유선 수신기들, 네트워크들, 멀티미디어 장치들 등과 같이, 다양한 방법으로 구현될 수 있다. 나아가, 이러한 아키텍쳐의 실시 예들은 완전한 하드웨어 실시 예, 완전한 소프트웨어 실시 예 또는 하드웨어 및 소프트웨어 요소들을 포함하는 실시 예의 형태를 취할 수 있다.
적어도 하나의 실시 예들은 흐름도 도면들 및/또는 컴퓨터 프로그램 생성물들, 장치(시스템들), 및 방법들의 블록도들을 참조하여 설명되었다. 이러한 도면들이 각각의 블록, 또는 그 조합들은 컴퓨터 프로그램 지시들에 의해 구현될 수 있다. 상기 컴퓨터 프로그램 지시들은 프로세서에 제공될 때 기계를 생성하여, 상기 지시들이 상기 흐름도 및/또는 블록도에 특정된 상기 기능들/작동들을 구현하기 위한 상기 프로세서 생성 수단을 통해 실행된다. 상기 흐름도/블록도들에 있는 각각의 블록은 적어도 하나의 실시 예들을 구현하는, 하드웨어 및/또는 소프트웨어 모듈 또는 로직을 표현할 수 있다. 다른 실시 예들에 있어서, 상기 블록들에 기재된 기능들은 상기 도면들에 기재된 순서와 달리, 동시에 등으로 일어날 수 있다.
"컴퓨터 프로그램 매체", "컴퓨터 사용가능한 매체", "컴퓨터로 판독 가능한 매체" 및 "컴퓨터 프로그램 생성물" 용어들은 대체적으로 메인 메모리, 부가 메모리, 제거가능한 저장 드라이브, 하드 디스크 드라이브에 인스톨된 하드 디스크와 같은 매체를 지칭하기 위해 사용된다. 이러한 컴퓨터 프로그램 생성물들은 컴퓨터 시스템에 소프트웨어를 제공하기 위한 수단이다. 상기 컴퓨터로 판독가능한 매체는 상기 컴퓨터 시스템이 데이터, 지시들, 메시지들 또는 메시지 패킷들, 및 상기 컴퓨터로 판독가능한 매체로부터 다른 컴퓨터로 판독가능한 정보를 판독하도록 허용한다. 상기 컴퓨터로 판독가능한 매체는, 예를 들어, 플로피 디스크, ROM, 플래쉬 메모리, 디스크 드라이브 메모리, CD-ROM 및 다른 영구 저장장치와 같은, 비휘발성 메모리를 포함할 수 있다. 이것은 예를 들어, 데이터 및 컴퓨터 지시들과 같은, 정보를 컴퓨터 시스템들 사이에서 이동시킬 때 유용하다. 컴퓨터 프로그램 지시들은 컴퓨터, 다른 프로그램가능한 데이터 처리 장치, 또는 특정 방식으로 가능한 다른 장치들로 안내할 수 있는 컴퓨터로 판독가능한 매체에 저장될 수 있어, 상기 컴퓨터로 판독가능한 매체에 저장된 상기 지시들은 흐름도 및/또는 블록도 블록 또는 블록들에 특정되는 기능/작동을 구현하는 지시들을 포함하는 제조 품목을 생성한다.
여기의 상기 블록도 및/또는 흐름도들을 나타내는 컴퓨터 프로그램 지시들은 컴퓨터로 구현되는 프로세스를 생성하기 위해 수행되는 일련의 작업들을 야기하기 위해, 컴퓨터, 프로그램가능한 데이터 처리 장치, 또는 처리 장치들에 적재될 수 있다. 컴퓨터 프로그램들(즉, 컴퓨터 제어 로직)은 메인 메모리 및/또는 부가 메모리에 저장된다. 컴퓨터 프로그램들은 또한 통신 인터페이스를 통해 수신될 수 있다. 이러한 컴퓨터 프로그램들은, 실행될 때, 상기 컴퓨터 시스템이 여기서 논의된 적어도 하나의 실시 예들의 특징들을 수행하도록 할 수 있다. 특히, 상기 컴퓨터 프로그램들은, 실행될 때, 상기 프로세서 및/또는 멀티-코어 프로세서가 상기 컴퓨터 시스템의 특징들을 수행하도록 할 수 있다. 이러한 컴퓨터 프로그램들은 상기 컴퓨터 시스템의 컨트롤러들을 나타낸다. 컴퓨터 프로그램 생성물은 컴퓨터 시스템에 의해 판독가능하고 적어도 하나의 실시 예들의 방법을 수행하기 위해 상기 컴퓨터 시스템에 의한 실행을 위한 지시들을 저장하는 실체적인 저장 매체를 포함한다.
실시 예들이 다양한 버전들을 참조하여 설명되었지만, 하지만, 다른 버전들도 가능하다. 그러므로, 첨부된 청구항들의 사상 및 범위는 여기에 포함된 바람직한 버전들의 설명에 한정되어서는 안 된다.
120: 전자 장치 121: 디스플레이
122: 마이크로폰 123: 단어 어플리케이션 인터페이스
124: 1차 단어 어플리케이션 125: 분류기
127: 2차 단어 어플리케이션1 128: 2차 단어 어플리케이션2
129: 2차 단어 어플리케이션N 130: 네트워크/클라우드
135: ASR 엔진

Claims (30)

  1. 음성 인식에서 단어군 추가 방법에 있어서,
    프로세스를 이용해 복수의 음성 신호들을 복수의 단어들로 변환하는 단계;
    복수의 신뢰도 점수들을 상기 복수의 단어들에 적용하는 단계;
    상기 복수의 단어들을 분류 기준 및 상기 복수의 단어들 각각에 대한 신뢰도점수에 기초하여 복수의 분류들로 분류하는 단계;
    상기 복수의 단어들 중 적어도 하나가 상기 복수의 분류들에 기초하여 인식되지 않는지 판단하는 단계;
    추가의 분류 기준에 기초하여 상기 적어도 하나의 인식되지 않은 단어들 각각을 분류하는 단계;
    상기 추가의 분류 기준에 기초하여 상기 적어도 하나의 인식되지 않은 단어들 각각에 대한 매치를 검출하는 단계; 및
    인식되지 않은 단어에 대한 매치의 검출시, 상기 인식되지 않은 단어에 대응하는 상기 복수의 음성 신호들의 적어도 일 부분을 복수의 인식된 단어들로 변환하는 단계를 포함하는 음성 인식에서 단어군 추가 방법.
  2. 제 1 항에 있어서,
    전기적 장치를 이용해 상기 복수의 음성 신호들을 수신하는 단계. 이때 1차 단어 어플리케이션이 상기 복수의 음성 신호들을 상기 복수의 단어들로 변환하기 위해 사용되고; 및
    상기 적어도 하나의 인식되지 않은 단어들을 위해 적어도 하나의 2차 단어 어플리케이션들을 위한 상기 추가의 분류 기준을 제공하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식에서 단어군 추가 방법.
  3. 제 2 항에 있어서,
    적어도 하나의 인식되지 않은 단어들을 위한 적어도 하나의 2차 단어 어플리케이션들을 위한 분류 기준을 제공하는 단계;
    상기 적어도 하나의 2차 단어 어플리케이션들을 위한 상기 추가의 분류 기준에 기초하여 매치를 검출하기 위한, 상기 적어도 하나의 인식되지 않은 단어들을 분류하는 단계; 및
    상기 2차 단어 어플리케이션들 중 특정한 하나에 대한 상기 적어도 하나의 인식되지 않은 단어들을 위한 상기 매치의 검출시, 상기 특정한 2차 단어 어플리케이션을 이용해 상기 복수의 음성 신호들의 적어도 일 부분을 상기 복수의 인식된 단어들로 변환하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식에서 단어군 추가 방법.
  4. 제 3 항에 있어서,
    상기 1차 단어 어플리케이션은 일반적인 단어 어플리케이션이고, 상기 적어도 하나의 2차 단어 어플리케이션들은 3rd party가 제공하는 단어 어플리케이션들이고, 상기 3rd party가 제공하는 단어 어플리케이션들 각각은 3rd party 제공자에 의해 특정되는 단어를 포함하는 것을 특징으로 하는 음성 인식에서 단어군 추가 방법.
  5. 제 4 항에 있어서,
    상기 복수의 단어들을 분류하는 단계 및 상기 적어도 하나의 인식되지 않은 단어들을 분류하는 단계는 베이스의 프로세스, 이진 분류, 특징 벡터들의 이용, 선형 분류 및 비선형 분류 중 적어도 하나를 포함하는 분류기를 이용하는 것에 기초하는 것을 특징으로 하는 음성 인식에서 단어군 추가 방법.
  6. 제 5 항에 있어서,
    상기 특정한 2차 단어 어플리케이션을 이용해 상기 복수의 음성 신호들 모두를 단어들로 변환하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식에서 단어군 추가 방법.
  7. 제 3 항에 있어서,
    상기 1차 단어 어플리케이션을 이용하는 것에 기초하여 상기 복수의 음성 신호들을 단어들로 변환하는 단계는 제1음성 인식 프로세스를 포함하고; 상기 특정한 2차 단어 어플리케이션을 이용해 상기 복수의 음성 신호들의 적어도 일 부분을 변환하는 단계는 제2음성 인식 프로세스를 포함하는 것을 특징으로 하는 음성 인식에서 단어군 추가 방법.
  8. 제 6 항에 있어서,
    상기 변환된 단어들을 인식하기 위한 자연어 이해 프로세스를 이용하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식에서 단어군 추가 방법.
  9. 제 8 항에 있어서,
    상기 3rd party 단어 어플리케이션들은 적어도 하나의 단어 목록들을 포함하는 것을 특징으로 하는 음성 인식에서 단어군 추가 방법.
  10. 제 9 항에 있어서,
    상기 적어도 하나의 단어 목록들은 후속하는 단어 인식 프로세스들을 위해 한번에 하나씩 제공되는 것을 특징으로 하는 음성 인식에서 단어군 추가 방법.
  11. 제 7 항에 있어서,
    상기 제1음성 인식 프로세스 및 상기 제2음성 인식 프로세스 모두는 함께 수행되고, 상기 제1음성 인식 프로세스의 결과 및 상기 제2음성 인식 프로세스의 결과는 인식된 음성 결과를 제공하기 위해 결합되는 것을 특징으로 하는 음성 인식에서 단어군 추가 방법.
  12. 제 2 항에 있어서,
    상기 이동가능한 전자 장치는 휴대폰을 포함하고, 상기 적어도 하나의 2차 단어 어플리케이션들은 네트워크를 통해 제공되는 것을 특징으로 하는 음성 인식에서 단어군 추가 방법.
  13. 음성 인식의 단어 통합 시스템에 있어서,
    복수의 음성 신호들을 수신하기 위한 마이크로폰을 포함하는 전자 장치; 및
    상기 복수의 음성 신호들을 복수의 단어들로 변환하는 자동 음성 인식 (ASR) 엔진을 포함하고;
    상기 ASR 엔진은 단어 어플리케이션들을 통합하기 위한 단어 어플리케이션 인터페이스를 포함하고, 상기 ASR 엔진을 이용한 제1음성 인식 통로로부터 기인된 복수의 인식되지 않은 단어들은 인식된 음성 결과를 제공하기 위해 제2음성 인식 통로를 위한 상기 ASR 엔진을 이용해 복수의 인식된 단어들로 변환되는 음성 인식의 단어 통합 시스템.
  14. 제 13 항에 있어서,
    상기 ASR 엔진은 1차 단어 어플리케이션 및 적어도 하나의 2차 단어 어플리케이션들을 이용하는 것에 기초하여 상기 복수의 음성 신호들을 상기 복수의 단어들로 변환하고, 상기 ASR 엔진은 각 단어에 대한 신뢰도 점수 및 상기 1차 단어 어플리케이션의 분류 기준을 이용하여 상기 ASR 엔진의 제1 통로로부터 기인한 복수의 단어들을 분류하고, 각각의 인식되지 않은 단어에 대한 신뢰도 점수들 및 상기 적어도 하나의 2차 단어 어플리케이션들을 위한 분류 기준을 이용해 상기 인식되지 않은 단어들을 분류하는 분류기를 더 포함하는 것을 특징으로 하는 음성 인식의 단어 통합 시스템.
  15. 제 14 항에 있어서, 상기 1차 단어 어플리케이션은 일반적인 단어 어플리케이션이고, 상기 적어도 하나의 2차 단어 어플리케이션들은 3rd party가 제공하는 단어 어플리케이션들이고, 상기 제1음성 인식 통로는 상기 1차 단어 어플리케이션에 기초하고 상기 제2음성 인식 통로는 적어도 하나의 2차 단어 어플리케이션들에 기초하고, 상기 3rd party가 제공하는 단어 어플리케이션들 각각은 3rd party 제공자에 의해 특정되는 단어를 포함하는 것을 특징으로 하는 음성 인식의 단어 통합 시스템.
  16. 제 15 항에 있어서,
    상기 분류기는 베이스의 프로세스, 이진 분류, 특징 벡터들의 이용, 선형 분류 및 비선형 분류 중 적어도 하나를 수행하기 위한 프로세서를 채용하는 것에 기초하여 인식된 단어들 및 인식되지 않은 단어들을 분류하는 것을 특징으로 하는 음성 인식의 단어 통합 시스템.
  17. 제 15 항에 있어서, 상기 3rd party 단어 어플리케이션들은 적어도 하나의 단어 목록들을 포함하고, 복수의 단어 목록들을 포함하는 3rd party 어플리케이션은 후속하는 음성 인식 프로세스들을 위해 한번에 하나씩 각각의 단어 목록을 제공하는 것을 특징으로 하는 음성 인식의 단어 통합 시스템.
  18. 제 15 항에 있어서,
    상기 전자 장치는 휴대폰을 포함하는 것을 특징으로 하는 음성 인식의 단어 통합 시스템.
  19. 제 18 항에 있어서,
    상기 3rd party 단어 어플리케이션들은 네트워크를 통해 상기 휴대폰과 통신하는 것을 특징으로 하는 음성 인식의 단어 통합 시스템.
  20. 음성 인식의 단어 통합을 위한 컴퓨터 프로그램 생성물에 있어서,
    복수의 음성 신호들을 복수의 단어들로 변환하기 위한 제1음성 인식 프로세스를 수행하는 단계;
    상기 복수의 단어들 각각에 대한 신뢰도 점수 및 분류 기준을 이용하는 것에 상기 기초하여 복수의 단어들을 분류하는 단계;
    적어도 하나의 단어들이 상기 분류에 기초하여 인식되지 않는 것으로 판단된 때, 추가의 분류 기준을 수신하는 단계;
    복수의, 각각의 인식되지 않은 단어에 대한 신뢰도 점수들 및 상기 추가의 분류 기준을 이용하는 것에 기초하여 상기 적어도 하나의 인식되지 않은 단어들을 분류하는 단계; 및
    상기 적어도 하나의 인식되지 않은 단어들에 대한 매치의 판단시, 상기 복수의 음성 신호들의 적어도 일 부분을 복수의 인식된 단어들로 변환하기 위한 제2음성 인식 프로세스를 수행하는 단계를 포함하는 것을 특징으로 하는 음성 인식의 단어 통합을 위한 컴퓨터 프로그램 생성물.
  21. 제 20 항에 있어서,
    전자 장치를 이용해 상기 복수의 음성 신호들을 수신하는 단계. 1차 단어 어플리케이션이 상기 복수의 음성 신호들을 상기 복수의 단어들로 변환하는 데 사용되고; 및
    적어도 하나의 인식되지 않은 단어들을 위한 적어도 하나의 2차 단어 어플리케이션들을 위한 상기 추가의 분류 기준을 제공하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식의 단어 통합을 위한 컴퓨터 프로그램 생성물.
  22. 제 21 항에 있어서,
    상기 1차 단어 어플리케이션은 일반적인 단어 어플리케이션이고, 상기 적어도 하나의 2차 단어 어플리케이션들은 3rd party가 제공하는 단어 어플리케이션들인 것을 특징으로 하는 음성 인식의 단어 통합을 위한 컴퓨터 프로그램 생성물.
  23. 제 22 항에 있어서,
    상기 3rd party가 제공하는 단어 어플리케이션들 각각은 3rd party 제공자에 의해 특정되는 단어를 포함하는 것을 특징으로 하는 음성 인식의 단어 통합을 위한 컴퓨터 프로그램 생성물.
  24. 제 23 항에 있어서,
    상기 복수의 단어들을 분류하는 단계 및 상기 적어도 하나의 인식되지 않은 단어들을 분류하는 단계는 베이스의 프로세스, 이진 분류, 특징 벡터들의 상룡, 선형 분류 및 비선형 분류 중 적어도 하나를 포함하는 분류기를 사용하는 것에 기초하는 것을 특징으로 하는 음성 인식의 단어 통합을 위한 컴퓨터 프로그램 생성물.
  25. 제 24 항에 있어서,
    상기 특정 2차 단어 어플리케이션을 이용해 상기 복수의 음성 신호들 각각을 상기 복수의 단어들로 변환하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식의 단어 통합을 위한 컴퓨터 프로그램 생성물.
  26. 제 25 항에 있어서,
    상기 변환된 단어들을 인식하기 위한 자연어 이해 프로세스를 사용하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식의 단어 통합을 위한 컴퓨터 프로그램 생성물.
  27. 제 25 항에 있어서,
    상기 3rd party 단어 어플리케이션들은 적어도 하나의 단어 목록들을 포함하는 것을 특징으로 하는 음성 인식의 단어 통합을 위한 컴퓨터 프로그램 생성물.
  28. 제 27 항에 있어서,
    상기 적어도 하나의 단어 목록들은 후속하는 음성 인식 프로세스들에 대하여 한번에 하나씩 제공되는 것을 특징으로 하는 음성 인식의 단어 통합을 위한 컴퓨터 프로그램 생성물.
  29. 제 28 항에 있어서,
    상기 제1음성 인식 프로세스 및 상기 제2음성 인식 프로세스의 결과는 인식된 음성 결과를 제공하기 위해 결합되는 것을 특징으로 하는 음성 인식의 단어 통합을 위한 컴퓨터 프로그램 생성물.
  30. 제 21 항에 있어서,
    상기 휴대 전자 장치는 휴대폰을 포함하고, 상기 적어도 하나의 2차 단어 어플리케이션들은 네트워크를 통해 제공되는 것을 특징으로 하는 음성 인식의 단어 통합을 위한 컴퓨터 프로그램 생성물.
KR1020130113451A 2013-03-13 2013-09-24 음성 인식의 단어 통합 시스템 및 단어군 추가 방법 KR102249687B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/802,390 US9305545B2 (en) 2013-03-13 2013-03-13 Speech recognition vocabulary integration for classifying words to identify vocabulary application group
US13/802,390 2013-03-13

Publications (2)

Publication Number Publication Date
KR20140112360A true KR20140112360A (ko) 2014-09-23
KR102249687B1 KR102249687B1 (ko) 2021-05-11

Family

ID=51531825

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130113451A KR102249687B1 (ko) 2013-03-13 2013-09-24 음성 인식의 단어 통합 시스템 및 단어군 추가 방법

Country Status (2)

Country Link
US (1) US9305545B2 (ko)
KR (1) KR102249687B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101889809B1 (ko) * 2018-03-12 2018-08-20 미디어젠(주) 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템 및 음성인식방법
KR101890704B1 (ko) * 2018-03-12 2018-08-22 미디어젠(주) 음성 인식과 언어 모델링을 이용한 간편 메시지 출력장치 및 출력방법
WO2019004582A1 (ko) * 2017-06-28 2019-01-03 포항공과대학교 산학협력단 아식칩과 스마트폰을 구비하는 실시간 음성인식 장치
US10606947B2 (en) 2015-11-30 2020-03-31 Samsung Electronics Co., Ltd. Speech recognition apparatus and method
KR102347305B1 (ko) * 2021-10-20 2022-01-06 주식회사 애자일소다 2차 검증을 이용한 이진 분류 시스템 및 그 방법

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10972530B2 (en) * 2016-12-30 2021-04-06 Google Llc Audio-based data structure generation
US8688514B1 (en) 2011-06-24 2014-04-01 Google Inc. Ad selection using image data
US11087424B1 (en) 2011-06-24 2021-08-10 Google Llc Image recognition-based content item selection
US10586127B1 (en) 2011-11-14 2020-03-10 Google Llc Extracting audiovisual features from content elements on online documents
US11093692B2 (en) 2011-11-14 2021-08-17 Google Llc Extracting audiovisual features from digital components
US11030239B2 (en) 2013-05-31 2021-06-08 Google Llc Audio based entity-action pair based selection
US10885918B2 (en) 2013-09-19 2021-01-05 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching
US9601108B2 (en) * 2014-01-17 2017-03-21 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
US10643616B1 (en) * 2014-03-11 2020-05-05 Nvoq Incorporated Apparatus and methods for dynamically changing a speech resource based on recognized text
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
WO2019161207A1 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for conversational agent via adaptive caching of dialogue tree
US11308312B2 (en) 2018-02-15 2022-04-19 DMAI, Inc. System and method for reconstructing unoccupied 3D space

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050055210A1 (en) * 2001-09-28 2005-03-10 Anand Venkataraman Method and apparatus for speech recognition using a dynamic vocabulary
KR20050082249A (ko) * 2004-02-18 2005-08-23 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
JP2006106748A (ja) * 2004-10-05 2006-04-20 Inago Kk 音声認識の精度を改善するためのシステムおよび方法
KR20080019209A (ko) * 2005-06-27 2008-03-03 마이크로소프트 코포레이션 상이한 언어를 사용하는 화자들 사이에서의 향상된 대화 및이해를 위한 컨텍스트 감지 통신 및 번역 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7133827B1 (en) * 2002-02-06 2006-11-07 Voice Signal Technologies, Inc. Training speech recognition word models from word samples synthesized by Monte Carlo techniques
US20080033720A1 (en) * 2006-08-04 2008-02-07 Pankaj Kankar A method and system for speech classification
US20120059658A1 (en) * 2010-09-08 2012-03-08 Nuance Communications, Inc. Methods and apparatus for performing an internet search
US9431012B2 (en) * 2012-04-30 2016-08-30 2236008 Ontario Inc. Post processing of natural language automatic speech recognition
US20140019126A1 (en) * 2012-07-13 2014-01-16 International Business Machines Corporation Speech-to-text recognition of non-dictionary words using location data
US9218333B2 (en) * 2012-08-31 2015-12-22 Microsoft Technology Licensing, Llc Context sensitive auto-correction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050055210A1 (en) * 2001-09-28 2005-03-10 Anand Venkataraman Method and apparatus for speech recognition using a dynamic vocabulary
KR20050082249A (ko) * 2004-02-18 2005-08-23 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
JP2006106748A (ja) * 2004-10-05 2006-04-20 Inago Kk 音声認識の精度を改善するためのシステムおよび方法
KR20080019209A (ko) * 2005-06-27 2008-03-03 마이크로소프트 코포레이션 상이한 언어를 사용하는 화자들 사이에서의 향상된 대화 및이해를 위한 컨텍스트 감지 통신 및 번역 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10606947B2 (en) 2015-11-30 2020-03-31 Samsung Electronics Co., Ltd. Speech recognition apparatus and method
WO2019004582A1 (ko) * 2017-06-28 2019-01-03 포항공과대학교 산학협력단 아식칩과 스마트폰을 구비하는 실시간 음성인식 장치
US11183177B2 (en) 2017-06-28 2021-11-23 Postech Academy-Industry Foundation Real-time voice recognition apparatus equipped with ASIC chip and smartphone
KR101889809B1 (ko) * 2018-03-12 2018-08-20 미디어젠(주) 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템 및 음성인식방법
KR101890704B1 (ko) * 2018-03-12 2018-08-22 미디어젠(주) 음성 인식과 언어 모델링을 이용한 간편 메시지 출력장치 및 출력방법
KR102347305B1 (ko) * 2021-10-20 2022-01-06 주식회사 애자일소다 2차 검증을 이용한 이진 분류 시스템 및 그 방법

Also Published As

Publication number Publication date
US9305545B2 (en) 2016-04-05
US20140278411A1 (en) 2014-09-18
KR102249687B1 (ko) 2021-05-11

Similar Documents

Publication Publication Date Title
KR102249687B1 (ko) 음성 인식의 단어 통합 시스템 및 단어군 추가 방법
US10522146B1 (en) Systems and methods for recognizing and performing voice commands during advertisement
US11756539B2 (en) System, apparatus, and method for processing natural language, and non-transitory computer readable recording medium
US11854570B2 (en) Electronic device providing response to voice input, and method and computer readable medium thereof
CN105592343B (zh) 针对问题和回答的显示装置和方法
US9886952B2 (en) Interactive system, display apparatus, and controlling method thereof
CN109961792B (zh) 用于识别语音的方法和装置
JP6618223B2 (ja) 音声処理方法及び装置
CN101576901B (zh) 搜索请求的产生方法
CN111368559A (zh) 语音翻译方法、装置、电子设备及存储介质
US9984687B2 (en) Image display device, method for driving the same, and computer readable recording medium
CN110956955B (zh) 一种语音交互的方法和装置
US20180068659A1 (en) Voice recognition device and voice recognition method
CN108682421B (zh) 一种语音识别方法、终端设备及计算机可读存储介质
US11783808B2 (en) Audio content recognition method and apparatus, and device and computer-readable medium
CN110990598B (zh) 资源检索方法、装置、电子设备及计算机可读存储介质
CN112509562A (zh) 用于文本后处理的方法、装置、电子设备和介质
CN111667810B (zh) 多音字语料的获取方法、装置、可读介质和电子设备
CN107180027B (zh) 语音控制业务分类方法及装置
CN114765025A (zh) 语音识别模型的生成方法、识别方法、装置、介质及设备
CN115129845A (zh) 文本信息处理方法、装置和电子设备
CN111339790B (zh) 文本翻译方法、装置、设备及计算机可读存储介质
KR102479026B1 (ko) MPEG IoMT 환경에서의 질의응답 시스템 및 방법
CN114429629A (zh) 图像处理方法、装置、可读存储介质及电子设备
CN112309387A (zh) 用于处理信息的方法和装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant