KR102029276B1

KR102029276B1 - 환경 콘텍스트를 이용한 질문 답변

Info

Publication number: KR102029276B1
Application number: KR1020130037540A
Authority: KR
Inventors: 매튜 샤리피; 게오르게 포스텔니쿠
Original assignee: 구글 엘엘씨
Priority date: 2012-09-10
Filing date: 2013-04-05
Publication date: 2019-10-07
Also published as: CN106250508A; KR20190113712A; WO2014039106A1; KR20200093489A; KR20140034034A; CN106250508B; CN103714104A; KR102140177B1; KR102241972B1; CN103714104B

Abstract

발화 및 환경 데이터를 수신하고, 상기 발화에 대한 표기를 획득하고, 상기 환경 데이터를 이용하여 엔티티를 식별하고, 상기 표기의 적어도 일부와 상기 엔티티를 식별하는 데이터를 포함하는 쿼리를 자연 언어 쿼리 프로세싱 엔진에 제출하고, 및 상기 쿼리에 대한 하나 이상의 결과를 획득하기 위한, 방법들, 시스템들, 및 컴퓨터 저장 매체 상에 인코딩된 컴퓨터 프로그램을 포함하는 장치가 개시된다.

Description

환경 콘텍스트를 이용한 질문 답변{ANSWERING QUESTIONS USING ENVIRONMENTAL CONTEXT}

본 출원은 2012년 9월 10일자로 출원된 미국 가출원번호 61/698,934, 2012년 9월 10일자로 출원된 61/698,949호, 2012년 9월 25일자로 출원된 미국 특허 출원번호 13/626,439, 2012년 9월 25일자로 출원된 미국 특허 출원번호 13/626,351, 및 2013년 2월 15일자로 출원된 미국 특허 출원번호 13/768,232에 대해 우선권을 주장하며, 이 문서들의 모든 내용은 참조로서 본 명세서에 포함된다.

본 명세서는 자연 언어 쿼리(natural language query)와 환경 정보(environmental information)에 기초하여 쿼리의 결과들을 식별하는 것에 관한 것으로, 환경 정보(예를 들어, 콘텍스트(context))를 이용하여 질문들에 답변하기 위한 것이다.

일반적으로, 탐색 쿼리는 사용자가 탐색 엔진에 탐색의 실행을 요청할 때, 탐색 엔진에 제출(submit)하는 하나 이상의 용어(term)를 포함한다. 그 밖의 접근법 중에서는, 사용자가 키보드 상에서 타이핑하거나, 또한 음성 쿼리의 콘텍스트에서 모바일 디바이스의 마이크로폰에 쿼리 용어들을 말함으로써 탐색 쿼리의 쿼리 용어들을 입력할 수도 있다. 음성 쿼리들은 음성 인식 기술(speech recognition technology)을 이용하여 처리될 수 있다.

본 명세서에서 설명된 주제의 일부 혁신적 양태에 따르면, 환경 정보(예컨대, 주위 소음(ambient noise))는 쿼리 프로세싱 시스템이 자연 언어 쿼리를 답변하는데 도움을 줄 수 있다. 예를 들어, 사용자는 자신이 보고 있는 텔레비전 프로그램에 관한 질문(에컨대, "이 영화에 나오는 주인공은 누구인가요?")을 물어볼 수 있다. 사용자의 모바일 디바이스는 사용자의 발화(utterance)와, 텔레비전 프로그램의 사운드트랙 오디오를 포함할 수 있는 환경 정보를 검출한다. 모바일 컴퓨팅 디바이스는 발화 및 환경 정보를 파형 데이터(waveform data)로서 인코딩하고, 및 상기 파형 데이터를 서버-기반 컴퓨팅 환경(server-based computing enviorment)에 제공한다.

컴퓨팅 환경은 상기 파형 데이터의 환경 데이터로부터 상기 발화를 분리한 다음, 상기 발화에 대한 표기(transcription)를 획득한다. 컴퓨팅 환경은 예를 들어, 영화의 이름을 식별함으로써 상기 환경 데이터 및 상기 발화에 관련된 엔티티 데이터(entity data)를 추가로 식별한다. 이어서 상기 표기와 상기 엔티티 데이터로부터, 상기 컴퓨팅 환경은 하나 이상의 결과(예컨대, 상기 사용자의 질문에 응답하는 결과들)를 식별할 수 있다. 특히, 상기 하나 이상의 결과들은 "이 영화에 어떤 배우가 나오나요?"(예컨대, 배우의 이름)에 대한 사용자의 질문에 대한 답변을 포함할 수 있다. 상기 컴퓨팅 환경은 이러한 결과들을 상기 모바일 컴퓨팅 디바이스의 상기 사용자에게 제공할 수 있다.

본 명세서에서 설명된 주제의 혁신적인 양태들은 방법으로 구현될 수 있으며, 이 방법은 발화 및 환경 데이터를 인코딩하는 오디오 데이터를 수신하는 동작, 상기 발화의 표기를 획득하는 동작, 상기 환경 데이터를 이용하여 엔티티를 식별하는 동작, 상기 표기의 적어도 일부와 상기 엔티티를 식별하는 데이터를 포함하는 쿼리를 자연 언어 쿼리 프로세싱 엔진에 제출하는 동작, 및 상기 쿼리에 대한 하나 이상의 결과를 획득하는 동작을 포함한다.

이러한 양태들의 다른 실시예들은 상응하는 시스템들, 장치들, 및 컴퓨터 저장 디바이스들 상에 인코딩되어, 본 발명의 동작들을 수행하도록 구성된 컴퓨터 프로그램을 포함한다.

이러한 및 다른 실시예들은 하나 이상의 후술하는 특징을 선택적으로 각각 포함할 수 있다. 예를 들어, 적어도 하나의 결과의 표현(representation)을 출력한다. 상기 엔티티가 상기 발화를 추가로 이용하여 식별될 수 있다. 상기 쿼리를 생성한다. 상기 쿼리를 생성하는 동작은 상기 표기와 상기 엔티티를 식별하는 상기 데이터를 연관시키는 동작을 포함한다. 상기 연관시키는 동작은 상기 표기를 상기 엔티티를 식별하는 상기 데이터로 태깅(tagging)하는 동작을 포함한다. 연관시키는 동작은 상기 표기의 일부를 상기 엔티티를 식별하는 상기 데이터로 대체하는 동작을 더 포함한다. 상기 대체하는 동작은 상기 표기의 하나 이상의 단어를 상기 엔티티를 식별하는 상기 데이터로 대체하는 동작을 더 포함한다. 상기 환경 데이터를 수신하는 동작은 환경 오디오 데이터, 환경 이미지 데이터, 또는 이 둘 모두를 수신하는 동작을 더 포함한다. 상기 환경 오디오 데이터를 수신하는 동작은 배경 소음(background noise)을 포함하는 추가 오디오 데이터를 수신하는 동작을 더 포함한다.

본 명세서에서 설명된 주제의 일부 혁신적인 양태들에 따르면, 미디어 콘텐츠의 아이템이 환경 오디오 데이터와 발화된 자연 언어 쿼리에 기초하여 식별된다. 예를 들어, 사용자는 자신이 보고 있는 텔레비전 프로그램에 관한 질문 예컨대, "우리가 지금 뭘 보고 있습니까?")를 물을 수 있다. 그 질문은 그 질문이 텔레비전 쇼에 관한 것이며 다른 형태의 미디어 콘텐츠에 대한 것이 아니라는 것을 제안하는 키워드들(예컨대, "보기(watching)")을 포함할 수 있다. 사용자의 모바일 디바이스는 사용자의 발화와, 텔레비전 프로그램의 배경 오디오를 포함할 수 있는 환경 데이터를 검출한다. 모바일 컴퓨팅 디바이스는 상기 발화와 상기 환경 데이터를 파형 데이터로 인코딩하고, 및 그 파형 데이터를 서버-기반 컴퓨팅 환경에 제공한다.

컴퓨팅 환경은 상기 파형 데이터의 환경 데이터로부터 상기 발화를 분리한 다음, 상기 발화에 대한 표기를 획득하기 위해 상기 발화를 처리한다. 상기 표기로부터, 상기 컴퓨팅 환경은 임의의 콘텐트 유형-특정 키워드들(예컨대, 키워드 "보기(watching)")를 검출한다. 이어 컴퓨팅 환경은 상기 환경 데이터에 기초하여 미디어 콘텐츠의 아이템들을 식별할 수 있고, 상기 식별된 아이템들로부터 상기 키워드들과 연관된 특정 콘텐츠 유형에 매칭되는 멀티 콘텐츠의 특정 아이템을 선택할 수 있다. 컴퓨팅 환경은 상기 멀티미디어 콘텐츠의 특정 아이템의 표현을 상기 모바일 컴퓨팅 디바이스의 상기 사용자에게 제공한다.

본 명세서에서 설명된 주제의 혁신적인 양태들은 방법들로 구현될 수 있는데, 이 방법은 (ⅰ) 발화된 자연 언어 쿼리를 인코딩하는 오디오 데이터 및 (ⅱ) 환경 오디오 데이터를 수신하는 동작, 상기 발화된 자연 언어 쿼리에 대한 표기를 획득하는 동작, 상기 표기에 있는 하나 이상의 키워드에 연관된 특정 콘텐츠 유형을 판단하는 동작, 상기 환경 오디오 데이터의 적어도 일부를 콘텐츠 인식 엔진에 제공하는 동작, 및 상기 콘텐츠 인식 엔진에 의해 출력되었고, 상기 특정 콘텐츠 유형에 매칭되는 콘텐츠 아이템을 식별하는 동작을 포함한다.

이러한 양태들의 다른 실시예들은 상응하는 시스템들, 장치들, 및 컴퓨팅 저장 디바이스들에 인코딩되고 상기 방법들의 동작들을 수행하도록 구성된 컴퓨터 프로그램들을 포함한다.

이러한 및 다른 실시예들은 하나 이상의 후술하는 특징을 선택적으로 각각 포함할 수 있다. 예를 들어, 특정 콘텐츠 유형은 영화 콘텐츠 유형, 음악 콘텐츠 유형, 텔레비전 쇼 콘텐츠 유형, 오디오 팟캐스트 콘텐츠 유형, 북 콘텐츠 유형, 미술작품 콘텐츠 유형, 예고편(trailer) 콘텐츠 유형, 비디오 팟게스트 콘텐츠 유형, 인터넷 비디오 콘텐츠 유형, 또는 비디오 게임 콘텐츠 유형이다. 상기 환경 오디오 데이터를 수신하는 동작은 배경 소음을 포함하는 추가 오디오 데이터를 수신하는 동작을 더 포함한다. 상기 배경 소음은 특정 콘텐츠 유형과 연관된다. 비디오 데이터 또는 이미지 데이터를 포함하는 추가 환경 데이터를 수신한다. 상기 비디오 데이터 또는 상기 이미지 데이터는 상기 특정 콘텐츠 유형과 연관된다. 상기 환경 오디오 데이터의 적어도 일부를 상기 콘텐츠 인식 엔진에 제공하는 동작은 상기 환경 오디오 데이터의 상기 일부를 오디오 핑거프린팅 엔진(fingerprinting engine)에 제공하는 동작을 더 포함한다. 상기 특정 콘텐츠 유형을 판단하는 동작은 하나 이상의 데이터베이스를 이용하여, 복수의 콘텐츠 유형 각각에 대해, 상기 키워드들 중 적어도 하나가 상기 복수의 콘텐츠 유형 중 적어도 하나에 매핑되는 하나 이상의 키워드를 식별하는 동작을 더 포함한다. 상기 복수의 콘텐츠 유형은 상기 특정 콘텐츠 유형을 포함하고, 상기 매핑되는 동작은 상기 키워드들 중 적어도 하나가 상기 특정 콘텐츠 유형에 매핑되는 동작을 더 포함한다. 상기 콘텐츠 아이템을 식별하는 데이터를 출력한다.

상기 특징들은 예를 들어, 상기 특정 콘텐츠 유형을 식별하는 데이터를 상기 콘텐츠 인식 엔진에 제공하는 동작, 및 상기 콘텐츠 아이템을 식별하는 동작은 상기 콘텐츠 인식 엔진으로부터 상기 콘텐츠 아이템을 식별하는 데이터를 수신하는 동작을 더 포함한다. 상기 콘텐츠 인식 시스템으로부터 2개 이상의 콘텐츠 인식 후보를 수신하는 동작과, 상기 콘텐츠 아이템을 식별하는 동작은 상기 특정 콘텐츠 유형에 기초하여 특정 콘텐츠 인식 후보를 선택하는 동작을 더 포함한다. 2개 이상의 콘텐츠 인식 후보 각각은 랭킹 스코어(ranking score)와 연관되고, 상기 방법은 상기 특정 콘텐츠 유형에 기초하여 상기 2개 이상의 콘텐츠 인식 후보의 랭킹 스코어를 조정하는 동작을 더 포함한다. 상기 조정된 랭킹 스코어들에 기초하여 상기 2개 이상의 콘텐츠 인식 후보들의 순위를 부여한다.

본 명세서에서 설명된 주제의 하나 이상의 세부사항들은 첨부 도면들 및 이하의 상세한 설명에 개시되어 있다. 본 주제의 다른 잠재적 특징들, 양태들, 및 이점들은 상기 상세한 설명, 도면들 및 청구항들로부터 명백해 질 것이다.

도 1은 환경 오디오 데이터와 발화된 자연 언어 쿼리에 기초하여 콘텐츠 아이템 데이터를 식별하는 예시적 시스템을 묘사한다.
도 2는 환경 오디오 데이터와 발환된 자연 언어 쿼리에 기초하여 콘텐츠 아이템 데이터를 식별하는 예시적 프로세스를 위한 순서도를 묘사한다.
도 3a 및 도 3b는 콘텐츠 아이템을 식별하는 예시적 시스템의 부분들을 묘사한다.
도 4는 환경 이미지 데이터 및 발화된 자연 언어 쿼리에 기초하여 미디어 콘텐츠 아이템들을 식별하는 예시적 시스템을 묘사한다.
도 5는 환경 오디오 데이터 및 발화에 기초하여 하나 이상의 결과를 식별하는 시스템을 묘사한다.
도 6은 환경 데이터 및 발화에 기초하여 하나 이상의 결과를 식별하는 예시적 프로세스를 위한 순서도를 묘사한다.
도 7은 본 명세서에서 설명되는 기술들을 구현하는데 이용될 수 있는 컴퓨터 시스템 및 모바일 컴퓨터 디바이스를 묘사한다.
여러 도면들에서 유사한 참조 기호는 유사한 구성요소를 가리킨다.

환경 정보를 콘텍스트(context)로서 사용하여 발화된 자연 언어 쿼리(spoken natural language query)들에 답변하는 컴퓨팅 환경은 복수의 프로세스들을 사용하여 쿼리들을 처리할 수 있다. 도 1 내지 도 4에 도시된 일부 프로세스들의 예에서, 컴퓨팅 환경은 주변 노이즈(ambient noise)들 같은 환경 정보에 기초하여 미디어 콘텐츠를 식별할 수 있다. 도 5 및 도 6에 도시된 다른 프로세스들의 예에서, 컴퓨팅 환경은 발화된 자연 언어 쿼리에 대하여 더욱 만족스러운 답변을 제공하기 위하여, 미디어 콘텐츠를 식별하는 데이터 같은 환경 정보로부터 도출되는 콘텍스트로 발화된 자연 언어 쿼리를 증가시킬 수 있다.

더 구체적으로, 도 1은 환경 오디오 데이터 및 발화된 자연 언어 쿼리에 기초한 콘텐츠 아이템 데이터를 식별하는 시스템(100)을 나타낸다. 간단히, 시스템(100)은, 환경 오디오 데이터에 기초하며 특정 콘텐츠 유형(content type)을 발화된 자연 언어 쿼리와 연관시켜 매칭하는, 콘텐츠 아이템 데이터를 식별할 수 있다. 시스템(100)은 모바일 컴퓨팅 디바이스(102), 명확화 엔진(disambiguation engine, 104), 음성 인식 엔진(speech recognition engine, 106), 키워드 맵핑 엔진(108), 및 콘텐츠 인식 엔진(110)을 포함한다. 모바일 컴퓨팅 디바이스(102)는 하나 또는 그 이상의 네트워크들을 통하여 명확화 엔진(104)과 통신한다. 모바일 디바이스(110)는 마이크로폰, 카메라 또는, 사용자(112) 및/또는 사용자(112)와 연관된 환경 데이터로부터의 발화들을 검출하기 위한 다른 검출 메커니즘들을 포함할 수 있다.

일부 예들에 있어서, 사용자(112)는 TV 프로그램을 시청하고 있다. 도시된 예에 있어서, 사용자(112)는 현재 디스플레이되는 TV 프로그램을 누가 감독했는지를 알고 싶어한다. 일부 예들에 있어서, 사용자(112)는 현재 디스플레이되는 TV 프로그램의 이름을 알지 못할 수도 있으며, 따라서 "누가 이 쇼를 감독했나요?"라고 물을 수 있다. 모바일 컴퓨팅 디바이스(102)는 사용자(112)의 환경에 연관된 환경 오디오 데이터와 함께 이 발화를 검출한다.

일부 예들에 있어서, 사용자(112)의 환경과 연관된 환경 오디오 데이터는 사용자(112)의 환경의 배경 노이즈(background noise)를 포함할 수 있다. 예를 들어, 환경 오디오 데이터는 TV 프로그램의 소리들을 포함할 수 있다. 일부 예들에 있어서, 현재 디스플레이되는 TV 프로그램과 연관된 환경 오디오 데이터는 현재 디스플레이되는 TV 프로그램의 오디오(예를 들어, 현재 디스플레이되는 TV 프로그램의 대화, 현재 디스플레이되는 TV 프로그램과 연관된 사운드트랙 오디오, 기타 등등)를 포함할 수 있다.

일부 예들에 있어서, 모바일 컴퓨팅 디바이스(102)는 발화를 검출한 후에 환경 오디오 데이터를 검출하거나, 발화의 검출과 동시에 환경 오디오 데이터를 검출하거나, 혹은 둘 다에 의할 수 있다. 동작 (A) 동안, 모바일 컴퓨팅 디바이스(102)는 검출된 발화 및 환경 오디오 데이터를 처리하여 검출된 발화 및 환경 오디오 데이터를 나타내는 파형 데이터(114)를 생성하고, 파형 데이터(114)를 (예를 들어, 네트워크를 통하여) 명확화 엔진(104)으로 전송한다. 일부 예들에 있어서, 환경 오디오 데이터는 모바일 컴퓨팅 디바이스(110)로부터 스트리밍 된다.

명확화 엔진(104)은 모바일 컴퓨팅 디바이스(102)로부터 파형 데이터(114)를 수신한다. 동작 (B) 동안, 명확화 엔진(104)은 파형 데이터(114)의 다른 부분으로부터 발화의 분리(또는 추출)를 포함하여 파형 데이터(114)를 처리하고, 발화를 (예를 들어, 네트워크를 통하여) 음성 인식 엔진(106)으로 전송한다. 예를 들어, 명확화 엔진(104)은 사용자(112)의 환경의 배경 노이즈(예를 들어, 현재 디스플레이되는 TV 프로그램의 오디오)로부터 발화("누가 이 쇼를 감독했나요?")를 분리한다.

일부 예들에 있어서, 음성 활동 또는 컴퓨팅 장치(102)의 사용자와 연관된 음성 활동을 포함하는 파형 데이터(114)의 일부를 식별함으로써 배경 노이즈로부터 발화의 분리를 가능하게 하기 위하여 명확화 엔진(104)은 음성 검출기를 사용한다. 일부 예들에 있어서, 발화는 쿼리(예를 들어, 현재 디스플레이되는 TV에 관련된 쿼리)에 관련된다. 일부 예들에 있어서, 파형 데이터(114)는 검출된 발화를 포함한다. 이에 대응하여, 명확화 엔진(104)은 모바일 컴퓨팅 디바이스(102)로부터 발화와 관련된 환경 오디오 데이터를 요구할 수 있다.

음성 인식 엔진(106)은 명확화 엔진(104)으로부터 발화에 대응하는 파형 데이터(114)의 일부를 수신한다. 동작 (C) 동안, 음성 인식 엔진(106)은 발화의 표기(transcription)를 획득하고, 그 표기를 키워드 맵핑 엔진(108)으로 제공한다. 구체적으로, 음성 인식 엔진(106)은 음성 인식 엔진(106)으로부터 수신한 발화를 처리한다. 일부 예들에 있어서, 음성 인식 엔진(106)에 의한 발화의 처리는 발화의 표기를 생성하는 것을 포함한다. 발화의 표기를 생성하는 것은 발화를 텍스트 또는 텍스에 관련된 데이터로 표기하는 것을 포함한다. 다시 말해, 음성 인식 시스템(106)은 발화의 문자적 형태의 언어 표현을 제공할 수 있다.

예를 들어, 음성 인식 시스템(106)은 발화를 표기하여 "누가 이 쇼를 감독했나요?"라는 표기를 생성한다. 다른 실시들예에 있어서, 음성 인식 시스템(106)은 둘 또는 그 이상의 발화의 표기들을 제공한다. 예를 들어, 음성 인식 시스템(106)은 발화를 표기하여 "누가 이 쇼(show)를 감독했나요?" 및 "누가 이 슈(shoe)를 감독했나요?"라는 표기를 생성한다.

키워드 맵핑 엔진(108)은 음성 인식 엔진(106)으로부터 표기를 수신한다. 동작 (D) 동안, 키워드 맵핑 엔진(108)은 특정 콘텐츠 유형에 연관된 표기 내의 하나 또는 그 이상의 키워드들을 식별하고, 상기 특정 콘텐츠 유형을 명확화 엔진(104)에 제공한다. 일부 실시예들에 있어서, 하나 또는 그 이상의 콘텐츠 유형들은 '영화', '음악', 'TV 쇼', '오디오 팟캐스트(audio podcast)', '영상(image)', '미술품(artwork)', '책', '잡지', '트레일러(trailer)', '비디오 팟캐스트(video podcast)', '인터넷 비디오', 또는 '비디오 게임'을 포함할 수 있다.

예를 들어, 키워드 맵핑 엔진(108)은 키워드 "감독했나(directed)"를 "누가 이 쇼를 감독했나요?"라는 표기로부터 식별한다. 키워드 "감독했나"는 'TV 쇼' 콘텐츠 유형에 연관된다. 일부 실시예들에 있어서, 키워드 맵핑 엔진(108)에 의하여 식별되는 표기의 키워드는 둘 또는 그 이상의 콘텐츠 유형들과 연관된다. 예를 들어, 키워드 "감독했나"는 'TV 쇼' 및 '영화' 콘텐츠 유형들에 연관된다.

일부 실시예들에 있어서, 키워드 맵핑 엔진(108)은 특정 콘텐츠 유형에 연관된 표기에서 둘 또는 그 이상의 키워드를 식별한다. 예를 들어, 키워드 맵핑 엔진(108)은 특정 콘텐츠 유형에 연관된 키워드들 "감독했나" 및 "쇼"를 식별한다. 일부 실시예들에 있어서, 식별된 둘 또는 그 이상의 키워드들은 동일한 콘텐츠 유형에 연관된다. 예를 들어, 식별된 키워드들 "감독했나" 및 "쇼"는 모두 'TV 쇼' 콘텐츠 유형에 연관된다. 일부 실시예들에 있어서, 식별된 둘 또는 그 이상의 키워드들은 다른 콘텐츠 유형들에 연관된다. 예를 들어, 식별된 키워드 "감독했나"는 '영화' 콘텐츠 유형에 연관되며, 식별된 키워드 "쇼"는 'TV 쇼' 콘텐츠 유형에 연관된다. 키워드 맵핑 엔진(108)은 상기 특정 콘텐츠 유형을 명확화 엔진(108)으로 (예를 들어, 네트워크를 통하여) 전송한다.

일부 실시예들에 있어서, 키워드 맵핑 엔진(108)은 복수의 콘텐츠 유형들 각각에 대하여 키워드들 중 적어도 하나를 복수의 콘텐츠 유형들 중 적어도 하나에 맵핑하는 하나 또는 그 이상의 데이터베이스를 사용하여 특정 콘텐츠 유형에 연관된 표기 내의 하나 또는 그 이상의 키워드들을 식별한다. 구체적으로, 키워드 맵핑 엔진(108)은 하나의 데이터베이스(또는 복수의 데이터베이스들)을 포함(또는 이들과 통신)한다. 데이터베이스는 키워드들과 콘텐츠 유형들 사이의 맵핑을 포함하거나 이에 연관된다. 구체적으로, 데이터베이스는 키워드 맵핑 엔진(108)이 특정 콘텐츠 유형들에 연관된 표기 내의 하나 또는 그 이상의 키워드들을 식별할 수 있도록 하는 것과 같은 키워드들과 콘텐츠 유형들 사이의 연결(예를 들어, 맵핑)을 제공한다.

일부 실시예들에 있어서, 키워드들과 콘텐츠 유형들 사이의 하나 또는 그 이상의 맵핑들은 단방향(unidirectional)(예를 들어, 한 방향(one-way)) 맵핑(즉, 키워드들로부터 콘텐츠 유형들로의 맵핑)을 포함할 수 있다. 일부 실시예들에 있어서, 키워드들과 콘텐츠 유형들 사이의 하나 또는 그 이상의 맵핑들은 양방향(bidirectional)(예를 들어, 쌍방향(one-way)) 맵핑(즉, 키워드들로부터 콘텐츠 유형들로의 맵핑 및 콘텐츠 유형들로부터 키워드들로의 맵핑)을 포함할 수 있다. 일부 실시예들에 있어서, 하나 또는 그 이상의 데이터베이스는 하나 또는 그 이상의 키워드들을 둘 또는 그 이상의 콘텐츠 유형들로 맵핑한다.

예를 들어, 키워드 맵핑 엔진(108)은 키워드 "감독했나"를 '영화' 및 'TV 쇼' 콘텐츠 유형들로 맵핑하는 하나 또는 그 이상의 데이터베이스를 사용한다. 일부 실시예들에 있어서, 키워드들과 콘텐츠 유형들 사이의 맵핑은 기본 키워드(root keyword)에 대한 복수의 변화형(varying version)(즉, 단어 패밀리)과 콘텐츠 유형들 사이의 맵핑을 포함한다. 키워드의 다른 형태는 시제(예를 들어, 과거, 현재, 미래)와 품사(예를 들어, 명사, 동사)와 같은 다른 문법적 카테고리를 포함할 수 있다. 예를 들어, 데이터베이스는 "감독(directors)", "지시(direction)", "감독했나(directed)"와 같은 어근(root word) "감독하다"의 단어 패밀리의 하나 또는 그 이상의 콘텐츠 유형으로의 맵핑을 포함할 수 있다.

명확화 엔진(104)는 키워드 맵핑 엔진(108)으로부터 발화의 표기에 연관된 특정 콘텐츠 유형을 식별한 데이터를 수신한다. 더욱이, 상술한 바와 같이, 명확화 엔진(104)은 모바일 컴퓨팅 디바이스(102)로부터 발화와 연관된 환경 오디오 데이터를 포함하는 파형 데이터(114)를 수신한다. 동작 (E) 동안, 명확화 엔진(104)은 그리고 나서 환경 오디오 데이터 및 특정 콘텐츠 유형을 콘텐츠 인식 엔진(110)으로 제공한다.

예를 들어, 명확화 엔진(104)은 현재 디스플레이되는 TV 프로그램의 오디오(예를 들어, 현재 디스플레이되는 TV 프로그램의 대화, 현재 디스플레이되는 TV 프로그램의 사운드트랙 오디오, 기타 등등)를 포함하는 현재 디스플레이되는 TV 프로그램에 관련된 환경 오디오 데이터 및 발화의 표기의 특정 콘텐츠 유형(예를 들어, 'TV 쇼' 콘텐츠 유형)을 콘텐츠 인식 엔진(110)으로 전송한다.

일부 실시예들에 있어서, 명확화 엔진(104)은 환경 오디오 데이터의 일부를 콘텐츠 인식 엔진(110)으로 제공한다. 일부 예들에 있어서, 상기 환경 오디오 데이터의 일부는 발화를 검출한 후에 모바일 컴퓨팅 디바이스(102)에 의하여 검출된 배경 노이즈를 포함할 수 있다. 일부 예들에 있어서, 상기 환경 오디오 데이터의 일부는 발화의 검출과 동시에 모바일 컴퓨팅 디바이스(102)에 의하여 검출된 배경 노이즈를 포함할 수 있다.

일부 실시예들에 있어서, (파형 데이터(114)의) 배경 노이즈는 표기의 키워드에 연관된 특정 콘텐츠 유형에 연관된다. 예를 들어, 표기 "누가 이 쇼를 감독했나요?"라는 표기의 키워드 "감독했나"는 'TV 쇼' 콘텐츠 유형에 연관되며, 배경 노이즈(예를 들어, 현재 디스플레이되는 TV 프로그램에 관련된 환경 오디오 데이터) 또한 'TV 쇼' 콘텐츠 유형에 연관된다.

콘텐츠 인식 엔진(110)은 명확화 엔진(104)으로부터 환경 오디오 데이터 및 특정 콘텐츠 유형을 수신한다. 동작 (F) 동안, 콘텐츠 인식 엔진(110)은, 환경 오디오 데이터에 기초하며 특정 콘텐츠 유형을 매칭하는, 콘텐츠 아이템 데이터를 식별하고, 콘텐츠 아이템 데이터를 명확화 엔진(104)으로 제공한다. 구체적으로, 콘텐츠 인식 엔진(110)은 환경 오디오 데이터를 적절히 처리하여, 환경 오디오 데이터(예를 들어, TV 쇼의 이름, 노래의 이름, 기타 등등)에 연관된 콘텐츠 아이템 데이터를 식별한다. 더욱이, 콘텐츠 인식 엔진(110)은 식별된 콘텐츠 아이템 데이터를 특정 콘텐츠 유형(예를 들어, 발화의 표기의 콘텐츠 유형)과 매칭시킨다. 콘텐츠 인식 엔진(110)은 식별된 콘텐츠 아이템 데이터를 명확화 엔진(104)으로 (예를 들어, 네트워크를 통하여) 전송한다.

예를 들어, 콘텐츠 인식 엔진(110)은 현재 디스플레이되는 TV 프로그램에 관련된 환경 오디오 데이터에 기초하며, 더욱이 'TV 쇼' 콘텐츠 유형에 매칭되는 콘텐츠 아이템 데이터를 식별한다. 이를 위하여, 콘텐츠 인식 엔진(110)은 콘텐츠 인식 엔진(110)에 의하여 수신된 환경 오디오 데이터의 일부에 따라서 현재 디스플레이되는 TV 프로그램의 대화, 또는 현재 디스플레이되는 TV 프로그램에 연관된 사운드트랙 오디오에 기초한 콘텐츠 아이템 데이터를 식별한다.

일부 실시예들에 있어서, 콘텐츠 인식 엔진(110)은 콘텐츠 아이템 데이터를 식별하기 위하여 웨이블릿(wavelet)들을 사용하는 콘텐츠 지문을 사용하는 오디오 지문(audio fingerprinting) 엔진이다. 구체적으로, 콘텐츠 인식 엔진(110)은 파형 데이터(114)를 스펙트로그램(spectrogram)으로 변환한다. 스펙트로그램으로부터 콘텐츠 인식 엔진(110)은 스펙트럼 영상(spectral image)들을 추출한다. 스펙트럼 영상들은 웨이블릿으로 표현될 수 있다. 스펙트로그램으로부터 추출된 스펙트럼 영상들 각각에 대하여 콘텐츠 인식 엔진(110)은 웨이블릿들 각각의 크기에 기초한 "top" 웨이블릿들을 추출한다. 각 스펙트럼 영상에 대하여, 콘텐츠 인식 엔진9110)은 영상의 웨이블릿 서명을 연산한다. 일부 예들에 있어서, 웨이블릿 서명은 영상의 웨이블릿 분해의 줄여지고(truncated), 양자화된(quantized) 형태이다.

예를 들어, 웨이블릿로 m x n 영상을 설명하기 위하여, m x n 웨이블릿들이 압축 없이 되돌아온다. 더욱이, 콘텐츠 인식 엔진(110)은 노래를 대부분 특징짓는 웨이블릿들의 서브세트를 사용한다. 구체적으로, t << m x n 일 때, (크기에 의한) t개의 "top" 웨이블릿들이 선택된다. 더욱이, 콘텐츠 인식 엔진(110)은, 예를 들어 스파스 비트 벡터(sparse bit vector)들을 위한 서브-지문을 연산하기 위하여 MinHash 를 사용하여 상술한 스파스 웨이블릭 벡터(sparse wavelet-vector)의 간결한 표현을 생성한다.

일부 예들에 있어서, 환경 오디오 데이터가 적어도 현재 디스플레이되는 TV 프로그램에 연관된 사운드트랙 오디오를 포함할 때, 콘텐츠 인식 엔진(110)은, 현재 디스플레이되는 TV 프로그램에 연관된 사운드트랙 오디오에 기초하며 또한 'TV 쇼' 콘텐츠 유형을 매칭하는 콘텐츠 아이템 데이터를 식별한다. 따라서 일부 예들에 있어서, 콘텐츠 인식 엔진(110)은 현재 디스플레이되는 TV 프로그램의 이름에 관련된 콘텐츠 아이템 데이터를 식별한다. 예를 들어, 콘텐츠 인식 엔진(110)은 특정 콘텐츠 아이템(예를 들어, 특정 TV 쇼)이 테마 송(예를 들어, 사운드트랙 오디오)과 연관되고, 상기 특정 콘텐츠 아이템(예를 들어, 상기 특정 TV 쇼)이 상기 특정 콘텐츠 유형(예를 들어, 'TV 쇼' 콘텐츠 유형)과 매칭되는 것을 판단할 수 있다. 따라서, 콘텐츠 인식 엔진(110)은, 환경 오디오 데이터(예를 들어, 사운드트랙 오디오)에 기초한 상기 특정 콘텐츠 아이템(예를 들어, 현재 디스플레이되는 TV 프로그램)에 관련되며 추가적으로 상기 특정 콘텐츠 유형(예를 들어, 'TV 쇼' 콘텐츠 유형)과 매칭되는 데이터(예를 들어, 상기 특정 TV 쇼의 이름)를 식별할 수 있다.

명확화 엔진(104)은 콘텐츠 인식 엔진(110)으로부터 식별된 콘텐츠 아이템 데이터를 수신한다. 동작 (G)에서, 명확화 엔진(104)은 그리고 나서 식별된 콘텐츠 아이템 데이터를 모바일 컴퓨팅 디바이스(102)로 제공한다. 예를 들어, 명확화 엔진(104)은 현재 디스플레이되는 TV 프로그램(예를 들어, 현재 디스플레이되는 TV 프로그램의 이름)에 관련된 식별된 콘텐츠 아이템 데이터를 모바일 컴퓨팅 디바이스(102)로 전송한다.

일부 예들에 있어서, 모바일 컴퓨팅 디바이스(102), 명확화 엔진(104), 음성 인식 엔진(106), 키워드 맵핑 엔진(108), 및 콘텐츠 인식 엔진(110) 중 하나 또는 그 이상은 모바일 컴퓨팅 디바이스(102), 명확화 엔진(104), 음성 인식 엔진(106), 키워드 맵핑 엔진(108), 및 콘텐츠 인식 엔진(110)의 서브셋(또는 각각)과 통신할 수 있다. 일부 실시예들에 있어서, 명확화 엔진(104), 음성 인식 엔진(106), 키워드 맵핑 엔진(108), 및 콘텐츠 인식 엔진(110) 중 하나 또는 그 이상은 하나 이상의 컴퓨팅 서버들, 분산된 컴퓨팅 시스템, 또는 하나의 서버 팜(farm)이나 클러스터(cluster)와 같은 하나 또는 그 이상의 컴퓨팅 디바이스들을 사용하여 실행될 수 있다.

일부 실시예들에 있어서, 상술한 바와 같이, 환경 오디오 데이터는 모바일 컴퓨팅 디바이스(110)로부터 명확화 엔진(104)으로 스트리밍될 수 있다. 환경 오디오 데이터가 스트리밍될 때, 상술한 처리(예를 들어, 동작들 (A)-(H))는 환경 오디오 데이터가 명확화 엔진(104)에 의하여 수신될 때 수행된다(즉, 점진적으로 수행된다). 다시 말해, 명확화 엔진(104)에 의하여 환경 오디오 데이터의 각 부분이 (예를 들어, 스트리밍되어) 수신될 때, 동작들 (A)-(H)가 콘텐츠 아이템 데이터가 식별될 때까지 반복적으로 수행된다.

도 2는 환경 오디오 데이터 및 발화된 자연 언어 쿼리에 기초한 콘텐츠 아이템 데이터를 식별하는 예시적 프로세스(200)의 흐름도를 나타낸다. 예시적 프로세스(200)는 하나 또는 그 이상의 컴퓨팅 디바이스에 의하여 실행될 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스(102), 명확화 엔진(104), 음성 인식 엔진(106), 키워드 맵핑 엔진(108), 및/또는 콘텐츠 인식 엔진(110)이 상기 예시적 프로세스(200)를 실행하기 위하여 사용될 수 있다.

발화된 자연 언어 쿼리를 부호화하는 오디오 데이터 및 환경 오디오 데이터가 수신된다(202). 예를 들어, 명화화 엔진(104)이 모바일 컴퓨팅 디바이스(102)로부터 파형 데이터(114)를 수신한다. 파형 데이터(114)는 사용자의 발화된 자연 쿼리(예를 들어, "누가 이 쇼를 감독했나요?") 및 환경 오디오 데이터(예를 들어, 현재 디스플레이되는 TV 프로그램의 오디오)를 포함한다. 명확화 엔진(104)은 사용자(112)의 환경의 배경 노이즈(예를 들어, 현재 디스플레이되는 TV 프로그램의 오디오)로부터 발화된 자연 언어 쿼리("누가 이 쇼를 감독했나요?")를 분리한다.

자연 언어 쿼리의 표기가 획득된다(204). 예를 들어, 음성 인식 시스템(106)이 자연 언어 쿼리를 표기하여 자연 언어 쿼리의 표기(예를 들어, "누가 이 쇼를 감독했나요?")를 생성한다.

표기 내의 하나 또는 그 이상의 키워드들에 연관된 특정 콘텐츠 유형이 판단된다(206). 예를 들어, 키워드 맵핑 엔진(108)이 특정 콘텐츠 유형(예를 들어, 'TV 쇼' 콘텐츠 유형)에 연관된 표기(예를 들어, "누가 이 쇼를 감독했나요?") 내의 하나 또는 그 이상의 키워드(예를 들어, "감독했나")를 식별한다. 일부 실시예들에 있어서, 키워드 맵핑 엔진(108)은 복수의 콘텐츠 유형들 각각에 대하여 키워드들 중 적어도 하나를 복수의 콘텐츠 유형들 중 적어도 하나에 맵핑하는 하나 또는 그 이상의 데이터베이스를 사용하여 표기 내의 하나 또는 그 이상의 키워드들을 식별한다. 데이터베이스는 키워드들(예를 들어, "감독했나")과 콘텐츠 유형들(예를 들어, 'TV 쇼' 콘텐츠 유형) 사이의 연결(예를 들어, 맵핑)을 제공한다.

환경 오디오 데이터의 적어도 일부는 콘텐츠 인식 엔진(208)에 제공된다. 예를 들어, 명확화 엔진(104)은 파형 데이터(114)에 의하여 부호화된 적어도 상기 환경 오디오 데이터의 일부(예를 들어, 현재 디스플레이되는 TV 프로그램의 오디오)를 콘텐츠 인식 엔진(110)에 제공한다. 일부 예들에 있어서, 명확화 엔진(104)은 또한 표기 내의 하나 또는 그 이상의 키워드들(예를 들어, "감독했나")에 연관된 특정 콘텐츠 유형(예를 들어, 'TV 쇼' 콘텐츠 유형)을 콘텐츠 인식 엔진(110)에 제공한다.

콘텐츠 인식 엔진에 의하여 출력되며 특정 콘텐츠 유형과 매칭되는 콘텐츠 아이템이 식별된다(210). 예를 들어, 콘텐츠 인식 엔진(110)은, 환경 오디오 데이터(예를 들어, 현재 디스플레이되는 TV 프로그램의 오디오)에 기초하며 특정 콘텐츠 유형(예를 들어, 'TV 쇼' 콘텐츠 유형)에 매칭되는 콘텐츠 아이템 또는 콘텐츠 아이템 데이터를 식별한다.

도 3a 및 도 3b는 콘텐츠 아이템 데이터를 식별하기 위한 시스템의 일부들(300a, 300b)을 각각 도시한 것이다. 특히 도 3a 및 도 3b는 명확화 엔진들(304a, 304b) 각각; 및 콘텐츠 인식 엔진들(310a, 310b)을 각각 포함한다. 명확화 엔진들(304a, 304b)은 도 1에 도시된 시스템(100)의 명확화 엔진(104)과 유사하며; 콘텐츠 인식 엔진들(310a, 310b)은 도 1에 도시된 시스템(100)의 콘텐츠 인식 엔진(110)과 유사하다.

도 3a는 콘텐츠 인식 엔진(310a)을 포함하는 일부(300a)를 도시한다. 콘텐츠 인식 엔진(310a)은 환경 데이터에 기초하여 특정한 콘텐츠 유형과 일치하는 콘텐츠 아이템을 식별할 수 있다. 달리 말하면, 콘텐츠 인식 엔진(310a)은 콘텐츠 아이템을 식별하기 위하여 환경 데이터에 기초하여 환경 데이터를 적절히 처리하고, 나아가 선택된 콘텐츠 아이템 데이터가 특정한 콘텐츠 유형과 일치하도록 하나 이상의 식별된 콘텐츠 아이템 데이터를 선택할 수 있다.

구체적으로, 동작 (A) 동안, 명확화 엔진(304a)은 환경 데이터 및 특정한 콘텐츠 유형을 콘텐츠 인식 엔진(310a)에 제공한다. 일부 실시예들에 있어서, 명확화 엔진(304a)은 환경 데이터의 일부를 콘텐츠 인식 엔진(310a)에 제공한다.

콘텐츠 인식 엔진(310a)은 명확화 엔진(304a)으로부터 환경 데이터 및 특정한 콘텐츠 유형을 수신한다. 그러면 동작 (B) 동안, 콘텐츠 인식 엔진(310a)은 환경 데이터에 기초하여 특정한 콘텐츠 유형과 일치하는 콘텐츠 아이템 데이터를 식별하고 식별된 콘텐츠 아이템 데이터를 명확화 엔진(304a)에 제공한다. 구체적으로, 콘텐츠 인식 엔진(310a)은 환경 데이터에 기초하여 콘텐츠 아이템 데이터(예를 들어, TV쇼의 이름, 노래 제목 등)를 식별한다. 그 후에 콘텐츠 인식 엔진(310a)은 특정한 콘텐츠 유형과 일치하는 식별된 콘텐츠 아이템 데이터 중 하나 이상을 선택한다. 달리 말하면, 콘텐츠 인식 엔진(310a)은 특정한 콘텐츠 유형에 기초하여 식별된 콘텐츠 아이템 데이터를 필터링한다. 콘텐츠 인식 엔진(310a)은 (예를 들어, 네트워크를 거쳐) 식별된 콘텐츠 아이템 데이터를 명확화 엔진(304a)으로 전송한다.

일부 예들에 있어서, 도 1과 관련하여 상술한 바와 같이, 환경 데이터가 적어도 현재 디스플레이되는 TV 프로그램과 관련된 사운드트랙(soundtrack) 오디오를 포함하는 경우, 콘텐츠 인식 엔진(310a)은 현재 디스플레이되는 TV 프로그램과 연관된 사운드트랙 오디오에 기초하여 콘텐츠 아이템 데이터를 식별한다. 콘텐츠 인식 엔진(310a)은 그 후에 ＇TV 쇼＇ 콘텐츠 유형에 기초하여 식별된 콘텐츠 아이템 데이터를 필터링한다. 예를 들어, 콘텐츠 인식 엔진(310a)은 사운드트랙 오디오와 연관된 ＇테마 송 이름＇ 및 ＇TV 쇼 이름＇을 식별한다. 콘텐츠 인식 엔진(310a)은 이 후에 식별된 콘텐츠 아이템 데이터가 또한 ＇TV 쇼＇ 콘텐츠 유형과도 일치하도록 식별된 콘텐츠 아이템 데이터를 필터링한다. 예를 들어, 콘텐츠 인식 엔진(310a)은 ＇TV 쇼 이름＇ 식별 데이터를 선택하고, ＇TV 쇼 이름＇ 식별 데이터를 명확화 엔진(304a)으로 전송한다.

일부 예들에 있어서, 콘텐츠 인식 엔진(310a)은 콘텐츠 유형 (예를 들어, ＇TV 쇼＇ 콘텐츠 유형)에 기초하여 코퍼스(corpus) (또는 인덱스)를 선택한다. 구체적으로, 콘텐츠 인식 엔진(310a)은 ＇TV 쇼＇ 콘텐츠 유형과 관련된 제1 인덱스 및 ＇영화＇ 콘텐츠 유형과 관련된 제2 인덱스에 대한 접근권(access)을 가질 수 있다. 콘텐츠 인식 엔진(310a)은 ＇TV 쇼＇ 콘텐츠 유형에 기초하여 적절히 제1 인덱스를 선택한다. 따라서, 제1 인덱스를 선택함 (그리고 제2 인덱스를 선택하지 않음)에 의하여 콘텐츠 인식 엔진(310a)은 보다 효과적으로 콘텐츠 아이템 데이터 (예를 들어, TV 쇼의 이름)를 식별할 수 있다.

명확화 엔진(304a)은 콘텐츠 인식 엔진(310a)으로부터 콘텐츠 아이템 데이터를 수신한다. 예를 들어, 명확화 엔진(304a)은 콘텐츠 인식 엔진(310a)으로부터 ＇TV 쇼 이름＇ 식별 데이터를 수신한다. 명확화 엔진(304a)은 이 후에, 동작 (C) 동안, 식별 데이터를 제3 자(예를 들어, 도 1의 모바일 컴퓨팅 디바이스(102))에게 제공한다. 예를 들어, 명확화 엔진(304a)은 데이터를 ＇TV 쇼 이름＇ 식별 데이터를 제3 자에게 제공한다.

도 3b는 콘텐츠 인식 엔진(310b)을 포함하는 일부(300b)를 도시한 도면이다. 콘텐츠 인식 엔진(310b)은 환경 데이터에 기초하여 콘텐츠 아이템 데이터를 식별할 수 있다. 달리 말하면, 콘텐츠 인식 엔진(310b)은 환경 데이터에 기초하여 콘텐츠 아이템 데이터를 식별하기 위하여 환경 데이터를 적절히 처리하고, 콘텐츠 아이템 데이터를 명확화 엔진(304b)에 제공한다. 콘텐츠 인식 엔진(310b)은 선택된 콘텐츠 아이템 데이터가 특정한 콘텐츠 유형과 일치하도록 식별된 콘텐츠 아이템 데이터 중 적어도 하나를 선택한다.

구체적으로, 동작 (A) 동안, 명확화 엔진(304b)은 환경 데이터를 콘텐츠 인식 엔진(310b)에 제공한다. 일부 실시예들에 있어서, 명확화 엔진(304b)은 환경 데이터의 일부를 콘텐츠 인식 엔진(310b)에 제공한다.

콘텐츠 인식 엔진(310b)은 명확화 엔진(304b)으로부터 환경 데이터를 수신한다. 그 후에, 동작 (B) 동안, 콘텐츠 인식 엔진(310b)은 환경 데이터에 기초하여 콘텐츠 아이템 데이터를 식별하고 식별된 콘텐츠 아이템 데이터를 명확화 엔진(304b)으로 제공한다. 구체적으로, 콘텐츠 인식 엔진(310b)은 환경 데이터에 기초하여 둘 이상의 콘텐츠 아이템들(예를 들어, TV 쇼의 이름, 노래의 제목, 등)과 연관된 콘텐츠 아이템 데이터를 식별한다. 콘텐츠 인식 엔진(310b)은 (예를 들어, 네트워크를 거쳐) 식별된 콘텐츠 아이템 데이터를 표현하는 둘 이상의 후보들을 명확화 엔진(304b)으로 전송한다.

일부 예들에 있어서, 도 1과 관련하여 상술한 바와 같이, 환경 데이터가 현재 디스플레이되는 TV 프로그램과 연관된 적어도 사운드트랙 오디오를 포함하는 경우, 콘텐츠 인식 엔진(310b)은 현재 디스플레이되는 TV 프로그램과 연관된 사운드트랙 오디오에 기초하여 둘 이상의 콘텐츠 아이템들과 관련된 콘텐츠 아이템 데이터를 식별한다. 예를 들어, 콘텐츠 인식 엔진(310b)은 사운드트랙 오디오와 연관된 ＇테마 송 이름＇ 및 ＇TV 쇼 이름＇을 식별하고, ＇테마 송 이름＇ 및 ＇TV 쇼 이름＇ 식별 데이터를 명확화 엔진(304b)으로 전송한다.

명확화 엔진(304b)은 콘텐츠 인식 엔진(310b)으로부터 둘 이상의 후보들을 수신한다. 예를 들어, 명확화 엔진(304b)은 콘텐츠 인식 엔진(310b)으로부터 ＇테마 송 이름＇ 및 ＇TV 쇼 이름＇ 후보들을 수신한다. 이 후에, 동작 (C) 동안, 명확화 엔진(304b)은 특정한 콘텐츠 유형에 기초하여 둘 이상의 후보들 중 하나를 선택하고 선택된 후보를 제3 자 (예를 들어, 도 1의 모바일 컴퓨팅 디바이스(102))에게 제공한다. 구체적으로, 도 1과 관련하여 상술한 바와 같이, 명확화 엔진(304b)은 사전에 (예를 들어, 발화와 연관된) 특정한 콘텐츠 유형을 수신할 수 있다. 명확화 엔진(304b)은 특정한 콘텐츠 유형에 기초하여 둘 이상의 후보들 중 특정한 후보를 선택한다. 구체적으로, 명확화 엔진(304b)은 둘 이상의 후보들 중 특정한 콘텐츠 유형과 일치하는 특정한 후보를 선택한다. 예를 들어, 명확화 엔진(304b)은 ＇TV 쇼 이름＇ 후보가 ＇TV 쇼＇ 콘텐츠 유형과 일치하기 때문에 ＇TV 쇼 이름＇ 후보를 선택한다.

일부 실시예들에 있어서, 콘텐츠 인식 엔진(310b)으로부터의 둘 이상의 후보들은 랭킹 스코어(ranking score)와 연관된다. 랭킹 스코어는 명확화 엔진(304b)에 의하여 결정된 어떠한 스코어 측정(metric)과도 연관될 수 있다. 명확화 엔진(304b)은 더불어 특정한 콘텐츠 유형에 기초하여 둘 이상의 후보들의 랭킹 스코어를 조정할 수도 있다. 구체적으로, 명확화 엔진(304b)은 각각의 후보들이 특정한 콘텐츠 유형과 일치하는 경우에 하나 이상의 후보들의 랭킹 스코어를 증가시킬 수 있다. 예를 들어, 후보 ＇TV 쇼 이름＇의 랭킹 스코어는 그것이 ＇TV 쇼＇ 콘텐츠 유형과 일치함에 따라서 증가할 수 있다. 뿐만 아니라, 명확화 엔진(304b)은 각각의 후보들이 특정한 콘텐츠 유형과 일치하지 않는 경우에 하나 이상의 후보들의 랭킹 스코어를 감소시킬 수 있다. 예를 들어, 후보 ＇테마 송 이름＇의 랭킹 스코어는 그것이 ＇TV 쇼＇ 콘텐츠 유형과 일치하지 않음에 따라서 감소할 수 있다.

일부 실시예들에 있어서, 둘 이상의 후보들은, 명확화 엔진(304b)에 의하여 각각 조정된 랭킹 스코어들에 기초하여 순위가 부여될 수 있다. 예를 들어, 명확화 엔진(304b)은 ＇테마 송 이름＇ 후보의 조정된 랭킹 스코어와 비교하였을 때, ＇TV 쇼 이름＇ 후보가 더 높은 조정된 랭킹 스코어를 가짐에 따라, ＇TV 쇼 이름＇ 후보의 순위를 ＇테마 송 이름＇ 후보보다 상위로 부여할 수 있다. 일부 예들에 있어서, 명확화 엔진(304b)은 가장 높게 순위가 부여된 (예를 들어, 가장 높은 조정된 랭킹 스코어를 가지는) 후보를 선택한다.

도 4는 환경 이미지 데이터 및 발화된 자연 언어 쿼리에 기초하여 콘텐츠 아이템 데이터를 식별하기 위한 시스템(400)을 도시한 것이다. 요컨대, 시스템(400)은 환경 데이터에 기초하여 발화된 자연 언어 쿼리와 연관된 특정한 콘텐츠 유형과 일치하는 콘텐츠 아이템 데이터를 식별할 수 있다. 시스템(400)은, 도 1에 도시된 시스템(100)의 모바일 컴퓨팅 디바이스(102), 명확화 엔진(104), 음성 인식 엔진(106), 키워드 맵핑 엔진(108) 및 콘텐츠 인식 엔진(110)과 각각 유사한, 모바일 컴퓨팅 디바이스(402), 음성 인식 엔진(406), 키워드 맵핑 엔진(408), 및 콘텐츠 인식 엔진(410)을 포함한다.

일부 예들에 있어서, 사용자(112)는 영화의 사운드트랙의 CD 앨범 커버를 보고 있다. 도시된 예에 있어서, 사용자(112)는 사운드트랙에 어떠한 노래들이 수록되어 있는 지를 알고 싶다. 일부 예들에 있어서, 사용자(112)는 영화 사운드트랙의 이름을 모를 수 있고, 따라서 ＂여기에 나오는 노래가 무엇입니까?＂ 또는 ＂이 영화에서 연주된 노래는 무엇입니까?＂라는 질문을 할 수 있다. 모바일 컴퓨팅 디바이스(402)는 사용자(112)의 환경과 연관된 환경 이미지 데이터뿐만 아니라 이러한 발화를 감지한다.

일부 예들에 있어서, 사용자(112)의 환경과 연관된 환경 이미지 데이터는 사용자(112) 환경의 이미지 데이터를 포함할 수 있다. 예를 들어, 환경 이미지 데이터는 영화와 관련된 이미지들을 묘사한 (예를 들어, 연관된 영화의 영화 포스터의 이미지) CD 앨범 커버의 이미지를 포함한다. 일부 예들에 있어서, 모바일 컴퓨팅 디바이스(402)는 CD 앨범 커버의 이미지 (또는 비디오)를 캡쳐하는 모바일 컴퓨팅 디바이스(402)의 카메라를 활용하여 환경 이미지 데이터를 감지한다.

동작 (A) 동안, 모바일 컴퓨팅 디바이스(402)는 감지된 발화를 처리하여 감지된 발화를 나타내는 파형 데이터(414)를 생성하고 파형 데이터(414) 및 환경 이미지 데이터를 (예를 들어, 네트워크를 거쳐) 명확화 엔진(404)으로 전송한다.

동작 (B) 동안, 명확화 엔진(404)은 모바일 컴퓨팅 디바이스(402)로부터 파형 데이터(414) 및 환경 이미지 데이터를 수신한다. 명확화 엔진(404)은 파형 데이터(414)를 처리하고 (예를 들어, 네트워크를 거쳐) 음성 인식 엔진(406)으로 발화를 전송한다. 일부 예들에 있어서, 발화는 쿼리 (예를 들어, 영화 사운드트랙과 관련된 쿼리)와 관련된다.

음성 인식 엔진(406)은 명확화 엔진(404)으로부터 발화를 수신한다. 동작 (C) 동안, 음성 인식 엔진(406)은 발화의 표기(transcription)를 획득하고 표기를 키워드 맵핑 엔진(408)에 제공한다. 구체적으로, 음성 인식 엔진(406)은 발화의 표기를 생성함으로써 음성 인식 엔진(406)으로부터 수신한 발화를 처리한다.

예를 들어, 음성 인식 엔진(406)은 발화를 문자화(transcribe)하여 "여기에 나오는 노래가 무엇입니까?"라는 표기를 생성한다. 일부 실시예들에 있어서, 음성 인식 엔진(406)은 발화의 둘 이상의 표기들을 제공한다. 예를 들어, 음성 인식 엔진(406)은 발화를 문자화하여 ＂여기에 나오는 노래가 무엇입니까?(What songs are on this?)＂와 ＂여기에 나오는 놀이가 무엇입니까?(What sinks are on this?)＂의 표기들을 생성한다.

키워드 맵핑 엔진(408)은 음성 인식 엔진(406)으로부터 표기를 수신한다. 동작 (D) 동안, 키워드 맵핑 엔진(408)은 특정한 콘텐츠 유형과 연관된 표기 내의 하나 이상의 키워드들을 식별하고 특정한 콘텐츠 유형을 명확화 엔진(404)으로 제공한다.

예를 들어, 키워드 맵핑 엔진(408)은 ＂여기에 나오는 노래가 무엇입니까?＂의 표기로부터 키워드 ＂노래＂를 식별한다. 키워드 ＂노래＂는 ＇음악＇ 콘텐츠 유형과 연관된다. 일부 실시예들에 있어서, 키워드 맵핑 엔진(408)에 의하여 식별된 표기의 키워드는 둘 이상의 콘텐츠 유형들과 연관된다. 예를 들어, 키워드 ＂노래＂는 ＇음악＇ 및 ＇가수＇ 콘텐츠 유형들과 연관된다. 키워드 맵핑 엔진(408)은 (예를 들어, 네트워크를 거쳐) 특정한 콘텐츠 유형을 명확화 엔진(408)으로 전송한다.

일부 실시예들에 있어서, 상술한 바와 유사하게, 키워드 맵핑 엔진(408)은, 다수의 콘텐츠 유형들 각각에 대하여, 적어도 하나의 키워드들과 다수의 콘텐츠 유형들 중 적어도 하나와 맵핑한, 하나 이상의 데이터베이스들을 사용하여, 표기 내에서 특정한 콘텐츠 유형과 연관된 하나 이상의 키워드들을 식별한다. 예를 들어, 키워드 맵핑 엔진(408)은 ＂노래＂를 ＇음악＇ 및 ＇가수＇ 콘텐츠 유형들과 맵핑한 하나 이상의 데이터베이스들을 사용한다.

명확화 엔진(404)은 키워드 맵핑 엔진(408)으로부터 발화의 표기와 연관된 특정한 콘텐츠 유형을 수신한다. 뿐만 아니라, 상술한 바와 같이, 명확화 엔진(404)은 발화와 연관된 환경 이미지 데이터를 수신한다. 동작 (E) 동안, 명확화 엔진(404)은 환경 이미지 데이터와 특정한 콘텐츠 유형을 콘텐츠 인식 엔진(410)에 제공한다.

예를 들어, 명확화 엔진(404)은 영화 사운드트랙과 관련된 환경 이미지 데이터 (예를 들어, 영화 포스터 CD 앨범 커버의 이미지) 및 발화 표기의 특정한 콘텐츠 유형 (예를 들어, ＇음악＇ 콘텐츠 유형)을 콘텐츠 인식 엔진(410)에 전송한다.

콘텐츠 인식 엔진(410)은 명확화 엔진(404)으로부터 환경 이미지 데이터 및 특정한 콘텐츠 유형을 수신한다. 그러면 동작 (F) 동안, 콘텐츠 인식 엔진(410)은 환경 이미지 데이터에 기초하며 특정한 콘텐츠 유형과 일치하는 콘텐츠 아이템 데이터를 식별하고 식별된 콘텐츠 아이템 데이터를 명확화 엔진(404)에 제공한다. 구체적으로, 콘텐츠 인식 엔진(410)은 환경 이미지 데이터를 적절히 처리하여 콘텐츠 아이템 데이터 (예를 들어 콘텐츠 아이템의 이름)를 식별한다. 덧붙여, 콘텐츠 인식 엔진(410)은 식별된 콘텐츠 아이템과 특정한 콘텐츠 유형 (예를 들어, 발화 표기의 콘텐츠 유형)과 일치시킨다. 콘텐츠 인식 엔진(408)은 (예를 들어, 네트워크를 거쳐) 식별된 콘텐츠 아이템 데이터를 명확화 엔진(408)으로 전송한다.

예를 들어, 콘텐츠 인식 엔진(410)은 영화 포스터 CD 앨범 커버의 이미지와 관련된 환경 이미지 데이터에 기초하며, 나아가 ＇음악＇ 콘텐츠 유형과 일치하는 데이터를 식별한다.

일부 예들에 있어서, 환경 이미지 데이터가 적어도 CD 앨범 커버와 연관된 영화 포스터를 포함하는 경우, 콘텐츠 인식 엔진(410)은 CD 앨범 커버와 연관된 영화 포스터에 기초하며 또한 ＇음악＇ 콘텐츠 유형과도 일치하는 콘텐츠 아이템 데이터를 식별한다. 따라서, 일부 예들에 있어서, 콘텐츠 인식 엔진(410)은 영화 사운드트랙의 제목과 관련된 콘텐츠 아이템 데이터를 식별한다. 예를 들어, 콘텐츠 인식 엔진(410)은 특정한 콘텐츠 아이템(예를 들어, 특정 영화 사운드트랙)이 영화 포스터와 연관되며, 특정한 콘텐츠 아이템(예를 들어, 특정 영화 사운드 트랙)이 특정한 콘텐츠 유형(예를 들어, ＇음악＇ 콘텐츠 유형)과 일치한다고 판단할 수 있다. 따라서, 콘텐츠 인식 엔진(410)은 환경 이미지 데이터 (예를 들어, CD 앨범 커버의 이미지)에 기초하며 나아가 특정한 콘텐츠 유형(예를 들어, ＇음악＇ 콘텐츠 유형)과 일치하는, 특정한 콘텐츠 아이템(예를 들어, 특정 영화 사운드트랙)과 관련된 데이터(예를 들어, 특정 영화 사운드트랙의 제목)를 식별할 수 있다.

명확화 엔진(404)은 콘텐츠 인식 엔진(410)으로부터 식별된 콘텐츠 아이템 데이터를 수신한다. 그 후 동작 (G)에서, 명확화 엔진(404)은 식별된 콘텐츠 아이템 데이터를 모바일 컴퓨팅 디바이스(402)에 제공한다. 예를 들어, 명확화 엔진(404)은 영화 사운드트랙과 관련된 식별된 콘텐츠 아이템 데이터 (예를 들어, 영화 사운드트랙의 제목)를 모바일 컴퓨팅 디바이스(402)로 전송한다.

위에서 언급한 바와 같이, 도 1 내지 도 4는 주변 노이즈와 같은 환경 정보에 기초하여 미디어 콘텐츠 (또는 다른 콘텐츠)를 식별할 수 있는 컴퓨팅 환경 내에서의 여러가지 예시적인 프로세스들을 도시한 것이다. 콘텐츠를 식별하기 위한 다른 프로세스들 또한 사용될 수 있다. 일반적으로, 도 5 및 6은, 발화된 자연 언어 쿼리에 대한 더욱 만족스러운 답변을 제공하기 위해, 미디어 콘텐츠를 식별하는 데이터와 같은, 컴퓨팅 환경이 환경 정보로부터 비롯된 콘텍스트에 대한 발화된 자연 언어 쿼리를 증가시킬 수 있는 예시적인 프로세스를 나타낸다.

보다 상세하게, 도 5는 환경 오디오 및 발화에 기초하여 하나 이상의 결과들을 식별하기 위한 시스템(500)을 도시한다. 일부 예시들에서, 상기 하나 이상의 결과들은 자연 언어 쿼리에 대한 하나 이상의 답변을 표현할 수 있다. 시스템(500)은 모바일 컴퓨팅 디바이스(502), 코디네이션 엔진(504), 음성 인식 엔진(506), 콘텐츠 식별 엔진(508), 및 자연 언어 쿼리 프로세싱 엔진(510)을 포함한다. 모바일 컴퓨팅 디바이스(502)는 하나 이상의 네트워크를 통해 코디네이션 엔진(504)과 통신한다. 모바일 디바이스(510)는 마이크로폰, 카메라, 또는 사용자(512) 및/또는 사용자(512)와 연관된 환경 데이터로부터의 발화를 감지하기 위한 다른 감지 메커니즘을 포함할 수 있다.

도 1의 시스템(100)과 유사하게, 사용자(512)는 텔레비전 프로그램 시청중이다. 도시된 예시에서, 사용자(512)는 누가 현재 재생중(playing)인 텔레비전 프로그램(예를 들어, 엔티티(entity))을 감독하였는지 알고 싶어한다. 일부 예시들에서, 사용자(512)는 현재 재생중인 텔레비전 프로그램의 이름을 알지 못할 수 있고, 따라서 질문 "누가 이 쇼를 감독했나요?"를 물어볼 수 있다. 모바일 컴퓨팅 디바이스(502)는, 사용자(512) 환경과 연관된 환경 데이터뿐만 아니라, 이 발화를 감지한다.

일부 예시들에서, 사용자(512)의 환경과 연관된 환경 데이터는 사용자(512) 의 환경의 배경 노이즈(background noise)를 포함할 수 있다. 예를 들어, 환경 데이터는 텔레비전 프로그램(예를 들어, 엔티티) 사운드를 포함한다. 일부 예시들에서, 현재 디스플레이된 텔레비전 프로그램과 연관된 환경 데이터는 현재 디스플레이된 텔레비전 프로그램의 오디오(예를 들어, 현재 디스플레이된 텔레비전 프로그램의 대화, 현재 디스플레이 텔레비전 프로그램과 연관된 사운드트랙 오디오, 등)를 포함할 수 있다. 일부 예시들에서, 환경 데이터는 환경 오디오 데이터, 환경 이미지 데이터, 또는 둘 다를 포함할 수 있다. 일부 예시들에서, 모바일 컴퓨팅 디바이스(502)는 발화를 감지한 후에 환경 오디오 데이터를 감지하고; 발화를 감지하면서 동시에 환경 오디오 데이터를 감지하며; 또는 양자를 모두 감지한다. 동작 (A) 동안, 모바일 컴퓨팅 디바이스(502)는 감지된 발화 및 감지된 환경 오디오 데이터(예를 들어, 텔레비전 프로그램의 사운드)를 나타내는 파형 데이터(514)를 생성하기 위해 감지된 발화 및 환경 데이터를 처리하고 파형 데이터(514)를 코디네이션 엔진(504)으로 (예를 들어, 네트워크를 통해) 전송한다.

코디네이션 엔진(504)은 모바일 컴퓨팅 디바이스(502)로부터 파형 데이터(514)를 수신한다. 동작 (B) 동안, 코디네이션 엔진(504)은, 파형 데이터(514)의 다른 부분들로부터 발화를 분리(또는 추출)하는 것을 포함하여, 파형 데이터(514)를 처리하고 파형에 대응하는 파형 데이터(514)의 부분을 음성 인식 엔진(506)으로 (예를 들어, 네트워크를 통해) 전송한다. 예를 들어, 코디네이션 엔진(504)은 사용자(512) 환경의 배경 노이즈(예를 들어, 현재 디스플레이된 텔레비전 프로그램의 오디오)로부터 발화("누가 이 쇼를 감독했나요?")를 분리한다. 일부 예시들에서, 코디네이션 엔진(504)은 음성 활동(voice activity)을 포함하는 파형 데이터(514)의 일 부분을 식별하여 배경 노이즈로부터 발화의 분리를 용이하게 하기 위해 음성 감지기(voice detector)를 이용할 수 있다. 일부 예시들에서, 발화는 쿼리(예를 들어, 현재 디스플레이된 텔레비전 프로그램과 관련있는 쿼리)와 연관된다.

음성 인식 엔진(506)은 코디네이션 엔진(504)로부터 발화에 대응하는 파형 데이터(514)의 일부를 수신한다. 동작 (C) 동안, 코디네이션 엔진(506)은 발화의 표기를 획득하고 코디네이션 엔진(504)으로 상기 표기를 제공한다. 특히, 음성 인식 엔진(506)은 코디네이션 엔진(504)으로부터 수신된 발화에 대응하는 파형 데이터(514)의 일부를 적절하게 처리한다. 일부 예시들에서, 음성 인식 엔진(506)에 의한 발화에 대응하는 파형 데이터(514)의 일부를 처리하는 단계는 발화의 표기를 생성하는 단계를 포함한다. 발화의 표기를 생성하는 단계는 발화를 텍스트 또는 텍스트-관련 데이터로 표기하는 단계를 포함할 수 있다. 다시 말해서, 음성 인식 엔진(506)은 발화의 서면 형태(in written form of the utterance)의 언어 표현을 제공할 수 있다.

예를 들어, 음성 인식 엔진(506)은 "누가 이 쇼를 감독했나요?"의 표기를 생성하기 위해 상기 발화를 표기(transcribe)한다. 일부 실시예에서, 음성 인식 엔진(506)은 상기 발화의 둘 이상의 표기를 제공한다. 예를 들어, 음성 인식 엔진(506)은 "누가 이 쇼를 감독했나요?(Who directed this show?)" 및 "누가 이 신발을 지시했나요?(Who directed this shoe?)"의 표기를 생성하기 위해 상기 발화를 표기할 수 있다.

코디네이션 엔진(504)은 음성 인식 엔진(506)으로부터 발화의 표기를 수신한다. 나아가, 위에서 언급한 바와 같이, 코디네이션 엔진(504)은 모바일 컴퓨팅 디바이스(502)로부터 발화와 연관된 환경 오디오 데이터를 포함하는 파형 데이터(514)를 수신한다. 코디네이션 엔진(504)은 이제 환경 데이터를 이용하여 엔티티(an entity)를 식별한다. 특히, 코디네이션 엔진(504)은 콘텐츠 식별 엔진(508)으로부터 엔티티를 식별하는 데이터를 획득한다. 그렇게 하기 위해, 동작 (D) 동안, 코디네이션 엔진(504)은 환경 데이터 및 발화에 대응하는 파형 데이터(514)의 부분을 컨텐츠 식별 엔진(508)으로 (예를 들어, 네트워크를 통해) 제공한다.

예를 들어, 코디네이션 엔진(504)은 현재 디스플레이된 텔레비전 프로그램의 오디오(예를 들어, 현재 디스플레이된 텔레비전 프로그램의 대화, 현재 디스플레이된 텔레비전 프로그램과 연관된 사운드트랙 오디오, 등)를 포함하는 현재 디스플레이된 텔레비전 프로그램(예를 들어, 엔티티)과 관련된 환경 데이터 및 발화("누가 이 쇼를 감독했나요?")에 대응하는 파형(514)의 부분을 콘텐츠 식별 엔진(508)으로 전송한다.

일부 실시예에서, 코디네이션 엔진(504)은 콘텐츠 식별 엔진(508)으로 환경 데이터의 일 부분을 제공한다. 일부 예시들에서, 환경 데이터의 일부는 발화 감지 후에 모바일 컴퓨팅 디바이스(502)에 의해 감지된 배경 노이즈를 포함할 수 있다. 일부 예시들에서, 환경 데이터의 일부는 발화 감지와 동시에 모바일 컴퓨팅 디바이스(502)에 의해 감지되는 배경 노이즈를 포함할 수 있다.

콘텐츠 식별 엔진(508)은 코디네이션 엔진(504)으로부터 환경 데이터 및 발화에 대응하는 파형(514)의 일부를 수신한다. 동작 (E) 동안, 콘텐츠 식별 엔진(508)은 환경 데이터와 발화에 기초한 엔티티(예를 들어, 콘텐츠 아이템 데이터)를 식별하는 데이터를 식별하고, 엔티티를 식별하는 상기 데이터를 코디네이션 엔진(504)으로 (예를 들어, 네트워크를 통해) 제공한다. 특히, 콘텐츠 식별 엔진(508)은 환경 데이터(예를 들어, 텔레비전 쇼의 이름, 노래의 이름, 등)와 연관된 엔티티(예를 들어, 콘텐츠 아이템 데이터)를 식별하는 데이터를 식별하기 위해 환경 데이터 및 발화에 대응하는 파형(514)의 일부를 적절하게 처리한다.

예를 들어, 콘텐츠 식별 엔진(508)은 현재 디스플레이된 텔레비전 프로그램과 연관된 콘텐츠 아이템 데이터를 식별하기 위해 환경 오디오 데이터를 처리한다. 일부 실시예에서, 콘텐츠 식별 엔진(508)은 도 1의 시스템(100)이다.

코디네이션 엔진(504)은 콘텐츠 식별 엔진(508)으로부터 엔티티(예를 들어, 콘텐츠 아이템 데이터)를 식별하는 데이터를 수신한다. 나아가, 전술한 바와 같이, 코디네이션 엔진(504)은 음성 인식 엔진(506)으로부터 표기를 수신한다. 동작 (F) 동안, 코디네이션 엔진(504)은 이제 표기를 포함하는 쿼리와 엔티티를 식별하는 데이터를 자연 언어 쿼리 프로세싱 엔진(510)으로 (예를 들어, 네트워크를 통해) 제공한다. 예를 들어, 코디네이션 엔진(504)은 발화("누가 이 쇼를 감독했나요?")의 표기를 포함하는 쿼리 및 콘텐츠 아이템 데이터('텔레비전 쇼 이름')을 자연 언어 쿼리 프로세싱 엔진(510)으로 제공한다.

일부 예시들에서, 코디네이션 엔진(504)은 쿼리를 생성한다. 일부 예시들에서, 코디네이션 엔진(504)은 (예를 들어, 제 3 서버로부터) 쿼리를 획득한다. 예를 들어, 코디네이션 엔진(504)은 발화의 표기, 및 엔티티를 식별하는 데이터를 제 3 서버로 제출하고, 상기 표기 및 엔티티를 식별하는 데이터에 기초한 쿼리를 회신한다.

일부 실시예에서, 코디네이션 엔진(504)에 의해 쿼리를 생성하는 단계는 발화의 표기를 엔티티(예를 들어, 콘텐츠 아이템 데이터)를 식별하는 데이터와 연관시키는 단계를 포함할 수 있다. 일부 예시들에서, 발화의 표기를 콘텐츠 아이템 데이터와 연관시키는 단계는 상기 표기에 엔티티를 식별하는 데이터를 태그하는 단계(tagging)를 포함할 수 있다. 예를 들어, 코디네이션 엔진(504)은 표기 "누가 이 쇼를 감독했나요?"에 '텔레비전 쇼 이름' 또는 컨텐츠 아이템 데이터와 연관된 다른 식별 정보(예를 들어, 식별(ID) 번호)를 태그할 수 있다. 일부 예시들에서, 발화의 표기를 엔티티를 식별하는 데이터와 연관시키는 단계는 표기의 일 부분을 엔티티를 식별하는 데이터로 대체하는 단계를 포함한다. 예를 들어, 코디네이션 엔진(504)은 표기 "누가 이 쇼를 감독했나요?"의 일 부분을 '텔레비전 쇼 이름' 또는 '텔레비전 쇼 이름'을 식별하는 데이터로 대체할 수 있다. 일부 예시들에서, 표기의 일 부분을 엔티티를 식별하는 데이터로 대체하는 단계는 발화의 표기의 하나 이상의 단어들을 엔티티를 식별하는 데이터로 대체하는 단계를 포함할 수 있다. 예를 들어, 코디네이션 엔진(504)은 표기 "누가 이 쇼를 감독했나요?"에서 '텔레비전 쇼 이름' 또는 '텔레비전 쇼 이름'을 식별하는 데이터를 대체할 수 있다. 예를 들어, 상기 대체는 "누가 '텔레비전 쇼 이름'을 감독했나요?(Who directed ‘television show name')" 또는 "누가 ID 번호를 감독했나요?(Who directed ‘ID number’)"를 포함하는 표기를 초래할 수 있다.

자연 언어 쿼리 프로세싱 엔진(510)은 코디네이션 엔진(504)으로부터 표기를 포함하는 쿼리 및 엔티티(예를 들어, 콘텐츠 아이템 데이터)를 식별하는 데이터를 수신한다. 동작 (G) 동안, 자연 언어 쿼리 프로세싱 엔진(510)은 쿼리를 적절하게 처리하고 상기 처리에 기초하여, 하나 이상의 결과들을 코디네이션 엔진(504)으로 (예를 들어, 네트워크를 통해서) 제공한다. 다시 말해서, 코디네이션 엔진(510)은 (예를 들어, 자연 언어 쿼리 프로세싱 엔진(510)으로부터) 쿼리에 대한 하나 이상의 결과를 획득한다.

특히, 자연 언어 쿼리 프로세싱 엔진(510)은 (정보 리소스의 컬렉션으로부터) 쿼리에 관련된 정보 리소스(발화의 표기 및 콘텐츠 아이템 데이터)를 획득한다. 일부 예시들에서, 자연 언어 쿼리 프로세싱 엔진(510)은 쿼리를 데이터베이스 정보(예를 들어, 텍스트 문서, 이미지, 오디오, 비디오, 등)에 대하여 매칭시키고 데이터베이스의 각 개체들이 쿼리에 얼마나 잘 매칭되는지에 대한 점수가 계산된다. 자연 언어 쿼리 프로세싱 엔진(510)은 상기 매칭된 개체들(예를 들어, 임계점수보다 높은 점수를 갖는 개체들)에 기초하여 하나 이상의 결과들을 식별한다.

예를 들어, 자연 언어 쿼리 프로세싱 엔진(510)은 발화 "누가 이 쇼를 감독했나요?"의 표기를 포함하는 쿼리 및 '텔레비전 쇼 이름' (또는 다른 식별 정보)를 수신한다. 자연 언어 쿼리 프로세싱 엔진(510)은 상기 쿼리를 데이터베이스 정보에 대하여 매칭시키고, 쿼리를 매칭시키는 하나 이상의 결과들을 제공한다. 자연 언어 쿼리 프로세싱 엔진(510)은 각 매칭된 개체들의 점수를 계산한다.

코디네이션 엔진(504)은 자연 언어 쿼리 프로세싱 엔진(510)으로부터 하나 이상의 결과들을 수신한다. 동작 (H)에서, 이제 코디네이션 엔진(504)은 상기 하나 이상의 결과들을 모바일 컴퓨팅 디바이스(502)로 (예를 들어, 네트워크를 통해서) 제공한다. 예를 들어, 코디네이션 엔진(504)은 하나 이상의 결과들(예를 들어, 텔레비전 쇼의 감독의 이름)을 모바일 컴퓨팅 디바이스(502)로 전송한다.

일부 예시들에서, 하나 이상의 모바일 컴퓨팅 디바이스(502), 코디네이션 엔진(504), 음성 인식 엔진(506), 콘텐츠 식별 엔진(508), 및 자연 언어 쿼리 프로세싱 엔진(510)은 모바일 컴퓨팅 디바이스(502), 코디네이션 엔진(504), 음성 인식 엔진(506), 콘텐츠 식별 엔진(508), 및 자연 언어 쿼리 프로세싱 엔진(510)의 서브셋(또는 각각)과 통신할 수 있다. 일부 실시예에서, 하나 이상의 코디네이션 엔진(504), 음성 인식 엔진(506), 콘텐츠 식별 엔진(508), 및 자연 언어 쿼리 프로세싱 엔진(510)은, 하나 이상의 컴퓨팅 서버, 분산 컴퓨팅 시스템, 또는 서버 팜(server farm) 또는 클러스터(cluster)와 같은, 하나 이상의 컴퓨팅 디바이스에 의해 구현될 수 있다.

도 6은 환경 데이터 및 발화에 기초하여 하나 이상의 결과들을 식별하기 위한 예시 프로세스(600)의 흐름도를 도시한다. 예시 프로세스(600)은 하나 이상의 컴퓨팅 디바이스를 이용하여 실행될 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스(502), 코디네이션 엔진(504), 음성 인식 엔진(506), 콘텐츠 식별 엔진(508), 및/또는 자연 언어 쿼리 프로세싱 엔진(510)은 예시 프로세스(600)을 실행하기 위해 이용될 수 있다.

발화 및 환경 데이터를 부호화한(encoding) 오디오 데이터가 수신된다(602). 예를 들어, 코디네이션 엔진(504)은 모바일 컴퓨팅 디바이스(502)로부터 파형 데이터(514)를 수신한다. 파형 데이터(514)는 사용자의 발화(예를 들어, "누가 이 쇼를 감독했나요?") 및 환경 데이터(예를 들어, 현재 디스플레이된 텔레비전 프로그램의 오디오)를 포함한다. 일부 예시들에서, 환경 데이터를 수신하는 단계는 환경 오디오 데이터, 환경 이미지 데이터, 또는 둘 다를 수신하는 단계를 포함할 수 있다. 일부 예시들에서, 환경 데이터를 수신하는 단계는 배경 노이즈를 포함하는 부가적인 오디오 데이터를 수신하는 단계를 포함한다.

발화의 표기가 획득된다(604). 예를 들어, 코디네이션 엔진(504)은 음성 인식 엔진(506)을 이용하여 발화의 표기를 획득한다. 음성 인식 엔진(506)은 발화의 표기(예를 들어, "누가 이 쇼를 감독했나요?")를 생성하기 위해 상기 발화를 표기(transcribe)한다.

엔티티가 환경 데이터를 이용하여 식별된다(606). 예를 들어, 코디네이션 엔진(504)은 콘텐츠 식별 엔진(508)을 이용하여 엔티티를 식별하는 데이터를 획득한다. 콘텐츠 식별 엔진(508)은 환경 데이터(예를 들어, 텔레비전 쇼의 이름, 노래의 제목, 등)와 연관된 엔티티(예를 들어, 콘텐츠 아이템 데이터)를 식별하는 데이터를 식별하기 위해 환경 데이터(예를 들어, 디스플레이된 텔레비전 프로그램과 연관된 환경 오디오 데이터)를 적절하게 처리할 수 있다. 일부 예시들에서, 콘텐츠 식별 엔진(508)은 엔티티를 식별하기 위해 (동시에 또는 환경 데이터의 처리에 후속하여) 발화에 대응하는 파형(514)을 더 처리할 수 있다.

일부 예시들에서, 코디네이션 엔진(504)은 쿼리를 생성한다. 일부 예시들에서, 코디네이션 엔진(504)에 의해 쿼리가 생성되는 단계는 발화의 표기를 엔티티를 식별하는 데이터와 연관시키는 단계를 포함할 수 있다. 일부 예시들에서, 발화의 표기를 콘텐츠 아이템 데이터와 연관시키는 단계는 표기의 일 부분을 엔티티를 식별하는 데이터로 대체하는 단계를 포함할 수 있다. 일부 예시들에서, 표기의 일 부분을 엔티티를 식별하는 데이터로 대체하는 단계는 발화의 표기의 하나 이상의 단어들을 엔티티를 식별하는 데이터로 대체하는 단계를 포함할 수 있다.

쿼리는 자연 언어 프로세싱 엔진으로 제출된다(608). 예를 들어, 코디네이션 엔진(504)은 쿼리를 자연 언어 프로세싱 엔진(510)으로 제출한다. 쿼리는 표기의 적어도 일 부분 및 엔티티(예를 들어, 콘텐츠 아이템 데이터)를 식별하는 데이터를 포함할 수 있다. 예를 들어, 코디네이션 엔진(504)은 발화("누가 이 쇼를 감독했나요?")의 표기를 포함하는 쿼리 및 콘텐츠 아이템 데이터('텔레비전 쇼 이름')을 자연 언어 쿼리 프로세싱 엔진(510)으로 제공한다.

쿼리에 대한 하나 이상의 결과들이 획득된다(610). 예를 들어, 코디네이션 엔진은 자연 언어 쿼리 프로세싱 엔진(510)으로부터 쿼리에 대한 하나 이상의 결과들(예를 들어, 텔레비전 쇼의 감독의 이름)을 획득한다. 일부 예시들에서, 코디네이션 엔진(504)은 이제 상기 하나 이상의 결과들을 모바일 컴퓨팅 디바이스(502)로 제공한다.

도 7은 여기에 설명된 기술이 이용될 수 있는 일반적인(generic) 컴퓨팅 디바이스(700) 및 일반적인 모바일 컴퓨팅 디바이스(750)의 일 예시를 나타낸다. 컴퓨팅 디바이스(700)는 랩탑, 데스트탑, 워크스테이션, PDA, 서버, 블레이드(blade) 서버, 메인프레임, 및 그 밖의 적절한 컴퓨터들과 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위해 사용된다. 모바일 컴퓨팅 디바이스(750)는 PDA, 셀룰라 전화, 스마트폰, 및 그 밖의 유사한 컴퓨팅 디바이스와 같은 다양한 형태의 모바일 디바이스를 나타내기 위해 사용된다. 여기에 보여지는 컴포넌트들, 그 연결 및 관계, 및 그 기능들은 단지 예시를 의미하고, 본 명세서에서 설명하거나 또는 청구된 기술의 실시예를 제한하는 것을 의미하지 않는다.

컴퓨팅 디바이스(700)는 프로세서(702), 메모리(704), 저장 디바이스(706), 메모리(704)에 접속하는 고속 인터페이스(708)와 고속 확장 포트(710), 및 저속 버스(714)와 저장 디바이스(706)에 접속하는 저속 인터페이스(712)를 포함한다. 각 구성요소(702, 704, 706, 708, 710, 및 512)는 다양한 버스들을 사용하여 서로 접속되고, 일반적인 마더보드 또는 적절한 경우 다른 방식으로 탑재될 수 있다. 프로세서(702)는 컴퓨팅 디바이스(700) 내에서 실행하기 위한 명령어를 처리할 수 있으며, 이러한 명령어에는, 고속 인터페이스(708)에 연결된 디스플레이(716)와 같은 외장 입/출력 디바이스상에서 GUI용 그래픽 정보를 디스플레이하기 위해, 메모리(704) 또는 저장 디바이스(706)에 저장되는 명령어가 포함된다. 다른 실시예에서, 다중 프로세서 및/또는 다중 버스는 적절한 경우, 다중 메모리 및 메모리 타입과 함께 사용될 수 있다. 또한, 다중 컴퓨팅 디바이스(700)는 각 디바이스가 필요 동작의 부분을 제공하는 형태(예를 들어, 서버 뱅크, 블레이드 서버의 그룹, 또는 다중 프로세서 시스템)로 접속될 수 있다.

메모리(704)는 컴퓨팅 디바이스(700)내에 정보를 저장한다. 일 실시예에서, 메모리(704)는 휘발성 메모리 유닛 또는 유닛들이다. 또 다른 실시예에서, 메모리(704)는 비휘발성 메모리 유닛 또는 유닛들이다. 또한, 메모리(704)는 마그네틱 또는 광 디스크와 같은 다른 형태의 컴퓨터 판독가능 매체일 수 있다.

저장 디바이스(706)는 컴퓨팅 디바이스(700)를 위한 대용량 저장소(mass storage)를 제공할 수 있다. 일 실시예에서, 저장 디바이스(706)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스, 또는 테이프 디바이스, 플래쉬 메모리 또는 다른 유사한 고체 상태(solid state) 메모리 디바이스, 또는 저장 영역 네트워크 또는 다른 구성에 존재하는 디바이스를 포함하는 디바이스 배열(array)일 수 있다. 컴퓨터 프로그램 제품은 정보 캐리어(information carrier) 내에 유형적으로 구체화될 수 있다. 또한, 컴퓨터 프로그램 제품은 실행될 때, 상술한 것과 같은 하나 이상의 방법을 수행하는 명령어를 포함할 수 있다. 정보 캐리어는 메모리(704), 저장 디바이스(706), 프로세서(702)상의 메모리와 같은 컴퓨터 또는 기계 판독가능 매체이다.

저속 제어부(712)가 저대역-집약적 동작(lower bandwidth-intensive operations)을 관리하는 반면, 고속 제어부(708)는 컴퓨팅 디바이스(700)에 대한 대역-집약적 동작을 관리한다. 이러한 기능들의 배치는 단지 예시적일 뿐이다. 일 실시예에서, 고속 제어부(708)는 메모리(704), 디스플레이(716)(예를 들어, 그래픽 프로세서 또는 가속기를 통함)에 연결되고, 다양한 확장 카드(도시되지 않음)을 수용할 수 있는 고속 확장 포트(710)에 연결된다. 일부 실시예에서는, 저속 제어부(712)는 저장 디바이스(706) 및 저속 확장 포트(714)에 연결된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트는 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입/출력 디바이스들에 연결되거나, 또는 예컨대 네트워크 어댑터를 통하여, 스위치나 라우터와 같은 네트워킹 디바이스에 연결될 수 있다.

컴퓨팅 디바이스(700)는 도면에 도시된 바와 같이, 복수의 다른 형태로 구현될 수 있다. 예를 들어, 컴퓨팅 디바이스(700)는 표준 서버(720)로 구현되거나 이러한 서버들의 그룹에서 여러 번(multiple time) 구현될 수 있다. 또한, 컴퓨팅 디바이스(700)는 랙 서버 시스템(724)의 부분으로서 구현될 수 있다. 이에 더하여, 컴퓨팅 디바이스(700)는 랩탑 컴퓨터(722)와 같은 개인용 컴퓨터내에 구현될 수 있다. 선택적으로, 컴퓨팅 디바이스 (700)로부터의 구성요소는 디바이스(750)와 같은 모바일 디바이스(도시되지 않음)내 다른 구성요소와 조합될 수 있다. 이러한 디바이스 각각은 하나 이상의 컴퓨팅 디바이스(700, 750)를 포함하고, 전체 시스템은 서로 통신하는 다중 컴퓨팅 디바이스(700, 750)로 구성될 수 있다.

컴퓨팅 디바이스(750)는 여러 구성요소 중에서 프로세서(752), 메모리(764), 디스플레이(754)와 같은 입/출력 디바이스, 통신 인터페이스(766), 및 트랜스시버(768)를 포함한다. 또한, 디바이스(750)에는 추가적인 저장소를 제공하기 위하여, 마이크로 드라이브 또는 다른 디바이스와 같은 저장 디바이스가 제공될 수 있다. 각 구성요소(750, 752, 764, 754, 766, 및 568)는 다양한 버스를 이용하여 서로 접속되고, 구성요소의 몇몇은 통상의 마더보드에 탑재되거나 적절한 다른 방법으로 탑재될 수 있다.

프로세서(752)는 컴퓨팅 디바이스(750) 내에서 명령어를 실행하며, 이 명령어에는 메모리(764)에 저장된 명령어가 포함된다. 프로세서는 개별적이고 다중의 아날로그 및 디지털 프로세서를 포함하는 칩들의 칩 세트로서 구현될 수 있다. 프로세서는, 예를 들어, 사용자 인터페이스의 컨트롤, 디바이스(750)에 의해 실행되는 애플리케이션, 및 컴퓨팅 디바이스(750)에 의한 무선 통신과 같은 디바이스(750)의 다른 구성요소들 사이에 조정을 제공할 수 있다.

프로세서(752)는 제어 인터페이스(758) 및 디스플레이(754)에 연결된 디스플레이 인터페이스(756)를 통해 사용자와 통신할 수 있다. 디스플레이(754)는, 예를 들어, TFT LCD(Thin-Film-Tansistor Liquid Crystal Display) 또는 OLED(Organic Light Emitting Diode) 디스플레이, 또는 다른 적절한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(756)는 그래픽 및 다른 정보를 사용자에게 나타내기 위해 디스플레이(754)를 구동하는 적절한 회로를 포함할 수 있다. 제어 인터페이스(758)는 사용자로부터 명령들을 수신하고, 프로세서(752)에 제출하기 위해 그 명령들을 변환한다. 더욱이, 확장 인터페이스(762)는 디바이스(750)와 다른 디바이스들간에 근거리 통신이 가능하도록 하기 위해, 프로세서(752)와의 통신에 제공될 수 있다. 확장 인터페이스(762)는, 예를 들어, 일부 실시예에서는 유선 통신을 제공하고 다른 실시예에서 무선 통신을 제공하며, 또한 다중 인터페이스가 사용될 수 있다.

메모리(764)는 컴퓨팅 디바이스(750)내에 정보를 저장한다. 메모리(764)는 컴퓨터 판독가능 매체 또는 미디어, 휘발성 메모리 유닛 또는 유닛들, 또는 비휘발성 메모리 유닛 또는 유닛들 중 하나 이상으로서 구현될 수 있다. 또한, 확장 메모리(774)가 제공되어, 예를 들어 SIMM(Single In Line Memory Module) 카드 인터페이스를 포함하는 확장 인터페이스(774)를 통해 디바이스(750)에 접속될 수 있다. 이러한 확장 메모리(774)는 디바이스(750)를 위한 여분의 저장 공간을 제공할 수 있고, 또한 어플리케이션 또는 디바이스(750)를 위한 다른 정보를 저장할 수 있다. 특히, 확장 메모리(774)는 상술된 프로세스를 실행하거나 보조하기 위한 명령어를 포함하고, 또한 보안 정보를 포함할 수 있다. 따라서, 예를 들어, 확장 메모리(774)는 디바이스(750)용 보안 모듈(security module)로서 제공될 수 있고, 디바이스(750)의 안전한 사용을 가능하게 하는 명령어로 프로그램될 수 있다. 더욱이, 보안 어플리케이션은, 해킹할 수 없는 방식(non-hackable manner)으로 SIMM 카드상에 식별 정보를 위치시킨 것과 같은 추가적 정보와 함께 SIMM 카드를 통해 제공될 수 있다.

메모리는 아래에서 논의되는 것과 같이, 예를 들어, 플래시 메모리 및/또는 NVRAM 메모리를 포함할 수 있다. 일 실시예에서, 컴퓨터 프로그램 제품은 정보 캐리어에 유형적으로 구체화된다. 컴퓨터 프로그램 제품은 실행될 때, 상술된 것과 같은 하나 이상의 방법을 수행하는 명령어를 포함한다. 정보 캐리어는 메모리(764), 확장 메모리(774), 프로세서(752)상의 메모리, 또는 예를 들어 트랜스시버(768) 또는 확장 인터페이스(762)를 통해 수신될 수 있는 전달된 신호와 같은 컴퓨터-또는 기계-판독가능 매체이다.

디바이스(750)는 디지털 신호 처리 회로를 필요에 따라 포함하는 통신 인터페이스(766)를 통해 무선으로 통신할 수 있다. 통신 인터페이스(766)는 GSM 음성 호, SMS, EMS, 또는 MMS 메시징, CDMA, TDMA, PDC, WCDMA, CDMA2000, 또는 GPRS 등과 같은 다양한 모드 또는 프로토콜 하에서의 통신을 제공할 수 있다. 이러한 통신은 예를 들어, 무선-주파수 트랜스시버(768)를 통해 수행될 수 있다. 또한, 단거리(short range) 통신은 예를 들어, 블루투스, WiFi, 또는 다른 이러한 트랜스시버(도시되지 않음)를 사용하여 수행될 수 있다. 이에 더하여, GPS(Global Position System) 수신기 모듈(770)은 추가적인 항법- 및 위치- 관련 무선 데이터를 디바이스(750)에 제공할 수 있다. 이 무선 데이터는 디바이스(750)에서 실행중인 어플리케이션에 의해 적절하게 사용될 수 있다.

또한, 디바이스(750)는 사용자로부터의 발화 정보(spoken information)를 수신하고, 그 발화 정보를 사용가능한 디지털 정보로 변환하는 오디오 코덱(760)을 이용하여, 청취가능하게(audibly) 통신할 수 있다. 또한, 오디오 코덱(760)은 예를 들어, 디바이스(750)의 핸드셋 내의 스피커를 통하는 것과 같이 해서, 사용자가 들을 수있는 음성을 생성한다. 이러한 음성은 음성 전화 호로부터의 음성을 포함할 수 있고, 녹음된 음성(예를 들어, 음성 메시지, 뮤직 파일 등)은 포함할 수 있고, 또한 디바이스(750) 상에서 동작하는 애플리케이션에 의해 생성된 음성을 포함할 수 있다.

컴퓨팅 디바이스(750)는 도면에 도시된 바와 같이, 복수의 다양한 형태로 구현될 수 있다. 예를 들어, 컴퓨팅 디바이스(750)는 셀룰러 전화(780)로서 구현될 수 있다. 또한, 컴퓨팅 디바이스(750)는 스마트폰(782), PDA, 또는 다른 유사한 모바일 디바이스의 일부로서 구현될 수 있다.

본 명세서에 설명된 다양한 시스템과 방법의 여러 실시예는 디지털 전자 회로, 집적 회로, 특정 목적으로 설계된 ASICs(application specific integrated circuits), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 실시예에는 하나 이상의 컴퓨터 프로그램의 실시예가 포함되고, 이 컴퓨터 프로그램은 프로그램 가능한 시스템 상에서 실행가능 및/또는 해석가능(interpretable)하며, 프로그램 가능한 시스템은 저장 시스템에 연결되어 데이터와 명령을 송수신하는, 전용 또는 범용인 적어도 하나의 프로그램 가능한 프로세서, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스를 포함한다.

이러한 컴퓨터 프로그램(또한, 프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드라 함)은 프로그램 가능한 프로세서용 기계 명령을 포함하고, 고레벨 절차 및/또는 객체지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에 사용되는 바와 같이, 용어 "기계-판독가능 매체", "컴퓨터-판독가능 매체"는 기계 명령 및/또는 데이터를 프로그램 가능한 프로세서에 제공하는데 사용되는, 임의의 컴퓨터 프로그램 제품, 장치 및/또는 디바이스(예를 들어, 자기 디스크, 광디스크, 메모리, 프로그램 가능한 로직 디바이스(PLD))를 지칭하며, 기계-판독가능 신호로써 기계 명령을 수신하는 기계-판독가능 매체도 포함된다. 용어 "기계-판독가능 신호"는 명령어 및/또는 데이터를 프로그램 가능한 프로세서로 제공하기 위해 사용되는 어떠한 신호라도 참조한다.

사용자와의 상호작용을 제공하기 위하여, 본 명세서에 설명되는 시스템과 방법은, 정보를 사용자에게 디스플레이 하는 디스플레이 디바이스(예를 들어, 음극선관(CRT) 또는 LCD(liquid crystal display) 모니터) 및 사용자가 컴퓨터에 입력하는데 사용하는 키보드와 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 구비한 컴퓨터상에서 구현될 수 있다. 다른 카테고리의 디바이스도 사용자와의 상호작용을 제공하기 위하여 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 지각 피드백(시각, 청각 또는 촉각 피드백)의 임의 형태가 될 수 있고, 사용자로부터의 입력은 음향(acoustic), 음성(speech) 또는 촉각 입력을 포함하는 임의 형태로 수신될 수 있다.

본 명세서에 설명된 다양한 시스템과 방법은, 백엔드 구성요소(예를 들어, 데이터 서버), 또는 미들웨어 구성요소(예를 들어, 애플리케이션 서버) 또는 전치(frontend) 구성요소(예를 들어, 본 명세서에 설명된 시스템 및 방법의 실시예와 상호작용하기 위해 사용자가 사용할 수 있는 그래픽 사용자 인터페이스(GUI) 또는 웹브라우저를 구비한 클라이언트 컴퓨터) 또는 이러한 백엔드, 미들웨어 또는 전치(frontend) 구성요소의 임의 조합을 포함하는 컴퓨팅 시스템으로 구현될 수 있다. 시스템의 구성요소는 임의 형태 또는 디지털 데이터 통신의 매체(예를 들어, 통신 네트워크)에 의해 상호접속될 수 있다. 통신 네트워크의 예는 근거리 네트워크("LAN"), 광역 네트워크("WAN"), 및 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있고, 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는, 각 컴퓨터에서 실행 중이며 서로에 대하여 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들에 의해 발생한다.

본 명세서가 몇몇 특징들을 포함하지만, 이것들은 개시된 내용 또는 청구될 수 있는 내용의 범위를 제한하는 것으로 해석되서는 안되며, 개시된 내용의 예시 실시예들의 특징의 설명으로써 해석되어야 할 것이다. 본 명세서에서 분리된 실시예들의 콘텍스트에 기재된 어떤 특징들은 하나의 실시예에서 결합되어 제공될 수도 있다. 역으로, 하나의 실시예의 콘텍스트에 기재된 다양한 특징들은 별개의 또는 어떤 적절한 서브컴비네이션의 다수의 실시예에서 제공될 수 있다. 나아가, 특징들이 위에서 특정 조건들에서 동작하거나 심지어 그와 같이 제기되었다 하더라도, 제기된 조합들로부터의 하나 이상의 특징들은 어떤 경우에는 조합으로부터 삭제될 수 있고, 제기된 조합은 하위조합 또는 하위조합의 변형으로 지시될 수 있다.

유사하게, 동작들이 도면에서 특정 순서로 도시되었지만, 이는 그러한 동작들이 도시된 특정 순서 또는 시계열적 순서로 수행되어야 하는 것, 또는 원하는 결과를 달성하기 위해 모든 도시된 동작들이 수행되는 것을 요구하는 것으로 이해되서는 안된다. 특정 상황에서는, 멀티태스킹 및 병행 처리가 유리할 수 있다. 나아가, 위에서 기술된 실시예들의 다양한 시스템 컴퍼넌트의 구분은 모든 실시예에서 그러한 구분이 요구되는 것으로 해석되어서는 안되며, 기술된 프로그램 컴퍼넌트 및 시스템은 일반적으로 하나의 소프트웨어 제품에 통합되거나 멀티플 소프트웨어 제품으로 패키지 될 수 있는 것으로 이해되어야 한다.

즉, 본 발명의 특정 실시예들이 기술되었다. 다른 실시예들도 다음의 청구항의 범위 내에 있다. 예를 들어, 청구항에서 인용하는 동작들은 다른 순서로 수행될 수 있고 여전히 원하는 결과를 달성할 수 있다. 다수의 실시예들이 기술되었다. 그럼에도 불구하고, 본 발명의 범위 및 사상으로부터 벗어나지 않고 다양한 변형들이 가해질 수 있음이 이해될 것이다. 예를 들어, 순서 재배치된(re-ordered), 추가된, 제거된 단계들과 함께 위에서 보여진 다양한 형태의 플로우가 사용될 수 있다. 따라서, 다른 실시예들도 다음의 청구항들의 범위 내에 있다.

104: 명확화 엔진
106: 음성 인식 엔진
108: 키워드 매핑 엔진
110: 콘텐츠 인식 엔진

Claims

컴퓨팅 디바이스에 의해, 발화(utterence) 및 환경 데이터(environmental data)를 수신하는 단계;
상기 컴퓨팅 디바이스에 의해, 상기 발화에 대한 표기(transcription)를 획득하는 단계;
상기 컴퓨팅 디바이스에 의해, 상기 환경 데이터를 이용하여 엔티티를 식별하는 단계;
상기 컴퓨팅 디바이스에 의해, 상기 표기의 적어도 일부와 상기 엔티티를 식별하는 데이터를 포함하는 쿼리를 자연 언어 쿼리 프로세싱 엔진(natural language query processing engine)에 제출하는 단계; 및
상기 컴퓨팅 디바이스에 의해, 상기 쿼리에 대한 하나 이상의 결과를 획득하는 단계를 포함하는 컴퓨터 구현 방법.
청구항 1에 있어서,
적어도 하나의 결과의 표현(representation)을 출력하는 단계를 더 포함하는 컴퓨터 구현 방법.
청구항 1에 있어서,
상기 엔티티는 상기 발화를 추가로 이용하여 식별되는 컴퓨터 구현 방법.
청구항 1에 있어서,
상기 쿼리를 생성하는 단계를 더 포함하는 컴퓨터 구현 방법.
청구항 4에 있어서,
상기 쿼리를 생성하는 단계는 상기 표기와, 상기 엔티티를 식별하는 상기 데이터를 연관시키는 단계를 포함하는 컴퓨터 구현 방법.
청구항 5에 있어서,
상기 연관시키는 단계는 상기 표기를, 상기 엔티티를 식별하는 상기 데이터로 태깅(tagging)하는 단계를 더 포함하는 컴퓨터 구현 방법.
청구항 5에 있어서,
상기 연관시키는 단계는 상기 표기의 일부를, 상기 엔티티를 식별하는 상기 데이터로 대체(substitute)하는 단계를 더 포함하는 컴퓨터 구현 방법.
청구항 7에 있어서,
상기 대체하는 단계는 상기 표기의 하나 이상의 단어를, 상기 엔티티를 식별하는 상기 데이터로 대체하는 단계를 더 포함하는 컴퓨터 구현 방법.
청구항 1에 있어서,
상기 환경 데이터를 수신하는 단계는 환경 오디오 데이터, 환경 이미지 데이터, 또는 이 둘 모두를 수신하는 단계를 더 포함하는 컴퓨터 구현 방법.
청구항 9에 있어서,
상기 환경 오디오 데이터를 수신하는 단계는 배경 소음(background noise)을 포함하는 추가 오디오 데이터를 수신하는 단계를 더 포함하는 컴퓨터 구현 방법.
하나 이상의 컴퓨터와 명령어들을 저장하는 하나 이상의 저장 디바이스를 포함하는 시스템으로서, 상기 명령어들은 상기 하나 이상의 컴퓨터에 의해 실행되었을 때, 상기 하나 이상의 컴퓨터로 하여금
발화 및 환경 데이터를 수신하는 동작;
상기 발화에 대한 표기를 획득하는 동작;
상기 환경 데이터를 이용하여 엔티티를 식별하는 동작;
상기 표기의 적어도 일부와 상기 엔티티를 식별하는 데이터를 포함하는 쿼리를 자연 언어 쿼리 프로세싱 엔진에 제출하는 동작; 및
상기 쿼리에 대한 하나 이상의 결과를 획득하는 동작을 수행할 수 있게 하는 시스템.
청구항 11에 있어서,
쿼리를 생성하는 동작을 더 포함하고,
상기 쿼리를 생성하는 동작은 상기 표기와, 상기 엔티티를 식별하는 상기 데이터를 연관시키는 동작을 포함하는 시스템.
청구항 12에 있어서,
상기 연관시키는 동작은 상기 표기를, 상기 엔티티를 식별하는 상기 데이터로 태깅하는 동작을 더 포함하는 시스템.
청구항 12에 있어서,
상기 연관시키는 동작은 상기 표기의 일부를, 상기 엔티티를 식별하는 상기 데이터로 대체하는 동작을 더 포함하는 시스템.
청구항 14에 있어서,
상기 대체하는 동작은 상기 표기의 하나 이상의 단어를, 상기 엔티티를 식별하는 상기 데이터로 대체하는 동작을 더 포함하는 시스템.
청구항 11에 있어서,
상기 환경 데이터를 수신하는 동작은 환경 오디오 데이터, 환경 이미지 데이터, 또는 이 둘 모두를 수신하는 동작을 더 포함하는 시스템.
청구항 16에 있어서,
상기 환경 오디오 데이터를 수신하는 동작은 배경 소음을 포함하는 추가 오디오 데이터를 수신하는 동작을 더 포함하는 시스템.
하나 이상의 컴퓨터에 의해 실행가능한 명령어들을 포함하는 소프트웨어를 저장하는 컴퓨터-판독가능 매체로서, 상기 명령어들은 상기 하나 이상의 컴퓨터에 의해 실행되었을 때, 상기 하나 이상의 컴퓨터로 하여금
발화 및 환경 데이터를 인코딩하는 오디오 데이터를 수신하는 동작;
상기 발화에 대한 표기를 획득하는 동작;
상기 환경 데이터를 이용하여 엔티티를 식별하는 동작;
상기 표기의 적어도 일부와 상기 엔티티를 식별하는 데이터를 포함하는 쿼리를 자연 언어 쿼리 프로세싱 엔진에 제출하는 동작; 및
상기 쿼리에 대한 하나 이상의 결과를 획득하는 동작을 수행하게 하는 컴퓨터-판독가능 매체.
청구항 18에 있어서,
쿼리를 생성하는 동작을 더 포함하고,
상기 쿼리를 생성하는 동작은 상기 표기와, 상기 엔티티를 식별하는 상기 데이터를 연관시키는 동작을 포함하는 컴퓨터-판독가능 매체.
청구항 19에 있어서,
상기 연관시키는 동작은 상기 표기를 상기 엔티티를 식별하는 상기 데이터로 태깅하는 동작을 더 포함하는 컴퓨터-판독가능 매체.
청구항 19에 있어서,
상기 연관시키는 동작은 상기 표기의 일부를, 상기 엔티티를 식별하는 상기 데이터로 대체하는 동작을 더 포함하는 컴퓨터-판독가능 매체.
청구항 21에 있어서,
상기 대체하는 동작은 상기 표기의 하나 이상의 단어를, 상기 엔티티를 식별하는 상기 데이터로 대체하는 동작을 더 포함하는 컴퓨터-판독가능 매체.
컴퓨팅 디바이스에 의해, (ⅰ) 발화된 자연 언어 쿼리를 인코딩하는 오디오 데이터 및 (ⅱ) 환경 오디오 데이터를 수신하는 단계;
상기 컴퓨팅 디바이스에 의해, 상기 발화된 자연 언어 쿼리에 대한 표기를 획득하는 단계;
상기 컴퓨팅 디바이스에 의해, 상기 표기에 있는 하나 이상의 키워드에 연관된 특정 콘텐츠 유형(particular content type)을 판단하는 단계;
상기 컴퓨팅 디바이스에 의해, 상기 환경 오디오 데이터의 적어도 일부를 콘텐츠 인식 엔진에 제공하는 단계; 및
상기 컴퓨팅 디바이스에 의해, 상기 콘텐츠 인식 엔진에 의해 출력되었고, 상기 특정 콘텐츠 유형에 매칭되는 콘텐츠 아이템을 식별하는 단계를 포함하는 컴퓨터 구현 방법.
청구항 23에 있어서,
상기 특정 콘텐츠 유형은 영화 콘텐츠 유형, 음악 콘텐츠 유형, 텔레비전 쇼 콘텐츠 유형, 오디오 팟캐스트 콘텐츠 유형, 북 콘텐츠 유형, 미술작품 콘텐츠 유형, 예고편(trailer) 콘텐츠 유형, 비디오 팟게스트 콘텐츠 유형, 인터넷 비디오 콘텐츠 유형, 또는 비디오 게임 콘텐츠 유형인 컴퓨터 구현 방법.
청구항 23에 있어서,
상기 환경 오디오 데이터를 수신하는 단계는 배경 소음을 포함하는 추가 오디오 데이터를 수신하는 단계를 더 포함하는 컴퓨터 구현 방법.
청구항 23에 있어서,
비디오 데이터 또는 이미지 데이터를 포함하는 추가 환경 데이터를 수신하는 단계를 더 포함하는 컴퓨터 구현 방법.
청구항 23에 있어서,
상기 콘텐츠 아이템을 식별하는 데이터를 출력하는 단계를 더 포함하는 컴퓨터 구현 방법.
청구항 23에 있어서,
상기 환경 오디오 데이터의 적어도 일부를 상기 콘텐츠 인식 엔진에 제공하는 단계는 상기 환경 오디오 데이터의 상기 일부를 오디오 핑거프린팅 엔진(audio fingerprinting engine)에 제공하는 단계를 더 포함하는 컴퓨터 구현 방법.
청구항 23에 있어서,
상기 특정 콘텐츠 유형을 판단하는 단계는 하나 이상의 데이터베이스를 이용하여, 복수의 콘텐츠 유형 각각에 대해, 상기 키워드들 중 적어도 하나가 상기 복수의 콘텐츠 유형 중 적어도 하나에 매핑되는 하나 이상의 키워드를 식별하는 단계를 더 포함하는 컴퓨터 구현 방법.
청구항 29에 있어서,
상기 복수의 콘텐츠 유형은 상기 특정 콘텐츠 유형을 포함하고,
상기 매핑되는 단계는 상기 키워드들 중 적어도 하나가 상기 특정 콘텐츠 유형에 매핑되는 단계를 더 포함하는 컴퓨터 구현 방법.
청구항 23에 있어서,
상기 제공하는 단계는 상기 특정 콘텐츠 유형을 식별하는 데이터를 상기 콘텐츠 인식 엔진에 제공하는 단계를 더 포함하고, 및
상기 콘텐츠 아이템을 식별하는 단계는 상기 콘텐츠 인식 엔진으로부터 상기 콘텐츠 아이템을 식별하는 데이터를 수신하는 단계를 더 포함하는 컴퓨터 구현 방법.
청구항 23에 있어서,
상기 콘텐츠 인식 엔진으로부터 2개 이상의 콘텐츠 인식 후보를 수신하는 단계를 더 포함하고,
상기 콘텐츠 아이템을 식별하는 단계는 상기 특정 콘텐츠 유형에 기초하여 특정 콘텐츠 인식 후보를 선택하는 단계를 더 포함하는 컴퓨터 구현 방법.
청구항 32에 있어서,
상기 2개 이상의 콘텐츠 인식 후보 각각은 랭킹 스코어(ranking score)와 연관되고,
상기 특정 콘텐츠 유형에 기초하여 상기 2개 이상의 콘텐츠 인식 후보의 랭킹 스코어를 조정하는 단계를 더 포함하는 컴퓨터 구현 방법.
청구항 33에 있어서,
상기 조정된 랭킹 스코어들에 기초하여 상기 2개 이상의 콘텐츠 인식 후보들의 순위를 부여하는 단계를 더 포함하는 컴퓨터 구현 방법.
하나 이상의 컴퓨터와 명령어들을 저장하는 하나 이상의 저장 디바이스를 포함하는 시스템으로서, 상기 명령어들은 상기 하나 이상의 컴퓨터에 의해 실행되었을 때, 상기 하나 이상의 컴퓨터로 하여금
(ⅰ) 발화된 자연 언어 쿼리를 인코딩하는 오디오 데이터 및 (ⅱ) 환경 오디오 데이터를 수신하는 동작;
상기 발화된 자연 언어 쿼리에 대한 표기를 획득하는 동작;
상기 표기에 있는 하나 이상의 키워드에 연관된 특정 콘텐츠 유형을 판단하는 동작;
상기 환경 오디오 데이터의 적어도 일부를 콘텐츠 인식 엔진에 제공하는 동작; 및
상기 콘텐츠 인식 엔진에 의해 출력되었고, 상기 특정 콘텐츠 유형에 매칭되는 콘텐츠 아이템을 식별하는 동작을 수행할 수 있게 하는 시스템.
청구항 35에 있어서,
상기 환경 오디오 데이터를 수신하는 동작은 배경 소음을 포함하는 추가 오디오 데이터를 수신하는 동작을 더 포함하는 시스템.
청구항 35에 있어서,
비디오 데이터 또는 이미지 데이터를 포함하는 추가 환경 데이터를 수신하는 동작을 더 포함하는 시스템.
청구항 35에 있어서,
상기 환경 오디오 데이터의 적어도 일부를 상기 콘텐츠 인식 엔진에 제공하는 동작은 상기 환경 오디오 데이터의 상기 일부를 오디오 핑거프린팅 엔진에 제공하는 동작을 더 포함하는 시스템.
청구항 35에 있어서,
상기 특정 콘텐츠 유형을 판단하는 동작은 하나 이상의 데이터베이스를 이용하여, 복수의 콘텐츠 유형 각각에 대해, 상기 키워드들 중 적어도 하나가 상기 복수의 콘텐츠 유형 중 적어도 하나에 매핑되는 하나 이상의 키워드를 식별하는 동작을 더 포함하는 시스템.
청구항 39에 있어서,
상기 복수의 콘텐츠 유형은 상기 특정 콘텐츠 유형을 포함하고,
상기 매핑되는 동작은 상기 키워드들 중 적어도 하나가 상기 특정 콘텐츠 유형에 매핑되는 동작을 더 포함하는 시스템.
청구항 35에 있어서,
상기 제공하는 동작은 상기 특정 콘텐츠 유형을 식별하는 데이터를 상기 콘텐츠 인식 엔진에 제공하는 동작을 더 포함하고, 및
상기 콘텐츠 아이템을 식별하는 동작은 상기 콘텐츠 인식 엔진으로부터 상기 콘텐츠 아이템을 식별하는 데이터를 수신하는 동작을 더 포함하는 시스템.
청구항 35에 있어서,
상기 콘텐츠 인식 엔진으로부터 2개 이상의 콘텐츠 인식 후보를 수신하는 동작을 더 포함하고,
상기 콘텐츠 아이템을 식별하는 동작은 상기 특정 콘텐츠 유형에 기초하여 특정 콘텐츠 인식 후보를 선택하는 동작을 더 포함하는 시스템.
청구항 42에 있어서,
상기 2개 이상의 콘텐츠 인식 후보 각각은 랭킹 스코어와 연관되고,
상기 특정 콘텐츠 유형에 기초하여 상기 2개 이상의 콘텐츠 인식 후보의 랭킹 스코어를 조정하는 동작을 더 포함하는 시스템.
청구항 43에 있어서,
상기 조정된 랭킹 스코어들에 기초하여 상기 2개 이상의 콘텐츠 인식 후보들의 순위를 부여하는 동작을 더 포함하는 시스템.
하나 이상의 컴퓨터에 의해 실행가능한 명령어들을 포함하는 소프트웨어를 저장하는 비-일시적(non-transitory) 컴퓨터-판독가능 매체로서, 상기 명령어들은 상기 하나 이상의 컴퓨터에 의해 실행되었을 때, 상기 하나 이상의 컴퓨터로 하여금
(ⅰ) 발화된 자연 언어 쿼리를 인코딩하는 오디오 데이터 및 (ⅱ) 환경 오디오 데이터를 수신하는 동작;
상기 발화된 자연 언어 쿼리에 대한 표기를 획득하는 동작;
상기 표기에 있는 하나 이상의 키워드에 연관된 특정 콘텐츠 유형을 판단하는 동작;
상기 환경 오디오 데이터의 적어도 일부를 콘텐츠 인식 엔진에 제공하는 동작; 및
상기 콘텐츠 인식 엔진에 의해 출력되었고, 상기 특정 콘텐츠 유형에 매칭되는 콘텐츠 아이템을 식별하는 동작을 수행하도록 하는 컴퓨터 판독가능 매체.
청구항 45에 있어서,
상기 환경 오디오 데이터의 적어도 일부를 상기 콘텐츠 인식 엔진에 제공하는 동작은 상기 환경 오디오 데이터의 상기 일부를 오디오 핑거프린팅 엔진에 제공하는 동작을 더 포함하는 컴퓨터 판독가능 매체.
청구항 45에 있어서,
상기 특정 콘텐츠 유형을 판단하는 동작은 하나 이상의 데이터베이스를 이용하여, 복수의 콘텐츠 유형 각각에 대해, 상기 키워드들 중 적어도 하나가 상기 복수의 콘텐츠 유형 중 적어도 하나에 매핑되는 하나 이상의 키워드를 식별하는 동작을 더 포함하는 컴퓨터 판독가능 매체.
청구항 47에 있어서,
상기 복수의 콘텐츠 유형은 상기 특정 콘텐츠 유형을 포함하고,
상기 매핑되는 동작은 상기 키워드들 중 적어도 하나가 상기 특정 콘텐츠 유형에 매핑되는 동작을 더 포함하는 컴퓨터 판독가능 매체.
청구항 45에 있어서,
상기 콘텐츠 아이템을 식별하는 데이터를 출력하는 동작을 더 포함하는 컴퓨터 판독가능 매체.
청구항 45에 있어서,
상기 제공하는 동작은 상기 특정 콘텐츠 유형을 식별하는 데이터를 상기 콘텐츠 인식 엔진에 제공하는 동작을 더 포함하고, 및
상기 콘텐츠 아이템을 식별하는 동작은 상기 콘텐츠 인식 엔진으로부터 상기 콘텐츠 아이템을 식별하는 데이터를 수신하는 동작을 더 포함하는 컴퓨터 판독가능 매체.
청구항 45에 있어서,
상기 콘텐츠 인식 엔진으로부터 2개 이상의 콘텐츠 인식 후보를 수신하는 동작을 더 포함하고,
상기 콘텐츠 아이템을 식별하는 동작은 상기 특정 콘텐츠 유형에 기초하여 특정 콘텐츠 인식 후보를 선택하는 동작을 더 포함하는 컴퓨터 판독가능 매체.
청구항 51에 있어서,
상기 2개 이상의 콘텐츠 인식 후보 각각은 랭킹 스코어와 연관되고,
상기 특정 콘텐츠 유형에 기초하여 상기 2개 이상의 콘텐츠 인식 후보의 랭킹 스코어를 조정하는 동작을 더 포함하는 컴퓨터 판독가능 매체.