KR20170035905A - 단일 음향 모델 및 자동 악센트 검출로 텍스트 규칙 기반 멀티-악센트 음성 인식 - Google Patents

단일 음향 모델 및 자동 악센트 검출로 텍스트 규칙 기반 멀티-악센트 음성 인식 Download PDF

Info

Publication number
KR20170035905A
KR20170035905A KR1020177001632A KR20177001632A KR20170035905A KR 20170035905 A KR20170035905 A KR 20170035905A KR 1020177001632 A KR1020177001632 A KR 1020177001632A KR 20177001632 A KR20177001632 A KR 20177001632A KR 20170035905 A KR20170035905 A KR 20170035905A
Authority
KR
South Korea
Prior art keywords
data
accent
speech recognition
phonetic
speech
Prior art date
Application number
KR1020177001632A
Other languages
English (en)
Other versions
KR102388992B1 (ko
Inventor
라자트 파신
Original Assignee
하만인터내셔날인더스트리스인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 하만인터내셔날인더스트리스인코포레이티드 filed Critical 하만인터내셔날인더스트리스인코포레이티드
Publication of KR20170035905A publication Critical patent/KR20170035905A/ko
Application granted granted Critical
Publication of KR102388992B1 publication Critical patent/KR102388992B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

컴퓨팅 시스템에서 음성을 인식하기 위한 실시형태가 개시된다. 일례의 음성 인식 방법은 악센트 있는 서브스트링의 데이터베이스를 포함하는 발생 유닛에서 메타데이터를 수신하는 단계, 메타데이터에 포함된 단어에 대한 악센트-보정된 표음 데이터를, 발생 유닛을 통하여, 발생시키는 단계로서, 악센트-보정된 표음 데이터는 데이터베이스에 저장된 악센트 있는 서브스트링에 기반하여 메타데이터에 포함된 단어의 다른 발음을 표현하는 발생시키는 단계, 음성 인식 시스템에 사용자에 의해 입력된 발화로부터 유도된 추출된 음성 데이터를, 음성 인식 엔진에서, 수신하는 단계, 및 악센트-보정된 표음 데이터를, 음성 인식 엔진에서, 수신하는 단계를 포함한다. 방법은 추출된 음성 데이터에서 인식된 발화를 식별시키는 터미널 ID(들)를 결정하는 단계, 인식된 발화에서 검출된 악센트를 식별시키는 악센트 데이터를 발생시키는 단계, 하나 이상의 터미널 ID 및 악센트 데이터에 기반하여 인식된 음성 데이터를 발생시키는 단계, 및 인식된 음성 데이터를 음성-제어식 디바이스에 출력하는 단계를 더 포함한다.

Description

단일 음향 모델 및 자동 악센트 검출로 텍스트 규칙 기반 멀티-악센트 음성 인식{TEXT RULE BASED MULTI-ACCENT SPEECH RECOGNITION WITH SINGLE ACOUSTIC MODEL AND AUTOMATIC ACCENT DETECTION}
관련 출원에 대한 상호 참조
본 출원은 2014년 7월 24일자로 출원된 인도 가특허 출원 제3618/CHE/2014호 발명의 명칭 "TEXT RULE BASED MULTI-ACCENT SPEECH RECOGNITION WITH SINGLE ACOUSTIC MODEL AND AUTOMATIC ACCENT DETECTION"에 대한 우선권을 주장하며, 그 내용 전체는 다목적으로 참고로 본 명세서에 편입된다.
기술분야
본 발명은 음성 인식에 관한 것이고, 더 구체적으로는 멀티-악센트 음성 인식에 관한 것이다.
동일한 언어의 다수의 악센트에 대한 음성 인식은 임베디드 디바이스 커뮤니티에 도전적 과제를 제기한다. 보통, 이러한 문제는 가지각색의 악센트에 대해 다른 음향 모델을 가짐으로써 다른, 대체로 분리된, 지리에 걸쳐 해결된다. 예컨대, 북미, 영국, 호주 및 인도 영어는 인식을 위한 다른 음향 모델을 갖는다.
각각의 음향 모델로도, 지역 악센트는 부가적 도전적 과제를 제공할 수 있다. 예컨대, 인도에서 각각의 지역 모국어 다음에 보통은 영어가 제2의 가장 많이 쓰이는 구어이기는 하지만, 인도의 여러 다른 지방에 걸쳐 여러 지역 영어 악센트가 있다. 이들 지역 악센트는 단일 음향 모델에 기반하는 음성 인식에 도전적 과제를 제기한다. 음성 인식은 다수의 악센트-특정 인식기를 병렬로 채용하는 멀티-악센트 인식 시스템을 사용할 수 있다. 인식 정확도를 개선하기 위해 여러 다른 음향 모델을 갖는 다수의 악센트-특정 인식기를 병렬로 실행시키는 것은 프로세서 집약적일 수 있다. 이러한 집약적 자원 사용은 한정된 프로세싱 능력을 갖는 임베디드 디바이스에는 특히 도전적일 수 있다. 부가적으로, 악센트 특정 음향 모델의 개발 및 사용은 비용 효과적이지 않을 수 있다.
멀티-악센트 문제를 극복하기 위한 하나의 기술은 가장 흔히 혼동되는 표음 쌍의 분석을 행하고 표음 이전 쌍을 형성하는 것이다. 그 후, 이들 발음 이전 쌍은 원래 정규 용어집에 플러그인 되고, 그리고 최종적으로는 악센트에 적응된 새로운 사전이 구축된다. 본질적으로, 그 접근법은 사용되지 않는 원주민 악센트 표음을 악센트 있는 발음에 대해 가장 확률 있는 표음 기호 조합으로 대체하는 것을 수반한다. 이러한 분석은 내부적으로 인식 엔진에 의해 인식된 기호에든 음향 모델에든 액세스가 없거나 제한되면 가능하지 않을 수 있다.
악센트 있는 서브스트링의 데이터베이스를 포함하는, 그리고 메타데이터 및 메타데이터와 연관되고 제1 ID 데이터 공간에 있는 ID 데이터를 수신하는 악센트 있는 표음 및 변환된 ID 발생 유닛을 포함하는 일례의 음성 인식 시스템에 대한 실시형태가 개시된다. 악센트 있는 표음 및 변환된 ID 발생 유닛은 특정 언어와 연관된 복수의 다른 악센트 중 연관된 하나와 각각 고유하게 연관된 복수의 수정된 단어를 제공하고 그리고 복수의 수정된 단어를 프로세싱하고 그리고 복수의 수정된 단어에 대한 복수의 악센트 보정된 표음 데이터를 제공한다. 악센트 보정된 표음 데이터의 각각은 복수의 악센트 보정된 표음 데이터 중 연관된 하나와 각각 고유하게 연관된 제2 ID 데이터 공간에 있는 복수의 변환된 ID를 제공하도록 프로세싱된다. 음성 특징부 추출기 유닛은 사용자 입력 음성을 수신 및 프로세싱하고 그리고 사용자 입력 음성과 연관된 추출된 음성 데이터를 제공한다. 음성 인식 논리 유닛은 추출된 음성 데이터, 복수의 변환된 ID 및 복수의 악센트 보정된 표음 데이터를 수신하고 그리고 표음 전사(phonetic transcription) 중 하나가 사용자 입력 음성과 연관된 추출된 음성 데이터와 최상으로 매칭하는 악센트 데이터 및 터미널에 대응하는 터미널 식별자를 제공한다. 악센트 검출 및 역 ID 변환 유닛은 터미널 식별자를 수신하고 그리고 제1 ID 데이터 공간에 있는 확인된 ID를 제공한다. 악센트 결과 가중 논리 유닛은 검출된 악센트 데이터를 수신하고 검출된 악센트 데이터의 과거 값과 비교하여 인식된 음성 데이터를 제공한다.
악센트 있는 표음 및 변환된 ID 발생 유닛은 복수의 악센트 보정된 표음 데이터를 제공하는 자소-대-표음 유닛(grapheme-to-phonetics unit)을 포함할 수 있다.
악센트 있는 표음 및 변환된 ID 발생 유닛은 악센트 보정된 표음 데이터 및 ID 데이터를 수신하고 그리고 제2 ID 데이터 공간에 있는 복수의 변환된 ID를 제공하는 변환된 ID 할당기를 포함할 수 있다.
음성 인식 논리 유닛은 특정 언어와 연관된 문법 파일을 포함하는 문맥 유닛을 포함한다. 텍스트 엔트리는, 예컨대, 연락처 데이터베이스로부터의 전화번호부 연락처 이름을 포함할 수 있거나, 또는, 예컨대, 노래 제목, 아티스트 이름, 장르명, 앨범명 등과 같은, 미디어 플레이어와 연관된 어느 다른 메타데이터라도 될 수 있다.
프로세서에서 수행되는 일례의 음성 인식 방법은 메타데이터 및 원래 ID 공간에 있는 ID 데이터를 수신하고, 그리고 특정 언어와 연관된 복수의 다른 악센트 중 연관된 하나 및 메타데이터와 각각 고유하게 연관된 복수의 수정된 단어를 제공하고 그리고 복수의 수정된 단어를 프로세싱하여 복수의 수정된 단어에 대한 복수의 악센트 보정된 표음 데이터를 제공한다. 악센트 보정된 표음 데이터는 복수의 악센트 보정된 표음 데이터 중 연관된 하나와 각각 고유하게 연관된 변환된 ID 공간에 있는 복수의 변환된 ID를 제공하도록 프로세싱된다. 사용자 입력 음성 데이터는 사용자 입력 음성 데이터와 연관된 추출된 음성 데이터를 제공하도록 수신 및 프로세싱된다. 추출된 음성 데이터, 복수의 변환된 ID, 및 복수의 악센트 보정된 표음 데이터는 사용자 입력 음성 데이터와 연관된 추출된 음성 데이터와 매칭하는 표음 전사에 대한 악센트 데이터를 제공하도록 그리고 터미널에 대응하는 터미널 식별자를 제공하도록 프로세싱된다. 터미널 식별자는 원래 ID 데이터 공간에 있는 확인된 ID를 제공하도록 프로세싱되고, 그리고 검출된 악센트 데이터는 인식된 음성 데이터를 제공하도록 검출된 악센트 데이터의 과거 값과 비교된다.
음성-제어식 디바이스, 프로세서, 및 프로세서에 의해 실행가능한 명령어를 저장하는 저장 디바이스를 포함하는 음성 인식 시스템에 의해 수행되는 다른 일례의 음성 인식 방법으로서, 방법은 악센트 있는 서브스트링의 데이터베이스를 포함하는 악센트 있는 표음 및 변환된 ID 발생 유닛에서 메타데이터를 수신하는 단계, 메타데이터에 포함된 단어에 대한 악센트-보정된 표음 데이터를, 악센트 있는 표음 및 변환된 ID 발생 유닛을 통하여, 발생시키는 단계로서, 악센트-보정된 표음 데이터는 데이터베이스에 저장된 악센트 있는 서브스트링에 기반하여 메타데이터에 포함된 단어의 다른 발음을 표현하는 발생시키는 단계, 및 음성 인식 시스템에 사용자에 의해 입력된 발화로부터 유도된 추출된 음성 데이터를, 음성 인식 엔진에서, 수신하는 단계를 포함한다. 그 일례의 음성 인식 방법은 악센트-보정된 표음 데이터를, 음성 인식 엔진에서, 수신하는 단계, 추출된 음성 데이터에서 인식된 발화를 식별시키는 하나 이상의 터미널 ID를, 음성 인식 엔진에서, 결정하는 단계, 인식된 발화에서 검출된 악센트를 식별시키는 악센트 데이터를, 음성 인식 엔진에서, 발생시키는 단계, 하나 이상의 터미널 ID 및 악센트 데이터에 기반하여 인식된 음성 데이터를 발생시키는 단계, 및 인식된 음성 데이터를 음성-제어식 디바이스에 출력하는 단계를 더 포함한다.
위에서 언급된 특징 및 아래에서 설명될 것들은 표시된 각각의 조합으로는 물론, 다른 조합으로도 또는 고립적으로도 사용될 수 있다고 이해되어야 한다. 본 발명의 이들 및 다른 목적, 특징 및 이점은, 수반 도면에 예시된 바와 같은, 그 실시형태의 상세한 설명에 비추어 분명하게 될 것이다.
본 발명은, 아래 첨부 도면을 참조하여, 비-한정적 실시형태의 이하의 설명을 읽는 것으로부터 더 잘 이해될 수 있다.
도 1은 본 발명의 하나 이상의 실시형태에 따른 차량 객실의 일례의 부분도;
도 2는 본 발명의 하나 이상의 실시형태에 따른 차량-내 컴퓨팅 시스템의 일례도;
도 3은 본 발명의 하나 이상의 실시형태에 따른 일례의 음성 인식 시스템의 예시적 블록 선도;
도 4는 본 발명의 하나 이상의 실시형태에 따른 일례의 악센트 있는 표음 및 ID 발생 논리 유닛의 예시적 블록 선도;
도 5는 본 발명의 하나 이상의 실시형태에 따른 도 3의 일례의 음성 인식 시스템을 포함하는 일례의 프로세싱 시스템의 예시적 블록 선도; 및
도 6은 본 발명의 하나 이상의 실시형태에 따른 음성 인식을 수행하기 위한 방법의 순서도.
시스템 및 방법은 여기에서는 악센트 있는 단어 발생기를 포함하는 멀티-악센트 음성 인식 시스템에 대해 개시된다. 발생기는 특정 악센트에 대해 입력 단어와 가장 유사하게 들리는 새로운 단어를 제공한다. 이것은 시스템에 의해 지원되는 모든 악센트에 대해 행해진다. 악센트 있는 단어 발생의 기초는 그 특정 악센트에 대한 원래 단어에서의 글자의 조합에 기반하는 스트링 대체 논리이다. ID 발생기 모듈은, 악센트의 인식시, 악센트는 물론, 원래 단어의 ID도 식별시키도록 사용될 수 있는 대체된 단어에 대한 변환된 ID를 발생시킨다.
도 1은 음성 인식 시스템을 위한 환경의 일 유형인, 운전자 및/또는 하나 이상의 승객이 착석할 수 있는, 차량(102)의 객실(100)의 실내의 일례의 부분도를 도시한다. 도 1의 차량(102)은 구동 휠(도시되지 않음) 및 내연 기관(104)을 포함하는 자동차일 수 있다. 차량(102)은 선도 차량 또는 추종 차량일 수 있다. 내연 기관(104)은 흡기 통로를 통하여 흡기 공기를 수용하고 배기 통로를 통하여 연소 가스를 배기할 수 있는 하나 이상의 연소실을 포함할 수 있다. 차량(102)은, 여러 다른 유형의 차량 중에서도, 도로 자동차일 수 있다. 일부 예에서, 차량(102)은 차량 운동 및/또는 기관으로부터 에너지를 흡수하고 흡수된 에너지를 에너지 저장 디바이스에 의한 저장에 적합한 에너지 형태로 변환하도록 동작가능한 에너지 변환 디바이스를 포함하는 하이브리드 추진 시스템을 포함할 수 있다. 차량(102)은 연료 전지, 태양광 에너지 포착 요소, 및/또는 차량에 동력을 공급하기 위한 다른 에너지 저장 시스템을 편입시키고 있는 완전 전기 차량을 포함할 수 있다.
도시된 바와 같이, 계기판(106)은 차량(102)의 (사용자라고도 지칭되는) 운전자가 액세스할 수 있는 다양한 디스플레이 및 제어부를 포함할 수 있다. 예컨대, 계기판(106)은 차량-내 컴퓨팅 시스템(109)(예컨대, 인포테인먼트 시스템)의 터치 스크린(108), 오디오 시스템 제어판, 및 계기 클러스터(110)를 포함할 수 있다. 도 1에 도시된 예의 시스템은, 별개의 오디오 시스템 제어판 없이 터치 스크린(108)과 같은, 차량-내 컴퓨팅 시스템(109)의 사용자 인터페이스를 통하여 수행될 수 있는 오디오 시스템 제어부를 포함하고 있지만, 다른 실시형태에서, 차량은 라디오, 콤팩트 디스크 플레이어, MP3 플레이어 등과 같은 관용적 차량 오디오 시스템에 대한 제어부를 포함할 수 있는 오디오 시스템 제어판을 포함할 수 있다. 오디오 시스템 제어부는 차량 스피커 시스템의 스피커(112)를 통한 하나 이상의 태양의 오디오 출력을 제어하기 위한 특징부를 포함할 수 있다. 예컨대, 차량-내 컴퓨팅 시스템 또는 오디오 시스템 제어부는 오디오 출력의 볼륨, 차량 스피커 시스템의 개개의 스피커 간 사운드의 분배, 오디오 신호의 이퀄라이제이션, 및/또는 어느 다른 태양의 오디오 출력이라도 제어할 수 있다. 추가적 예에서, 차량-내 컴퓨팅 시스템(109)은, 터치 스크린(108)을 통하여 직접 수신된 사용자 입력에 기반하여, 또는 외부 디바이스(150) 및/또는 모바일 디바이스(128)를 통하여 수신된 (사용자의 물리적 상태 및/또는 환경과 같은) 사용자에 관한 데이터에 기반하여, 라디오 지국 선택, 재생목록 선택, 오디오 입력 소스(예컨대, 라디오 또는 CD 또는 MP3로부터) 등을 조절할 수 있다.
일부 실시형태에서, 터치 스크린(108), 디스플레이 스크린, 다양한 제어 다이얼, 노브 및 버튼, 메모리, 프로세서(들), 및 어느 인터페이스 요소(예컨대, 커넥터 또는 포트)와 같은, 차량-내 컴퓨팅 시스템(109)의 하나 이상의 하드웨어 요소는 차량의 계기판(106)에 설치되는 통합형 헤드 유닛을 형성할 수 있다. 헤드 유닛은 계기판(106)에 고정식으로 또는 착탈식으로 부착될 수 있다. 부가적 또는 대안의 실시형태에서, 차량-내 컴퓨팅 시스템의 하나 이상의 하드웨어 요소는 모듈식일 수 있고 차량의 다수의 장소에 설치될 수 있다.
객실(100)은 차량, 사용자, 및/또는 환경을 모니터링하기 위한 하나 이상의 센서를 포함할 수 있다. 예컨대, 객실(100)은 좌석에 가해진 압력을 측정하여 사용자의 존재를 결정하도록 구성된 하나 이상의 좌석-장착 압력 센서, 도어 활동을 모니터링하도록 구성된 도어 센서, 객실의 습도 함량을 측정하기 위한 습도 센서, 사용자가 전화 통화를 하는 것을 가능하게 하도록 음성 커맨드 형태의 사용자 입력을 수신하고 그리고/또는 객실(100)에서의 주변 잡음을 측정하기 위한 마이크로폰 등을 포함할 수 있다. 위에서 기술된 센서 및/또는 하나 이상의 부가적 또는 대안의 센서는 차량의 어느 적합한 장소에라도 위치결정될 수 있다고 이해되어야 한다. 예컨대, 센서는 기관실에, 차량의 외부 표면 상에, 그리고/또는 차량의 동작, 차량의 주변 조건, 차량의 사용자 등에 관한 정보를 제공하는데 적합한 다른 장소에 위치결정될 수 있다. 차량의 주변 조건, 차량 상태, 또는 차량 운전자에 관한 정보는 또한, 외부 디바이스(150) 및/또는 모바일 디바이스(128)에 결합된 센서와 같은, 차량 외부의/그와는 별개의(즉, 차량 시스템의 일부분이 아닌) 센서로부터 수신될 수 있다.
객실(100)은 또한 주행 전에, 동안, 그리고/또는 후에 차량에 보관되는, 모바일 디바이스(128)와 같은, 하나 이상의 사용자 물건을 포함할 수 있다. 모바일 디바이스(128)는 스마트 폰, 태블릿, 랩톱 컴퓨터, 휴대용 미디어 플레이어, 및/또는 어느 적합한 모바일 컴퓨팅 디바이스라도 포함할 수 있다. 모바일 디바이스(128)는 통신 링크(130)를 통하여 차량-내 컴퓨팅 시스템에 접속될 수 있다. 통신 링크(130)는 (예컨대, 범용 직렬 버스[USB], 모바일 고선명 링크[MHL], 고선명 멀티미디어 인터페이스[HDMI], 이더넷 등을 통한) 유선 또는 (예컨대, 블루투스, 와이파이, 와이파이 다이렉트 근거리 무선통신[NFC], 셀룰러 접속성 등을 통한) 무선이고 그리고 모바일 디바이스와 차량-내 컴퓨팅 시스템 간 양방향 통신을 제공하도록 구성될 수 있다. 모바일 디바이스(128)는 하나 이상의 통신 링크(예컨대, 위에서 기술된 예의 통신 링크 중 하나 이상)에 접속하기 위한 하나 이상의 무선 통신 인터페이스를 포함할 수 있다. 무선 통신 인터페이스는 송신 또는 수신되는 데이터를 반송하도록 데이터 라인에 결합된 포트(들) 또는 안테나(들)와 같은 하나 이상의 물리적 디바이스는 물론, 모바일 디바이스에서 다른 디바이스에 따라 물리적 디바이스를 동작시키기 위한 하나 이상의 모듈/드라이버도 포함할 수 있다. 예컨대, 통신 링크(130)는 (차량 오디오 시스템, 실내 온도 조절 시스템 등과 같은) 다양한 차량 시스템 및 터치 스크린(108)으로부터의 센서 및/또는 제어 신호를 모바일 디바이스(128)에 제공할 수 있고 그리고 모바일 디바이스(128)로부터의 제어 및/또는 디스플레이 신호를 차량-내 시스템 및 터치 스크린(108)에 제공할 수 있다. 통신 링크(130)는 또한 모바일 디바이스의 내부 배터리를 충전하기 위해 차량-내 전력 소스로부터 모바일 디바이스(128)에 전력을 제공할 수 있다.
차량-내 컴퓨팅 시스템(109)은 또한, 하나 이상의 외부 디바이스(150)와 같은, 사용자에 의해 동작 및/또는 액세스되지만 차량(102) 외부에 위치하는 부가적 디바이스에 통신 결합될 수 있다. 묘사된 실시형태에서는, 외부 디바이스가 차량(102) 외부에 위치하고 있지만, 대안의 실시형태에서는, 외부 디바이스가 객실(100) 내부에 위치하고 있을 수 있음을 인식할 것이다. 외부 디바이스는 서버 컴퓨팅 시스템, 퍼스널 컴퓨팅 시스템, 휴대용 전자 디바이스, 전자 손목 밴드, 전자 헤드 밴드, 휴대용 음악 플레이어, 전자 활동 추적 디바이스, 계보기, 스마트-시계, GPS 시스템 등을 포함할 수 있다. 외부 디바이스(150)는, 통신 링크(130)에 관하여 논의된 바와 같이, 유선 또는 무선이고 외부 디바이스와 차량-내 컴퓨팅 시스템 간 양방향 통신을 제공하도록 구성될 수 있는 통신 링크(136)를 통하여 차량-내 컴퓨팅 시스템에 접속될 수 있다. 예컨대, 외부 디바이스(150)는 하나 이상의 센서를 포함할 수 있고 그리고 통신 링크(136)는 외부 디바이스(150)로부터의 센서 출력을 차량-내 컴퓨팅 시스템(109) 및 터치 스크린(108)에 송신할 수 있다. 외부 디바이스(150)는 또한 문맥 데이터, 사용자 거동/선호도, 운전 규칙 등에 관한 정보를 저장 및/또는 수신할 수 있고 그러한 정보를 외부 디바이스(150)로부터 차량-내 컴퓨팅 시스템(109) 및 터치 스크린(108)에 송신할 수 있다.
차량-내 컴퓨팅 시스템(109)은 외부 디바이스(150), 모바일 디바이스(128), 및/또는 다른 입력 소스로부터 수신된 입력을 분석하고 (실내 온도 조절 시스템 또는 오디오 시스템과 같은) 다양한 차량-내 시스템에 대한 설정을 선택하고, 터치 스크린(108) 및/또는 스피커(112)를 통하여 출력을 제공하고, 모바일 디바이스(128) 및/또는 외부 디바이스(150)와 통신하고, 그리고/또는 평가에 기반하여 다른 동작을 수행할 수 있다. 일부 실시형태에서, 평가 중 일부 또는 전부는 모바일 디바이스(128) 및/또는 외부 디바이스(150)에 의해 수행될 수 있다. 일부 실시형태에서, 외부 디바이스(150)는, 차량(102)을 선도하는 차량일 수 있거나 차량(102) 뒤에서 추종하는 차량일 수 있는 차량과 같은, 다른 차량의 차량-내 컴퓨팅 디바이스를 포함할 수 있다.
일부 실시형태에서, 외부 디바이스(150) 중 하나 이상은, 외부 디바이스(150) 중 다른 하나 및/또는 모바일 디바이스(128)를 통하여, 간접적으로 차량-내 컴퓨팅 시스템(109)에 통신 결합될 수 있다. 예컨대, 통신 링크(136)는 외부 디바이스(150)로부터의 출력이 모바일 디바이스(128)에 중계되도록 모바일 디바이스(128)에 외부 디바이스(150)를 통신 결합시킬 수 있다. 외부 디바이스(150)로부터 수신된 데이터는 그 후 모바일 디바이스(128)에 의해 수집된 데이터와 모바일 디바이스(128)에서 취합되고, 취합된 데이터는 그 후 통신 링크(130)를 통하여 차량-내 컴퓨팅 시스템(109) 및 터치 스크린(108)에 송신될 수 있다. 유사한 데이터 취합은 서버 시스템에서 일어나고 그 후 통신 링크(130/136)를 통하여 차량-내 컴퓨팅 시스템(109) 및 터치 스크린(108)에 송신될 수 있다.
도 2는 차량(201) 내부에 구성 및/또는 통합된 차량-내 컴퓨팅 시스템(200)의 블록 선도를 도시한다. 차량-내 컴퓨팅 시스템(200)은 도 1의 차량-내 컴퓨팅 시스템(109)의 일례일 수 있고 그리고/또는 여기 일부 실시형태에서 기술되는 방법 중 하나 이상을 수행할 수 있다. 일부 예에서, 차량-내 컴퓨팅 시스템은 정보-기반 미디어 콘텐츠(엔터테인먼트 콘텐츠, 내비게이션 서비스 등을 포함하여, 오디오 및/또는 시각적 미디어 콘텐츠)를 차량 사용자에 제공하여 조작자의 차량-내 경험을 강화하도록 구성된 차량 인포테인먼트 시스템일 수 있다. 차량 인포테인먼트 시스템은 다양한 차량 시스템, 서브-시스템, 하드웨어 컴포넌트는 물론, 운전자 및/또는 승객을 위한 차량-내 경험을 강화하기 위해 차량(201)에 통합되거나 통합가능한 소프트웨어 애플리케이션 및 시스템도 포함하거나 그에 결합될 수 있다.
차량-내 컴퓨팅 시스템(200)은 운영 체제 프로세서(214) 및 인터페이스 프로세서(220)를 포함하는 하나 이상의 프로세서를 포함할 수 있다. 운영 체제 프로세서(214)는 차량-내 컴퓨팅 시스템 상에 운영 체제를 실행시키고, 그리고 차량-내 컴퓨팅 시스템의 입력/출력, 디스플레이, 재생, 및 다른 동작을 제어할 수 있다. 인터페이스 프로세서(220)는 차량-내부 시스템 통신 모듈(222)을 통하여 차량 제어 시스템(230)과 인터페이싱할 수 있다.
차량-내부 시스템 통신 모듈(222)은 데이터를 다른 차량 시스템(231) 및 차량 제어 요소(261)에 출력하는 한편, 또한, 예컨대, 차량 제어 시스템(230)에 의해 다른 차량 컴포넌트 및 시스템(231, 261)으로부터 입력된 데이터를 수신할 수 있다. 데이터를 출력할 때, 차량-내부 시스템 통신 모듈(222)은 차량의 어느 상태, 차량 환경, 또는 차량에 접속된 어느 다른 정보 소스의 출력에 대응하는 신호를 버스를 통하여 제공할 수 있다. 차량 데이터 출력은, 예컨대, (현재 속도와 같은) 아날로그 신호, (시계, 온도계, 전역 측위 시스템[GPS] 센서와 같은 측위 센서 등과 같은) 개개의 정보 소스에 의해 제공된 디지털 신호, (기관 관련 정보가 통신되게 할 수 있는 기관 컨트롤러 에어리어 네트워크[CAN] 버스, 실내 온도 조절 관련 정보가 통신되게 할 수 있는 실내 온도 조절 CAN 버스, 및 차량에서의 멀티미디어 컴포넌트들 간 멀티미디어 데이터가 통신되게 하는 멀티미디어 데이터 네트워크와 같은) 차량 데이터 네트워크를 통해 전파된 디지털 신호를 포함할 수 있다. 예컨대, 차량-내 컴퓨팅 시스템은 휠 센서에 의해 추정된 차량의 현재 속력, 차량의 배터리 및/또는 전력 분배 시스템을 통한 차량의 전력 상태, 차량의 점화 상태 등을 기관 CAN 버스로부터 검색할 수 있다. 부가적으로, 이더넷과 같은 다른 인터페이싱 수단은 본 발명의 범위로부터 벗어남이 없이 역시 사용될 수 있다.
비-휘발성 저장 디바이스(208)는 프로세서(214, 220)에 의해 실행가능한 명령어와 같은 데이터를 비-휘발성 형태로 저장하기 위해 차량-내 컴퓨팅 시스템(200)에 포함될 수 있다. 저장 디바이스(208)는 차량-내 컴퓨팅 시스템(200)이 클라우드-기반 서버에 접속하고 그리고/또는 클라우드-기반 서버로의 송신을 위한 정보를 수집하기 위한 애플리케이션을 실행시키는 것을 가능하게 하도록 애플리케이션 데이터를 저장할 수 있다. 애플리케이션은 차량 시스템/센서, 입력 디바이스(예컨대, 사용자 인터페이스(218)), 차량-내 컴퓨팅 시스템과 통신하고 있는 디바이스(예컨대, 블루투스 링크를 통하여 접속된 모바일 디바이스) 등에 의해 모인 정보를 검색할 수 있다. 차량-내 컴퓨팅 시스템(200)은 휘발성 메모리(216)를 더 포함할 수 있다. 휘발성 메모리(216)는 램(RAM)일 수 있다. 비-휘발성 저장 디바이스(208) 및/또는 휘발성 메모리(216)와 같은 비-일시적 저장 디바이스는, 프로세서(예컨대, 운영 체제 프로세서(214) 및/또는 인터페이스 프로세서(220))에 의해 실행될 때, 본 개시에서 기술되는 동작 중 하나 이상을 수행하도록 차량-내 컴퓨팅 시스템(200)을 제어하는 명령어 및/또는 코드를 저장할 수 있다.
마이크로폰(202)은 사용자로부터의 음성 커맨드를 수신하기 위해서, 차량에서의 주변 잡음을 측정하기 위해서, 차량의 스피커로부터의 오디오가 차량의 음향 환경에 따라 튜닝되는지 결정하기 위해서 등 차량-내 컴퓨팅 시스템(200)에 포함될 수 있다. 음성 프로세싱 유닛(204)은 마이크로폰(202)으로부터 수신된 음성 커맨드와 같은 음성 커맨드를 프로세싱할 수 있다. 일부 실시형태에서, 차량-내 컴퓨팅 시스템(200)은 또한 차량의 오디오 시스템(232)에 포함된 마이크로폰을 사용하여 음성 커맨드를 수신하고 주변 차량 잡음을 샘플링할 수 있을 수 있다.
하나 이상의 부가적 센서는 차량-내 컴퓨팅 시스템(200)의 센서 서브시스템(210)에 포함될 수 있다. 예컨대, 센서 서브시스템(210)은 차량 주차시 사용자를 조력하기 위한 후방 뷰 카메라 및/또는 (예컨대, 안면 인식 및/또는 사용자 제스처를 사용하여) 사용자를 식별하기 위한 객실 카메라와 같은 카메라를 포함할 수 있다. 차량-내 컴퓨팅 시스템(200)의 센서 서브시스템(210)은 다양한 차량 센서와 통신하고 그로부터의 입력을 수신할 수 있고 그리고 사용자 입력을 더 수신할 수 있다. 예컨대, 센서 서브시스템(210)에 의해 수신된 입력은 변속 기어 위치, 변속 클러치 위치, 가스 페달 입력, 브레이크 입력, 변속 선택기 위치, 차량 속력, 기관 속력, 기관을 통한 공기흐름 질량, 주변 온도, 흡기 공기 온도 등은 물론, (열 전달 유체 온도, 부동액 온도, 팬 속력, 승객 칸 온도, 소망 승객 칸 온도, 주변 습도 등과 같은) 실내 온도 조절 시스템 센서, 사용자에 의해 발행된 음성 커맨드를 검출하는 오디오 센서, 차량의 포브로부터 커맨드를 수신하고 그리고 선택사항으로서 그 지리적 위치/근접을 추적하는 포브 센서 등으로부터의 입력도 포함할 수 있다. 특정 차량 시스템 센서는 센서 서브시스템(210)과만 통신할 수 있는 한편, 다른 센서는 센서 서브시스템(210) 및 차량 제어 시스템(230) 양자와 통신할 수 있거나, 또는 차량 제어 시스템(230)을 통하여 간접적으로 센서 서브시스템(210)과 통신할 수 있다. 차량-내 컴퓨팅 시스템(200)의 내비게이션 서브시스템(211)은 (예컨대, GPS 센서 및/또는 센서 서브시스템(210)으로부터의 다른 센서를 통한) 위치 정보, 노선 안내, 교통 정보, 관심 지점(POI) 식별과 같은 내비게이션 정보를 발생 및/또는 수신하고, 그리고/또는 다른 내비게이션 서비스를 운전자에 제공할 수 있다.
차량-내 컴퓨팅 시스템(200)의 외부 디바이스 인터페이스(212)는 차량(201) 외부에 위치하는 하나 이상의 외부 디바이스(240)에 결합가능하고 그리고/또는 그와 통신할 수 있다. 외부 디바이스가 차량(201) 외부에 위치하는 것으로 예시되고 있기는 하지만, 사용자가 차량(201)을 조작하는 동안 외부 디바이스를 동작시키고 있을 때와 같이, 그것들은 일시적으로 차량(201)에 하우징될 수 있다고 이해되어야 한다. 환언하면, 외부 디바이스(240)는 차량(201)과 일체가 아니다. 외부 디바이스(240)는 (예컨대, 블루투스, NFC, 와이파이 다이렉트, 또는 다른 무선 접속을 통하여 접속된) 모바일 디바이스(242) 또는 대안의 블루투스-가능 디바이스(252)를 포함할 수 있다. 모바일 디바이스(242)는 모바일 폰, 스마트 폰, 유선 및/또는 무선 통신을 통하여 차량-내 컴퓨팅 시스템과 통신할 수 있는 착용식 디바이스/센서, 또는 다른 휴대용 전자 디바이스(들)일 수 있다. 다른 외부 디바이스는 외부 서비스(246)를 포함한다. 예컨대, 외부 디바이스는 차량과는 별개이고 그 외부에 위치하는 차량-외 디바이스를 포함할 수 있다. 또 다른 외부 디바이스는 고체-상태 드라이브, 펜 드라이브, USB 드라이브 등과 같은 외부 저장 디바이스(254)를 포함한다. 외부 디바이스(240)는 본 발명의 범위로부터 벗어남이 없이 무선으로든 커넥터를 통해서든 차량-내 컴퓨팅 시스템(200)과 통신할 수 있다. 예컨대, 외부 디바이스(240)는 네트워크(260), 범용 직렬 버스(USB) 접속, 다이렉트 유선 접속, 다이렉트 무선 접속, 및/또는 다른 통신 링크를 통하여 외부 디바이스 인터페이스(212)를 통해 차량-내 컴퓨팅 시스템(200)과 통신할 수 있다.
외부 디바이스 인터페이스(212)는 차량-내 컴퓨팅 시스템이 운전자의 연락처와 연관된 모바일 디바이스와 통신하는 것을 가능하게 하기 위한 통신 인터페이스를 제공할 수 있다. 예컨대, 외부 디바이스 인터페이스(212)는 운전자의 연락처와 연관된 모바일 디바이스에 (예컨대, 셀룰러 통신 네트워크를 통하여) 텍스트 메시지(예컨대, SMS, MMS 등)가 보내지고 그리고/또는 전화 통화가 확립되는 것을 가능하게 할 수 있다. 외부 디바이스 인터페이스(212)는 부가적으로 또는 대안으로, 아래에서 더 상세히 기술되는 바와 같이, 차량-내 컴퓨팅 시스템이 와이파이 다이렉트를 통하여 차량에서의 하나 이상의 디바이스(예컨대, 운전자의 모바일 디바이스)와 데이터를 동기화하는 것을 가능하게 하기 위한 무선 통신 인터페이스를 제공할 수 있다.
하나 이상의 애플리케이션(244)은 모바일 디바이스(242) 상에서 동작가능할 수 있다. 일례로서, 모바일 디바이스 애플리케이션(244)은 모바일 디바이스와 사용자의 상호작용에 관한 사용자 데이터를 취합하도록 동작될 수 있다. 예컨대, 모바일 디바이스 애플리케이션(244)은 모바일 디바이스 상에서 사용자가 청취한 음악 재생목록, 전화 통화 로그(사용자에 의해 수락된 전화 통화의 지속시간 및 빈도를 포함), 사용자가 자주 가는 장소를 포함하는 위치 정보 및 각각의 장소에서 보낸 시간량 등에 관한 데이터를 취합할 수 있다. 수집된 데이터는 네트워크(260)를 통하여 외부 디바이스 인터페이스(212)에 애플리케이션(244)에 의해 전송될 수 있다. 부가적으로, 특정 사용자 데이터 요청은 외부 디바이스 인터페이스(212)를 통하여 차량-내 컴퓨팅 시스템(200)으로부터 모바일 디바이스(242)에서 수신될 수 있다. 특정 데이터 요청은 사용자가 지리적으로 위치하는 곳, 사용자의 장소에서의 주변 잡음 레벨 및/또는 음악 장르, 사용자의 장소에서의 주변 날씨 조건(온도, 습도 등) 등을 결정하기 위한 요청을 포함할 수 있다. 모바일 디바이스 애플리케이션(244)은 요청된 데이터가 모바일 디바이스 상에서 수집되는 것을 가능하게 하도록 모바일 디바이스(242)의 컴포넌트(예컨대, 마이크로폰 등) 또는 다른 애플리케이션(예컨대, 내비게이션 애플리케이션)에 제어 명령어를 보낼 수 있다. 그 후, 모바일 디바이스 애플리케이션(244)은 수집된 정보를 다시 차량-내 컴퓨팅 시스템(200)에 중계할 수 있다.
마찬가지로, 하나 이상의 애플리케이션(248)은 외부 서비스(246) 상에서 동작가능할 수 있다. 일례로서, 외부 서비스 애플리케이션(248)은 다수의 데이터 소스로부터의 데이터를 취합 및/또는 분석하도록 동작될 수 있다. 예컨대, 외부 서비스 애플리케이션(248)은 사용자의 하나 이상의 소셜 미디어 계정으로부터의 데이터, 차량-내 컴퓨팅 시스템으로부터의 데이터(예컨대, 센서 데이터, 로그 파일, 사용자 입력 등), 인터넷 질의로부터의 데이터(예컨대, 날씨 데이터, POI 데이터) 등을 취합할 수 있다. 수집된 데이터는 다른 디바이스에 송신되고 그리고/또는 운전자, 차량, 및 환경의 문맥을 결정하고 문맥에 기반하는 동작(예컨대, 다른 디바이스에 데이터를 요청하는 것/보내는 것)을 수행하도록 애플리케이션에 의해 분석될 수 있다.
차량 제어 시스템(230)은 여러 다른 차량-내 기능에 관여된 다양한 차량 시스템(231)의 태양을 제어하기 위한 제어부를 포함할 수 있다. 이것들은, 예컨대, 차량 탑승자에 오디오 엔터테인먼트를 제공하기 위한 차량 오디오 시스템(232)의 태양, 차량 탑승자의 객실 냉방 또는 난방 요구를 만족시키기 위한 실내 온도 조절 시스템(234)의 태양은 물론, 차량 탑승자가 타인과의 원격통신 링크를 확립할 수 있게 하기 위한 원격통신 시스템(236)의 태양도 제어하는 것을 포함할 수 있다.
오디오 시스템(232)은 스피커와 같은 전자기 트랜스듀서를 포함하는 하나 이상의 음향 재생 디바이스를 포함할 수 있다. 차량 오디오 시스템(232)은 전력 증폭기를 포함하는 것에 의해서와 같은 능동형 또는 수동형일 수 있다. 일부 예에서, 차량-내 컴퓨팅 시스템(200)은 음향 재생 디바이스에 대한 유일한 오디오 소스일 수 있거나 또는 오디오 재생 시스템에 접속되는 다른 오디오 소스(예컨대, 모바일 폰과 같은 외부 디바이스)가 있을 수 있다. 오디오 재생 디바이스에 어느 그러한 외부 디바이스의 접속은 아날로그, 디지털, 또는 아날로그와 디지털 기술의 어느 조합이라도 될 수 있다.
실내 온도 조절 시스템(234)은 차량(201)의 객실 또는 승객 칸 내 편안한 환경을 제공하도록 구성될 수 있다. 실내 온도 조절 시스템(234)은 환기구와 같은 제어된 환기를 가능하게 하는 컴포넌트, 히터, 에어컨, 통합형 히터 및 에어컨 시스템 등을 포함한다. 히터 및 에어컨 셋업에 링크된 다른 컴포넌트는 윈드실드를 맑게 할 수 있는 윈드실드 성에제거 및 서리제거 시스템, 및 외기 유입구를 통해 승객 칸에 들어오는 외부 공기를 깨끗하게 하기 위한 환기-공기 필터를 포함할 수 있다.
차량 제어 시스템(230)은 또한, 조향 휠 제어부(262)(예컨대, 조향 휠-장착 오디오 시스템 제어부, 크루즈 제어부, 윈드실드 와이퍼 제어부, 헤드라이트 제어부, 방향 지시등 제어부 등), 계기판 제어부, 마이크로폰(들), 액셀/브레이크/클러치 페달, 기어 시프트, 운전자 또는 승객 도어에 위치결정된 도어/윈도 제어부, 좌석 제어부, 실내등 제어부, 오디오 시스템 제어부, 객실 온도 제어부 등과 같은, 차량의 객실 내 기관 및/또는 보조 요소와 관련된 다양한 차량 제어부(261)(또는 차량 시스템 제어 요소)의 설정을 조절하기 위한 제어부를 포함할 수 있다. 차량 제어부(261)는 또한 기관, 배기 시스템, 변속, 및/또는 다른 차량 시스템 중 하나 이상의 동작을 변경하기 위한 명령어를 차량의 CAN 버스를 통하여 수신하도록 구성되는 내부 기관 및 차량 동작 제어부(예컨대, 기관 컨트롤러 모듈, 액추에이터, 밸브 등)를 포함할 수 있다. 제어 신호는 또한 차량의 오디오 시스템(232)의 하나 이상의 스피커에서의 오디오 출력을 제어할 수 있다. 예컨대, 제어 신호는 볼륨, 이퀄라이제이션, 오디오 이미지(예컨대, 하나 이상의 정의된 장소로부터 기원하는 것처럼 사용자에게 보이는 오디오 출력을 산출하는 오디오 신호의 구성), 복수의 스피커 간 오디오 분배 등과 같은 오디오 출력 특성을 조절할 수 있다. 마찬가지로, 제어 신호는 실내 온도 조절 시스템(234)의 환기구, 에어컨, 및/또는 히터를 제어할 수 있다. 예컨대, 제어 신호는 객실의 특정 섹션으로의 냉기의 분출을 증가시킬 수 있다.
차량의 외부 상에 위치결정된 제어 요소(예컨대, 보안 시스템에 대한 제어부)는 또한, 통신 모듈(222)을 통해서와 같이, 컴퓨팅 시스템(200)에 접속될 수 있다. 차량 제어 시스템의 제어 요소는 사용자 입력을 수신하도록 차량 상에 그리고/또는 그 내부에 물리적으로 그리고 영구적으로 위치결정될 수 있다. 차량-내 컴퓨팅 시스템(200)으로부터 제어 명령어를 수신하는 것에 부가하여, 차량 제어 시스템(230)은 또한, 모바일 디바이스(242)로부터와 같은, 사용자에 의해 동작된 하나 이상의 외부 디바이스(240)로부터 입력을 수신할 수 있다. 이것은 차량 시스템(231) 및 차량 제어부(261)의 태양이 외부 디바이스(240)로부터 수신된 사용자 입력에 기반하여 제어될 수 있게 한다.
차량-내 컴퓨팅 시스템(200)은 안테나(206)를 더 포함할 수 있다. 안테나(206)는 단일 안테나로서 도시되어 있지만, 일부 실시형태에서는 하나 이상의 안테나를 포함할 수 있다. 차량-내 컴퓨팅 시스템은 안테나(206)를 통하여 광대역 무선 인터넷 액세스를 획득할 수 있고, 그리고 라디오, 텔레비전, 날씨, 교통 등과 같은 브로드캐스트 신호를 더 수신할 수 있다. 차량-내 컴퓨팅 시스템은 하나 이상의 안테나(206)를 통하여 GPS 신호와 같은 위치결정 신호를 수신할 수 있다. 차량-내 컴퓨팅 시스템은 또한 적합한 수신 디바이스를 통해 적외선 또는 다른 수단을 통하여 또는 안테나(들)(206)와 같은 RF를 통하여 무선 커맨드를 수신할 수 있다. 일부 실시형태에서, 안테나(206)는 오디오 시스템(232) 또는 원격통신 시스템(236)의 일부분으로서 포함될 수 있다. 부가적으로, 안테나(206)는 외부 디바이스 인터페이스(212)를 통하여 (모바일 디바이스(242)에와 같이) 외부 디바이스(240)에 AM/FM 라디오 신호를 제공할 수 있다.
차량-내 컴퓨팅 시스템(200)의 하나 이상의 요소는 사용자 인터페이스(218)를 통하여 사용자에 의해 제어될 수 있다. 사용자 인터페이스(218)는 도 1의 터치 스크린(108)과 같은 터치 스크린 상에 제시된 그래픽 사용자 인터페이스, 및/또는 사용자-작동 버튼, 스위치, 노브, 다이얼, 슬라이더 등을 포함할 수 있다. 예컨대, 사용자-작동 요소는 조향 휠 제어부, 도어 및/또는 윈도 제어부, 계기판 제어부, 오디오 시스템 설정, 실내 온도 조절 시스템 설정 등을 포함할 수 있다. 사용자는 또한 사용자 인터페이스(218)를 통하여 차량-내 컴퓨팅 시스템(200) 및 모바일 디바이스(242)의 하나 이상의 애플리케이션과 상호작용할 수 있다. 사용자 인터페이스(218) 상에서 사용자의 차량 설정 선호도를 수신하는 것에 부가하여, 차량-내 제어 시스템에 의해 선택된 차량 설정은 사용자 인터페이스(218) 상에서 사용자에게 디스플레이될 수 있다. 통지 및 다른 메시지(예컨대, 수신된 메시지)는 물론, 내비게이션 도우미도 사용자 인터페이스의 디스플레이 상에서 사용자에게 디스플레이될 수 있다. 사용자 선호도/정보 및/또는 제시된 메시지에 대한 응답은 사용자 인터페이스로의 사용자 입력을 통하여 수행될 수 있다.
도 3은 음성 인식 시스템(300)의 예시적 블록 선도이다. 시스템은 라인(304) 상에서 (예컨대, 디지털화된) 사용자 입력 음성을 수신하는 음성 특징부 추출기 유닛(302)을 포함한다. 사용자 입력 음성은 마이크로폰(도시되지 않음)에 의해 검출되고 아날로그-대-디지털 컨버터(ADC)로 디지털화될 수 있다. 특징부 추출기 유닛(302)은 문맥에 부가된 적합한 단어("터미널")에 대응하는 표음에 대비하여 음성을 인식하고 최상의 매칭 결과를 반환하도록 사용될 수 있는 특징부로 디지털 음성 신호를 변환한다. 특징부 정보는 라인(306) 상에서 음성 인식 엔진(308)에 제공되어, 그 후, 표음 전사 중 하나가 사용자 입력 음성과 연관된 추출된 특징부와 최상으로 매칭하는 "터미널"에 대응하는 식별자(ID)를 라인(310) 상에서 반환한다.
음성 인식이 고정된 어휘에 대해 작동할 수 있는 방식은 인식될 단어의 목록을 포함하고 있는 문법의 정의를 통해서이다. 소위 "터미널"이라고도 하는 각각의 단어 또는 구절은 기본 표음 기호의 조합으로서 단어 또는 구절을 발음하는 하나 이상의 방식을 가질 수 있다. 터미널이 어떻게 발음되는지 알고 있기 위해, 하나 이상의 표음 전사는 그것에 연관될 수 있다. 각각의 터미널은 그것과 연관된 고유 ID를 갖는다. 문법은 사용자 발화를 인식하도록 런타임에 로딩될 수 있는 2진 문맥 파일에 오프라인으로 컴파일링될 수 있다.
음성 인식 시스템(300)은 또한 라인(312) 상에서 메타데이터/텍스트 엔트리(예컨대, 스마트 폰 또는 PDA로부터의 연락처/전화번호부 정보, USB 메모리 스틱 또는 오디오 CD로부터의 데이터 등)를 수신한다. 라인(312) 상의 텍스트 엔트리는 질의된 서브스트링을 포함할 수 있고, 그리고 악센트 있는 표음 및 ID 발생 논리 유닛은 수신된 데이터를 프로세싱하고 그리고 다양한 악센트와 연관된 변환된 ID 데이터 및 표음 데이터를 라인(316) 상에 제공할 수 있다. 즉, 라인(312) 상의 메타데이터/텍스트 엔트리 및 메타데이터/텍스트 엔트리와 연관된 라인(313) 상의 ID 데이터는 수신된 데이터를 프로세싱하고 그리고 다양한 악센트와 연관된 변환된 ID 데이터 및 표음 정보를 라인(316) 상에 제공하는 악센트 있는 표음 및 변환된 ID 발생 논리 유닛(314)에 입력된다. 라인(313) 상의 ID 데이터는 원래 ID 공간에 있는 한편, 라인(316) 상의 변환된 ID 데이터는 변환된 데이터 공간에 있다.
도 4는 악센트 있는 표음 및 변환된 ID 발생 유닛(314)의 예시적 블록 선도이다. 라인(312) 상의 데이터는, 글자의 시퀀스를 표음의 시퀀스로 변환하는, 악센트 있는 단어 발생기(402)에 입력된다. 규칙은 그 특정 언어(예컨대, 악센트 있는 표음 및 변환된 ID 발생 유닛(314)과 연관된 언어 및/또는 악센트 있는 표음 및 변환된 ID 발생 유닛(314)을 포함하는 디바이스가 인식하도록, 자동으로 그리고/또는 사용자 선택에 의해, 설정되는 언어)에 대해 언어학자에 의해 발생된다. 악센트 있는 단어 발생기(402)는 (예컨대, 라인(312) 상에서 수신된 메타데이터와 저장된 단어/표음의 비교에 기반하여) 특정 악센트에 대한 단어와 가장 유사하게 들리는 새로운 단어를 제공할 수 있다. 이것은 시스템에 의해 지원되는 모든 악센트에 대해 행해진다, 예컨대, N(예컨대, 양의 정수) 수의 악센트가 악센트 있는 표음 및 변환된 ID 발생 유닛(314)에 의해 지원될 수 있다. 악센트 있는 단어 발생기(402)는 사용되고 있는 언어에 기반하여 단어에 대한 발음을 발생시키도록 데이터베이스(404)에 저장된 데이터 및 규칙을 사용한다. 언어는 사용자에 의해 입력된 발화 및 이력 데이터 중 하나 이상에 기반하여 자동으로 식별될 수 있고, 그리고/또는 언어는 사용자에 의한 언어의 선택에 기반하여 수동으로 설정 및 식별될 수 있다. 예컨대, 악센트 있는 단어 발생기(402)는, 예컨대 CAKE를 표현하는, 라인(312) 상의 글자 스트링을 [K EY K]와 같은 단음 스트링으로 변환할 수 있다. 악센트 있는 단어 발생기(402)로부터의 출력은 악센트 있는 표음 및 ID 발생 논리 유닛(314)에 의해 지원된 N 수의 악센트의 각각에 대해 라인(406 내지 408) 상에 수정된 단어로서 제공된다. 라인(406 내지 408) 상의 N 수의 수정된 단어의 각각은 그 특정 악센트와 연관된 출력을 자소-대-음소(G2P) 논리 유닛(410)에 제공한다. 예컨대, 인도 영어에 대해 열두개(12)의 다른 악센트가 있을 수 있고, 그리하여 그들 12개의 악센트의(x가 12보다 더 작은 양의 정수인 경우, 12개의 다른 악센트 중 [12 - x]개의 다른 악센트, 예컨대, 가장 대중적인 [12 - x]개의 다른 악센트를 포함하는 서브세트와 같은, 12개의 다른 악센트의 서브세트로부터의) 각각에 대한 수정된 단어가 악센트 있는 단어 발생기(402)로부터 출력될 수 있는 것을 생각해볼 수 있다.
도 3 및 도 4를 참조하면, 라인(312) 상의 텍스트 엔트리는, N 수의 수정된 텍스트 엔트리/단어를 라인(406 내지 408)상에 제공하도록 적합한 악센트 있는 스트링으로 대체하는, 악센트 있는 표음 및 변환된 ID 발생 논리 유닛(314)에 의해 프로세싱된다. 그 후 그들 엔트리는 표음 전사를 얻도록 사용되고 인식을 위해 문맥에 부가된다. 예컨대, 엔트리로서 저장된 이름 "Ananyavrata"를 고려해 본다. 그 이름에 대한 발음은 벵골어로 발음될 때 "Onanyabrota"에 가장 가깝다. 일반적 규칙으로서, 스트링 "An"은 "On"으로 교체될 수 있고 그리고 "v"는 글자 "b"로 교체될 수 있다. 동일한 이름은 타밀어로 "Ananyavratha"로서 발음되며, "t"로 끝나는 이름의 "th"로의 교체를 내포할 수 있다. 그 후 새로운 스트링은 악센트의 각각에 대한 표음 전사를 얻도록 사용될 수 있다.
모든 악센트에 대해 발생된 표음은 동일한 ID에 대해 런타임에 부가될 수 있다. 이것은 음성 인식 엔진(308)이 인식 정확도를 개선하기 위해 동시에 악센트들을 청취할 수 있음을 의미한다.
음향 특징부에 기반하여, G2P 유닛(410)은 N개의 악센트의 각각에 대해 라인(413 내지 415) 상에 표음 데이터를 제공한다. G2P 유닛(410)은 (예컨대, 악센트 없는) 라인(312) 상의 입력 신호와 연관된 표음 데이터를 라인(412) 상에 제공한다. 기본 표음 소리는 다른 언어 및 지역에서 다를 수 있다. 예컨대, 모음은 아프리카 영어와 북미 영어에서 다르게 발음될 수 있다. 인도에서 나라의 다른 지방에 대한 다른 악센트도 그렇다. 그렇지만, 특정 단어가 다른 지역에서 발음될 방식 또는 강세가 주어지거나 휴지가 부가될 방식은 알려져 있다. 언어의 이들 언어학적 특징의 지식은 표음 발음을 모델링하는데 기초를 제공한다. 시스템은 선택된 언어(예컨대, 인도 영어) 및 그 언어와 연관된 복수의 악센트에서 이름에 대한 그러한 프로세싱 및 연관을 수행할 수 있다. 각각의 입력 스트링에 대해, 표음 유닛(412 내지 415)은 고유의 표음 전사를 반환한다. 악센트 있는 표음 및 변환된 ID 발생 논리 유닛(314)은, G2P 유닛(410)으로부터 출력되는, 표음을 발생시키도록 임베디드 플랫폼 상에서도 그리고 오프라인으로도 사용될 수 있다.
G2P 논리 유닛(410)은 언어의 음소를 그들 음향 특징부에 기반하여 매핑한다. 예컨대, G2P 유닛은 G2P 규칙을 생성하도록 사용된 발음 사전에 포함되지 않은 단어(예컨대, 어휘-외 단어)에 대해 가장 확률 있는 단음 목록을 발생시킨다. G2P 유닛(410)은 도 3의 음성 인식 시스템(300)이 구성되는 언어(들)에 특정적인 음소 세트를 포함한다.
G2P 유닛(410)으로부터의 표음 출력 데이터는 라인(412) 상의 악센트 없는 표음 데이터 및 라인(413 내지 415) 상의 N 수의 악센트 있는 표음 데이터와 연관된 변환된 ID 데이터를 라인(417a 내지 417d) 상에 제공하는 변환된 ID 할당기(416)에 입력된다. 변환된 ID는 변환된 ID 공간과 연관된다. 악센트 있는 표음 및 변환된 ID 발생 유닛은 라인(412 내지 415) 상의 표음 데이터 및 라인(417a 내지 417d) 상의 변환된 ID 데이터를 제공한다. 라인(412) 상의 신호 및 라인(417a) 상의 신호는 라인(312) 상의 입력 신호와 연관된 출력 데이터 쌍을 제공한다. 유사하게, 라인(413) 상의 신호 및 라인(417b) 상의 신호는 라인(406) 상의 악센트 1에 대한 수정된 단어와 연관된 출력 데이터 쌍을 제공하는 한편, 라인(414) 상의 신호 및 라인(417c) 상의 신호는 라인(407) 상의 악센트 2에 대한 수정된 단어와 연관된 출력 데이터 쌍을 제공하고 등등이다.
변환된 ID 할당기(416)는 각각의 원래 단어 및 악센트 있는 단어에 대해 고유 ID를 발생시킨다. 예컨대, 원래 터미널에 대한 ID에 번호 1000가 배정되고 그리고 지원되는 악센트가 15개이면, 시스템은 1 내지 15의 범위에 있는 변환 악센트 ID를 통하여 변환된 ID를 제공할 수 있다. 일 실시형태에서, 변환은 다음과 같을 수 있다:
New_ID = (Old_ID * M) + Accent_ID,
여기서 M = N+1보다 크거나 같은 정수 수이고, 여기서 N은 지원되는 악센트의 최대 수이다.
N의 값은 다양한 인도 악센트에 대해 다음과 같이 배정될 수 있다:
0 - 악센트 없음
1 - 벵골 악센트
2 - 구자라트 악센트
...
등.
1000의 Old_ID 값이 배정되는 단어에 대해, 그리고 M이 20과 같을 때, 그 단어의 벵골 악센트 있는 형태에 대한 새로운 ID는 다음과 같이 계산될 수 있다:
(1000 * 20) + 1 = 20001.
1000의 Old_ID 값이 배정된 동일한 원래 단어에 대해, 그 단어의 구자라트 악센트 있는 형태에 대한 새로운 ID는 다음과 같이 계산될 수 있다:
(1000 * 20) + 2 = 20002.
음성 인식 엔진(308)이 변환된 인식된 ID를 도 3의 악센트 검출 유닛(318)에 넘겨줄 때, 원래 터미널 ID 및 악센트 ID는 변환을 통하여 추출될 수 있다:
Accent_ID = (Recognized_Transformed_ID % M),
여기서 %는 모듈로(나머지) 연산자를 표현하고, 그리고
Old_ID = Recognized_Transformed_ID-Accent_ID) / M.
이러한 ID 할당 기술은 음성 인식 시스템에 의해 사용된 원래 ID와 변환된 ID의 경합이 없음을 보장한다.
도 3 및 도 4를 참조하면, 음성 인식 엔진(308)은 또한 다양한 악센트에 대해 보정된 표음을 표시하는 라인(412 내지 415)(도 4) 상의 데이터, 및 이들 표음 신호와 연관된 라인(417a 내지 417d)(도 4) 상의 ID 데이터를 수신하는 문맥 유닛(320)을 포함한다. 음성 인식 애플리케이션이 활성일 때, 특정 문맥은 음성 인식 엔진(308)에 로딩된다. 시스템이 라인(304) 상에서 사용자 입력 음성을 수신하고 나면, 음성 특징부 추출기 유닛(302)은 디지털화된 소리 데이터를 특징부로 변환한다. 그 후 음성 인식 엔진(308)은 악센트 있는 표음 및 ID 발생 유닛(314)으로부터 음성 인식 엔진(308)에 입력된 악센트 있는 입력 데이터 쌍의 각각에 대해 터미널에 대응하는 ID 데이터를 반환한다.
문맥 유닛(320)에 대한 문법 파일은 G2P 유닛(410)(도 4)에 의해 반환된 표음을 미세-튜닝함으로써, 또는 예컨대 표음 발생기 툴을 사용함으로써 오프라인으로 편집될 수 있다. 예컨대, 단어 "read"는 문맥에 기반하여 "reed" 또는 "red"로서 발음될 수 있다. 그래서, 양 발음을 인식하기 위해, 양 발음에 대한 대응하는 표음 전사는 문맥 유닛(320)(도 3)의 문법 파일에 부가될 수 있다. 적합한 표음 발음을 갖는 터미널도 런타임에 부가될 수 있다.
오프라인 프로세싱을 사용하여, 단어는 텍스트 조작만을 통해 다른 언어에서 그것들이 말해져야 하는 방식으로 모델링될 수 있다. 표음 전사를 수동 튜닝할 필요가 없는데, 그렇지 않았더라면 번잡한 일이었을 수 있다. 예컨대, 고정된 커맨드 "find the nearest bank"를 고려해 본다. 특정 악센트에서, 단어 "bank"는 "byunk"(bya-unk로 쪼개짐)로서 발음될 수 있다. 그러한 언어에 대해 오프라인 표음 데이터 준비를 하는 동안, 단어 bank는 룩업되고 "bya unk"로 교체되고, 그리고 대응하는 표음은 인식의 목적으로 동의어로서 부가될 수 있다.
단어의 온라인(예컨대, 임베디드 디바이스 상의) 프로세싱 방법은 사용자에 의해 로딩된 동적 데이터에 유용할 수 있다. 그러한 데이터의 일례는, (예컨대, 블루투스 또는 다른 무선 접속을 통해서와 같이 무선으로, 그리고/또는 와이어라인 접속을 통하여) 예컨대 폰을 접속시킴으로써 획득될 수 있는, 전화번호부 엔트리이다. 다이얼링을 위해 음성 인식을 통하여 이름을 인식할 수 있기 위하여, 이름의 목록은, 이름에 대한 표음 전사를 반환하는, 악센트 있는 표음 및 ID 발생 논리(314)(도 4) 상에 제공될 수 있다. 사람 이름은 보통은 이름을 인식하는데 도전적 과제를 제기할 수 있는 많은 지역 악센트를 갖는다. 인식 정확도를 개선하기 위해, 이름은 악센트 있는 발음을 닮는 그러한 방식으로 이름을 표현하도록 런타임에 수정될 수 있다. 이들 수정은 런타임에 행해지고 그리고 후에 G2P 유닛(410)(도 4)으로부터 표음 전사를 인출하는데 사용될 수 있는 임시 파일에 기록될 수 있다. 수정 또는 스트링 대체는 악센트의 각각에 대해 구성 파일(예컨대, XML, JSON, 또는 YAML 기반 포맷)에 기반하여 그리고/또는 데이터베이스(404)(도 4)에서 룩업함으로써 행해질 수 있다. 수정 또는 스트링 대체는 데이터베이스가 시간 기간에 결쳐 확장 및 개선될 수 있으므로 스케일링가능한 정확도를 달성할 수 있다.
음성 인식 엔진(308)으로부터의 인식된 ID의 정확도를 개선하기 위해, 도 3의 시스템(300)은 또한 인식된 ID를 표시하는 데이터를 수신하는 악센트 검출 유닛(318)을 포함할 수 있다. 악센트 검출 유닛(318)은 검출된 악센트를 추적하고 이전에 검출된 악센트를 표시하는 데이터를 제공하는 가중 결과 유닛(322)에 데이터를 제공한다. 충분한 악센트가 검출되었고 그래서 신뢰가 달성되고 나면, 검출된 악센트를 표시하는 이러한 이력 정보는, 라인(324) 상에서, 개연성 있는 악센트를 결정하도록 가중 결과 유닛(322)에 의해 사용될 수 있다. 위에서 기술된 피드백 배열은 그러한 피드백을 이용하지 않는 다른 음성 인식 시스템에 비해 음성 인식 시스템(300)의 악센트 검출 정확도를 증가시킬 수 있다.
(예컨대, 가중 결과 유닛(322)으로부터, 개선된 정확도를 갖는) 인식 결과는 하나 이상의 음성-제어식 유닛 또는 디바이스(326)에 제공될 수 있다. 예컨대, 음성-제어식 유닛 또는 디바이스(326)는 인식된 음성 결과와 매칭하는 텍스트를 디스플레이하는 디스플레이 유닛 및/또는 인식된 음성 결과를 논리 프로세스(예컨대, 사용자 인터페이스를 조절하는 것, 검색을 수행하는 것, 다른 디바이스의 동작을 제어하도록 그 디바이스에 보낼 제어 커맨드를 결정하는 것, 및/또는 어느 다른 적합한 프로세스)에 적용하는 프로세서를 포함할 수 있다. 음성-제어식 유닛 또는 디바이스(326)는 부가적으로 또는 대안으로 인식된 음성 결과에 기반하여 동작을 변경하는 디바이스(예컨대, 차량 시스템, 모바일 컴퓨팅 디바이스, 서버 등) 및/또는 인식된 음성 결과를 추가적 프로세싱 또는 제어를 위해 다른 원격 유닛에 중계 또는 송신하는 원격 서비스 또는 네트워크 인터페이스를 포함할 수 있다. 일반적으로, 하나 이상의 음성-제어식 유닛 또는 디바이스(326)는 가중 결과 유닛(322) 및/또는 악센트 검출 유닛(318)으로부터의 인식된 음성 결과에 기반하는 동작을 수행할 수 있다. 동작은 디스플레이를 조절하는 것, 차량 또는 차량 시스템(예컨대, 오디오 시스템, 실내 온도 조절 시스템 등)의 동작을 조절하는 것, 인식된 음성 결과를 원격 디바이스에 보내는 것, 인식된 음성 결과에 대응하는 텍스트를 발생시키는 것, 및/또는 어느 다른 적합한 동작이라도 포함할 수 있다. 음성-제어식 유닛 또는 디바이스(326)는 저장 디바이스 및 저장 디바이스에 저장된 명령어를 실행시키기 위한 논리 디바이스를 포함하는 하드웨어 요소 및/또는 어느 적합한 하드웨어 요소라도 포함할 수 있다.
도 5는 도 3의 음성 인식 시스템을 포함하는 프로세싱 시스템(500)의, 예컨대, 인포테인먼트 시스템의 예시적 블록 선도이다. 도 3에 예시된 음성 인식 시스템(300)은 하나 이상의 프로세싱 유닛(504)(도 5)에서 실행가능한 프로그램 명령어로서 구현될 수 있다. 프로세싱 시스템(500)은, 예컨대, 마이크로폰, GPS 수신기, 라디오 수신기(예컨대, AM/FM/위성/와이파이, 블루투스 등)를 포함하는 입력 디바이스(502)로부터 입력 신호를 수신할 수 있다. 프로세싱 시스템(500)은 또한 저장 디바이스(506)(예컨대, 오디오 및/또는 비디오 콘텐츠를 포함하고 있는 하드 드라이브)를 포함하고, 그리고, 예컨대, 디스플레이, 라우드스피커, 블루투스 트랜시버, 및 와이어라인 접속과 같은 복수의 출력 디바이스(508)에 출력 커맨드 및 데이터를 제공할 수 있다.
도 6은 음성 인식을 수행하기 위한 방법(600)의 순서도이다. 예컨대, 방법(600)은 도 5의 음성 프로세싱 시스템(500) 및/또는 도 3 및 도 4의 음성 인식 시스템(300)과 같은 음성 인식 시스템에 의해 수행될 수 있다. (602)에서, 방법은 악센트 있는 서브스트링의 데이터베이스를 포함하는 악센트 있는 표음 및 변환된 ID 발생 유닛(예컨대, 도 3의 유닛(314))에서 메타데이터 및/또는 메타데이터에 대한 ID 데이터를 수신하는 것을 포함한다. (604)에서 표시된 바와 같이, 메타데이터는 사용자와 연관된 디바이스 상에 저장된 텍스트에 대응하는 단어를 포함할 수 있다. 예컨대, 메타데이터는 음성 인식 시스템의 저장 디바이스, 음성 인식 시스템에 입력을 제공하는 사용자의 모바일 디바이스, 음성 인식 시스템에 입력을 제공하는 사용자와 연관된 사용자 프로파일을 호스팅하는 외부 서비스(예컨대, 소셜 네트워킹 서비스), 및/또는 어느 다른 적합한 저장 디바이스 상에라도 저장된 텍스트 엔트리를 포함할 수 있다.
(606)에서, 방법은 메타데이터에 포함된 단어에 대한 악센트-보정된 표음 데이터를, 악센트 있는 표음 및 변환된 ID 발생 유닛을 통하여, 발생시키는 것을 포함한다. (608)에서 표시된 바와 같이, 악센트-보정된 표음 데이터는 데이터베이스에 저장된 악센트 있는 서브스트링에 기반하여 메타데이터에 포함된 단어의 다른 발음을 표현할 수 있다. 악센트 있는 표음 및 변환된 ID 발생 유닛은 악센트-보정된 표음 데이터에 대한 변환된 ID를 더 발생시킬 수 있다. 예컨대, 악센트-보정된 표음 데이터는 악센트 있는 단어를 포함할 수 있고, 각각의 악센트 있는 단어는 메타데이터에 포함된 연관된 원래 단어에 대응하고, 변환된 ID의 각각은 다른 악센트 단어에 대응하고 그리고 그 악센트 있는 단어에 대한 악센트 및 그 악센트 있는 단어와 연관된 원래 단어에 대한 ID 데이터에 기반하여 발생된다.
(610)에서, 방법은, 음성 추출 유닛에서, 사용자에 의해 입력된 발화를 수신하고 그 입력에 기반하여 추출된 음성 데이터를 발생시키는 것을 포함한다. (612)에서, 방법은 음성 인식 엔진(예컨대, 도 3의 음성 인식 엔진(308))에서 수신하는 것을 포함한다. (614)에서, 방법은, 음성 인식 엔진에서, 악센트-보정된 표음 데이터를 수신하는 것을 포함한다.
(616)에서, 방법은, 음성 인식 엔진에서, 추출된 음성 데이터에서 인식된 발화를 식별시키는 하나 이상의 터미널 ID를 결정하는 것을 포함한다. (618)에서, 방법은, 음성 인식 엔진에서, 인식된 발화에서 검출된 악센트를 식별시키는 악센트 데이터를 발생시키는 것을 포함한다. (620)에서, 방법은 발생된 악센트 데이터를 저장하고 이력 데이터(예컨대, 이전에-발생된 악센트 데이터 및/또는 인식된 음성 데이터)와 비교하는 것을 포함한다. 발생된 악센트 데이터 및 이력 데이터는 가중 결과 유닛에서 수신될 수 있다(예컨대, 도 3의 유닛(322), 이력 데이터는 그들 인식된 음성 결과를 발생시 가중 결과 유닛에서 수신 및 저장되는 인식된 음성 결과를 포함할 수 있다). 가중 결과 유닛은 악센트 데이터가 이전의 인식된 음성 결과의 최근에-결정된 악센트와 매칭하는지 결정하기 위해 현재 및 이전 데이터(예컨대, 현재-결정된 악센트 데이터 및 이전에-결정된 이력 데이터)를 비교할 수 있다. (622)에서, 방법은 터미널 ID, 악센트 데이터, 및/또는 이력 데이터에 기반하여 인식된 음성 데이터를 발생시키는 것을 포함한다. 예컨대, 인식된 음성 데이터 및 하나 이상의 터미널 ID는 메타데이터의 단어 및 메타데이터의 단어에 대한 ID 데이터에 매칭될 수 있다. (624)에서, 방법은 음성-제어식 디바이스(예컨대, 도 3의 음성-제어식 디바이스(326))에 인식된 음성 데이터를 출력하는 것을 포함한다.
여기에서 개시된 시스템 및 방법은 단일 음향 모델을 통해 (예컨대, 인도 영어의) 다수의 악센트를 지원하는 문제를 다룬다. G2P 유닛에 대해 표음을 얻도록 사용된 단어를 수정함으로써 특정 악센트에 대한 표음이 오프라인으로 또는 온라인으로 발생된다.
위의 시스템 및 방법은 또한, 악센트 있는 서브스트링의 데이터베이스를 포함하는, 그리고 메타데이터 및 메타데이터와 연관되고 제1 ID 데이터 공간에 있는 ID 데이터를 수신하고, 그리고 특정 언어와 연관된 복수의 다른 악센트 중 연관된 하나와 각각 고유하게 연관된 복수의 수정된 단어를 제공하고 그리고 복수의 수정된 단어를 프로세싱하고 그리고 복수의 수정된 단어에 대한 복수의 악센트 보정된 표음 데이터를 제공하는 악센트 있는 표음 및 변환된 ID 발생 유닛으로서, 악센트 보정된 표음 데이터의 각각은 복수의 악센트 보정된 표음 데이터 중 연관된 하나와 각각 고유하게 연관된 제2 ID 데이터 공간에 있는 복수의 변환된 ID를 제공하도록 프로세싱되는 악센트 있는 표음 및 변환된 ID 발생 유닛, 사용자 입력 음성을 수신 및 프로세싱하고 그리고 사용자 입력 음성과 연관된 추출된 음성 데이터를 제공하는 음성 특징부 추출기 유닛, 추출된 음성 데이터, 복수의 변환된 ID 및 복수의 악센트 보정된 표음 데이터를 수신하고 그리고 표음 전사 중 하나가 사용자 입력 음성과 연관된 추출된 음성 데이터와 최상으로 매칭하는 악센트 데이터 및 터미널에 대응하는 터미널 식별자를 제공하는 음성 인식 논리 유닛, 터미널 식별자를 수신하고 그리고 제1 ID 데이터 공간에 있는 확인된 ID를 제공하는 악센트 검출 및 역 ID 변환 유닛, 및 검출된 악센트 데이터를 수신하고 검출된 악센트 데이터의 과거 값과 비교하여 인식된 음성 데이터를 제공하는 악센트 결과 가중 논리 유닛을 포함하는 일례의 음성 인식 시스템을 위해 제공된다. 제1 예에서, 선택사항으로서, 음성 인식 시스템은 악센트 있는 표음 및 변환된 ID 발생 유닛이 복수의 악센트 보정된 표음 데이터를 제공하는 자소-대-표음 유닛을 포함하는 음성 인식 시스템을 포함한다. 선택사항으로서, 음성 인식 시스템의 제2 예는 제1 예를 포함하고 그리고 악센트 있는 표음 및 변환된 ID 발생 유닛이 악센트 보정된 표음 데이터 및 ID 데이터를 수신하고 그리고 제2 ID 데이터 공간에 있는 복수의 변환된 ID를 제공하는 변환된 ID 할당기를 포함하는 음성 인식 시스템을 더 포함한다. 선택사항으로서, 음성 인식 시스템의 제3 예는 제1 예 및 제2 예 중 하나 이상을 포함하고, 그리고 음성 인식 논리 유닛이 특정 언어와 연관된 문법 파일을 포함하는 문맥 유닛을 포함하는 음성 인식 시스템을 더 포함한다.
위의 시스템 및 방법은 또한, 악센트 있는 서브스트링의 데이터베이스에 액세스하는 일례의 음성 인식 방법으로서, 메타데이터 및 메타데이터와 연관되고 원래 ID 공간에 있는 ID 데이터를 수신하고, 그리고 특정 언어와 연관된 복수의 다른 악센트 중 연관된 하나와 각각 고유하게 연관된 복수의 수정된 단어를 제공하고 그리고 복수의 수정된 단어를 프로세싱하여 복수의 수정된 단어에 대한 복수의 악센트 보정된 표음 데이터를 제공하는 단계로서, 악센트 보정된 표음 데이터의 각각은 복수의 악센트 보정된 표음 데이터 중 연관된 하나와 각각 고유하게 연관된 변환된 ID 공간에 있는 복수의 변환된 ID를 제공하도록 프로세싱되는 제공하는 단계, 음성 특징부 추출기 유닛에서 사용자 입력 음성을 수신하고 그리고 수신된 입력 음성을 프로세싱하여 사용자 입력 음성과 연관된 추출된 음성 데이터를 제공하는 단계, 추출된 음성 데이터, 복수의 변환된 ID 및 복수의 악센트 보정된 표음 데이터를 프로세싱하고 그리고 표음 전사 중 하나가 사용자 입력 음성과 연관된 추출된 음성 데이터와 최상으로 매칭하는 악센트 데이터 및 터미널에 대응하는 터미널 식별자를 제공하는 단계, 터미널 식별자를 프로세싱하여 원래 ID 데이터 공간에 있는 확인된 ID를 제공하는 단계, 및 검출된 악센트 데이터를 검출된 악센트 데이터의 과거 값과 비교하여 인식된 음성 데이터를 제공하는 단계를 포함하는 음성 인식 방법을 위해 제공된다. 음성 인식 방법의 제1 예는 복수의 악센트 보정된 표음 데이터를 제공하는 단계가 복수의 악센트 보정된 표음 데이터를 제공하도록 복수의 수정된 단어를 자소-대-표음 프로세싱하는 단계를 포함하는 방법을 포함한다.
위의 시스템 및 방법은 또한, 악센트 있는 서브스트링의 데이터베이스에 액세스하는 프로세서에서 수행되는 음성 인식 방법으로서, 메타데이터 및 메타데이터와 연관되는 원래 ID 공간에 있는 ID 데이터를 수신하는 단계, 특정 언어와 연관된 복수의 다른 악센트 중 연관된 하나 및 메타데이터와 각각 고유하게 연관된 복수의 수정된 단어를 제공하고 그리고 복수의 수정된 단어를 프로세싱하여 복수의 수정된 단어에 대한 복수의 악센트 보정된 표음 데이터를 제공하는 단계, 악센트 보정된 표음 데이터를 프로세싱하여 복수의 악센트 보정된 표음 데이터 중 연관된 하나와 각각 고유하게 연관된 변환된 ID 공간에 있는 복수의 변환된 ID를 제공하는 단계, 사용자 입력 음성 데이터를 수신하고 그리고 수신된 입력 음성 데이터를 프로세싱하여 사용자 입력 음성 데이터와 연관된 추출된 음성 데이터를 제공하는 단계, 추출된 음성 데이터, 복수의 변환된 ID 및 복수의 악센트 보정된 표음 데이터를 프로세싱하고 그리고 사용자 입력 음성 데이터와 연관된 추출된 음성 데이터와 최상으로 매칭하는 표음 전사에 대한 악센트 데이터를 제공하고 그리고 터미널에 대응하는 터미널 식별자를 제공하는 단계, 터미널 식별자를 프로세싱하여 원래 ID 데이터 공간에 있는 변환된 ID를 제공하는 단계, 및 검출된 악센트 데이터를 검출된 악센트 데이터의 과거 값과 비교하여 인식된 음성 데이터를 제공하는 단계를 포함하는 음성 인식 방법을 위해 제공된다.
위의 시스템 및 방법은 또한, 음성-제어식 디바이스, 프로세서, 및 악센트 있는 서브스트링의 데이터베이스를 포함하는 악센트 있는 표음 및 변환된 ID 발생 유닛에서 메타데이터를 수신하고, 메타데이터에 포함된 단어에 대한 악센트-보정된 표음 데이터를, 악센트 있는 표음 및 변환된 ID 발생 유닛을 통하여, 발생시키고, 악센트-보정된 표음 데이터는 데이터베이스에 저장된 악센트 있는 서브스트링에 기반하여 메타데이터에 포함된 단어의 다른 발음을 표현하고, 음성 인식 시스템에 사용자에 의해 입력된 발화로부터 유도된 추출된 음성 데이터를, 음성 인식 엔진에서, 수신하고, 악센트-보정된 표음 데이터를, 음성 인식 엔진에서, 수신하고, 추출된 음성 데이터에서 인식된 발화를 식별시키는 하나 이상의 터미널 ID를, 음성 인식 엔진에서, 결정하고, 인식된 발화에서 검출된 악센트를 식별시키는 악센트 데이터를, 음성 인식 엔진에서, 발생시키고, 하나 이상의 터미널 ID 및 악센트 데이터에 기반하여 인식된 음성 데이터를 발생시키고, 그리고 인식된 음성 데이터를 음성-제어식 디바이스에 출력하도록 프로세서에 의해 실행가능한 명령어를 저장하는 저장 디바이스를 포함하는 음성 인식 시스템을 위해 제공된다. 음성 인식 시스템의 제1 예는 명령어가 악센트 데이터 및 이전에-발생된 악센트 데이터를 포함하는 이력 데이터를, 가중 결과 유닛에서, 수신하고 그리고 악센트 데이터를 이력 데이터와 비교하도록 더 실행가능하고, 인식된 음성 데이터는 이력 데이터와 악센트 데이터의 비교에 더 기반하는 음성 인식 시스템을 포함한다. 선택사항으로서, 음성 인식 시스템의 제2 예는 제1 예를 포함하고 그리고 메타데이터가 음성 인식 시스템의 저장 디바이스, 음성 인식 시스템에 입력을 제공하는 사용자의 모바일 디바이스, 및 음성 인식 시스템에 입력을 제공하는 사용자와 연관된 사용자 프로파일을 호스팅하는 외부 서비스 중 하나 이상에 저장된 텍스트 엔트리에 대응하는 음성 인식 시스템을 더 포함한다. 선택사항으로서, 음성 인식 시스템의 제3 예는 제1 예 및 제2 예 중 어느 하나 이상을 포함하고 그리고 명령어가 메타데이터에 포함된 단어에 대응하는 ID 데이터를, 악센트 있는 표음 및 변환된 ID 발생 유닛에서, 수신하고 그리고 악센트-보정된 표음 데이터에 대한 변환된 ID를, 악센트 있는 표음 및 변환된 ID 발생 유닛에서, 발생시키도록 더 실행가능한 음성 인식 시스템을 더 포함한다. 선택사항으로서, 음성 인식 시스템의 제4 예는 제1 예 내지 제3 예 중 어느 하나 이상을 포함하고, 그리고 악센트-보정된 표음 데이터가 악센트 있는 단어를 포함하고, 각각의 악센트 있는 단어가 메타데이터에 포함된 연관된 원래 단어에 대응하고, 변환된 ID의 각각이 다른 악센트 단어에 대응하고 그리고 그 악센트 있는 단어에 대한 악센트 및 그 악센트 있는 단어와 연관된 원래 단어에 대한 ID 데이터에 기반하여 발생되는 음성 인식 시스템을 더 포함한다. 선택사항으로서, 음성 인식 시스템의 제5 예는 제1 예 내지 제4 예 중 어느 하나 이상을 포함하고, 그리고 인식된 음성 데이터 및 하나 이상의 터미널 ID가 메타데이터의 단어 및 메타데이터의 단어에 대한 ID 데이터에 매칭되는 음성 인식 시스템을 더 포함한다. 선택사항으로서, 음성 인식 시스템의 제6 예는 제1 예 내지 제5 예 중 어느 하나 이상을 포함하고, 그리고 음성 인식 논리 유닛이 사용자에 대해 식별된 언어와 연관된 문법 파일을 포함하는 문맥 유닛을 포함하는 음성 인식 시스템을 더 포함한다. 선택사항으로서, 음성 인식 시스템의 제7 예는 제1 예 내지 제6 예 중 어느 하나 이상을 포함하고, 그리고 언어가 사용자에 의해 입력된 발화 및 이력 데이터 중 하나 이상에 기반하여 자동으로 식별되는 음성 인식 시스템을 더 포함한다. 선택사항으로서, 음성 인식 시스템의 제8 예는 제1 예 내지 제7 예 중 어느 하나 이상을 포함하고, 그리고 언어가 사용자에 의한 언어의 선택에 기반하여 식별되는 음성 인식 시스템을 더 포함한다. 선택사항으로서, 음성 인식 시스템의 제9 예는 제1 예 내지 제8 예 중 어느 하나 이상을 포함하고, 그리고 음성 인식 시스템이 차량의 차량-내 컴퓨팅 시스템을 포함하고, 그리고 음성-제어식 디바이스가 차량에서의 차량 시스템 및 차량-내 컴퓨팅 시스템의 디스플레이 중 하나 이상을 포함하는 음성 인식 시스템을 더 포함한다.
위의 시스템 및 방법은 또한, 음성-제어식 디바이스, 프로세서, 및 프로세서에 의해 실행가능한 명령어를 저장하는 저장 디바이스를 포함하는 음성 인식 시스템에 의해 수행되는 음성 인식 방법으로서, 방법은 악센트 있는 서브스트링의 데이터베이스를 포함하는 악센트 있는 표음 및 변환된 ID 발생 유닛에서 메타데이터를 수신하는 단계, 메타데이터에 포함된 단어에 대한 악센트-보정된 표음 데이터를, 악센트 있는 표음 및 변환된 ID 발생 유닛을 통하여, 발생시키는 단계로서, 악센트-보정된 표음 데이터는 데이터베이스에 저장된 악센트 있는 서브스트링에 기반하여 메타데이터에 포함된 단어의 다른 발음을 표현하는 발생시키는 단계, 음성 인식 시스템에 사용자에 의해 입력된 발화로부터 유도된 추출된 음성 데이터를, 음성 인식 엔진에서, 수신하는 단계, 악센트-보정된 표음 데이터를, 음성 인식 엔진에서, 수신하는 단계, 추출된 음성 데이터에서 인식된 발화를 식별시키는 하나 이상의 터미널 ID를, 음성 인식 엔진에서, 결정하는 단계, 인식된 발화에서 검출된 악센트를 식별시키는 악센트 데이터를, 음성 인식 엔진에서, 발생시키는 단계, 하나 이상의 터미널 ID 및 악센트 데이터에 기반하여 인식된 음성 데이터를 발생시키는 단계, 및 인식된 음성 데이터를 음성-제어식 디바이스에 출력하는 단계를 포함하는 음성 인식 방법을 위해 제공된다. 방법의 제1 예는 악센트 데이터 및 이전에-발생된 악센트 데이터를 포함하는 이력 데이터를, 가중 결과 유닛에서, 수신하고 그리고 악센트 데이터를 이력 데이터와 비교하는 단계를 더 포함하고, 인식된 음성 데이터는 이력 데이터와 악센트 데이터의 비교에 더 기반한다. 선택사항으로서, 방법의 제2 예는 제1 예를 포함하고 그리고 악센트 데이터를 이력 데이터와 비교하는 단계가 악센트 데이터에 의해 식별된 악센트가 최근에-인식된 음성 데이터에서 식별된 악센트와 매칭하는지 결정하는 단계를 포함하는 방법을 더 포함한다. 선택사항으로서, 방법의 제3 예는 제1 예 및 제2 예 중 어느 하나 이상을 포함하고, 그리고 메타데이터가 음성 인식 시스템의 저장 디바이스, 음성 인식 시스템에 입력을 제공하는 사용자의 모바일 디바이스, 및 음성 인식 시스템에 입력을 제공하는 사용자와 연관된 사용자 프로파일을 호스팅하는 외부 서비스 중 하나 이상에 저장된 텍스트 엔트리에 대응하는 방법을 더 포함한다. 선택사항으로서, 방법의 제4 예는 제1 예 내지 제3 예 중 어느 하나 이상을 포함하고, 그리고 메타데이터에 포함된 단어에 대응하는 ID 데이터를, 악센트 있는 표음 및 변환된 ID 발생 유닛에서, 수신하고 그리고 악센트-보정된 표음 데이터에 대한 변환된 ID를, 악센트 있는 표음 및 변환된 ID 발생 유닛에서, 발생시키는 단계를 더 포함한다. 선택사항으로서, 방법의 제5 예는 제1 예 내지 제4 예 중 어느 하나 이상을 포함하고, 그리고 악센트-보정된 표음 데이터가 악센트 있는 단어를 포함하고, 각각의 악센트 있는 단어가 메타데이터에 포함된 연관된 원래 단어에 대응하고, 변환된 ID의 각각이 다른 악센트 단어에 대응하고 그리고 그 악센트 있는 단어에 대한 악센트 및 그 악센트 있는 단어와 연관된 원래 단어에 대한 ID 데이터에 기반하여 발생되는 방법을 더 포함한다. 선택사항으로서, 방법의 제6 예는 제1 예 내지 제5 예 중 어느 하나 이상을 포함하고, 그리고 인식된 음성 데이터 및 하나 이상의 터미널 ID가 메타데이터의 단어 및 메타데이터의 단어에 대한 ID 데이터에 매칭되는 방법을 더 포함한다. 선택사항으로서, 방법의 제7 예는 제1 예 내지 제6 예 중 어느 하나 이상을 포함하고, 그리고 음성 인식 논리 유닛이 사용자에 대해 식별된 언어와 연관된 문법 파일을 포함하는 문맥 유닛을 포함하는 방법을 더 포함한다. 선택사항으로서, 방법의 제8 예는 제1 예 내지 제7 예 중 어느 하나 이상을 포함하고, 그리고 언어가 사용자에 의해 입력된 발화 및 이력 데이터 중 하나 이상에 기반하여 자동으로 식별되는 방법을 더 포함한다. 선택사항으로서, 방법의 제9 예는 제1 예 내지 제8 예 중 어느 하나 이상을 포함하고, 그리고 언어가 사용자에 의한 언어의 선택에 기반하여 식별되는 방법을 더 포함한다. 선택사항으로서, 방법의 제10 예는 제1 예 내지 제9 예 중 어느 하나 이상을 포함하고, 그리고 음성 인식 시스템이 차량의 차량-내 컴퓨팅 시스템을 포함하고, 그리고 음성-제어식 디바이스가 차량에서의 차량 시스템 및 차량-내 컴퓨팅 시스템의 디스플레이 중 하나 이상을 포함하는 방법을 더 포함한다.
실시형태의 설명은 예시 및 설명의 목적으로 제시되었다. 실시형태에 대한 적합한 수정 및 변형은 위의 설명에 비추어 수행될 수 있거나 또는 방법을 실시하는 것으로부터 취득될 수 있다. 예컨대, 달리 언급되지 않는 한, 기술된 방법 중 하나 이상은, 도 1 및 도 3을 참조하여 기술되는 차량-내 컴퓨팅 시스템(109) 및/또는 음성 인식 시스템(300)과 같은, 적합한 디바이스 및/또는 디바이스 조합에 의해 수행될 수 있다. 방법은, 저장 디바이스, 메모리, 하드웨어 네트워크 인터페이스/안테나, 스위치, 액추에이터, 클록 회로 등과 같은, 하나 이상의 부가적 하드웨어 요소와 조합하여 하나 이상의 논리 디바이스(예컨대, 프로세서)로 저장된 명령어를 실행시킴으로써 수행될 수 있다. 기술된 방법 및 연관된 동작은 또한 본 출원에서 기술된 순서에 부가하여 다양한 순서로, 병렬로, 그리고/또는 동시에 수행될 수 있다. 기술된 시스템은 본질이 예시적인 것이고, 그리고 부가적 요소를 포함하고 그리고/또는 요소를 생략할 수 있다. 본 개시의 주제 사항은 다양한 시스템 및 구성의 모든 신규 및 비-자명 조합 및 부분-조합, 및 개시된 다른 특징, 기능, 및/또는 속성을 포함한다.
본 출원에서 사용될 때, 부정관사로 진행되고 단수형으로 나열된 요소 또는 단계는 상기 요소 또는 단계의 복수형을, 그 배제가 명시되지 않는 한, 배제하지 않는 것으로 이해되어야 한다. 더욱, 본 발명의 "일 실시형태" 또는 "일례"의 지칭은 나열된 특징을 또한 편입시키는 부가적 실시형태의 존재를 배제하는 것으로 해석되려는 의도는 아니다. 용어 "제1", "제2" 및 "제3" 등은 라벨로서 사용되는 것에 불과하고, 그들 객체에 수치적 요건 또는 특정 위치 순서를 부과하려는 의도는 아니다. 이하의 청구범위는 특히 신규하고 비-자명한 것으로 간주되는 위의 개시로부터의 주제 사항을 가리킨다.

Claims (18)

  1. 음성 인식 시스템으로서,
    악센트 있는 서브스트링(accented substrings)의 데이터베이스를 포함하는, 그리고 메타데이터 및 상기 메타데이터와 연관되고 제1 ID 데이터 공간에 있는 ID 데이터를 수신하고, 그리고 특정 언어와 연관된 복수의 상이한 악센트 중 연관된 하나와 각각 고유하게 연관된 복수의 수정된 단어를 제공하고 그리고 상기 복수의 수정된 단어를 프로세싱하고 그리고 상기 복수의 수정된 단어에 대한 복수의 악센트 보정된 표음 데이터(phonetic data)를 제공하는 악센트 있는 표음 및 변환된 ID 발생 유닛으로서, 상기 악센트 보정된 표음 데이터의 각각은 상기 복수의 악센트 보정된 표음 데이터 중 연관된 하나와 각각 고유하게 연관된 제2 ID 데이터 공간에 있는 복수의 변환된 ID를 제공하도록 프로세싱되는, 상기 악센트 있는 표음 및 변환된 ID 발생 유닛;
    사용자 입력 음성을 수신 및 프로세싱하고 그리고 상기 사용자 입력 음성과 연관된 추출된 음성 데이터를 제공하는 음성 특징부 추출기 유닛;
    상기 추출된 음성 데이터, 상기 복수의 변환된 ID 및 상기 복수의 악센트 보정된 표음 데이터를 수신하고 그리고 표음 전사(phonetic transcriptions) 중 하나가 상기 사용자 입력 음성과 연관된 상기 추출된 음성 데이터와 최상으로 매칭하는 악센트 데이터 및 터미널에 대응하는 터미널 식별자를 제공하는 음성 인식 논리 유닛;
    상기 터미널 식별자를 수신하고 그리고 상기 제1 ID 데이터 공간에 있는 확인된 ID를 제공하는 악센트 검출 및 역 ID 변환 유닛; 및
    검출된 상기 악센트 데이터를 수신하고 검출된 상기 악센트 데이터의 과거 값과 비교하여 인식된 음성 데이터를 제공하는 악센트 결과 가중 논리 유닛(accent result weighting logic unit)을 포함하는, 음성 인식 시스템.
  2. 제1항에 있어서, 상기 악센트 있는 표음 및 변환된 ID 발생 유닛은 상기 복수의 악센트 보정된 표음 데이터를 제공하는 자소-대-표음 유닛(grapheme-to-phonetics unit)을 포함하는, 음성 인식 시스템.
  3. 제1항 또는 제2항에 있어서, 상기 악센트 있는 표음 및 변환된 ID 발생 유닛은 상기 악센트 보정된 표음 데이터 및 상기 ID 데이터를 수신하고 그리고 상기 제2 ID 데이터 공간에 있는 상기 복수의 변환된 ID를 제공하는 변환된 ID 할당기를 포함하는, 음성 인식 시스템.
  4. 제3항에 있어서, 상기 음성 인식 논리 유닛은 상기 특정 언어와 연관된 문법 파일을 포함하는 문맥 유닛(context unit)을 포함하는, 음성 인식 시스템.
  5. 악센트 있는 서브스트링의 데이터베이스에 액세스하는 음성 인식 방법으로서,
    메타데이터 및 상기 메타데이터와 연관되고 원래 ID 공간에 있는 ID 데이터를 수신하고, 그리고 특정 언어와 연관된 복수의 상이한 악센트 중 연관된 하나와 각각 고유하게 연관된 복수의 수정된 단어를 제공하고 그리고 상기 복수의 수정된 단어를 프로세싱하여 상기 복수의 수정된 단어에 대한 복수의 악센트 보정된 표음 데이터를 제공하는 단계로서, 상기 악센트 보정된 표음 데이터의 각각은 상기 복수의 악센트 보정된 표음 데이터 중 연관된 하나와 각각 고유하게 연관된 변환된 ID 공간에 있는 복수의 변환된 ID를 제공하도록 프로세싱되는, 상기 복수의 악센트 보정된 표음 데이터를 제공하는 단계;
    음성 특징부 추출기 유닛에서 사용자 입력 음성을 수신하고 그리고 수신된 상기 입력 음성을 프로세싱하여 상기 사용자 입력 음성과 연관된 추출된 음성 데이터를 제공하는 단계;
    상기 추출된 음성 데이터, 상기 복수의 변환된 ID 및 상기 복수의 악센트 보정된 표음 데이터를 프로세싱하고 그리고 표음 전사 중 하나가 상기 사용자 입력 음성과 연관된 상기 추출된 음성 데이터와 최상으로 매칭하는 악센트 데이터 및 터미널에 대응하는 터미널 식별자를 제공하는 단계;
    상기 터미널 식별자를 프로세싱하여 상기 원래 ID 데이터 공간에 있는 확인된 ID를 제공하는 단계; 및
    검출된 상기 악센트 데이터를 검출된 상기 악센트 데이터의 과거 값과 비교하여 인식된 음성 데이터를 제공하는 단계를 포함하는, 음성 인식 방법.
  6. 제5항에 있어서, 상기 복수의 악센트 보정된 표음 데이터를 제공하는 단계는 상기 복수의 악센트 보정된 표음 데이터를 제공하기 위한 상기 복수의 수정된 단어의 자소-대-표음 프로세싱을 포함하는, 음성 인식 방법.
  7. 음성-제어식 디바이스, 프로세서, 및 상기 프로세서에 의해 실행가능한 명령어를 저장하는 저장 디바이스를 포함하는 음성 인식 시스템에 의해 수행되는 음성 인식 방법으로서,
    악센트 있는 서브스트링의 데이터베이스를 포함하는 악센트 있는 표음 및 변환된 ID 발생 유닛에서 메타데이터를 수신하는 단계;
    상기 메타데이터에 포함된 단어에 대한 악센트-보정된 표음 데이터를, 상기 악센트 있는 표음 및 변환된 ID 발생 유닛을 통하여, 생성하는 단계로서, 상기 악센트-보정된 표음 데이터는 상기 데이터베이스에 저장된 상기 악센트 있는 서브스트링에 기반하여 상기 메타데이터에 포함된 상기 단어들의 상이한 발음을 표현하는, 상기 악센트-보정된 표음 데이터를 발생시키는 단계;
    상기 음성 인식 시스템에 사용자에 의해 입력된 발화로부터 유도된 추출된 음성 데이터를, 음성 인식 엔진에서, 수신하는 단계;
    상기 악센트-보정된 표음 데이터를, 상기 음성 인식 엔진에서, 수신하는 단계;
    상기 추출된 음성 데이터에서 인식된 발화를 식별하는 하나 이상의 터미널 ID를, 상기 음성 인식 엔진에서, 결정하는 단계;
    상기 인식된 발화에서 검출된 악센트를 식별하는 악센트 데이터를, 상기 음성 인식 엔진에서, 생성하는 단계;
    상기 하나 이상의 터미널 ID 및 상기 악센트 데이터에 기반하여 인식된 음성 데이터를 생성하는 단계; 및
    상기 인식된 음성 데이터를 상기 음성-제어식 디바이스에 출력하는 단계를 포함하는, 음성 인식 방법.
  8. 제7항에 있어서, 상기 악센트 데이터 및 이전에-발생된 악센트 데이터를 포함하는 이력 데이터를, 가중 결과 유닛에서, 수신하고 그리고 상기 악센트 데이터를 상기 이력 데이터와 비교하는 단계를 더 포함하고, 상기 인식된 음성 데이터는 상기 이력 데이터와 상기 악센트 데이터의 상기 비교에 더 기반하는, 음성 인식 방법.
  9. 제8항에 있어서, 상기 악센트 데이터를 상기 이력 데이터와 비교하는 단계는 상기 악센트 데이터에 의해 식별된 악센트가 최근에-인식된 음성 데이터에서 식별된 악센트와 매칭하는지 결정하는 단계를 포함하는, 음성 인식 방법.
  10. 제7항 내지 제9항 중 어느 한 항에 있어서, 상기 메타데이터는 상기 음성 인식 시스템의 상기 저장 디바이스, 상기 음성 인식 시스템에 입력을 제공하는 사용자의 모바일 디바이스, 및 상기 음성 인식 시스템에 입력을 제공하는 상기 사용자와 연관된 사용자 프로파일을 호스팅하는 외부 서비스 중 하나 이상에 저장된 텍스트 엔트리에 대응하는, 음성 인식 방법.
  11. 제7항 내지 제9항 중 어느 한 항에 있어서, 상기 메타데이터에 포함된 상기 단어에 대응하는 ID 데이터를, 상기 악센트 있는 표음 및 변환된 ID 발생 유닛에서, 수신하고 그리고 상기 악센트-보정된 표음 데이터에 대한 변환된 ID를, 상기 악센트 있는 표음 및 변환된 ID 발생 유닛에서, 생성하는 단계를 더 포함하는, 음성 인식 방법.
  12. 제11항에 있어서, 상기 악센트-보정된 표음 데이터는 악센트 있는 단어를 포함하고, 각각의 악센트 있는 단어는 상기 메타데이터에 포함된 연관된 원래 단어에 대응하고, 상기 변환된 ID의 각각은 상이한 악센트 단어에 대응하고 그리고 당해 악센트 있는 단어에 대한 악센트 및 당해 악센트 있는 단어와 연관된 상기 원래 단어에 대한 상기 ID 데이터에 기반하여 생성되는, 음성 인식 방법.
  13. 제12항에 있어서, 상기 인식된 음성 데이터 및 상기 하나 이상의 터미널 ID는 상기 메타데이터의 단어 및 상기 메타데이터의 상기 단어에 대한 상기 ID 데이터에 매칭되는, 음성 인식 방법.
  14. 제7항 내지 제13항 중 어느 한 항에 있어서, 음성 인식 논리 유닛은 사용자에 대해 식별된 언어와 연관된 문법 파일을 포함하는 문맥 유닛을 포함하는, 음성 인식 방법.
  15. 제14항에 있어서, 상기 언어는 상기 사용자에 의해 입력된 상기 발화 및 이력 데이터 중 하나 이상에 기반하여 자동으로 식별되는, 음성 인식 방법.
  16. 제15항에 있어서, 상기 언어는 상기 사용자에 의한 상기 언어의 선택에 기반하여 식별되는, 음성 인식 방법.
  17. 제7항 내지 제16항 중 어느 한 항에 있어서, 상기 음성 인식 시스템은 차량의 차량-내 컴퓨팅 시스템을 포함하고, 그리고 상기 음성-제어식 디바이스는 상기 차량에서의 차량 시스템 및 상기 차량-내 컴퓨팅 시스템의 디스플레이 중 하나 이상을 포함하는, 음성 인식 방법.
  18. 음성-제어식 디바이스, 프로세서, 및 상기 프로세서에 의해 실행가능한 명령어를 저장하는 저장 디바이스를 포함하는 음성 인식 시스템에 의해 수행되는 음성 인식 방법으로서,
    메타데이터 및 상기 메타데이터와 연관되는 원래 ID 공간에 있는 ID 데이터를 수신하는 단계;
    특정 언어와 연관된 복수의 상이한 악센트 중 연관된 하나 및 상기 메타데이터와 각각 고유하게 연관된 복수의 수정된 단어를 제공하고 그리고 상기 복수의 수정된 단어를 프로세싱하여 상기 복수의 수정된 단어에 대한 복수의 악센트 보정된 표음 데이터를 제공하는 단계;
    상기 악센트 보정된 표음 데이터를 프로세싱하여 상기 복수의 악센트 보정된 표음 데이터 중 연관된 하나와 각각 고유하게 연관된 변환된 ID 공간에 있는 복수의 변환된 ID를 제공하는 단계;
    사용자 입력 음성 데이터를 수신하고 그리고 수신된 상기 입력 음성 데이터를 프로세싱하여 상기 사용자 입력 음성 데이터와 연관된 추출된 음성 데이터를 제공하는 단계;
    상기 추출된 음성 데이터, 상기 복수의 변환된 ID 및 상기 복수의 악센트 보정된 표음 데이터를 프로세싱하고 그리고 상기 사용자 입력 음성 데이터와 연관된 상기 추출된 음성 데이터와 최상으로 매칭하는 표음 전사에 대한 악센트 데이터를 제공하고 그리고 터미널에 대응하는 터미널 식별자를 제공하는 단계;
    상기 터미널 식별자를 프로세싱하여 상기 원래 ID 데이터 공간에 있는 변환된 ID를 제공하는 단계; 및
    검출된 상기 악센트 데이터를 검출된 상기 악센트 데이터의 과거 값과 비교하여 인식된 음성 데이터를 제공하는 단계를 포함하는, 음성 인식 방법.
KR1020177001632A 2014-07-24 2015-07-24 단일 음향 모델 및 자동 악센트 검출로 텍스트 규칙 기반 멀티-악센트 음성 인식 KR102388992B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN3618/CHE/2014 2014-07-24
IN3618CH2014 2014-07-24
PCT/US2015/042046 WO2016014970A1 (en) 2014-07-24 2015-07-24 Text rule based multi-accent speech recognition with single acoustic model and automatic accent detection

Publications (2)

Publication Number Publication Date
KR20170035905A true KR20170035905A (ko) 2017-03-31
KR102388992B1 KR102388992B1 (ko) 2022-04-21

Family

ID=55163851

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177001632A KR102388992B1 (ko) 2014-07-24 2015-07-24 단일 음향 모델 및 자동 악센트 검출로 텍스트 규칙 기반 멀티-악센트 음성 인식

Country Status (7)

Country Link
US (1) US10290300B2 (ko)
EP (1) EP3172729B1 (ko)
JP (1) JP6585154B2 (ko)
KR (1) KR102388992B1 (ko)
CN (1) CN106663422B (ko)
CA (1) CA2952836A1 (ko)
WO (1) WO2016014970A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101888059B1 (ko) 2018-02-12 2018-09-10 주식회사 공훈 문맥 기반 음성 모델 관리 장치 및 그 방법

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9734819B2 (en) * 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US10290300B2 (en) * 2014-07-24 2019-05-14 Harman International Industries, Incorporated Text rule multi-accent speech recognition with single acoustic model and automatic accent detection
CN107112007B (zh) * 2014-12-24 2020-08-07 三菱电机株式会社 语音识别装置及语音识别方法
US10056080B2 (en) 2016-10-18 2018-08-21 Ford Global Technologies, Llc Identifying contacts using speech recognition
US11043221B2 (en) * 2017-04-24 2021-06-22 Iheartmedia Management Services, Inc. Transmission schedule analysis and display
US10446136B2 (en) * 2017-05-11 2019-10-15 Ants Technology (Hk) Limited Accent invariant speech recognition
CN107481737A (zh) * 2017-08-28 2017-12-15 广东小天才科技有限公司 一种语音监控的方法、装置及终端设备
US10650844B2 (en) 2018-01-18 2020-05-12 Wipro Limited Method and response recommendation system for recommending a response for a voice-based user input
KR20190133100A (ko) * 2018-05-22 2019-12-02 삼성전자주식회사 어플리케이션을 이용하여 음성 입력에 대한 응답을 출력하는 전자 장치 및 그 동작 방법
WO2020014890A1 (zh) * 2018-07-18 2020-01-23 深圳魔耳智能声学科技有限公司 基于口音的语音识别处理方法、电子设备和存储介质
CN109410926A (zh) * 2018-11-27 2019-03-01 恒大法拉第未来智能汽车(广东)有限公司 语音语义识别方法及系统
US10839788B2 (en) 2018-12-13 2020-11-17 i2x GmbH Systems and methods for selecting accent and dialect based on context
US11450311B2 (en) 2018-12-13 2022-09-20 i2x GmbH System and methods for accent and dialect modification
CN109817208A (zh) * 2019-01-15 2019-05-28 上海交通大学 一种适合各地方言的驾驶员语音智能交互设备及方法
JP7225876B2 (ja) * 2019-02-08 2023-02-21 富士通株式会社 情報処理装置、演算処理装置および情報処理装置の制御方法
US11308265B1 (en) * 2019-10-11 2022-04-19 Wells Fargo Bank, N.A. Digitally aware neural dictation interface
CN111028834B (zh) * 2019-10-30 2023-01-20 蚂蚁财富(上海)金融信息服务有限公司 语音信息提醒方法、装置、服务器和语音信息提醒设备
KR20200007983A (ko) * 2020-01-03 2020-01-22 엘지전자 주식회사 지역적 특징 기반의 음성인식 방법 및 시스템
CN112614485A (zh) * 2020-12-30 2021-04-06 竹间智能科技(上海)有限公司 识别模型构建方法、语音识别方法、电子设备及存储介质
JP2022152464A (ja) * 2021-03-29 2022-10-12 トヨタ自動車株式会社 車両制御システム及び車両制御方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040073425A1 (en) * 2002-10-11 2004-04-15 Das Sharmistha Sarkar Arrangement for real-time automatic recognition of accented speech
US20130191126A1 (en) * 2012-01-20 2013-07-25 Microsoft Corporation Subword-Based Multi-Level Pronunciation Adaptation for Recognizing Accented Speech

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2907728B2 (ja) * 1994-08-10 1999-06-21 富士通テン株式会社 音声処理装置
US5911129A (en) * 1996-12-13 1999-06-08 Intel Corporation Audio font used for capture and rendering
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
JP4296714B2 (ja) * 2000-10-11 2009-07-15 ソニー株式会社 ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
US6785647B2 (en) * 2001-04-20 2004-08-31 William R. Hutchison Speech recognition system with network accessible speech processing resources
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
JP2004271895A (ja) * 2003-03-07 2004-09-30 Nec Corp 複数言語音声認識システムおよび発音学習システム
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7412387B2 (en) * 2005-01-18 2008-08-12 International Business Machines Corporation Automatic improvement of spoken language
US20070094022A1 (en) * 2005-10-20 2007-04-26 Hahn Koo Method and device for recognizing human intent
US7860722B1 (en) * 2006-01-18 2010-12-28 Securus Technologies, Inc. System and method for keyword detection in a controlled-environment facility using a hybrid application
US8725518B2 (en) * 2006-04-25 2014-05-13 Nice Systems Ltd. Automatic speech analysis
JP2008134475A (ja) * 2006-11-28 2008-06-12 Internatl Business Mach Corp <Ibm> 入力された音声のアクセントを認識する技術
CN101447184B (zh) * 2007-11-28 2011-07-27 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
US8380499B2 (en) * 2008-03-31 2013-02-19 General Motors Llc Speech recognition adjustment based on manual interaction
JP2009251388A (ja) * 2008-04-08 2009-10-29 Denso Corp 母国語発話装置
CN101751919B (zh) * 2008-12-03 2012-05-23 中国科学院自动化研究所 一种汉语口语重音自动检测方法
CN101650943A (zh) * 2008-12-19 2010-02-17 中国科学院声学研究所 一种非母语语音识别系统及方法
JP2011033874A (ja) * 2009-08-03 2011-02-17 Alpine Electronics Inc 多言語音声認識装置及び多言語音声認識辞書作成方法
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US8630860B1 (en) * 2011-03-03 2014-01-14 Nuance Communications, Inc. Speaker and call characteristic sensitive open voice search
US9412369B2 (en) * 2011-06-17 2016-08-09 Microsoft Technology Licensing, Llc Automated adverse drug event alerts
JP5812936B2 (ja) * 2012-05-24 2015-11-17 日本電信電話株式会社 アクセント句境界推定装置、アクセント句境界推定方法及びプログラム
US9009049B2 (en) * 2012-06-06 2015-04-14 Spansion Llc Recognition of speech with different accents
US9966064B2 (en) * 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
CN103699530A (zh) * 2012-09-27 2014-04-02 百度在线网络技术(北京)有限公司 根据语音输入信息在目标应用中输入文本的方法与设备
US10290300B2 (en) * 2014-07-24 2019-05-14 Harman International Industries, Incorporated Text rule multi-accent speech recognition with single acoustic model and automatic accent detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040073425A1 (en) * 2002-10-11 2004-04-15 Das Sharmistha Sarkar Arrangement for real-time automatic recognition of accented speech
US20130191126A1 (en) * 2012-01-20 2013-07-25 Microsoft Corporation Subword-Based Multi-Level Pronunciation Adaptation for Recognizing Accented Speech

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101888059B1 (ko) 2018-02-12 2018-09-10 주식회사 공훈 문맥 기반 음성 모델 관리 장치 및 그 방법

Also Published As

Publication number Publication date
CN106663422B (zh) 2021-03-30
CA2952836A1 (en) 2016-01-28
KR102388992B1 (ko) 2022-04-21
CN106663422A (zh) 2017-05-10
EP3172729A1 (en) 2017-05-31
JP2017521724A (ja) 2017-08-03
WO2016014970A1 (en) 2016-01-28
EP3172729A4 (en) 2018-04-11
US20170169814A1 (en) 2017-06-15
JP6585154B2 (ja) 2019-10-02
EP3172729B1 (en) 2022-04-20
US10290300B2 (en) 2019-05-14

Similar Documents

Publication Publication Date Title
KR102388992B1 (ko) 단일 음향 모델 및 자동 악센트 검출로 텍스트 규칙 기반 멀티-악센트 음성 인식
US10380992B2 (en) Natural language generation based on user speech style
JP6543460B2 (ja) 音声認識問い合わせ応答システム
US9570066B2 (en) Sender-responsive text-to-speech processing
US20170162191A1 (en) Prioritized content loading for vehicle automatic speech recognition systems
US11295735B1 (en) Customizing voice-control for developer devices
US10950229B2 (en) Configurable speech interface for vehicle infotainment systems
EP1739546A2 (en) Automobile interface
US8762151B2 (en) Speech recognition for premature enunciation
US9715877B2 (en) Systems and methods for a navigation system utilizing dictation and partial match search
US20180074661A1 (en) Preferred emoji identification and generation
US9881609B2 (en) Gesture-based cues for an automatic speech recognition system
US9997155B2 (en) Adapting a speech system to user pronunciation
US20100076764A1 (en) Method of dialing phone numbers using an in-vehicle speech recognition system
CN109671424B (zh) 车辆特征的响应激活
US9530414B2 (en) Speech recognition using a database and dynamic gate commands
US10431221B2 (en) Apparatus for selecting at least one task based on voice command, vehicle including the same, and method thereof
US9473094B2 (en) Automatically controlling the loudness of voice prompts
US9715878B2 (en) Systems and methods for result arbitration in spoken dialog systems
US11928390B2 (en) Systems and methods for providing a personalized virtual personal assistant
US20230298581A1 (en) Dialogue management method, user terminal and computer-readable recording medium
CN116643646A (zh) 自然语言处理装置及自然语言处理方法
CN118136003A (zh) 基于个性化语音唤醒的车辆人机交互方法、装置、电子设备和存储介质
CN116259320A (zh) 基于语音的车辆控制方法及装置、存储介质、电子装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant