KR102553234B1 - 음성 데이터 처리 방법, 장치 및 지능형 차량 - Google Patents

음성 데이터 처리 방법, 장치 및 지능형 차량 Download PDF

Info

Publication number
KR102553234B1
KR102553234B1 KR1020210038151A KR20210038151A KR102553234B1 KR 102553234 B1 KR102553234 B1 KR 102553234B1 KR 1020210038151 A KR1020210038151 A KR 1020210038151A KR 20210038151 A KR20210038151 A KR 20210038151A KR 102553234 B1 KR102553234 B1 KR 102553234B1
Authority
KR
South Korea
Prior art keywords
voice data
time period
energy
microphone
channel
Prior art date
Application number
KR1020210038151A
Other languages
English (en)
Other versions
KR20210040854A (ko
Inventor
이 조우
셩용 주어
치예 인
쩐 천
Original Assignee
아폴로 인텔리전트 커넥티비티 (베이징) 테크놀로지 씨오., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아폴로 인텔리전트 커넥티비티 (베이징) 테크놀로지 씨오., 엘티디. filed Critical 아폴로 인텔리전트 커넥티비티 (베이징) 테크놀로지 씨오., 엘티디.
Publication of KR20210040854A publication Critical patent/KR20210040854A/ko
Application granted granted Critical
Publication of KR102553234B1 publication Critical patent/KR102553234B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Traffic Control Systems (AREA)

Abstract

본 출원은 음성 데이터 처리 방법, 장치 및 지능형 차량을 개시하며, 데이터 처리 기술 분야에서 음성 데이터 처리 기술 분야, 자연 언어 처리 기술 분야, 음성 인터랙션 기술 분야 및 자율 주행 기술 분야 등에 관한 것이다. 구체적인 구현 수단은, 복수 개의 마이크에 의해 수집된 멀티 채널의 음성 데이터에 모두 웨이크업 워드가 포함될 경우, 멀티 채널의 음성 데이터 중 에너지가 가장 큰 음성 데이터에 대응되는 마이크를 타깃 마이크로 사용하고, 후속의 타깃 마이크에 의해 수집된 음성 데이터를 통해 그 중 명령을 인식하는 것이다. 이로써 단말 기기가 웨이크업된 후, 에너지가 가장 큰 음성 데이터에 대응되는 마이크를 선택하여 음성 데이터 중 명령에 대해 인식함으로써, 다른 마이크로 명령을 인식할 수 없거나 오류 명령을 인식하는 상황을 방지하고, 음성 데이터를 처리할 때 차량용 단말기의 인식 정확도를 향상시킨다.

Description

음성 데이터 처리 방법, 장치 및 지능형 차량{VOICE DATA PROCESSING METHOD, DEVICE AND INTELLIGENT VEHICLE}
본 출원은 데이터 처리 기술에서 음성 데이터 처리 기술 분야, 자연 언어 처리 기술 분야, 음성 인터랙션 기술 분야 및 자율 주행 기술 분야 등에 관한 것으로, 특히 음성 데이터 처리 방법, 장치 및 지능형 차량에 관한 것이다.
현재, 음성 인식 기술이 지속적으로 발전함에 따라, 일부 지능형 차량에 탑재된 차량용 단말기는 마이크에 의해 수집된 차량 내 사람이 말할 때의 음성 데이터를 수신할 수 있고, 또한 음성 인식 기술을 통해 음성 데이터 중 사람의 명령을 결정하여, 해당 명령을 실행함으로써, 차량 내 사람이 음성 방식으로 차량용 단말기를 제어하는 것을 구현하여, 차량의 지능화 정도를 향상시킨다.
종래의 기술에서, 음성 데이터 중 명령을 인식하는 알고리즘의 복잡도가 비교적 높으므로, 차량용 단말기는 리소스 낭비를 방지하기 위해, 마이크에 의해 수집된 음성 데이터를 수신한 후, 우선 음성 데이터 중 웨이크업 워드를 인식하며, 음성 데이터에 웨이크업 워드가 포함된 것으로 인식된 경우에만, 웨이크업 워드 이후의 음성 데이터 중 명령을 인식하여, 차량용 단말기의 작업 효율을 향상시킨다.
그러나, 차량 내 복수 개의 마이크가 장착되어 있을 경우, 복수 개의 마이크는 모두 음성 데이터를 수신하고 웨이크업 워드를 인식할 수 있으며, 웨이크업 워드를 인식하는 알고리즘 정밀도가 비교적 낮으므로, 후속의 어느 마이크의 음성 데이터 중 명령을 인식해야 하는지 정확하게 결정할 수 없어, 음성 데이터 중 명령에 대한 인식이 부정확해지고, 심지어 오류 명령을 인식하여, 음성 데이터의 처리 정확도를 감소시킨다.
본 출원은 종래의 기술에서 음성 데이터 처리 시 정확도가 떨어지는 기술적 문제를 해결하기 위해, 음성 데이터 처리 방법, 장치 및 지능형 차량을 제공한다.
본 출원의 제1 측면에서, 음성 데이터 처리 방법을 제공하며, 상기 방법은, 제1 시간대의 음성 데이터에 타깃 단어가 포함될 경우, 멀티 채널의 제1 음성 데이터 중 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하되, 상기 멀티 채널의 제1 음성 데이터는 상기 제1 시간대에 차량 내에 장착된 복수 개의 마이크에 의해 수집되는 단계; 제2 시간대에 상기 타깃 마이크에 의해 수집된 제2 음성 데이터를 획득하되 상기 제2 시간대는 상기 제1 시간대 이후에 위치하는 단계; 및, 상기 제2 음성 데이터에 포함된 명령을 인식하는 단계;를 포함한다.
종합해보면, 본 실시예에서 제공된 음성 데이터 처리 방법은, 차량용 단말기가 제1 음성 데이터 내의 웨이크업 워드에 의해 웨이크업된 후, 에너지가 가장 큰 음성 데이터에 대응되는 타깃 마이크의 제2 음성 데이터를 선택하여, 명령을 인식할 수 있고, 해당 타깃 마이크가 사용자와의 거리가 가깝고, 에너지가 크므로, 수집된 제2 음성 데이터를 통해 사용자가 말한 명령을 보다 정확하게 인식할 수 있으며, 따라서, 다른 마이크로 명령을 인식할 수 없거나 오류 명령을 인식하는 상황을 방지하고, 음성 데이터를 처리할 때 차량용 단말기의 인식 정확도를 향상시킨다.
본 출원의 제1 측면의 일 실시예에서, 상기 멀티 채널의 제 1 음성 데이터 중 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하는 단계는, 상기 멀티 채널의 제1 음성 데이터로부터, 상기 타깃 단어를 포함하는 하나 또는 멀티 채널의 후보 제1 음성 데이터를 결정하는 단계; 및, 상기 하나 또는 멀티 채널의 후보 제1 음성 데이터로부터, 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하는 단계;를 포함한다.
구체적으로, 본 실시예에서 제공된 음성 데이터 처리 방법에서, 멀티 채널의 제1 음성 데이터에서 타깃 단어가 검출되었으므로, 모든 제1 음성 데이터에 타깃 단어가 모두 포함될 수 있는 것은 아니며, 따라서, 차량용 단말기는 멀티 채널의 제1 음성 데이터에 타깃 단어를 포함한 후, 모든 제1 음성 데이터의 에너지를 비교하는 것이 아니라, 다시 실제로 타깃 단어를 포함한 하나 또는 멀티 채널의 제1 음성 데이터의 에너지를 비교함으로써, 차량용 단말기가 음성 데이터에 대해 처리하여 타깃 마이크를 결정할 때 필요되는 계산량을 감소시키고, 차량용 단말기의 음성 데이터에 대해 처리하는 효율을 더 향상시킨다.
본 출원의 제1 측면의 일 실시예에서, 상기 하나 또는 멀티 채널의 후보 제1 음성 데이터로부터, 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하는 단계는, 저장 모듈로부터, 상기 제1 시간대에서의 상기 하나 또는 멀티 채널의 후보 제1 음성 데이터의 에너지를 획득하되 상기 저장 모듈은 상기 복수 개의 마이크에 의해 수집된 음성 데이터의 에너지를 저장하기 위한 것인 단계; 및, 상기 하나 또는 멀티 채널의 후보 제1 음성 데이터 에너지에 따라, 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하는 단계;를 포함한다.
구체적으로, 본 실시예에서 제공된 음성 데이터 처리 방법에서, 차량용 단말기는 제1 음성 데이터를 수신한 후 모두 저장하므로, 차량용 단말기는 멀티 채널의 제1 음성 데이터에 타깃 단어가 포함되어 있는 것으로 결정한 후, 역 추적의 방식을 통해, 저장 기기로부터 저장된 에너지를 직접 판독함으로써, 멀티 채널의 제1 음성 데이터의 에너지 값을 보다 빠르게 비교할 수 있고, 따라서 차량용 단말기의 음성 데이터에 대해 처리하는 효율을 향상시킨다.
본 출원의 제1 측면의 일 실시예에서, 상기 멀티 채널의 제1 음성 데이터 중 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하는 단계 이전에, 상기 제1 시간대에 상기 복수 개의 마이크에 의해 수집된 멀티 채널의 제1 음성 데이터를 획득하는 단계; 상기 제1 시간대에서의 상기 멀티 채널의 제1 음성 데이터의 에너지를 계산하는 단계; 및, 상기 제1 시간대에서의 상기 멀티 채널의 제1 음성 데이터의 에너지를 저장 모듈에 저장하는 단계;를 더 포함한다.
구체적으로, 본 실시예에서 제공된 음성 데이터 처리 방법에서, 차량용 단말기의 경우, 마이크에 의해 실시간으로 수집된 제1 시간대의 멀티 채널의 제1 음성 데이터의 에너지를 먼저 계산한 후, 계산하여 얻은 에너지 값을 저장 기기에 저장하여, 후속의 웨이크업 모델을 통해 멀티 채널의 제1 음성 데이터에 타깃 단어가 포함되어 있음을 인식하도록 하고, 마찬가지로 저장 기기로부터 저장된 에너지를 직접 판독할 수 있도록 함으로써, 멀티 채널의 제1 음성 데이터의 에너지 값을 보다 빠르게 비교할 수 있고, 차량용 단말기의 음성 데이터에 대해 처리하는 효율을 향상시킬 수도 있다.
본 출원의 제1 측면의 일 실시예에서, 어느 하나의 제1 음성 데이터에 대해, 상기 제1 시간대에서의 상기 제1 음성 데이터의 에너지를 계산하는 단계는, 기설정 시간창에 따라, 상기 제1 시간대 내에 상기 제1 음성 데이터에 대해 윈도잉 및 프레이밍 처리를 수행하여, 상기 제1 시간대에서의 상기 제1 음성 데이터의 복수 개의 주파수 영역 특징을 획득하는 단계; 및, 상기 복수 개의 주파수 영역 특징의 주파수 영역 에너지 평균값을, 상기 제1 시간대에서의 상기 제1 음성 데이터의 에너지로 사용하는 단계;를 포함한다.
구체적으로, 본 실시예에서 제공된 음성 데이터 처리 방법에서, 윈도잉 및 프레이밍의 처리 방식을 통해, 제1 음성 데이터의 에너지를 나타내며, 주파수 영역 특징이 신호 중 상이한 성분, 특히 사람에 의해 방출되는 음성 데이터의 특징을 더 반영할 수 있으므로, 음성 데이터의 에너지를 더 잘 나타낼 수 있고, 타깃 마이크를 결정할 때의 정확도를 더 향상시키며, 따라서 음성 데이터를 인식할 때의 정확도를 향상시킨다.
본 출원의 제1 측면의 일 실시예에서, 수행 주체로서 음성 데이터 처리 장치는 제2 음성 데이터를 획득한 후, 제2 음성 데이터 중 명령을 직접 인식할 수 있거나; 제2 데이터를 네트워크 기기에 송신할 수도 있으며, 네트워크 기기로 제2 음성 데이터 중 명령을 인식한 후, 음성 데이터 처리 장치는 네트워크 기기에 의해 송신된 제2 음성 데이터 중 명령을 직접 수신할 수 있다. 이로써 본 실시예가 상이한 인식 시나리오에 적용될 수 있고, 또한 연산 기능이 불충분할 경우, 네트워크 기기의 인식에 의존하여 음성 데이터의 처리 효율을 향상시킬 수 있도록 하며; 음성 데이터 처리 장치의 연산 기능이 지원되는 경우, 자체적으로 제2 음성 데이터 중 명령을 인식하여, 네트워크 기기와의 데이터 인터랙션을 감소시킬 수 있다.
본 출원의 제2 측면에서, 본 출원의 제1 측면의 음성 데이터 처리 방법을 수행할 수 있는 음성 데이터 처리 장치를 제공하는 바, 해당 장치는, 제1 시간대의 음성 데이터에 타깃 단어가 포함될 경우, 멀티 채널의 제1 음성 데이터 중 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하되, 상기 멀티 채널의 제1 음성 데이터는 상기 제1 시간대에서 차량 내에 장착된 복수 개의 마이크에 의해 수집되는 결정 모듈; 제2 시간대에 상기 타깃 마이크에 의해 수집된 제2 음성 데이터를 획득하되, 상기 제2 시간대는 상기 제1 시간대 이후에 위치하는 획득 모듈; 및, 상기 제2 음성 데이터에 포함된 명령을 인식하는 인식 모듈;을 포함한다.
본 출원의 제2 측면의 일 실시예에서, 상기 결정 모듈은 구체적으로, 상기 멀티 채널의 제1 음성 데이터로부터, 상기 타깃 단어를 포함하는 하나 또는 멀티 채널의 후보 제1 음성 데이터를 결정하고; 상기 하나 또는 멀티 채널의 후보 제1 음성 데이터로부터, 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정한다.
본 출원의 제2 측면의 일 실시예에서, 상기 결정 모듈은 구체적으로, 저장 모듈로부터, 상기 제1 시간대의 상기 하나 또는 멀티 채널의 후보 제1 음성 데이터의 에너지를 획득하되, 여기서 상기 저장 모듈은 상기 복수 개의 마이크에 의해 수집된 음성 데이터의 에너지를 저장하는데 사용되고; 상기 하나 또는 멀티 채널의 후보 제1 음성 데이터 에너지에 따라, 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정한다.
본 출원의 제2 측면의 일 실시예에서, 상기 음성 데이터 처리 장치는, 계산 모듈 및 저장 모듈을 더 포함하고; 상기 획득 모듈은 또한, 상기 제1 시간대에 상기 복수 개의 마이크에 의해 수집된 멀티 채널의 제1 음성 데이터를 획득하며; 상기 계산 모듈은, 상기 제1 시간대에서의 상기 멀티 채널의 제1 음성 데이터의 에너지를 계산하고, 또한 상기 제1 시간대에서의 상기 멀티 채널의 제1 음성 데이터의 에너지를 상기 저장 모듈에 저장한다.
본 출원의 제2 측면의 일 실시예에서, 상기 계산 모듈은 구체적으로, 기설정 시간창에 따라, 상기 제1 시간대 내에 상기 제1 음성 데이터에 대해 윈도잉 및 프레이밍 처리를 수행하여, 상기 제1 시간대에서의 상기 제1 음성 데이터의 복수 개의 주파수 영역 특징을 획득하고; 상기 복수 개의 주파수 영역 특징의 주파수 영역 에너지 평균값을, 상기 제1 시간대에서의 상기 제1 음성 데이터의 에너지로 사용한다.
본 출원의 제2 측면의 일 실시예에서, 인식 모듈은 제2 음성 데이터 중 명령을 인식할 수 있거나; 제2 데이터를 네트워크 기기에 송신할 수도 있으며, 네트워크 기기로 제2 음성 데이터 중 명령을 인식한 후, 인식 모듈은 네트워크 기기에 의해 송신된 제2 음성 데이터 중 명령을 직접 수신할 수 있다.
본 출원의 제3 측면은, 복수 개의 마이크 및 프로세서를 포함하는 지능형 차량을 제공하는 바, 여기서, 복수 개의 마이크는 지능형 차량 내부의 음성 데이터를 수집하고; 프로세서는 제1 시간대의 음성 데이터에 타깃 단어가 포함될 경우, 멀티 채널의 제1 음성 데이터 중 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하며, 이어서 제2 시간대에 타깃 마이크에 의해 수집된 제2 음성 데이터를 획득하여, 제2 음성 데이터에 포함된 명령을 인식하되; 여기서 멀티 채널의 제1 음성 데이터는 제1 시간대에 복수 개의 마이크에 의해 수집되고, 제2 시간대는 제1 시간대 이후에 위치한다.
본 출원의 제3 측면의 일 실시예에서, 프로세서는 구체적으로, 멀티 채널의 제1 음성 데이터로부터, 타깃 단어를 포함한 하나 또는 멀티 채널의 후보 제1 음성 데이터를 결정하고; 하나 또는 멀티 채널의 후보 제1 음성 데이터로부터, 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정한다.
본 출원의 제3 측면의 일 실시예에서, 프로세서는 구체적으로, 저장 모듈로부터, 제1 시간대의 하나 또는 멀티 채널의 후보 제1 음성 데이터의 에너지를 획득하되; 여기서 저장 모듈은 복수 개의 마이크에 의해 수집된 음성 데이터의 에너지를 저장하는데 사용되고; 하나 또는 멀티 채널의 후보 제1 음성 데이터 에너지에 따라, 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정한다.
본 출원의 제3 측면의 일 실시예에서, 프로세서는 또한, 제1 시간대에 복수 개의 마이크에 의해 수집된 멀티 채널의 제1 음성 데이터를 획득하고; 제1 시간대에서의 멀티 채널의 제1 음성 데이터의 에너지를 계산하며; 제1 시간대에서의 멀티 채널의 제1 음성 데이터의 에너지를 저장 모듈에 저장한다.
본 출원의 제3 측면의 일 실시예에서, 프로세서는 구체적으로, 기설정 시간창에 따라, 제1 시간대 내에 제1 음성 데이터에 대해 윈도잉 및 프레이밍 처리를 수행하여, 제1 시간대에서의 제1 음성 데이터의 복수 개의 주파수 영역 특징을 획득하고; 복수 개의 주파수 영역 특징의 주파수 영역 에너지 평균값을, 제1 시간대에서의 제1 음성 데이터의 에너지로 사용한다.
본 출원의 제3 측면의 일 실시예에서, 프로세서는 구체적으로, 네트워크 기기로 제2 음성 데이터를 송신하고; 네트워크 기기에 의해 송신된 제2 음성 데이터에 포함된 명령을 수신한다.
본 출원의 제4 측면은 적어도 하나의 프로세서; 및, 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하는 전자 기기를 제공하는 바, 여기서 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 본 출원의 제1 측면 중 어느 한 항에 따른 방법을 수행할 수 있도록 한다.
본 출원의 제5 측면은 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체를 제공하는 바, 상기 컴퓨터 명령은 상기 컴퓨터가 본 출원의 제1 측면 중 어느 한 항에 따른 방법을 수행하도록 한다.
본 출원의 제6 측면은, 컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램을 제공하며, 해당 컴퓨터 프로그램 중의 명령이 프로세서에 의해 실행될 경우 본 출원의 제1 측면 중 어느 한 항에 따른 방법을 수행하도록 한다.
본 실시예에서 제공된 음성 데이터 처리 방법, 장치 및 지능형 차량 중, 수행 주체로서 차량용 단말기에 있어서, 제1 시간대 내의 음성 데이터에 타깃 단어가 포함되어 있는 것으로 결정되면, 멀티 채널의 제1 음성 데이터 중 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 더 결정하고, 또한 이어서 획득된 타깃 마이크에 의해 수집된 제2 음성 데이터를 통해서만, 사용자가 웨이크업 워드 후에 말한 명령을 인식하여, 최종 인식된 명령을 실행할 수 있다. 따라서, 본 실시예에서 제공된 음성 데이터 처리 방법은, 차량용 단말기가 제1 음성 데이터 내의 웨이크업 워드에 의해 웨이크업된 후, 에너지가 가장 큰 음성 데이터에 대응되는 타깃 마이크의 제2 음성 데이터를 선택하여, 명령을 인식할 수 있고, 상기 타깃 마이크가 사용자와의 거리가 가깝고, 에너지가 크므로, 수집된 제2 음성 데이터를 통해 사용자가 말한 명령을 보다 정확하게 인식할 수 있으며, 따라서 다른 마이크로 명령을 인식할 수 없거나 오류 명령을 인식하는 상황을 방지하고, 음성 데이터를 처리할 때 차량용 단말기의 인식 정확도를 향상시킨다.
본 부분에서 설명된 내용은 본 출원의 실시예의 핵심 또는 중요한 특징을 식별하기 위한 것이 아니며, 본 출원의 범위를 한정하려는 의도도 아님을 이해해야 할 것이다. 본 출원의 다른 특징은 아래 명세서에 의해 쉽게 이해될 것이다.
첨부 도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 출원에 대해 한정하는 것으로 구성되지 않는다. 여기서,
도 1은 본 출원의 응용 시나리오를 나타내는 도면이다.
도 2는 본 출원에서 제공된 음성 데이터 처리 방법의 일 실시예의 흐롬도이다.
도 3은 본 출원에서 제공된 차량용 단말기가 멀티 채널의 제1 음성 데이터에 따라 에너지를 결정하는 논리도이다.
도 4는 본 실시예에서 제공된 음성 데이터 처리 방법의 다른 일 실시예의 흐롬도이다.
도 5는 본 실시예에서 제공된 음성 데이터의 시간대를 나타내는 도면이다.
도 6은 본 출원에서 제공된 음성 데이터 방법의 일 실시예에서 차량용 단말기의 처리 논리도이다.
도 7은 본 출원에서 제공된 음성 데이터 처리 장치의 일 실시예의 구조도이다.
도 8은 본 출원에서 제공된 음성 데이터 처리 장치의 다른 일 실시예의 구조도이다.
도 9는 본 출원의 실시예의 음성 데이터 처리 방법에 따른 전자 기기의 블록도이다.
이하, 첨부된 도면을 결부하여 본 출원의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 출원의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 분야의 통상의 기술자는 본 출원의 범위와 사상을 벗어나지 않으면서, 여기서 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.
아래에 본 출원의 실시예를 정식으로 소개하기 이전에, 먼저 첨부된 도면을 결부하여, 본 출원의 응용 시나리오, 및 종래의 기술에서 존재하는 문제에 대해 설명한다.
도 1은 본 출원의 응용 시나리오를 나타내는 도면이고, 여기서 도 1에 도시된 바와 같이, 지능형 차량(1) 내에 차량용 단말기(11)가 탑재되어 있고, 차량 운전자 또는 탑승자는 차량용 단말기(11)를 통해 음악 재생, 지도 내비게이션, 전화 걸기 등 기능을 구현할 수 있다. 동시에, 음성 인식 기술의 지속적인 발전에 따라, 차량용 단말기(11)는 또한 차량 내 인원과 음성 방식을 통해 인터랙션할 수 있음으로써, 차량 내 인원이 차량용 단말기(11)를 작동함에 따른 지능형 차량(1)의 정상적인 주행에 대한 안전적 위험을 감소시킨다.
예를 들어, 지능형 차량(1) 내의 인원이 차량용 단말기(11)를 제어하여 관련 기능을 구현하고자 할 경우, “음악 재생”이라고 직접 말할 수 있으며, 차량용 단말기(11)는 마이크를 통해 사용자가 말한 “음악 재생”의 명령이 포함된 음성 데이터를 수집한 후, 음성 인식 기술을 통해, 음성 데이터 중 사용자가 말한 명령이 “음악 재생”임을 결정하고, 이어서 음악을 재생하는 기능을 직접 실행할 수 있으며, 상기 전체 과정에서, 지능형 차량(1) 내의 인원이 단지 명령을 말함으로써, 차량용 단말기(11)에 대한 제어를 구현할 수 있어, 지능형 차량(1) 내의 인원, 특히 운전자가 차량용 단말기(11)를 사용할 경우, 양손이 운전대를 벗어나지 않고, 심지어 시선이 차량 전방을 벗어나지 않고도, 차량용 단말기(11)에 명령을 발송할 수 있도록 하여, 지능형 차량(1) 내의 인원, 및 주변 환경 내 다른 차량과 행인의 안전을 확보함과 동시에, 차량용 단말기(11)의 지능화 정도를 더 향상시키고, 지능형 차량(1) 내 인원의 제어 체험을 향상시킨다.
보다 구체적으로, 차량용 단말기(11)가 사용자와의 음성 인터랙션을 구현할 경우, 중요한 기술은 수집된 음성 데이터에서 사용자가 말한 명령을 인식하는 것이다. 음성 데이터 중 명령을 인식하는 알고리즘의 복잡도가 비교적 높으므로, 사용되는 인식 모델의 데이터 양이 비교적 많아, 차량용 단말기는 리소스 낭비를 방지하기 위해, 일반적으로 “ABAB”와 같은 “웨이크업 워드”를 설정한다. 이경우, 사용자는 차량용 단말기(11)에 “음악 재생”의 명령을 말하기 이전에, 또한 먼저 “ABAB, 음악 재생”과 같은 웨이크업 워드를 말해야 한다. 따라서, 차량용 단말기(11)의 경우, 음성 데이터를 실시간으로 수집하고, 경량 레벨의 웨이크업 모델을 사용하여 웨이크업 워드에 대해 인식하는데, 이때 사용되는 웨이크업 모델은 음성 데이터에 웨이크업 워드가 존재하는지 여부를 비교하기만 하면 되므로, 이의 알고리즘 복잡도가 비교적 낮고, 사용되는 웨이크업 모델의 데이터 양도 비교적 적다. 차량용 단말기(11)가 웨이크업 모델을 통해, 제1 시간대에 수집된 음성 데이터에 웨이크업 워드 “ABAB”가 포함되어 있는 것으로 결정할 경우, 잇따른 제1 시간대 이후의 제2 시간대에 수집된 음성 데이터는 인식 모델을 통해, 그 중 포함된 명령 “음악 재생”이 인식되어, 해당 명령을 수행한다. 따라서, 대부분 시간 내에, 차량용 단말기(11)는 모두 경량 레벨의 웨이크업 모델을 사용하여 음성 데이터에 대해 처리할 수 있으며, 웨이크업 워드가 검출된 후에만 인식 모델을 사용하여 명령에 대해 인식함으로써, 음성 데이터를 처리할 때 차량용 단말기(11)의 계산량을 감소시키고, 차량용 단말기(11)의 작업 효율을 향상시킨다.
일부 구현에서, 지능형 차량 내에 음성 데이터를 수집하기 위해 일반적으로 하나 이상의 마이크가 장착되는 바, 예를 들어, 도 1에 도시된 지능형 차량(1) 내에서, 차량 내 좌석의 설치에 따라, 운전자 좌석 옆에 제1 마이크(121)가 장착되고, 조수석 옆에 제2 마이크(122)가 장착되며, 뒷좌석 좌우 양측에 각각 제3 마이크(123) 및 제4 마이크(124)가 장착될 수 있고, 차량용 단말기(11)는 이 4개의 마이크를 통해 각각의 위치에 있는 인원의 음성 데이터를 수집할 수 있으며, 이로써 각각의 위치에 있는 인원이 말한 웨이크업 워드가 마이크와의 거리가 먼 것으로 인해 인식되지 않는 것을 보장하여, 차량용 단말기(11)의 웨이크업의 정확도를 향상시킨다. 예를 들어, 지능형 차량(1) 내 운전자가 “ABAB”의 웨이크업 워드를 말한 후, 운전자 옆에 장착된 제1 마이크(121)는 웨이크업 워드가 포함된 음성 데이터를 수집하고, 이어서 차량용 단말기(11)가 제1 마이크(121)의 음성 데이터에 따라 웨이크업되면, 인식 모델을 사용하여 제1 마이크(121)에 의해 수집된 웨이크업 워드가 포함된 후의 음성 데이터에 대해 인식하여, 운전자가 말한 “음악 재생”의 명령을 인식하며, 제1 마이크(121)가 운전자 옆에 장착되어 있으므로, 상기 마이크의 음성 데이터를 사용하여 명령을 인식하면 인식된 명령의 정확도를 향상시킬 수 있고, 또한 후속의 명령에 따라 관련 기능을 실행하는 정확도를 보장할 수 있다.
실제 응용에서, 이러한 차량 내에 복수 개의 마이크가 장착되어, 동시에 데이터를 수집하고 웨이크업 워드를 인식하는 상황이 존재하는 바, 운전자 위치에 앉은 운전자가 웨이크업 워드를 말한 후, 운전자 옆에 장착된 제1 마이크(121)를 제외한 다른 마이크도 웨이크업 워드가 포함된 음성 데이터를 수집할 수 있다. 차량용 단말기(11)가 음성 데이터 중 웨이크업 워드에 대해 검출할 경우, 복수 개의 마이크에 의해 수집된 멀티 채널의 음성 데이터에서 웨이크업 워드를 모두 검출할 수 있도록 한다. 이어서, 차량용 단말기(11)는 그 중 어느 하나의 마이크의 후속 음성 데이터를 선택하여 인식 모델을 통해 그 중의 명령을 인식할 수 있다.
운전자가 웨이크업 워드를 말한 후, 운전자 옆에 장착된 제1 마이크(121)에 의해 수집된 음성 데이터와, 뒷좌석에 장착된 제4 마이크(124)에 의해 수집된 음성 데이터를 사용하여 웨이크업 워드가 모두 인식된다고 가정하면, 이때 차량용 단말기(11)가 제4 마이크(124)에 의해 수집된 후속의 음성 데이터를 통해 명령을 인식할 경우, 명령을 인식할 수 없거나 오류 명령을 인식하는 문제가 존재할 수 있어, 음성 데이터를 처리할 때 차량용 단말기(11)의 인식 정확도를 감소시킨다.
따라서, 상기 차량용 단말기(11)가 음성 데이터를 처리할 때, 복수 개의 마이크에 의해 수집된 멀티 채널의 음성 데이터에 웨이크업 워드가 모두 포함되는 경우를 해결하기 위해, 멀티 채널의 음성 데이터 중 에너지가 가장 큰 음성 데이터에 대응되는 마이크를 타깃 마이크로 사용하고, 후속의 타깃 마이크에 의해 수집된 음성 데이터를 통해 그 중 명령을 인식하여, 최종 인식된 명령을 실행할 수 있다. 이로써, 단말 기기가 웨이크업된 후, 에너지가 가장 큰 음성 데이터에 대응되는 마이크를 선택하여 음성 데이터 중 명령에 대해 인식하며, 해당 타깃 마이크가 사용자와의 거리가 가깝고, 에너지가 크므로, 수집된 음성 데이터를 통해 그 중에 포함된 명령을 보다 정확하게 인식할 수 있으며, 따라서 다른 마이크로 명령을 인식할 수 없거나 오류 명령을 인식하는 상황을 방지하고, 음성 데이터를 처리할 때 차량용 단말기의 인식 정확도를 향상시킨다.
아래에, 구체적인 실시예로 본 출원의 기술적 해결수단에 대해 상세하게 설명한다. 아래의 다수의 구체적인 실시예는 서로 결합될 수 있고, 동일하거나 유사한 개념 또는 과정에 대해서는 일부 실시예에서 더이상 서술하지 않을 수 있다.
도 2는 본 출원에서 제공된 음성 데이터 처리 방법의 일 실시예의 흐롬도이고, 도 2에 도시된 방법은 도 1에 도시된 지능형 차량(1) 내 차량용 단말기(11)에 의해 수행될 수 있거나, 지능형 차량(1) 내에 탑재된, 음성 데이터를 처리하기 위한 다른 음성 데이터 처리 장치, 또는 음성 데이터 처리 장치 중 프로세서에 의해 수행될 수 있다. 또한, 지능형 차량(1) 내에 복수 개의 마이크가 장착될 수 있으며, 각각의 마이크를 상이한 위치에 장착하여, 음성 데이터를 수집하고, 수집된 음성 데이터를 차량용 단말기(11)에 송신할 수 있다. 이밖에, 설명해야 할 것은, 도 1에 도시된 지능형 차량(1)은 4개의 마이크가 장착된 것을 예로, 이에 대해 한정하지 않으며, 지능형 차량(1) 내에 2개, 6개, 8개 또는 다른 개수의 복수 개의 마이크를 장착할 수도 있으며, 본 출원의 실시예의 보호 범위 이내에 있다.
구체적으로, 도 2에 도시된 음성 데이터 처리 방법은 하기와 같은 단계를 포함한다.
단계(S101), 제1 시간대의 음성 데이터에 타깃 단어가 포함될 경우, 멀티 채널의 제1 음성 데이터 중 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정한다.
여기서, 상기 멀티 채널의 제1 음성 데이터는 제1 시간대에 차량 내에 장착된 복수 개의 마이크에 의해 수집된 음성 데이터이고, 상기 타깃 단어는 차량용 단말기의 음성 기능의 웨이크업 워드일 수 있다. 구체적으로, 도 1에 도시된 지능형 차량 내에서, 복수 개의 마이크는 음성 데이터를 실시간으로 수집하여, 차량용 단말기로 이를 인식하도록 송신할 수 있는 바, 예를 들어 도 1에 도시된 4개의 마이크에 의해 t1 ~ t2 시간대에 수집된 4채널의 음성 데이터를 차량용 단말기에 송신하고, 차량용 단말기로 이 4채널의 음성 데이터에 웨이크업 워드가 포함되는지 여부를 인식하여, 이 4채널의 음성 데이터에 웨이크업 워드가 포함되지 않으면, 차량용 단말기는 계속하여 t2 ~ t3 시간대에 4개의 마이크에 의해 수집되어 차량용 단말기에 송신된 4채널의 음성 데이터를 인식하며, 이때 t2 ~ t3 시간대 내의 4채널의 음성 데이터에서, 어느 하나의 채널 또는 멀티 채널의 음성 데이터에 웨이크업 워드가 포함되면, 단계(S101)를 수행한다. 여기서, 웨이크업 워드가 포함된 t2 ~ t3 시간대를 제1 시간대로 표기하고, 제1 시간대 내에 복수 개의 마이크에 의해 수집된 음성 데이터를 이 복수 개의 마이크에 의해 각각 수집된 제1 음성 데이터로 표기한다.
따라서, 단계(S101)에서, 차량용 단말기가 제1 시간대 내에, 멀티 채널의 제1 음성 데이터에 웨이크업 워드가 포함된 하나의 채널 또는 멀티 채널의 제1 음성 데이터가 존재한다고 결정하면, 단계(S101)에서 멀티 채널의 제1 음성 데이터로부터, 에너지가 가장 큰 제1 음성 데이터를 결정하고, 음성 데이터의 에너지가 가장 큰 음성 데이터에 대응되는 마이크를 결정하여 타깃 마이크로 표기한다.
단계(S102), 차량용 단말기는 제2 시간대에 타깃 마이크에 의해 수집된 제2 음성 데이터를 획득한다.
여기서, 차량용 단말기가 단계(S101)를 통해 타깃 마이크를 결정한 후, 차량용 단말기가 후속의 지능형 차량 내 인원이 말한 음성 데이터 중 명령을 인식할 경우, 타깃 마이크에 의해 수집된 음성 데이터에 대해서만 인식한다. 단계(S102)에서, 차량용 단말기는 제2 시간대에 타깃 마이크에 의해 수집된 음성 데이터를 획득한다. 예를 들어, 웨이크업 워드가 “ABAB”이면, 지능형 차량 내 인원이 “ABAB, 음악 재생”을 말한 후, 제1 시간대 내에 복수 개의 마이크에 의해 수집된 음성 데이터에 웨이크업 워드 “ABAB”가 포함된다. 차량용 단말기는 단계(S101)에 따라 타깃 마이크를 결정한 후, 제1 시간대 이후의 제2 시간대에, 복수 개의 마이크가 계속 음성 데이터를 수집할지라도, 차량용 단말기는 단지 타깃 마이크에 의해 수집된 제2 음성 데이터만 획득하여, 그 중 포함된 “음악 재생”의 명령을 인식한다. 이때, 제1 시간대 이후 인접한 시간대를 제2 시간대로 표기하고, 또한 타깃 마이크에 의해 수집된 명령 “음악 재생”이 포함된 음성 데이터를 제2 음성 데이터로 표기하며, 제2 시간대는 제1 시간 대 후 인접한 첫 번째 시간대이다.
단계(S103), 차량용 단말기는 제2 음성 데이터에 포함된 명령에 대해 인식한다.
구체적으로, 단계(S103)의 일 구체적인 구현 방식에서, 단말 기기는 단계(S102)에서 획득한 제2 음성 데이터에 대해 인식하며, 예를 들어 지능형 차량의 인원이 말한 “ABAB, 음악 재생” 중 제2 음성 데이터 내의 “음악 재생”의 명령을 인식하고, 이어서 차량용 단말기는 음악 재생을 시작하도록 해당 명령을 실행한다. 이해할 수 있는 것은, 단계(S103)에서, 차량용 단말기는 타깃 마이크를 제외한 이외의 기타 마이크에 의해 수집된 음성 데이터에 대해 인식하지 않는다. 본 구현 방식에서, 수행 주체로서 음성 데이터 처리 장치의 연산 기능이 지원되는 경우, 자체에 의존하여 제2 음성 데이터 중 명령을 인식할 수 있다고 가정하면, 네트워크 기기와의 데이터 인터랙션을 감소시킬 수 있다.
단계(S103)의 다른 일 구체적인 구현 방식에서, 수행 주체로서 음성 데이터 처리 장치의 연산 기능이 불충분할 경우, 네트워크 기기의 인식에 의존하여 음성 데이터의 처리 효율을 향상시킬 수 있다. 구체적으로, 음성 데이터 처리 장치는 제2 데이터를 네트워크 기기에 송신할 수 있으며, 네트워크 기기에서 제2 음성 데이터 중 명령을 인식한 후, 음성 데이터 처리 장치는 네트워크 기기에 의해 송신된 제2 음성 데이터 중 명령을 직접 수신할 수 있다.
종합해보면, 본 실시예에서 제공된 음성 데이터 처리 방법 중, 수행 주체로서 차량용 단말기에 있어서, 제1 시간대 내 음성 데이터에 타깃 단어가 포함되어 있는 것으로 결정되면, 멀티 채널의 제1 음성 데이터 중 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 더 결정하고, 또한 이어서 획득된 타깃 마이크에 의해 수집된 제2 음성 데이터를 통해서만, 사용자가 웨이크업 워드 후에 말한 명령을 인식하여, 최종 인식된 명령을 실행할 수 있다. 따라서, 본 실시예에서 제공된 음성 데이터 처리 방법은, 차량용 단말기가 제1 음성 데이터 내의 웨이크업 워드에 의해 웨이크업된 후, 에너지가 가장 큰 음성 데이터에 대응되는 타깃 마이크의 제2 음성 데이터를 선택하여, 명령을 인식할 수 있고, 해당 타깃 마이크가 사용자와의 거리가 가깝고, 에너지가 크므로, 수집된 제2 음성 데이터를 통해 사용자가 말한 명령을 보다 정확하게 인식할 수 있으며, 따라서 다른 마이크로 명령을 인식할 수 없거나 오류 명령을 인식하는 상황을 방지하고, 음성 데이터를 처리할 때 차량용 단말기의 인식 정확도를 향상시킨다.
보다 구체적으로, 도 3은 본 출원에서 제공된 차량용 단말기가 멀티 채널의 제1 음성 데이터에 따라 에너지를 결정하는 논리를 나타내는 도면이고, 아래에 도 3을 결합하여, 상기 도 2에 도시된 음성 데이터 처리 방법에서, 단계(S101)에서 차량용 단말기가 구체적으로 멀티 채널의 제1 데이터의 에너지를 통해 타깃 마이크를 결정하는 방법에 대해 설명한다.
도 3에 도시된 예에서, 마찬가지로 도 1에 도시된 지능형 차량, 및 지능형 차량 내 장착된 4개의 마이크를 예로 한다. 지능형 차량 내 장착된 4개의 마이크를 마이크1, 마이크2, 마이크3 및 마이크4로 표기하며, 이 4개의 마이크는 음성 데이터를 실시간으로 수집하고 차량용 단말기 내에 송신하며, 차량용 단말기로 4개의 마이크의 음성 데이터에 대해 처리한다. 차량용 단말기는 음성 데이터를 처리할 때, 음성 데이터 중 웨이크업 워드 또는 명령을 인식하기 위해, 시간대를 단위로 음성 데이터를 분할하고, 일정한 시간대의 음성 내에 웨이크업 워드 또는 명령을 인식해야 한다. 따라서, 차량용 단말기 내에, 일정한 시간대의 음성 데이터를 저장하기 위한 저장 모듈을 설치할 수 있으며, 이 시간대 이후, 역 추적의 방식을 통해 저장 모듈로부터 음성 데이터를 취하여 인식한다.
예를 들어, 도 3에 도시된 논리도에서, t1 ~ t2 시각에 4개의 마이크에 의해 수집된 4채널의 음성 데이터를 각각 차량용 단말기에 송신하고, 차량용 단말기는 4개의 큐를 통해 4개의 마이크에 의해 수집된 음성 데이터를 저장하며, t2 시각 이후, t1 ~ t2 시간대에 4개의 마이크에 의해 수집된 4채널의 음성 데이터에 웨이크업 워드가 포함되는지 여부를 인식한다. 이해할 수 있는 것은, t2 시각에 차량용 단말기가 t1 ~ t2 시간대 내의 음성 데이터에 대해 웨이크업 인식을 수행하는 동시에, 4개의 마이크는 여전히 계속하여 음성 데이터를 수집하여 차량용 단말기에 송신하고, 차량용 단말기도 게속하여 t2 시각 이후 4개의 마이크에 의해 수집된 음성 데이터를 각각 큐에 저장한다.
선택 가능하게, 4채널의 음성 데이터에 웨이크업 워드가 포함되는지 여부를 인식하기 위해, 차량용 단말기는 4채널의 음성 데이터와 일대일로 대응되는 웨이크업 엔진을 사용하여, 각각의 채널의 음성 데이터에 웨이크업 워드가 포함되는지 여부를 각각 인식할 수 있으며, 예를 들어 도 3에서, 마이크1에 의해 수집된 음성 데이터는 웨이크업 엔진1을 통해 인식되고, 마이크2에 의해 수집된 음성 데이터는 웨이크업 엔진2를 통해 인식되며, 마이크3에 의해 수집된 음성 데이터는 웨이크업 엔진3을 통해 인식되고, 마이크4에 의해 수집된 음성 데이터는 웨이크업 엔진4를 통해 인식된다. 차량용 단말기 내의 복수 개의 웨이크업 엔진은 기계 학습 모델을 통해 구현될 수 있고, 또한 각각의 기계 학습 모델은 구체적으로 구현될 경우 동일하거나 상이할 수 있으며, 각각의 기계 학습 모델은 음성 데이터 중 웨이크업 워드를 인식하는데 사용된다.
이해할 수 있는 것은, 도 3에 도시된 예에서, 4개의 웨이크업 엔진이 t1 ~ t2 시간대 내에 4개의 마이크에 의해 수집된 4채널의 음성 데이터를 인식한 후, 4채널의 음성 데이터에 웨이크업 워드가 모두 포함되지 않는 것으로 결정되면, 차량용 단말기는 계속하여 저장 모듈로부터 t2 ~ t3 시간대 내에, 4개의 마이크에 의해 수집된 4채널의 음성 데이터를 획득하고, 4개의 웨이크업 엔진을 통해 웨이크업 워드를 인식한다.
특히, 본 실시예에서, 차량용 단말기 내의 저장 모듈은 또한 각 구간의 음성 데이터의 에너지를 저장할 수 있으며, 예를 들어 도 3에서 에너지를 큐 형태로 저장하고 “에너지 캐시 큐”로 명명할 수 있다. 여기서, 각각의 실제 구간 내의 음성 데이터의 경우, 윈도잉 연산을 통해, 해당 시간대 내 각각의 프레임 신호의 주파수 영역 에너지를 계산하고, 평균값 후, 시간대에 해당 채널의 음성 데이터의 에너지 값을 획득할 수 있다. 예를 들어, 도 3에 도시된 t1 ~ t2 시간대 내의 마이크1에 의해 수집된 음성 데이터의 에너지 계산 과정을 예시적으로 설명하면, t1 ~ t2 시간대에 마이크1에 의해 음성 데이터가 수집된 후, 차량용 단말기는 이 구간의 시간대의 음성 데이터를 획득하고, 윈도잉 및 프레이밍 처리를 통해, 이 구간 시간 내 음성 데이터의 각각의 프레임의 주파수 영역 특징을 획득한다. 상기 윈도잉 계산은 음성 데이터를 각각의 프레임에 따라 프레이밍을 수행하고 주파수 영역으로 변환할 수 있으며, 이의 구체적인 구현 및 원리는 종래의 기술을 참조할 수 있고, 더 이상 서술하지 않는다. 이어서, 윈도잉 및 프레이밍 처리를 통해, 마이크1에 의해 수집된 t1 ~ t2 시간대의 음성 데이터를 100개의 프레임으로 나눈다고 가정하면, 100개의 프레임의 주파수 영역 에너지를 계산할 수 있는데, 상기 주파수 영역 에너지의 일 구현 방식은 스펙트럼 진폭의 제곱값, 또는 다른 가능한 에너지 표현 방식일 수 있으며, 본 실시예는 한정하지 않는다. 최종, 차량용 단말기는 상기 100개의 프레임의 주파수 영역 에너지의 평균값을 계산한 후, 마이크1에 의해 수집된 t1 ~ t2 시간대의 음성 데이터의 에너지를 획득하여, 에너지 캐시 큐에 저장할 수 있다. 동일한 방식에 따라, 차량용 단말기는 또한 상이한 시간대 내 상이한 마이크의 에너지를 계산하고 각각의 캐시 큐에 각각 저장할 수 있다.
도 3에 도시된 논리도에서, 4개의 웨이크업 엔진 중 어느 하나 또는 복수 개의 웨이크업 엔진이 제1 시간대의 제1 음성 데이터에 웨이크업 워드가 포함되어 있음을 인식하면, 에너지 큐로부터 제1 시간대 내에서의 제1 음성 데이터의 에너지를 획득한다. 예를 들어, 차량용 단말기가 4개의 웨이크업 엔진을 통해, t2 ~ t3 시간대의 제1 음성 데이터로부터, 웨이크업 엔진1에 의해, 마이크1의 t2 ~ t3 시간대의 제1 음성 데이터에 웨이크업 워드가 포함되어 있고, 마이크2의 t2 ~ t3 시간대의 제1 음성 데이터에 웨이크업 워드가 포함되어 있음을 인식하면, 차량용 단말기는 제1 시간대의 제1 음성 데이터에 따라 타깃 마이크를 결정해야 한다.
선택 가능하게, 차량용 단말기는 웨이크업 워드가 검출된 음성 데이터로부터, 타깃 마이크를 결정할 수 있다. 예를 들어, 차량용 단말기는 4개의 웨이크업 엔진을 통해, t2 ~ t3 시간대의 제1 음성 데이터로부터, 웨이크업 엔진1에 의해, 마이크1의 t2 ~ t3 시간대의 제1 음성 데이터에 웨이크업 워드가 포함되어 있고, 마이크2의 t2 ~ t3 시간대의 제1 음성 데이터에 웨이크업 워드가 포함되어 있음을 인식한 후, 이 2개의 마이크의 t2 ~ t3 시간대의 제1 음성 데이터를 후보 제1 음성 데이터로 사용하며, 이로부터 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정한다. 예를 들어, 차량용 단말기는 단지 에너지 캐시 큐로부터 마이크1의 t2 ~ t3 시간대의 제1 음성 데이터의 에너지N1, 및 마이크2의 t2 ~ t3 시간대의 제1 음성 데이터의 에너지N2를 획득하고, 단지 이 2개의 제1 음성 데이터의 에너지N1 및 N2를 비교하여, N1>N2이면 마이크1을 타깃 마이크로 사용하고, 이어서 타깃 마이크에 따라 후속 처리를 수행할 수 있으며, 예를 들어 타깃 마이크에 의해 수집된 t3 ~ t4의 제2 시간대의 제2 음성 데이터에 따라, 제2 음성 데이터 중 명령을 인식한다.
도 4는 본 실시예에서 제공된 음성 데이터 처리 방법의 다른 일 실시예의 흐름도이고, 도 4에 도시된 방법은 도 1에 도시된 실시예를 기반으로 하며, 단계(S101) 이전에, 하기와 같은 단계를 더 포함한다.
단계(S201)에서, 차량용 단말기는 복수 개의 마이크에 의해 송신된 제1 음성 데이터를 수신한다. 여기서, 제1 음성 데이터는 제1 시간대에 마이크에 의해 수집된 것이다. 도 3에 도시된 논리도를 결합해보면, 단계(S201)는 4개의 마이크에 의해 수집될 제1 음성 데이터를 차량용 단말기에 송신하는 것에 대응된다.
단계(S202)에서, 차량용 단말기는 멀티 채널의 제1 음성 데이터의 에너지를 계산하되, 여기서 차량용 단말기는 도 3에 도시된 실시예에서 음성 데이터에 대해 윈도잉 계산을 수행하는 방식에 따라, 각각의 채널의 제1 음성 데이터의 에너지 값을 계산할 수 있다.
단계 S203에서, 차량용 단말기는 계산된 멀티 채널의 제1 음성 데이터의 에너지 값을 저장 모듈에 저장한다. 도 3에 도시된 바에 대응되게, 구체적으로 에너지를 저장 모듈의 에너지 캐시 큐에 저장할 수 있다.
단계(S204)에서, 제1 음성 데이터에 타깃 단어가 포함되어 있음을 결정한다. 여기서, 차량용 단말기는 구체적으로 도 3에 도시된 바와 같은 멀티 채널의 제1 음성 데이터와 일대일로 대응되는 웨이크업 엔진을 통해, 멀티 채널의 제1 음성 데이터 중 하나 또는 멀티 채널의 제1 음성 데이터에 웨이크업 워드가 포함되어 있음을 결정할 수 있다.
이어서, 단계(S101) 내지 단계(S103)과 관련된 설명은 도 2에 도시된 실시예를 참조할 수 있으며, 그 구현 방식과 원리는 동일하고, 더이상 서술하지 않는다.
특히, 도 5는 본 실시예에서 제공된 음성 데이터의 시간대를 나타내는 도면이고, 여기서, 복수 개의 마이크 중 어느 하나의 마이크에 의해 수집된 음성 데이터에 대해, 도 4에 도시된 제1 시간대와 제2 시간대 사이의 관계를 도시한다. 도 5에 도시된 바와 같이, 차량용 단말기는 마이크에 의해 수집된 음성 데이터에 대해 시간대 단위로 처리한다. 이해할 수 있는 것은, 마이크는 음성 데이터를 계속하여 수집하여 차량용 단말기에 송신하고, 차량용 단말기는 수신된 음성 데이터를 저장하며, 또한 시간대 t1 ~ t2, t2 ~ t3, t3 ~ t4……의 순서에 따라, 각 시간대의 음성 데이터에 대해 웨이크업 워드의 인식을 수행하고, 또한, 도 4의 단계(S201)에서 t2 ~ t3인 제1 시간대의 제1 음성 데이터를 수신하여, 단계(S204)에서 제1 음성 데이터에 웨이크업 워드가 포함되어 있음을 결정한다고 가정하면, 잇따른 단계(S102)에서, t3 ~ t4인 제2 시간대의 제2 음성 데이터에 포함된 명령을 인식할 수 있다. 이해할 수 있는 것은, 도 4에 도시된 단계(S202) 내지 단계(S101)는 도 5에 도시된 제1 시간대의 종료 시각 t3 이후에 수행될 수 있다.
이밖에, 본 실시예는 음성 데이터에 대한 차량용 단말기의 처리 방법을 더 제공하는 바, 차량용 단말기가 음성 데이터를 수집할 때 음성 데이터에 대해 전처리를 수행하는데 사용될 수 있으며, 즉, 차량용 단말기는 음성 데이터를 수집하고 전처리를 수행한 후, 다시 본 출원의 어느 하나의 실시예에서 음성 데이터 처리 방법을 통해 처리한다.
예를 들어, 도 6은 본 출원에서 제공된 음성 데이터 방법의 일 실시예에서 차량용 단말기의 처리 논리도이고, 도 1에 도시된 지능형 차량의 차량용 단말기(11)에 적용될 수 있다. 여기서, 도 6에 도시된 차량용 단말기는, 사운드 카드 디지털 신호 처리(Digital Signal Processing, DSP로 약칭함) 및 읽기 전용 메모리(Read-Only Memory, ROM으로 약칭함)를 포함한다. 사운드 카드 DSP는 복수 개의 마이크에 연결되어, 복수 개의 마이크에 의해 송신된 음성 데이터를 수신하는데 사용되며, 멀티 채널의 음성 데이터를 수신한 후, 사운드 카드 DSP는 신호를 시분할 다중화 슬롯(Time-Division Multiplexing Slot, TDM slot으로 약칭함)으로 전송하고, 멀티 채널의 음성 데이터에 대해 처리하며, 후속의 멀티 채널의 음성 데이터를 ROM으로 송신한다. 이어서, ROM은 오디오 코덱(Audio Codec)을 통해 후속의 멀티 채널의 음성 데이터를 판독한 후, 디인터리빙 알고리즘(Deinterleaving algorithm)을 통해 오디오를 멀티 채널의 음성 데이터로 분할하고, 멀티 채널의 음성 데이터를 SSRC 포로토콜을 통해 상위 계층 애플리케이션 유형의 스레드(예를 들어 Audio Record)에 전송하며, Audio Record 스레드에 의해 도 4에 도시된 논리에서, 멀티 채널의 음성 데이터를 획득하여 에너지를 캐시하고, 복수 개의 웨이크업 엔진을 통해 음성 데이터 중 웨이크업 워드를 각각 인식하는 등 후속 처리를 수행한다.
상술한 실시예에서, 본 출원의 실시예에서 제공된 음성 데이터 처리 방법에 대해 소개하였으며, 상기 본 출원의 실시예에서 제공된 방법 중 각 기능을 구현하기 위해, 수행 주체로서 차량용 단말기는 하드웨어 구조 및/또는 소프트웨어 모듈을 포함할 수 있으며, 하드웨어 구조, 소프트웨어 모듈, 또는 하드웨어 구조에 소프트웨어 모듈을 추가하는 형태로 상기 각 기능을 구현한다. 상기 각 기능 중 특정된 기능을 하드웨어 구조, 소프트웨어 모듈, 하드웨어 구조에 소프트웨어 모듈을 추가하는 방식으로 실행하는지 여부는 기술적 해결수단의 특정 애플리케이션 및 디자인 제약 조건에 의존된다.
예를 들어, 도 7은 본 출원에서 제공된 음성 데이터 처리 장치의 일 실시예의 구조도이고, 도 7에 도시된 장치(700)는 결정 모듈(701), 획득 모듈(702) 및 인식 모듈(703)을 포함한다. 여기서, 결정 모듈(701)은 제1 시간대의 음성 데이터에 타깃 단어가 포함될 경우, 멀티 채널의 제1 음성 데이터 중 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하되, 여기서 멀티 채널의 제1 음성 데이터는 제1 시간대에 차량 내에 장착된 복수 개의 마이크에 의해 수집되고; 획득 모듈(702)은 제2 시간대에 타깃 마이크에 의해 수집된 제2 음성 데이터를 획득하되, 여기서 제2 시간대는 제1 시간대 이후에 위치하며; 인식 모듈(703)은 제2 음성 데이터에 포함된 명령을 인식한다.
선택 가능하게, 결정 모듈(701)은 구체적으로, 멀티 채널의 제1 음성 데이터로부터, 타깃 단어를 포함한 하나 또는 멀티 채널의 후보 제1 음성 데이터를 결정하고; 하나 또는 멀티 채널의 후보 제1 음성 데이터로부터, 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정한다.
선택 가능하게, 결정 모듈(701)은 구체적으로, 저장 모듈로부터, 제1 시간대의 하나 또는 멀티 채널의 후보 제1 음성 데이터의 에너지를 획득하되; 여기서, 저장 모듈은 복수 개의 마이크에 의해 수집된 음성 데이터의 에너지를 저장하는데 사용되고; 하나 또는 멀티 채널의 후보 제1 음성 데이터 에너지에 따라, 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정한다.
도 8은 본 출원에서 제공된 음성 데이터 처리 장치의 다른 일 실시예의 구조이고, 도 8에 도시된 장치는 도 7에 도시된 실시예를 기반으로 계산 모듈(801) 및 저장 모듈(802)을 더 포함한다. 도 8에 도시된 장치에서, 획득 모듈(702)은 또한, 제1 시간대에 복수 개의 마이크에 의해 수집된 멀티 채널의 제1 음성 데이터를 획득하고; 계산 모듈(801)은 제1 시간대의 멀티 채널의 제1 음성 데이터의 에너지를 계산하며, 제1 시간대에서의 멀티 채널의 제1 음성 데이터의 에너지를 저장 모듈(802)에 저장한다.
선택 가능하게, 계산 모듈(801)은 구체적으로, 기설정 시간창에 따라, 제1 시간대 내에 제1 음성 데이터에 대해 윈도잉 및 프레이밍 처리를 수행하여, 제1 시간대의 제1 음성 데이터의 복수 개의 주파수 영역 특징을 획득하고; 복수 개의 주파수 영역 특징의 주파수 영역 에너지 평균값을, 제1 시간대에서의 제1 음성 데이터의 에너지로 사용한다.
설명해야 할 것은, 상기 장치의 각각의 모듈의 분할은 단지 논리적 기능의 분할이며, 실제 구현에서 전부 또는 일부가 하나의 물리적 엔티티에 통합되거나, 물리적으로 분리될 수 있음을 이해해야 한다. 이러한 모듈은 모두 처리 소자에 의해 호출되는 소프트웨어의 형태로 구현 될 수 있고; 모두 하드웨어의 형태로 구현될 수도 있으며; 또한 일부 모듈은 처리 소자를 통해 소프트웨어를 호출하는 형태로 구현되거나 일부 모듈은 하드웨어의 형태로 구현될 수 있다. 예를 들어, 처리 모듈은 별도로 구축된 처리 소자이거나, 상기 장치의 특정된 칩에 통합되어 구현될 수도 있으며, 이밖에, 프로그램 코드 형태로 상기 장치의 메모리에 저장될 수도 있고, 상기 장치의 특정된 처리 소자에 의해 호출되어 상기 결정 모듈의 기능을 실행한다. 다른 모듈의 구현도 이와 유사하다. 또한 이러한 모듈은 전부 또는 일부가 통합되거나 별도로 구현될 수 있다. 여기에 설명된 처리 소자는 신호 처리 기능을 구비한 집적 회로일 수 있다. 구현 프로세스에서, 상기 방법의 각 단계 또는 상기 각각의 모듈은 프로세서 요소의 하드웨어의 집적 논리 회로 또는 소프트웨어 형태의 명령에 의해 완료될 수 있다.
예를 들어, 상기 이러한 모듈은 상기 방법을 구현하도록 구성된 하나 또는 복수 개의 집적 회로일 수 있는 바, 예를 들어, 하나 또는 복수 개의 ASIC(application specific integrated circuits), 또는 하나 또는 복수 개의 마이크로 프로세서(digital signal processor, DSP), 또는 하나 또는 복수 개의 필드 프로그램 가능 게이트 어레이(field programmable gate array, FPGA) 등이다. 다른 예로, 상기 특정 모듈이 처리 소자를 통해 프로그램 코드를 호출하는 형태로 구현될 경우, 상기 해당 처리 소자는 중앙 프로세서(central processing unit, CPU)이거나, 프로그램 코드를 호출할 수 있는 다른 프로세서와 범용 프로세서일 수 있다. 또 다른 예로, 이러한 모듈은 통합될 수 있으며, 시스템 온 칩(system-on-a-chip, SOC)의 형태로 구현된다.
상기 실시예에서, 소프트웨어, 하드웨어, 펌웨어 또는 이들의 임의의 조합에 의해 전체적으로 또는 부분적으로 구현될 수 있다. 소프트웨어를 사용하여 구현할 경우, 컴퓨터 프로그램 제품의 형태로 전체적으로 또는 부분적으로 구현될 수 있다. 상기 컴퓨터 프로그램 제품은 하나 또는 복수 개의 컴퓨터 명령을 포함한다. 컴퓨터에서 상기 컴퓨터 프로그램 명령을 로딩하고 실행할 경우, 본 출원의 실시예에 따른 프로세스 또는 기능이 전체적으로 또는 부분적으로 생성된다. 상기 컴퓨터는 범용 컴퓨터, 전용 컴퓨터, 컴퓨터 네트워크, 또는 기타 프로그램 가능한 장치일 수 있다. 상기 컴퓨터 명령은 컴퓨터 판독 가능 저장 매체에 저장되거나, 하나의 컴퓨터 판독 가능 저장 매체로부터 다른 하나의 컴퓨터 판독 가능 저장 매체로 전송될 수 있는 바, 예를 들어 상기 컴퓨터 명령은 하나의 웹 사이트, 컴퓨터, 서버 또는 데이터 센터로부터 유선(예를 들어 동축 케이블, 광섬유, 디지털 가입자 회선(Digital Subscriber Line, DSL)) 또는 무선(예를 들어 적외선, 무선, 마이크로파 등) 방식을 통해 다른 하나의 웹 사이트, 컴퓨터, 서버 또는 데이터 센터로 전송될 수 있다. 상기 컴퓨터 판독 가능 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 사용 가능한 매체이거나, 하나 또는 복수 개의 사용 가능한 매체로 통합된 서버, 데이터 센터 등을 포함한 데이터 저장 기기일 수 있다. 상기 사용 가능한 매체는 자성 매체(예를 들어, 플로피 디스크, 하드 디스크, 자기 테이프), 광학 매체(예를 들어, DVD), 또는 반도체 매체(예를 들어, 솔리드 스테이트 디스크(solid state disk, SSD)) 등일 수 있다.
본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독 가능 저장 매체를 더 제공한다.
도 9에 도시된 바와 같이, 본 출원의 실시예의 음성 데이터 처리 방법에 따른 전자 기기의 블록도를 도시한다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 정보 단말기, 서버, 블레이드 서버, 메인프레임 컴퓨터, 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위한 것이다. 전자 기기는 개인용 디지털 단말기, 셀룰러 폰, 스마트 폰, 웨어러블 기기, 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본문에 표시된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것으로서, 본문에서 설명되거나 및/또는 요구되는 본 출원의 구현을 한정하려는 의도가 아니다.
도 9에 도시된 바와 같이, 상기 전자 기기는, 하나 또는 다수의 프로세서(901), 메모리(902), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각각의 부재는 상이한 버스를 사용하여 상호 연결되고, 또한 공통 마더보드에 설치되거나 수요에 따라 다른 방식으로 설치될 수 있다. 프로세서는 전자 기기 내에서 실행되는 명령을 처리할 수 있고, 상기 명령은, 외부 입력/출력 장치(예를 들어, 인터페이스에 결합된 디스플레이 기기)에 GUI의 그래픽 정보를 디스플레이하기 위해 메모리 내 또는 메모리에 저장되는 명령을 포함한다. 다른 실시형태에서, 수요되면, 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 기기를 연결할 수 있으며, 각각의 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중 프로세서 시스템으로 사용됨)을 제공한다. 도 9에서는 하나의 프로세서(901)를 예로 한다.
메모리(902)는 본 출원에서 제공된 비일시적 컴퓨터 판독 가능 저장 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어, 상기 적어도 하나의 프로세서가 본 출원에서 제공된 음성 데이터 처리 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하며, 해당 컴퓨터 명령은 컴퓨터가 본 출원에서 제공된 음성 데이터 처리 방법을 수행하도록 한다.
메모리(902)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 본 출원의 실시예에서의 음성 데이터 처리 방법에 대응되는 프로그램 명령/모듈(예를 들어, 도 7에 도시된 결정 모듈(701), 획득 모듈(702) 및 인식 모듈(703))과 같은 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈을 저장하는데 사용될 수 있다. 프로세서(901)는 메모리(902)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하며, 즉 상기 방법의 실시예에서의 음성 데이터 처리 방법을 구현한다.
메모리(902)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있는 바, 여기서 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있고; 데이터 저장 영역은 음성 데이터 처리 방법에 따른 전자 기기를 사용하여 구축된 데이터 등을 저장할 수 있다. 이밖에, 메모리(902)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 저장 소자, 플래시 소자, 또는 다른 비일시적 솔리드 스테이트 저장 소자와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(902)는 프로세서(901)에 대해 원격으로 설치되는 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 음성 데이터 처리 방법의 전자 기기에 연결될 수 있다. 상기 네트워크의 구현예는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신망, 및 이들의 조합을 포함하지만 이에 한정되지 않는다.
음성 데이터 처리 방법의 전자 기기는, 입력 장치(903) 및 출력 장치(904)를 더 포함할 수 있다. 프로세서(901), 메모리(902), 입력 장치(903) 및 출력 장치(904)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 9에서는 버스를 통한 연결을 예로 한다.
입력 장치(903)는 입력된 숫자 또는 캐릭터 정보를 수신할 수 있고, 음성 데이터 처리 방법의 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있으며, 예를 들어 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 다수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치일 수 있다. 출력 장치(904)는 디스플레이 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 기기는 액정 디스플레이 장치(LCD), 발광 다이오드(LED) 디스플레이 장치 및 플라즈마 디스플레이 장치를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시형태에서, 디스플레이 기기는 터치 스크린일 수 있다.
여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 주문형 또는 일반 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로 지칭되기도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하고, 또한 고급 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 사용하여 이러한 컴퓨터 프로그램을 실행할 수 있다. 본문에 사용된 바와 같이, 용어 “기계 판독 가능 매체” 및 “컴퓨터 판독 가능 매체”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 의미하고, 기계 판독 가능 신호인 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 “기계 판독 가능 신호”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.
사용자와의 인터랙션을 제공하기 위해, 컴퓨터에서 여기에 설명된 시스템 및 기술을 구현할 수 있고, 상기 컴퓨터는 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 포인팅 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 센서 피드백(예를 들어, 예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.
본 출원의 실시예에 따르면, 본 출원은 컴퓨터 판독가능 저장매체에 저장된 컴퓨터 프로그램을 제공하며, 해당 컴퓨터 프로그램 중의 명령이 프로세서에 의해 실행될 경우, 상기 방법 실시예에서의 음성 데이터 처리 방법을 실현한다.
위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 출원에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.
상기 구체적인 실시형태는 본 출원의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는, 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 출원의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 출원의 보호 범위 내에 포함되어야 한다.

Claims (16)

  1. 음성 데이터 처리 방법에 있어서,
    제1 시간대의 음성 데이터에 타깃 단어가 포함될 경우, 멀티 채널의 제1 음성 데이터 중 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하되, 상기 멀티 채널의 제1 음성 데이터는 상기 제1 시간대에 차량 내에 장착된 복수 개의 마이크에 의해 수집되는 단계;
    제2 시간대에 상기 타깃 마이크에 의해 수집된 제2 음성 데이터를 획득하되, 상기 제2 시간대는 상기 제1 시간대 이후에 위치하는 단계; 및,
    상기 제2 음성 데이터에 포함된 명령을 인식하는 단계;를 포함하고,
    상기 멀티 채널의 제1 음성 데이터 중 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하는 단계 이전에,
    상기 제1 시간대에 상기 복수 개의 마이크에 의해 수집된 멀티 채널의 제1 음성 데이터를 획득하는 단계;
    상기 제1 시간대에서의 상기 멀티 채널의 제1 음성 데이터의 에너지를 계산하는 단계; 및,
    상기 제1 시간대의 상기 멀티 채널의 제1 음성 데이터의 에너지를 저장 모듈에 저장하는 단계;를 더 포함하고,
    어느 하나의 제1 음성 데이터에 대해, 상기 제1 시간대에서의 상기 제1 음성 데이터의 에너지를 계산하는 단계는,
    기설정 시간창에 따라, 상기 제1 시간대 내에 상기 제1 음성 데이터에 대해 윈도잉 및 프레이밍 처리를 수행하여, 상기 제1 시간대의 상기 제1 음성 데이터의 복수 개의 주파수 영역 특징을 획득하는 단계; 및,
    상기 복수 개의 주파수 영역 특징의 주파수 영역 에너지 평균값을, 상기 제1 시간대에서의 상기 제1 음성 데이터의 에너지로 사용하는 단계;를 포함하는 것을 특징으로 하는 음성 데이터 처리 방법.
  2. 제1항에 있어서,
    상기 멀티 채널의 제1 음성 데이터 중 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하는 단계는,
    상기 멀티 채널의 제1 음성 데이터로부터, 상기 타깃 단어를 포함하는 하나 또는 멀티 채널의 후보 제1 음성 데이터를 결정하는 단계; 및,
    상기 하나 또는 멀티 채널의 후보 제1 음성 데이터로부터, 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하는 단계;를 포함하는 것을 특징으로 하는 음성 데이터 처리 방법.
  3. 제2항에 있어서,
    상기 하나 또는 멀티 채널의 후보 제1 음성 데이터로부터, 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하는 단계는,
    저장 모듈로부터, 상기 제1 시간대의 상기 하나 또는 멀티 채널의 후보 제1 음성 데이터의 에너지를 획득하는 단계; 및,
    상기 하나 또는 멀티 채널의 후보 제1 음성 데이터 에너지에 따라, 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하는 단계;를 포함하는 것을 특징으로 하는 음성 데이터 처리 방법.
  4. 삭제
  5. 삭제
  6. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 제2 음성 데이터에 포함된 명령을 인식하는 단계는,
    네트워크 기기로 상기 제2 음성 데이터를 송신하는 단계; 및,
    상기 네트워크 기기에 의해 송신된 상기 제2 음성 데이터에 포함된 명령을 수신하는 단계;를 포함하는 것을 특징으로 하는 음성 데이터 처리 방법.
  7. 음성 데이터 처리 장치에 있어서,
    제1 시간대의 음성 데이터에 타깃 단어가 포함될 경우, 멀티 채널의 제1 음성 데이터 중 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하되, 상기 멀티 채널의 제1 음성 데이터는 상기 제1 시간대에 차량 내에 장착된 복수 개의 마이크에 의해 수집되는 결정 모듈;
    제2 시간대에 상기 타깃 마이크에 의해 수집된 제2 음성 데이터를 획득하되, 상기 제2 시간대는 상기 제1 시간대 이후에 위치하는 획득 모듈; 및,
    상기 제2 음성 데이터에 포함된 명령을 인식하는 인식 모듈;을 포함하고,
    상기 음성 데이터 처리 장치는 계산 모듈 및 저장 모듈을 더 포함하고;
    상기 획득 모듈은 또한, 상기 제1 시간대에 상기 복수 개의 마이크에 의해 수집된 멀티 채널의 제1 음성 데이터를 획득하며;
    상기 계산 모듈은, 상기 제1 시간대에서의 상기 멀티 채널의 제1 음성 데이터의 에너지를 계산하고, 또한 상기 제1 시간대의 상기 멀티 채널의 제1 음성 데이터의 에너지를 상기 저장 모듈에 저장하고,
    상기 계산 모듈은 구체적으로,
    기설정 시간창에 따라, 상기 제1 시간대 내에 상기 제1 음성 데이터에 대해 윈도잉 및 프레이밍 처리를 수행하여, 상기 제1 시간대의 상기 제1 음성 데이터의 복수 개의 주파수 영역 특징을 획득하고;
    상기 복수 개의 주파수 영역 특징의 주파수 영역 에너지 평균값을, 상기 제1 시간대에서의 상기 제1 음성 데이터의 에너지로 사용하는 것을 특징으로 하는 음성 데이터 처리 장치.
  8. 제7항에 있어서,
    상기 결정 모듈은 구체적으로,
    상기 멀티 채널의 제1 음성 데이터로부터, 상기 타깃 단어를 포함하는 하나 또는 멀티 채널의 후보 제1 음성 데이터를 결정하고;
    상기 하나 또는 멀티 채널의 후보 제1 음성 데이터로부터, 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하는 것을 특징으로 하는 음성 데이터 처리 장치.
  9. 제8항에 있어서,
    상기 결정 모듈은 구체적으로,
    저장 모듈로부터, 상기 제1 시간대에서의 상기 하나 또는 멀티 채널의 후보 제1 음성 데이터의 에너지를 획득하고;
    상기 하나 또는 멀티 채널의 후보 제1 음성 데이터 에너지에 따라, 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하는 것을 특징으로 하는 음성 데이터 처리 장치.
  10. 삭제
  11. 삭제
  12. 제7항 내지 제9항 중 어느 한 항에 있어서,
    상기 인식 모듈은 구체적으로,
    네트워크 기기로 상기 제2 음성 데이터를 송신하고;
    상기 네트워크 기기에 의해 송신된 상기 제2 음성 데이터에 포함된 명령을 수신하는 것을 특징으로 하는 음성 데이터 처리 장치.
  13. 지능형 차량에 있어서,
    상기 지능형 차량 내부의 음성 데이터를 수집하는 복수 개의 마이크; 및,
    제1 시간대에 상기 복수 개의 마이크에 의해 수집된 멀티 채널의 제1 음성 데이터를 획득하고; 기설정 시간창에 따라, 상기 제1 시간대 내에 상기 제1 음성 데이터에 대해 윈도잉 및 프레이밍 처리를 수행하여, 상기 제1 시간대의 상기 제1 음성 데이터의 복수 개의 주파수 영역 특징을 획득하고; 상기 복수 개의 주파수 영역 특징의 주파수 영역 에너지 평균값을, 상기 제1 시간대에서의 상기 제1 음성 데이터의 에너지로 사용하고; 상기 제1 시간대의 상기 멀티 채널의 제1 음성 데이터의 에너지를 메모리에 저장하고; 제1 시간대의 음성 데이터에 타깃 단어가 포함될 경우, 멀티 채널의 제1 음성 데이터 중 에너지가 가장 큰 제1 음성 데이터에 대응되는 마이크가 타깃 마이크인 것으로 결정하고, 이어서 제2 시간대에 상기 타깃 마이크에 의해 수집된 제2 음성 데이터를 획득하여, 상기 제2 음성 데이터에 포함된 명령을 인식하는 프로세서;를 포함하되, 상기 멀티 채널의 제1 음성 데이터는 상기 제1 시간대에 상기 복수 개의 마이크에 의해 수집되고, 상기 제2 시간대는 상기 제1 시간대 이후에 위치하는 것을 특징으로 하는 지능형 차량.
  14. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되;
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제3항 중 어느 한 항에 따른 방법을 수행할 수 있도록 하는 전자 기기.
  15. 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제3항 중 어느 한 항에 따른 방법을 수행하도록 하는 비일시적 컴퓨터 판독 가능 저장 매체.
  16. 컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램 중의 명령이 프로세서에 의해 실행될 경우, 제1항 내지 제3항 중 임의의 한 항에 따른 방법을 수행하도록 하는 컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램.
KR1020210038151A 2020-08-27 2021-03-24 음성 데이터 처리 방법, 장치 및 지능형 차량 KR102553234B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010878262.3 2020-08-27
CN202010878262.3A CN111968642A (zh) 2020-08-27 2020-08-27 语音数据处理方法、装置及智能车辆

Publications (2)

Publication Number Publication Date
KR20210040854A KR20210040854A (ko) 2021-04-14
KR102553234B1 true KR102553234B1 (ko) 2023-07-06

Family

ID=73399331

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210038151A KR102553234B1 (ko) 2020-08-27 2021-03-24 음성 데이터 처리 방법, 장치 및 지능형 차량

Country Status (3)

Country Link
JP (1) JP2021144248A (ko)
KR (1) KR102553234B1 (ko)
CN (1) CN111968642A (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466304B (zh) * 2020-12-03 2023-09-08 北京百度网讯科技有限公司 离线语音交互方法、装置、系统、设备和存储介质
CN112634890B (zh) * 2020-12-17 2023-11-24 阿波罗智联(北京)科技有限公司 用于唤醒播放设备的方法、装置、设备以及存储介质
CN112509567B (zh) * 2020-12-25 2024-05-10 阿波罗智联(北京)科技有限公司 语音数据处理的方法、装置、设备、存储介质及程序产品
CN113329372B (zh) * 2021-06-08 2023-04-28 阿波罗智联(北京)科技有限公司 用于车载通话的方法、装置、设备、介质和产品
CN114071318B (zh) * 2021-11-12 2023-11-14 阿波罗智联(北京)科技有限公司 语音处理方法、终端设备及车辆
CN114333017A (zh) * 2021-12-29 2022-04-12 阿波罗智联(北京)科技有限公司 一种动态拾音方法、装置、电子设备及存储介质
CN114974239A (zh) * 2022-05-14 2022-08-30 云知声智能科技股份有限公司 一种语音交互方法、装置、电子设备和存储介质
CN115273850A (zh) * 2022-09-28 2022-11-01 科大讯飞股份有限公司 一种自主移动设备语音控制方法及系统
CN115881131B (zh) * 2022-11-17 2023-10-13 广东保伦电子股份有限公司 一种多语音下的语音转写方法
CN117935789A (zh) * 2024-01-17 2024-04-26 联通(广东)产业互联网有限公司 语音识别方法及系统、设备、存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180108351A1 (en) * 2016-10-19 2018-04-19 Sonos, Inc. Arbitration-Based Voice Recognition
JP2019176430A (ja) * 2018-03-29 2019-10-10 トヨタ自動車株式会社 音声認識装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5826230A (en) * 1994-07-18 1998-10-20 Matsushita Electric Industrial Co., Ltd. Speech detection device
JPH1152976A (ja) * 1997-07-29 1999-02-26 Nec Home Electron Ltd 音声認識装置
JP2004226881A (ja) * 2003-01-27 2004-08-12 Casio Comput Co Ltd 会話システム及び会話処理プログラム
US10789041B2 (en) * 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
CN107591151B (zh) * 2017-08-22 2021-03-16 百度在线网络技术(北京)有限公司 远场语音唤醒方法、装置和终端设备
US20190237067A1 (en) * 2018-01-31 2019-08-01 Toyota Motor Engineering & Manufacturing North America, Inc. Multi-channel voice recognition for a vehicle environment
CN109920405A (zh) * 2019-03-05 2019-06-21 百度在线网络技术(北京)有限公司 多路语音识别方法、装置、设备及可读存储介质
CN113990320A (zh) * 2019-03-11 2022-01-28 阿波罗智联(北京)科技有限公司 语音识别方法、装置、设备和存储介质
CN110310633B (zh) * 2019-05-23 2022-05-20 阿波罗智联(北京)科技有限公司 多音区语音识别方法、终端设备和存储介质
CN110232924A (zh) * 2019-06-03 2019-09-13 中国第一汽车股份有限公司 车载语音管理方法、装置、车辆及存储介质
CN110225202A (zh) * 2019-06-11 2019-09-10 深圳市锐尔觅移动通信有限公司 音频流的处理方法、装置、移动终端及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180108351A1 (en) * 2016-10-19 2018-04-19 Sonos, Inc. Arbitration-Based Voice Recognition
JP2019176430A (ja) * 2018-03-29 2019-10-10 トヨタ自動車株式会社 音声認識装置

Also Published As

Publication number Publication date
KR20210040854A (ko) 2021-04-14
JP2021144248A (ja) 2021-09-24
CN111968642A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
KR102553234B1 (ko) 음성 데이터 처리 방법, 장치 및 지능형 차량
TWI802602B (zh) 用於語音喚醒(wov)關鍵詞註冊的處理器實現的方法和系統
US11587550B2 (en) Method and apparatus for outputting information
JP7566789B2 (ja) 2パスエンドツーエンド音声認識
US9653070B2 (en) Flexible architecture for acoustic signal processing engine
US8346549B2 (en) System and method for supplemental speech recognition by identified idle resources
US11893988B2 (en) Speech control method, electronic device, and storage medium
KR20190099761A (ko) 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
CN111402877B (zh) 基于车载多音区的降噪方法、装置、设备和介质
CN105283836A (zh) 利用相同的音频输入的设备唤醒和说话者验证
CN109215646B (zh) 语音交互处理方法、装置、计算机设备及存储介质
CN113674742B (zh) 人机交互方法、装置、设备以及存储介质
CN111383661B (zh) 基于车载多音区的音区判决方法、装置、设备和介质
CN113674746B (zh) 人机交互方法、装置、设备以及存储介质
CN112634890B (zh) 用于唤醒播放设备的方法、装置、设备以及存储介质
CN112133307A (zh) 人机交互方法、装置、电子设备及存储介质
JP2022539674A (ja) 特定話者スピーチモデルを使用した話者認識
KR20220083990A (ko) 다 음성 영역 음성의 웨이크업 및 인식 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
CN112652304B (zh) 智能设备的语音交互方法、装置和电子设备
CN115862604B (zh) 语音唤醒模型训练及语音唤醒方法、装置及计算机设备
US20220293103A1 (en) Method of processing voice for vehicle, electronic device and medium
CN113689866B (zh) 一种语音转换模型的训练方法、装置、电子设备及介质
CN114399992B (zh) 语音指令响应方法、装置及存储介质
CN114333017A (zh) 一种动态拾音方法、装置、电子设备及存储介质
US20240112021A1 (en) Automatic speech recognition with multi-frame blank decoding using neural networks for conversational ai systems and applications

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant