KR20220083990A - 다 음성 영역 음성의 웨이크업 및 인식 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 - Google Patents

다 음성 영역 음성의 웨이크업 및 인식 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20220083990A
KR20220083990A KR1020220067867A KR20220067867A KR20220083990A KR 20220083990 A KR20220083990 A KR 20220083990A KR 1020220067867 A KR1020220067867 A KR 1020220067867A KR 20220067867 A KR20220067867 A KR 20220067867A KR 20220083990 A KR20220083990 A KR 20220083990A
Authority
KR
South Korea
Prior art keywords
voice
wake
region
audio
thread
Prior art date
Application number
KR1020220067867A
Other languages
English (en)
Inventor
이 저우
셩용 주오
Original Assignee
아폴로 인텔리전트 커넥티비티 (베이징) 테크놀로지 씨오., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아폴로 인텔리전트 커넥티비티 (베이징) 테크놀로지 씨오., 엘티디. filed Critical 아폴로 인텔리전트 커넥티비티 (베이징) 테크놀로지 씨오., 엘티디.
Publication of KR20220083990A publication Critical patent/KR20220083990A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Mechanical Engineering (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Traffic Control Systems (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 개시는 다 음성 영역 음성 웨이크업 방법을 개시하며, 상기 방법은 인공지능 분야에 관한 것으로, 특히는 차량인터넷, 자율주행 등 장면에 사용될 수 있는 음성 기술, 자연 언어 처리, 음성 인터랙션 등 분야에 관한 것이다. 구체적인 실현 방안은, 각각이 N개의 음성 영역 중 하나의 음성 영역에 대응되는 N개 채널의 오디오 신호를 취득하고; N개 채널의 오디오 신호와 웨이크업 엔진에 있는 N개의 동기화 오디오 처리 스레드 사이의 대응 관계에 기반하여, 각 채널의 오디오 신호를 대응되는 하나의 오디오 처리 스레드에 입력하며; N개의 동기화 오디오 처리 스레드 중 웨이크업 결과가 있는 스레드가 나타난 것에 응답하여, 웨이크업 결과가 있는 스레드에 대응되는 음성 영역을 N개의 음성 영역 중 웨이크업된 음성 영역으로 결정한다.

Description

다 음성 영역 음성의 웨이크업 및 인식 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램{METHOD OF PERFORMING VOICE WAKE-UP IN MULTIPLE SPEECH ZONES, METHOD OF PERFORMING SPEECH RECOGNITION INMULTIPLE SPEECH ZONES, APPARATUS, ELECTRONIC DEVICE, STORAGE MEDIUM, AND COMPUTER PROGRAM}
본 개시는 인공지능 분야에 관한 것으로, 특히는 음성 기술, 자연 언어 처리, 음성 인터랙션 등 분야에 관한 것이며, 차량인터넷, 자율주행 등 장면에 사용될 수 있는. 구체적으로는 다 음성 영역 음성의 웨이크업(Wake Up) 및 인식 방법, 장치, 전자 기기, 저장 매체에 관한 것이다.
음성 기술의 발전에 따라, 차량 탑재 음성 시스템에는 복수 채널의 픽업(예를 들면, 복수 채널의 마이크로폰), 다 음성 영역의 음성 웨이크업 및 인식 기술이 나타났다. 그 중에, 차량의 내부 공간을 복수의 서브 공간으로 나눌 수 있으며, 서브 공간 각각이 하나의 음성 영역으로 될 수 있다. 예를 들면, 차량에는 2개의 음성 영역, 4개의 음성 영역 또는 6개의 음성 영역 등이 포함될 수 있다.
본 개시는 다 음성 영역 음성의 웨이크업 및 인식 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품을 제공한다.
본 개시의 일 측면에 따르면, 각각이 N개의 음성 영역 중 하나의 음성 영역에 대응되는 N개 채널의 오디오 신호를 취득하는 동작; 상기 N개 채널의 오디오 신호와 웨이크업 엔진에 있는 N개의 동기화 오디오 처리 스레드 사이의 대응 관계에 기반하여, 각 채널의 오디오 신호를 대응되는 하나의 오디오 처리 스레드에 입력하는 동작; 및 상기 N개의 동기화 오디오 처리 스레드 중 웨이크업 결과가 있는 스레드가 나타난 것에 응답하여, 상기 웨이크업 결과가 있는 스레드에 대응되는 음성 영역을 상기 N개의 음성 영역 중 웨이크업된 음성 영역으로 결정하는 동작을 포함하는 다 음성 영역 음성 웨이크업 방법을 제공한다.
본 개시의 다른 일 측면에 따르면, 본 개시 실시예에 따른 다 음성 영역 음성 웨이크업 방법에 의해, N개의 음성 영역 중 제1 웨이크업된 음성 영역을 결정하는 동작; 상기 제1 웨이크업된 음성 영역 내에 설치되는 픽업에 의해 수집되는 오디오 신호를 취득하는 동작; 및 상기 오디오 신호를 음성 인식 엔진에 전송하여 음성 인식을 진행하는 동작을 포함하는 다 음성 영역 음성 인식 방법을 제공한다.
본 개시의 다른 일 측면에 따르면, 각각이 N개의 음성 영역 중 하나의 음성 영역에 대응되는 N개 채널의 오디오 신호를 취득하기 위한 제1 취득 모듈; 상기 N개 채널의 오디오 신호와 웨이크업 엔진에 있는 N개의 동기화 오디오 처리 스레드 사이의 대응 관계에 기반하여, 각 채널의 오디오 신호를 대응되는 하나의 오디오 처리 스레드에 입력하기 위한 입력 모듈; 및 상기 N개의 동기화 오디오 처리 스레드 중 웨이크업 결과가 있는 스레드가 나타난 것에 응답하여, 상기 웨이크업 결과가 있는 스레드에 대응되는 음성 영역을 상기 N개의 음성 영역 중 웨이크업된 음성 영역으로 결정하기 위한 제1 결정 모듈을 포함하는 다 음성 영역 음성 웨이크업 장치를 제공한다.
본 개시의 다른 일 측면에 따르면, 본 개시 실시예에 따른 다 음성 영역 음성 웨이크업 장치에 의해, N개의 음성 영역 중 제1 웨이크업된 음성 영역을 결정하기 위한 제4 결정 모듈; 상기 제1 웨이크업된 음성 영역 내에 설치되는 픽업에 의해 수집되는 오디오 신호를 취득하기 위한 제2 취득 모듈; 상기 오디오 신호를 음성 인식 엔진에 전송하여 음성 인식을 진행하기 위한 제1 음성 인식 모듈을 포함하는 다 음성 영역 음성 인식 장치를 제공한다.
본 개시의 다른 일 측면에 따르면, N개의 동기화 오디오 처리 스레드를 포함하는 웨이크업 엔진을 포함하며, 각 오디오 처리 스레드는 하나의 음성 영역에 대응되며, 대응되는 음성 영역 내에 설치되는 픽업에 의해 수집되는 한개 채널의 오디오 신호를 처리하기 위해 사용되며, 상기 웨이크업 엔진은, 상기 N개의 동기화 오디오 처리 스레드의 처리 결과를 모니터링하여, 상기 N개의 동기화 오디오 처리 스레드 중 웨이크업 결과가 있는 스레드에 대응되는 음성 영역을 N개의 음성 영역 중 웨이크업된 음성 영역으로 결정하기 위해 사용되는 전자 기기를 제공한다.
본 개시의 다른 일 측면에 따르면, N개의 동기화 오디오 처리 스레드를 포함하는 웨이크업 엔진을 포함하며, 각 오디오 처리 스레드는 하나의 차량 탑재 음성 영역에 대응되며, 대응되는 차량 탑재 음성 영역 내에 설치되는 픽업에 의해 수집되는 한개 채널의 오디오 신호를 처리하기 위해 사용되며, 상기 웨이크업 엔진은, 상기 N개의 동기화 오디오 처리 스레드의 처리 결과를 모니터링하여, 상기 N개의 동기화 오디오 처리 스레드 중 웨이크업 결과가 있는 스레드에 대응되는 차량 탑재 음성 영역을 N개의 차량 탑재 음성 영역 중 웨이크업된 음성 영역으로 결정하기 위해 사용되는 차량 탑재 단말기를 제공한다.
본 개시의 다른 일 측면에 따르면, 본 개시 실시예에 따른 다 음성 영역 음성 웨이크업 장치; 및 본 개시 실시예에 따른 다 음성 영역 음성 인식 장치를 포함하는 차량을 제공한다.
본 개시의 다른 일 측면에 따르면, 본 개시 실시예에 따른 차량 탑재 단말기를 포함하는 다른 차량을 제공한다.
본 개시의 다른 일 측면에 따르면, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하며, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어 있고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 본 개시 실시예에 따른 상기 방법을 실행할 수 있게 하는 전자 기기를 제공한다.
본 개시의 다른 일 측면에 따르면, 컴퓨터로 하여금 본 개시의 실시예에 따른 상기 방법을 실행하게 하기 위한 컴퓨터 명령어가 저장된 비휘발성 컴퓨터 판독가능 저장 매체를 제공한다.
본 개시의 다른 일 측면에 따르면, 컴퓨터 프로그램을 포함하며, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우, 본 개시의 실시예에 따른 상기 방법을 실현하는 컴퓨터 프로그램 제품을 제공한다.
이해해야 할 것은, 본 부분에서 설명되는 내용은 본 개시의 실시예의 핵심적인 특징 또는 중요한 특징을 표시하기 위한 것이 아니며, 본 개시의 범위를 한정하기 위한 것도 아니다. 본 개시의 다른 특징은 아래의 명세서를 통해 쉽게 이해하게 될 것이다.
도면은 본 기술방안을 더 잘 이해하기 위한 것이며, 본 개시를 한정하기 위한 것은 아니다. 여기서,
도 1은 본 개시의 실시예에 적합한 시스템 아키텍처를 예시적으로 도시하는 것이고;
도 2는 본 개시의 실시예에 따른 다 음성 영역 음성 웨이크업 방법의 흐름도를 예시적으로 도시하는 것이고;
도 3은 본 개시의 실시예에 따른 다 음성 영역 음성 웨이크업의 원리도를 예시적으로 도시하는 것이고;
도 4는 본 개시의 실시예에 따른 다 음성 영역 음성 인식 방법의 흐름도를 예시적으로 도시하는 것이고;
도 5은 본 개시의 실시예에 따른 다 음성 영역 음성 웨이크업 장치의 블록도를 예시적으로 도시하는 것이고;
도 6은 본 개시의 실시예에 따른 다 음성 영역 음성 인식 장치의 블록도를 예시적으로 도시하는 것이며; 및
도 7은 본 개시의 실시예를 실현하기 위한 전자 기기의 블록도를 예시적으로 도시하는 것이다.
아래 도면을 결합하여 본 개시의 예시적인 실시예에 대해 설명한다. 이해를 돕기 위해, 상기 설명에는 본 개시 실시예의 다양한 세부사항을 포함하며, 이를 오직 예시적인 것으로 간주해야 한다. 따라서, 당업자는 본 개시의 범위 및 사상을 벗어나는 것이 없이, 여기에서 설명되는 실시예에 대해 다양한 변경 및 수정을 진행할 수 있음을 인식해야 한다. 마찬가지로, 명확하고 간명한 설명을 위해, 아래의 설명에서 공지의 기능 및 구조에 대한 설명은 생략한다.
이해해야 할 것은, 다 음성 영역의 나타남에 따라, 서로 다른 음성 영역에 있는 사용자는 모두 차량 탑재 호스트(차량 호스트로 약칭함)를 웨이크업할 수 있으며, 나아가 특정 음성 영역 내의 사용자에 대한 음성 인식의 목적을 실현할 수 있다.
현재, 다 음성 영역 음성 웨이크업 시스템은 일반적으로 복수의 웨이크업 엔진이 필요하다. 예를 들면, 4개의 음성 영역의 음성 웨이크업 시스템은 4개의 웨이크업 엔진이 필요하고; 6개의 음성 영역의 음성 웨이크업 시스템은 6개의 웨이크업 엔진이 필요하다.
이해해야 할 것은, 다 음성 영역의 음성 웨이크업 시스템에 포함되는 웨이크업 엔진 수량이 많을 수록, 시스템에 의해 점용되는 중앙 처리 장치(Central Processing Unit, CPU로 약칭함) 리소스 및 메모리 리소스도 많게 된다. 다 음성 영역의 음성 웨이크업 시스템에 의해 점용되는 상기 리소스가 많을 수록, 차량 탑재 시스템 중 다른 애플리케이션에 대한 영향은 더 심각하고, 심지어 다른 애플리케이션의 정상적인 실행에 영향을 준다.
이에 기반하여, 본 개시의 실시예는, 다 음성 영역의 음성 웨이크업을 지원할 수 있을 뿐만 아니라, 차량 탑재 호스트에서 CPU 및 메모리 등 리소스의 오버헤드를 감소할 수도 있어, 차량 탑재 호스트의 성능을 확보할 수 있는 다 음성 영역-단일 웨이크업 엔진의 음성 웨이크업 방안을 제시한다.
아래, 도면 및 구체적인 실시예를 결합하여 본 개시에 대해 상세하게 설명할 것이다.
본 개시 실시예의 다 음성 영역의 음성 웨이크업 및 인식 방법, 장치에 적합한 시스템 아키텍처를 아래와 같이 소개한다.
도 1은 본 개시의 실시예에 적합한 시스템 아키텍처를 예시적으로 도시하는 것이다. 주의해야 할 것은, 도 1에 도시된 것은 단지 본 개시의 기술적 내용에 대한 당업자의 이해를 돕기 위하여, 본 개시의 실시예가 적용될 수 있는 시스템 아키텍처의 예시일 뿐, 본 개시의 실시예가 다른 환경 또는 장면에 사용될 수 없음을 의미하는 것은 아니다.
도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 차량(101), 네트워크(102) 및 서버(103)를 포함할 수 있다.
설명해야 할 것은, 본 시스템 아키텍처에서, 차량(101)의 내부 공간은 4개의 서브 공간으로 나눌 수 있으며, 각 서브 공간은 하나의 음성 영역으로 칭할 수 있다. 즉, 차량(101)의 내부 공간은 음성 영역(1011, 1012, 1013, 1014) 이 총 4개의 음성 영역을 포함할 수 있다. 예를 들면, 음성 영역(1011)은 운전석의 음성 영역일 수 있고, 음성 영역(1012)은 보조석의 음성 영역일 수 있으며, 음성 영역(1013)은 보조석 뒷좌석의 음성 영역일 수 있고, 음성 영역(1014)은 운전석 뒷좌석의 음성 영역일 수 있다. 각 음성 영역 내에 마이크로폰과 같은 하나의 픽업을 설치할 수 있다. 따라서, 본 시스템 아키텍처에서, 운전자, 보조 운전자 및 운전석 뒷좌석, 보조석 뒷좌석의 승객은 모두 대응되는 음성 영역 내에서 차량의 차량 탑재 호스트를 웨이크업하여, 웨이크업된 후의 차량 탑재 호스트와 음성 인터랙션을 진행할 수 있다.
설명해야 할 것은, 본 개시의 실시예에서, 차량(101)의 차량 탑재 호스트는 웨이크업 엔진을 하나만 포함할 수 있다. 상기 웨이크업 엔진은 복수의 동기화 오디오 처리 스레드(예를 들면, 본 시스템 아키텍처에 있어서, 차량(101)의 차량 탑재 호스트의 웨이크업 엔진은 4개의 동기화 오디오 처리 스레드를 포함할 수 있음)를 포함할 수 있으며, 각 오디오 처리 스레드는 대응하는 음성 영역 내에 설치되는 하나의 픽업에 의해 수집되는 오디오 신호를 처리하기 위한 것이다. 동일한 시각에, 어느 한 오디오 처리 스레드에 웨이크업 결과가 있든, 즉 어느 한 오디오 처리 스레드 중의 오디오 신호가 대응되는 웨이크업 워드 모델을 트리거하든 상관없이, 모두 차량 탑재 호스트가 웨이크업되었음을 나타낸다. 하지만, 이해해야 할 것은, 어느 한 오디오 처리 스레드에 웨이크업 결과가 있을 경우, 이 오디오 처리 스레드에 대응되는 음성 영역이 웨이크업되었음을 나타내며, 후속적으로 이 음성 영역으로부터의 오디오 신호에 대해 음성 인식을 진행해야 한다.
예시적으로, 예를 들면, 웨이크업 워드는 "안녕하세요", "hi", "hello", "XX 학생, 안녕하세요", ...... 등을 포함할 수 있다. 음성 영역(1011) 내의 운전자가 "hi"라고 말한다고 가정하면, 이론적으로 차량(101)의 차량 탑재 호스트의 웨이크업 엔진 중 음성 영역(1011)과 일일이 대응되는 오디오 처리 스레드(예들 들면, 스레드1)에 웨이크업 결과가 있어야 한다. 즉, 이론적으로 웨이크업 엔진이 스레드1을 위해 호출하는 웨이크업 워드 모델은 "hi"를 표현하는 오디오 신호에 의해 트리거되고, 이때 음성 영역(1011)은 웨이크업된 것을 표현하며, 후속에 음성 영역(1011) 내에 설치되는 픽업에 의해 수집되는 오디오 신호를 음성 인식 모듈로 전송하여 음성 인식을 진행할 수 있다. 즉, 후속에 음성 영역(1011) 내의 운전자는 차량 탑재 호스트와 음성 인터랙션을 진행할 수 있다.
설명해야 할 것은, 본 개시의 일부 실시예에서, 음성 인식을 진행할 때, 오디오 신호를 클라우드 서버(103)로 발송하여 음성 인식을 진행할 수 있다. 또는, 본 개시의 다른 실시예에서, 음성 인식을 진행할 때, 차량 자체의 차량 탑재 호스트가 오디오 신호에 대해 음성 인식을 진행할 수도 있다.
다시 말하면, 본 개시의 일부 실시예에서, 차량(101)의 음성 인식 모듈(음성 인식 엔진을 포함)을 클라우드 서버(103)에 설치할 수 있다. 이러한 방안은 차량 자체의 부담을 줄일 수 있다. 또는, 본 개시의 다른 실시예에서, 차량(101)의 음성 인식 모듈(음성 인식 엔진을 포함)을 차량 자체의 차량 탑재 호스트에 설치할 수 있다. 이러한 방안은 차량의 부담을 증가시킬 수 있다.
본 시스템 아키텍처를 통해 제공되는 다 음성 영역-단일 웨이크업 엔진에 의하면, 다 음성 영역의 음성 웨이크업을 지원할 수 있을 뿐만 아니라, 차량 탑재 호스트에서 CPU 및 메모리 등 리소스의 오버헤드를 줄일 수도 있어, 차량 탑재 호스트의 성능을 확보한다. 즉 차량의 다른 애플리케이션이 정상적으로 실행될 수 있게 확보한다.
이해해야 할 것은, 도 1에서의 차량(101) 내에 포함되는 음성 영역의 수는 단지 예시적인 것일 뿐이다. 실현 수요에 따라, 차량(101)의 내부는 임의의 개수의 음성 영역으로 나뉠 수 있다.
본 개시 실시예의 다 음성 영역의 음성 웨이크업 및 인식 방법, 장치에 적합한 적용 장면을 아래와 같이 소개한다.
설명해야 할 것은, 본 개시의 실시예에 의해 제공되는 다 음성 영역 음성 웨이크업 및 인식의 방안은, 차량인터넷, 자율주행 등 다 음성 영역을 갖는 음성 웨이크업 및 인식 장면에 적용될 수 있다. 또한, 본 개시의 실시예에 의해 제공되는 다 음성 영역 음성 웨이크업 및 인식의 방안은, 사물인터넷, 쇼핑몰, 가구 등 다 음성 영역을 갖는 음성 웨이크업 및 인식 장면에 적용될 수 있으며, 본 개시는 여기에서 반복하여 설명하지 않는다.
본 개시의 실시예에 따르면, 본 개시는 다 음성 영역 음성 웨이크업 방법을 제공한다.
도 2는 본 개시의 실시예에 따른 다 음성 영역 음성 웨이크업 방법의 흐름도를 예시적으로 도시하는 것이다.
도 2에 도시된 바와 같이, 다 음성 영역 음성 웨이크업 방법(200)은 동작 S210 내지 동작 S230을 포함할 수 있다.
동작 S210에서, N개 채널의 오디오 신호를 취득하며, 여기서, 각 채널의 오디오 신호는 N개의 음성 영역 중의 하나의 음성 영역에 대응된다.
동작 S220에서, N개 채널의 오디오 신호와 웨이크업 엔진 중 N개의 동기화 오디오 처리 스레드 사이의 대응 관계에 기반하여, 각 채널의 오디오 신호를 대응되는 하나의 오디오 처리 스레드에 입력한다.
동작 S230에서, N개의 동기화 오디오 처리 스레드에 웨이크업 결과가 있는 스레드가 나타난 것에 응답하여, 웨이크업 결과가 있는 스레드에 대응되는 음성 영역을 N개의 음성 영역 중의 웨이크업된 음성 영역으로 결정한다.
설명해야 할 것은, 본 개시의 실시예에서, 동작 S210에서 취득하는 N개 채널의 오디오 신호는 N개의 음성 영역에 대해 동시에 음성 수집을 진행하여 얻은 N개 채널의 오디오 신호이다.
본 개시의 일 실시예에서, 방법(200)은 차량 탑재 단말기에 적용될 수 있다. 상기 차량 탑재 단말기는 하나의 웨이크업 엔진만 포함할 수 있다. 해당 웨이크업 엔진은 N개의 동기화 오디오 처리 스레드를 포함할 수 있다. 그 중에, 각 오디오 처리 스레드는 하나의 차량 탑재 음성 영역에 대응되며, 이는 대응되는 차량 탑재 음성 영역 내에 설치되는 픽업에 의해 수집되는 한개 채널의 오디오 신호를 처리하기 위한 것이다. 웨이크업 엔진은 N개의 동기화 오디오 처리 스레드의 처리 결과를 모니터링하여, N개의 동기화 오디오 처리 스레드 중 웨이크업 결과가 있는 스레드에 대응되는 차량 탑재 음성 영역을 N개의 차량 탑재 음성 영역 중의 웨이크업된 음성 영역으로 결정하기 위한 것이다.
예시적으로, 예를 들면, 어느 한 차량 내에 4개의 음성 영역이 있고, 각각 음성 영역1 내지 음성 영역4이다. 이 4개의 음성 영역 내에 각각 하나의 마이크로폰이 설치되며, 예를 들면, 음성 영역1 내지 음성 영역4 내에 각각 마이크로폰1 내지 마이크로폰4가 설치된다. 차량의 차량 탑재 단말기에는 하나의 웨이크업 엔진만 있고, 상기 웨이크업 엔진은 4개의 오디오 처리 스레드를 포함하며, 각각 스레드1 내지 스레드4이다. 여기서, 스레드1은 음성 영역1에 대응되고, 마이크로폰1에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이며; 스레드2는 음성 영역2에 대응되고, 마이크로폰2에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이며; 스레드3은 음성 영역3에 대응되고, 마이크로폰3에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이며; 스레드4는 음성 영역4에 대응되고, 마이크로폰4에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이다. 동일한 시각에 마이크로폰1 내지 마이크로폰4에 의해 각각 수집되는 4개 채널의 오디오 신호는, 상기 대응 관계에 따라 스레드1 내지 스레드4에 각각 입력되어 처리된 후, 스레드1 내지 스레드4 중 임의의 하나의 스레드에 웨이크업 결과가 있을 경우, 음성 영역1 내지 음성 영역4 중의 음성 영역이 웨이크업되었음을 나타낸다. 예를 들면, 스레드1에 웨이크업 결과가 있을 경우, 음성 영역1이 웨이크업되었음을 나타낸다. 본 개시의 실시예에서, 사용자는 차량 내의 각 음성 영역에서 차량 탑재 호스트를 웨이크업하여, 이 차량 탑재 호스트와 음성 인터랙션을 진행할 수 있다.
또는, 본 개시의 일 실시예에서, 방법(200)은 전자 기기에 적용될 수 있다. 상기 전자 기기(단말 기기일 수 있음)는 하나만의 웨이크업 엔진(음성 웨이크업 엔진이라고도 칭함)을 포함할 수 있다. 상기 웨이크업 엔진은 N개의 동기화 오디오 처리 스레드를 포함할 수 있다. 여기서, 각 오디오 처리 스레드는 하나의 음성 영역에 대응되며, 대응되는 음성 영역 내에 설치되는 픽업에 의해 수집되는 한개 채널의 오디오 신호를 처리하기 위한 것이다. 웨이크업 엔진은 N개의 동기화 오디오 처리 스레드의 처리 결과를 모니터링하여, N개의 동기화 오디오 처리 스레드 중 웨이크업 결과가 있는 스레드에 대응되는 음성 영역을 N개의 음성 영역 중의 웨이크업된 음성 영역으로 결정하기 위한 것이다.
예시적으로, 예를 들면, 어느 한 아파트 내에 하나의 안방, 2개의 작은방, 하나의 거실, 하나의 주방 및 하나의 화장실 총 6개의 서브 공간이 있다. 그 중에, 각 서브 공간은 내부에 하나의 마이크로폰이 설치되어, 하나의 음성 영역으로 할 수 있다. 6개의 서브 공간에 대응되는 6개의 음성 영역은 각각 음성 영역1 내지 음성 영역6이다. 이 6개의 음성 영역 내에 설치되는 6개의 마이크로폰은 각각 마이크로폰1 내지 마이크로폰6이다. 상기 아파트 내에 적용되는 전자 기기(예들 들면, 스마트 스피커)는 하나만의 웨이크업 엔진을 가질 수 있고, 상기 웨이크업 엔진은 6개의 오디오 처리 스레드를 포함할 수 있으며, 각각 스레드1 내지 스레드6일 수 있다. 여기서, 스레드1은 음성 영역1에 대응되고, 마이크로폰1에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이며; 스레드2는 음성 영역2에 대응되고, 마이크로폰2에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이며; 스레드3은 음성 영역3에 대응되고, 마이크로폰3에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이며; 스레드4는 음성 영역4에 대응되고, 마이크로폰4에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이며; 스레드5는 음성 영역5에 대응되고, 마이크로폰5에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이며; 스레드6은 음성 영역6에 대응되고, 마이크로폰6에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이다. 동일한 시각에 마이크로폰1 내지 마이크로폰6에 의해 각각 수집되는 6개 채널의 오디오 신호는, 상기 대응 관계에 따라 스레드1 내지 스레드6으로 각각 입력되어 처리된 후, 스레드1 내지 스레드6 중 임의의 하나의 스레드에 웨이크업 결과가 있으면, 음성 영역1 내지 음성 영역6 중의 음성 영역이 웨이크업되었음을 나타낸다. 예를 들면, 스레드1에 웨이크업 결과가 있을 경우, 음성 영역1이 웨이크업되었음을 나타낸다. 본 개시의 실시예에서, 사용자는 아파트 내의 각 서브 공간에서 스마트 스피커를 웨이크업하여, 상기 스마트 스피커와 음성 인터랙션을 진행할 수 있다.
설명해야 할 것은, 본 개시의 실시예에서, N은 1보다 큰 정수이다.
본 개시의 실시예에 의해 제공되는 다 음성 영역-단일 웨이크업 엔진의 방안을 통해, 다 음성 영역의 음성 웨이크업을 지원할 수 있을 뿐만 아니라, 차량 탑재 호스트 또는 스마트 스피커에서 CPU 및 메모리 등 리소스의 오버헤드를 감소할 수도 있어, 차량 탑재 호스트 또는 스마트 스피커의 성능을 확보할 수 있다. 즉 차량 또는 스마트 스피커의 다른 애플리케이션이 정상적으로 실행될 수 있게 확보한다.
또한, 관련 기술에서는, 다 음성 영역-다 웨이크업 엔진의 음성 웨이크업 방안을 적용하며, 콜백이 복잡하고 업무 로직을 제어하기 어려운 문제가 있을 수 있다. 예를 들면, 다 음성 영역-다 웨이크업 엔진의 방안에서, 차량 탑재 호스트에는 복수의 웨이크업 엔진이 설치되어야 하고, 각 웨이크업 엔진은 일반적으로 복수의 엔진 상태가 있으므로, 복수의 웨이크업 엔진은 필연적으로 많은 엔진 상태에 직면해야 함에 인해, 차량 탑재 호스트의 엔진 상태는 매우 복잡하고 관리하기 어렵게 된다.
하지만, 본 개시의 실시예에서는, 다 음성 영역-단일 웨이크업 엔진의 음성 웨이크업 방안을 적용하므로, 다 음성 영역-다 웨이크업 엔진의 방안과 비교하면, 콜백이 더 간단하고, 또한 업무 로직도 더 잘 제어할 수 있다.
또한, 본 개시의 실시예를 통해, 음성 웨이크업 방안이 저가 제품에 더 잘 어울리도록, 제품(예를 들면, 스마트 스피커 등 전자 기기 및 차량 탑재 단말기 등)의 성능 경계를 확장할 수도 있다.
선택 가능한 실시예로서, 상기 방법은 아래와 같은 동작을 더 포함할 수 있다.
N개의 동기화 오디오 처리 스레드에 웨이크업 결과가 있는 스레드가 나타난 것에 응답하여, N개의 동기화 오디오 처리 스레드 중 복수의 스레드에 동시에 웨이크업 결과가 있는지 여부를 결정한다.
N개의 동기화 오디오 처리 스레드 중 복수의 스레드에 동시에 웨이크업 결과가 있다는 결정에 응답하여, 동시에 웨이크업 결과가 있는 복수의 스레드 중 입력된 오디오 신호가 가장 강한 하나의 타깃 스레드를 결정한다.
여기서, 웨이크업 결과가 있는 스레드에 대응되는 음성 영역을 N개의 음성 영역 중의 웨이크업된 음성 영역으로 결정하는 동작은, 타깃 스레드에 대응되는 하나의 타깃 음성 영역을 N개의 음성 영역 중의 웨이크업된 음성 영역으로 결정하는 동작을 포함할 수 있다.
본 개시의 실시예에서, 사용자가 하나의 음성 영역 내에서 말해도, 다 음성 영역 내의 픽업이 상응하는 오디오 신호를 동시에 수집할 수 있는 상황이 나타날 수 있다. 이러한 상황에서, 복수의 스레드가 호출하는 웨이크업 워드 모델 전부가 웨이크업되어 시스템 혼란이 나타나는 것을 방지하기 위해, 우선 사용자의 위치 정보를 결정하고, 다음에 사용자의 위치 정보에 따라 사용자가 위치하는 음성 영역을 웨이크업함으로써, 후속에 사용자가 위치하는 음성 영역 내의 픽업에 의해 수집되는 오디오 신호에 대해 음성 인식을 진행하게 할 수 있다.
이해해야 할 것은, 본 개시의 실시예에서, 우선 각 채널의 오디오 신호에 포함되는 에너지에 따라, 각 채널 오디오 신호의 강도를 결정할 수 있고, 그 다음 그 중에서 오디오 신호가 가장 강한 하나의 채널을 찾아내서, 해당 채널의 오디오 신호가 입력되는 오디오 처리 스레드가 호출하는 웨이크업 워드 모델을 웨이크업 상태로 트리거하며, 이와 동시에 이 채널의 오디오 신호를 수집하는 픽업이 위치하는 음성 영역을 사용자가 실제로 위치하는 음성 영역으로 할 수 있다. 후속적으로, 사용자가 실제로 위치하는 음성 영역 내의 픽업에 의해 수집되는 오디오 신호를 음성 인식 모듈로 발송하여 음성 처리를 진행할 수 있다.
다시 말하면, 본 개시의 실시예에서, 동일한 시각에 복수의 음성 처리 스레드 모두에 웨이크업 결과가 있을 경우, 각 채널의 오디오 신호의 강약 정도에 따라, 신호가 가장 강한 한 채널의 오디오 신호가 입력되는 스레드를 실제로 웨이크업된 스레드로 결정할 수 있으며, 후속적으로 음성 인식을 진행할 시 이 채널의 오디오 신호를 수집하는 픽업에 의해 수집되는 음성 신호 흐름을 음성 인식 모듈로 발송하여 음성 인식을 진행할 수 있다.
예시적으로, 예를 들면, 어느 한 차량 내에 4개의 음성 영역이 있고, 각각 음성 영역1 내지 음성 영역4이다. 이 4개의 음성 영역 내에 각각 하나의 마이크로폰이 설치되며, 예를 들면, 음성 영역1 내지 음성 영역4 내에 각각 마이크로폰1 내지 마이크로폰4가 설치된다. 차량의 차량 탑재 단말기에는 하나만의 웨이크업 엔진이 있고, 상기 웨이크업 엔진은 4개의 오디오 처리 스레드를 포함하며, 각각 스레드1 내지 스레드4이다. 여기서, 스레드1은 음성 영역1에 대응되고, 마이크로폰1에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이며; 스레드2는 음성 영역2에 대응되고, 마이크로폰2에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이며; 스레드3은 음성 영역3에 대응되고, 마이크로폰3에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이며; 스레드4는 음성 영역4에 대응되고, 마이크로폰4에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이다. 동일한 시각에 마이크로폰1 내지 마이크로폰4에 의해 각각 수집되는 4개 채널의 오디오 신호는 상기 대응 관계에 따라 스레드1 내지 스레드4에 각각 입력되어 처리된 후, 스레드1과 스레드2에 모두 웨이크업 결과가 있는 것을 발견하고, 단지 이때 스레드1에 입력되는 한 채널의 오디오 신호의 강도가 더 강하므로, 이런 상황에서 실제로 웨이크업된 것은 음성 영역1인 것으로 간주할 수 있다. 음성 영역1은 웨이크업된 후, 계속하여 마이크로폰1에 의해 수집되는 오디오 신호 흐름을 취득하여 이를 음성 인식 모듈로 발송하여 음성 인식을 진행함으로써, 음성 영역1 내의 사용자와 차량 탑재 호스트 사이의 음성 인터랙션을 실현할 수 있다.
본 개시의 실시예를 통해, 웨이크업 엔진에서의 복수의 음성 처리 스레드에 모두 웨이크업 결과가 있을 경우, 사용자가 차량 탑재 호스트와 더 원활하게 음성 인터랙션을 진행할 수 있도록, 신호가 가장 강한 한 채널을 선택하여 웨이크업할 수 있다.
선택 가능한 실시예로서, N개 채널의 오디오 신호를 취득하는 동작은 아래와 같은 동작을 포함할 수 있다.
N개의 픽업을 이용하여 N개 채널의 오디오 신호를 동시에 수집하며, 여기서, 각 픽업은 N개의 음성 영역 중 하나의 음성 영역 내에 설치된다.
N개의 픽업에 의해 동시에 수집되는 N개 채널의 오디오 신호를 한 프레임의 오디오 데이터로 조합하여 웨이크업 엔진에 전송한다.
웨이크업 엔진을 통해, 오디오 데이터로부터 대응되는 N개 채널의 오디오 신호를 추출함으로써, 대응 관계에 따라 각각 대응되는 하나의 오디오 처리 스레드에 입력하여 처리한다.
본 개시의 실시예에서, 우선 동시에 취득되는 복수 채널의 오디오 신호를 한 프레임의 오디오 데이터(오디오 어레이라고도 칭함)로 조합할 수 있으며, 그 다음 오디오 데이터에 포함되는 복수 채널의 오디오 신호(즉 복수의 오디오 데이터 성분)를 한 프레임씩 동일한 웨이크업 엔진에 동시에 전송한 다음, 웨이크업 엔진 내부에서 각 프레임의 오디오 데이터를 이전에 협약된 조립 규칙에 따라 대응되는 복수 채널의 오디오 신호로 분할하여, 각 채널의 오디오 신호를 미리 설정된 대응 관계에 따라 대응되는 오디오 처리 스레드에 입력하여 음성 처리를 진행할 수 있다.
예시적으로, 도 3에 도시된 바와 같이, 예를 들면, 어느 한 차량 내에 4개의 음성 영역이 있고, 각각 음성 영역1 내지 음성 영역4이다. 이 4개의 음성 영역 내에 각각 하나의 마이크로폰이 설치되어 있으며, 예를 들면, 음성 영역1 내지 음성 영역4 내에 각각 마이크로폰1 내지 마이크로폰4가 설치되어 있다. 임의의 동일한 시각에 이 4개의 마이크로폰에 의해 수집되는 4개 채널의 오디오 신호(예를 들면, T1 시각에 수집되는 4개 채널의 오디오 신호는 각각 오디오 신호1 내지 오디오 신호4임)는 모두 도면에 도시된 바와 같은 순서에 따라 한 프레임의 오디오 데이터로 조립될 수 있다. 이렇게 하면, 모든 음성 영역에 대해 동시에 수집되는 복수 채널의 오디오 신호가 차량 탑재 호스트의 웨이크업 엔진에 동시에 입력 가능함을 확보할 수 있다.
도 3을 계속하여 참조하면, 웨이크업 엔진은 4개의 스레드를 포함하며, 각각 스레드1 내지 스레드4이다. 여기서, 스레드1은 음성 영역1에 대응되고, 마이크로폰1에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이며; 스레드2는 음성 영역2에 대응되고, 마이크로폰2에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이며; 스레드3은 음성 영역3에 대응되고, 마이크로폰3에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이며; 스레드4는 음성 영역4에 대응되고, 마이크로폰4에 의해 수집되는 오디오 신호 흐름을 처리하기 위한 것이다.
도 3을 계속하여 참조하면, 오디오 신호1 내지 오디오 신호4로 조립되어 형성된 오디오 데이터가 웨이크업 엔진에 입력된 후, 웨이크업 엔진은 상기 오디오 데이터로부터 오디오 신호1 내지 오디오 신호4를 분할하여, 오디오 신호1을 스레드1에 입력하여 음성 처리를 진행하고, 오디오 신호2를 스레드2에 입력하여 음성 처리를 진행하며, 오디오 신호3을 스레드3에 입력하여 음성 처리를 진행하고, 오디오 신호4를 스레드4에 입력하여 음성 처리를 진행한다.
이해해야 할 것은, 본 개시의 실시예에서, T1 시각에 수집되는 4개 채널의 오디오 신호에 대해, 스레드1에만 웨이크업 결과가 있을 경우, 웨이크업된 것은 음성 영역1임을 의미하고; 스레드1과 스레드2에 모두 웨이크업 결과가 있고, 또한 오디오 신호1이 오디오 신호2보다 강할 경우, 실제로 웨이크업된 것은 마찬가지로 음성 영역1임을 의미한다. 음성 영역1이 웨이크업된 후, 후속에 마이크로폰1에 의해 수집되는 오디오 신호 흐름을 대응되는 음성 인식 모듈로 발송하여 음성 인식을 진행함으로써, 음성 영역1 내의 사용자와 차량 탑재 호스트 사이의 음성 인터랙션을 실현할 수 있다.
본 개시의 실시예에서, 특정 데이터 포맷에 따라 각 채널의 오디오 신호를 조립할 수 있다. 예를 들면, 동시에 수집되는 N개 채널의 오디오 신호에 대해, 오디오 신호1에서 오디오 신호N까지의 순서에 따라 순차적으로 조립되어 하나의 N차원의 오디오 어레이를 형성할 수 있으며, 상기 N차원의 오디오 어레이는 한 프레임의 오디오 데이터로서 웨이크업 엔진으로 전송될 수 있다.
본 개시의 실시예를 통해, 특수한 데이터 전송 방식(즉 각 시각에 수집되는 복수 채널의 오디오 신호를 한 프레임의 오디오 데이터로 하여 전송함)을 적용함으로써, 단일 웨이크업 엔진이 동시에 다 음성 영역을 모니터링하도록 확보할 수 있다.
또한, 관련 기술에서는, 다 음성 영역-다 웨이크업 엔진의 음성 웨이크업 방안을 적용하면, 콜백이 복잡하고 업무 로직을 제어하기 어려운 문제가 있을 수 있다. 예를 들면, 다 음성 영역-다 웨이크업 엔진의 방안에서, 차량 탑재 호스트에는 복수의 웨이크업 엔진이 설치되어야 하고, 각 웨이크업 엔진마다 하나의 데이터 전송 라인이 설치되어야 하므로, 차량 탑재 호스트의 데이터 전송 라인이 매우 번잡하고 관리하기 어렵게 된다. 또 예를 들면, 다 음성 영역-다 웨이크업 엔진의 방안에서, 차량 탑재 호스트 중의 복수의 웨이크업 엔진은 복수의 데이터 라인의 방식으로 대응되는 오디오 데이터를 취득하므로, 복수의 웨이크업 엔진이 동일한 시각에 수집되는 복수 채널의 오디오 데이터를 동시에 취득하기 매우 어렵게 된다.
하지만, 본 개시의 실시예에서는, 다 음성 영역-단일 웨이크업 엔진의 음성 웨이크업 방안을 적용하므로, 다 음성 영역-다 웨이크업 엔진의 음성 웨이크업 방안과 비교하면, 콜백이 더 간단하고, 또한 업무 로직도 더 잘 제어할 수 있다. 예를 들면, 상기 특수한 데이터 전송 방식을 적용하므로, 단일 웨이크업 엔진이 동시에 다 음성 영역을 모니터링하도록 확보하며, 즉 웨이크업 엔진이 동일한 시각에 수집되는 복수 채널의 오디오 데이터를 동시에 취득하도록 확보할 수 있다.
본 개시의 실시예에 따르면, 본 개시는 다 음성 영역 음성 인식 방법을 제공한다.
도 4는 본 개시의 실시예에 따른 다 음성 영역 음성 인식 방법의 흐름도를 예시적으로 도시하는 것이다.
도 4에 도시된 바와 같이, 다 음성 영역 음성 인식 방법(400)은 동작 S410 내지 동작 S430을 포함할 수 있다.
동작 S410에서, N개의 음성 영역 중 제1 웨이크업된 음성 영역을 결정한다.
동작 S420에서, 제1 웨이크업된 음성 영역 내에 설치된 픽업에 의해 수집되는 오디오 신호를 취득한다.
동작 S430에서, 오디오 신호를 음성 인식 엔진에 전송하여 음성 인식을 진행한다.
설명해야 할 것은, 본 개시의 실시예에서, 상기 임의의 하나 또는 복수의 실시예에 의해 제공되는 다 음성 영역 음성 웨이크업 방법을 적용하여 N개의 음성 영역 중 웨이크업된 음성 영역(제1 웨이크업된 음성 영역)을 결정할 수 있으며, 여기에서 반복하여 설명하지 않는다.
웨이크업된 음성 영역을 결정한 다음, 후속에는 이 음성 영역에 대해 수집되는 오디오 신호 흐름을 음성 인식 모듈로 발송하여 음성 처리를 진행할 수 있다. 구체적인 방법은 상기 실시예에서의 설명을 참조할 수 있으며, 본 개시는 여기에서 반복하여 설명하지 않는다.
본 개시의 실시예에 의해 제공되는 다 음성 영역-단일 웨이크업 엔진의 방안을 통해, 다 음성 영역 음성 웨이크업을 지원할 수 있을 뿐만 아니라, 차량 탑재 호스트 또는 스마트 스피커에서 CPU 및 메모리 등 리소스의 오버헤드를 감소하여, 차량 탑재 호스트 또는 스마트 스피커의 성능을 확보할 수 있다. 즉 차량 또는 스마트 스피커의 다른 애플리케이션이 정상적으로 실행될 수 있게 확보한다.
또한, 관련 기술에서는, 다 음성 영역-다 웨이크업 엔진의 음성 웨이크업 방안을 적용하며, 콜백이 복잡하고 업무 로직을 제어하기 어려운 문제가 있을 수 있다. 예를 들면, 다 음성 영역-다 웨이크업 엔진의 방안에서, 차량 탑재 호스트에는 복수의 웨이크업 엔진이 설치되어야 하고, 각 웨이크업 엔진은 일반적으로 복수의 엔진 상태가 있으므로, 복수의 웨이크업 엔진은 필연적으로 많은 엔진 상태에 직면해야 함에 인해, 차량 탑재 호스트의 엔진 상태가 매우 복잡하고 관리하가 어렵게 된다.
하지만, 본 개시의 실시예에서는, 다 음성 영역-단일 웨이크업 엔진의 음성 웨이크업 방안을 적용하므로, 다 음성 영역-다 웨이크업 엔진의 방안과 비교하면, 콜백이 더 간단하고, 또한 업무 로직도 더 잘 제어할 수 있다.
또한, 본 개시의 실시예를 통해, 음성 웨이크업 방안이 저가 제품에 더 잘 어울리도록, 제품(예를 들면, 스마트 스피커 등 전자 기기 및 차량 탑재 단말기 등)의 성능 경계를 확장할 수도 있다.
선택 가능한 실시예로서, 상기 방법은 N개의 음성 영역 중 제1 웨이크업된 음성 영역을 결정한 후, 아래와 같은 동작을 더 포함할 수 있다.
픽업이 미리 설정된 시간 내에 오디오 신호를 줄곧 수집하지 않은 것에 응답하여, 제1 웨이크업된 음성 영역의 음성 인식 통로를 닫는다.
상기 임의의 하나 또는 복수의 실시예에서 제공되는 다 음성 영역 음성 웨이크업 방법을 다시 실행하여, N개의 음성 영역 중 웨이크업된 음성 영역을 재결정한다.
본 개시의 실시예에서, 어느 한 음성 영역이 웨이크업된 후, 지정된 미리 설정된 시간 내에 기기와 음성 인터랙션을 진행하는 사용자가 줄곧 없으면, 현재 웨이크업된 음성 영역을 종료할 수 있고, 이와 동시에 상기 실시예에 의해 제공되는 다 음성 영역 음성 웨이크업 방법을 이용하여, N개의 음성 영역 중 웨이크업된 음성 영역을 재결정한 다음, 다시 음성 인식을 진행할 수 있다.
설명해야 할 것은, 본 개시의 실시예에서, N개의 음성 영역 중 웨이크업된 음성 영역을 재결정하는 동작은, 상기 임의의 하나 또는 복수의 실시예에 의해 제공되는 다 음성 영역 음성 웨이크업 방법을 적용할 수도 있으며, 여기에서도 반복하여 설명하지 않는다.
본 개시의 실시예를 통해, 미리 설정된 방책에 따라, 기기의 음성 인식 시스템을 유연하게 시작 및 정지시킬 수 있다.
선택 가능한 실시예로서, 상기 방법은 음성 인식 과정에서 아래와 같은 동작을 더 포함할 수 있다.
N개의 음성 영역 중 제2 웨이크업된 음성 영역이 나타난 것에 응답하여, 제1 웨이크업된 음성 영역의 음성 인식 통로를 닫으며, 여기서, 제2 웨이크업된 음성 영역의 권한은 제1 웨이크업된 음성 영역의 권한보다 높다.
제2 웨이크업된 음성 영역 내에 설치되는 픽업에 의해 수집되는 오디오 신호를 취득한다.
상기 오디오 신호를 음성 인식 엔진에 전송하여 음성 인식을 진행한다.
본 개시의 실시예에서, 어느 한 음성 영역에 대해 음성 인식을 진행하는 과정에서, 다른 음성 영역 내에 웨이크업 신호가 나타나고, 또한 이 다른 음성 영역의 권한이 현재 음성 인식 진행 중인 음성 영역의 권한보다 높을 경우, 현재 음성 인식 진행 중인 음성 영역의 음성 인식 통로를 닫을 수 있으며, 이와 동시에 상기 다른 음성 영역에 대해 계속하여 오디오 신호 흐름을 수집하여 음성 인식 모듈로 전송하여, 음성 인식을 진행할 수 있다.
본 개시의 실시예를 통해, 각 음성 영역을 유연하게 제어하여, 권한이 더 높은 음성 영역에서 발신되는 음성 명령어를 우선 처리하는 목적을 실현할 수 있음으로써, 긴급 사건이 적시로 처리되지 못하는 것을 방지할 수 있다.
본 개시의 실시예에 따르면, 본 개시는 다 음성 영역 음성 웨이크업 장치를 더 제공한다.
도 5는 본 개시의 실시예에 따른 다 음성 영역 음성 웨이크업 장치의 블록도를 예시적으로 도시하는 것이다.
도 5에 도시된 바와 같이, 다 음성 영역 음성 웨이크업 장치(500)는 제1 취득 모듈(510), 입력 모듈(520) 및 제1 결정 모듈(530)을 포함한다.
제1 취득 모듈(510)은, N개 채널의 오디오 신호를 취득하기 위한 것이며, 여기서, 각 채널의 오디오 신호는 N개의 음성 영역 중 하나의 음성 영역에 대응된다.
입력 모듈(520)은, 상기 N개 채널의 오디오 신호와 웨이크업 엔진에 있는 N개의 동기화 오디오 처리 스레드 사이의 대응 관계에 기반하여, 각 채널의 오디오 신호를 대응되는 하나의 오디오 처리 스레드에 입력하기 위한 것이다.
제1 결정 모듈(530)은, 상기 N개의 동기화 오디오 처리 스레드 중 웨이크업 결과가 있는 스레드가 나타난 것에 응답하여, 상기 웨이크업 결과가 있는 스레드에 대응되는 음성 영역을 상기 N개의 음성 영역 중 웨이크업된 음성 영역으로 결정하기 위한 것이다.
선택 가능한 실시예로서, 장치는, 상기 N개의 동기화 오디오 처리 스레드 중 웨이크업 결과가 있는 스레드가 나타난 것에 응답하여, 상기 N개의 동기화 오디오 처리 스레드 중 동시에 복수의 스레드에 웨이크업 결과가 있는지 여부를 결정하기 위한 제2 결정 모듈; 상기 N개의 동기화 오디오 처리 스레드 중 동시에 복수의 스레드에 웨이크업 결과가 있다는 것으로 결정함에 응답하여, 동시에 웨이크업 결과가 있는 복수의 스레드 중 입력된 오디오 신호가 가장 강한 하나의 타깃 스레드를 결정하기 위한 제3 결정 모듈을 더 포함하며, 여기서, 상기 제1 결정 모듈은, 상기 타깃 스레드에 대응되는 하나의 타깃 음성 영역을 상기 N개의 음성 영역 중 웨이크업된 음성 영역으로 결정하기 위한 것이기도 하다.
선택 가능한 실시예로서, 상기 제1 취득 모듈은, N개의 음성 영역 중 하나의 음성 영역 내에 각각 설치되는 N개의 픽업을 이용하여 N개 채널의 오디오 신호를 동시에 수집하기 위한 수집 유닛; 상기 N개의 픽업에 의해 동시에 수집되는 N개 채널의 오디오 신호를 한 프레임의 오디오 데이터로 조합하여 상기 웨이크업 엔진에 전송하기 위한 전송 유닛; 상기 입력 모듈로 하여금 상기 대응 관계에 따라 추출된 N개 채널의 오디오 신호를 각각 대응되는 하나의 오디오 처리 스레드에 입력하여 처리하게 하기 위하여, 상기 웨이크업 엔진을 통해, 상기 오디오 데이터로부터 대응되는 N개 채널의 오디오 신호를 추출하기 위한 추출 유닛을 포함한다.
이해해야 할 것은, 본 개시의 다 음성 영역 음성 웨이크업 장치 부분의 실시예는 본 개시의 다 음성 영역 음성 웨이크업 방법 부분의 실시예와 대응적으로 동일하거나 유사하고, 해결하는 기술적 문제와 달성하는 기술적 효과도 대응적으로 동일하거나 유사하며, 여기에서 반복하여 설명하지 않는다.
본 개시의 실시예에 따르면, 본 개시는 다 음성 영역 음성 인식 장치를 더 개시한다.
도 6은 본 개시의 실시예에 따른 다 음성 영역 음성 인식 장치의 블록도를 예시적으로 도시하는 것이다.
도 6에 도시된 바와 같이, 다 음성 영역 음성 인식 장치(600)는, 제4 결정 모듈(610), 제2 취득 모듈(620) 및 제1 음성 인식 모듈(630)을 포함한다.
제4 결정 모듈(610)은, 본 개시 실시예의 다 음성 영역 음성 웨이크업 장치에 의해, N개의 음성 영역 중 제1 웨이크업된 음성 영역을 결정하기 위한 것이다.
제2 취득 모듈(620)은, 상기 제1 웨이크업된 음성 영역 내에 설치되는 픽업에 의해 수집되는 오디오 신호를 취득하기 위한 것이다.
제1 음성 인식 모듈(630)은, 상기 오디오 신호를 음성 인식 엔진에 전송하여 음성 인식을 진행하기 위한 것이다.
선택 가능한 실시예로서, 장치는, 상기 N개의 음성 영역 중 제1 웨이크업된 음성 영역을 결정한 후, 상기 픽업이 미리 설정된 시간 내에 오디오 신호를 줄곧 수집하지 않은 것에 응답하여, 상기 제1 웨이크업된 음성 영역의 음성 인식 통로를 닫기 위한 제1 음성 영역 종료 모듈; 및 본 개시 실시예의 다 음성 영역 음성 웨이크업 장치에 의해 상기 N개의 음성 영역 중 웨이크업된 음성 영역을 재결정하기 위한 제5 결정 모듈을 더 포함한다.
선택 가능한 실시예로서, 장치는, 상기 음성 인식 모듈의 음성 인식과정에서, 상기 N개의 음성 영역 중 상기 제1 웨이크업된 음성 영역의 권한보다 높은 제2 웨이크업된 음성 영역이 나타난 것에 응답하여, 상기 제1 웨이크업된 음성 영역의 음성 인식 통로를 닫기 위한 제2 음성 영역 종료 모듈; 상기 제2 웨이크업된 음성 영역 내에 설치되는 픽업에 의해 수집되는 오디오 신호를 취득하기 위한 제3 취득 모듈; 및 상기 오디오 신호를 상기 음성 인식 엔진에 전송하여 음성 인식을 진행하기 위한 제2 음성 인식 모듈을 더 포함한다.
이해해야 할 것은, 본 개시의 다 음성 영역 음성 인식 장치 부분의 실시예는 본 개시의 다 음성 영역 음성 인식 방법 부분의 실시예와 대응적으로 동일하거나 유사하고, 해결하는 기술적 문제와 달성하는 기술적 효과도 대응적으로 동일하거나 유사하며, 여기에서 반복하여 설명하지 않는다.
본 개시의 실시예에 따르면, 본 개시는 차량을 더 제공한다.
상기 차량은, 본 개시의 상기 임의의 실시예에서의 다 음성 영역 음성 웨이크업 장치, 및 본 개시의 상기 임의의 실시예에서의 다 음성 영역 음성 인식 장치를 포함할 수 있다.
설명해야 할 것은, 본 개시 실시예에서의 다 음성 영역 음성 웨이크업 장치와 다 음성 영역 음성 인식 장치는, 상기 임의의 하나 또는 복수의 실시예에 의해 제공되는 다 음성 영역 음성 웨이크업 장치와 다 음성 영역 음성 인식 장치의 설명 및 대응되는 방법의 설명을 참조할 수 있으며, 여기에서 반복하여 설명하지 않는다.
본 개시의 실시예에 따르면, 본 개시는 다른 차량을 더 제공한다.
상기 차량은, 본 개시의 상기 임의의 실시예에서의 차량 탑재 단말기를 포함할 수 있다.
설명해야 할 것은, 본 개시 실시예에서의 차량 탑재 단말기는, 상기 임의의 하나 또는 복수의 실시예에 의해 제공되는 차량 탑재 단말기의 설명을 참조할 수 있으며, 여기에서 반복하여 설명하지 않는다.
본 개시의 실시예에 따르면, 본 개시는 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램 제품을 더 제공한다.
도 7은 본 개시의 실시예를 실시할 수 있는 전자 기기(700)의 예시적인 블록도를 도시하는 것이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 다른 적합한 컴퓨터 등 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 프로세서, 셀룰러 전화, 스마트 폰, 웨어러블 디바이스 및 다른 유형의 컴퓨팅 장치 등 다양한 형태의 이동 장치를 의미할 수도 있다. 본 문장에 개시되는 부품, 이들의 연결과 관계 및 이들의 기능은 오직 예시일 뿐이고, 본 문장에서 설명 및/또는 요구되는 본 개시의 실현을 제한하는 것은 아니다.
도 7에 도시된 바와 같이, 전자 기기(700)에는 리드 온리 메모리(ROM)(702)에 저장된 컴퓨터 프로그램 또는 저장 유닛(708)으로부터 랜덤 액세스 메모리(RAM)(703)로 로딩되는 컴퓨터 프로그램에 근거하여 여러 가지 적합한 동작과 처리를 실행할 수 있는 컴퓨팅 유닛(701)이 포함된다. RAM(703)에는, 전자 기기(700)의 동작에 필요한 다양한 프로그램 및 데이터가 더 저장될 수 있다. 컴퓨팅 유닛(701), ROM(702) 및 RAM(703)은 버스(704)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(705)도 버스(704)에 연결된다.
전자 기기(700)에서의 복수의 부품은 I/O 인터페이스(705)에 연결되며, 상기 부품에는, 예를 들면 키보드, 마우스 등과 같은 입력 유닛(706), 예를 들면 다양한 유형의 디스플레이, 스피커 등과 같은 출력 유닛(707), 예를 들면 디스크, 광 디스크 등과 같은 저장 유닛(708); 및 예를 들면 네트워크 카드, 모뎀(modem), 무선통신 송수신기 등과 같은 통신 유닛(709)이 포함된다. 통신 유닛(709)은 전자 기기(700)로 하여금 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 텔레콤 네트워크를 통해 기타 기기와 정보/데이터를 교환할 수 있게 한다.
컴퓨팅 유닛(701)은 처리 능력과 컴퓨팅 능력을 갖는 다양한 범용 및/또는 전용 처리 컴포넌트일 수 있다. 컴퓨팅 유닛(701)의 일부 예시에는, 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 다양한 전용 인공지능(AI) 컴퓨팅 칩, 머신 러닝 모델 알고리즘을 실행하는 다양한 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적합한 프로세서, 컨트롤러, 마이크로 컨트롤러 등이 포함되지만 이에 한정되는 것은 아니다. 컴퓨팅 유닛(701)은, 예를 들면, 다 음성 영역 음성 웨이크업 및 인식 방법과 같은 위에서 설명된 각 방법과 처리를 실행한다. 예를 들면, 일부 실시예에서, 다 음성 영역 음성 웨이크업 및 인식 방법은 컴퓨터 소프트웨어 프로그램으로 구현되어, 저장 유닛(708)과 같은 기계 판독가능 매체에 유형적으로 포함될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(702) 및/또는 통신 유닛(709)을 거쳐 전자 기기(700)에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(703)에 로딩되어 컴퓨팅 유닛(701)에 의해 실행될 경우, 위에서 설명한 다 음성 영역 음성 웨이크업 및 인식 방법의 하나 이상의 단계를 실행할 수 있다. 선택적으로, 기타 실시예에서, 컴퓨팅 유닛(701)은 기타 임의의 적합한 방식(예를 들면, 펌웨어를 이용함)을 통해 다 음성 영역 음성 웨이크업 및 인식 방법을 실행하도록 구성될 수 있다.
본 문에서 상기 설명한 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 현장 프로그래밍 가능 게이트 어레이(FPGA), 전용 집적 회로(ASIC), 전용 표준 제품(ASSP), 시스템 온 칩 시스템(SOC), 복합 프로그래밍 가능 로직 디바이스(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현될 수 있다. 상기 다양한 실시형태는 다음과 같은 내용을 포함할 수 있다. 하나 이상의 컴퓨터 프로그램에서 실시되고, 상기 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능 프로세서를 포함하는 프로그래밍 가능 시스템에서 실행 및/또는 해석될 수 있다. 상기 프로그래밍 가능 프로세서는 전용 또는 범용 프로그래밍 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령어를 수신하며, 또한 상기 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에 데이터 및 명령어를 전송할 수 있다.
본 발명의 방법을 실시하기 위한 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합을 적용하여 작성할 수 있다. 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 시 흐름도 및/또는 블록도에서 규정된 기능/동작이 실시되도록, 이러한 프로그램 코드를 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래밍 가능 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 개별적인 소프트웨어 패키지(Software Package)로서 부분적으로 기계에서 실행되며, 부분적으로 원격 기계에서 실행되거나, 완전히 원격 기계 또는 서버에서 실행될 수 있다.
본 발명의 콘텍스트에서, 기계 판독가능 매체는 유형적인 매체일 수 있다. 상기 기계 판독가능 매체에는, 명령어 실행 시스템, 장치 또는 기기에 사용되거나 또는 명령어 실행 시스템, 장치 또는 기기와 결합하여 사용되도록 제공되는 프로그램이 포함되거나 저장될 수 있다. 기계 판독가능 매체는 기계 판독가능 신호 매체 또는 기계 판독가능 저장 매체일 수 있다. 기계 판독가능 매체에는, 전자, 자성, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 상기 내용의 임의의 적합한 조합이 포함될 수 있지만 이에 한정되는 것은 아니다. 기계 판독가능 저장 매체의 더 구체적인 예시에는 하나 이상의 와이어에 의한 전기적인 연결, 휴대용 컴퓨터 디스크, 하드디스크, 랜덤 액세스 메모리(RAM), 리드 온리 메모리(ROM), 소거 가능 및 프로그램 가능 리드 온리 메모리(EPROM 또는 플래시 메모리), 광섬유,휴대용 콤팩트 디스크 리드 온리 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 상기 내용의 임의의 적합한 조합이 포함될 수 있다.
사용자와의 인터랙션을 제공하기 위해, 여기에서 설명하는 시스템과 기술을 컴퓨터에서 실행할 수 있다. 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 디스플레이 장치(예를 들면, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드, 포인팅 장치(예를 들면, 마우스 또는 트랙 볼)를 포함한다. 사용자는 상기 키보드 및 포인팅 장치를 통해 입력을 컴퓨터에 제공한다. 기타 종류의 장치는 사용자와의 인터랙션을 제공하기 위해 사용될 수도 있다. 예를 들면, 사용자에게 제공하는 피드백은 임의의 형태의 센싱 피드백(예를 들면, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있으며, 또한 사용자로부터의 입력은 임의의 형태(소리 입력, 음성 입력 또는 촉각 입력을 포함)로 수신될 수 있다.
여기에서 설명하는 시스템 및 기술을 백그라운드 부품을 포함하는 컴퓨팅 시스템(예를 들면, 데이터 서버), 또는 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들면, 애플리케이션 서버), 또는 프론트 부품을 포함하는 컴퓨팅 시스템(예를 들면, 그래픽 유저 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터, 사용자는 상기 그래픽 유저 인터페이스 또는 웹 브라우저를 통해 여기에서 설명하는 시스템 및 기술의 실시형태와 인터랙션을 진행할 수 있음), 또는 상기 백그라운드 부품, 미들웨어 부품 또는 프론트 부품의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실행할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들면, 통신 네트워크)을 통해 시스템의 부품을 서로 연결할 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 광대역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함한다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있으며, 통신망을 통해 인터랙션을 진행한다. 해당 컴퓨터에서 실행되고, 또한 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다. 서버는 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고 칭할 수도 있는 클라우드 서버일 수 있으며, 클라우드 컴퓨팅 서비스 체계에서의 호스트 제품으로서, 기존의 물리적 호스트와 가상 사설 서버 서비스("Virtual Private Server" 또는 "VPS"로 약칭)에 존재하는 관리 난이도가 크고, 업무 확장성이 약한 결함을 해결하였다. 서버는 분산 시스템의 서버, 또는 블록체인을 결합한 서버일 수도 있다.
본 개시의 기술방안에서, 언급되는 오디오 데이터의 기록, 저장 및 응용 등은 모두 관련 법률 법규의 규정에 부합되며, 또한 공서양속에 어긋나지 않는다.
상기의 다양한 형태의 프로세스를 이용하여, 단계를 다시 순서 배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들면, 본 발명에 기재된 각 단계는 병행하여 실행할 수 있고, 순서대로 실행할 수도 있으며, 서로 다른 순서로 실행할 수도 있는데, 본 발명에 의해 개시되는 기술방안이 기대하는 결과를 실현할 수만 있다면, 이에 대해 제한하지 않는다.
상기 구체적인 실시형태는 본 발명의 보호 범위에 대해 제한하지 않는다. 당업자는 설계 요구와 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 발명의 사상 및 원칙 내에서 진행되는 수정, 균등한 교체 및 개선 등은 모두 본 발명의 보호 범위에 포함되어야 한다.

Claims (19)

  1. 다 음성 영역 음성 웨이크업 방법으로서,
    각각이 N개의 음성 영역 중 하나의 음성 영역에 대응되는 N개 채널의 오디오 신호를 취득하는 동작;
    상기 N개 채널의 오디오 신호와 웨이크업 엔진에 있는 N개의 동기화 오디오 처리 스레드 사이의 대응 관계에 기반하여, 각 채널의 오디오 신호를 대응되는 하나의 오디오 처리 스레드에 입력하는 동작; 및
    상기 N개의 동기화 오디오 처리 스레드 중 웨이크업 결과가 있는 스레드가 나타난 것에 응답하여, 상기 웨이크업 결과가 있는 스레드에 대응되는 음성 영역을 상기 N개의 음성 영역 중 웨이크업된 음성 영역으로 결정하는 동작
    을 포함하는, 다 음성 영역 음성 웨이크업 방법.
  2. 청구항 1에 있어서,
    상기 N개의 동기화 오디오 처리 스레드 중 웨이크업 결과가 있는 스레드가 나타난 것에 응답하여, 상기 N개의 동기화 오디오 처리 스레드 중 동시에 복수의 스레드에 웨이크업 결과가 있는지 여부를 결정하는 동작;
    상기 N개의 동기화 오디오 처리 스레드 중 동시에 복수의 스레드에 웨이크업 결과가 있다는 것으로 결정함에 응답하여, 동시에 웨이크업 결과가 있는 복수의 스레드 중 입력된 오디오 신호가 가장 강한 하나의 타깃 스레드를 결정하는 동작
    을 더 포함하되, 상기 웨이크업 결과가 있는 스레드에 대응되는 음성 영역을 상기 N개의 음성 영역 중 웨이크업된 음성 영역으로 결정하는 동작은, 상기 타깃 스레드에 대응되는 하나의 타깃 음성 영역을 상기 N개의 음성 영역 중 웨이크업된 음성 영역으로 결정하는 동작을 포함하는, 다 음성 영역 음성 웨이크업 방법.
  3. 청구항 1에 있어서,
    상기 N개 채널의 오디오 신호를 취득하는 동작은,
    각각이 상기 N개의 음성 영역 중 하나의 음성 영역 내에 설치되는 N개의 픽업을 이용하여 N개 채널의 오디오 신호를 동시에 수집하는 동작;
    상기 N개의 픽업에 의해 동시에 수집되는 N개 채널의 오디오 신호를 한 프레임의 오디오 데이터로 조합하여 상기 웨이크업 엔진에 전송하는 동작;
    상기 대응 관계에 따라 각각 대응되는 하나의 오디오 처리 스레드에 입력하여 처리하기 위하여, 상기 웨이크업 엔진을 통해, 상기 오디오 데이터로부터 대응되는 N개 채널의 오디오 신호를 추출하는 동작
    을 포함하는, 다 음성 영역 음성 웨이크업 방법.
  4. 다 음성 영역 음성 인식 방법으로서,
    청구항 1 내지 청구항 3 중 어느 한 항의 다 음성 영역 음성 웨이크업 방법에 의해, N개의 음성 영역 중 제1 웨이크업된 음성 영역을 결정하는 동작;
    상기 제1 웨이크업된 음성 영역 내에 설치되는 픽업에 의해 수집되는 오디오 신호를 취득하는 동작; 및
    상기 오디오 신호를 음성 인식 엔진에 전송하여 음성 인식을 진행하는 동작
    을 포함하는, 다 음성 영역 음성 인식 방법.
  5. 청구항 4에 있어서,
    상기 N개의 음성 영역 중 제1 웨이크업된 음성 영역을 결정하한 후,
    상기 픽업이 미리 설정된 시간 내에 오디오 신호를 줄곧 수집하지 않은 것에 응답하여, 상기 제1 웨이크업된 음성 영역의 음성 인식 통로를 닫는 동작;
    청구항 1 내지 청구항 3 중 어느 한 항의 다 음성 영역 음성 웨이크업 방법에 의해, 상기 N개의 음성 영역 중 웨이크업된 음성 영역을 재결정하는 동작
    을 더 포함하는, 다 음성 영역 음성 인식 방법.
  6. 청구항 4에 있어서,
    음성 인식을 하는 과정에서,
    상기 N개의 음성 영역에 상기 제1 웨이크업된 음성 영역보다 권한이 높은 제2 웨이크업된 음성 영역이 나타난 것에 응답하여, 상기 제1 웨이크업된 음성 영역의 음성 인식 통로를 닫는 동작;
    상기 제2 웨이크업된 음성 영역 내에 설치되는 픽업에 의해 수집되는 오디오 신호를 취득하는 동작; 및
    상기 오디오 신호를 상기 음성 인식 엔진에 전송하여 음성 인식을 진행하는 동작
    을 더 포함하는, 다 음성 영역 음성 인식 방법.
  7. 다 음성 영역 음성 웨이크업 장치로서,
    각각이 N개의 음성 영역 중 하나의 음성 영역에 대응되는 N개 채널의 오디오 신호를 취득하기 위한 제1 취득 모듈;
    상기 N개 채널의 오디오 신호와 웨이크업 엔진에 있는 N개의 동기화 오디오 처리 스레드 사이의 대응 관계에 기반하여, 각 채널의 오디오 신호를 대응되는 하나의 오디오 처리 스레드에 입력하기 위한 입력 모듈; 및
    상기 N개의 동기화 오디오 처리 스레드 중 웨이크업 결과가 있는 스레드가 나타난 것에 응답하여, 상기 웨이크업 결과가 있는 스레드에 대응되는 음성 영역을 상기 N개의 음성 영역 중 웨이크업된 음성 영역으로 결정하기 위한 제1 결정 모듈
    을 포함하는, 다 음성 영역 음성 웨이크업 장치.
  8. 청구항 7에 있어서,
    상기 N개의 동기화 오디오 처리 스레드 중 웨이크업 결과가 있는 스레드가 나타난 것에 응답하여, 상기 N개의 동기화 오디오 처리 스레드 중 동시에 복수의 스레드에 웨이크업 결과가 있는지 여부를 결정하기 위한 제2 결정 모듈;
    상기 N개의 동기화 오디오 처리 스레드 중 동시에 복수의 스레드에 웨이크업 결과가 있다는 것으로 결정함에 응답하여, 동시에 웨이크업 결과가 있는 복수의 스레드 중 입력된 오디오 신호가 가장 강한 하나의 타깃 스레드를 결정하기 위한 제3 결정 모듈
    을 더 포함하되, 상기 제1 결정 모듈은, 상기 타깃 스레드에 대응되는 하나의 타깃 음성 영역을 상기 N개의 음성 영역 중 웨이크업된 음성 영역으로 결정하기 위해서도 사용된 다 음성 영역 음성 웨이크업 장치.
  9. 청구항 7에 있어서,
    상기 제1 취득 모듈은,
    각각이 상기 N개의 음성 영역 중 하나의 음성 영역 내에 설치되는 N개의 픽업을 이용하여 N개 채널의 오디오 신호를 동시에 수집하기 위한 수집 유닛;
    상기 N개의 픽업에 의해 동시에 수집되는 N개 채널의 오디오 신호를 한 프레임의 오디오 데이터로 조합하여 상기 웨이크업 엔진에 전송하기 위한 전송 유닛;
    상기 입력 모듈로 하여금 상기 대응 관계에 따라 추출된 N개 채널의 오디오 신호를 각각 대응되는 하나의 오디오 처리 스레드에 입력하여 처리하게 하기 위하여, 상기 웨이크업 엔진을 통해, 상기 오디오 데이터로부터 대응되는 N개 채널의 오디오 신호를 추출하기 위한 추출 유닛
    을 포함하는, 다 음성 영역 음성 웨이크업 장치.
  10. 다 음성 영역 음성 인식 장치로서,
    청구항 7 내지 청구항 9 중 어느 한 항의 다 음성 영역 음성 웨이크업 장치에 의해, N개의 음성 영역 중 제1 웨이크업된 음성 영역을 결정하기 위한 제4 결정 모듈;
    상기 제1 웨이크업된 음성 영역 내에 설치되는 픽업에 의해 수집되는 오디오 신호를 취득하기 위한 제2 취득 모듈;
    상기 오디오 신호를 음성 인식 엔진에 전송하여 음성 인식을 진행하기 위한 제1 음성 인식 모듈
    을 포함하는, 다 음성 영역 음성 인식 장치.
  11. 청구항 10에 있어서,
    상기 N개의 음성 영역 중 제1 웨이크업된 음성 영역을 결정한 후, 상기 픽업이 미리 설정된 시간 내에 오디오 신호를 줄곧 수집하지 않은 것에 응답하여, 상기 제1 웨이크업된 음성 영역의 음성 인식 통로를 닫기 위한 제1 음성 영역 종료 모듈; 및
    청구항 7 내지 청구항 9 중 어느 한 항의 다 음성 영역 음성 웨이크업 장치에 의해, 상기 N개의 음성 영역 중 웨이크업된 음성 영역을 재결정하기 위한 제5 결정 모듈
    을 더 포함하는, 다 음성 영역 음성 인식 장치.
  12. 청구항 10에 있어서,
    상기 음성 인식 모듈에 의한 음성 인식과정에서, 상기 N개의 음성 영역 중 상기 제1 웨이크업된 음성 영역보다 권한이 높은 제2 웨이크업된 음성 영역이 나타난 것에 응답하여, 상기 제1 웨이크업된 음성 영역의 음성 인식 통로를 닫기 위한 제2 음성 영역 종료 모듈;
    상기 제2 웨이크업된 음성 영역 내에 설치되는 픽업에 의해 수집되는 오디오 신호를 취득하기 위한 제3 취득 모듈; 및
    상기 오디오 신호를 상기 음성 인식 엔진에 전송하여 음성 인식을 진행하기 위한 제2 음성 인식 모듈
    을 더 포함하는, 다 음성 영역 음성 인식 장치.
  13. 전자 기기로서,
    N개의 동기화 오디오 처리 스레드를 포함하는 웨이크업 엔진을 포함하되,
    각 오디오 처리 스레드는 하나의 음성 영역에 대응되고, 대응되는 음성 영역 내에 설치되는 픽업에 의해 수집되는 한개 채널의 오디오 신호를 처리하기 위해 사용되며, 상기 웨이크업 엔진은 상기 N개의 동기화 오디오 처리 스레드의 처리 결과를 모니터링하여, 상기 N개의 동기화 오디오 처리 스레드 중 웨이크업 결과가 있는 스레드에 대응되는 음성 영역을 N개의 음성 영역 중 웨이크업된 음성 영역으로 결정하기 위해 사용되는, 전자 기기.
  14. 차량 탑재 단말기로서,
    N개의 동기화 오디오 처리 스레드를 포함하는 웨이크업 엔진을 포함하되,
    각 오디오 처리 스레드는 하나의 차량 탑재 음성 영역에 대응되고, 대응되는 차량 탑재 음성 영역 내에 설치되는 픽업에 의해 수집되는 한개 채널의 오디오 신호를 처리하기 위해 사용되며, 상기 웨이크업 엔진은 상기 N개의 동기화 오디오 처리 스레드의 처리 결과를 모니터링하여, 상기 N개의 동기화 오디오 처리 스레드 중 웨이크업 결과가 있는 스레드에 대응되는 차량 탑재 음성 영역을 N개의 차량 탑재 음성 영역 중 웨이크업된 음성 영역으로 결정하기 위해 사용되는, 차량 탑재 단말기.
  15. 차량으로서,
    청구항 7 내지 청구항 9 중 어느 한 항의 다 음성 영역 음성 웨이크업 장치; 및
    청구항 10 내지 청구항 12 중 어느 한 항의 다 음성 영역 음성 인식 장치
    를 포함하는 차량.
  16. 청구항 14의 차량 탑재 단말기를 포함하는 차량.
  17. 전자 기기로서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리
    를 포함하되, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어 있고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 청구항 1 내지 청구항 3 중 어느 한 항의 상기 방법을 실행할 수 있게 하는, 전자 기기.
  18. 컴퓨터로 하여금 청구항 1 내지 청구항 3 중 어느 한 항의 상기 방법을 실행하게 하기 위한 컴퓨터 명령어가 저장된 비휘발성 컴퓨터 판독가능 저장 매체.
  19. 프로세서에 의해 실행될 경우, 청구항 1 내지 청구항 3 중 어느 한 항의 상기 방법을 실현하는 컴퓨터 프로그램 제품.
KR1020220067867A 2021-06-08 2022-06-02 다 음성 영역 음성의 웨이크업 및 인식 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 KR20220083990A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110639837.0 2021-06-08
CN202110639837.0A CN113380247A (zh) 2021-06-08 2021-06-08 多音区语音唤醒、识别方法和装置、设备、存储介质

Publications (1)

Publication Number Publication Date
KR20220083990A true KR20220083990A (ko) 2022-06-21

Family

ID=77573150

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220067867A KR20220083990A (ko) 2021-06-08 2022-06-02 다 음성 영역 음성의 웨이크업 및 인식 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램

Country Status (5)

Country Link
US (1) US20220301552A1 (ko)
EP (1) EP4044178A3 (ko)
JP (1) JP2022120020A (ko)
KR (1) KR20220083990A (ko)
CN (1) CN113380247A (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114071318B (zh) * 2021-11-12 2023-11-14 阿波罗智联(北京)科技有限公司 语音处理方法、终端设备及车辆
CN114063969A (zh) * 2021-11-15 2022-02-18 阿波罗智联(北京)科技有限公司 音频数据处理方法、装置、设备、存储介质及程序产品
CN114678026B (zh) * 2022-05-27 2022-10-14 广州小鹏汽车科技有限公司 语音交互方法、车机终端、车辆及存储介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0998145A (ja) * 1995-09-29 1997-04-08 Toa Corp 多重伝送装置及びその伝送方法
US7962340B2 (en) * 2005-08-22 2011-06-14 Nuance Communications, Inc. Methods and apparatus for buffering data for use in accordance with a speech recognition system
US20110246172A1 (en) * 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference
JP5411807B2 (ja) * 2010-05-25 2014-02-12 日本電信電話株式会社 チャネル統合方法、チャネル統合装置、プログラム
US10630751B2 (en) * 2016-12-30 2020-04-21 Google Llc Sequence dependent data message consolidation in a voice activated computer network environment
CN106502938B (zh) * 2015-09-08 2020-03-10 北京百度网讯科技有限公司 用于实现图像和语音交互的方法和装置
JP2017083600A (ja) * 2015-10-27 2017-05-18 パナソニックIpマネジメント株式会社 車載収音装置及び収音方法
CN107026931A (zh) * 2016-02-02 2017-08-08 中兴通讯股份有限公司 一种音频数据处理方法和终端
JP2017138476A (ja) * 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US11437020B2 (en) * 2016-02-10 2022-09-06 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US10431211B2 (en) * 2016-07-29 2019-10-01 Qualcomm Incorporated Directional processing of far-field audio
US11183181B2 (en) * 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10916252B2 (en) * 2017-11-10 2021-02-09 Nvidia Corporation Accelerated data transfer for latency reduction and real-time processing
US20190237067A1 (en) * 2018-01-31 2019-08-01 Toyota Motor Engineering & Manufacturing North America, Inc. Multi-channel voice recognition for a vehicle environment
CN109841214B (zh) * 2018-12-25 2021-06-01 百度在线网络技术(北京)有限公司 语音唤醒处理方法、装置和存储介质
CN109830249B (zh) * 2018-12-29 2021-07-06 百度在线网络技术(北京)有限公司 数据处理方法、装置和存储介质
CN110310633B (zh) * 2019-05-23 2022-05-20 阿波罗智联(北京)科技有限公司 多音区语音识别方法、终端设备和存储介质
CN110648663A (zh) * 2019-09-26 2020-01-03 科大讯飞(苏州)科技有限公司 车载音频管理方法、装置、设备、汽车及可读存储介质
CN110992946A (zh) * 2019-11-01 2020-04-10 上海博泰悦臻电子设备制造有限公司 一种语音控制方法、终端及计算机可读存储介质
CN111599357A (zh) * 2020-04-07 2020-08-28 宁波吉利汽车研究开发有限公司 一种车内多音区拾音方法、装置、电子设备及存储介质
CN112201235B (zh) * 2020-09-16 2022-12-27 华人运通(上海)云计算科技有限公司 游戏终端的控制方法、装置、车载系统和车辆

Also Published As

Publication number Publication date
EP4044178A3 (en) 2023-01-18
JP2022120020A (ja) 2022-08-17
EP4044178A2 (en) 2022-08-17
CN113380247A (zh) 2021-09-10
US20220301552A1 (en) 2022-09-22

Similar Documents

Publication Publication Date Title
KR102535338B1 (ko) 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리
KR20220083990A (ko) 다 음성 영역 음성의 웨이크업 및 인식 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
US10489112B1 (en) Method for user training of information dialogue system
US11502859B2 (en) Method and apparatus for waking up via speech
KR102553234B1 (ko) 음성 데이터 처리 방법, 장치 및 지능형 차량
US20180374482A1 (en) Electronic apparatus for processing user utterance and server
US10956480B2 (en) System and method for generating dialogue graphs
CN110673096B (zh) 语音定位方法和装置、计算机可读存储介质、电子设备
US11257497B2 (en) Voice wake-up processing method, apparatus and storage medium
US20220044678A1 (en) Speech processing method and method for generating speech processing model
CN113674746B (zh) 人机交互方法、装置、设备以及存储介质
CN113674742B (zh) 人机交互方法、装置、设备以及存储介质
US11074908B2 (en) System and method for aligning ASR model weights with NLU concepts
CN111312243B (zh) 设备交互方法和装置
CN112017651B (zh) 电子设备的语音控制方法、装置、计算机设备和存储介质
CN117809668A (zh) 电子设备及电子设备的语音信号处理方法
US11798573B2 (en) Method for denoising voice data, device, and storage medium
EP4030424B1 (en) Method and apparatus of processing voice for vehicle, electronic device and medium
WO2023168713A1 (zh) 交互语音信号处理方法、相关设备及系统
CN114333017A (zh) 一种动态拾音方法、装置、电子设备及存储介质
CN114220430A (zh) 多音区语音交互方法、装置、设备以及存储介质
JP2022028670A (ja) 表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN115910047B (zh) 数据处理方法、模型训练方法、关键词检测方法及设备
US11551695B1 (en) Model training system for custom speech-to-text models
CN114495923A (zh) 智能控制系统实现方法、装置、电子设备及存储介质