TW201926316A - 語音信號識別方法和裝置 - Google Patents

語音信號識別方法和裝置 Download PDF

Info

Publication number
TW201926316A
TW201926316A TW107134280A TW107134280A TW201926316A TW 201926316 A TW201926316 A TW 201926316A TW 107134280 A TW107134280 A TW 107134280A TW 107134280 A TW107134280 A TW 107134280A TW 201926316 A TW201926316 A TW 201926316A
Authority
TW
Taiwan
Prior art keywords
signal
speech
continuous
voice
sound source
Prior art date
Application number
TW107134280A
Other languages
English (en)
Inventor
劉勇
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201926316A publication Critical patent/TW201926316A/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Abstract

本申請實施例提供了一種語音信號識別方法和裝置,所述方法包括:獲取指定空間內的空間音頻信號;根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號。在本申請實施例中,由於聲源方向的語音啟動檢測信號,由該聲源方向的連續語音信號和指向性標誌信號組合得到,使得語音啟動檢測信號具有指向性,從而可以減少其他聲源方向的連續語音信號對該聲源方向的語音啟動檢測信號的干擾。

Description

語音信號識別方法和裝置
本申請涉及信號處理技術領域,特別是涉及一種語音信號識別方法和一種語音信號識別裝置。
在多人的語音交互場景中,通常採用語音啟動檢測VAD(Voice Activity Detection)監聽各個人的語音。例如,在會議中,可以透過語音啟動檢測監聽各個發言人員的語音,然後對語音進行識別並記錄,從而得到針對各個發言人員的會議記錄。又例如,在汽車駕駛中,車載終端可以識別透過語音啟動檢測監聽駕駛員的語音,然後識別駕駛員發出的語音,並根據駕駛員的語音執行用戶所需要的操作。例如,喚醒車載終端,播放音樂,接聽電話等。   但是,目前語音啟動檢測存在的主要問題時,無法在多人同時發言的情況下,準確監聽各個人的語音。
鑒於上述問題,提出了本申請實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種語音信號識別方法和相應的一種語音信號識別裝置。   為了解決上述問題,本申請實施例公開了一種語音信號識別方法,包括:   獲取指定空間內的空間音頻信號;   根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號。   優選的,所述空間音頻信號包括:多個麥克風採集的多路原始音頻信號;所述根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號的步驟包括:   根據所述多路原始音頻信號,估計信號到達方向;   根據所述信號到達方向以及預設聲源方向,生成針對預設聲源方向的指向性標誌信號;   對所述多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號。   優選的,所述對所述多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號的步驟包括:   確定所述多路原始音頻信號中兩兩信號之間的時延差;   根據所述兩兩信號之間的時延差,對所述多路原始音頻信號進行時延補償;   對時延補償後的所述多路原始音頻信號進行加權求和,生成針對聲源方向的連續語音信號。   優選的,所述針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號以及相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號的步驟包括:   確定每一訊框連續語音信號對應的指向性標誌信號;   逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號;   根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號;   將每一訊框連續語音信號中被設置為語音信號的信號,確定為語音啟動檢測信號。   優選的,在根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號之後,還包括:   確定非語音片段的時長,所述非語音片段為由連續的設置為非語音信號的各訊框連續語音信號所構成的片段;   將時長小於第一預設閾值的非語音片段中的每一訊框連續語音信號,設置為語音信號。   優選的,所述指向性標誌信號表示了每一訊框的時間是具有語音信號或具有非語音信號;所述根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號的步驟包括:   若對當前訊框的連續語音信號的判斷結果為語音信號,並且,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。   優選的,所述指向性標誌信號表示了每一訊框的時間是具有語音信號或具有非語音信號;所述根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號的步驟包括:   若對當前訊框的連續語音信號的判斷結果為語音信號,或,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。   優選的,所述逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號的步驟包括:   將所述連續語音信號輸入預置的神經網路模型,逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號。   優選的,在確定每一訊框連續語音信號對應的指向性標誌信號之前,還包括:   確定非語音指示片段的時長,所述非語音指示片段為由連續的表示當前訊框的時間具有非語音信號的指向性標誌信號構成;   將時長小於第二預設閾值的非語音指示片段中的每一訊框的指向性標誌信號,設置為表示當前訊框的時間具有語音信號。   本申請實施例還公開了一種語音信號識別方法,包括:   獲取車內的空間音頻信號;   根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號。   優選的,所述空間音頻信號包括:多個麥克風採集的多路原始音頻信號;所述根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號的步驟包括:   根據所述多路原始音頻信號,估計信號到達方向;   根據所述信號到達方向以及預設聲源方向,生成針對預設聲源方向的指向性標誌信號;   對所述多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號。   優選的,所述對所述多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號的步驟包括:   確定所述多路原始音頻信號中兩兩信號之間的時延差;   根據所述兩兩信號之間的時延差,對所述多路原始音頻信號進行時延補償;   對時延補償後的所述多路原始音頻信號進行加權求和,生成針對聲源方向的連續語音信號。   優選的,所述針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號的步驟包括:   確定每一訊框連續語音信號對應的指向性標誌信號;   逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號;   根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號;   將每一訊框連續語音信號中被設置為語音信號的信號,確定為語音啟動檢測信號。   優選的,在根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號之後,還包括:確定非語音片段的時長,所述非語音片段為由連續的設置為非語音信號的各訊框連續語音信號所構成的片段;   將時長小於第一預設閾值的非語音片段中的每一訊框連續語音信號,設置為語音信號。   優選的,所述逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號的步驟包括:   將所述連續語音信號輸入預置的神經網路模型,逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號。   優選的,在確定每一訊框連續語音信號對應的指向性標誌信號之前,還包括:   確定非語音指示片段的時長,所述非語音指示片段為由連續的表示當前訊框的時間具有非語音信號的指向性標誌信號構成;   將時長小於第二預設閾值的非語音指示片段中的每一訊框的指向性標誌信號,設置為表示當前訊框的時間具有語音信號。   本申請實施例還公開了一種語音信號識別方法,包括:   接收車載終端發送的車內的空間音頻信號;   根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號;   將所述針對該聲源方向的語音啟動檢測信號發送至所述車載終端。   優選的,所述空間音頻信號包括:多個麥克風採集的多路原始音頻信號;所述根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號的步驟包括:   根據所述多路原始音頻信號,估計信號到達方向;   根據所述信號到達方向以及預設聲源方向,生成針對預設聲源方向的指向性標誌信號;   對所述多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號。   優選的,所述對所述多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號的步驟包括:   確定所述多路原始音頻信號中兩兩信號之間的時延差;   根據所述兩兩信號之間的時延差,對所述多路原始音頻信號進行時延補償;   對時延補償後的所述多路原始音頻信號進行加權求和,生成針對聲源方向的連續語音信號。   優選的,所述針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號的步驟包括:   確定每一訊框連續語音信號對應的指向性標誌信號;   逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號;   根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號;   將每一訊框連續語音信號中被設置為語音信號的信號,確定為語音啟動檢測信號。   優選的,在根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號之後,還包括:   確定非語音片段的時長,所述非語音片段為由連續的設置為非語音信號的各訊框連續語音信號所構成的片段;   將時長小於第一預設閾值的非語音片段中的每一訊框連續語音信號,設置為語音信號。   優選的,所述逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號的步驟包括:   將所述連續語音信號輸入預置的神經網路模型,逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號。   優選的,在確定每一訊框連續語音信號對應的指向性標誌信號之前,還包括:   確定非語音指示片段的時長,所述非語音指示片段為由連續的表示當前訊框的時間具有非語音信號的指向性標誌信號構成;   將時長小於第二預設閾值的非語音指示片段中的每一訊框的指向性標誌信號,設置為表示當前訊框的時間具有語音信號。   本申請實施例還公開了一種語音信號識別裝置,包括:   空間音頻信號獲取模組,用於獲取指定空間內的空間音頻信號;   第一信號生成模組,用於根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   第二信號生成模組,用於針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號以及相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號。   本申請實施例還公開了一種語音信號識別裝置,包括:   空間音頻信號獲取模組,用於獲取車內的空間音頻信號;   第一信號生成模組,用於根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   第二信號生成模組,用於針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號。   本申請實施例還公開了一種語音信號識別裝置,包括:   空間音頻信號接收模組,用於接收車載終端發送的車內的空間音頻信號;   第一信號生成模組,用於根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   第二信號生成模組,用於針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號;   語音啟動檢測信號發送模組,用於將所述該相應聲源方向的語音啟動檢測信號發送至所述車載終端。   本申請實施例還公開了一種裝置,包括:   一個或多個處理器;和   其上儲存有指令的一個或多個機器可讀媒體,當由所述一個或多個處理器執行時,使得所述裝置執行如上所述的一個或多個的方法。   本申請實施例還公開了一個或多個機器可讀媒體,其上儲存有指令,當由一個或多個處理器執行時,使得裝置執行如上所述的一個或多個的方法。   本申請實施例包括以下優點:   在本申請實施例中,由於聲源方向的語音啟動檢測信號,由該聲源方向的連續語音信號和指向性標誌信號組合得到,使得語音啟動檢測信號具有指向性,從而可以減少其他聲源方向的連續語音信號對該聲源方向的語音啟動檢測信號的干擾。在多人發言的場景下,能減少其他人員的語音對當前人員的語音影響,從而清楚的監聽各個人員的語音。
為使本申請的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本申請作進一步詳細的說明。   參照圖1,示出了本申請的一種語音信號識別方法實施例1的步驟流程圖,具體可以包括如下步驟:   步驟101,獲取指定空間內的空間音頻信號;   在本申請實施例中,指定空間可以為車輛內部的空間。在車輛內部設置有音頻採集設備(例如麥克風)來採集車輛內部的空間音頻信號。   車輛內部的空間音頻信號可以包括:車內人員的語音信號和車輛音頻播放設備(例如音響)播放的音頻信號。   步驟102,根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   聲源方向是聲音來源的方向。例如,聲源方向可以是來自主駕駛位的方向,也可以是來自副駕駛位的方向,以及來自車內其他的位置的方向。   可以對車內的空間音頻信號進行分析,確定車內發出聲音的聲源方向,並且輸出針對聲源方向的連續語音信號和相應的指向性標誌信號。   針對聲源方向的連續語音信號,是對車內的空間音頻信號進行分析得到的來自聲源方向的語音信號。連續語音信號中會包括有語音信號和非語音信號,語音信號是指由人發出的聲音的信號,非語音信號則是非人發出的聲音的信號。   如果確定了多個聲源方向,則可以從空間音頻信號,分離出針對各個聲源方向的連續語音信號。例如,可以從車內的空間音頻信號分離得到來自主駕駛位的連續語音信號,和來自副駕駛位的連續語音信號。   指向性標誌信號表示了在各個時間點聲源方向是否有語音信號。例如,針對主駕駛位的指向性標誌信號,表示了在各個時間點主駕駛位是否有語音。針對副駕駛位的指向性標誌信號,表示了在各個時間點副駕駛位是否有語音。   步驟103,針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號。   將連續語音信號以及相應的指向性標誌信號進行組合,生成針對相應聲源方向的語音啟動檢測信號。   例如,將來自主駕駛位的連續語音信號和相應的指向性標誌信號進行組合,生成針對主駕駛位的語音啟動檢測信號。將來自副駕駛位的連續語音信號和相應的指向性標誌信號進行組合,生成針對副駕駛位的語音啟動檢測信號。   在本申請實施例中,由於聲源方向的語音啟動檢測信號,由該聲源方向的連續語音信號和指向性標誌信號組合得到,使得語音啟動檢測信號具有指向性,從而可以減少其他聲源方向的連續語音信號對該聲源方向的語音啟動檢測信號的干擾。在多人發言的場景下,能減少其他人員的語音對當前人員的語音影響,從而清楚的監聽各個人員的語音。   例如,主駕駛位的語音啟動由來自主駕駛位的連續語音信號和相應的指向性標誌信號進行組合得到,而來自副駕駛位的連續語音信號不會與主駕駛位的指向性標誌信號進行組合,因而可以減少副駕駛位的連續語音信號對該主駕駛位的語音啟動檢測信號的干擾。   在本申請實施例中,車載終端可以根據車輛內的空間音頻信號,確定發出聲音的聲源方向,以及來自聲源方向的連續語音信號和表示在各個時間點聲源方向是否有語音信號的指向性標誌信號。然後將連續語音信號和相應的指向性標誌信號進行組合,得到針對聲源方向的語音啟動檢測信號。因此,本申請實施例可以實現同時監聽各個聲源方向的語音,並且區分各個語音的指向性,確定各個語音是來自哪個方位的。例如,主駕駛位和副駕駛位同時說的話,都可以被車載終端同時監聽。最後由車載終端輸出主駕駛位的語音啟動檢測信號和副駕駛位的語音啟動檢測信號。   語音啟動檢測信號作為最終確定的針對聲源方向的音頻信號。車載終端可以對語音啟動檢測信號進行語音識別,最後根據識別結果進行後續的處理。例如,播放音樂,接聽電話等。   參照圖2,示出了本申請的一種語音信號識別方法實施例2的步驟流程圖,具體可以包括如下步驟:   步驟201,獲取指定空間內的空間音頻信號;所述空間音頻信號包括:多個麥克風採集的多路原始音頻信號;   在本申請實施例中,指定空間可以為車輛內部的空間。在車輛內部設置有音頻採集設備來採集車輛內部的空間音頻信號。   優選的,在本申請實施例中,在車輛中可以設置麥克風陣列來採集車輛內部的空間音頻信號。例如,在靠近主駕駛位的地方設置一個麥克風採集主駕的語音信號;在靠近副駕駛位的地方設置一個麥克風採集副駕的語音信號;還可以在後排座位設置麥克風採集後排乘客的語音信號。   每個麥克風都可以採集到車內人員的語音信號和車輛音頻播放設備播放的音頻信號。   步驟202,根據所述多路原始音頻信號,估計信號到達方向;   信號到達方向(DOA,Direction of Arrival)是指聲源相對麥克風陣列的方向。信號到達方向的估計也稱為聲源定向。目前,使用麥克風陣列來對聲源進行定位的方法總體來說可以分為兩類:時延估計和定向波束形成。   定向波束形成是基於最大輸出功率可控波束方法的一種形式,該方法對麥克風陣列接收到的語音信號進行濾波延遲並加權求和形成特定指向的波束,然後計算各個指向上的波束能量,其中搜索空間中功率最大的方向就是對聲源位置的一個最大近似。   基於時延估計的方法,由於聲源發出的信號到達各個麥克風存在時間差分,它根據各個通道信號間的相關關係對這個時間延遲進行估計,從而來對聲源位置進行估計。這種方法計算很快,能達到實時的要求。   在本申請實施例的一種示例中,可以採用基於時延差的到達時延差估計方法(TDOA: Time Difference of Arrival)來計算信號到達方向。   步驟203,根據所述信號到達方向以及預設聲源方向,生成針對預設聲源方向的指向性標誌信號;   預設聲源方向是相對麥克風陣列的期望聲源的方向,若需要監聽的是主駕駛位和副駕駛位,則期望聲源的方向可以是主駕駛位的方向和副駕駛位的方向。例如,針對主駕駛位的聲源方向可以預設為30度,針對副駕駛位的聲源方向可以預設為-30度。   如果某一時間點的信號到達方向與預設聲源方向相同,則可以認為在該時間點具有語音信號。因此根據各個時間點的信號到達方向與預設聲源方向是否相同,則可以生成表示在各個時間點預設聲源方向是否有語音信號的指向性標誌信號。   在本申請實施例中,指向性標誌信號表示了在各個時間點聲源方向是否有語音信號。   例如,指向性標誌信號只包括0和1兩個值,0表示該時間點這一聲源方向不具有語音信號,1表示該時間點這一聲源方向具有語音信號。   步驟204,對所述多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號。   波束形成(BeamForming)指的是增強期望語音信號,抑制干擾聲源和噪聲。基於單麥克風的語音增強並不理想,很難獲得較大的性能提升,在此情況下,透過構造麥克風陣列來抑制混響和噪聲,可以獲取更高質量的語音。麥克風陣列在期望方向形成波束,拾取波束內信號,消除波束外噪聲,達到語音增強的目的。   在本申請實施例中,所述步驟204可以包括如下子步驟:   子步驟S11,確定所述多路原始音頻信號中兩兩信號之間的時延差;   在本申請實施例中,時延差的計算可以採用基於相位變換的廣義互相關GCC-PHAT(Generalized Cross Correlation-Phase Transform)算法。GCC-PHAT算法利用信號在時域的互相關函數與信號在頻域的互功率譜函數的對應關係,先計算兩路原始音頻信號之間的互功率譜密度,然後加權和相位變換,最後傅利葉逆變換,得到廣義互相關函數。廣義互相關函數的峰值對應的時刻就是兩路原始音頻信號之間的時延差。   子步驟S12,根據所述兩兩信號之間的時延差,對所述多路原始音頻信號進行時延補償;   子步驟S13,對時延補償後的所述多路原始音頻信號進行加權求和,生成針對聲源方向的連續語音信號。   在計算到時延差後,可以採用延遲-累加波束形成(DSB,Delay-Sum Beamforming)生成針對聲源方向的連續語音信號。   具體的,首先根據兩兩信號之間的時延差,對多路原始音頻信號進行時延補償,使得各路原始音頻信號同步。   然後對同步後的各路原始音頻信號進行加權(如均勻加權),將加權後的各路原始音頻信號相加,即得到針對各個聲源方向的連續語音信號。   步驟205,針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號以及相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號。   組合將連續語音信號以及相應的指向性標誌信號進行組合,生成針對相應聲源方向的語音啟動檢測信號。   為了使本領域技術人員能夠更好地理解本申請實施例,下面透過一個例子對本申請實施例加以說明:   參照圖3所示,為本申請實施例中的一種針對聲源方向生成連續語音信號以及相應的指向性標誌信號的示意圖。   在該示例中,在靠近主駕駛位的地方設置第一麥克風,在靠近副駕駛位的地方設置第二麥克風。   第一麥克風可以採集到來自主駕駛位的連續語音信號和車載設備播放的音頻信號,第二麥克風可以採集到來自副駕駛位的連續語音信號和車載設備播放的音頻信號,即總共採集了四路信號。將這四路信號輸入到信號處理模組。   信號處理模組可以採用基於相位變換的廣義互相關GCC-PHAT算法,計算兩路信號之間的時延差。GCC-PHAT算法利用信號在時域的互相關函數與信號在頻域的互功率譜函數的對應關係,先計算兩路信號之間的互功率譜密度,然後加權和相位變換,最後傅利葉逆變換,得到廣義互相關函數。廣義互相關函數的峰值對應的時刻就是兩路信號之間的時延差。   在計算到時延差後,一方面信號處理模組可以採用基於時延差的到達時延差估計方法TDOA算法,根據四路信號的時延差,估計信號到達方向。   然後判斷每一時間的信號到達方向是否與主駕駛位方向或副駕駛位方向相同;如果信號到達方向與主駕駛位方向相同,則認為在該時間點主駕駛位方向具有語音;如果信號到達方向與主駕駛位方向不相同,則認為在該時間點主駕駛位方向不具有語音。   如果信號到達方向與副駕駛位方向相同,則認為在該時間點副駕駛位方向具有語音;如果信號到達方向與副駕駛位方向不相同,則認為在該時間點副駕駛位方向不具有語音。   根據各個時間點主駕駛位方向是否具有語音,可以得到針對主駕駛位的指向性標誌信號;根據各個時間點副駕駛位方向是否具有語音,可以得到針對副駕駛位的指向性標誌信號。   另一方面,可以採用延遲-累加波束形成(DSB,Delay -Sum Beamforming)生成針對聲源方向的連續語音信號。   具體的,首先根據兩兩信號之間的時延差,對四路信號進行時延補償,使得四路信號同步。   然後對同步後的四路信號進行加權(如均勻加權),將加權後的四路信號相加,即得到針對各個聲源方向的連續語音信號。   參照圖4,示出了本申請的一種語音信號識別方法實施例3的步驟流程圖,具體可以包括如下步驟:   步驟301,獲取指定空間內的空間音頻信號;   步驟302,根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號的方式,可以參見前述中的相關描述,此處不再一一贅述。   步驟303,確定每一訊框連續語音信號對應的指向性標誌信號;   在本申請實施例中,連續語音信號和指向性標誌信號都為連續信號。首先對連續語音信號和指向性標誌信號進行分訊框處理,切分為一訊框一訊框的連續語音信號和指向性標誌信號。然後確定每一訊框連續語音信號對應的指向性標誌信號。   在本申請實施例中,在步驟303之前,所述的方法還可以包括,   確定非語音指示片段的時長,所述非語音指示片段為由連續的表示當前訊框的時間具有非語音信號的指向性標誌信號構成;將時長小於第二預設閾值的非語音指示片段中的每一訊框的指向性標誌信號,設置為表示當前訊框的時間具有語音信號。   例如,在針對主駕駛位的指向性標誌信號中,0s-4s是表示具有語音信號,4s-4.2s是表示具有非語音信號,4.2s-8s是表示具有語音信號。   那麼其中4s-4.2s就是非語音指示片段。如果第二閾值為0.3s,則將這一段非語音指示片段,設置為表示這一段時間主駕駛位具有語音信號。   步驟304,逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號;   在本申請實施例中,可以透過將所述連續語音信號輸入預置的神經網路模型,逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號。   神經網路模型可以根據已有的語音信號和非語音信號訓練得到。對於輸入到模型的連續語音信號,會在這個模型上計算該連續語音信號與訓練資料裡面的語音信號和非語音信號相似的概率,最後根據與語音信號相似的概率以及與非語音信號相似的概率判斷每一訊框連續語音信號是否為語音。   參照圖5所示為本申請實施例中神經網路模型的示意圖。神經網路模型包含一個輸入層Input,一個或者多個隱層Hidden,一個輸出層Output。   輸入層節點對應的是根據領域抽取的特徵,通常是浮點型資料;輸出層每個節點對應需要進行分類的類別(比如我們要做數字串識別,那麼輸出節點就是0-9這是個類別)。   如圖所示,每個節點之間的箭頭的連接都對應的一個權重。神經網路模型的訓練過程就是為了得到這些權重的值。   假設神經網路模型的輸入為一個向量x,輸出為一個向量y。   x對應的就是我們根據領域知識抽取的特徵,y就是一個分類的類別。訓練的過程中,y裡面只有正確的那個類別是1,其它的都是0。一組(x,y)稱為一個樣本,訓練的過程需要利用成千上萬個樣本,使用反向傳播算法(一個非常通用的算法)來更新這些權重,直到最後訓練完成所有樣本。   模型訓練完成之後,對於未知的輸入資料,利用輸入資料抽取出來的特徵,然後在已經訓練好的權重上計算輸出節點的概率(所有輸出節點的概率值想加等於1),這個概率就是對應的這組未知輸入資料在這個類別上的概率(可以理解為這個輸入資料與這個類別相似的程度)。   在本申請實施例中,在判斷某一訊框連續語音信號是否是語音還是非語音時。首先利用預先準備好的大量語音信號以及非語音信號,訓練一個神經網路模型。這個模型輸出節點只有兩個,分別是語音和非語音。對於每一訊框連續語音信號,這個模型會計算出來兩個節點的輸出概率。   最後根據與語音信號相似的概率以及與非語音信號相似的概率判斷每一訊框連續語音信號是否為語音。例如,如果與語音信號相似的概率比非語音信號相似的概率高,則認為當前訊框是語音信號;否則認為是非語音信號。又例如,如果與語音信號相似的概率大於預設閾值,則認為是語音信號;否則認為是非語音信號。   連續語音信號是流式輸入的,對於每一訊框都需要計算節點的輸出概率,語音輸入完成,就可以知道每一訊框連續語音信號是語音還是非語音。   在實際中,可以根據實驗結果決定選擇什麼樣的神經網路模型。例如,全連接網路模型(也可以稱之為深度置信網路模型),或遞歸神經網路。   步驟305,根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號。   在本申請實施例中,所述指向性標誌信號表示了每一訊框的時間是具有語音信號或具有非語音信號。   在一種示例中,所述步驟305可以為:若對當前訊框的連續語音信號的判斷結果為語音信號,並且,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。   也就是說,當同時滿足判斷當前訊框的連續語音信號為語音信號,以及相應的指向性標誌信號為表示當前訊框的時間具有語音信號時,才將當前訊框的連續語音信號設置為語音信號。   比如,某一段時長4s的連續的連續語音信號,1s-2s,3s-4s都被判斷語音信號,其它時間都是非語音信號。而指向性標誌信號只有3s-4s時間段表示具有語音信號,那麼只會將3s-4s的連續語音信號設置為語音信號。   在另一種示例中,所述步驟305可以為:若對當前訊框的連續語音信號的判斷結果為語音信號,或,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。   也就是說,只要滿足判斷當前訊框的連續語音信號為語音信號,或相應的指向性標誌信號為表示當前訊框的時間具有語音信號時,就將當前訊框的連續語音信號設置為語音信號。   步驟306,確定非語音片段的時長,所述非語音片段為由連續的設置為非語音信號的各訊框連續語音信號所構成的片段;   例如,如果在連續的0.5s的各訊框連續語音信號都是被設置為非語音信號,則這0.5s內的連續語音信號就是非語音片段。   步驟307,將時長小於第一預設閾值的非語音片段中的每一訊框連續語音信號,設置為語音信號;   例如,如果第一預設閾值為0.6s,非語音片段的時長為0.5s,則將該非語音片段中的每一訊框連續語音信號都設置為語音信號。第一預設閾值可以根據實際情況進行調整。   其中,步驟306和步驟307為一種平滑處理方式,用於將時長較短的非語音片段設置為語音。其目的是將人說話時的比較小的停頓忽略,作為語音信號來處理。在本申請實施例中,步驟306和步驟307為非必須的步驟。   步驟308,將每一訊框連續語音信號中被設置為語音信號的信號,確定為語音啟動檢測信號。   將每一訊框連續語音信號中被設置為語音信號的信號,確定為語音啟動檢測信號。   語音啟動檢測信號作為最終確定的針對聲源方向的音頻信號。可以對語音啟動檢測信號進行語音識別,最後根據識別結果進行相應的操作。例如,播放音樂,接聽電話等。   為了使本領域技術人員能夠更好地理解本申請實施例,下面透過一個例子對本申請實施例加以說明:   參照圖6所示,為本申請實施例中識別主駕駛位和副駕駛位的語音的示意圖。   前端算法模組接收車機輸入語音信號。車機輸入語音信號包括兩個麥克風採集的四路信號,分別為第一麥克風採集到的來自主駕駛位的連續語音信號和車載設備播放的音頻信號,第二麥克風採集到的來自副駕駛位的連續語音信號和車載設備播放的音頻信號。   前端算法模組對四路信號進行信號處理,同時分離出針對主駕駛位的主駕連續語音信號以及指向性標誌信號,以及針對副駕駛位的副駕連續語音信號以及指向性標誌信號。   針對主駕駛位的指向性標誌信號表示的是該時間點主駕駛位的方向是否有語音,該標誌信號只有0和1兩個值,0表示該時間點主駕駛位不具有語音,1表示該時間點主駕駛位具有語音。   針對副駕駛位的指向性標誌信號表示的是該時間點副駕駛位的方向是否有語音,該標誌信號只有0和1兩個值,0表示該時間點副駕駛位不具有語音,1表示該時間點副駕駛位具有語音。   然後由神經網路語音啟動檢測與指向性標誌信號組合模組,透過神經網路模型判斷連續語音信號的某一訊框是否是語音。然後將判斷結果與該時間點的指向性標誌信號進行“與”運算,   也就是說,只有神經網路模型判斷是語音,同時該時間點指向性信號是1的時候,才會判斷這一訊框信號是語音。否則都會認為這一訊框是非語音。逐訊框判斷完成之後。然後該模組會做一個平滑處理,將中間時間較短(時長小於預先設置的閾值,比如0.5s)的非語音片段強制設置成語音。   該模組最後輸出主駕駛位方向上的語音啟動檢測信號和副駕駛位方向上的語音啟動檢測信號。比如,某一段時長4s的連續輸入信號,1s到2s,3s到4s都是語音片段,其它時間都是靜音,而指向性信號只有3s到4s時間段是1,那麼經過這個模組處理之後,會直接輸出3s到4s的信號作為語音啟動檢測的結果。   參照圖7,示出了本申請的一種語音信號識別方法實施例4的步驟流程圖,具體可以包括如下步驟:   步驟401,獲取車內的空間音頻信號;   在申請實施例中,車載終端可以透過設置在車內的麥克風陣列採集車輛內部的空間音頻信號,由車載終端對車內的空間音頻信號進行語音信號識別。   步驟402,根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   車載終端可以從空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號。   在本申請實施例中,所述空間音頻信號包括:多個麥克風採集的多路原始音頻信號;所述步驟402可以包括如下子步驟:   子步驟S21,根據所述多路原始音頻信號,估計信號到達方向;   子步驟S22,根據所述信號到達方向以及預設聲源方向,生成針對預設聲源方向的指向性標誌信號;   子步驟S23,對所述多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號。   在本申請實施例中,所述子步驟S23可以包括:   確定所述多路原始音頻信號中兩兩信號之間的時延差;根據所述兩兩信號之間的時延差,對所述多路原始音頻信號進行時延補償;對時延補償後的所述多路原始音頻信號進行加權求和,生成針對聲源方向的連續語音信號。   步驟403,針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號。   車載終端可以將連續語音信號以及相應的指向性標誌信號進行組合,生成針對相應聲源方向的語音啟動檢測信號。   在本申請實施例中,所述步驟403可以包括如下子步驟:   子步驟S31,確定每一訊框連續語音信號對應的指向性標誌信號;   在本申請實施例中,在所述子步驟S31之前還可以包括:   確定非語音指示片段的時長,所述非語音指示片段為由連續的表示當前訊框的時間具有非語音信號的指向性標誌信號構成;將時長小於第二預設閾值的非語音指示片段中的每一訊框的指向性標誌信號,設置為表示當前訊框的時間具有語音信號。   子步驟S32,逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號;   在本申請實施例中,所述子步驟S32可以進一步包括:   將所述連續語音信號輸入預置的神經網路模型,逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號。   子步驟S33,根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號。   所述指向性標誌信號表示了每一訊框的時間是具有語音信號或具有非語音信號;   在本申請實施例中的一種示例中,所述子步驟S33可以包括:若對當前訊框的連續語音信號的判斷結果為語音信號,並且,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。   在本申請實施例中的另一種示例中,所述子步驟S33可以包括:   若對當前訊框的連續語音信號的判斷結果為語音信號,或,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。   子步驟S34,確定非語音片段的時長,所述非語音片段為由連續的設置為非語音信號的各訊框連續語音信號所構成的片段;   子步驟S35,將時長小於第一預設閾值的非語音片段中的每一訊框連續語音信號,設置為語音信號;   子步驟S36,將每一訊框連續語音信號中被設置為語音信號的信號,確定為語音啟動檢測信號。   參照圖8,示出了本申請的一種語音信號識別方法實施例5的步驟流程圖,具體可以包括如下步驟:   步驟501,接收車載終端發送的車內的空間音頻信號;   在本申請實施例中,在車輛內部設置有音頻採集設備(例如麥克風)來採集車輛內部的空間音頻信號。   車載終端與雲伺服器通信,車載終端將車內的空間音頻信號發送至雲伺服器,由雲伺服器進行語音信號識別。   步驟502,根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   雲伺服器從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號。   在本申請實施例中,所述空間音頻信號包括:多個麥克風採集的多路原始音頻信號;所述步驟502可以包括如下子步驟:   子步驟S41,根據所述多路原始音頻信號,估計信號到達方向;   子步驟S42,根據所述信號到達方向以及預設聲源方向,生成針對預設聲源方向的指向性標誌信號;   子步驟S43,對所述多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號。   在本申請實施例中,所述子步驟S43可以包括:   確定所述多路原始音頻信號中兩兩信號之間的時延差;根據所述兩兩信號之間的時延差,對所述多路原始音頻信號進行時延補償;對時延補償後的所述多路原始音頻信號進行加權求和,生成針對聲源方向的連續語音信號。   步驟503,針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號;   雲伺服器根據連續語音信號以及相應的指向性標誌信號,生成針對相應聲源方向的語音啟動檢測信號。   在本申請實施例中,所述步驟503可以包括如下子步驟:   子步驟S51,確定每一訊框連續語音信號對應的指向性標誌信號;   在本申請實施例中,在所述子步驟S51之前還可以包括:   確定非語音指示片段的時長,所述非語音指示片段為由連續的表示當前訊框的時間具有非語音信號的指向性標誌信號構成;將時長小於第二預設閾值的非語音指示片段中的每一訊框的指向性標誌信號,設置為表示當前訊框的時間具有語音信號。   子步驟S52,逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號;   在本申請實施例中,所述子步驟S52可以進一步包括:   將所述連續語音信號輸入預置的神經網路模型,逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號。   子步驟S53,根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號。   所述指向性標誌信號表示了每一訊框的時間是具有語音信號或具有非語音信號;   在本申請實施例中的一種示例中,所述子步驟S53可以包括:若對當前訊框的連續語音信號的判斷結果為語音信號,並且,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。   在本申請實施例中的另一種示例中,所述子步驟S53可以包括:   若對當前訊框的連續語音信號的判斷結果為語音信號,或,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。   子步驟S54,確定非語音片段的時長,所述非語音片段為由連續的設置為非語音信號的各訊框連續語音信號所構成的片段;   子步驟S55,將時長小於第一預設閾值的非語音片段中的每一訊框連續語音信號,設置為語音信號;   子步驟S56,將每一訊框連續語音信號中被設置為語音信號的信號,確定為語音啟動檢測信號。   步驟504,將所述針對該聲源方向的語音啟動檢測信號發送至所述車載終端。   雲伺服器將識別得到的針對相應聲源方向的語音啟動檢測信號,發送至車載終端。車載終端可以根據語音啟動檢測信號進行語音識別,最後根據識別結果進行相應的操作。例如,播放音樂,接聽電話等。   為了使本領域技術人員能夠更好地理解本申請實施例,下面透過一個例子對本申請實施例加以說明:   參照圖9所示,為本申請實施例中透過雲伺服器識別車內語音的示意圖。   車輛中設置有第一麥克風701,第二麥克風702,第三麥克風703,第四麥克風704,第五麥克風705,第六麥克風706。   第一喇叭711,第二喇叭712,第三喇叭713,第四喇叭714,第五喇叭715,第六喇叭716。   車輛中具有第一乘客721,第二乘客722,第三乘客723,第四乘客724,第五乘客725,第六乘客726。   第一麥克風701用於採集第一喇叭711播放的音頻和第一乘客721的語音;第二麥克風702用於採集第二喇叭712播放的音頻和第二乘客722的語音;第三麥克風703用於採集第三喇叭713播放的音頻和第三乘客723的語音;第四麥克風704用於採集第四喇叭714播放的音頻和第四乘客724的語音;第五麥克風705用於採集第五喇叭715播放的音頻和第五乘客725的語音;第六麥克風706用於採集第六喇叭716播放的音頻和第六乘客726的語音。   各個麥克風採集的音頻可以透過網路730上傳到雲伺服器740。   雲伺服器740可以從各個麥克風採集的乘客的語音和喇叭播放的音頻中,分離出來自各個乘客的連續語音信號以及相應的指向性標誌信號,並根據各個乘客的連續語音信號以及相應的指向性標誌信號,生成針對相應乘客的語音啟動檢測信號。   參照圖10,示出了本申請的一種語音信號識別方法實施例6的步驟流程圖,具體可以包括如下步驟:   步驟801,獲取會議室的空間音頻信號;   在申請實施例中,可以在會議室的每個座位上設置麥克風,由麥克風採集會議室內部的空間音頻信號,然後由會議室的識別終端對會議室內的空間音頻信號進行語音信號識別。   步驟802,根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   會議室的識別終端可以從空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號。   在本申請實施例中,所述空間音頻信號包括:多個麥克風採集的多路原始音頻信號;所述步驟802可以包括如下子步驟:   子步驟S61,根據所述多路原始音頻信號,估計信號到達方向;   子步驟S62,根據所述信號到達方向以及預設聲源方向,生成針對預設聲源方向的指向性標誌信號;   子步驟S63,對所述多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號。   在本申請實施例中,所述子步驟S63可以包括:   確定所述多路原始音頻信號中兩兩信號之間的時延差;根據所述兩兩信號之間的時延差,對所述多路原始音頻信號進行時延補償;對時延補償後的所述多路原始音頻信號進行加權求和,生成針對聲源方向的連續語音信號。   步驟803,針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號。   會議室的識別終端可以將連續語音信號以及相應的指向性標誌信號進行組合,生成針對相應聲源方向的語音啟動檢測信號。   在本申請實施例中,所述步驟803可以包括如下子步驟:   子步驟S71,確定每一訊框連續語音信號對應的指向性標誌信號;   在本申請實施例中,在所述子步驟S71之前還可以包括:   確定非語音指示片段的時長,所述非語音指示片段為由連續的表示當前訊框的時間具有非語音信號的指向性標誌信號構成;將時長小於第二預設閾值的非語音指示片段中的每一訊框的指向性標誌信號,設置為表示當前訊框的時間具有語音信號。   子步驟S72,逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號;   在本申請實施例中,所述子步驟S72可以進一步包括:   將所述連續語音信號輸入預置的神經網路模型,逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號。   子步驟S73,根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號。   所述指向性標誌信號表示了每一訊框的時間是具有語音信號或具有非語音信號;   在本申請實施例中的一種示例中,所述子步驟S73可以包括:若對當前訊框的連續語音信號的判斷結果為語音信號,並且,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。   在本申請實施例中的另一種示例中,所述子步驟S73可以包括:   若對當前訊框的連續語音信號的判斷結果為語音信號,或,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。   子步驟S74,確定非語音片段的時長,所述非語音片段為由連續的設置為非語音信號的各訊框連續語音信號所構成的片段;   子步驟S75,將時長小於第一預設閾值的非語音片段中的每一訊框連續語音信號,設置為語音信號;   子步驟S76,將每一訊框連續語音信號中被設置為語音信號的信號,確定為語音啟動檢測信號。   需要說明的是,對於方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請實施例並不受所描述的動作順序的限制,因為依據本申請實施例,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬優選實施例,所涉及的動作並不一定是本申請實施例所必須的。   參照圖11,示出了本申請的一種語音信號識別裝置實施例1的結構框圖,具體可以包括如下模組:   空間音頻信號獲取模組1001,用於獲取指定空間內的空間音頻信號;   第一信號生成模組1002,用於根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   第二信號生成模組1003,用於針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號以及相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號。   在本申請實施例中,所述空間音頻信號包括:多個麥克風採集的多路原始音頻信號;所述第一信號生成模組1002可以包括:   信號到達方向估計子模組,用於根據所述多路原始音頻信號,估計信號到達方向;   指向性標誌信號生成子模組,用於根據所述信號到達方向以及預設聲源方向,生成針對預設聲源方向的指向性標誌信號;   連續語音信號生成子模組,用於對所述多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號。   在本申請實施例中,所述連續語音信號生成子模組包括:   時延差確定單元,用於確定所述多路原始音頻信號中兩兩信號之間的時延差;   時延補償單元,用於根據所述兩兩信號之間的時延差,對所述多路原始音頻信號進行時延補償;   加權求和單元,用於對時延補償後的所述多路原始音頻信號進行加權求和,生成針對聲源方向的連續語音信號。   在本申請實施例中,所述第二信號生成模組1003可以包括:   指向性標誌信號確定子模組,用於確定每一訊框連續語音信號對應的指向性標誌信號;   語音信號判斷子模組,用於逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號;   語音信號設置子模組,用於根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號;   語音啟動檢測信號確定子模組,用於將每一訊框連續語音信號中被設置為語音信號的信號,確定為語音啟動檢測信號。   在本申請實施例中,所述的裝置還可以包括:   非語音片段時長確定模組,用於語音信號設置子模組根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號之後,確定非語音片段的時長,所述非語音片段為由連續的設置為非語音信號的各訊框連續語音信號所構成的片段;   語音信號設置模組,用於將時長小於第一預設閾值的非語音片段中的每一訊框連續語音信號,設置為語音信號。   在本申請實施例的一種示例中,所述指向性標誌信號表示了每一訊框的時間是具有語音信號或具有非語音信號;所述語音信號設置子模組可以包括:   第一語音信號設置單元,用於若對當前訊框的連續語音信號的判斷結果為語音信號,並且,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。   在本申請實施例的另一種示例中,所述指向性標誌信號表示了每一訊框的時間是具有語音信號或具有非語音信號;所述語音信號設置子模組可以包括:   第二語音信號設置單元,用於若對當前訊框的連續語音信號的判斷結果為語音信號,或,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。   在本申請實施例中,所述語音信號判斷子模組可以包括:   語音信號判斷單元,用於將所述連續語音信號輸入預置的神經網路模型,逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號。   在本申請實施例中,所述裝置還可以包括:   非語音指示片段時長確定模組,用於在所述指向性標誌信號確定子模組確定每一訊框連續語音信號對應的指向性標誌信號之前,確定非語音指示片段的時長,所述非語音指示片段為由連續的表示當前訊框的時間具有非語音信號的指向性標誌信號構成;   指向性標誌信號設置模組,用於將時長小於第二預設閾值的非語音指示片段中的每一訊框的指向性標誌信號,設置為表示當前訊框的時間具有語音信號。   參照圖12,示出了本申請的一種語音信號識別裝置實施例2的結構框圖,具體可以包括如下模組:   空間音頻信號獲取模組1101,用於獲取車內的空間音頻信號;   第一信號生成模組1102,用於根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   第二信號生成模組1103,用於針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號。   在本申請實施例中,所述空間音頻信號包括:多個麥克風採集的多路原始音頻信號;所述第一信號生成模組1102可以包括:   信號到達方向估計子模組,用於根據所述多路原始音頻信號,估計信號到達方向;   指向性標誌信號生成子模組,用於根據所述信號到達方向以及預設聲源方向,生成針對預設聲源方向的指向性標誌信號;   連續語音信號生成子模組,用於對所述多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號。   在本申請實施例中,所述連續語音信號生成子模組可以包括:   時延差確定單元,用於確定所述多路原始音頻信號中兩兩信號之間的時延差;   時延補償單元,用於根據所述兩兩信號之間的時延差,對所述多路原始音頻信號進行時延補償;   加權求和單元,用於對時延補償後的所述多路原始音頻信號進行加權求和,生成針對聲源方向的連續語音信號。   在本申請實施例中,所述第二信號生成模組1103可以包括:   指向性標誌信號確定子模組,用於確定每一訊框連續語音信號對應的指向性標誌信號;   語音信號判斷子模組,用於逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號;   語音信號設置子模組,用於根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號;   語音啟動檢測信號確定子模組,用於將每一訊框連續語音信號中被設置為語音信號的信號,確定為語音啟動檢測信號。   在本申請實施例中,所述的裝置還可以包括:   非語音片段時長確定模組,用於語音信號設置子模組根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號之後,確定非語音片段的時長,所述非語音片段為由連續的設置為非語音信號的各訊框連續語音信號所構成的片段;   語音信號設置模組,用於將時長小於第一預設閾值的非語音片段中的每一訊框連續語音信號,設置為語音信號。   在本申請實施例的一種示例中,所述指向性標誌信號表示了每一訊框的時間是具有語音信號或具有非語音信號;所述語音信號設置子模組可以包括:   第一語音信號設置單元,用於若對當前訊框的連續語音信號的判斷結果為語音信號,並且,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。   在本申請實施例的另一種示例中,所述指向性標誌信號表示了每一訊框的時間是具有語音信號或具有非語音信號;所述語音信號設置子模組可以包括:   第二語音信號設置單元,用於若對當前訊框的連續語音信號的判斷結果為語音信號,或,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。   在本申請實施例中,所述語音信號判斷子模組可以包括:   語音信號判斷單元,用於將所述連續語音信號輸入預置的神經網路模型,逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號。   在本申請實施例中,所述的裝置還可以包括:   非語音指示片段時長確定模組,用於在所述指向性標誌信號確定子模組確定每一訊框連續語音信號對應的指向性標誌信號之前,確定非語音指示片段的時長,所述非語音指示片段為由連續的表示當前訊框的時間具有非語音信號的指向性標誌信號構成;   指向性標誌信號設置模組,用於將時長小於第二預設閾值的非語音指示片段中的每一訊框的指向性標誌信號,設置為表示當前訊框的時間具有語音信號。   參照圖13,示出了本申請的一種語音信號識別裝置實施例3的結構框圖,具體可以包括如下模組:   空間音頻信號接收模組1201,用於接收車載終端發送的車內的空間音頻信號;   第一信號生成模組1202,用於根據所述空間音頻信號,從所述空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   第二信號生成模組1203,用於針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號;   語音啟動檢測信號發送模組1204,用於將所述該相應聲源方向的語音啟動檢測信號發送至所述車載終端。   在本申請實施例中,所述空間音頻信號包括:多個麥克風採集的多路原始音頻信號;所述第一信號生成模組1202可以包括:   信號到達方向估計子模組,用於根據所述多路原始音頻信號,估計信號到達方向;   指向性標誌信號生成子模組,用於根據所述信號到達方向以及預設聲源方向,生成針對預設聲源方向的指向性標誌信號;   連續語音信號生成子模組,用於對所述多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號。   在本申請實施例中,所述連續語音信號生成子模組可以包括:   時延差確定單元,用於確定所述多路原始音頻信號中兩兩信號之間的時延差;   時延補償單元,用於根據所述兩兩信號之間的時延差,對所述多路原始音頻信號進行時延補償;   加權求和單元,用於對時延補償後的所述多路原始音頻信號進行加權求和,生成針對聲源方向的連續語音信號。   在本申請實施例中,所述第二信號生成模組1203包括:   指向性標誌信號確定子模組,用於確定每一訊框連續語音信號對應的指向性標誌信號;   語音信號判斷子模組,用於逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號;   語音信號設置子模組,用於根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號;   語音啟動檢測信號確定子模組,用於將每一訊框連續語音信號中被設置為語音信號的信號,確定為語音啟動檢測信號。   在本申請實施例中,所述裝置還可以包括:   非語音片段時長確定模組,用於語音信號設置子模組根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號之後,確定非語音片段的時長,所述非語音片段為由連續的設置為非語音信號的各訊框連續語音信號所構成的片段;   語音信號設置模組,用於將時長小於第一預設閾值的非語音片段中的每一訊框連續語音信號,設置為語音信號。   在本申請實施例的一種示例中,所述指向性標誌信號表示了每一訊框的時間是具有語音信號或具有非語音信號;所述語音信號設置子模組可以包括:   第一語音信號設置單元,用於若對當前訊框的連續語音信號的判斷結果為語音信號,並且,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。   在本申請實施例的另一種示例中,所述指向性標誌信號表示了每一訊框的時間是具有語音信號或具有非語音信號;所述語音信號設置子模組可以包括:   第二語音信號設置單元,用於若對當前訊框的連續語音信號的判斷結果為語音信號,或,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。   在本申請實施例中,所述語音信號判斷子模組可以包括:   語音信號判斷單元,用於將所述連續語音信號輸入預置的神經網路模型,逐訊框判斷所述連續語音信號的每一訊框為語音信號或非語音信號。   在本申請實施例中,所述的裝置還可以包括:   非語音指示片段時長確定模組,用於在所述指向性標誌信號確定子模組確定每一訊框連續語音信號對應的指向性標誌信號之前,確定非語音指示片段的時長,所述非語音指示片段為由連續的表示當前訊框的時間具有非語音信號的指向性標誌信號構成;   指向性標誌信號設置模組,用於將時長小於第二預設閾值的非語音指示片段中的每一訊框的指向性標誌信號,設置為表示當前訊框的時間具有語音信號。   對於裝置實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。   本申請實施例還提供了一種裝置,包括:   一個或多個處理器;和   其上儲存有指令的一個或多個機器可讀媒體,當由所述一個或多個處理器執行時,使得所述裝置執行本申請實施例所述的方法。   本申請實施例還提供了一個或多個機器可讀媒體,其上儲存有指令,當由一個或多個處理器執行時,使得裝置執行本申請實施例所述的方法。   本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。   本領域內的技術人員應明白,本申請實施例的實施例可提供為方法、裝置、或計算機程式產品。因此,本申請實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本申請實施例可採用在一個或多個其中包含有計算機可用程式代碼的計算機可用儲存媒體(包括但不限於磁碟儲存器、CD-ROM、光學儲存器等)上實施的計算機程式產品的形式。   本申請實施例是參照根據本申請實施例的方法、終端設備(系統)、和計算機程式產品的流程圖及/或方塊圖來描述的。應理解可由計算機程式指令實現流程圖及/或方塊圖中的每一流程及/或方塊、以及流程圖及/或方塊圖中的流程及/或方塊的結合。可提供這些計算機程式指令到通用計算機、專用計算機、嵌入式處理機或其他可編程資料處理終端設備的處理器以產生一個機器,使得透過計算機或其他可編程資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能的裝置。   這些計算機程式指令也可儲存在能引導計算機或其他可編程資料處理終端設備以特定方式工作的計算機可讀儲存器中,使得儲存在該計算機可讀儲存器中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能。   這些計算機程式指令也可裝載到計算機或其他可編程資料處理終端設備上,使得在計算機或其他可編程終端設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能的步驟。   儘管已描述了本申請實施例的優選實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例做出另外的變更和修改。所以,所附申請專利範圍意欲解釋為包括優選實施例以及落入本申請實施例範圍的所有變更和修改。   最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。   以上對本申請所提供的一種語音信號識別方法和一種語音信號識別裝置,進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請的方法及其核心思想;同時,對於本領域的一般技術人員,依據本申請的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。
701‧‧‧第一麥克風
702‧‧‧第二麥克風
703‧‧‧第三麥克風
704‧‧‧第四麥克風
705‧‧‧第五麥克風
706‧‧‧第六麥克風
711‧‧‧第一喇叭
712‧‧‧第二喇叭
713‧‧‧第三喇叭
714‧‧‧第四喇叭
715‧‧‧第五喇叭
716‧‧‧第六喇叭
721‧‧‧第一乘客
722‧‧‧第二乘客
723‧‧‧第三乘客
724‧‧‧第四乘客
725‧‧‧第五乘客
726‧‧‧第六乘客
730‧‧‧網路
740‧‧‧伺服器
1001‧‧‧空間音頻信號獲取模組
1002‧‧‧第一信號生成模組
1003‧‧‧第二信號生成模組
1101‧‧‧空間音頻信號獲取模組
1102‧‧‧第一信號生成模組
1103‧‧‧第二信號生成模組
1201‧‧‧空間音頻信號接收模組
1202‧‧‧第一信號生成模組
1203‧‧‧第二信號生成模組
1204‧‧‧語音啟動檢測信號發送模組
圖1是本申請的一種語音信號識別方法實施例1的步驟流程圖;   圖2是本申請的一種語音信號識別方法實施例2的步驟流程圖;   圖3是本申請實施例中的一種針對聲源方向生成連續語音信號以及相應的指向性標誌信號的示意圖;   圖4是本申請的一種語音信號識別方法實施例3的步驟流程圖;   圖5是本申請實施例中神經網路模型的示意圖;   圖6是實施例中識別主駕駛位和副駕駛位的語音的示意圖;   圖7是本申請的一種語音信號識別方法實施例4的步驟流程圖;   圖8是本申請的一種語音信號識別方法實施例5的步驟流程圖;   圖9是本申請實施例中透過雲伺服器識別車內語音的示意圖;   圖10是本申請的一種語音信號識別方法實施例6的步驟流程圖;   圖11是本申請的一種語音信號識別裝置實施例1的結構框圖;   圖12是本申請的一種語音信號識別裝置實施例2的結構框圖;   圖13是本申請的一種語音信號識別裝置實施例3的結構框圖。

Claims (28)

  1. 一種語音信號識別方法,其特徵在於,包括:   獲取指定空間內的空間音頻信號;   根據該空間音頻信號,從該空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號。
  2. 根據申請專利範圍第1項所述的方法,其中,該空間音頻信號包括:多個麥克風採集的多路原始音頻信號;所述根據該空間音頻信號,從該空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號的步驟包括:   根據該多路原始音頻信號,估計信號到達方向;   根據該信號到達方向以及預設聲源方向,生成針對預設聲源方向的指向性標誌信號;   對該多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號。
  3. 根據申請專利範圍第2項所述的方法,其中,所述對該多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號的步驟包括:   確定該多路原始音頻信號中兩兩信號之間的時延差;   根據該兩兩信號之間的時延差,對該多路原始音頻信號進行時延補償;   對時延補償後的該多路原始音頻信號進行加權求和,生成針對聲源方向的連續語音信號。
  4. 根據申請專利範圍第1項所述的方法,其中,該針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號以及相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號的步驟包括:   確定每一訊框連續語音信號對應的指向性標誌信號;   逐訊框判斷該連續語音信號的每一訊框為語音信號或非語音信號;   根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號;   將每一訊框連續語音信號中被設置為語音信號的信號,確定為語音啟動檢測信號。
  5. 根據申請專利範圍第4項所述的方法,其中,在根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號之後,還包括:   確定非語音片段的時長,該非語音片段為由連續的設置為非語音信號的各訊框連續語音信號所構成的片段;   將時長小於第一預設閾值的非語音片段中的每一訊框連續語音信號,設置為語音信號。
  6. 根據申請專利範圍第4項所述的方法,其中,該指向性標誌信號表示了每一訊框的時間是具有語音信號或具有非語音信號;該根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號的步驟包括:   若對當前訊框的連續語音信號的判斷結果為語音信號,並且,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。
  7. 根據申請專利範圍第4項所述的方法,其中,該指向性標誌信號表示了每一訊框的時間是具有語音信號或具有非語音信號;該根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號的步驟包括:   若對當前訊框的連續語音信號的判斷結果為語音信號,或,相應的指向性標誌信號為表示當前訊框的時間具有語音信號,則設置當前訊框的連續語音信號為語音信號。
  8. 根據申請專利範圍第4項所述的方法,其中,所述逐訊框判斷該連續語音信號的每一訊框為語音信號或非語音信號的步驟包括:   將該連續語音信號輸入預置的神經網路模型,逐訊框判斷該連續語音信號的每一訊框為語音信號或非語音信號。
  9. 根據申請專利範圍第4項所述的方法,其中,在確定每一訊框連續語音信號對應的指向性標誌信號之前,還包括:   確定非語音指示片段的時長,該非語音指示片段為由連續的表示當前訊框的時間具有非語音信號的指向性標誌信號構成;   將時長小於第二預設閾值的非語音指示片段中的每一訊框的指向性標誌信號,設置為表示當前訊框的時間具有語音信號。
  10. 一種語音信號識別方法,其特徵在於,包括:   獲取車內的空間音頻信號;   根據該空間音頻信號,從該空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號。
  11. 根據申請專利範圍第10項所述的方法,其中,該空間音頻信號包括:多個麥克風採集的多路原始音頻信號;所述根據該空間音頻信號,從該空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號的步驟包括:   根據該多路原始音頻信號,估計信號到達方向;   根據該信號到達方向以及預設聲源方向,生成針對預設聲源方向的指向性標誌信號;   對該多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號。
  12. 根據申請專利範圍第11項所述的方法,其中,所述對該多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號的步驟包括:   確定該多路原始音頻信號中兩兩信號之間的時延差;   根據該兩兩信號之間的時延差,對該多路原始音頻信號進行時延補償;   對時延補償後的該多路原始音頻信號進行加權求和,生成針對聲源方向的連續語音信號。
  13. 根據申請專利範圍第10項所述的方法,其中,所述針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號的步驟包括:   確定每一訊框連續語音信號對應的指向性標誌信號;   逐訊框判斷該連續語音信號的每一訊框為語音信號或非語音信號;   根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號;   將每一訊框連續語音信號中被設置為語音信號的信號,確定為語音啟動檢測信號。
  14. 根據申請專利範圍第13項所述的方法,其中,在根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號之後,還包括:確定非語音片段的時長,該非語音片段為由連續的設置為非語音信號的各訊框連續語音信號所構成的片段;   將時長小於第一預設閾值的非語音片段中的每一訊框連續語音信號,設置為語音信號。
  15. 根據申請專利範圍第13項所述的方法,其中,所述逐訊框判斷該連續語音信號的每一訊框為語音信號或非語音信號的步驟包括:   將該連續語音信號輸入預置的神經網路模型,逐訊框判斷該連續語音信號的每一訊框為語音信號或非語音信號。
  16. 根據申請專利範圍第13項所述的方法,其中,在確定每一訊框連續語音信號對應的指向性標誌信號之前,還包括:   確定非語音指示片段的時長,該非語音指示片段為由連續的表示當前訊框的時間具有非語音信號的指向性標誌信號構成;   將時長小於第二預設閾值的非語音指示片段中的每一訊框的指向性標誌信號,設置為表示當前訊框的時間具有語音信號。
  17. 一種語音信號識別方法,其特徵在於,包括:   接收車載終端發送的車內的空間音頻信號;   根據該空間音頻信號,從該空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號;   將該針對該聲源方向的語音啟動檢測信號發送至該車載終端。
  18. 根據申請專利範圍第17項所述的方法,其中,該空間音頻信號包括:多個麥克風採集的多路原始音頻信號;所述根據該空間音頻信號,從該空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號的步驟包括:   根據該多路原始音頻信號,估計信號到達方向;   根據該信號到達方向以及預設聲源方向,生成針對預設聲源方向的指向性標誌信號;   對該多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號。
  19. 根據申請專利範圍第18項所述的方法,其中,所述對該多路原始音頻信號進行波束形成處理,生成針對聲源方向的連續語音信號的步驟包括:   確定該多路原始音頻信號中兩兩信號之間的時延差;   根據該兩兩信號之間的時延差,對該多路原始音頻信號進行時延補償;   對時延補償後的該多路原始音頻信號進行加權求和,生成針對聲源方向的連續語音信號。
  20. 根據申請專利範圍第17項所述的方法,其中,所述針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號的步驟包括:   確定每一訊框連續語音信號對應的指向性標誌信號;   逐訊框判斷該連續語音信號的每一訊框為語音信號或非語音信號;   根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號;   將每一訊框連續語音信號中被設置為語音信號的信號,確定為語音啟動檢測信號。
  21. 根據申請專利範圍第20項所述的方法,其中,在根據對每一訊框連續語音信號的判斷結果,以及對應的指向性標誌信號,設置每一訊框連續語音信號為語音信號或非語音信號之後,還包括:   確定非語音片段的時長,該非語音片段為由連續的設置為非語音信號的各訊框連續語音信號所構成的片段;   將時長小於第一預設閾值的非語音片段中的每一訊框連續語音信號,設置為語音信號。
  22. 根據申請專利範圍第20項所述的方法,其中,所述逐訊框判斷該連續語音信號的每一訊框為語音信號或非語音信號的步驟包括:   將該連續語音信號輸入預置的神經網路模型,逐訊框判斷該連續語音信號的每一訊框為語音信號或非語音信號。
  23. 根據申請專利範圍第20項所述的方法,其中,在確定每一訊框連續語音信號對應的指向性標誌信號之前,還包括:   確定非語音指示片段的時長,該非語音指示片段為由連續的表示當前訊框的時間具有非語音信號的指向性標誌信號構成;   將時長小於第二預設閾值的非語音指示片段中的每一訊框的指向性標誌信號,設置為表示當前訊框的時間具有語音信號。
  24. 一種語音信號識別裝置,其特徵在於,包括:   空間音頻信號獲取模組,用於獲取指定空間內的空間音頻信號;   第一信號生成模組,用於根據該空間音頻信號,從該空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   第二信號生成模組,用於針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號以及相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號。
  25. 一種語音信號識別裝置,其特徵在於,包括:   空間音頻信號獲取模組,用於獲取車內的空間音頻信號;   第一信號生成模組,用於根據該空間音頻信號,從該空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   第二信號生成模組,用於針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號。
  26. 一種語音信號識別裝置,其特徵在於,包括:   空間音頻信號接收模組,用於接收車載終端發送的車內的空間音頻信號;   第一信號生成模組,用於根據該空間音頻信號,從該空間音頻信號中分離出針對多個聲源方向的連續語音信號以及相應的指向性標誌信號;   第二信號生成模組,用於針對多個聲源方向中的一個聲源方向,將針對該聲源方向的連續語音信號與相應的指向性標誌信號進行組合,生成針對該聲源方向的語音啟動檢測信號;   語音啟動檢測信號發送模組,用於將該該相應聲源方向的語音啟動檢測信號發送至該車載終端。
  27. 一種裝置,其特徵在於,包括:   一個或多個處理器;和   其上儲存有指令的一個或多個機器可讀媒體,當由該一個或多個處理器執行時,使得該裝置執行如申請專利範圍第1-9或10-16或17-23項所述的一個或多個的方法。
  28. 一個或多個機器可讀媒體,其上儲存有指令,當由一個或多個處理器執行時,使得裝置執行申請專利範圍第1-9或10-16或17-23項所述的一個或多個的方法。
TW107134280A 2017-11-30 2018-09-28 語音信號識別方法和裝置 TW201926316A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201711241113.0A CN109859749A (zh) 2017-11-30 2017-11-30 一种语音信号识别方法和装置
??201711241113.0 2017-11-30

Publications (1)

Publication Number Publication Date
TW201926316A true TW201926316A (zh) 2019-07-01

Family

ID=66632575

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107134280A TW201926316A (zh) 2017-11-30 2018-09-28 語音信號識別方法和裝置

Country Status (4)

Country Link
US (1) US11869481B2 (zh)
CN (1) CN109859749A (zh)
TW (1) TW201926316A (zh)
WO (1) WO2019108849A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110335593A (zh) * 2019-06-17 2019-10-15 平安科技(深圳)有限公司 语音端点检测方法、装置、设备及存储介质
US10903870B1 (en) 2019-07-15 2021-01-26 Cypress Semiconductor Corporation Angle of propagation estimation in a multipath communication system
IT201900015506A1 (it) 2019-09-03 2021-03-03 St Microelectronics Srl Procedimento di elaborazione di un segnale elettrico trasdotto da un segnale vocale, dispositivo elettronico, rete connessa di dispositivi elettronici e prodotto informatico corrispondenti
CN112634934A (zh) * 2020-12-21 2021-04-09 北京声智科技有限公司 语音检测方法及装置
US11606659B2 (en) * 2021-03-29 2023-03-14 Zoox, Inc. Adaptive cross-correlation
CN113900617B (zh) * 2021-08-03 2023-12-01 钰太芯微电子科技(上海)有限公司 具有声线接口的麦克风阵列系统及电子设备
CN113707149A (zh) * 2021-08-30 2021-11-26 维沃移动通信有限公司 音频处理方法和装置

Family Cites Families (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6471420B1 (en) 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
US5867574A (en) 1997-05-19 1999-02-02 Lucent Technologies Inc. Voice activity detection system and method
FI114422B (fi) 1997-09-04 2004-10-15 Nokia Corp Lähteen puheaktiviteetin tunnistus
US6449593B1 (en) 2000-01-13 2002-09-10 Nokia Mobile Phones Ltd. Method and system for tracking human speakers
JP2002091469A (ja) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識装置
US7783061B2 (en) 2003-08-27 2010-08-24 Sony Computer Entertainment Inc. Methods and apparatus for the targeted sound detection
US8073157B2 (en) 2003-08-27 2011-12-06 Sony Computer Entertainment Inc. Methods and apparatus for targeted sound detection and characterization
ATE339757T1 (de) 2003-06-17 2006-10-15 Sony Ericsson Mobile Comm Ab Verfahren und vorrichtung zur sprachaktivitätsdetektion
JP4085924B2 (ja) * 2003-08-04 2008-05-14 ソニー株式会社 音声処理装置
CN1617606A (zh) * 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
JP3972921B2 (ja) * 2004-05-11 2007-09-05 ソニー株式会社 音声集音装置とエコーキャンセル処理方法
EP1633121B1 (en) * 2004-09-03 2008-11-05 Harman Becker Automotive Systems GmbH Speech signal processing with combined adaptive noise reduction and adaptive echo compensation
JP4407538B2 (ja) * 2005-03-03 2010-02-03 ヤマハ株式会社 マイクロフォンアレー用信号処理装置およびマイクロフォンアレーシステム
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US9250703B2 (en) 2006-03-06 2016-02-02 Sony Computer Entertainment Inc. Interface with gaze detection and voice input
WO2010013371A1 (ja) * 2008-07-28 2010-02-04 日本電気株式会社 対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体
JP2010197727A (ja) * 2009-02-25 2010-09-09 Nec Corp 音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体
KR101041039B1 (ko) 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
JP4852129B2 (ja) * 2009-07-03 2012-01-11 日本電信電話株式会社 音声認識装置とその方法と、プログラム
JP2011066805A (ja) * 2009-09-18 2011-03-31 Oki Electric Industry Co Ltd 収音装置および収音方法
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
WO2011133924A1 (en) * 2010-04-22 2011-10-27 Qualcomm Incorporated Voice activity detection
US20110288860A1 (en) * 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
US8762144B2 (en) * 2010-07-21 2014-06-24 Samsung Electronics Co., Ltd. Method and apparatus for voice activity detection
JP5385876B2 (ja) * 2010-08-30 2014-01-08 日本電信電話株式会社 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
WO2012042768A1 (ja) * 2010-09-28 2012-04-05 パナソニック株式会社 音声処理装置および音声処理方法
US9493130B2 (en) * 2011-04-22 2016-11-15 Angel A. Penilla Methods and systems for communicating content to connected vehicle users based detected tone/mood in voice input
US11270699B2 (en) * 2011-04-22 2022-03-08 Emerging Automotive, Llc Methods and vehicles for capturing emotion of a human driver and customizing vehicle response
US20130022189A1 (en) * 2011-07-21 2013-01-24 Nuance Communications, Inc. Systems and methods for receiving and processing audio signals captured using multiple devices
US20130024196A1 (en) * 2011-07-21 2013-01-24 Nuance Communications, Inc. Systems and methods for using a mobile device to deliver speech with speaker identification
US10649948B2 (en) * 2011-10-05 2020-05-12 Analog Devices, Inc. Two-wire communication systems and applications
US20130282372A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
CN102819009B (zh) * 2012-08-10 2014-10-01 香港生产力促进局 用于汽车的驾驶者声源定位系统及方法
US9946680B2 (en) * 2012-10-05 2018-04-17 Analog Devices, Inc. Peripheral device diagnostics and control over a two-wire communication bus
JP2014145838A (ja) * 2013-01-28 2014-08-14 Honda Motor Co Ltd 音響処理装置及び音響処理方法
US10475440B2 (en) * 2013-02-14 2019-11-12 Sony Corporation Voice segment detection for extraction of sound source
US20140244267A1 (en) * 2013-02-26 2014-08-28 Avaya Inc. Integration of user orientation into a voice command system
US20150046161A1 (en) * 2013-08-07 2015-02-12 Lenovo (Singapore) Pte. Ltd. Device implemented learning validation
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
GB2521175A (en) * 2013-12-11 2015-06-17 Nokia Technologies Oy Spatial audio processing apparatus
US10720153B2 (en) * 2013-12-13 2020-07-21 Harman International Industries, Incorporated Name-sensitive listening device
KR102134816B1 (ko) * 2014-03-14 2020-07-16 삼성전자주식회사 미러링 서비스 제어 방법 및 장치
KR102146462B1 (ko) * 2014-03-31 2020-08-20 삼성전자주식회사 음성 인식 시스템 및 방법
US9800983B2 (en) * 2014-07-24 2017-10-24 Magna Electronics Inc. Vehicle in cabin sound processing system
JP6118838B2 (ja) * 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
US20160100092A1 (en) * 2014-10-01 2016-04-07 Fortemedia, Inc. Object tracking device and tracking method thereof
JP6450139B2 (ja) * 2014-10-10 2019-01-09 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム
JP6210239B2 (ja) * 2015-04-20 2017-10-11 本田技研工業株式会社 会話解析装置、会話解析方法及びプログラム
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
KR102362121B1 (ko) * 2015-07-10 2022-02-11 삼성전자주식회사 전자 장치 및 그 입출력 방법
JP2017028608A (ja) * 2015-07-27 2017-02-02 株式会社リコー ビデオ会議端末機
DK3329692T3 (da) * 2015-07-27 2021-08-30 Sonova Ag Mikrofonaggregat med klemmefastgørelse
KR101910383B1 (ko) * 2015-08-05 2018-10-22 엘지전자 주식회사 차량 운전 보조 장치 및 이를 구비한 차량
US20170150254A1 (en) * 2015-11-19 2017-05-25 Vocalzoom Systems Ltd. System, device, and method of sound isolation and signal enhancement
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
US10872049B2 (en) * 2016-01-29 2020-12-22 Analog Devices, Inc. GPIO-to-GPIO communication on a multi-node daisy-chained network
US10250376B2 (en) * 2016-01-29 2019-04-02 Analog Devices, Inc. Clock sustain in the absence of a reference clock in a communication system
US10397021B2 (en) * 2016-01-29 2019-08-27 Analog Devices, Inc. Synchronous slave-to-slave communications
JP6703420B2 (ja) * 2016-03-09 2020-06-03 本田技研工業株式会社 会話解析装置、会話解析方法およびプログラム
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US9900685B2 (en) * 2016-03-24 2018-02-20 Intel Corporation Creating an audio envelope based on angular information
US10269375B2 (en) * 2016-04-22 2019-04-23 Conduent Business Services, Llc Methods and systems for classifying audio segments of an audio signal
CN107358959B (zh) * 2016-05-10 2021-10-26 华为技术有限公司 多声道信号的编码方法和编码器
US10482899B2 (en) * 2016-08-01 2019-11-19 Apple Inc. Coordination of beamformers for noise estimation and noise suppression
JP6567479B2 (ja) * 2016-08-31 2019-08-28 株式会社東芝 信号処理装置、信号処理方法およびプログラム
WO2018100391A1 (en) * 2016-12-02 2018-06-07 Cirrus Logic International Semiconductor Limited Speaker identification
US20180190282A1 (en) * 2016-12-30 2018-07-05 Qualcomm Incorporated In-vehicle voice command control
US10049686B1 (en) * 2017-02-13 2018-08-14 Bose Corporation Audio systems and method for perturbing signal compensation
KR20180103476A (ko) * 2017-03-10 2018-09-19 현대자동차주식회사 차량 내부의 소음 제어 시스템 및 그 제어 방법
US10229683B2 (en) * 2017-03-10 2019-03-12 Soundhound, Inc. Speech-enabled system with domain disambiguation
JP6472824B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および音声の対応づけ提示装置
CN107123429A (zh) * 2017-03-22 2017-09-01 歌尔科技有限公司 音频信号的自动增益控制方法和装置
JP6543848B2 (ja) * 2017-03-29 2019-07-17 本田技研工業株式会社 音声処理装置、音声処理方法及びプログラム
KR102437833B1 (ko) * 2017-06-13 2022-08-31 현대자동차주식회사 음성 명령 기반 작업 선택 장치, 차량, 음성 명령 기반 작업 선택 방법
CN107134277A (zh) * 2017-06-15 2017-09-05 深圳市潮流网络技术有限公司 一种基于gmm模型的语音激活检测方法
US10157611B1 (en) * 2017-11-29 2018-12-18 Nuance Communications, Inc. System and method for speech enhancement in multisource environments

Also Published As

Publication number Publication date
WO2019108849A1 (en) 2019-06-06
CN109859749A (zh) 2019-06-07
US11869481B2 (en) 2024-01-09
US20190164567A1 (en) 2019-05-30

Similar Documents

Publication Publication Date Title
TW201926316A (zh) 語音信號識別方法和裝置
CN110556103B (zh) 音频信号处理方法、装置、系统、设备和存储介质
EP3707716B1 (en) Multi-channel speech separation
Nguyen et al. Robust source counting and DOA estimation using spatial pseudo-spectrum and convolutional neural network
US10522167B1 (en) Multichannel noise cancellation using deep neural network masking
US10149049B2 (en) Processing speech from distributed microphones
US20210035563A1 (en) Per-epoch data augmentation for training acoustic models
JP2019518985A (ja) 分散したマイクロホンからの音声の処理
US20110096915A1 (en) Audio spatialization for conference calls with multiple and moving talkers
CN111445920B (zh) 一种多声源的语音信号实时分离方法、装置和拾音器
JP5231139B2 (ja) 音源抽出装置
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
CN105165026A (zh) 使用多个瞬时到达方向估计的知情空间滤波的滤波器及方法
CN111429939B (zh) 一种双声源的声音信号分离方法和拾音器
CN110875056B (zh) 语音转录设备、系统、方法、及电子设备
WO2022253003A1 (zh) 语音增强方法及相关设备
JP6606784B2 (ja) 音声処理装置および音声処理方法
CN112363112A (zh) 一种基于线性麦克风阵列的声源定位方法及装置
JP3588576B2 (ja) 収音装置および収音方法
Feng et al. Soft label coding for end-to-end sound source localization with ad-hoc microphone arrays
Pertilä et al. Mobile microphone array speech detection and localization in diverse everyday environments
JP2019537071A (ja) 分散したマイクロホンからの音声の処理
Cruz et al. Digital MEMS beamforming microphone array for small-scale video conferencing
Samborski et al. Speaker localization in conferencing systems employing phase features and wavelet transform
Yang et al. A stacked self-attention network for two-dimensional direction-of-arrival estimation in hands-free speech communication