TWI760671B - 一種音視訊訊息處理方法及裝置、電子設備和電腦可讀儲存介質 - Google Patents

一種音視訊訊息處理方法及裝置、電子設備和電腦可讀儲存介質 Download PDF

Info

Publication number
TWI760671B
TWI760671B TW108147625A TW108147625A TWI760671B TW I760671 B TWI760671 B TW I760671B TW 108147625 A TW108147625 A TW 108147625A TW 108147625 A TW108147625 A TW 108147625A TW I760671 B TWI760671 B TW I760671B
Authority
TW
Taiwan
Prior art keywords
feature
audio
video
message
information
Prior art date
Application number
TW108147625A
Other languages
English (en)
Other versions
TW202114404A (zh
Inventor
黃學峰
吳立威
張瑞
Original Assignee
大陸商深圳市商湯科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商深圳市商湯科技有限公司 filed Critical 大陸商深圳市商湯科技有限公司
Publication of TW202114404A publication Critical patent/TW202114404A/zh
Application granted granted Critical
Publication of TWI760671B publication Critical patent/TWI760671B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明涉及一種音視訊訊息處理方法及裝置、電子設備和電腦可讀儲存介質,其中,所述方法包括:獲取音視訊文件的音訊訊息和視訊訊息;基於所述音訊訊息的時間訊息和所述視訊訊息的時間訊息,對所述音訊訊息的頻譜特徵和所述視訊訊息的視訊特徵進行特徵融合,得到融合特徵;基於所述融合特徵判斷所述音訊訊息與所述視訊訊息是否同步。

Description

一種音視訊訊息處理方法及裝置、電子設備和電腦可讀儲存介質
本發明涉及電子技術領域,尤其涉及一種音視訊訊息處理方法及裝置、電子設備和電腦可讀儲存介質。
對於諸多音視訊文件而言,音視訊文件可以由音訊訊息和視訊訊息組合而成的。在一些活體檢驗場景中,可以通過用戶按照指示錄製的音視訊文件驗證用戶的身份,例如,利用用戶朗讀一段指定數組序列的音視訊文件進行驗證。而一種常見的攻擊手段是通過偽造音視訊文件進行攻擊。
因此,本發明之目的,即在提供一種音視訊訊息處理技術方案。
於是,本發明在一些實施態樣中,根據本發明的一方面,提供了一種音視訊訊息處理方法,包括:獲取音視訊文件的音訊訊息和視訊訊息;基於所述音訊訊息的時間訊息和所述視訊訊息的時間訊息,對所述音訊訊息的頻譜特徵和所述視訊訊息的視訊特徵進行特徵融合,得到融合特徵;基於所述融合特徵判斷所述音訊 訊息與所述視訊訊息是否同步。
在一種可能的實現方式中,所述方法還包括:將所述音訊訊息按照預設的時間步長進行切分,得到至少一個音訊片段;確定每個音訊片段的頻率分布;將所述至少一個音訊片段的頻率分布進行拼接,得到所述音訊訊息對應的頻譜圖;對所述頻譜圖進行特徵提取,得到所述音訊訊息的頻譜特徵。
在一種可能的實現方式中,將所述音訊訊息按照預設的時間步長進行切分,得到至少一個音訊片段,包括:將所述音訊訊息按照預設的第一時間步長進行切分,得到至少一個初始片段;對每個初始片段進行加窗處理,得到每個加窗後的初始片段;對每個加窗後的初始片段進行傅立葉變換,得到所述至少一個音訊片段中的每個音訊片段。
在一種可能的實現方式中,所述方法還包括:對所述視訊訊息中的每個視訊幀進行人臉識別,確定每個所述視訊幀的人臉圖像;獲取所述人臉圖像中目標關鍵點所在的圖像區域,得到所述目標關鍵點的目標圖像;對所述目標圖像進行特徵提取,得到所述視訊訊息的視訊特徵。
在一種可能的實現方式中,所述獲取所述人臉圖像中目標關鍵點所在的圖像區域,得到所述目標關鍵點的目標圖像,包括: 將所述人臉圖像中目標關鍵點所在的圖像區域放縮為預設圖像尺寸,得到所述目標關鍵點的目標圖像。
在一種可能的實現方式中,所述目標關鍵點為唇部關鍵點,所述目標圖像為唇部圖像。
在一種可能的實現方式中,所述基於所述音訊訊息的時間訊息和所述視訊訊息的時間訊息,對所述音訊訊息的頻譜特徵和所述視訊訊息的視訊特徵進行特徵融合,得到融合特徵,包括:對所述頻譜特徵進行切分,得到至少一個第一特徵;對所述音訊特徵進行切分,得到至少一個第二特徵,其中,每個第一特徵的時間訊息匹配於每個第二特徵的時間訊息;對時間訊息匹配的第一特徵和第二特徵進行特徵融合,得到多個融合特徵。
在一種可能的實現方式中,所述對所述頻譜特徵進行切分,得到至少一個第一特徵,包括:根據預設的第二時間步長對所述頻譜特徵進行切分,得到至少一個第一特徵;或者,根據所述目標圖像幀的幀數對所述頻譜特徵進行切分,得到至少一個第一特徵。
在一種可能的實現方式中,所述對所述音訊特徵進行切分,得到至少一個第二特徵,包括:根據預設的第二時間步長對所述音訊特徵進行切分,得到至少一個第二特徵;或者,根據所述目標圖像幀的幀數對所述 音訊特徵進行切分,得到至少一個第二特徵。
在一種可能的實現方式中,所述基於所述音訊訊息的時間訊息和所述視訊訊息的時間訊息,對所述音訊訊息的頻譜特徵和所述視訊訊息的視訊特徵進行特徵融合,得到融合特徵,包括:根據所述目標圖像幀的幀數,對所述音訊訊息對應的頻譜圖進行切分,得到至少一個頻譜圖片段;其中,每個頻譜圖片段的時間訊息匹配於每個所述目標圖像幀的時間訊息;對每個頻譜圖片段進行特徵提取,得到每個第一特徵;對每個所述目標圖像幀進行特徵提取,得到每個第二特徵;對時間訊息匹配的第一特徵和第二特徵進行特徵融合,得到多個融合特徵。
在一種可能的實現方式中,所述基於所述融合特徵判斷所述音訊訊息與所述視訊訊息是否同步,包括:按照每個融合特徵的時間訊息的先後順序,利用不同的時序節點對每個融合特徵進行特徵提取;其中,下一個時序節點將上一個時序節點的處理結果作為輸入;獲取首尾時序節點輸出的處理結果,根據所述處理結果判斷所述音訊訊息與所述視訊訊息是否同步。
在一種可能的實現方式中,所述基於所述融合特徵判斷所述音訊訊息與所述視訊訊息是否同步,包括:在時間維度上對所述融合特徵進行至少一級特徵提 取,得到所述至少一級特徵提取後的處理結果;其中,每級特徵提取包括卷積處理和全連接處理;基於所述至少一級特徵提取後的處理結果判斷所述音訊訊息與所述視訊訊息是否同步。
根據本發明的一方面,提供了一種音視訊訊息處理裝置,包括:獲取模組,用於獲取音視訊文件的音訊訊息和視訊訊息;融合模組,用於基於所述音訊訊息的時間訊息和所述視訊訊息的時間訊息,對所述音訊訊息的頻譜特徵和所述視訊訊息的視訊特徵進行特徵融合,得到融合特徵;判斷模組,用於基於所述融合特徵判斷所述音訊訊息與所述視訊訊息是否同步。
在一種可能的實現方式中,所述裝置還包括:第一確定模組,用於將所述音訊訊息按照預設的時間步長進行切分,得到至少一個音訊片段;確定每個音訊片段的頻率分布;將所述至少一個音訊片段的頻率分布進行拼接,得到所述音訊訊息對應的頻譜圖;對所述頻譜圖進行特徵提取,得到所述音訊訊息的頻譜特徵。
在一種可能的實現方式中,所述第一確定模組,具體用於將所述音訊訊息按照預設的第一時間步長進行切分,得到至少 一個初始片段;對每個初始片段進行加窗處理,得到每個加窗後的初始片段;對每個加窗後的初始片段進行傅立葉變換,得到所述至少一個音訊片段中的每個音訊片段。
在一種可能的實現方式中,所述裝置還包括:第二確定模組,用於對所述視訊訊息中的每個視訊幀進行人臉識別,確定每個所述視訊幀的人臉圖像;獲取所述人臉圖像中目標關鍵點所在的圖像區域,得到所述目標關鍵點的目標圖像;對所述目標圖像進行特徵提取,得到所述視訊訊息的視訊特徵。
在一種可能的實現方式中,所述第二確定模組,具體用於將所述人臉圖像中目標關鍵點所在的圖像區域放縮為預設圖像尺寸,得到所述目標關鍵點的目標圖像。
在一種可能的實現方式中,所述目標關鍵點為唇部關鍵點,所述目標圖像為唇部圖像。
在一種可能的實現方式中,所述融合模組,具體用於對所述頻譜特徵進行切分,得到至少一個第一特徵;對所述音訊特徵進行切分,得到至少一個第二特徵,其中,每個第一特徵的時間訊息匹配於每個第二特徵的時間訊息;對時間訊息匹配的第一特徵和第二特徵進行特徵融合,得到多個融合特徵。
在一種可能的實現方式中,所述融合模組,具體用於根據預設的第二時間步長對所述頻譜特徵進行切分,得到至少一個 第一特徵;或者,根據所述目標圖像幀的幀數對所述頻譜特徵進行切分,得到至少一個第一特徵。
在一種可能的實現方式中,所述融合模組,具體用於根據預設的第二時間步長對所述音訊特徵進行切分,得到至少一個第二特徵;或者,根據所述目標圖像幀的幀數對所述音訊特徵進行切分,得到至少一個第二特徵。
在一種可能的實現方式中,所述融合模組,具體用於根據所述目標圖像幀的幀數,對所述音訊訊息對應的頻譜圖進行切分,得到至少一個頻譜圖片段;其中,每個頻譜圖片段的時間訊息匹配於每個所述目標圖像幀的時間訊息;對每個頻譜圖片段進行特徵提取,得到每個第一特徵;對每個所述目標圖像幀進行特徵提取,得到每個第二特徵;對時間訊息匹配的第一特徵和第二特徵進行特徵融合,得到多個融合特徵。
在一種可能的實現方式中,所述判斷模組,具體用於按照每個融合特徵的時間訊息的先後順序,利用不同的時序節點對每個融合特徵進行特徵提取;其中,下一個時序節點將上一個時序節點的處理結果作為輸入;獲取首尾時序節點輸出的處理結果,根據所述處理結果判斷所述音訊訊息與所述視訊訊息是否同步。
在一種可能的實現方式中,所述判斷模組,具體用於在時間維度上對所述融合特徵進行至少一級特徵提取,得到所述至 少一級特徵提取後的處理結果;其中,每級特徵提取包括卷積處理和全連接處理;基於所述至少一級特徵提取後的處理結果判斷所述音訊訊息與所述視訊訊息是否同步。
根據本發明的一方面,提供了一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為:執行上述音視訊訊息處理方法。
根據本發明的一方面,提供了一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述音視訊訊息處理方法。
根據本發明的一方面,提供了一種電腦程式,其中,所述電腦程式包括電腦可讀代碼,當所述電腦可讀代碼在電子設備中運行時,所述電子設備中的處理器執行用於實現上述音視訊訊息處理方法。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,而非限制本發明。
根據下面參考附圖對示例性實施例的詳細說明,本發明的其它特徵及方面將變得清楚。
41:獲取模組
42:融合模組
43:判斷模組
1900:電子設備
1922:處理組件
1926:電源組件
1932:記憶體
1950:網路介面
1958:輸入輸出介面
S11~S13:步驟
S21~S24:步驟
S31~S33:步驟
S121~S123:步驟
此處的附圖被並入說明書中並構成本說明書的一部分,這些附圖示出了符合本發明的實施例,並與本說明書一起用於說明本發明的技術方案。
圖1示出根據本發明實施例的音視訊訊息處理方法的流程圖;圖2示出根據本發明實施例的得到音訊訊息的頻譜特徵過程的流程圖;圖3示出根據本發明實施例的得到視訊訊息的視訊特徵過程的流程圖;圖4示出根據本發明實施例的得到融合特徵過程的流程圖;圖5示出根據本發明實施例的神經網路一示例的方塊圖;圖6示出根據本發明實施例的神經網路一示例的方塊圖;圖7示出根據本發明實施例的神經網路一示例的方塊圖;圖8示出根據本發明實施例的音視訊訊息處理裝置的方塊圖;及 圖9示出根據本發明實施例的一種電子設備示例的方塊圖。
以下將參考附圖詳細說明本發明的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製附圖。
在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。
本文中術語“和/或”,僅僅是一種描述關聯對象的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情况。另外,本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
另外,為了更好地說明本發明,在下文的具體實施方式中給出了衆多的具體細節。本領域技術入員應當理解,沒有某些具體細節,本發明同樣可以實施。在一些實例中,對於本領域技術 人員熟知的方法、手段、元件和電路未作詳細描述,以便於凸顯本發明的主旨。
本發明實施例提供的音視訊訊息處理方案,可以獲取音視訊文件的音訊訊息和視訊訊息,然後基於音訊訊息的時間訊息和視訊訊息的時間訊息,對音訊訊息的頻譜特徵和視訊訊息的視訊特徵進行特徵融合,得到融合特徵,從而使得頻譜特徵和視訊特徵在進行融合時可以保證在時間上對齊,得到準確地融合特徵。再基於融合特徵判斷音訊訊息與視訊訊息是否同步,可以提高判斷結果的準確性。
在一種相關方案中,可以在音視訊文件生成過程中,分別對音訊訊息和視訊訊息設置時間標記,從而接收端可以通過時間標記判斷音訊訊息和視訊訊息是否同步。這種方案需要對音視訊文件的生成端具有控制權,但是很多情况下不能保證對於音視訊文件的生成端的控制權,使得該種方案在應用過程中受到制約。在另一種相關方案中,可以分別對音訊訊息和視訊訊息進行檢測,然後計算視訊訊息的時間訊息與音訊訊息的時間訊息的匹配程度。這種方案判斷過程比較繁瑣,並且精度較低。本發明實施例提供的音視訊訊息處理方案,判斷過程相對簡單,判斷結果較為準確。
本發明實施例提供的音視訊訊息處理方案,可以應用於任何判斷音視訊訊息中音訊訊息和視訊訊息是否同步的場景,例 如,對音視訊文件進行校正,再例如,確定一段音視訊文件的音訊訊息與視訊訊息的偏移。一些實現方式中,還可以應用於利用音視訊訊息判斷活體的任務中。需要說明的是,本發明實施例提供的音視訊訊息處理方案並不受到應用場景的制約。
下面對本發明實施例提供的音視訊訊息處理方案進行說明。
圖1示出根據本發明實施例的音視訊訊息處理方法的流程圖。該音視訊訊息處理方法可以由終端設備或其它類型的電子設備執行,其中,終端設備可以為用戶設備(User Equipment,UE)、移動設備、用戶終端、終端、行動電話、無線電話、個人數位助理(Personal Digital Assistant,PDA)、手持設備、計算設備、車載設備、可穿戴設備等。在一些可能的實現方式中,該音視訊訊息處理方法可以通過處理器呼叫記憶體中儲存的電腦可讀指令的方式來實現。下面以電子設備作為執行主體為例對本發明實施例的音視訊訊息處理方法進行說明。
如圖1所示,所示音視訊訊息處理方法可以包括以下步驟:
步驟S11,獲取音視訊文件的音訊訊息和視訊訊息。
在本發明實施例中,電子設備可以接收其他裝置發送的音視訊文件,或者,可以獲取本地儲存的音視訊文件,然後可以 提取音視訊文件中的音訊訊息和視訊訊息。這裡,音訊文件的音訊訊息可以通過採集到的電平信號的大小進行表示,即,可以是利用隨時間變化的高低電平值表示聲音强度的信號。其中的高電平和低電平是相對於參考電平而言的,舉例來說,在參考電平為0伏特時,高於0伏特的電位可以認為是高電平,低於0伏特的電位可以認為是低電平。如果音訊訊息的電平值是高電平,可以表示聲音强度大於或等於參考聲音强度,如果音訊訊息的電平值是低電平,可以表示聲音强度小於參考聲音强度,參考聲音强度對應於參考電平。在一些實現方式中,音訊訊息還可以是模擬信號,即,可以是聲音强度隨時間連續變化的信號。這裡,視訊訊息可以是視訊幀序列,可以包括多個視訊幀,多個視訊幀可以按照時間訊息的先後進行排列。
需要說明的是,音訊訊息具有對應的時間訊息,相應地,視訊訊息具有對應的時間訊息,由於音訊訊息和視訊訊息來源於同一個音視訊文件,從而判斷音訊訊息與視訊訊息是否同步,可以理解為判斷具有相同時間訊息的音訊訊息與視訊訊息之間是否匹配。
步驟S12,基於所述音訊訊息的時間訊息和所述視訊訊息的時間訊息,對所述音訊訊息的頻譜特徵和所述視訊訊息的視訊特徵進行特徵融合,得到融合特徵。
在本發明實施例中,可以對音訊訊息進行特徵提取, 得到音訊訊息的頻譜特徵,並根據音訊訊息的時間訊息確定頻譜特徵的時間訊息。相應地,可以對視訊訊息進行特徵提取,得到視訊訊息的視訊特徵,並根據視訊訊息的時間訊息確定視訊特徵的時間訊息。然後可以基於頻譜特徵的時間訊息和視訊特徵的時間訊息,將具有相同時間訊息的頻譜特徵和視訊特徵進行特徵融合,得到融合特徵。這裡,由於可以將具有相同時間訊息的頻譜特徵和視訊特徵進行特徵融合,從而可以保證在特徵融合時頻譜特徵和視訊特徵在時間上進行對齊,使得得到的融合特徵具有較高的準確性。
步驟S13,基於所述融合特徵判斷所述音訊訊息與所述視訊訊息是否同步。
在本發明實施例中,可以利用神經網路對融合特徵進行處理,還可以通過其他方式對融合特徵進行處理,在此不做限定。例如,對融合特徵進行卷積處理、全連接處理、歸一化操作等,可以得到判斷音訊訊息與視訊訊息是否同步的判斷結果。這裡,判斷結果可以是表示音訊訊息與視訊訊息同步的概率,判斷結果接近1,則可以表示音訊訊息與視訊訊息同步,判斷結果接近0,則可以表示音訊訊息與視訊訊息不同步。這樣,通過融合特徵,可以得到準確性較高的判斷結果,提高判斷音訊訊息與視訊訊息是否同步的準確性,例如,可以利用本發明實施例提供的音視訊訊息處理方法對音畫不同步的視訊進行判別,運用在視訊網站等場景中可以篩除 一些音畫不同步的低質量視訊。
在本發明實施例中,可以獲取音視訊文件的音訊訊息和視訊訊息,然後基於音訊訊息的時間訊息和視訊訊息的時間訊息,對音訊訊息的頻譜特徵和視訊訊息的視訊特徵進行特徵融合,得到融合特徵,再基於所述融合特徵判斷音訊訊息與視訊訊息是否同步。這樣,在判斷音視訊文件的音訊訊息與視訊訊息是否同步時,可以利用音訊訊息的時間訊息和視訊訊息的時間訊息使頻譜特徵和視訊特徵對齊,可以提高判斷結果的準確性,並且判斷方式簡單易行。
本發明實施例中,音訊訊息可以是電平信號,可以根據音訊訊息的電平值以及時間訊息,確定音訊訊息的頻率分布,並根據音訊訊息的頻率分布確定音訊訊息對應的頻譜圖,由頻譜圖得到音訊訊息的頻譜特徵。
圖2示出根據本發明實施例的得到音訊訊息的頻譜特徵過程的流程圖。
在一種可能的實現方式中,上述音視訊訊息處理方法還可以包括以下步驟:S21,將所述音訊訊息按照預設的第一時間步長進行切分,得到至少一個音訊片段;S22,確定每個音訊片段的頻率分布; S23,將所述至少一個音訊片段的頻率分布進行拼接,得到所述音訊訊息對應的頻譜圖;S24,對所述頻譜圖進行特徵提取,得到所述音訊訊息的頻譜特徵。
在該實現方式中,可以將音訊訊息按照預設的第一時間步長進行切分,得到多個音訊片段,每個音訊片段的對應一個第一時間步長,第一時間步長可以與音訊訊息採樣的時間間隔相同。例如,以0.005秒的時間步長對音訊訊息進行切分,得到n個音訊片段,n為正整數,相應地,也可以將視訊訊息採樣得到n個視訊幀。然後可以確定每個音訊片段的頻率分布,即,確定每個音訊片段的頻率隨時間訊息變化而變換的分布。然後可以按照每個音訊頻段的時間訊息的先後順序,將每個音訊片段的頻率分布進行拼接,得到的音訊訊息對應的頻率分布,將得到的音訊訊息對應的頻率分布用圖像進行表示,可以得到音訊訊息對應的頻譜圖。這裡的頻譜圖可以表徵音訊訊息的頻率隨時間訊息而變化的頻率分布圖,舉例來說,音訊訊息的頻率分布較為密集,頻譜圖對應的圖像位置具有較高的像素值,音訊訊息的頻率分布較為稀疏,頻譜圖對應的圖像位置具有較低的像素值。通過頻譜圖對音訊訊息的頻率分布直觀地進行表示。然後可以利用神經網路對頻譜圖進行特徵提取,得到音訊訊息的頻譜特徵,頻譜特徵可以表示為頻譜特徵圖,該頻譜特徵圖 可以具有兩個維度的訊息,一個維度可以是特徵維度,表示每個時間點對應的頻譜特徵,另一個維度可以是時間維度,表示頻譜特徵對應的時間點。
通過將音訊訊息表示為頻譜圖,可以使音訊訊息與視訊訊息更好地結合,減少了對音訊訊息進行語音識別等複雜的操作過程,從而使判斷音訊訊息與視訊訊息是否同步的過程更加簡單。
在該實現方式的一個示例中,可以先對每個音訊片段進行加窗處理,得到每個加窗後的音訊片段,再對每個加窗後的音訊片段進行傅立葉變換,得到所述至少一個音訊片段中的每個音訊片段的頻率分布。
在該示例中,在確定每個音訊片段的頻率分布時,可以對每個音訊片段進行加窗處理,即,可以利用窗函數作用於每個音訊片段,例如,使用漢明窗對每個音訊片段進行加窗處理,得到加窗後的音訊片段。然後可以對加窗後的音訊片段進行傅立葉變換,得到每個音訊片段的頻率分布。假設多個音訊片段的頻率分布中的最大頻率為m,則由多個音訊片段的頻率分布拼接得到的頻率圖大小可以是m×n。通過對每個音訊片段進行加窗以及傅立葉變換,可以準確地得到每個音訊片段對應的頻率分布。
在本發明實施例中,可以對獲取的視訊訊息進行重採樣得到多個視訊幀,例如,以10幀每秒的採樣率對視訊訊息進行重 採樣,重採樣後得到的每個視訊幀的時間訊息與每個音訊片段的時間訊息相同。然後對得到的視訊幀進行圖像特徵提取,得到每個視訊幀的圖像特徵,然後根據每個視訊幀的圖像特徵,確定每個視訊幀中具有目標圖像特徵的目標關鍵點,並確定目標關鍵點所在的圖像區域,然後對該圖像區域進行截取,可以得到目標關鍵點的目標圖像幀。
圖3示出根據本發明實施例的得到視訊訊息的視訊特徵過程的流程圖。
在一種可能的實現方式中,上述得到視訊訊息的視訊特徵過程可以包括以下步驟:步驟S31,對所述視訊訊息中的每個視訊幀進行人臉識別,確定每個所述視訊幀的人臉圖像;步驟S32,獲取所述人臉圖像中目標關鍵點所在的圖像區域,得到所述目標關鍵點的目標圖像;步驟S33,對所述目標圖像進行特徵提取,得到所述視訊訊息的視訊特徵。
在該可能的實現方式中,可以對視訊訊息的每個視訊幀進行圖像特徵提取,針對任意一個視訊幀,可以根據該視訊幀的圖像特徵對該視訊幀進行人臉識別,確定每個視訊幀包括的人臉圖像。然後針對人臉圖像,在人臉圖像中確定具有目標圖像特徵的目 標關鍵點以及目標關鍵點所在的圖像區域。這裡,可以利用設置的人臉模板確定目標關鍵點所在的圖像區域,例如,可以參照目標關鍵點在人臉模板的位置,比如目標關鍵點在人臉模板的1/2圖像位置處,從而可以認為目標關鍵點也位於人臉圖像的1/2圖像位置處。在確定人臉圖像中目標關鍵點所在的圖像區域之後,可以對目標關鍵點所在的圖像區域進行截取,得到該視訊幀對應的目標圖像。通過這種方式,可以借助人臉圖像得到目標關鍵點的目標圖像,使得到目標關鍵點的目標圖像更加準確。
在一個示例中,可以將所述人臉圖像中目標關鍵點所在的圖像區域放縮為預設圖像尺寸,得到所述目標關鍵點的目標圖像。這裡,不同人臉圖像中目標關鍵點所在的圖像區域大小可能不同,從而可以將目標關鍵點的圖像區域統一放縮為預設圖像尺寸,例如,放縮為視訊幀相同的圖像尺寸,使得到的多個目標圖像的圖像尺寸保持一致,從而由多個目標圖像提取的視訊特徵也具有相同的特徵圖尺寸。
在一個示例中,目標關鍵點可以為唇部關鍵點,目標圖像可以為唇部圖像。唇部關鍵點可以是唇部中心點、嘴角點、唇部上下邊緣點等關鍵點。參照人臉模板,唇部關鍵點可以位於人臉圖像的下1/3圖像區域,從而可以截取人臉圖像的下1/3圖像區域,並將截取的下1/3圖像區域放縮後得到的圖像作為唇部圖像。由於 音訊文件的音訊訊息與唇部動作存在相應地關聯(唇部輔助發音),從而可以在判斷音訊訊息和視訊訊息是否同步時利用唇部圖像,提高判斷結果的準確性。
這裡,頻譜圖可以是一個圖像,每個視訊幀可以對應一個目標圖像幀,目標圖像幀可以形成目標圖像幀序列,其中,頻譜圖和目標圖像幀序列可以作為神經網路的輸入,音訊訊息與視訊訊息是否同步的判斷結果可以是神經網路的輸出。
圖4示出根據本發明實施例的得到融合特徵過程的流程圖。
在一種可能的實現方式中,上述步驟S12可以包括以下步驟:步驟S121,對所述頻譜特徵進行切分,得到至少一個第一特徵;步驟S122,對所述音訊特徵進行切分,得到至少一個第二特徵,其中,每個第一特徵的時間訊息匹配於每個第二特徵的時間訊息;步驟S123,對時間訊息匹配的第一特徵和第二特徵進行特徵融合,得到多個融合特徵。
在該實現方式中,可以利用神經網路對音訊訊息對應的頻譜圖進行卷積處理,得到音訊訊息的頻譜特徵,該頻譜特徵可 以用頻譜特徵圖進行表示。由於音訊訊息具有時間訊息,音訊訊息的頻譜特徵也具有時間訊息,對應的頻譜特徵圖的第一維度可以是時間維度。然後可以對頻譜特徵進行切分,得到多個第一特徵,例如,將頻譜特徵切分為時間步長為1s的多個第一特徵。相應地,可以利用神經網路對多個目標圖像幀進行卷積處理,得到視訊特徵,該視訊特徵可以用一個視訊特徵圖進行表示,該視訊特徵圖的第一維度是時間維度。然後可以對視訊特徵進行切分,得到多個第二特徵,例如,將視訊特徵切分為時間步長為1s的多個第二特徵。這裡,對視訊特徵進行切分的時間步長與對音訊特徵進行切分的時間步長相同,第一特徵的時間訊息與第二特徵的時間訊息一一對應,即,如果存在3個第一特徵和3個第二特徵,則第一個第一特徵的時間訊息與第一個第二特徵的時間訊息相同,第二個第一特徵的時間訊息與第二個第二特徵的時間訊息相同,第三個第一特徵的時間訊息與第二個第二特徵的時間訊息相同。然後可以利用神經網路對時間訊息匹配的第一特徵和第二特徵進行特徵融合,得到多個融合特徵。通過將頻譜特徵和視訊特徵進行切分的方式,可以將具有相同時間訊息的第一特徵和第二特徵進行特徵融合,得到具有不同時間訊息的融合特徵。
在一個示例中,可以根據預設的第二時間步長對所述頻譜特徵進行切分,得到至少一個第一特徵;或者,根據所述目標 圖像幀的幀數對所述頻譜特徵進行切分,得到至少一個第一特徵。在該示例中,可以按照預設的第二時間步長將頻譜特徵切分為多個第一特徵。第二時間步長可以根據實際應用場景進行設置,例如,第二時間步長設置為1s、0.5s等,從而可以實現對頻譜特徵進行任意時間步長的切分。或者,可以將頻譜特徵切分為數量與目標圖像幀的幀數相同的第一特徵,每個第一特徵的時間步長相同。這樣,實現將頻譜特徵切分為一定數量的第一特徵。
在一個示例中,可以根據預設的第二時間步長對所述視訊特徵進行切分,得到至少一個第二特徵;或者,根據所述目標圖像幀的幀數對所述視訊特徵進行切分,得到至少一個第二特徵。在該示例中,可以按照預設的第二時間步長將視訊特徵切分為多個第二特徵。第二時間步長可以根據實際應用場景進行設置,例如,設置為1s,0.5s等,從而可以實現對視訊特徵進行任意時間步長的切分。或者,可以將視訊特徵切分為數量與目標圖像幀的幀數相同的第二特徵,每個第二特徵的時間步長相同。這樣,實現將頻譜特徵切分為一定數量的第二特徵。
圖5示出根據本發明實施例的神經網路一示例的方塊圖。下面結合圖5對該實現方式進行說明。
這裡,可以利用神經網路對音訊訊息的頻譜圖進行二維卷積處理,得到一個頻譜特徵圖,該頻譜特徵圖的第一維度可以 是時間維度,表示音訊訊息的時間訊息,從而可以根據頻譜特徵圖的時間訊息,按照預設的時間步長對頻譜特徵圖進行切分,可以得到多個第一特徵,每個第一特徵會存在一個匹配的第二特徵,即可以理解為,任意一個第一特徵存在一個時間訊息相匹配的第二特徵,還可以匹配於一目標圖像幀的時間訊息。第一特徵包括音訊訊息在相應時間訊息的音訊特徵。
相應地,可以利用上述神經網路對目標圖像幀形成的目標圖像幀序列進行二維或三維卷積處理,得到視訊特徵,視訊特徵可以表示為一個視訊特徵圖,視訊特徵圖的第一維度可以是時間維度,表示視訊訊息的時間訊息。然後可以根據視訊特徵的時間訊息,按照預設的時間步長對視訊特徵進行切分,可以得到多個第二特徵,每個第二特徵存在一個時間訊息相匹配的第一特徵,每個第二特徵包括視訊訊息在相應時間訊息的視訊特徵。
然後可以將具有相同時間訊息的第一特徵和第二特徵進行特徵融合,得到多個融合特徵。不同的融合特徵對應不同的時間訊息,每個融合特徵可以包括來自第一特徵的音訊特徵和來自第二特徵的視訊特徵。假設第一特徵和第二特徵分別為n個,根據第一特徵和第二特徵的時間訊息的先後順序分別為n個第一特徵和n個第二特徵進行編號,n個第一特徵可以表示為第一特徵1、第一特徵2、……、第一特徵n,n個第二特徵可以表示為第二特徵1、第 二特徵2、……、第二特徵n。在對第一特徵和第二特徵進行特徵融合時,可以將第一特徵1與第二特徵1進行合併,得到融合特徵1;將第一特徵2與第二特徵2進行合併,得到融合特徵圖2;……;第一特徵n與第二特徵n進行合併,得到融合特徵n。
在一個可能的實現方式中,可以按照每個融合特徵的時間訊息的先後順序,利用不同的時序節點對每個融合特徵進行特徵提取,然後獲取首尾時序節點輸出的處理結果,根據所述處理結果判斷所述音訊訊息與所述視訊訊息是否同步。這裡,下一個時序節點將上一個時序節點的處理結果作為輸入。
在該實現方式中,上述神經網路可以包括多個時序節點,每個時序節點依次連接,可以利用多個時序節點分別對不同時間訊息的融合特徵進行特徵提取。如圖5所示,假設存在n個融合特徵,按照時間訊息的先後順序進行編號可以表示為融合特徵1、融合特徵2、……、融合特徵n。在利用時序節點對融合特徵進行特徵提取時,可以利用第一個時序節點對融合特徵1進行特徵提取,得到第一處理結果,利用第二個時序節點對融合特徵2進行特徵提取,得到第二處理結果,……,利用第n個時序節點對融合特徵n進行特徵提取,得到第n處理結果。同時,利用第一個時序節點接收第二處理結果,利用第二個時序節點接收第一處理結果以及第三處理結果,依次類推,然後可以對第一個時序節點的處理結果和最 後時序節點的處理結果進行融合,例如,進行拼接或點乘操作,得到融合後的處理結果。然後可以利用神經網路的全連接層對該融合後的處理結果進行進一步特徵提取,如進行全連接處理、歸一化操作等,可以得到音訊訊息與視訊訊息是否同步的判斷結果。
在一個可能的實現方式中,可以根據所述目標圖像幀的幀數,對所述音訊訊息對應的頻譜圖進行切分,得到至少一個頻譜圖片段,每個頻譜圖片段的時間訊息匹配於每個所述目標圖像幀的時間訊息。然後對每個頻譜圖片段進行特徵提取,得到每個第一特徵,對每個所述目標圖像幀進行特徵提取,得到每個第二特徵。再對時間訊息匹配的第一特徵和第二特徵進行特徵融合,得到多個融合特徵。
圖6示出根據本發明實施例的神經網路一示例的方塊圖。下面結合圖6對上述實現方式提供的融合方式進行說明。
在該實現方式中,可以根據目標圖像幀的幀數,對音訊訊息對應的頻譜圖進行切分,得到至少一個頻譜圖片段,然後對至少一個頻譜圖片段進行特徵提取,得到至少一個第一特徵。這裡,按照目標圖像幀的幀數對音訊訊息對應的頻譜圖進行切分,得到的頻譜圖片段的數量與目標圖像幀的幀數相同,從而可以保證每個頻譜圖片段的時間訊息與目標圖像幀的時間訊息相匹配。假設得到n個頻譜圖片段,按照時間訊息的先後順序對頻譜圖片段進行編 號,多個頻譜圖片段可以表示為頻譜圖片段1、頻譜圖片段2、……、頻譜圖片段n。然後針對每個頻譜圖片段,利用神經網路對n個頻譜圖片段進行二維卷積處理,最終可以得到n個第一特徵。
相應地,在對目標圖像幀進行卷積處理得到第二特徵時,可以利用神經網路分別對多個目標圖像幀進行卷積處理,可以得到多個第二特徵。假設存在n個目標圖像幀,按照時間訊息的先後順序對目標圖像幀進行編號,n個目標圖像幀可以表示為目標圖像幀1、目標圖像幀2、……、目標圖像幀n。然後針對每個目標圖像幀,利用神經網路對每個頻譜圖片段進行二維卷積處理,最終可以得到多n個第一特徵。
然後可以對時間訊息匹配的第一特徵和第二特徵進行特徵融合,並根據特徵融合之後得到的融合特徵圖判斷音訊訊息與視訊訊息是否同步的過程。這裡,融合特徵圖判斷音訊訊息與視訊訊息是否同步的過程與上述圖5對應的實現方式的過程相同,這裡不再贅述。本示例中通過對多個頻譜圖片段以及多個目標圖像幀分別進行特徵提取的方式,節省卷積處理的運算量,提高音視訊訊息處理的效率。
在一個可能的實現方式中,可以在時間維度上對融合特徵進行至少一級特徵提取,得到至少一級特徵提取後的處理結果,每級特徵提取包括卷積處理和全連接處理。然後基於至少一級 特徵提取後的處理結果判斷音訊訊息與視訊訊息是否同步。
在該可能的實現方式中,可以利用對融合特徵圖在時間維度上進行多級特徵提取,每級特徵提取可以包括卷積處理和全連接處理。這裡的時間維度可以是融合特徵的第一特徵,經過多級特徵提取可以得到多級特徵提取後的處理結果。然後可以進一步對多級特徵提取後的處理結果進行拼接或點乘操作、全連接操作、歸一化操作等,可以得到音訊訊息與視訊訊息是否同步的判斷結果。
圖7示出根據本發明實施例的神經網路一示例的方塊圖。在上述實現方式中,神經網路可以包括多個一維卷積層和全連接層,可以利用如圖7所示的神經網路對頻譜圖進行二維卷積處理,可以得到音訊訊息的頻譜特徵,頻譜特徵的第一維度可以是時間維度,可以表示音訊訊息的時間訊息。相應地,可以利用神經網路對目標圖像幀形成的目標圖像幀序列進行二維或三維卷積處理,得到視訊訊息的視訊特徵,視訊特徵的第一維度可以是時間維度,可以表示視訊訊息的時間訊息。然後可以根據音訊特徵對應的時間訊息以及視訊特徵對應的時間訊息,利用神經網路對音訊特徵和視訊特徵進行融合,例如,將具有相同時間特徵的音訊特徵和視訊特徵進行拼接,得到融合特徵。融合特徵的第一維度表示時間訊息,某一時間訊息的融合特徵可以對應在該時間訊息的音訊特徵和視訊特徵。然後可以對融合特徵在時間維度上進行至少一級特徵提 取,例如,對融合特徵進行一維卷積處理以及全連接處理,得到處理結果。然後可以進一步對處理結果進行拼接或點乘操作、全連接操作、歸一化操作等,可以得到音訊訊息與視訊訊息是否同步的判斷結果
通過上述發明實施例提供的音視訊訊息處理方案,可以將音訊訊息對應的頻譜圖與目標關鍵點的目標圖像幀相結合,判斷音視訊文件的音訊訊息和視訊訊息是否同步,判斷方式簡單,判斷結果準確率高。
本發明實施例提供的音視訊訊息處理方案,可以應用於活體判別任務中,判斷活體判別任務中的音視訊文件的音訊訊息和視訊訊息是否同步,從而可以在活體判別任務中的一些可疑的攻擊音視訊文件進行篩除。在一些實施方式中,還可以利用本發明提供的音視訊訊息處理方案的判斷結果,對同一段音視訊文件的音訊訊息與視訊訊息的偏移進行判斷,從而進一步確定不同步的音視訊文件視訊的音視訊訊息的時間差。
可以理解,本發明提及的上述各個方法實施例,在不違背原理邏輯的情况下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本發明不再贅述。
此外,本發明還提供了音視訊訊息處理裝置、電子設備、電腦可讀儲存介質、程式,上述均可用來實現本發明提供的任 一種音視訊訊息處理方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
本領域技術人員可以理解,在具體實施方式的上述方法中,各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。
圖8示出根據本發明實施例的音視訊訊息處理裝置的方塊圖,如圖8所示,所述音視訊訊息處理裝置包括:獲取模組41,用於獲取音視訊文件的音訊訊息和視訊訊息;融合模組42,用於基於所述音訊訊息的時間訊息和所述視訊訊息的時間訊息,對所述音訊訊息的頻譜特徵和所述視訊訊息的視訊特徵進行特徵融合,得到融合特徵;判斷模組43,用於基於所述融合特徵判斷所述音訊訊息與所述視訊訊息是否同步。
在一種可能的實現方式中,所述裝置還包括:第一確定模組,用於將所述音訊訊息按照預設的時間步長進行切分,得到至少一個音訊片段;確定每個音訊片段的頻率分布;將所述至少一個音訊片段的頻率分布進行拼接,得到所述音訊訊息對應的頻譜圖;對所述頻譜圖進行特徵提取,得到所述音訊 訊息的頻譜特徵。
在一種可能的實現方式中,所述第一確定模組,具體用於,將所述音訊訊息按照預設的第一時間步長進行切分,得到至少一個初始片段;對每個初始片段進行加窗處理,得到每個加窗後的初始片段;對每個加窗後的初始片段進行傅立葉變換,得到所述至少一個音訊片段中的每個音訊片段。
在一種可能的實現方式中,所述裝置還包括:第二確定模組,用於對所述視訊訊息中的每個視訊幀進行人臉識別,確定每個所述視訊幀的人臉圖像;獲取所述人臉圖像中目標關鍵點所在的圖像區域,得到所述目標關鍵點的目標圖像;對所述目標圖像進行特徵提取,得到所述視訊訊息的視訊特徵。
在一種可能的實現方式中,所述第二確定模組,具體用於將所述人臉圖像中目標關鍵點所在的圖像區域放縮為預設圖像尺寸,得到所述目標關鍵點的目標圖像。
在一種可能的實現方式中,所述目標關鍵點為唇部關鍵點,所述目標圖像為唇部圖像。
在一種可能的實現方式中,所述融合模組42,具體用於,對所述頻譜特徵進行切分,得到至少一個第一特徵; 對所述音訊特徵進行切分,得到至少一個第二特徵,其中,每個第一特徵的時間訊息匹配於每個第二特徵的時間訊息;對時間訊息匹配的第一特徵和第二特徵進行特徵融合,得到多個融合特徵。
在一種可能的實現方式中,所述融合模組42,具體用於,根據預設的第二時間步長對所述頻譜特徵進行切分,得到至少一個第一特徵;或者,根據所述目標圖像幀的幀數對所述頻譜特徵進行切分,得到至少一個第一特徵。
在一種可能的實現方式中,所述融合模組42,具體用於,根據預設的第二時間步長對所述音訊特徵進行切分,得到至少一個第二特徵;或者,根據所述目標圖像幀的幀數對所述音訊特徵進行切分,得到至少一個第二特徵。
在一種可能的實現方式中,所述融合模組42,具體用於,根據所述目標圖像幀的幀數,對所述音訊訊息對應的頻譜圖進行切分,得到至少一個頻譜圖片段;其中,每個頻譜圖片段的時間訊息匹配於每個所述目標圖像幀的時間訊息;對每個頻譜圖片段進行特徵提取,得到每個第一特徵; 對每個所述目標圖像幀進行特徵提取,得到每個第二特徵;對時間訊息匹配的第一特徵和第二特徵進行特徵融合,得到多個融合特徵。
在一種可能的實現方式中,所述判斷模組43,具體用於,按照每個融合特徵的時間訊息的先後順序,利用不同的時序節點對每個融合特徵進行特徵提取;其中,下一個時序節點將上一個時序節點的處理結果作為輸入;獲取首尾時序節點輸出的處理結果,根據所述處理結果判斷所述音訊訊息與所述視訊訊息是否同步。
在一種可能的實現方式中,所述判斷模組43,具體用於,在時間維度上對所述融合特徵進行至少一級特徵提取,得到所述至少一級特徵提取後的處理結果;其中,每級特徵提取包括卷積處理和全連接處理;基於所述至少一級特徵提取後的處理結果判斷所述音訊訊息與所述視訊訊息是否同步。
在一些實施例中,本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法,其具體實現可以參照上文方法實施例的描述,為了簡潔,這裡不再贅述。
本發明實施例還提出一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存介質可以是揮發性電腦可讀儲存介質或非揮發性電腦可讀儲存介質。
本發明實施例還提出一種電腦程式,其中,所述電腦程式包括電腦可讀代碼,當所述電腦可讀代碼在電子設備中運行時,所述電子設備中的處理器執行用於實現上述音視訊訊息處理方法。
本發明實施例還提出一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為上述方法。
電子設備可以被提供為終端、伺服器或其它形態的設備。
圖9是根據一示例性實施例示出的一種電子設備1900的方塊圖。例如,電子設備1900可以被提供為一伺服器。參照圖9,電子設備1900包括處理組件1922,其進一步包括一個或多個處理器,以及由記憶體1932所代表的記憶體資源,用於儲存可由處理組件1922的執行的指令,例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理組件1922被配置為執行指令,以執行上述方法。
電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理,一個有線或無線的網路介面1950被配置為將電子設備1900連接到網路,和一個輸入輸出(I/O)介面1958。電子設備1900可以操作基於儲存在記憶體1932的操作系統,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或類似。
在示例性實施例中,還提供了一種非揮發性電腦可讀儲存介質,例如包括電腦程式指令的記憶體1932,上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。
本發明可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存介質,其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。
電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是--但不限於--電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子(非窮舉的列表)包括:便携式電腦盤、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除可程式化唯讀記憶體(EPROM或閃存)、靜態隨機存取記憶體(SRAM)、可擕式壓縮磁碟唯讀記憶體(CD-ROM)、數位多功能影音光碟 (DVD)、記憶卡、磁片、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存介質不被解釋為瞬時信號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脉衝)、或者通過電線傳輸的電信號。
這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備,或者通過網路、例如網際網路、局域網、廣域網路和/或無線網下載到外部電腦或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、網關電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。
用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、韌體指令、狀態設置資料、或者以一種或多種程式語言的任意組合編寫的原始碼或目標代碼,所述程式語言包括面向對象的程式語言-諸如Smalltalk、C++等,以及常規的過程式程式語言-諸如“C”語言或類似的程式語言。電腦可讀程式指令可以完全地在用戶電腦上執行、部分地在用戶電腦上執行、作為一個獨立的套裝軟體 執行、部分在用戶電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以通過任意種類的網路-包括局域網(LAN)或廣域網路(WAN)-連接到用戶電腦,或者,可以連接到外部電腦(例如利用網際網路服務供應商來通過網際網路連接)。在一些實施例中,通過利用電腦可讀程式指令的狀態訊息來個性化定制電子電路,例如可程式邏輯電路、現場可程式化邏輯閘陣列(FPGA)或可程式化邏輯陣列(PLA),該電子電路可以執行電腦可讀程式指令,從而實現本發明的各個方面。
這裡參照根據本發明實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解,流程圖和/或方塊圖的每個方框以及流程圖和/或方塊圖中各方框的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式資料處理裝置的處理器,從而生產出一種機器,使得這些指令在通過電腦或其它可程式資料處理裝置的處理器執行時,產生了實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中,這些指令使得電腦、可程式資料處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的電腦可讀介質則包括 一個製造品,其包括實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令加載到電腦、其它可程式資料處理裝置、或其它設備上,使得在電腦、其它可程式資料處理裝置或其它設備上執行一系列操作步驟,以產生電腦實現的過程,從而使得在電腦、其它可程式資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作。
附圖中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每個方框可以代表一個模組、程式段或指令的一部分,所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中,方框中所標注的功能也可以以不同於附圖中所標注的順序發生。例如,兩個連續的方框實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每個方框、以及方塊圖和/或流程圖中的方框的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
以上已經描述了本發明的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情况下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中技術的技術改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。
S11~S13:步驟

Claims (15)

  1. 一種音視訊訊息處理方法,包括:獲取音視訊文件的音訊訊息和視訊訊息;基於所述音訊訊息的時間訊息和所述視訊訊息的時間訊息,對所述音訊訊息的頻譜特徵和所述視訊訊息的視訊特徵進行特徵融合,得到融合特徵;基於所述融合特徵判斷所述音訊訊息與所述視訊訊息是否同步;所述基於所述融合特徵判斷所述音訊訊息與所述視訊訊息是否同步,包括:按照每個融合特徵的時間訊息的先後順序,利用神經網路包括的多個時序節點對不同時間訊息的所述融合特徵進行特徵提取;獲取首尾時序節點輸出的處理結果,根據所述處理結果判斷所述音訊訊息與所述視訊訊息是否同步。
  2. 根據請求項1所述的方法,其中,所述方法還包括:將所述音訊訊息按照預設的第一時間步長進行切分,得到至少一個音訊片段;確定每個音訊片段的頻率分布;將所述至少一個音訊片段的頻率分布進行拼接,得到所述音訊訊息對應的頻譜圖;對所述頻譜圖進行特徵提取,得到所述音訊訊息的頻譜特徵。
  3. 根據請求項2所述的方法,其中,所述確定每個音訊片段的頻率分布,包括: 對每個音訊片段進行加窗處理,得到每個加窗後的音訊片段;對每個加窗後的音訊片段進行傅立葉變換,得到所述至少一個音訊片段中的每個音訊片段的頻率分布。
  4. 根據請求項1至3任意一項所述的方法,其中,所述方法還包括:對所述視訊訊息中的每個視訊幀進行人臉識別,確定每個所述視訊幀的人臉圖像;獲取所述人臉圖像中目標關鍵點所在的圖像區域,得到所述目標關鍵點的目標圖像;對所述目標圖像進行特徵提取,得到所述視訊訊息的視訊特徵。
  5. 根據請求項4所述的方法,其中,所述獲取所述人臉圖像中目標關鍵點所在的圖像區域,得到所述目標關鍵點的目標圖像,包括:將所述人臉圖像中目標關鍵點所在的圖像區域放縮為預設圖像尺寸,得到所述目標關鍵點的目標圖像。
  6. 根據請求項4所述的方法,其中,所述目標關鍵點為唇部關鍵點,所述目標圖像為唇部圖像。
  7. 根據請求項1至3任意一項所述的方法,其中,所述基於所述音訊訊息的時間訊息和所述視訊訊息的時間訊息,對所述音訊訊息的頻譜特徵和所述視訊訊息的視訊特徵進行特徵融合,得到融合特徵,包括:對所述頻譜特徵進行切分,得到至少一個第一特徵; 對所述視訊特徵進行切分,得到至少一個第二特徵,其中,每個第一特徵的時間訊息匹配於每個第二特徵的時間訊息;對時間訊息匹配的第一特徵和第二特徵進行特徵融合,得到多個融合特徵。
  8. 根據請求項7所述的方法,其中,所述對所述頻譜特徵進行切分,得到至少一個第一特徵,包括:根據預設的第二時間步長對所述頻譜特徵進行切分,得到至少一個第一特徵;或者,根據所述目標圖像幀的幀數對所述頻譜特徵進行切分,得到至少一個第一特徵。
  9. 根據請求項8所述的方法,其中,所述對所述視訊特徵進行切分,得到至少一個第二特徵,包括:根據預設的第二時間步長對所述視訊特徵進行切分,得到至少一個第二特徵;或者,根據所述目標圖像幀的幀數對所述視訊特徵進行切分,得到至少一個第二特徵。
  10. 根據請求項1至3任意一項所述的方法,其中,所述基於所述音訊訊息的時間訊息和所述視訊訊息的時間訊息,對所述音訊訊息的頻譜特徵和所述視訊訊息的視訊特徵進行特徵融合,得到融合特徵,包括:根據所述目標圖像幀的幀數,對所述音訊訊息對應的頻譜圖進行切分,得到至少一個頻譜圖片段;其中,每個頻譜圖片段的時間訊息匹配於每個所述目標圖像幀的時 間訊息;對每個頻譜圖片段進行特徵提取,得到每個第一特徵;對每個所述目標圖像幀進行特徵提取,得到每個第二特徵;對時間訊息匹配的第一特徵和第二特徵進行特徵融合,得到多個融合特徵。
  11. 根據請求項1至3中任意一項所述的方法,其中,下一個時序節點將上一個時序節點的處理結果作為輸入。
  12. 根據請求項1至3中任意一項所述的方法,其中,所述基於所述融合特徵判斷所述音訊訊息與所述視訊訊息是否同步,包括:在時間維度上對所述融合特徵進行至少一級特徵提取,得到所述至少一級特徵提取後的處理結果;其中,每級特徵提取包括卷積處理和全連接處理;基於所述至少一級特徵提取後的處理結果判斷所述音訊訊息與所述視訊訊息是否同步。
  13. 一種音視訊訊息處理裝置,包括:獲取模組,用於獲取音視訊文件的音訊訊息和視訊訊息;融合模組,用於基於所述音訊訊息的時間訊息和所述視訊訊息的時間訊息,對所述音訊訊息的頻譜特徵和所述視訊訊息的視訊特徵進行特徵融合,得到融合特徵;判斷模組,用於基於所述融合特徵判斷所述音訊訊息 與所述視訊訊息是否同步;所述判斷模組,用於按照每個融合特徵的時間訊息的先後順序,利用神經網路包括的多個時序節點對不同時間訊息的所述融合特徵進行特徵提取;獲取首尾時序節點輸出的處理結果,根據所述處理結果判斷所述音訊訊息與所述視訊訊息是否同步。
  14. 一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為呼叫所述記憶體儲存的指令,以執行請求項1至12中任意一項所述的方法。
  15. 一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現請求項1至12中任意一項所述的方法。
TW108147625A 2019-09-27 2019-12-25 一種音視訊訊息處理方法及裝置、電子設備和電腦可讀儲存介質 TWI760671B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910927318.7A CN110704683A (zh) 2019-09-27 2019-09-27 音视频信息处理方法及装置、电子设备和存储介质
CN201910927318.7 2019-09-27

Publications (2)

Publication Number Publication Date
TW202114404A TW202114404A (zh) 2021-04-01
TWI760671B true TWI760671B (zh) 2022-04-11

Family

ID=69196908

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108147625A TWI760671B (zh) 2019-09-27 2019-12-25 一種音視訊訊息處理方法及裝置、電子設備和電腦可讀儲存介質

Country Status (5)

Country Link
US (1) US20220148313A1 (zh)
JP (1) JP2022542287A (zh)
CN (1) CN110704683A (zh)
TW (1) TWI760671B (zh)
WO (1) WO2021056797A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583916B (zh) * 2020-05-19 2023-07-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN112052358B (zh) * 2020-09-07 2024-08-20 抖音视界有限公司 显示图像的方法、装置、电子设备和计算机可读介质
CN112461245A (zh) * 2020-11-26 2021-03-09 浙江商汤科技开发有限公司 数据处理方法及装置、电子设备和存储介质
CN112464814A (zh) * 2020-11-27 2021-03-09 北京百度网讯科技有限公司 视频处理方法、装置、电子设备及存储介质
CN112733636A (zh) * 2020-12-29 2021-04-30 北京旷视科技有限公司 活体检测方法、装置、设备和存储介质
CN113095272B (zh) * 2021-04-23 2024-03-29 深圳前海微众银行股份有限公司 活体检测方法、设备、介质及计算机程序产品
CN113505652B (zh) * 2021-06-15 2023-05-02 腾讯科技(深圳)有限公司 活体检测方法、装置、电子设备和存储介质
US20230077353A1 (en) * 2021-08-31 2023-03-16 University Of South Florida Systems and Methods for Classifying Mosquitoes Based on Extracted Masks of Anatomical Components from Images
CN114140854A (zh) * 2021-11-29 2022-03-04 北京百度网讯科技有限公司 一种活体检测方法、装置、电子设备及存储介质
CN115174960B (zh) * 2022-06-21 2023-08-15 咪咕文化科技有限公司 音视频同步方法、装置、计算设备及存储介质
CN116320575B (zh) * 2023-05-18 2023-09-05 江苏弦外音智造科技有限公司 一种音视频的音频处理控制系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709402A (zh) * 2015-11-16 2017-05-24 优化科技(苏州)有限公司 基于音型像特征的真人活体身份验证方法
CN109344781A (zh) * 2018-10-11 2019-02-15 上海极链网络科技有限公司 一种基于声音视觉联合特征的视频内表情识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10108254B1 (en) * 2014-03-21 2018-10-23 Google Llc Apparatus and method for temporal synchronization of multiple signals
JP6663444B2 (ja) * 2015-10-29 2020-03-11 株式会社日立製作所 視覚情報と聴覚情報の同期方法および情報処理装置
CN105959723B (zh) * 2016-05-16 2018-09-18 浙江大学 一种基于机器视觉和语音信号处理相结合的假唱检测方法
CN107371053B (zh) * 2017-08-31 2020-10-23 北京鹏润鸿途科技股份有限公司 音频视频流对比分析方法及装置
CN108924646B (zh) * 2018-07-18 2021-02-09 北京奇艺世纪科技有限公司 一种音视频同步检测方法及系统
CN109446990B (zh) * 2018-10-30 2020-02-28 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109168067B (zh) * 2018-11-02 2022-04-22 深圳Tcl新技术有限公司 视频时序矫正方法、矫正终端及计算机可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709402A (zh) * 2015-11-16 2017-05-24 优化科技(苏州)有限公司 基于音型像特征的真人活体身份验证方法
CN109344781A (zh) * 2018-10-11 2019-02-15 上海极链网络科技有限公司 一种基于声音视觉联合特征的视频内表情识别方法

Also Published As

Publication number Publication date
US20220148313A1 (en) 2022-05-12
JP2022542287A (ja) 2022-09-30
CN110704683A (zh) 2020-01-17
WO2021056797A1 (zh) 2021-04-01
TW202114404A (zh) 2021-04-01

Similar Documents

Publication Publication Date Title
TWI760671B (zh) 一種音視訊訊息處理方法及裝置、電子設備和電腦可讀儲存介質
CN112104892B (zh) 一种多媒体信息处理方法、装置、电子设备及存储介质
US10552711B2 (en) Apparatus and method for extracting sound source from multi-channel audio signal
JP6090881B2 (ja) オーディオ認識のための方法およびデバイス
WO2020093634A1 (zh) 基于人脸识别的照片添加方法、装置、终端及存储介质
CN108989882B (zh) 用于输出视频中的音乐片段的方法和装置
CN109754783B (zh) 用于确定音频语句的边界的方法和装置
EP3893125A1 (en) Method and apparatus for searching video segment, device, medium and computer program product
CN109829432B (zh) 用于生成信息的方法和装置
WO2020019591A1 (zh) 用于生成信息的方法和装置
CN110348393B (zh) 车辆特征提取模型训练方法、车辆识别方法及设备
WO2020029608A1 (zh) 用于检测电极片毛刺的方法和装置
CN108521612B (zh) 视频摘要的生成方法、装置、服务器及存储介质
CN107680584B (zh) 用于切分音频的方法和装置
CN110570348B (zh) 一种脸部图像替换方法及设备
CN111656275B (zh) 一种确定图像对焦区域的方法及装置
WO2023029389A1 (zh) 视频指纹的生成方法及装置、电子设备、存储介质、计算机程序、计算机程序产品
CN109241721A (zh) 用于推送信息的方法和装置
CN109522451B (zh) 重复视频检测方法和装置
CN108876817B (zh) 交叉轨迹分析方法及装置、电子设备和存储介质
CN113923378A (zh) 视频处理方法、装置、设备及存储介质
US10748554B2 (en) Audio source identification
US11490170B2 (en) Method for processing video, electronic device, and storage medium
WO2023141900A1 (zh) 新闻图文类数据知识图谱的建立方法、装置、设备及介质
CN113033552B (zh) 文本识别方法、装置和电子设备