TWI810268B - 用於將多通道音頻流廣播至參加體育賽事的觀眾的終端的方法及系統 - Google Patents

用於將多通道音頻流廣播至參加體育賽事的觀眾的終端的方法及系統 Download PDF

Info

Publication number
TWI810268B
TWI810268B TW108111302A TW108111302A TWI810268B TW I810268 B TWI810268 B TW I810268B TW 108111302 A TW108111302 A TW 108111302A TW 108111302 A TW108111302 A TW 108111302A TW I810268 B TWI810268 B TW I810268B
Authority
TW
Taiwan
Prior art keywords
audio streams
sound
mono
audio stream
audio
Prior art date
Application number
TW108111302A
Other languages
English (en)
Other versions
TW201942767A (zh
Inventor
拉斐爾 布盧埃
西林姆 埃西德
Original Assignee
礦業電信學校聯盟
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 礦業電信學校聯盟 filed Critical 礦業電信學校聯盟
Publication of TW201942767A publication Critical patent/TW201942767A/zh
Application granted granted Critical
Publication of TWI810268B publication Critical patent/TWI810268B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/454Content or additional data filtering, e.g. blocking advertisements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

本發明涉及一種用於向參加體育賽事的觀眾的終端廣播空間化音頻流的方法。所述方法包含獲取構成聲音場景的多個音頻流。為了音頻流的聲音空間化及其在終端上的重現,伺服器會基於音頻流的所在地點及觀眾的位置來分析聲音場景。

Description

用於將多通道音頻流廣播至參加體育賽事的觀眾的終端的方法及系統
本發明涉及一種改善參加體育賽事的觀眾對於聲音之感知的廣播方法及系統,特別係涉及一種使用音頻擴增實境的廣播方法及系統,使得參加體育賽事的觀眾能夠感知來自事件的個人化音頻流。
文件WO2007/115392描述了一種允許觀眾遠端參加多個同時進行的體育賽事的系統。更詳細來說,觀眾配有電子行動終端,他們可以從電子行動終端上接收多個多媒體流,其中每個多媒體流對應於一個正在直播的體育賽事。通常而言,多媒體流可以為錄像流(video stream)或音頻流(audio stream)。觀眾可以選擇想要存取哪個多媒體流。然而,這種系統無法給予觀眾完整的沉浸感。
本發明能夠改善上述狀況。
為此目的,本發明提出一種方法,用於將多通道音頻流廣播至參加體育賽事的多個觀眾的多個終端,此方法包含: 藉由分佈於舉辦該體育賽事的一空間內的多個音頻感測器,取得構成一聲音場景的多個原始音頻流,該聲音場景包含一或多個聲源; 藉由該聲音場景的一伺服器執行一分析,該分析包含: 隔離該聲音場景的每一該些聲源,且給每一該些聲源分配特定的一單聲道音頻流; 對於每一該些單聲道音頻流,基於關聯於該單聲道音頻流的該聲源在舉辦該體育賽事的該空間內的位置,判斷該單聲道音頻流在該空間的所在地;以及 產生該些單聲道音流頻的一描述表,該描述表包含每一該些單聲道音頻流的一識別碼,以及與每一該些單聲道音頻流的該識別碼關聯的至少一所在地資料項目; 藉由該伺服器,傳送該描述表以及該多通道音頻流至該些終端中的一或多個,該多通道音頻流聚集該些單聲道音頻流;以及 藉由該些終端的其中之一,使用所接收的該描述表以及該多通道音頻流,以根據每一該些單聲道音頻流的相應所在地,並根據舉辦該體育賽事的該空間內的該些終端的該其中之一的一位置,來將聲音空間化濾波應用於該些單聲道音頻流,以達到在該終端上的該些單聲道音頻流的至少一部分的空間化聲音重現。
藉由這些安排,觀眾可以真正沉浸在體育賽事中。實際上,空間化聲音重現使得可以將觀眾的位置考慮在內,使得廣播音頻流完全對應於他正在經歷的內容。
依據一實施例,其中該聲音場景的該分析更包含對於每一該些單聲道音頻流,根據關聯於該單聲道音頻流的一種聲源,將該單聲道音頻流分類至多個種類中的一種類,該描述表更包含關聯於每一該些單聲道音頻流的該識別碼的單聲道音頻流種類資料,且該方法更包含於該終端: 從描述表執行讀取,以識別每一該些單聲道音頻流的該種類;以及 將相應的多個增益應用於該些單聲道音頻流,以用於該空間化聲音重現,該些增益係藉由該終端的一觀眾基於每一該些單聲道音頻流的該種類所選擇。
以這種方式,觀眾可以選擇要收聽什麼類型的音頻流。由於他可以將具有其不感興趣的聲源的音頻流給排除,因此他對於體育賽事的沉浸感得以提升。觀眾可以具有個人化的體育賽事體驗。
於一實施例中,所述方法包含判斷該觀眾相對於一選定參考系的一方位,且所述方法包含將相應的該些增益應用於空間化的該些單聲道音頻流,其中應用於空間化的該些單聲道音頻流的該些增益係根據該選定參考系內的該觀眾的該位置或該方位而衍化。
以這種方式,觀眾在體育賽事中的沉浸感進一步增加。事實上,他的方位的判斷使得他能夠對體育賽事所在空間中感興趣的區域進行「音頻縮放」。
依據一實施例,所述方法包含將舉辦該體育賽事的該空間劃分為多個子空間,每一該些子空間中設置有該些音頻感測器的至少其中之一。所述方法包含藉由混合該些音頻感測器所擷取的該些原始音頻流來建立該聲音場景。所述方法包含為了該聲音場景的該分析,判斷相對於每一該些子空間的該些聲源的該些位置。
此步驟可以較少量的步驟、計算以及資料交換來實現空間化聲音重現。足以對聲源的所在地執行粗略的判斷。
依據一實施例,聲源的隔離係藉由源分離來完成。
依據一實施例,聲源的隔離係藉由時頻遮蔽來完成。
依據一實施例,單聲道音頻流的分類係藉由學習來執行,該些單聲道音頻流係藉由深度神經網路技術來分類。
因此,所述流程可以即時地實行。
依據一實施例,所述方法更包含於該伺服器執行: 對於每一比賽階段,判斷屬於多個比賽階段類型中的一比賽階段類型; 基於所判斷的該比賽階段類型,在多個情報音頻流的資料庫中選擇至少一情報音頻流;以及 將該至少一情報音頻流傳送至該終端,以達到聲音重現。
這使得觀眾能夠更加沉浸在體育賽事中。由於系統會預告觀眾當前比賽階段,因此還能使得觀眾避免錯過重要的比賽階段。
依據一實施例,比賽階段類型(也許還有此比賽階段於場中相關聯的所在地)的判斷可以藉由基於多個影像的學習來執行,其中該些影像係藉由至少一相機對該些比賽階段進行錄像擷取所取得,且該學習係以深度神經網路技術來執行。
以這種方式,可以即時且自動地判斷比賽階段類型,也許還有相關聯的所在地。
本發明亦提供一種系統,用於將一多通道音頻流廣播至參加一體育賽事的多個觀眾的多個終端。所述系統包含: 一獲取模組 ,包含分佈於舉辦該體育賽事的一空間內的多個音頻感測器,且該獲取模組用於取得構成一聲音場景的多個原始音頻流,其中該聲音場景包含一或多個聲源; 一伺服器,包含用於分析該聲音場景(SS)的一電腦化模組,且該伺服器用於: 隔離該聲音場景的每一該些聲源,且給每一該些聲源分配特定的一單聲道音頻流; 對於每一該些單聲道音頻流,判斷關聯於該單聲道音頻流的該聲源在舉辦該體育賽事的該空間內的所在地;以及 產生該些單聲道音流頻的一描述表,該描述表包含每一該些單聲道音頻流的一識別碼,以及與每一該些單聲道音頻流的該識別碼關聯的至少一所在地資料項目; 一傳送模組,用於傳送該描述表以及該多通道音頻流至該些終端中的一或多個,該多通道音頻流聚集該些單聲道音頻流;以及 該些終端的其中之一,用於: 使用所接收的該描述表以及該多通道音頻流,以根據每一該些單聲道音頻流的相應所在地,並根據舉辦該體育賽事的該空間內的該觀眾的一位置,來將聲音空間化濾波應用於該些單聲道音頻流,以達到在該些終端的該其中之一上的該些單聲道音頻流的至少一部分的空間化聲音重現。
依據一實施例,一方位感測器能夠判斷使用該些終端的該其中之一的一觀眾在該空間內的方位,且該方位感測器係選自一慣性量測單元或/及一加速度計。
「體育賽事」可被理解為意指任何有大量觀眾聚集於同個地點以觀賞體育比賽之體育賽事。舉例來說,本發明之系統可以用於足球、籃球、棒球、橄欖球、曲棍球等賽事,且不限於以上所列。
如圖1及3所示,系統SYST包含獲取模組MAC。獲取模組MAC包含多個音頻感測器M1~MN,例如係麥克風。音頻感測器M1~MN分佈於舉辦體育賽事的空間內。根據體育賽事的類型,舉辦體育賽事的空間之外觀可能會有很大差異。特別來說,舉辦體育賽事的空間可以是具有看台的體育場、賽馬場等。
對於每種舉辦體育賽事的空間(於下敘述中亦以「空間」表示)而言,音頻感測器M1~MN的分佈得以從體育賽事擷取每個原始音頻流FB 1~FB N。音頻感測器M1~MN可以接著均勻地分佈在舉辦體育賽事的空間四處。
「原始音頻流」可以被理解為意指由音頻感測器M1~MN記錄且尚未經處理的音頻流。原始音頻流可以包含觀看體育賽事的人群的聲響、運動員發出的聲響,像是擊球的聲響、因勞累而吼叫的聲響等。原始音頻流亦可以包含運動員之間的對話。原始音頻流也可以包含觀眾之間的對話。原始音頻流會形成包含一或多個聲源的聲音場景。
於圖1的示例中表示出原始音頻流FB 1~FB N以及聲源S1~SN。原始音頻流FB 1關聯於聲源S1,且例如對應於踢球的運動員。原始音頻流FB 2關聯於聲源S2,且對應於哨子。原始音頻流FB N關聯於聲源SN,且對應於觀眾之間的對話。原始音頻流FB 1~FB N係由獲取模組MAC的音頻感測器M1~MN所擷取。
原始音頻流FB 1~FB N會被廣播於空間內。因此,每個原始音頻流FB 1~FB N會被每個音頻感測器M1~MN擷取。舉例來說,音頻感測器M1主要係擷取原始音頻流FB 1,但亦會擷取到原始音頻流FB 2。類似地,音頻感測器M5會非常精準地擷取原始音頻流FB N,而稍不那麼精準地擷取原始音頻流FB 1,甚至不太精確地擷取原始音頻流FB 2。聲音場景SS係藉由混合所有原始音頻流FB 1、FB 2及FB N而建立。聲音場景SS具有多個聲源S1~SN。
系統SYST可以包含至少兩個音頻感測器M1~MN的網絡(network)。第一音頻感測器網路允許例如擷取體育賽事的背景聲音,通常是參加體育賽事的人群的聲響。第一音頻感測器網路也可以擷取觀眾之間的對話。因此,第一音頻感測器網路的音頻感測器優選地佈置靠近觀眾,且優選地直接佈置於觀眾處。
第二音頻感測器網路亦可以允許擷取體育賽事的背景聲音或是人群的聲響。第二音頻感測器網路也可以擷取關聯於體育賽事的原始音頻流,其可能包含來自比賽的聲音,像是擊球的聲音或是運動員之間的對話。
至少三種類型(type)的聲源可以被定義。第一類型對應於體育賽事的氣氛。第一類型包含參加體育賽事的人群的聲響。第二類型對應於體育賽事的事件,舉例來說,其包含擊球、吹口哨等。第三類型對應於體育賽事的觀眾之間的對話。
每個音頻感測器M1~MN所獲得的多個原始音頻流會被發送至分析室LOC。此傳送於圖1中以箭頭IN來表示。分析室LOC包含至少一伺服器SERV,於其中會對原始音頻流FB 1~FB N進行濾波。特別來說,會執行源分離(source separation)濾波。源分離使得比賽的各種聲音事件可以基於音頻感測器所記錄的聲音場景而被隔離。經濾波的流被傳送至終端TERM,以空間化重現在終端TERM上的至少一部分音頻流。舉例來說,終端TERM係智能電話、平板或電腦之類的行動終端。
聲音重現裝置DIFF亦用於播放空間化的音頻流。聲音重現裝置DIFF可以係每個觀眾都有的個人揚聲器或耳機。
依據本發明,系統SYST允許個人化的聲音重現。舉例來說,關於體育賽事的聲音重現係根據在舉辦體育賽事的空間內每個聲源S1~SN的所在地以及觀眾的位置,使用終端TERM來完成。觀眾的位置可以藉由定位模組MP來判斷,定位模組MP能夠透過衛星地理位置定位(geolocation)、三角測量或是近距離無線通訊(NFC)來定位觀眾。對於觀眾來說,關聯於靠近觀眾的聲源的音頻流將更容易被聽到。請再次參考圖1的示例,比起關聯於聲源S2的音頻流FB 2,坐在場地左側的觀眾將更清楚地聽到關聯於聲源S1的音頻流FB 1。
於一示例的實施例中,觀眾可以透過終端TERM進入聲音場景重現偏好。舉例來說,觀眾可以選擇要聽與特定類型聲源關聯的音頻流。舉例來說,觀眾可以選擇只聽取觀眾之間的對話,或是裁判的哨聲。觀眾也可以選擇聽取所有音頻流,但是在各自的位準(level)上取決於它們與之相關聯的聲源的類型。
根據另一示例的實施例,根據觀眾在舉辦體育賽事的空間內的方位,觀眾會更強烈地聽到某些音頻流。舉例來說,系統包含方位模組MO,其包含方位感測器以判斷觀眾面向哪個方向。然後,觀眾可以配戴具有方位感測器的配件,像是頭戴式耳機或貼紙(sticker)。方位感測器可以係加速度計或慣性量測單元。接著便可以判斷觀眾是轉向哪個聲源S1~SN,以放大關聯於此聲源的音頻流的廣播音量。如此一來得以改善觀眾的體驗,此使得觀眾能夠完全地沉浸在他所參加的體育賽事中。
圖2更詳細地繪示出系統SYST所實行之方法的主要步驟。
獲取模組MAC藉由音頻感測器M1~MN來擷取所有原始音頻流FB 1~FB N。原始音頻流FB 1~FB N形成了包含至少一聲源S1~SN的聲音場景SS。
步驟E1至E5可以在伺服器SERV實施。伺服器SERV包含將聲音場景SS的每個聲源S1~SN隔離的電腦化分析模組MIA。所述聲音場景SS會被傳送至所述電腦化分析模組MIA。於步驟E1中,電腦化分析模組MIA將聲音場景SS的每個聲源S1~SN隔離。如步驟E1A所示,聲源S1~SN的隔離作業可以藉由使用波束成形的源分離方法來完成。作為一變化型,如步驟E1B所示,隔離聲源S1~SN的步驟可以藉由時頻遮蔽(time-frequency masking)來完成。當在同一空間區域中同時發生兩個事件時,時頻遮蔽可以將多個源分離。
由於步驟E1使得每個聲源S1~SN可以被隔離開來,所以於步驟E2中可以將特定的單聲道音頻流Fmono 1~Fmono N分配給每個聲源S1~SN。
於步驟E3中,每個聲源S1~SN的所在地係在舉辦體育賽事的空間內所判斷。因此,每個單聲道音頻流Fmono 1~Fmono N的所在地可以基於其特定的聲源S1~SN的所在地來判斷。特別來說,舉辦體育賽事的空間可以劃分為多個子空間。舉例來說,舉辦體育賽事的空間可以劃分為多個正方形,亦可以其他配置來劃分。舉例來說,每個子空間可以對應於體育活動的特定區域,像是場地的中心、球門區、罰球區等。各子空間可以提供至少一音頻感測器M1~MN。聲源S1~SN的所在地係相應於各子空間而決定。更精確地說,每個聲源S1~SN的所在地會對應於其所在的子空間。每個單聲道音頻流Fmono 1~Fmono N的所在地即係其所關聯的聲源S1~SN的所在地。
於步驟E5中,電腦化分析模組MIA產生描述表TAB。每個單聲道音頻流Fmono 1~Fmono N各由一識別碼ID來定義。每個識別碼ID關聯於對應的單聲道音頻流Fmono 1~Fmono N於步驟E3中所判斷的所在地資料。
根據一替代實施例,本發明的方法更包含一先前步驟E4來對單聲道音頻流Fmono 1~Fmono N進行分類。此分類係基於關聯於單聲道音頻流Fmono 1~Fmono N的聲源S1~SN的類型。如前所述,有至少三種類型的聲源S1~SN。第一類型對應於體育賽事的氣氛且包含人群的聲響。第二類型對應於體育賽事的事件且包含運動員的擊球及裁判的口哨。第三類型對應於觀眾之間的對話。每種聲源類型可以關聯於至少一種類(class)。幾個種類可以對應於同一個聲源的類型。舉例來說,對應於踢球的第一種類以及包含裁判吹口哨的第二種類可皆關聯於聲源的第二種類。
於一實施例中,單聲道音頻流Fmono 1~Fmono N的分類可以使用監督式源分離(supervised source separation)方法來完成。分類作業可以藉由使用深度神經網路技術的學習來執行。此具有使得所提方法能夠即時實施的優點。實際上,所述學習使得在獲取模組MAC擷取的音頻流被傳送至伺服器SERV時,可以辨識出這些音頻流所關聯的聲源的類型。
根據此變化型實施例,描述表TAB中所包含的每個單聲道音頻流Fmono 1~Fmono N的識別碼ID也會被分配一種類TYP。
於步驟E6中,傳送模組MT接著將描述表TAB傳送至終端TERM。此傳送中亦包含了多通道音頻流Fmulti ,所述多通道音頻流Fmulti 包含所有的單聲道音頻流。
根據一替代實施例,系統SYST不包含傳送模組MT。單聲道音頻流Fmono 1~Fmono N包含於資料庫(library)BIB中,且局部地合成以進行空間化聲音重現。
步驟E1至E6係於伺服器SERV即時地實行。
步驟E7至E11係於終端TERM實行。所述終端TERM已接收到描述表TAB以及多通道音頻流Fmulti ,其中多通道音頻流Fmulti 聚集所有的單聲道音頻流Fmono 1~Fmono N。
終端TERM可以使用描述表來應用於至少一聲音空間化濾波。於步驟E7中,終端TERM因而接收正在使用終端TERM的觀眾的定位資料。定位資料係由定位模組MP及/或方位模組MO所取得。定位資料至少包含在舉辦體育賽事的空間的參考系內的觀眾之地理位置。
定位資料可以更包含關於在空間的固定參考系內的觀眾之方位的資料,例如場地的中心。觀眾的方位對應於他所面對的子空間。如上所述,使用觀眾方位資料可以對觀眾正在觀看的空間區域進行「音頻縮放(audio zoom)」。
定位模組MP即時且連續地取得定位數據。
於步驟E8中,基於描述表TAB中所包含的觀眾的定位資料以及單聲道音頻流的所在地,對單聲道音頻流Fmono 1~Fmono N進行濾波,由此取得多個空間化單聲道音頻流Fspatia 1~Fspatia N。
然而,觀眾能夠強化某些音頻流。觀眾能夠根據其空間方位來選擇以縮放音頻,或選擇要廣播的音頻流的種類。因此,於步驟E9中,終端TERM優選地從觀眾接收指令。觀眾可以例如透過終端TERM的介面來輸入他的指令。舉例來說,可以提供一專用的應用程式(application)來實現觀眾與終端TERM之間的交流。
於步驟E10中,終端TERM將相應的增益應用於空間化單聲道音頻流Fspatia 1~Fspatia N的至少一部分。
根據考量了觀眾的方位的變化型實施例,描述表TAB會被讀取。相應的增益被應用於空間化單聲道音頻流Fspatia 1~Fspatia N,於描述表TAB中,空間化單聲道音頻流Fspatia 1~Fspatia N的關聯所在地對應於觀眾所面對的方向。更精確地說,對於聲源係位於與觀眾所觀看的子空間相同的子空間中的空間化單聲道音頻流Fspatia 1~Fspatia N會使用較大的增益。
由於定位資料係連續且即時地獲取,所應用的增益可以根據這些資料而衍化(evolve)。觀眾的方位或是地理位置的變化致使應用於不同空間化單聲道音頻流的增益值也有所變化。所應用的增益值的變化為即時產生的。
根據考量了音頻流的種類的第二實施例,描述表TAB會被讀取以判斷哪個種類係關聯於哪個空間化單聲道音頻流Fspatia 1~Fspatia N。相應的增益會被應用於具有觀眾所選擇的種類的空間化單聲道音頻流Fspatia 1~Fspatia N。觀眾可以隨時改變他的偏好指令,因此會有不同的增益被應用。相應增益值的變化為即時產生的。
於步驟E11中,空間化單聲道音頻流Fspatia 1~Fspatia N被發送至聲音重現模組諸如耳機或個人揚聲器。觀眾便可以享有本發明的系統所提供的音頻沉浸感。
根據一替代實施例,與體育賽事的過程相關的資訊被整合於廣播給觀眾的音頻流中。據此變化型,伺服器SERV可以更包含資料庫BIB,資料庫BIB包含多個情報音頻流Finfo 1~Finfo N,各關聯於一比賽階段。情報音頻流Finfo 1~Finfo N可以自動地廣播給觀眾。目前比賽階段類型係從多個比賽階段類型中來判斷。舉例來說,這些比賽階段類型包含進球(goal)、點球(penalty)、犯規(foul)等。根據所判斷的比賽階段類型,至少一情報音頻流Finfo 1~Finfo N會被選擇以從資料庫BIB播放。情報音頻流Finfo 1~Finfo N可以自動廣播。
於一變化型中,情報音頻流Finfo 1~Finfo N僅會在觀眾選擇時被廣播。情報音頻流Finfo 1~Finfo N可以將聽覺資訊添加至觀眾正在觀看的內容中。舉例來說,在進球階段,正在廣播的聽覺音頻流可以向觀眾指示進球事件的發生。這使得觀眾在其參加的體育賽事中的沉浸感得以進一步地提升,且亦可以避免錯過任何重要的比賽階段。
於一示例中,目前比賽階段類型係藉由包含至少一錄影相機的擷取裝置DP來判斷,如圖3所示。擷取裝置DP的佈置是為了能夠追蹤體育賽事的各個階段。擷取裝置DP所擷取的影像可以被傳送至電腦化分析模組,此電腦化分析模組能夠即時地判斷由擷取裝置DP所擷取的比賽階段的類型。比賽階段類型可以使用深度神經網路學習法來判斷。
M1~MN‧‧‧音頻感測器 S1~SN‧‧‧聲源 FB1~FBN‧‧‧音頻流 LOC‧‧‧分析室 SERV‧‧‧伺服器 MIA‧‧‧分析模組 DIFF‧‧‧聲音重現裝置 SYST‧‧‧系統 MAC‧‧‧獲取模組 DP‧‧‧擷取裝置 BIB‧‧‧資料庫 MT‧‧‧傳送模組 TERM‧‧‧終端 MP‧‧‧定位模組 MO‧‧‧方位模組 SS‧‧‧聲音場景 TAB‧‧‧描述表 Finfo‧‧‧情報音頻流 Fmulti‧‧‧多通道音頻流 Fspatia‧‧‧空間化單聲道音頻流
透過閱讀以下本發明一些實施例的詳細描述並參照圖式,本發明的其他特徵及優勢將顯而易見,其中,所述圖式如下所列: 圖1係根據本發明所繪示的用於廣播多通道音頻流的系統之運作示意圖。 圖2係根據本發明一示例性實施例所繪示的用於廣播多通道音頻流至參加賽事的多個觀眾的終端的方法之主要步驟示意圖。 圖3示意地表示本發明的系統。
M1~MN‧‧‧音頻感測器
S1~SN‧‧‧聲源
FB1~FBN‧‧‧音頻流
LOC‧‧‧分析室
SERV‧‧‧伺服器
MIA‧‧‧分析模組
DIFF‧‧‧聲音重現裝置

Claims (10)

  1. 一種用於將一多通道音頻流廣播至參加一體育賽事的多個觀眾的多個終端的方法,該方法包含:藉由分佈於舉辦該體育賽事的一空間內的多個音頻感測器,取得構成一聲音場景的多個原始音頻流,該聲音場景包含一或多個聲源;藉由該聲音場景的一伺服器執行一分析,該分析包含:隔離該聲音場景的每一該些聲源,且給每一該些聲源分配特定的一單聲道音頻流;對於每一該些單聲道音頻流,基於關聯於該單聲道音頻流的該聲源在舉辦該體育賽事的該空間內的位置,判斷該單聲道音頻流在該空間的所在地;以及產生該些單聲道音流頻的一描述表,該描述表包含每一該些單聲道音頻流的一識別碼,以及與每一該些單聲道音頻流的該識別碼關聯的至少一所在地資料項目;藉由該伺服器,傳送該描述表以及該多通道音頻流至該些終端中的一或多個,該多通道音頻流聚集該些單聲道音頻流;以及藉由該些終端的其中之一,使用所接收的該描述表以及該多通道音頻流,以根據每一該些單聲道音頻流的相應所在地,並根據舉辦該體育賽事的該空間內的該些終端的該其中之一的一位置,來將聲音空間化濾波應用於該些單聲道音頻流,以達到在該終端上的該些單聲道音頻流的至 少一部分的空間化聲音重現;該方法更包含於該伺服器中:對於每一比賽階段,判斷屬於多個比賽階段類型中的一比賽階段類型;基於所判斷的該比賽階段類型,在多個情報音頻流的資料庫中選擇至少一情報音頻流;以及將該至少一情報音頻流傳送至該終端,以達到聲音重現。
  2. 如請求項1所述之方法,其中該聲音場景的該分析更包含對於每一該些單聲道音頻流,根據關聯於該單聲道音頻流的一種聲源,將該單聲道音頻流分類至多個種類中的一種類,該描述表更包含關聯於每一該些單聲道音頻流的該識別碼的單聲道音頻流種類資料,且該方法更包含於該終端:從描述表(TAB)執行讀取,以識別每一該些單聲道音頻流的該種類;以及將相應的多個增益應用於該些單聲道音頻流,以用於該空間化聲音重現,該些增益係藉由該終端的一觀眾基於每一該些單聲道音頻流的該種類所選擇。
  3. 如請求項1所述之方法,更包含判斷該觀眾相對於一選定參考系的一方位,且該方法更包含將相應的該些增益應用於空間化的該些單聲道音頻流,其中應用於空間化的該些單聲道音頻流的該些增益係根據該選定參考系內的該觀眾的該位置或該方位而衍化。
  4. 如請求項1所述之方法,更包含將舉辦該體育賽事的該空間劃分為多個子空間,每一該些子空間中設置有該些音頻感測器的至少其中之一;藉由混合該些音頻感測器所擷取的該些原始音頻流來建立該聲音場景;以及為了該聲音場景的該分析,判斷相對於每一該些子空間的該些聲源的該些位置。
  5. 如請求項1所述之方法,其中隔離該些聲源係藉由源分離來完成。
  6. 如請求項1所述之方法,其中隔離該些聲源係藉由時頻遮蔽來完成。
  7. 如請求項2所述之方法,其中將該單聲道音頻流分類係藉由學習來執行,該些單聲道音頻流係藉由深度神經網路技術來分類。
  8. 如請求項1至7之任一項所述之方法,其中判斷該比賽階段類型係藉由基於多個影像的學習來執行,其中該些影像係藉由至少一相機對該些比賽階段進行錄像擷取所取得,且該學習係以深度神經網路技術來執行。
  9. 一種用於將一多通道音頻流廣播至參加一體育賽事的多個觀眾的多個終端的系統,該系統包含:一獲取模組,包含分佈於舉辦該體育賽事的一空間內的多個音頻感測器,且該獲取模組用於取得構成一聲音場景的多個原始音頻流,其中該聲音場景包含一或多個聲源;一伺服器,包含用於分析該聲音場景(SS)的一電腦化 模組,且該伺服器用於:隔離該聲音場景的每一該些聲源,且給每一該些聲源分配特定的一單聲道音頻流;對於每一該些單聲道音頻流,判斷關聯於該單聲道音頻流的該聲源在舉辦該體育賽事的該空間內的所在地;以及產生該些單聲道音流頻的一描述表,該描述表包含每一該些單聲道音頻流的一識別碼,以及與每一該些單聲道音頻流的該識別碼關聯的至少一所在地資料項目;一傳送模組,用於傳送該描述表以及該多通道音頻流至該些終端中的一或多個,該多通道音頻流聚集該些單聲道音頻流;以及該些終端的其中之一,用於:使用所接收的該描述表以及該多通道音頻流,以根據每一該些單聲道音頻流的相應所在地,並根據舉辦該體育賽事的該空間內的該觀眾的一位置,來將聲音空間化濾波應用於該些單聲道音頻流,以達到在該些終端的該其中之一上的該些單聲道音頻流的至少一部分的空間化聲音重現;其中該伺服器附加地被配置成對於每一比賽階段,判斷屬於多個比賽階段類型中的一比賽階段類型;基於所判斷的該比賽階段類型,在多個情報音頻流的資料庫中選擇至少一情報音頻流;以及 將該至少一情報音頻流傳送至該終端,以達到聲音重現。
  10. 如請求項9所述的系統,其中一方位感測器能夠判斷使用該些終端的該其中之一的一觀眾在該空間內的方位,且該方位感測器係選自一慣性量測單元或/及一加速度計。
TW108111302A 2018-03-29 2019-03-29 用於將多通道音頻流廣播至參加體育賽事的觀眾的終端的方法及系統 TWI810268B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1852774A FR3079706B1 (fr) 2018-03-29 2018-03-29 Procede et systeme de diffusion d'un flux audio multicanal a des terminaux de spectateurs assistant a un evenement sportif
FR1852774 2018-03-29

Publications (2)

Publication Number Publication Date
TW201942767A TW201942767A (zh) 2019-11-01
TWI810268B true TWI810268B (zh) 2023-08-01

Family

ID=63080027

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108111302A TWI810268B (zh) 2018-03-29 2019-03-29 用於將多通道音頻流廣播至參加體育賽事的觀眾的終端的方法及系統

Country Status (9)

Country Link
US (1) US11343632B2 (zh)
EP (1) EP3777247B1 (zh)
JP (1) JP7379363B2 (zh)
AU (1) AU2019244338B2 (zh)
BR (1) BR112020019805A2 (zh)
CA (1) CA3095573A1 (zh)
FR (1) FR3079706B1 (zh)
TW (1) TWI810268B (zh)
WO (1) WO2019186079A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220127559A (ko) * 2021-03-11 2022-09-20 삼성전자주식회사 다중-스트림을 지원하도록 구성된 스토리지 장치의 동작 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5714997A (en) * 1995-01-06 1998-02-03 Anderson; David P. Virtual reality television system
TW200606671A (en) * 2004-08-13 2006-02-16 Geoinfor Scientek Consultant Inc Electronic map platform of space information
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
US20110081024A1 (en) * 2009-10-05 2011-04-07 Harman International Industries, Incorporated System for spatial extraction of audio signals
US20150195641A1 (en) * 2014-01-06 2015-07-09 Harman International Industries, Inc. System and method for user controllable auditory environment customization
US20150213316A1 (en) * 2008-11-17 2015-07-30 Liveclips Llc Method and system for segmenting and transmitting on-demand live-action video in real-time
US20160064005A1 (en) * 2014-08-29 2016-03-03 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data
TWI540449B (zh) * 2011-03-31 2016-07-01 微軟技術授權有限責任公司 用於基於位置的會話理解的方法、電腦可讀取儲存裝置、及系統

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2569967A1 (en) 2006-04-07 2007-10-07 Marc Arseneau Method and system for enhancing the experience of a spectator attending a live sporting event
US20090094375A1 (en) * 2007-10-05 2009-04-09 Lection David B Method And System For Presenting An Event Using An Electronic Device
US20140328485A1 (en) 2013-05-06 2014-11-06 Nvidia Corporation Systems and methods for stereoisation and enhancement of live event audio
US10499176B2 (en) * 2013-05-29 2019-12-03 Qualcomm Incorporated Identifying codebooks to use when coding spatial components of a sound field
US9483228B2 (en) * 2013-08-26 2016-11-01 Dolby Laboratories Licensing Corporation Live engine
US9648436B2 (en) * 2014-04-08 2017-05-09 Doppler Labs, Inc. Augmented reality sound system
GB2549532A (en) * 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
US9832587B1 (en) * 2016-09-08 2017-11-28 Qualcomm Incorporated Assisted near-distance communication using binaural cues
JP6742216B2 (ja) * 2016-10-25 2020-08-19 キヤノン株式会社 音響処理システム、音響処理方法、プログラム
CN106774930A (zh) * 2016-12-30 2017-05-31 中兴通讯股份有限公司 一种数据处理方法、装置及采集设备
US10969666B1 (en) * 2019-08-21 2021-04-06 Disney Enterprises, Inc. Methods and systems of displaying an image free of motion-blur using spinning projectors

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5714997A (en) * 1995-01-06 1998-02-03 Anderson; David P. Virtual reality television system
TW200606671A (en) * 2004-08-13 2006-02-16 Geoinfor Scientek Consultant Inc Electronic map platform of space information
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
US20150213316A1 (en) * 2008-11-17 2015-07-30 Liveclips Llc Method and system for segmenting and transmitting on-demand live-action video in real-time
US20110081024A1 (en) * 2009-10-05 2011-04-07 Harman International Industries, Incorporated System for spatial extraction of audio signals
TWI540449B (zh) * 2011-03-31 2016-07-01 微軟技術授權有限責任公司 用於基於位置的會話理解的方法、電腦可讀取儲存裝置、及系統
US20150195641A1 (en) * 2014-01-06 2015-07-09 Harman International Industries, Inc. System and method for user controllable auditory environment customization
US20160064005A1 (en) * 2014-08-29 2016-03-03 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data

Also Published As

Publication number Publication date
AU2019244338B2 (en) 2024-10-03
JP2021520091A (ja) 2021-08-12
WO2019186079A1 (fr) 2019-10-03
EP3777247B1 (fr) 2022-12-07
US11343632B2 (en) 2022-05-24
BR112020019805A2 (pt) 2021-01-05
FR3079706A1 (fr) 2019-10-04
US20210014627A1 (en) 2021-01-14
CA3095573A1 (en) 2019-10-03
AU2019244338A1 (en) 2020-10-15
FR3079706B1 (fr) 2021-06-04
EP3777247A1 (fr) 2021-02-17
TW201942767A (zh) 2019-11-01
JP7379363B2 (ja) 2023-11-14

Similar Documents

Publication Publication Date Title
EP4242829A2 (en) Audio apparatus and method of audio processing
US10911871B1 (en) Method and apparatus for estimating spatial content of soundfield at desired location
WO2018026963A1 (en) Head-trackable spatial audio for headphones and system and method for head-trackable spatial audio for headphones
CN107182021A (zh) Vr电视中的动态空间虚拟声处理系统及处理方法
US6782238B2 (en) Method for presenting media on an electronic device
WO2017002642A1 (ja) 情報機器及び表示処理方法
TWI810268B (zh) 用於將多通道音頻流廣播至參加體育賽事的觀眾的終端的方法及系統
CN113965869A (zh) 音效处理方法、装置、服务器及存储介质
Schweiger et al. Tools for 6-Dof immersive audio-visual content capture and production
Roquet Acoustics of the one person space: headphone listening, detachable ambience, and the binaural prehistory of VR
CN114915874A (zh) 音频处理方法、装置、设备、介质及程序产品
Baxter A practical guide to television sound engineering
Baxter Immersive Sound Production: A Practical Guide
US20030053634A1 (en) Virtual audio environment
Scuda et al. Using audio objects and spatial audio in sports broadcasting
EP3321795B1 (en) A method and associated apparatuses
Hinata et al. Live Production of 22.2 Multichannel Sound for Sports Programs
Jacuzzi et al. Approaching Immersive 3D Audio Broadcast Streams of Live Performances
WO2022065136A1 (ja) 再生制御方法、制御システム、端末装置およびプログラム
US20220386063A1 (en) Method and apparatus for estimating spatial content of soundfield at desired location
US10341762B2 (en) Dynamic generation and distribution of multi-channel audio from the perspective of a specific subject of interest
Benicek Methods and Techniques for Capturing Music Concerts for Virtual Reality Experiences
CN221058361U (zh) 一种电竞赛事转播系统
US20230396858A1 (en) Technologies for communicating an enhanced event experience
JP2023110358A (ja) 音声形成システム、端末装置