TWI831320B - 電視 - Google Patents
電視 Download PDFInfo
- Publication number
- TWI831320B TWI831320B TW111129426A TW111129426A TWI831320B TW I831320 B TWI831320 B TW I831320B TW 111129426 A TW111129426 A TW 111129426A TW 111129426 A TW111129426 A TW 111129426A TW I831320 B TWI831320 B TW I831320B
- Authority
- TW
- Taiwan
- Prior art keywords
- audio
- information
- sub
- analysis
- volume adjustment
- Prior art date
Links
- 230000000873 masking effect Effects 0.000 claims description 34
- 238000000034 method Methods 0.000 claims description 20
- 239000000284 extract Substances 0.000 claims 2
- 230000006870 function Effects 0.000 description 22
- 238000005070 sampling Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000006073 displacement reaction Methods 0.000 description 10
- 230000001755 vocal effect Effects 0.000 description 10
- 230000009466 transformation Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3089—Control of digital or coded signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/485—End-user interface for client configuration
- H04N21/4852—End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/01—Aspects of volume control, not necessarily automatic, in sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Receiver Circuits (AREA)
- Details Of Television Systems (AREA)
Abstract
本發明係關於一種電視,電視包括一遙控器、一接收元件、一喇叭、一語音分析模型、一處理器。處理器收到遙控器所傳來的音量調整指令後,將影像聲音進行分析,得到多個分析音訊,再根據音量調整指令對每個分析音訊進行調整後,根據該些分析音訊獲得一重複音訊區段,再控制喇叭輸出重複音訊區段。如此一來便可根據使用者需求,即時對影像音訊進行調整後輸出。
Description
本發明係關於一種電視,尤指一種可單獨對目標音量進行調整之電視及音量控制系統。
現今的社會,電視已成為家庭娛樂的中心,無論是電視的觀看、電影欣賞、交響樂的聆聽,均是以電視為中心向外輻射,為提升用戶體驗,聽覺享受也是一項重大問題。
然而,目前電視音量的調整,是將影像音訊內所有的聲音同步提高或降低,無法使單一聲音進行音量調整,舉例來說,不是所有的人對於電視播放的聲音均有興趣,有時我們可能在看新聞時,關注新聞主播的聲音而不是背景聲音。我們可能想欣賞交響音樂會的音樂,並讓廣播公司的評論靜音。
因此,若能單獨調整目標音量大小,以提升使用者對於電視的享受變得相當重要。
有鑑於先前技術所述之問題,本發明人提供一種電視,包括:一遙控器、一接收元件、一喇叭、一語音分析模型,及一處理器。
遙控器用以發送一音量調整指令;接收元件用以接收該音量調整指令;語音分析模型用以依據一參數及一影像音訊,獲得一分析音訊及一隱藏層狀態資訊;處理器用以將該影像音訊,以該語音分析模型進行多次運算並對應獲得多個該些分析音訊及該隱藏層狀態資訊;依據該音量調整指令調整該些分析音訊之音量;依據該些分析音訊,獲得一重複音訊區段;控制該喇叭輸出該重複音訊區段。
本發明在每一次運算的過程中都會保有上一次運算的隱藏層狀態資訊,再配合重複音訊區段的運算,使得本發明之電視得以即時對影像音訊進行處理,以滿足使用者在聽覺上的享受與需求。
請參閱圖2所示,是繪示本發明一些實施例之運算示意圖,需先聲明的是,圖2中箭頭A示意隱藏層狀態資訊之傳輸、箭頭B示意相位資訊的傳輸、箭頭C、D示意強度資訊的傳輸、箭頭E示意遮蔽資訊的傳輸、箭頭F示意遮蔽資訊對強度資訊進行遮蔽、箭頭G示意遮蔽後的強度資訊之傳輸、箭頭H示意分析音訊之傳輸。
請參閱圖1所示,本案之電視包括一遙控器10、一接收元件20、一喇叭30、一語音分析模型40、一處理器50、及一分離器60。其中,接收元件20用以接收音量調整指令,如藍芽接收器、紅外線接收器、網路等,舉凡可供用於接收音量調整指令者,均為本說明書所指之接收元件20,在一些實施例中,接收元件20為紅外線接收器,喇叭30用以輸出聲音。
請參閱圖1所示,遙控器10用以發送一音量調整指令,音量調整指令又可分為整體音量調整指令與目標音量調整指令,整體音量調整指令是將影像音訊中的人聲及非人聲之部分同時進行音量調整且二者調整幅度相同的指令,目標音量調整指令是將影像音訊中其中一種類音訊進行音量調整的指令,如人聲、樂器聲、環境聲等,本說明書係以目標音量調整指令為對人聲音量進行調整為例進行說明。遙控器10主要是具有複數操作按鍵用以按壓而發送指令者,在一些實施例中,遙控器10也可是一智慧型手機,透過行動應用程式(application, app)之輔助以發送音量調整指令。
請參閱圖1所示,語音分析模型40用以依據影像音訊,獲得一分析結果及一隱藏層狀態資訊,在一些實施例中分析結果為一遮蔽資訊。
其中,分析過程中是先根據影像音訊取得一強度資訊(magnitude)及一相位資訊(phase),請再配合圖2所示,在一些實施例中,取得強度資訊與相位資訊之手段是影像音訊進行轉換而取得,該轉換可以是傅立葉轉換(Fourier transform)、快速傅立葉轉換(fast Fourier transform)、或短時距傅立葉轉換(short-time Fourier transform、windowed Fourier transform或time-dependent Fourier transform)。以短時傅立葉轉換為例,在進行轉換的過程中,影像音訊的採樣率為48k Hz、窗口長度(window length)為4096個取樣點、位移長度(shifting length)為1024個取樣點,因此窗口長度的時間約為85.33ms(4096/48000),位移長度的時間約為21.33ms(1024/48000),因此分析過程中是將85.33ms的影像音訊進行分析並每次更新21.33ms的影像音訊,使得利用本發明之在分析過程中具有較快速的處理速率,較低的延遲(latency),同時兼顧音訊的清晰度。其中,影像音訊的採樣率可以是44.1k Hz、48 k Hz 、96 k Hz 、192 k Hz,窗口長度可以是512、1024、2048、4096個取樣點,前述實施例子中,窗口長度為位移長度的4倍,則位移長度是128、256、512、1024個取樣點,另外窗口長度與位移長度之間的關係但並不以此為限,窗口長度可以是位移長度的多數倍,例如2倍、8倍、16倍等。
影像音訊在經過傅立葉轉換後,會由時域轉換成頻域,也因此,相位資訊會以頻譜方式呈現出影像音訊中相位與頻率之間的關係,其中橫軸為頻率、縱軸為相位;同理,強度資訊是以頻譜方式呈現影像音訊中振幅與頻率之間的關係,其中橫軸為頻率,縱軸為振幅。在取得強度資訊與相位資訊後,語音分析模型40再將強度資訊進行分析後得到一遮蔽(mask)資訊,分離器60再利用遮蔽資訊對強度資訊進行遮蔽,以得到目標強度資訊,之後再根據目標強度資訊與相位資訊進行反向傅立葉IFFT轉換,以取得分析音訊T00及一隱藏層狀態資訊。
在一些實施例中,遮蔽資訊是用以將強度資訊中的部分音訊進行遮蔽,使其留下其餘音訊,舉例來說,當欲取得人聲音訊時,則遮蔽資訊可將強度資訊中屬於音樂聲、環境聲、雜音等聲音資訊進行屏蔽,使其留下屬於人聲之強度資訊,如此一來當屬於人聲之強度資訊與相位資訊進行反向傅立葉轉換後,便可取得只有人聲之音訊,當欲取得音樂聲、環境聲等其餘聲音時依此類推不再贅述。
請參閱圖1及圖2所示,處理器50將影像音訊,以語音分析模型40及分離器60進行多次運算並對應獲得多個分析音訊T00及隱藏層狀態資訊;接著依據音量調整指令調整該些分析音訊T00之音量;然後,依據該些分析音訊T00,獲得一重複音訊區段R;最後控制喇叭輸出該重複音訊區段R。其中,運算是指語音分析模型40在每一次的分析過程中,會將上一次分析的隱藏層狀態資訊作為下一次分析的輸入資訊,藉以使得分析過程會參考上次分析內容,在一些實施例中,運算可以是循環神經網路(Recurrent Neural Network, RNN)、長短期記憶(Long Short-Term Memory, LSTM)。
如此一來,本發明將可即時對影像音訊進行處理,而根據音量調整指令進行調整,令使用者得以根據自身需求,即時控制電視所輸出的影像音訊。
請參閱圖2,在一些實施例中,處理器50將一影像音訊以語音分析模型40進行運算前,處理器50會將影像音訊以時間為區間,分割成多個連續原始子音訊組V10,各原始子音訊組V10內包括多個子音訊(t0、t1、t2、t3、…、tn),以圖2為例,第一原始子音訊組V11內包括連續多個子音訊(t0、t1、t2、t3),第二原始子音訊組V12內包括多個連續子音訊(t1、t2、t3、t4),以形成原始子音訊組V10內的尾部訊號與下一個原始子音訊組V10的頭部訊號相同。由上述可知,每次對原始子音訊組進行分析時,會將上一次原始子音訊組內部分的子音訊保留,另一部分的子音訊則剃除並加上等量其他子音訊,此種方式有助於後續進行語音分析之效率,另外,每次汰除的子音訊數量不限於上述,也可以是二或三,或是根據原始子音訊組之數量進行調整、改變,本實施例係以每次剃除一子音訊為例進行說明。在一些實施例中,子音訊之資料量為48K Hz取樣頻率下的1024個取樣點(21.33ms)。
處理器50進行第一次運算時,是將第一原始子音訊組V11以語音分析模型40及分離器60進行運算,其運算方式如前述在此不再贅述,運算後會得到一第一分析音訊T10及隱藏層狀態資訊。接著進行第二次運算時,處理器50會將第一次運算所取得之隱藏層狀態資訊及第二原始子音訊組V12做為輸入,以利用語音分析模型40進行分析,而得到第二分析音訊T20。如此反覆進行運算,將得到第三分析音訊T30、第四分析音訊T40…,接著將各分析音訊T10~T40中重疊之部分取出做為重複音訊區段R輸出,如圖所示,再經過4次分析後重疊部分為子音訊t3,所以子音訊t3會作為重複音訊區段進行輸出。在一些實施例中,係以重疊-相加之摺積法(overlap-add method)取出重複音訊區段R。圖2是呈現本發明進行運算之示意圖,故圖示中未提起之部分,其工作原理如同上述,在此不再贅述。
請參閱圖2所示,在一些實施例中,在取得分析音訊T00之前,是先透過分離器60根據遮蔽資訊與強度資訊得到目標強度資訊,再根據目標強度資訊與相位資訊進行反向傅立葉IFFT轉換後,得到目標分析子音訊,配合圖3所示,再根據音量調整指令對每個目標分析子音訊進行音量調整後與影像音訊進行混合,得到分析音訊T00。舉例來說,當使用者欲提高影像音訊中的人聲時,利用語音分析模型40及分離器60取得人聲音訊做為目標分析子音訊,接著將人聲音訊與影像音訊進行混合再利用喇叭30輸出,這時使用者會聽到只有人聲提高後的影像音訊,或是將人聲音訊保持不變但調小影像音訊再做混合,以達到相同效果,此種方式的好處是混合後的影像音訊聽起來聲音較為飽和、自然。
請參閱圖4,在一些實施例中,語音分析模型40及分離器60不單只是取得目標強度資訊,而是連同非目標強度資訊一起取得,接著再配合相位資訊進行反向傅立葉IFFT轉換後,會得到目標分析子音訊及非目標分析子音訊,以圖4為例,是將影像音訊進行分析後得到目標分析子音訊與非目標分析子音訊,這時非目標分析子音訊的音量大小不變,僅調整目標分析子音訊的音量後,再將目標分析子音訊與非目標分析子音訊進行混合得到分析音訊T00,以使分析音訊T00中目標音訊的音量得以被突顯,例如欲突顯歌曲中的人聲時,這時樂器音量不變,僅調整人聲的音量。請參閱圖5,與圖4不同之處在於非目標分析子音訊的音量大小也會進行調整,再將目標分析子音訊與非目標分析子音訊進行混合以得到分析音訊T00,以上述例子來說,這時是樂器音量降低、人聲音量調高,因此混合後的音訊會突顯出人聲,或是使人聲音量不變但調小樂器音量來達到相同效果。
請參閱圖6所示,在一些實施例中,音量調整指令包括一目標音量調整按鈕;遙控器10具有一目標音量調整按鈕11,用以發送目標音量調整指令。也因此,遙控器10較佳同時具有整體音量調整按鈕12及目標音量調整按鈕11,以供使用者對影像音訊進行整體的音量調整,或者對影像音訊內特定音量進行調整。所以當使用者覺得電視揚聲器太大聲,可以使用整體音量調整按鈕12,如果使用者想對目標音頻進行調整,我們可以使用目標音量調整按鈕11。在一些實施例中,也可以利用遙控器10輸入指令,讓使用者可以選擇目標音量的種類,例如當使用者透過遙控器輸入指令,可選擇人聲作為目標音量,也可選擇樂器聲、背景聲等作為目標音量。
在一些實施例中,音量調整指令也包括複數模式指令,該些模式指令分別具有相異之音量調整比例。舉例來說,當該些模式指令之一為KTV模式時,這時表示音量調整比例是人聲為0保留樂器聲,以此模式來進行上述流程,此外,該些模式指令之一為標準模式時,這時表示電視以原始的影像音訊進行輸出。如此一來,根據該些模式指令讓使用者可以根據需求快速進行音訊調整。請再看圖6,為了因應上述實施例,在一些實施例中,遙控器10更具有複數對應該些模式指令之模式按鈕13,以供使用者快速進行音量控制之操作,如前述,該些模式按鈕13包括一KTV模式按鈕13A及一標準模式按鈕13B,以供按壓後輸出相對應之模式指令,以提供使用者快速切換各種模式。
請參閱圖7所示,為讓所屬技術領域之通常知識者得以更清楚了解本案之內容,以下係介紹關於如何訓練上述語音分析模型的方法,該方法包括下列步驟:
步驟S1:取一原始音訊進行轉換得到一相位(phase)資訊及一強度(magnitude)資訊。其中,原始音訊的取得可以透過收音元件對環境、音樂會、演唱會等進行收音而取得,也可透過擷取影音資訊內的音訊作為原始音訊,亦可透過不同種類音訊混成之方式取得,例如將樂器音訊、人聲、環境聲等進行混成後作為原始音訊,其中以混成方式取得原始音訊之實施方式請參閱後述,且,原始音訊的取樣率可以是44.1k Hz、48 k Hz 、96 k Hz 、192 k Hz。
步驟S1係對原始音訊進行一轉換,該轉換可以是傅立葉轉換(Fourier transform)、快速傅立葉轉換(fast Fourier transform)、或短時距傅立葉轉換(short-time Fourier transform、windowed Fourier transform或time-dependent Fourier transform)。以短時傅立葉轉換為例,在進行轉換的過程中,原始音訊的採樣率為48k Hz、窗口長度(window length)為4096個取樣點、位移長度(shifting length)為1024個取樣點,因此窗口長度的時間約為85.33ms(4096/48000),位移長度的時間約為21.33ms(1024/48000),這使得利用本發明之方法所訓練完成的語音分析模型,應用在語音辨識時具有較快速的處理速率,較低的延遲(latency),同時兼顧音訊的清晰度。其中,窗口長度可以是512、1024、2048、4096個取樣點,前述實施例子中,窗口長度為位移長度的4倍,則位移長度是128、256、512、1024個取樣點,另外窗口長度與位移長度之間的關係但並不以此為限,窗口長度可以是位移長度的多數倍,例如2倍、8倍、16倍等。
在一些實施例中,在經過傅立葉轉換後,將原始音訊由時域轉換成頻域,也因此,相位資訊會以頻譜方式呈現出原始音訊中相位與頻率之間的關係,其中橫軸為頻率、縱軸為相位;同理,強度資訊是以頻譜方式呈現原始音訊中振幅與頻率之間的關係,其中橫軸為頻率,縱軸為振幅。
步驟S2:根據強度資訊及一語音分析模型,得到一遮蔽(mask)資訊。其中,遮蔽資訊是指對強度資訊中的部分資訊進行遮蔽,使其留下其餘強度資訊,舉例來說,當強度資訊中具有人聲資訊及樂器聲資訊,透過遮蔽資訊可選擇性將樂器聲資訊進行遮蔽,而留下具有人聲資訊的強度資訊。在一些實施例中,根據強度資訊及語音分析模型得到非目標遮蔽子資訊;在一些實施例中,根據強度資訊及語音分析模型得到目標遮蔽子資訊及非目標遮蔽子資訊。
步驟S3:根據強度資訊與遮蔽資訊,得到一強度預測資訊。其中,強度資訊具有目標強度子資訊及非目標強度子資訊,所以當目標遮蔽子資訊對強度資訊進行遮蔽時,會遮蔽住目標強度子資訊而得到非目標強度預測子資訊,同理,非目標遮蔽子資訊則是會遮蔽住強度資訊內的非目標強度子資訊,而得到目標強度預測子資訊。
步驟S4:根據強度預測資訊、相位資訊及一損失函數調整語音分析模型,在一些實施例中,步驟S4係以調整語音分析模型內的參數,此部分之實施例請參閱後述。在一些實施例中,參數是指語音分析模型中已訓練完成之權重值。其中,損失函數(loss function)又可稱之為代價函數(cost function),是用來評估語音分析模型的分析準確程度,因此損失函數的值越小,代表語音分析模型準確程度高,反之則代表語音分析模型準確度低,須對參數進行調整,至於損失函數之實施例請參閱後述。
如此一來,透過上述步驟可對語音分析模型40進行訓練,使語音分析模型所分析出的遮蔽資訊可有效用來遮蔽強度資訊內的資訊,以供分離器60對強度資訊進行分離。舉例來說當原始音訊中具有人聲及樂器聲,可設定目標遮蔽子資訊為遮蔽人聲,而非目標遮蔽子資訊為遮蔽樂器聲,因此當分離器60利用目標遮蔽子資訊對強度資訊進行遮蔽後,便可分離出具有樂器聲的強度資訊,而作為非目標強度子資訊,接著將具有樂器聲的強度資訊與相位資訊進行反向傅立葉轉換時,便可取得僅具有樂器聲之音訊。同理,當分離器60利用非目標遮蔽子資訊對強度資訊進行遮蔽後,便可分離出具有人聲的強度資訊,而作為目標強度子資訊,接著將具有人聲的強度資訊與相位資訊進行反向傅立葉轉換時,便可取得僅具有人聲之音訊。
在一些實施例,步驟S1中是先將原始訊號進行離線處理或線上處理,以分離人聲為例,離線處理是進行數據增強,利用混合更多種聲音來製作更多數據,例如將人聲混合音樂而得到原始音訊,又或者由人聲、音樂、雜音三種聲音數據中,包括人聲取二種以上之聲音數據混合出原始音訊。至於線上處理則是讓數據增廣,利用隨機尺度改變原始音訊的響度,即data = data * random.uniform(low, high),在一些實施例中low = 0.75、high = 0.9。也會進行反轉數據,即data = data [::-1]。其中,尺度適用於度量原始音訊,因此用不同大小的尺度對相同原始音訊度量後會有不同的響度。
請參閱圖8所示,在一些實施例中,語音分析模型是先將原始音訊進行層化fc1、標準化bn1,在經過啟動函數f1後,再利用神經網絡NN進行處理,處理後的音訊再反覆經過層化fc2、fc3、標準化bn2、bn3,啟動函數f2、f3後得到遮蔽資訊,其中標準化是降低樣本之間的差異,以避免訓練過程中產生梯度消失或梯度爆炸,標準化可以是批量標準化(batch normalization, BN),啟動函數(activation function, 又稱活化函數或激活函數)主要讓語音分析模型從資料中學習到非線性關係,啟動函數可以是step函數、sigmoid函數、tanh函數、relu函數、softmax函數;神經網絡可以是遞迴神經網絡(recurrent neural networks, RNN)、長短期記憶模型(long short-term memory, LSTM)。在一些實施例中,層化fc1、fc2、fc3為全連接層(fully connected)、標準化bn1、bn2、bn3為批次標準化,而啟動函數f1、f2、f3使用relu函數,且神經網絡NN為單向的長短期記憶模型,使訓練好的語音分析模型得以有效取得遮蔽資訊。
在一些實施例中,當步驟S2所得到的遮蔽資訊是非目標遮蔽子資訊時,進行步驟S3時,則利用非目標遮蔽子資訊將強度資訊中屬於非目標強度子資訊進行遮蔽,得到目標強度預測子資訊,以取得人聲為例,該非目標遮蔽子資訊則為對音樂、雜音等資訊進行屏蔽,如此一來強度資訊經非目標遮蔽子資訊進行遮蔽後會留下人聲。接著進行步驟S4時,如下列式1,根據目標強度預測子資訊(predict_magnitude)及目標強度子資訊(target_magnitude),得到一頻域損失子函數(loss_freq)。其中,MAE為平均絕對值誤差(Mean absolute error,MAE)。
式1
然後根據目標強度預測子資訊及相位資訊進行逆向傅立葉轉換,得到一目標預測子音訊(predict_signal)。接著如下列式2,根據原始音訊(target_signal)及目標預測子音訊,得到一時域損失子函數(loss_time)。
式2
最後如下列式3,根據時域損失子函數與頻域損失子函數得到該損失函數(loss),在一些實施例中,alpha為0.99。
式3
在一些實施例中,當步驟S2所得到的遮蔽資訊是目標遮蔽子資訊及非目標遮蔽子資訊時,以下是以目標為人聲、非目標為音樂聲為例進行說明,在進行步驟S3是利用目標遮蔽子資訊及非目標遮蔽子資訊分別對強度資訊進行遮蔽,得到目標強度預測子資訊及非目標強度預測子資訊。接著進行步驟S4時如下列式4,根據目標強度預測子資訊(p_v_m)、非目標強度預測子資訊(p_m_m)、目標強度子資訊(t_v_m)、非目標強度子資訊(t_m_m),得到一頻域損失子函數(l_f)。
式4
然後如下列式5,原始音訊包括目標原始子音訊(t_v)與非目標原始子音訊(t_m),再根據目標預測子音訊(p_v)、非目標預測子音訊(p_m)得到一時域損失子函數(l_t);
式5
接著如下列式6,根據時域損失子函數及頻域損失子函數,得到損失函數(loss)。
式6
雖然本案的技術內容已經以各種實施例揭示如上,然,其並非用以限定本案之保障範圍,任何熟習本案所屬領域之通常知識者,在不脫離本案之精神所作更動或修潤,皆屬本案所欲保障之範疇內,因此本案之保障範圍應當以申請專利範圍所述之內容為准。
10:遙控器
11:目標音量調整按鈕
12:整體音量調整按鈕
13:模式按鈕
13A:KTV模式按鈕
13B:標準模式按鈕
20:接收元件
30:喇叭
40:語音分析模型
50:處理器
60:分離器
A~H:箭頭
fc1~fc3:層化
bn1~bn3:標準化
f1~f3:啟動函數
NN:神經網絡
R:重複音訊區段
T00:分析音訊
T10:第一分析音訊
T20:第二分析音訊
T30:第三分析音訊
T40:第四分析音訊
V10:原始子音訊組
V11:第一原始子音訊組
V12:第二原始子音訊組
FFT:傅立葉轉換
IFFT:反向傅立葉轉換
S1~S4:步驟
圖1繪示本發明一些實施例之各元件連結方塊圖。
圖2繪示本發明一些實施例之運算示意圖。
圖3繪示本發明一些實施例之分析音訊取得示意圖。
圖4繪示本發明一些實施例之分析音訊取得示意圖。
圖5繪示本發明一些實施例之分析音訊取得示意圖。
圖6繪示本發明一些實施例之遙控器示意圖。
圖7繪示本發明一些實施例之工作流程示意圖。
圖8繪示本發明一些實施例之語音分析模型工作示意圖。
10:遙控器
20:接收元件
30:喇叭
40:語音分析模型
50:處理器
60:分離器
Claims (8)
- 一種電視,包括:一遙控器,用以發送一音量調整指令;一接收元件,用以接收該音量調整指令;一喇叭;一語音分析模型,用以依據一影像音訊進行語音分析及語音訓練運算,獲得一分析結果及一隱藏層狀態資訊;及一處理器,用以:將該影像音訊,以該語音分析模型進行多次語音分析及予音訓練運算運算並對應獲得多個分析音訊及該隱藏層狀態資訊;依據該音量調整指令調整該些分析音訊之音量;將該些分析音訊彼此重疊之部分取出,獲得一重複音訊區段;及控制該喇叭輸出該重複音訊區段;其中該處理器將該影像音訊,以該語音分析模型及一分離器進行多次語音分析及語音訓練運算,獲得多個遮蔽資訊,該分離器再根據每個遮蔽資訊與該影像音訊,獲得多個相對應之目標分析子音訊及非目標分析子音訊,根據該音量調整指令對每個目標分析子音訊進行音量調整後與相對應之非目標分析子音訊進行混合,得到該些分析音訊。
- 一種電視,包括:一遙控器,用以發送一音量調整指令;一接收元件,用以接收該音量調整指令; 一喇叭;一語音分析模型,用以依據一影像音訊進行語音分析及語音訓練運算,獲得一分析結果及一隱藏層狀態資訊;及一處理器,用以:將該影像音訊,以該語音分析模型進行多次語音分析及語音訓練運算並對應獲得多個分析音訊及該隱藏層狀態資訊;依據該音量調整指令調整該些分析音訊之音量;將該些分析音訊彼此重疊之部分取出,獲得一重複音訊區段;及控制該喇叭輸出該重複音訊區段;其中該處理器將該影像音訊,以該語音分析模型及一分離器進行多次語音分析及語音訓練運算,獲得多個遮蔽資訊,該分離器再根據每個遮蔽資訊與該影像音訊,獲得多個目標分析子音訊,根據該音量調整指令對每個目標分析子音訊進行音量調整後與該影像音訊進行混合,得到該些分析音訊。
- 如請求項1或2所述之電視,該運算根據該分析音訊、該語音分析模型,及上一次運算產生的該隱藏層狀態資訊進行運算。
- 如請求項3所述之電視,其中該處理器依據該些分析音訊及重疊-相加之摺積法(overlap-add method),獲得該重複音訊區段。
- 如請求項4所述之電視,其中該音量調整指令包括一目標音量調整指令;該遙控器具有一目標音量調整按鈕,用以發送該目標音量調整指令。
- 如請求項5所述之電視,該處理器將該影像音訊分成連 續的多個原始子音訊組,各原始子音訊組包括連續子音訊,原始子音訊組內的尾部子音訊與下一個原始子音訊組的頭部子音訊相同;該處理器依序取該些原始子音訊組,以該語音分析模型進行多次運算。
- 如請求項1或2所述之電視,其中該音量調整指令包括複數模式指令,該些模式指令分別具有相異之音量調整比例。
- 如請求項7所述之電視,其中該遙控器具有複數對應該些模式指令之模式按鈕。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111129426A TWI831320B (zh) | 2022-08-04 | 2022-08-04 | 電視 |
US17/972,061 US20240046926A1 (en) | 2022-08-04 | 2022-10-24 | Television |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111129426A TWI831320B (zh) | 2022-08-04 | 2022-08-04 | 電視 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI831320B true TWI831320B (zh) | 2024-02-01 |
TW202407688A TW202407688A (zh) | 2024-02-16 |
Family
ID=89769400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111129426A TWI831320B (zh) | 2022-08-04 | 2022-08-04 | 電視 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240046926A1 (zh) |
TW (1) | TWI831320B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201214176A (en) * | 2010-08-30 | 2012-04-01 | Nokia Corp | Method and apparatus for conducting a search based on context |
US20160105698A1 (en) * | 2014-10-09 | 2016-04-14 | FiveByFive, Inc. | Channel-based live tv conversion |
CN109074806A (zh) * | 2016-02-12 | 2018-12-21 | 亚马逊技术公司 | 控制分布式音频输出以实现语音输出 |
CN110019752A (zh) * | 2018-01-08 | 2019-07-16 | 苹果公司 | 多方向对话 |
-
2022
- 2022-08-04 TW TW111129426A patent/TWI831320B/zh active
- 2022-10-24 US US17/972,061 patent/US20240046926A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201214176A (en) * | 2010-08-30 | 2012-04-01 | Nokia Corp | Method and apparatus for conducting a search based on context |
US20160105698A1 (en) * | 2014-10-09 | 2016-04-14 | FiveByFive, Inc. | Channel-based live tv conversion |
CN109074806A (zh) * | 2016-02-12 | 2018-12-21 | 亚马逊技术公司 | 控制分布式音频输出以实现语音输出 |
CN110019752A (zh) * | 2018-01-08 | 2019-07-16 | 苹果公司 | 多方向对话 |
Also Published As
Publication number | Publication date |
---|---|
TW202407688A (zh) | 2024-02-16 |
US20240046926A1 (en) | 2024-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7404067B2 (ja) | ライブ音楽実演のマルチメディア・コンテンツのネットワーク・ベースの処理および配送 | |
JP4964943B2 (ja) | オーディオ入力信号の反響コンテンツを抽出および変更するためのシステム | |
US9918174B2 (en) | Wireless exchange of data between devices in live events | |
KR100885699B1 (ko) | 키 입력 장치 및 입력 방법 | |
JP5057535B1 (ja) | ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法 | |
Griesinger | Spaciousness and envelopment in musical acoustics | |
TWI831320B (zh) | 電視 | |
CN115699160A (zh) | 电子设备、方法和计算机程序 | |
US20230057082A1 (en) | Electronic device, method and computer program | |
TWI831321B (zh) | 音訊即時處理系統、音訊即時處理程式、及語音分析模型的訓練方法 | |
CN113347551B (zh) | 一种单声道音频信号的处理方法、装置及可读存储介质 | |
EP4036915A1 (en) | Acoustic treatment method and acoustic treatment system | |
US20220076687A1 (en) | Electronic device, method and computer program | |
CN117640865A (zh) | 电视 | |
TWI524328B (zh) | 互動音訊效果產生系統及其方法 | |
JP6798392B2 (ja) | 効果付与装置及び効果付与プログラム | |
JP2021128252A (ja) | 音源分離プログラム、音源分離装置、音源分離方法及び生成プログラム | |
CN117672249A (zh) | 音频实时处理系统、音频实时处理方法、及语音分析模型的训练方法 | |
Meunier et al. | Asymmetry in perceived duration between up-ramp and down-ramp sounds as a function of duration | |
JP2022049333A (ja) | 再生制御方法、制御システムおよびプログラム | |
WO2023174951A1 (en) | Apparatus and method for an automated control of a reverberation level using a perceptional model | |
WO2024107342A1 (en) | Dynamic effects karaoke | |
CN117061945A (zh) | 终端设备、声音调整方法、及存储介质 | |
Kim | Development of a Customized User Control of Digital Audio in a Smart Home |