TWI385646B

TWI385646B - 影音編輯系統、方法及具有該影音編輯系統的電子設備

Info

Publication number: TWI385646B
Application number: TW98117143A
Authority: TW
Inventors: Chuan Feng Wu
Original assignee: Hon Hai Prec Ind Co Ltd
Priority date: 2009-05-22
Filing date: 2009-05-22
Publication date: 2013-02-11
Also published as: TW201042636A

Description

影音編輯系統、方法及具有該影音編輯系統的電子設備

本發明涉及一種影音編輯系統、方法及具有該影音編輯系統的電子設備。

科技的進步為人們帶來越來越多的便利。電子產品、資訊產品已經與人們的生活結合的越來越緊密。而聲音資訊及圖像資訊的傳遞和記錄也隨著科技的發展變得越來越容易。但是，無論是播放的電視節目還是家庭錄影中，偶爾會有些不雅的言語被播出或記錄下來。這可能會造成小孩錯誤的示範或對小孩的言行產生不利的影響。而一般家庭在使用攝像機進行錄音錄影時，也可能會因錄影中包含不雅的話語而造成一些具有紀念價值的影片無法與別人分享。

有鑒於此，有必要提供一種可以對不雅的影音內容進行過濾的影音編輯系統、方法及具有該影音編輯系統的電子設備。

一種影音編輯系統，其用於影音內容的過濾，所述影音編輯系統包括樣本記憶體及處理器。所述樣本記憶體內存儲有不雅聲音樣本，所述處理器包括：聲音獲取模塊，用於從所述影音內容中獲取聲音；聲音辨識模塊，用於將獲取的聲音進行識別；聲音對比模塊，用於將識別出的聲音與所述樣本記憶體內的不雅聲音樣本對比，判斷是否存在不雅聲音；聲音編輯模塊，用於當所述對比模塊判斷出存在不雅聲音時，將不雅聲音進行編輯。

一種影音編輯方法，該影音編輯方法根據預設的不雅聲音樣本，將影音內容中的不雅聲音進行編輯。所述影音編輯方法包括以下步驟：獲取影音內容中的聲音；將獲取的聲音與不雅聲音樣本進行對比；若存在不雅聲音，將不雅聲音進行編輯。

一種電子設備，該電子設備包括可以輸出影音內容的影音獲取模塊。所述電子設備還包括樣本記憶體及處理器，所述樣本記憶體內存儲有不雅聲音樣本，所述處理器與所述影音獲取模塊電連接，所述處理器包括：聲音獲取模塊，用於從所述影音內容中獲取聲音；聲音辨識模塊，用於將獲取的聲音進行識別；聲音對比模塊，用於將識別出的聲音與所述樣本記憶體內的不雅聲音樣本對比，判斷是否存在不雅聲音；聲音編輯模塊，用於當所述對比模塊判斷出存在不雅聲音時，將不雅聲音進行編輯。

本發明提供的影音編輯系統、方法及具有該影音編輯系統的電子設備可以對影音內容中不雅聲音進行過濾，從而有利於保證影音內容的健康。

下面將結合附圖，對本發明作進一步的詳細說明。

請參見圖1，為本發明實施方式提供的電子設備100，所述電子設備100可以是具有攝像功能的手機、具有攝像功能的掌上電腦、數位相機或數位攝像機等。本實施方式中，所述電子設備100為數位攝像機。所述電子設備100還可以是具有圖像處理及存儲功能的數位電視或網路電視等圖像播放設備。

所述電子設備100包括影音獲取模塊10、樣本記憶體20、影音記憶體30、處理器40。所述影音獲取模塊10用於輸出影音內容。所述影音獲取模塊10可以由影像感測器及麥克風組成，也可以由接收影音訊號的接收裝置、圖像解碼器組成。本實施方式中，所述電子設備100為數位攝像機。所述影音獲取模塊10由影像感測器及麥克風組成。

所述樣本記憶體20內存儲有不雅聲音樣本及不雅圖像樣本。本實施方式中，先利用語音識別技術，將大量不雅的字、詞、句、聲調等通過神經網路演算法進行訓練，從而提取各種不雅聲音所具有的特徵值，再將各種不雅聲音的特徵值作為不雅聲音樣本存儲於所述樣本記憶體20內。對於不雅圖像樣本，是通過圖像識別技術，將大量與不雅聲音樣本相對應的嘴、手勢、文字等圖形進行處理，從而提取各種不雅圖像所具有的特徵圖形作為不雅圖像樣本存儲於所述樣本記憶體20內。本實施方式中，所述樣本記憶體20內存儲的不雅圖像樣本是與不雅聲音資訊對應的嘴形。

所述影音記憶體30用於存儲錄製及編輯過的影音內容。

所述處理器40包括聲音獲取模塊41、聲音辨識模塊42、聲音對比模塊43、聲音編輯模塊44、圖像獲取模塊45、時間段模塊46、圖像辨識模塊47、圖像對比模塊48、圖像編輯模塊49及存儲模塊50。

所述聲音獲取模塊41用於從影音內容中獲取聲音。本實施方式中，所述獲取模塊41用於從影音獲取模塊10獲取聲音資料。

聲音辨識模塊42用於將獲取的聲音進行識別。本實施方式中，所述聲音辨識模塊42利用端點偵測技術判斷所述獲取模塊41獲取的聲音資料中哪些區段是有聲段，那些是屬於無聲段或背景雜訊。當找到有聲段後，所述聲音辨識模塊42利用強波處理技術補償語音訊號中濁音訊號的衰減，以提高辨識的準確率，然後利用數位濾波器組來處理語音訊號，將每個濾波器的頻譜能量值利用線性倒頻譜係數轉換成為聲音的特徵值。

所述聲音對比模塊43用於將識別出的聲音與所述記憶體內的不雅聲音樣本對比，判斷是否存在不雅聲音。本實施方式中，所述聲音對比模塊43將所述聲音辨識模塊42獲取的聲音的特徵值與所述樣本記憶體20內的不雅聲音的特徵值進行對比，根據特徵值是否相同來判斷獲取的聲音資料中是否存在不雅聲音。

所述聲音編輯模塊44用於當所述聲音對比模塊43判斷出存在不雅聲音時，將不雅聲音進行編輯。本實施方式中，若所述聲音對比模塊43判斷出所述聲音辨識模塊42獲取的聲音的特徵值與所述樣本記憶體20內的不雅聲音的特徵值相同，所述聲音編輯模塊44將對不雅聲音進行編輯。所述聲音編輯模塊44可以將不雅聲音進行替換或刪除。本實施方式中，當所述聲音對比模塊43判斷出存在不雅的言語時，所述聲音編輯模塊44就將包含不雅聲音的資料進行刪除。當所述聲音編輯模塊44需要將不雅聲音進行替換時，所述聲音編輯模塊44內應預先存有替換聲音，例如“嗶嗶”聲。當存在不雅的言語時，所述聲音編輯模塊44就將包含不雅聲音的資料利用替換聲音進行替換。

有時，不雅聲音存在的場景中也會存在不希望看到的動作或景象，例如嘴、手勢及暴露的衣著等。當發現存在不雅聲音時，將利用圖像獲取模塊45、時間段模塊46、圖像辨識模塊47、圖像對比模塊48及圖像編輯模塊49對存在不雅聲音的時間段內的不雅圖像進行編輯。

所述圖像獲取模塊45用於從所述影音內容中獲取圖像。本實施方式中，所述圖像獲取模塊45在所述聲音獲取模塊41獲取聲音時，從所述影音獲取模塊10獲取圖像資料。

所述時間段模塊46用於獲取存在不雅聲音的時間段。本實施方式中，所述時間段模塊46直接利用所述聲音對比模塊43辨識出存在不雅聲音的時間段。

所述圖像辨識模塊47用於獲取圖像中的特徵圖形。本實施方式中，所述圖像辨識模塊47是用於辨識人的嘴部。所述圖像辨識模塊47首先利用人臉識別技術從所述圖像獲取模塊45獲取的圖像資料中偵測出人臉。然後在人臉上找出嘴巴的區域，為了處理方便，可以將彩色影像轉換成灰階影像。接著依照適應性臨界值法，將嘴巴依照灰階值的比例作二值化。再經過形態學的閉合運算，將很接近的黑色部位連接起來。最後運用連同成分標示法，找出圖像中所有的區域，並經過比對後找出最大區域作為嘴巴的特徵圖形。

所述圖像對比模塊48用於所述圖像辨識模塊47獲取的特徵圖形與所述樣本記憶體20中存儲的圖像樣本進行對比。本實施方式中，所述圖像對比模塊48將所述圖像辨識模塊47獲取的嘴巴特徵圖形與所述樣本記憶體20中存儲的嘴巴樣本進行對比。若相符合，則認定獲取的圖像中存在嘴巴。由於言語由嘴發出，當出現不雅的言語時，嘴巴往往會有開合動作。本實施方式中，所述圖像對比模塊48還包括動作模塊481，所述動作模塊481用於判斷識別出的嘴巴是否在不雅語言出現時產生變化。本實施方式中，所述動作模塊481判斷的嘴巴邊緣是否產生變形，當所述動作模塊481判斷出嘴巴不雅語言出現時產生變形時，則對嘴巴進行編輯。當然，若是手勢、文字等不易變動的圖形，則可以無需判斷圖像是否產生變形，只需找到與不雅圖像樣本相符的圖形即可。

所述圖像編輯模塊49用於根據圖像對比模塊48的對比結果，對圖像進行編輯。所述圖像編輯模塊49既可以刪除圖像也可以對圖像進行修改。當所述圖像編輯模塊49需要刪除圖像時，根據時間段模塊46獲取的存在不雅聲音的時間，刪除對應時間的圖像資料。當圖像編輯模塊49 需要對圖像做修改時，可以預先存儲可以替換的圖形，或利用圖像編輯程式做圖像變形、馬賽克等。當存在不雅圖像時，利用替換圖形覆蓋到不雅圖形上，或將不雅圖形進行圖像變形、馬賽克編輯等。所述本實施方式中，所述圖像編輯模塊49對嘴巴部位添加馬賽克。

所述存儲模塊50用於將編輯過的聲音、圖像存儲到所述影音記憶體30中。

請參閱圖2，為本發明實施方式提供的影音編輯的流程圖。

步驟S110：獲取影音內容中的聲音及圖像。本實施方式中，所述獲取模塊41用於從所述影音獲取模塊10中獲取圖像資料及聲音資料。

步驟S115：從所述獲取的聲音資訊中提取聲音的特徵。本實施方式中，所述聲音辨識模塊42利用端點偵測技術對所述獲取模塊41判斷所述獲取模塊41獲取的聲音資料中哪些區段是有聲段，那些是屬於無聲段或背景雜訊。當找到有聲段後，所述聲音辨識模塊42利用強波處理技術補償語音訊號中濁音訊號的衰減，以提高辨識的準確率，然後利用數位濾波器組來處理語音訊號，將每個濾波器的頻譜能量值利用線性倒頻譜係數轉換成為聲音的特徵值。

步驟S120：將獲取的聲音的特徵與不雅聲音樣本進行對比是否相同。本實施方式中，所述聲音對比模塊43將所述聲音辨識模塊42獲取的聲音的特徵值與所述樣本記憶體20內的不雅聲音的特徵值進行對比，以判斷獲取的聲音資料中是否存在不雅聲音。

步驟S125：根據對比結果將與所述不雅聲音樣本相符的聲音進行編輯。本實施方式中，若所述聲音對比模塊43判斷出所述聲音辨識模塊42獲取的聲音的特徵值與所述樣本記憶體20內的不雅聲音的特徵值相同，所述聲音編輯模塊44將對不雅聲音進行編輯。所述聲音編輯模塊44可以將不雅聲音進行替換或刪除。本實施方式中，當所述聲音對比模塊43判斷出存在不雅的言語時，所述聲音編輯模塊44就將包含不雅聲音的資料進行刪除。當所述聲音編輯模塊44需要將不雅聲音進行替換時，所述聲音編輯模塊44內應預先存有替換聲音，例如“嗶嗶”聲。當存在不雅的言語時，所述聲音編輯模塊44就將包含不雅聲音的資料利用替換聲音進行替換。

步驟S130：獲取與所述不雅聲音樣本相符的聲音資訊的時間段。本實施方式中，所述時間段模塊46直接利用所述聲音對比模塊43辨識出存在不雅聲音的時間段。

步驟S135：獲取在所述不雅聲音對應時間段內圖像的特徵圖形。本實施方式中，所述圖像辨識模塊47是用於辨識人的嘴部。所述圖像辨識模塊47首先利用人臉識別技術從所述圖像獲取模塊45獲取的圖像資料中偵測出人臉。然後在人臉上找出嘴巴的區域，為了處理方便，可以將彩色影像轉換成灰階影像。接著依照適應性臨界值法，將嘴巴依照灰階值的比例作二值化。再經過形態學的閉合運算，將很接近的黑色部位連接起來。最後運用連同成分標示法，找出圖像中所有的區域，並經過比對後找出最大區域作為嘴巴的特徵圖形。由於言語由嘴發出，當出現不雅的言語時，嘴巴往往會有開合動作。

步驟S140：將獲取的特徵圖形與不雅圖像樣本進行對比。本實施方式中，所述圖像對比模塊48將所述圖像辨識模塊47獲取的嘴巴特徵圖形與所述樣本記憶體20中存儲的嘴巴樣本進行對比。若相符合，則認定獲取的圖像中存在嘴巴。

步驟S145：判斷與所述不雅圖像樣本相符的特徵圖形是否變形。由於言語由嘴發出，當出現不雅的言語時，嘴巴往往會有開合動作。本實施方式中，所述圖像對比模塊48還包括動作模塊481，所述動作模塊481用於判斷識別出的嘴巴是否在不雅語言出現時產生變化。本實施方式中，所述動作模塊481判斷的嘴巴邊緣是否產生變形，當所述動作模塊481判斷出嘴巴不雅語言出現時產生變形時，則對嘴巴進行編輯。當然，若是手勢、文字等不易變動的圖形，則可以無需判斷圖像是否產生變形，只需找到與不雅圖像樣本相符的圖形即可，可以無需此步驟。

步驟S150：根據對比結果將與所述不雅圖像樣本相符的圖像進行編輯。所述圖像編輯模塊49用於根據圖像對比模塊48的對比結果，對圖像進行編輯。所述圖像編輯模塊49既可以刪除圖像也可以對圖像進行修改。當所述圖像編輯模塊49需要刪除圖像時，根據時間段模塊46獲取的存在不雅聲音的時間，刪除對應時間的圖像資料。當圖像編輯模塊49需要對圖像做修改時，可以預先存儲可以替換的圖形，或利用圖像編輯程式做圖像變形、馬賽克等。當存在不雅圖像時，利用替換圖形覆蓋到不雅圖形上，或將不雅圖形進行圖像變形、馬賽克編輯等。所述本實施方式中，所述圖像編輯模塊49對嘴巴部位添加馬賽克。

步驟S155：將編輯完的影音內容進行存儲。本實施方式中，所述存儲模塊50將編輯過的聲音及圖像保存到所述影音記憶體30內。

在步驟S120中，若聲音對比模塊43判斷出獲取的聲音的特徵值與所述樣本記憶體20內不雅聲音樣本的特徵值不同，則返回到所述步驟S110重新獲取聲音資料及圖像資料。

在步驟S140中，若獲取的特徵圖形與不雅圖像樣本不同。則不再對圖像進行處理，直接轉到步驟S155。

在步驟S145中，若與所述不雅圖像樣本相符的特徵圖形不存在變形，則不再對圖像進行處理，直接轉到步驟S155。

本發明提供的影音編輯系統可以對影音內容中不雅聲音進行過濾，從而有利於保證影音內容的健康。

另外，本領域技術人員可在本發明精神內做其他變化，但是，凡依據本發明精神實質所做的變化，都應包含在本發明所要求保護的範圍之內。

100‧‧‧電子設備

10‧‧‧影音獲取模塊

20‧‧‧樣本記憶體

30‧‧‧影音記憶體

40‧‧‧處理器

41‧‧‧聲音獲取模塊

42‧‧‧聲音辨識模塊

43‧‧‧聲音對比模塊

44‧‧‧聲音編輯模塊

45‧‧‧圖像獲取模塊

46‧‧‧時間段模塊

47‧‧‧圖像辨識模塊

48‧‧‧圖像對比模塊

481‧‧‧動作模塊

49‧‧‧圖像編輯模塊

50‧‧‧存儲模塊

圖1為本發明提供的電子設備的硬體架構圖；圖2為圖1的電子設備的影音編輯方法的流程圖。