TWI502583B - 語音處理裝置和語音處理方法 - Google Patents
語音處理裝置和語音處理方法 Download PDFInfo
- Publication number
- TWI502583B TWI502583B TW102112876A TW102112876A TWI502583B TW I502583 B TWI502583 B TW I502583B TW 102112876 A TW102112876 A TW 102112876A TW 102112876 A TW102112876 A TW 102112876A TW I502583 B TWI502583 B TW I502583B
- Authority
- TW
- Taiwan
- Prior art keywords
- face
- voice
- sound signal
- sound
- sound source
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims description 25
- 238000000034 method Methods 0.000 title description 38
- 230000005236 sound signal Effects 0.000 claims description 66
- 238000003672 processing method Methods 0.000 claims description 17
- 230000007613 environmental effect Effects 0.000 description 10
- 238000001514 detection method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 201000008217 Aggressive systemic mastocytosis Diseases 0.000 description 1
- 241000287107 Passer Species 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Description
本發明是有關於一種語音處理裝置和語音處理方法,且特別是有關於分辨來自使用者的語音和環境噪音。
語音辨識(speech recognition)的技術,是在麥克風接收使用者的語音指令後,利用處理器將指令的聲音訊號與內建資料庫比對,輸出最接近的結果。
目前語音辨識的技術,在無環境噪音的情況下,能夠正確辨識語音指令。問題是接收的聲音無法控制,也就是說,不管是使用者的指令或者環境噪音,都會被接收而辨識。如圖1所示,電視120可透過麥克風130接收使用者140的語音指令145。但是麥克風130不僅接收使用者140的語音指令145,也接收電視120本身發出的經由牆壁110反彈的聲音訊號125,以及路人150的語音155。電視120發出的聲音訊號125和路人150的語音155都是環境噪音。
在一般有環境噪音的情況下,語音指令可能受到環境噪
音的混雜和干擾,是否能辨識還是未知數。尤其是路人的語音和使用者的語音指令更難以分辨,這也是造成辨識錯誤的主因之一。
可知環境噪音的干擾,在語音辨識領域是亟待解決的重要問題。
本發明提供一種語音處理裝置和語音處理方法,可利用聲音和影片定位語音來源,以排除環境噪音的干擾,正確辨識使用者的語音指令。
本發明的語音處理裝置包括收音器、攝影機、以及處理器。收音器接收聲音訊號。攝影機拍攝影片。處理器耦接收音器和攝影機,取得聲音訊號的語音起始時間,偵測影片中的人臉,偵測人臉的嘴型輪廓的變動時間,並檢驗至少一個預設條件。在上述至少一個預設條件全部成立時,處理器對上述聲音訊號進行語音辨識。其中,上述的至少一個預設條件包括上述語音起始時間和上述變動時間的誤差小於一臨界值。
本發明的語音處理方法包括下列步驟:接收聲音訊號;取得聲音訊號的語音起始時間;拍攝影片;偵測影片中的人臉;偵測人臉的嘴型輪廓的變動時間;檢驗至少一個預設條件;以及在上述至少一個預設條件全部成立時,對上述聲音訊號進行語音辨識。其中,上述的至少一個預設條件包括上述語音起始時間和上述變動時間的誤差小於一臨界值。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
110‧‧‧牆壁
120‧‧‧電視
125‧‧‧聲音訊號
130‧‧‧麥克風
140‧‧‧使用者
145‧‧‧語音指令
150‧‧‧路人
155‧‧‧語音
200‧‧‧語音處理裝置
210‧‧‧收音器
215‧‧‧聲音訊號
220‧‧‧攝影機
225‧‧‧影片
230‧‧‧處理器
310~340、410~440、510~560‧‧‧方法步驟
610‧‧‧畫面
620‧‧‧人臉
630‧‧‧使用者
631、632‧‧‧聲音訊號
635‧‧‧時間差或相位差
636‧‧‧方向角度
650‧‧‧語音處理裝置的前方表面
651、652‧‧‧麥克風
710~780‧‧‧方法步驟
810、820‧‧‧畫面
830‧‧‧人臉
832‧‧‧嘴型輪廓
834‧‧‧外接四邊形
圖1是習知的環境噪音的干擾示意圖。
圖2是依照本發明一實施例的一種語音處理裝置的示意圖。
圖3、圖4和圖5是依照本發明一實施例的一種語音處理方法的流程圖。
圖6是依照本發明一實施例的判斷聲源方向的示意圖。
圖7是依照本發明一實施例的一種語音處理方法的流程圖。
圖8是依照本發明一實施例的偵測嘴型輪廓變動的示意圖。
圖2是依照本發明一實施例的一種語音處理裝置200的示意圖。語音處理裝置200可以是任何一種可接受使用者的語音指令操作的電子裝置,例如智慧型手機、個人數位助理(PDA:personal digital assistant)、平板電腦(tablet computer)、筆記型電腦、個人電腦、或各種智慧型家電。語音處理裝置200包括收音器210、攝影機220、以及處理器230。處理器230耦接收音器210和攝影機220。
圖3是依照本發明一實施例的一種語音處理方法的流程
圖,此方法可由語音處理裝置200執行。收音器210在步驟310接收聲音訊號215。攝影機220在步驟320拍攝一段影片225。處理器230在步驟330檢驗至少一個預設條件,這些預設條件和聲音訊號215以及影片225相關。如果上述的至少一個預設條件全部成立,則處理器230在步驟340對聲音訊號215進行語音辨識。
圖4是依照本發明一實施例的一種語音處理方法的流程圖。圖4的方法流程是步驟330的預設條件其中之一的檢驗流程,圖4的方法流程所檢驗的預設條件是聲音訊號215必須來自預設方向。步驟330可包括圖4的方法流程,圖4的方法流程可由處理器230執行。
以下說明圖4的方法流程。首先,在步驟410判斷聲音訊號215的聲源方向(或稱為方向角度),至於如何判斷聲源方向,在圖6有進一步說明。在步驟420檢查聲源方向是否符合預設方向。如果符合,則在步驟430判定圖4的方法流程所檢驗的預設條件成立,反之,則在步驟440判定圖4的方法流程所檢驗的預設條件不成立。
此處的預設方向,是根據預想中使用者操作語音處理裝置200時所在的位置。例如,當語音處理裝置200是一台電視,則進行操作的使用者會在電視前面,因此上述的預設方向可設定為電視正前方。上述的符合是指聲音訊號215的聲源方向和上述預設方向的角度誤差必須小於一個臨界值,例如上述的角度誤差必須小於五度。這個角度誤差的限制條件可以是步驟330所檢驗
的預設條件其中之一。
圖5是依照本發明一實施例的一種語音處理方法的流程圖。圖5的方法流程是步驟330的預設條件其中之一的檢驗流程,圖5的方法流程所檢驗的預設條件是聲音訊號215的聲源方向必須符合使用者的人臉所在的方向。步驟330可包括圖5的方法流程,圖5的方法流程可由處理器230執行。
以下說明圖5的方法流程。首先,在步驟510判斷聲音訊號215的聲源方向,至於聲源方向如何判斷則如圖6所示。聲音訊號215來自使用者630,聲音訊號215包括兩個聲音訊號631和632。語音處理裝置200的前方表面標示為650。收音器210包括兩個麥克風651和652,麥克風651和652分別接收聲音訊號631和632。處理器230可根據聲音訊號631和632的時間差或相位差635判斷聲音訊號215的方向角度636。
例如,處理器230可將麥克風651和652所收到的聲音訊號631和632作訊號平移,偵測聲音訊號631和632其中兩個最強訊號交疊的時間點,計算此時的平移量可得到聲音訊號631和632的時間差或相位差635,進而得到聲音訊號215的方向角度636。根據多個聲音訊號的時間差或相位差計算聲源方向已經是習知技術,細節就不在此贅述。
接下來,在步驟520偵測影片225的畫面中是否有人臉,這個人臉可能屬於使用者。在影片畫面中偵測人臉已經是習知技術,例如可採用動態偵測(motion detection)、膚色偵測(skin color
detection)、或模型偵測(model detection)等方式截取畫面中人臉的位置,細節就不在此贅述。如果沒偵測到人臉,則流程進入步驟560,判定圖5的方法流程所檢驗的預設條件不成立。如果偵測到人臉,例如圖6所示在影片225的畫面610之中偵測到人臉620,則在步驟530根據一個對照表將人臉在影片的畫面中的位置轉換為該人臉的方向。例如圖6所示,人臉620屬於使用者630,人臉620的方向角度為636。
上述的對照表可以預先製作,例如將一個物品和語音處理裝置200之間的距離限定為固定的預設距離(例如是3公尺),在此前提下,將此物品擺放在對應於收音器210的多個不同角度之處,比較不同角度的物品於畫面上所在的不同位置,再將這些畫面位置與方向角度的對應關係記錄下來,就能建立方向角度與畫面位置的對照表。
或者,語音處理裝置200可提供一個校正程序。在此校正程序中,使用者分別在多個可以操作語音處理裝置200的位置發出聲音,處理器230可判斷聲源方向,記錄使用者在每一個上述位置時,使用者的人臉在影片225的畫面中的位置,以及每一個畫面位置所對應的聲音訊號215的聲源方向,然後可依據畫面位置與聲源方向的對應關係建立對照表。
上述對照表記錄多個不同的畫面位置,以及每個畫面位置所對應的方向。所以步驟530可將人臉出現在畫面中的位置轉換為對應的人臉方向。如果使用者正在講話,則使用者的人臉方
向應該和聲源方向相同。所以,可在步驟540檢查聲音訊號215的聲源方向是否符合人臉方向。如果符合,則在步驟550判定圖5的方法流程所檢驗的預設條件成立,反之,則在步驟560判定圖5的方法流程所檢驗的預設條件不成立。上述的符合是指聲音訊號215的聲源方向和上述人臉方向的角度誤差必須小於一個臨界值,例如上述的角度誤差必須小於五度。這個角度誤差的限制條件可以是步驟330所檢驗的預設條件其中之一。
圖7是依照本發明一實施例的一種語音處理方法的流程圖。圖7的方法流程是步驟330的預設條件其中之一的檢驗流程,圖7的方法流程所檢驗的預設條件是聲音訊號215的語音起始時間(VOT:voice onset time)必須符合畫面中的人臉的嘴型輪廓的變動時間。步驟330可包括圖7的方法流程,圖7的方法流程可由處理器230執行。
以下說明圖7的方法流程。首先,在步驟710檢查聲音訊號215是否包括語音訊號。如果聲音訊號215不包括語音訊號,表示聲音訊號215純粹是環境噪音,因此流程進入步驟780,判定圖7的方法流程所檢驗的預設條件不成立。如果聲音訊號215包括語音訊號,則流程進入步驟720,取得聲音訊號215的語音起始時間。
舉例來說,在步驟710可對聲音訊號215做語音起始時間偵測(VOT detection),以判斷聲音訊號215是否包括語音訊號。語音起始時間偵測是習知技術,簡單說,就是利用聲音訊號的頻
譜特徵,例如梅爾頻率倒頻譜係數(MFCCs:Mel-frequency cepstral coefficients)的分布、能量、過零率(zero-crossing rate)、以及基頻軌跡(pitch contour)等等,偵測一段聲音訊號中的語音起始時間,以和一般非語音的聲音訊號做區隔。如果聲音訊號215包括語音訊號,上述的語音起始時間偵測即可取得聲音訊號215其中的語音起始時間。
以下繼續說明圖7的方法流程。在步驟730偵測影片225其中是否有人臉。如果偵測不到人臉,則流程進入步驟780,判定圖7的方法流程所檢驗的預設條件不成立。如果有人臉,則在步驟740偵測上述人臉是否有嘴型輪廓。例如可用主動形狀模型(ASMs:active shape models)以及主動外觀模型(AAMs:active appearance models)偵測嘴型輪廓。主動形狀模型和主動外觀模型都是習知技術,細節不在此贅述。
若在步驟740偵測不到嘴型輪廓,則流程進入步驟780,判定圖7的方法流程所檢驗的預設條件不成立。反之,如果有嘴型輪廓,則在步驟750偵測上述嘴型輪廓的變動時間。
嘴型輪廓的變動時間的偵測可以如圖8所示。在圖8的範例中,使用者830出現在影片225的兩個不同畫面810和820。處理器230可偵測使用者830的嘴型輪廓832在畫面810和820之間的一個變動量,上述變動量可以是嘴型輪廓832的面積、高度或寬度的變動量。或者,處理器230可偵測嘴型輪廓832的外接四邊形834,並且以外接四邊形834的面積、高度或寬度在畫面
810和820之間的變動量做為嘴型輪廓832的上述變動量。
如果嘴型輪廓832在畫面810和820之間沒有變動,或是嘴型輪廓832在畫面810和820之間的上述變動量並未大於預設的臨界值,則視為嘴型輪廓832沒有變動,流程進入步驟780,判定圖7的方法流程所檢驗的預設條件不成立。如果嘴型輪廓832在畫面810和820之間的上述變動量大於預設的臨界值,則可將嘴型輪廓832的變動時間設定為上述變動量大於預設臨界值的時間,而且流程進入步驟760。
在圖8的範例中,使用者830正在講話,所以嘴型輪廓832和外接四邊形834在畫面810和820之間都有明顯變動。如果聲音訊號215是使用者830的語音指令,則聲音訊號215的語音起始時間應該和嘴型輪廓832的變動時間同步。所以,可在步驟760檢查聲音訊號215的語音起始時間是否符合嘴型輪廓832的變動時間。如果符合,則在步驟770判定圖7的方法流程所檢驗的預設條件成立,反之,則在步驟780判定圖7的方法流程所檢驗的預設條件不成立。上述的符合是指聲音訊號215的語音起始時間和嘴型輪廓832的變動時間的誤差必須小於一個臨界值,例如上述的時間誤差必須小於0.2秒。這個時間誤差的限制條件可以是步驟330所檢驗的預設條件其中之一。
圖4、圖5和圖7的方法流程分別代表不同的預設條件的檢驗。步驟330所檢驗的預設條件可包括圖4、圖5和圖7的預設條件其中的一個或多個預設條件。對於不符合預設條件的聲音訊
號,都可以視為環境噪音而予以排除。當步驟330所檢驗的預設條件全部成立,則可將聲音訊號215視為使用者的語音,處理器230可以在步驟340對聲音訊號215進行語音辨識,以判斷聲音訊號215是否為語音指令。如果聲音訊號215是語音指令,則處理器230可執行此語音指令。
綜上所述,本發明提供的語音處理裝置和語音處理方法,可使用一個或多個預設條件分辨來自使用者的語音和環境噪音,以排除環境噪音的干擾,以確保只對使用者的語音進行辨識。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
310~340‧‧‧方法步驟
Claims (14)
- 一種語音處理裝置,包括:一收音器,接收一聲音訊號;一攝影機,拍攝一影片;以及一處理器,耦接該收音器和該攝影機,取得該聲音訊號的一語音起始時間,偵測該影片中的一人臉,偵測該人臉的嘴型輪廓在該影片的兩個畫面之間的一變動量,並且將一變動時間設定為該變動量大於一第二臨界值的時間後,檢驗至少一預設條件,並且在該至少一預設條件全部成立時對該聲音訊號進行語音辨識,其中該至少一預設條件包括該語音起始時間和該變動時間的誤差小於一第一臨界值。
- 如申請專利範圍第1項所述之語音處理裝置,其中該變動量為該嘴型輪廓的面積、高度或寬度的變動量。
- 如申請專利範圍第1項所述之語音處理裝置,其中該處理器偵測該嘴型輪廓的外接四邊形,而且該變動量為該外接四邊形的面積、高度或寬度的變動量。
- 如申請專利範圍第1項所述之語音處理裝置,其中該處理器判斷該聲音訊號的聲源方向,而且該至少一預設條件更包括該聲源方向和一預設方向的角度誤差小於一第三臨界值。
- 如申請專利範圍第4項所述之語音處理裝置,其中該收音器包括一第一麥克風和一第二麥克風,該聲音訊號包括一第一聲音訊號和一第二聲音訊號,該第一麥克風和該第二麥克風分別接 收該第一聲音訊號和該第二聲音訊號,該處理器根據該第一聲音訊號和該第二聲音訊號的時間差或相位差判斷該聲源方向。
- 如申請專利範圍第1項所述之語音處理裝置,其中該處理器判斷該聲音訊號的聲源方向,並根據一對照表將該人臉在該影片的畫面中的位置轉換為該人臉的方向,而且該至少一預設條件更包括該聲源方向和該人臉的方向的角度誤差小於一第四臨界值。
- 如申請專利範圍第6項所述之語音處理裝置,其中該處理器記錄該人臉在該影片的畫面中的多個位置,以及每一上述位置所對應的該聲源方向,以建立該對照表。
- 一種語音處理方法,包括:接收一聲音訊號;取得該聲音訊號的一語音起始時間;拍攝一影片;偵測該影片中的一人臉;偵測該人臉的嘴型輪廓在該影片的兩個畫面之間的一變動量;將一變動時間設定為該變動量大於一第二臨界值的時間;檢驗至少一預設條件;以及在該至少一預設條件全部成立時對該聲音訊號進行語音辨識,其中該至少一預設條件包括該語音起始時間和該變動時間的誤差小於一第一臨界值。
- 如申請專利範圍第8項所述之語音處理方法,其中該變動量為該嘴型輪廓的面積、高度或寬度的變動量。
- 如申請專利範圍第8項所述之語音處理方法,其中偵測該嘴型輪廓的該變動量的步驟包括:偵測該嘴型輪廓的外接四邊形,而且該變動量為該外接四邊形的面積、高度或寬度的變動量。
- 如申請專利範圍第8項所述之語音處理方法,更包括:判斷該聲音訊號的聲源方向,其中該至少一預設條件更包括該聲源方向和一預設方向的角度誤差小於一第三臨界值。
- 如申請專利範圍第11項所述之語音處理方法,其中該聲音訊號包括一第一聲音訊號和一第二聲音訊號,而且判斷該聲源方向的步驟包括:根據該第一聲音訊號和該第二聲音訊號的時間差或相位差判斷該聲源方向。
- 如申請專利範圍第8項所述之語音處理方法,更包括:判斷該聲音訊號的聲源方向;以及根據一對照表將該人臉在該影片的畫面中的位置轉換為該人臉的方向,其中該至少一預設條件更包括該聲源方向和該人臉的方向的角度誤差小於一第四臨界值。
- 如申請專利範圍第13項所述之語音處理方法,更包括:記錄該人臉在該影片的畫面中的多個位置,以及每一上述位置所對應的該聲源方向,以建立該對照表。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW102112876A TWI502583B (zh) | 2013-04-11 | 2013-04-11 | 語音處理裝置和語音處理方法 |
CN201310144427.4A CN104103274B (zh) | 2013-04-11 | 2013-04-24 | 语音处理装置和语音处理方法 |
US14/146,015 US9520131B2 (en) | 2013-04-11 | 2014-01-02 | Apparatus and method for voice processing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW102112876A TWI502583B (zh) | 2013-04-11 | 2013-04-11 | 語音處理裝置和語音處理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201440036A TW201440036A (zh) | 2014-10-16 |
TWI502583B true TWI502583B (zh) | 2015-10-01 |
Family
ID=51671360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW102112876A TWI502583B (zh) | 2013-04-11 | 2013-04-11 | 語音處理裝置和語音處理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9520131B2 (zh) |
CN (1) | CN104103274B (zh) |
TW (1) | TWI502583B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9686605B2 (en) * | 2014-05-20 | 2017-06-20 | Cisco Technology, Inc. | Precise tracking of sound angle of arrival at a microphone array under air temperature variation |
US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
CN104820556A (zh) * | 2015-05-06 | 2015-08-05 | 广州视源电子科技股份有限公司 | 唤醒语音助手的方法及装置 |
CN106297794A (zh) * | 2015-05-22 | 2017-01-04 | 西安中兴新软件有限责任公司 | 一种语音文字的转换方法及设备 |
CN106886161A (zh) * | 2015-12-16 | 2017-06-23 | 美的集团股份有限公司 | 音箱的控制方法、系统及音箱 |
CN105869639A (zh) * | 2016-03-21 | 2016-08-17 | 广东小天才科技有限公司 | 一种语音识别的方法及系统 |
CN107452381B (zh) * | 2016-05-30 | 2020-12-29 | 中国移动通信有限公司研究院 | 一种多媒体语音识别装置及方法 |
CN106356061A (zh) * | 2016-10-24 | 2017-01-25 | 合肥华凌股份有限公司 | 基于声源定位的语音识别方法和系统、及智能家电设备 |
CN107221324B (zh) * | 2017-08-02 | 2021-03-16 | 上海智蕙林医疗科技有限公司 | 语音处理方法及装置 |
CN107678793A (zh) * | 2017-09-14 | 2018-02-09 | 珠海市魅族科技有限公司 | 语音助手启动方法及装置、终端及计算机可读存储介质 |
CN110830708A (zh) * | 2018-08-13 | 2020-02-21 | 深圳市冠旭电子股份有限公司 | 一种追踪摄像方法、装置及终端设备 |
CN110505127B (zh) * | 2019-07-09 | 2021-09-28 | 青岛海信日立空调系统有限公司 | 一种指令处理方法及装置 |
CN112102546A (zh) * | 2020-08-07 | 2020-12-18 | 浙江大华技术股份有限公司 | 一种人机交互控制方法、对讲呼叫方法及相关装置 |
CN114783412B (zh) * | 2022-04-21 | 2022-11-15 | 山东青年政治学院 | 一种西班牙语口语发音训练纠正方法及系统 |
CN115150712B (zh) * | 2022-06-07 | 2024-06-18 | 中国第一汽车股份有限公司 | 一种车载麦克风系统及汽车 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200729083A (en) * | 2006-01-23 | 2007-08-01 | Univ Nat Kaohsiung 1St Univ Sc | Auto-detection of continuous changes of lips on face |
CN202110564U (zh) * | 2011-06-24 | 2012-01-11 | 华南理工大学 | 结合视频通道的智能家居语音控制系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6471420B1 (en) * | 1994-05-13 | 2002-10-29 | Matsushita Electric Industrial Co., Ltd. | Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections |
US6594629B1 (en) * | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
EP1443498B1 (en) * | 2003-01-24 | 2008-03-19 | Sony Ericsson Mobile Communications AB | Noise reduction and audio-visual speech activity detection |
WO2005114576A1 (ja) * | 2004-05-21 | 2005-12-01 | Asahi Kasei Kabushiki Kaisha | 動作内容判定装置 |
JP4770178B2 (ja) | 2005-01-17 | 2011-09-14 | ソニー株式会社 | カメラ制御装置、カメラシステム、電子会議システムおよびカメラ制御方法 |
US7680656B2 (en) * | 2005-06-28 | 2010-03-16 | Microsoft Corporation | Multi-sensory speech enhancement using a speech-state model |
TWI302609B (en) | 2006-07-11 | 2008-11-01 | Compal Electronics Inc | Method for tracking vocal target |
CN101101752B (zh) * | 2007-07-19 | 2010-12-01 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
TWI396862B (zh) | 2009-12-04 | 2013-05-21 | Teco Elec & Machinery Co Ltd | 聲源定位系統、方法及電腦可讀取儲存媒體 |
US20130141643A1 (en) * | 2011-12-06 | 2013-06-06 | Doug Carson & Associates, Inc. | Audio-Video Frame Synchronization in a Multimedia Stream |
AU2013221923A1 (en) * | 2012-08-28 | 2014-03-20 | Solink Corporation | Transaction verification system |
US9589357B2 (en) * | 2013-06-04 | 2017-03-07 | Intel Corporation | Avatar-based video encoding |
-
2013
- 2013-04-11 TW TW102112876A patent/TWI502583B/zh active
- 2013-04-24 CN CN201310144427.4A patent/CN104103274B/zh active Active
-
2014
- 2014-01-02 US US14/146,015 patent/US9520131B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200729083A (en) * | 2006-01-23 | 2007-08-01 | Univ Nat Kaohsiung 1St Univ Sc | Auto-detection of continuous changes of lips on face |
CN202110564U (zh) * | 2011-06-24 | 2012-01-11 | 华南理工大学 | 结合视频通道的智能家居语音控制系统 |
Also Published As
Publication number | Publication date |
---|---|
US9520131B2 (en) | 2016-12-13 |
CN104103274A (zh) | 2014-10-15 |
CN104103274B (zh) | 2017-12-22 |
US20140309994A1 (en) | 2014-10-16 |
TW201440036A (zh) | 2014-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI502583B (zh) | 語音處理裝置和語音處理方法 | |
US9532140B2 (en) | Listen to people you recognize | |
US20150088515A1 (en) | Primary speaker identification from audio and video data | |
WO2020062900A1 (zh) | 一种声音处理方法、装置与设备 | |
KR20170050908A (ko) | 음성 인식이 가능한 전자 장치 및 방법 | |
US20120321112A1 (en) | Selecting a digital stream based on an audio sample | |
US20140379351A1 (en) | Speech detection based upon facial movements | |
JP2014153663A (ja) | 音声認識装置、および音声認識方法、並びにプログラム | |
JP2007533189A (ja) | ビデオ・オーディオ同期 | |
CN103945140B (zh) | 视频字幕的生成方法及系统 | |
KR102633176B1 (ko) | 환경 잡음 보상 시스템에서 에러를 감소시키기 위한 방법 | |
WO2017219450A1 (zh) | 一种信息处理方法、装置及移动终端 | |
WO2021213490A1 (zh) | 一种身份验证方法、装置和电子设备 | |
CN111370025A (zh) | 音频识别方法、装置及计算机存储介质 | |
CN107403144A (zh) | 嘴巴定位方法及装置 | |
JP5700963B2 (ja) | 情報処理装置およびその制御方法 | |
CN107509026A (zh) | 一种录音区域的显示方法及其终端 | |
CN104573642B (zh) | 人脸识别方法及装置 | |
WO2023070790A1 (zh) | 音量实时补偿方法、电子设备及可读存储介质 | |
CN116129526A (zh) | 合拍控制方法、装置、电子设备及存储介质 | |
CN107547987B (zh) | 一种音效调节方法及移动终端 | |
CN115937726A (zh) | 说话人检测方法、装置、设备及计算机可读存储介质 | |
CN106454494B (zh) | 多媒体信息的处理方法、系统、多媒体设备和终端设备 | |
WO2023070788A1 (zh) | 音量实时调整方法、电子设备及可读存储介质 | |
CN111462763B (zh) | 由计算机实施的语音命令验证方法及电子装置 |