TW201913359A - 具有智慧語音服務功能之電子裝置及調整輸出聲音之方法 - Google Patents

具有智慧語音服務功能之電子裝置及調整輸出聲音之方法 Download PDF

Info

Publication number
TW201913359A
TW201913359A TW106129516A TW106129516A TW201913359A TW 201913359 A TW201913359 A TW 201913359A TW 106129516 A TW106129516 A TW 106129516A TW 106129516 A TW106129516 A TW 106129516A TW 201913359 A TW201913359 A TW 201913359A
Authority
TW
Taiwan
Prior art keywords
voice message
data
electronic device
original
module
Prior art date
Application number
TW106129516A
Other languages
English (en)
Other versions
TWI639114B (zh
Inventor
楊國屏
趙冠力
廖和信
Original Assignee
元鼎音訊股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 元鼎音訊股份有限公司 filed Critical 元鼎音訊股份有限公司
Priority to TW106129516A priority Critical patent/TWI639114B/zh
Priority to US15/822,412 priority patent/US10303428B2/en
Application granted granted Critical
Publication of TWI639114B publication Critical patent/TWI639114B/zh
Publication of TW201913359A publication Critical patent/TW201913359A/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

一種具有智慧語音服務功能之電子裝置,可辨識當前正在利用該智慧語音服務功能之使用者,並依照該使用者之聽力狀況,調整答覆時輸出聲音的頻率。

Description

具有智慧語音服務功能之電子裝置及調整輸出聲音之方法
本發明係關於一種具有智慧語音服務功能之電子裝置,特別是一種可依照使用者的聽力狀況,輸出答覆語音訊息之電子裝置。
隨著科技的不斷創新與發展,家庭電器智慧化成為家電產品發展的主要趨勢,舉凡冰箱、冷氣、電視等家庭電器,皆逐漸配備有高階的運算處理功能,可提供智慧管理。目前的智慧家電可透過簡單的語音系統,提醒使用者家電的使用狀態,甚至能與使用者互動。惟此類家電的語音輸出通常係為聽力正常者所設計,故輸出聲音之頻率可能導致對老年人或聽力受損者而言會聽不清楚。
因此,實有必要思考一種方法,以改善前述現有技術之缺失。
本發明之主要目的係在提供一種可調整輸出聲音頻率之具有智慧語音服務功能之電子裝置。
為達成上述之目的,本發明具有智慧語音服務功能之電子裝置包括有喇叭、記憶體、輸入裝置及處理單元。輸入裝置用以獲得一使用者之辨識特徵資料,其中輸入裝置包含麥克風,麥克風並能接收該使用者發出的語音訊息。處理單元係與喇叭、記憶體及輸入裝置電性連接,處理單元包括有檔案建立模組、身分辨識模組、答覆訊息取得模組及聲音調整模組。檔案建立模組用以建立一互動者資料庫,並儲存該互動者資料庫於記憶體中,其中互動者資料庫包含複數互動者之識別資料及聽力參數資料。身分辨識模組用以分析辨識特徵資料,以得到一身分驗證資料,並比對該身分驗證資料與複數互動者之識別資料,以取得相對應之聽力參數資料。答覆訊息取得模組用以取得對應適於答覆語音訊息之原始答覆語音訊息。聲音調整模組用以根據聽力參數資料調整原始答覆語音訊息,以產生一調整後答覆語音訊息,喇叭可擇一輸出原始答覆語音訊息或調整後答覆語音訊息,或者先後輸出原始答覆語音訊息及調整後答覆語音訊息。
本發明另提供一種調整輸出聲音之方法,適用於具有智慧語音服務功能之電子裝置,包括有下列步驟:建立並儲存一互動者資料庫,其中該互動者資料庫包含複數互動者之識別資料及聽力參數資料;獲取一使用者之辨識特徵資料及該使用者發出的語音訊息;分析辨識特徵資料,以得到一身分驗證資料,並比對該身分驗證資料與複數互動者之識別資料,以取得相對應之聽力參數資料;取得對應適於答覆該語音訊息之原始答覆語音訊息;根據聽力參數資料調整原始答覆語音訊息,以產生一調整後答覆語音訊息;以及,擇一輸出原始答覆語音訊息或調整後答覆語音訊息,或者先後輸出原始答覆語音訊息及調整後答覆語音訊息。
為能讓 貴審查委員能更瞭解本發明之技術內容,特舉較佳具體實施例說明如下。
以下請一併參考圖1及圖2。其中圖1係本發明之具語音服務功能之電子裝置之裝置架構圖;圖2係本發明之互動者資料庫之一實施示意圖。
如圖1所示,在本發明之一實施例中,本發明具有智慧語音服務功能之電子裝置1連線一受控電子裝置60,在此受控電子裝置60可為具有無線通訊功能之冷氣機,但不以此為限,其也可為電燈、電視、電風扇或其他具無線通訊功能之電子產品。受控電子裝置60包括有第二無線通訊模組61及控制單元62。
在本發明之一實施例中,本發明之電子裝置1包括有喇叭10、記憶體20、輸入裝置30、處理單元40以及第一無線通訊模組50,其中處理單元40係與喇叭10、記憶體20、輸入裝置30及第一無線通訊模組50電性連接。電子裝置1可透過第一無線通訊模組50與第二無線通訊模組61間的連線建立,以和受控電子裝置60實現無線通訊。在本發明之具體實施例中,第一無線通訊模組50與第二無線通訊模組61為藍芽裝置,但本發明不以此為限。
在本發明之一實施例中,輸入裝置30用以獲得使用者U的辨識特徵資料,例如使用者U的臉部影像、指紋或聲音,但不以此為限,也可為是使用者U的虹膜影像。在本發明之實施例中,輸入裝置30包括麥克風31、攝影機32、指紋擷取裝置33及觸控螢幕34。麥克風31用以接收使用者U發出的語音訊息80(聲音),攝影機32用以擷取使用者U的臉部影像,而指紋擷取裝置33用以擷取使用者U的指紋。
在本發明之一實施例中,本發明之處理單元40包括檔案建立模組41、身分辨識模組42、答覆訊息取得模組43、聲音調整模組44及控制模組45。需注意的是,上述各個模組除可配置為硬體裝置、軟體程式、韌體或其組合外,亦可藉電路迴路或其他適當型式配置;並且,各個模組除可以單獨之型式配置外,亦可以結合之型式配置。一個較佳實施例是各模組皆為軟體程式儲存於記憶體上,藉由一處理器(圖未示)執行各模組以達成本發明之功能。此外,本實施方式僅例示本發明之較佳實施例,為避免贅述,並未詳加記載所有可能的變化組合。然而,本領域之通常知識者應可理解,上述各模組或元件未必皆為必要。且為實施本發明,亦可能包含其他較細節之習知模組或元件。各模組或元件皆可能視需求加以省略或修改,且任兩模組間未必不存在其他模組或元件。
在本發明之一實施例中,檔案建立模組41用以建立一互動者資料庫90,並儲存該互動者資料庫90於記憶體20中。該互動者資料庫90包含複數互動者之識別資料91及聽力參數資料92,其中該聽力參數資料92為各互動者對於不同頻率之聲音可聽見的最小音量數據。如圖2所示,在本實施例中,識別資料91包含互動者的臉部影像資料911、指紋資料912及聲紋資料913,該些資料可由潛在可能的互動者輸入,例如某家庭中的各個成員。互動者資料庫90之建立可依以下列方式執行,但本發明不以此為現。
首先,多位互動者可透過觸控螢幕34之操作,輸入設定指令,以啟動電子裝置1進入設定模式。在設定模式下,電子裝置1經由觸控螢幕34顯示資訊,要求互動者輸入自己的臉部影像、指紋或聲音等辨識特徵資料。接著,互動者可選擇將臉部朝向攝影機32,由攝影機32擷取互動者的臉部影像,之後再由檔案建立模組41根據臉部影像特徵分析之結果,取得互動者的臉部影像資料911;或/及透過指紋擷取裝置33輸入指紋,並由檔案建立模組41根據輸入的指紋特徵辨識之結果,取得互動者的指紋資料912;或/及對著麥克風31發出聲音,由麥克風31接收聲音,之後再由檔案建立模組41根據該聲音特徵分析之結果,取得互動者的聲紋資料913。完成識別資料91設定後,接著電子裝置1經由觸控螢幕34顯示資訊,要求互動者輸入自己的年齡及性別。互動者透過觸控螢幕34輸入自己的年齡資料93及性別資料94後,檔案建立模組41會根據互動者輸入的年齡資料93及性別資料94查找出對應的聽力參數資料92(其間的對應關係會事先記錄於記憶體20中),並將聽力參數資料92與臉部影像資料911及/或指紋資料912及/或聲紋資料913建立一對應關係,以完成互動者資料庫90之建立。最後,並將互動者資料庫90儲存至記憶體20中。
此處需注意的是,在其他實施例中,完成識別資料91設定後,互動者也可直接輸入自己的聽力參數資料92,或者由電子裝置1提供測試程序,經由對互動者測試後取得其聽力參數資料92。
在本發明之一實施例中,身分辨識模組42用以分析使用者U之辨識特徵資料,以得到一身分驗證資料,並比對該身分驗證資料與複數互動者之識別資料91,以取得相對應之該聽力參數資料92。更具體地來說,由輸入裝置30接收到的辨識特徵資料會被傳送到處理單元40,由身分辨識模組42先分析該辨識特徵資料,以得到一身分驗證資料;舉例而言,假設接收到的辨識特徵資料70為使用者U的臉部影像時,則身分辨識模組42可辨識分析該臉部影像之特徵,並根據分析結果,取得使用者U的臉部影像資料,在此該臉部影像資料即為所述的身分驗證資料;又假設接收到的辨識特徵資料70為使用者U的指紋時,則身分辨識模組42可辨識分析該指紋之特徵,並依據分析結果,取得使用者U的指紋資料,在此該指紋資料即為所述的身分驗證資料;此外,如果接收到的辨識特徵資料70為使用者U發出的語音訊息80(聲音),則身分辨識模組42可辨識分析使用者U聲音的聲紋特徵,並根據分析結果,取得使用者U的聲紋資料,在此該聲紋資料即為所述的身分驗證資料。
分析取得身分驗證資料後,身分辨識模組42接著會將該身分驗證資料與儲存在記憶體20中的複數互動者之識別資料91進行比對,一旦比對出身分驗證資料有符合其中一互動者之識別資料91時,即透過查表方式,取得相對應的聽力參數資料92。以圖2所示對應關係圖表為例,假設取得身分驗證資料為『10101 BF051』,則身分辨識模組42即可透過查表,判斷出使用者為互動者U2,並查找出對應的聽力參數資料92為『1010101010102020』。
在本發明之一實施例中,答覆訊息取得模組43用以取得對應適於答覆語音訊息80之原始答覆語音訊息,其中原始答覆語音訊息和語音訊息80間之對應關係是事先預設的。在本實施例中,答覆訊息取得模組43會分析語音訊息80之語意,並根據分析之結果,以查找取得相對應的原始答覆語音訊息。舉例而言,假設使用者U發出的語音訊息80內容為『開冷氣』,則對此內容的語音訊息80,原始答覆語音訊息之內容可設定為『現在溫度X℃,請設定目標溫度』(X視實際溫度而定),因此,當答覆訊息取得模組43分析出語音訊息80的內容為『開冷氣』或類似語意時,答覆訊息取得模組43即會對應查找出『現在溫度X℃,請設定目標溫度』作為原始答覆語音訊息之內容。
需注意的是,原始答覆語音訊息除可由答覆訊息取得模組43根據語意分析的結果查找取得外,在其他實施例中,亦可自一伺服器系統(圖未示)中取得;詳言之,其他實施例中,電子裝置1可連線一具有智慧語音服務功能之伺服器系統,答覆訊息取得模組43先將語音訊息80發送至伺服器系統,由伺服器系統對該語音訊息80進行語意分析,並依照分析結果,取得對應適於答覆該語音訊息80之原始答覆語音訊息;之後答覆訊息取得模組43再由伺服器系統接收取得該原始答覆語音訊息。關於人類說話之語意分析,並根據分析結果回應適切之答覆,乃現有之技術(例如:蘋果電腦公司出產之Siri軟體,並可參考文字轉語音(TTS)相關技術文獻),為聲音處理技術領域中具有通常知識者所熟知,故在此不再多做贅述。
在本發明之一實施例中,聲音調整模組44用以根據身分辨識模組42分析取得的聽力參數資料92,調整原始答覆語音訊息之聲音頻率,以產生一調整後答覆語音訊息。調整後答覆語音訊息產生後,喇叭10可擇一輸出原始答覆語音訊息或調整後答覆語音訊息,或者先後輸出原始答覆語音訊息及調整後答覆語音訊息。 由於調整後答覆語音訊息之聲音頻率是依照使用者U的聽力狀況而調整,故喇叭10輸出調整後答覆語音訊息時播放的聲音,可符合使用者U的聽力狀況。而原始答覆語音訊息之聲音頻率未被調整,因此,喇叭10輸出原始答覆語音訊息時播放的聲音則能符合一般人的聽力狀況,以便於使用者U身旁之其他人也可聽清楚電子裝置1答覆之語音。
在本發明之一實施例中,控制模組45用以根據一控制訊號控制受控電子裝置60功能之執行,其中該控制訊號係根據分析語音訊息80之結果而產生。舉例而言,在此假設受控電子裝置60為冷氣機,當答覆訊息取得模組43分析出語音訊息80之內容為『開冷氣』時,答覆訊息取得模組43便會產生一控制訊號,並將該控制訊號傳送到控制模組45;控制模組45接收該控制訊號後,即會根據該控制訊號控制冷氣機開啟。此外,在其他實施例中,如果語意分析係由伺服器系統執行,則伺服器系統可依照語意分析之結果產生控制訊號,並發送至答覆訊息取得模組43,再由答覆訊息取得模組43傳送到控制模組45。
接著,請一併參考圖1至圖3,其中圖3係本發明之調整輸出聲音之方法之步驟流程圖。以下將一併參考圖1及圖2,以依序說明圖3中所示之各步驟。
首先,執行步驟S1:建立並儲存一互動者資料庫。
本發明之調整輸出聲音之方法適用於例如圖1所示,具有智慧語音服務功能之電子裝置1,用以依據使用者的聽力狀況,調整該電子裝置1輸出聲音之頻率。為要能辨識正在使用電子裝置1之使用者,並得知其聽力狀況,方法執行的第一步,即是要建立一互動者資料庫,其中互動者資料庫90包含複數互動者(可能的潛在使用者)之識別資料91及聽力參數資料92,該聽力參數資料為各互動者對於不同頻率之聲音可聽見的最小音量數據。如圖2所示,在本實施例中,識別資料91包含互動者的臉部影像資料911、指紋資料912及聲紋資料913,該些資料可由潛在可能的互動者輸入。互動者資料庫90之建立可參考前揭說明,在此不再重複贅述。
執行步驟S2:獲取一使用者之辨識特徵資料及該使用者發出的語音訊息。
在本發明之實施例中,使用者U要利用電子裝置1提供的智慧語音服務前,電子裝置1可經由輸入裝置30獲取使用者U之辨識特徵資料,其中辨識特徵資料可為使用者U的臉部影像、指紋或聲紋,但不以此為限。更具體地來說,電子裝置1之輸入裝置30包含有麥克風31、攝影機32、指紋擷取裝置33及觸控螢幕34。麥克風31可接收使用者U發出的語音訊息80(聲音),攝影機32用以擷取使用者U的臉部影像,而指紋擷取裝置33用以擷取使用者U的指紋。
執行步驟S3:分析辨識特徵資料,以得到一身分驗證資料,並比對該身分驗證資料與複數互動者之識別資料,以取得相對應之聽力參數資料。
步驟S2完成後,處理單元40之身分辨識模組42可辨識分析取得的辨識特徵資料,以得到一身分驗證資料。假設攝影機32擷取到使用者U的臉部影像,則身分辨識模組42可辨識該臉部影像之特徵,並根據辨識分析結果,取得使用者U的臉部影像資料,在此該臉部影像資料即為所述的身分驗證資料。又假設使用者U利用指紋擷取裝置33輸入自己的指紋,則身分辨識模組42即會辨識該指紋之特徵,並根據辨識分析結果,取得使用者U的指紋資料,在此該指紋資料即為所述的身分驗證資料。此外,如使用者U僅是對著麥克風31發出語音訊息80(聲音),則身分辨識模組42會分析使用者U聲音的聲紋特徵,並依據分析結果,取得使用者U的聲紋資料,在此該聲紋資料即為所述的身分驗證資料。
分析取得身分驗證資料後,身分辨識模組42接著會比對身分驗證資料與複數互動者之識別資料91,以取得相對應之聽力參數資料92。更具體地來說,身分辨識模組42經由上述方式取得身分驗證資料後,接著便會將身分驗證資料與儲存記憶體20中的複數互動者之識別資料91進行比對;一旦比對出身分驗證資料有符合其中一互動者之識別資料91時,即依據相符的識別資料91,透過查表方式,取得相對應的聽力參數資料92。
執行步驟S4:取得對應適於答覆該語音訊息之原始答覆語音訊息,並根據一控制訊號,控制受控電子裝置功能之執行。
在本發明之實施例中,當麥克風31接收使用者U發出的語音訊息80後,處理單元40之答覆訊息取得模組43會對語音訊息80進行語意分析,並根據分析之結果,查找取得對應適於答覆該語音訊息80之原始答覆語音訊息,其中語音訊息80和原始答覆語音訊息間的對應關係是預設的,例如語音訊息80內容如果為『開冷氣』,則對此內容的語音訊息80,原始答覆語音訊息之內容可設定為『現在溫度X℃,請設定目標溫度』(X視實際溫度而定)。此處需注意的是,原始答覆語音訊息除可由答覆訊息取得模組43根據語意分析的結果查找取得外,在其他實施例中,亦可自一伺服器系統(圖未示)中取得;詳言之,其他實施例中,電子裝置1可連線一具有智慧語音服務功能之伺服器系統,答覆訊息取得模組43先將語音訊息80發送至伺服器系統,由伺服器系統對該語音訊息80進行語意分析,並依照分析結果,取得對應適於答覆該語音訊息80之原始答覆語音訊息;之後答覆訊息取得模組43再由伺服器系統接收取得該原始答覆語音訊息。
此外,答覆訊息取得模組43亦會依據語意分析的結果,產生一控制訊號,並傳送該控制訊號至控制模組45。控制模組45根據控制訊號,可控制受控電子裝置60功能之執行,例如開啟、關閉或執行特定功能。
執行步驟S5:根據聽力參數資料調整原始答覆語音訊息,以產生一調整後答覆語音訊息。
在答覆訊息取得模組43取得原始答覆語音訊息後,接著處理單元40之聲音調整模組44會根據身分辨識模組42取得的聽力參數資料92,調整該原始答覆語音訊息之聲音頻率,以產生一調整後答覆語音訊息。
最後,執行步驟S6:擇一輸出原始答覆語音訊息或調整後答覆語音訊息,或者先後輸出原始答覆語音訊息及調整後答覆語音訊息。
步驟S5完成後,電子裝置1之喇叭10可擇一輸出原始答覆語音訊息或調整後答覆語音訊息,又或者先後輸出原始答覆語音訊息及調整後答覆語音訊息,其中在擇一輸出方式下,可由使用者U自行選擇。
經由前揭說明可知,本發明之具有智慧語音服務功能之電子裝置可辨識當前正在利用語音服務之使用者,並依照該使用者之聽力狀況,調整答覆時輸出聲音之頻率,以讓該使用者能清楚聽到答覆語音訊息。
綜上所陳,本發明無論就目的、手段及功效,在在均顯示其迥異於習知技術之特徵,懇請 貴審查委員明察,早日賜准專利,俾嘉惠社會,實感德便。惟應注意的是,上述諸多實施例僅係為了便於說明而舉例而已,本發明所主張之權利範圍自應以申請專利範圍所述為準,而非僅限於上述實施例。
1‧‧‧電子裝置
10‧‧‧喇叭
20‧‧‧記憶體
30‧‧‧輸入裝置
31‧‧‧麥克風
32‧‧‧攝影機
33‧‧‧指紋擷取裝置
34‧‧‧觸控螢幕
40‧‧‧處理單元
41‧‧‧檔案建立模組
42‧‧‧身分辨識模組
43‧‧‧答覆訊息取得模組
44‧‧‧聲音調整模組
45‧‧‧控制模組
50‧‧‧第一無線通訊模組
60‧‧‧受控電子裝置
61‧‧‧第二無線通訊模組
62‧‧‧控制單元
80‧‧‧語音訊息
90‧‧‧互動者資料庫
91‧‧‧識別資料
911‧‧‧臉部影像資料
912‧‧‧指紋資料
913‧‧‧聲紋資料
92‧‧‧聽力參數資料
93‧‧‧年齡資料
94‧‧‧性別資料
U‧‧‧使用者
圖1係本發明之具語音服務功能之電子裝置之裝置架構圖。 圖2係本發明之互動者資料庫之一實施示意圖。 圖3係本發明之調整輸出聲音之方法之步驟流程圖。

Claims (14)

  1. 一種具有智慧語音服務功能之電子裝置,包括: 一喇叭; 一記憶體; 一輸入裝置,用以獲得一使用者之一辨識特徵資料,其中該輸入裝置包括一麥克風,該麥克風並能接收該使用者發出的一語音訊息;以及 一處理單元,電性連接該喇叭、該記憶體及該輸入裝置,該處理單元包括: 一檔案建立模組,用以建立一互動者資料庫,並儲存該互動者資料庫於該記憶體中,其中該互動者資料庫包含複數互動者之一識別資料及一聽力參數資料; 一身分辨識模組,用以分析該辨識特徵資料,以得到一身分驗證資料,並比對該身分驗證資料與該複數互動者之該識別資料,以取得相對應之該聽力參數資料; 一答覆訊息取得模組,用以取得對應適於答覆該語音訊息之一原始答覆語音訊息;以及 一聲音調整模組,用以根據該聽力參數資料調整該原始答覆語音訊息,以產生一調整後答覆語音訊息,該喇叭輸出該調整後答覆語音訊息。
  2. 如申請專利範圍第1項所述之電子裝置,其中該電子裝置連線一伺服器系統,該答覆訊息取得模組係先將該語音訊息發送至該伺服器系統後,再由該伺服器系統接收取得該原始答覆語音訊息,該原始答覆語音訊息係該伺服器系統根據分析該語音訊息之結果而取得。
  3. 如申請專利範圍第1項所述之電子裝置,其中該答覆訊息取得模組分析該語音訊息,並根據分析之結果以取得該原始答覆語音訊息。
  4. 如申請專利範圍第1項所述之電子裝置,其中該識別資料包含臉部影像資料、指紋資料或聲紋資料;該辨識特徵資料為該使用者之臉部影像、指紋或聲音。
  5. 如申請專利範圍第1項所述之電子裝置,其中該聽力參數資料為各該互動者對於不同頻率之聲音可聽見的最小音量數據,係該檔案建立模組根據各該互動者的一年齡資料及一性別資料而取得。
  6. 如申請專利範圍第1項所述之電子裝置,其中該喇叭可擇一輸出該原始答覆語音訊息或該調整後答覆語音訊息,或者先後輸出該原始答覆語音訊息及該調整後答覆語音訊息。
  7. 如申請專利範圍第2或3項所述之電子裝置,其中該電子裝置電性連接至少一受控電子裝置,該處理單元更包括一控制模組,該控制模組用以根據一控制訊號控制該至少一受控電子裝置功能之執行;該控制訊號係根據分析該語音訊息之結果而產生。
  8. 一種調整輸出聲音之方法,適用於具有智慧語音服務功能之電子裝置,該方法包括下列步驟: 建立並儲存一互動者資料庫,其中該互動者資料庫包含複數互動者之一識別資料及一聽力參數資料; 獲取一使用者之一辨識特徵資料及該使用者發出的一語音訊息; 分析該辨識特徵資料,以得到一身分驗證資料,並比對該身分驗證資料與該複數互動者之該識別資料,以取得相對應之該聽力參數資料; 取得對應適於答覆該語音訊息之一原始答覆語音訊息; 根據該聽力參數資料調整該原始答覆語音訊息,以產生一調整後答覆語音訊息;以及 輸出該調整後答覆語音訊息或該原始答覆語音訊息。
  9. 如申請專利範圍第8項所述之方法,其中該電子裝置連線一伺服器系統,取得該原始答覆語音訊息之步驟包括: 發送該語音訊息至該伺服器系統,以使該伺服器系統根據分析該語音訊息之結果取得該原始答覆語音訊息;以及 接收來自該伺服器系統之該原始答覆語音訊息。
  10. 如申請專利範圍第8項所述之方法,其中取得該原始答覆語音訊息之步驟包括: 分析該語音訊息,並根據分析之結果以取得該原始答覆語音訊息。
  11. 如申請專利範圍第8項所述之方法,其中該識別資料包含臉部影像資料、指紋資料或聲紋資料;該辨識特徵資料為該使用者之臉部影像、指紋或聲音。
  12. 如申請專利範圍第8項所述之方法,其中該聽力參數資料為各該互動者對於不同頻率之聲音可聽見的最小音量數據,係該檔案建立模組根據各該互動者的一年齡資料及一性別資料而取得。
  13. 如申請專利範圍第8項所述之方法,其中輸出該調整後答覆語音訊息或該原始答覆語音訊息之步驟包含擇一輸出該原始答覆語音訊息或該調整後答覆語音訊息,或者先後輸出該原始答覆語音訊息及該調整後答覆語音訊息。
  14. 如申請專利範圍第9或10項所述之方法,其中該電子裝置電性連接至少一受控電子裝置,該方法更包括下列步驟: 根據一控制訊號,控制該至少一受控電子裝置功能之執行,其中該控制訊號係根據分析該語音訊息之結果而產生。
TW106129516A 2017-08-30 2017-08-30 具有智慧語音服務功能之電子裝置及調整輸出聲音之方法 TWI639114B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW106129516A TWI639114B (zh) 2017-08-30 2017-08-30 具有智慧語音服務功能之電子裝置及調整輸出聲音之方法
US15/822,412 US10303428B2 (en) 2017-08-30 2017-11-27 Electronic device with a function of smart voice service and method of adjusting output sound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW106129516A TWI639114B (zh) 2017-08-30 2017-08-30 具有智慧語音服務功能之電子裝置及調整輸出聲音之方法

Publications (2)

Publication Number Publication Date
TWI639114B TWI639114B (zh) 2018-10-21
TW201913359A true TW201913359A (zh) 2019-04-01

Family

ID=64802690

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106129516A TWI639114B (zh) 2017-08-30 2017-08-30 具有智慧語音服務功能之電子裝置及調整輸出聲音之方法

Country Status (2)

Country Link
US (1) US10303428B2 (zh)
TW (1) TWI639114B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW202027062A (zh) * 2018-12-28 2020-07-16 塞席爾商元鼎音訊股份有限公司 聲音播放系統及其調整輸出聲音之方法
US10902841B2 (en) * 2019-02-15 2021-01-26 International Business Machines Corporation Personalized custom synthetic speech
CN111190479A (zh) * 2019-03-29 2020-05-22 码赫镭(上海)数字科技有限公司 一种智能终端设备的嵌入式应用系统
US10896686B2 (en) 2019-05-29 2021-01-19 Capital One Services, Llc Methods and systems for providing images for facilitating communication
US10878800B2 (en) * 2019-05-29 2020-12-29 Capital One Services, Llc Methods and systems for providing changes to a voice interacting with a user
CN110515305A (zh) * 2019-06-11 2019-11-29 平果科力屋智能科技有限公司 一种智能家居的网络设备控制系统
CN110347367B (zh) * 2019-07-15 2023-06-20 百度在线网络技术(北京)有限公司 音量调节方法、终端设备、存储介质及电子设备
CN112327789B (zh) * 2020-11-26 2023-04-28 江西台德智慧科技有限公司 一种应用于智能语音助手的语音交互的系统及方法
TWI817897B (zh) * 2021-09-08 2023-10-01 華南商業銀行股份有限公司 用於金融交易系統之低雜訊聲紋辨識裝置與其方法
CN114623568B (zh) * 2022-03-14 2024-04-26 小米科技(武汉)有限公司 空调的控制方法、装置、电子设备及存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019609B2 (en) * 1999-10-04 2011-09-13 Dialware Inc. Sonic/ultrasonic authentication method
US7280970B2 (en) * 1999-10-04 2007-10-09 Beepcard Ltd. Sonic/ultrasonic authentication device
US6813490B1 (en) * 1999-12-17 2004-11-02 Nokia Corporation Mobile station with audio signal adaptation to hearing characteristics of the user
US20100119093A1 (en) * 2008-11-13 2010-05-13 Michael Uzuanis Personal listening device with automatic sound equalization and hearing testing
US10079892B2 (en) * 2010-04-16 2018-09-18 Avaya Inc. System and method for suggesting automated assistants based on a similarity vector in a graphical user interface for managing communication sessions
JP5643821B2 (ja) 2010-06-18 2014-12-17 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声制御装置及び音声制御方法
CN103309618A (zh) * 2013-07-02 2013-09-18 姜洪明 移动操作系统
TW201505023A (zh) * 2013-07-19 2015-02-01 Richplay Information Co Ltd 個人化語音助理之方法
US9438440B2 (en) 2013-07-29 2016-09-06 Qualcomm Incorporated Proximity detection of internet of things (IoT) devices using sound chirps
CN104309964B (zh) 2014-09-03 2017-01-25 北京大学深圳研究生院 一种基于声学矢量传感器的语音控制智能垃圾桶
CN104902070A (zh) * 2015-04-13 2015-09-09 青岛海信移动通信技术股份有限公司 一种移动终端语音控制的方法及移动终端
KR102356969B1 (ko) * 2015-09-24 2022-01-28 삼성전자주식회사 통신 수행 방법 및 이를 지원하는 전자장치
US9749766B2 (en) * 2015-12-27 2017-08-29 Philip Scott Lyren Switching binaural sound
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US10115400B2 (en) * 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
CN107734213A (zh) * 2016-08-11 2018-02-23 漳州立达信光电子科技有限公司 智能家用电子装置与系统
US10403268B2 (en) * 2016-09-08 2019-09-03 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
JP6576965B2 (ja) * 2017-01-13 2019-09-18 株式会社東芝 磁気ヘッド及び磁気記録再生装置
TWM547728U (zh) 2017-06-01 2017-08-21 Nat Taichung Univ Of Science And Tech 聽障人士專用智慧即時路況系統
TWI638352B (zh) * 2017-06-02 2018-10-11 元鼎音訊股份有限公司 可調整輸出聲音之電子裝置及調整輸出聲音之方法

Also Published As

Publication number Publication date
US20190065136A1 (en) 2019-02-28
US10303428B2 (en) 2019-05-28
TWI639114B (zh) 2018-10-21

Similar Documents

Publication Publication Date Title
TWI639114B (zh) 具有智慧語音服務功能之電子裝置及調整輸出聲音之方法
JP6475386B2 (ja) 機器の制御方法、機器、及びプログラム
WO2016052018A1 (ja) 家電管理システム、家電、リモコン装置、ロボット
CN104159360A (zh) 照明控制方法、装置及设备
US20220277752A1 (en) Voice interaction method and related apparatus
TW201821946A (zh) 數據發送系統及其方法
US20140244267A1 (en) Integration of user orientation into a voice command system
US20180213396A1 (en) Privacy control in a connected environment based on speech characteristics
KR102077887B1 (ko) 비디오 회의 강화
TWI638352B (zh) 可調整輸出聲音之電子裝置及調整輸出聲音之方法
TW202009761A (zh) 身分識別方法、裝置和電腦可讀儲存媒體
CN105263044A (zh) 智能家居设备调整方法及装置
CN104363205A (zh) 应用登录方法和装置
CN107391487A (zh) 基于批量事件的设备控制方法及装置、电子设备
CN109545209A (zh) 操作执行方法、装置及存储介质
CN108781338A (zh) 具有自动安全控制的听力辅助设备和方法
US11227423B2 (en) Image and sound pickup device, sound pickup control system, method of controlling image and sound pickup device, and method of controlling sound pickup control system
CN108769799B (zh) 一种信息处理方法及电子设备
WO2019128632A1 (zh) 播放音频的方法、装置和系统
US10587941B2 (en) Microphone cooperation device
TWM550619U (zh) 可依據臉部影像辨識結果取得聽力數據之電子裝置
CN109427344A (zh) 具有智能语音服务功能的电子装置及调整输出声音的方法
CN111459262A (zh) 智能音箱、手势处理方法、装置及电子设备
US20180288373A1 (en) Treatment method for doorbell communication
WO2018023523A1 (zh) 一种运动及情感识别家居控制系统