TWI779327B - 調節移動機器人裝置所輸出的音訊的音量的方法 - Google Patents
調節移動機器人裝置所輸出的音訊的音量的方法 Download PDFInfo
- Publication number
- TWI779327B TWI779327B TW109126064A TW109126064A TWI779327B TW I779327 B TWI779327 B TW I779327B TW 109126064 A TW109126064 A TW 109126064A TW 109126064 A TW109126064 A TW 109126064A TW I779327 B TWI779327 B TW I779327B
- Authority
- TW
- Taiwan
- Prior art keywords
- remote user
- user device
- mobile robotic
- audio signal
- robotic device
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000005236 sound signal Effects 0.000 claims abstract description 60
- 238000004891 communication Methods 0.000 claims abstract description 22
- 230000002996 emotional effect Effects 0.000 claims description 8
- 241001465754 Metazoa Species 0.000 claims description 5
- 230000003190 augmentative effect Effects 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
- H04L67/125—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks involving control of end-device applications over a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/01—Aspects of volume control, not necessarily automatic, in sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Toys (AREA)
- Manipulator (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
本發明提供了調節移動機器人裝置所輸出的音訊的音量的方法。所公開的主題的實現提供了從移動機器人裝置向遠端使用者裝置發送聲音和/或由感測器捕獲的至少一個圖像的方法。移動機器人裝置可以經由通信網路從遠端使用者裝置接收用於使移動機器人裝置在區域內移動的至少一個第一控制操作。可以基於區域中的移動機器人裝置的麥克風處所接收到的聲音來發送音訊信號。可以在移動機器人裝置的揚聲器處輸出從遠端使用者裝置接收到的音訊信號。可以基於麥克風所接收到的聲音、根據區域的大小和區域中的頻率的振幅的平均值或中值來調節揚聲器所輸出的音訊信號的音量。
Description
本發明係有關於一種調節移動機器人裝置所輸出的音訊的音量的方法。
發明背景
利用目前的遠端臨場機器人,機器人區域中的人通常調節來自機器人的聲音的輸出音量,或者請求遠端臨場機器人的操縱者改變輸出音量。遠端臨場機器人所使用的麥克風類型、從人到麥克風的距離、以及來自遠端臨場機器人操縱者的增益通常使得遠端臨場機器人的操縱者很難遠端地調節來自遠端臨場機器人的聲音的輸出音量。
發明概要
根據所公開的主題的實現,可以提供如下的方法,該方法包括經由通信介面從移動機器人裝置向遠端使用者裝置發送聲音和/或由感測器捕獲的至少一個圖像。可以在移動機器人裝置處經由通信網路從遠端使用者裝置接收用於使移動機器人裝置在區域內移動的至少一個第一控制操作。可以在移動機器人裝置的麥克風處接收區域中的聲音,並且可以基於所接收到的聲音、經由通信網路來發送音訊信號。可以在移動機器人裝置的揚聲器處輸出經由通信網路接收到的音訊信號。該方法可以包括在移動機器人裝置的控制器處基於麥克風所接收到的聲音、根據區域的大小和區域中的頻率的振幅的平均值或中值來調節揚聲器所輸出的音訊信號的音量。
通過考慮以下具體實施方式、附圖和申請專利範圍,所公開的主題的附加特徵、優點和實現可以被闡明或顯而易見。此外,應當理解,前述發明內容和以下具體實施方式是例示性的,並且旨在在不限制申請專利範圍的範圍的情況下提供進一步解釋。
較佳實施例之詳細說明
所公開的主題的實現提供了調節區域內的移動機器人裝置所輸出的音訊的音量和/或頻率範圍的方法。移動機器人裝置可能操作的不同區域可以基於區域的大小、區域內的表面和/或物體以及區域的反射和/或吸收特性等而具有不同的聲特性。區域中的聲音可以由移動機器人裝置的一個或多個麥克風接收,並且可以用於確定來自移動機器人裝置的揚聲器的音訊信號的輸出音量。區域中的聲音可以例如包括話音、環境雜訊(來自移動機器人所在的環境,諸如醫院、老年人護理設施、辦公環境、工業環境和飛機環境等)、正在播放的音樂、以及來自HVAC (採暖通風和空調)系統的雜訊等。移動機器人裝置的區域內的聲音的頻率的振幅的移動平均值和/或中值可以用於確定要輸出的音訊信號的輸出音量和/或頻率範圍。
移動機器人裝置可以由遠端使用者裝置控制,該遠端使用者裝置可以向移動機器人裝置提供一個或多個音訊信號以由揚聲器輸出。移動機器人裝置的揚聲器所輸出的振幅和/或頻率可以與遠端使用者裝置的麥克風所接收到的聲音的振幅相似和/或相等。在一些實現中,遠端使用者裝置的麥克風可以檢測到使用者(即,控制移動機器人裝置的人——“操縱者”)的話音的音量的增大,並且可以相應地使來自移動機器人裝置處的揚聲器的音訊信號的輸出音量增大。
所公開的主題的實現改進了目前的遠端臨場機器人,在目前的遠端臨場機器人中,由於回波消除,因此操縱者(即,控制遠端臨場機器人的人)很難理解從機器人本身輸出的音訊。通常,人類根據他們聽到的背景音量來調節其話音的響度。然而,來自從遠端臨場機器人的揚聲器輸出的聲音受增益、麥克風類型、麥克風距操縱者的距離、以及來自遠端臨場機器人的增益影響,操縱者不知道遠端臨場機器人的聲音的輸出音量。通常,操縱者調節音量,或者與機器人在相同區域中的人調節來自機器人本身的輸出音量或請求操縱者改變輸出音量。
所公開的主題的實現可以提供一種移動機器人裝置,該移動機器人裝置可以改變從遠端使用者裝置的使用者(即,操縱者)接收到的音訊的頻率。一些實現可以改變移動機器人裝置的麥克風所接收到的聲音的頻率,並且可以將具有改變後的頻率的音訊信號發送至遠端使用者裝置。可以(例如,在移動機器人裝置和/或遠端使用者裝置處)選擇可改變音訊信號的頻率(例如,針對聽力頻率範圍縮小的一個或多個人,諸如老年人等)的模式。在一些實現中,可以在移動機器人裝置的感測器檢測到特定人時選擇該模式。在一些實現中,可以基於特定人的檢測而在移動機器人裝置和/或遠端使用者裝置處自動選擇該模式。當在這種模式下操作時,傳入聲音的頻率範圍可被壓縮到預定頻率範圍。在一些實現中,可以選擇可針對特定人(例如,能夠聽到更高頻率範圍的聲音的兒童和/或年輕人)可聽到的特定範圍來調節音訊信號的頻率範圍的模式。
在一些實現中,移動機器人裝置可被部署在具有與使用遠端使用者裝置的操縱者的自然語言不同的自然語言的區域中。移動機器人裝置可被配置為輸出音訊信號,該音訊信號具有移動機器人裝置被部署在的本地區域的自然語言。也就是說,可以對音訊信號的語音進行翻譯,並且可以根據翻譯後的語音生成新的音訊信號,以由移動機器人裝置輸出。
在一些實現中,移動機器人裝置可以識別區域中的一個或多個人。可以通過移動機器人裝置的一個或多個感測器來捕獲一個或多個人的圖像,並且可以例如基於一個或多個資料庫記錄來識別一個或多個人。可以為遠端使用者裝置的操縱者顯示被識別人的資訊(例如,姓名、頭銜、聯繫資訊、所說語言和聽力能力等)。根據檢索到的被識別人的資料庫記錄,移動機器人裝置所輸出的音訊可以是被識別人的自然語言。可以對音訊信號的語音進行翻譯,並且可以通過移動機器人裝置來輸出被識別人的自然語言的新音訊輸出信號。被識別人的語音可以由移動機器人的麥克風捕獲、被翻譯和發送至遠端使用者裝置,以作為音訊信號和/或作為語音文本的轉錄而輸出。在一些實現中,移動機器人的一個或多個感測器可以用於確定人的情緒,並將所確定的人的情緒狀態提供給遠端使用者裝置。
圖1示出根據所公開的主題的實現的調節移動機器人的揚聲器所輸出的音訊信號的音量的示例性方法10。在操作12處,聲音和/或由感測器(例如,圖8~10所示的感測器102b、102c)捕獲的至少一個圖像可以經由通信介面(例如,圖10所示的網路介面116,其可以通信地耦接至圖11所示的網路130)從移動機器人裝置(例如,圖8~11所示的移動機器人裝置100)發送至遠端使用者裝置(例如,圖11所示的遠端使用者裝置170)。
在操作14處,移動機器人裝置可以經由通信網路(例如,圖11所示的通信網路130)從遠端使用者裝置接收用於使移動機器人裝置在區域內移動的至少一個第一控制操作。控制操作可以包括移動的方向、移動的速度、用以接收資料和/或聲音(例如,圖像以及到物體的距離等)的一個或多個感測器(例如,感測器102a、102b、102c和/或102d)和/或麥克風(例如,麥克風103)的選擇。
在操作16處,移動機器人裝置的麥克風(例如,圖8~10所示的麥克風103)可以接收區域中的聲音。移動機器人可以基於接收到的聲音、經由通信網路來發送音訊信號。例如,麥克風和/或控制器(例如,圖10所示的控制器114)可以生成音訊信號,以經由網路介面(例如,圖10所示的網路介面116)發送至遠端使用者裝置。
在操作18處,移動機器人裝置的揚聲器(例如,圖8~10所示的揚聲器107)可以輸出經由通信網路從遠端使用者裝置接收到的音訊信號。在一些實現中,可以基於接收到的音訊信號中所包括的音量變化資訊,在移動機器人裝置的揚聲器處輸出音訊信號。控制器可以調節揚聲器所要輸出的音訊信號的頻率範圍。該頻率範圍可以基於在距移動機器人裝置預定距離內的人所要聽到的預定頻率範圍、以及/或者在距移動機器人裝置預定距離內的人能夠聽到的選定頻率範圍來調節。
例如,可以調節頻率範圍,使得位於移動機器人裝置的區域內的、針對特定頻率範圍聽力受損或者不能聽到特定頻率範圍(例如,12~20 kHz)內的聲音的人可以聽到揚聲器所輸出的音訊信號。在另一示例中,可以調節音訊信號的頻率範圍,使得能夠聽到特定頻率範圍的人(例如,可以聽到諸如15 kHz~20 kHz等的高頻的兒童和/或年輕人)可以聽到聲音。在一些實現中,可以識別移動機器人裝置的區域中的一個或多個人(例如,通過將機器人的一個或多個感測器所捕獲的該一個或多個人的圖像與圖像的資料庫進行比較,諸如在圖6中示出並且在下文描述),並且可以基於資料庫記錄來調節音訊信號的頻率範圍。
在操作20處,移動機器人裝置的控制器(例如,圖10所示的控制器114)可以基於麥克風所接收到的聲音、根據區域的大小和區域中的頻率的振幅的平均值或中值來調節揚聲器所輸出的音訊信號的音量。在一些實現中,控制器可以基於麥克風處所接收到的聲音的音量來調節揚聲器所輸出的音訊信號的音量。在一些實現中,可以使遠端使用者裝置所輸出的聲音的振幅與區域中的移動機器人裝置所輸出的頻率的振幅的平均值或中值相等。
移動機器人裝置經由通信網路接收到的遠端使用者裝置的使用者的圖像可以在移動機器人裝置的顯示器(例如,使用者介面110,其可以是觸控式螢幕,如圖8~10所示)上顯示。這可以允許移動機器人裝置的區域中的人看到移動機器人裝置的操縱者。
圖2~4示出根據所公開的主題的實現,圖1的示例性方法可以包括翻譯語音的方法。例如,圖2示出在操作22處,遠端使用者裝置和/或移動機器人可以將音訊信號中所包括的第一自然語言的語音翻譯為包括第二自然語言的第二音訊信號。自然語言可以是英語、法語、西班牙語、德語、日語、中文、韓語、印地語、阿拉伯語和俄語等。在操作24處,移動機器人裝置的揚聲器可以輸出第二音訊信號。
在一些實現中,移動機器人裝置和/或遠端使用者裝置可以將音訊信號的第一自然語言的語音翻譯為要在遠端使用者裝置的顯示器上顯示的第二自然語言的語音的文本。移動機器人裝置或遠端使用者裝置可以將音訊信號的第一自然語言的語音翻譯為要由遠端使用者裝置的揚聲器輸出的具有第二自然語言的第二音訊信號。
在圖3所示的示例性方法中,在操作26處,可以使用遠端使用者裝置從資料庫系統(例如,圖11所示的資料庫150)中的資料庫記錄檢索被識別人所說的自然語言。也就是說,移動機器人裝置的一個或多個感測器可以捕獲該人的圖像,並且可以將捕獲的圖像與圖像的資料庫(例如,圖11所示的資料庫150)進行比較以確定人的身份(例如,如在圖6中示出並在下文描述)。人的資料庫記錄可以例如包括姓名、聯繫資訊、頭銜以及所說的語言等。在操作28處,遠端使用者裝置可以將音訊信號中的語音翻譯為被識別人所說的自然語言,並使用翻譯後的語音形成第二音訊信號。在操作30處,可以在移動機器人裝置的揚聲器處輸出第二音訊信號。
在圖4所示的示例性方法中,在操作32處,遠端使用者裝置可以識別移動機器人裝置的麥克風所接收到的聲音中的語音的第一自然語言。在操作34處,遠端使用者裝置可以將語音的第一自然語言翻譯為第二自然語言。例如,移動機器人裝置的區域內的人可能說與操縱者(即,遠端使用者裝置的使用者)不同的自然語言。遠端使用者裝置可以將機器人的區域內的人所說的語言翻譯為操縱者的語言。在一些實現中,如在操作36處所示,遠端使用者裝置可以顯示翻譯後的語音的文本。
圖5示出根據所公開的主題的實現,圖1的示例性方法可以包括判斷移動機器人何時在距物體、人和/或動物預定距離內並發送通知的方法。在操作38處,使用一個或多個感測器(例如,圖8~10所示的感測器102a、102b、102c、102d),可以判斷移動機器人裝置何時距物體、人和/或動物預定距離。在操作40處,可以在判斷為距物體、人和動物中的至少一個為預定距離時經由移動機器人的通信介面向遠端使用者裝置發送通知。在操作42處,遠端使用者裝置可以輸出該通知,該通知可以是音訊通知、可視通知和/或增強現實通知。
圖6示出根據所公開的主題的實現,圖1的示例性方法可以包括基於所捕獲的圖像來識別人的方法。在操作44處,感測器(例如,圖8~10所示的感測器102b、102c)可以捕獲區域中的人的圖像。在操作46處,通信耦接至資料庫系統(例如,圖11所示的資料庫150)的移動機器人裝置或遠端使用者裝置可以基於所捕獲的圖像來識別人。在一些實現中,在操作50處,遠端使用者裝置可以顯示從資料庫系統檢索到的被識別人的識別資訊。遠端使用者裝置可以顯示從資料庫系統檢索到的被識別人的聯繫資訊。
圖7示出根據所公開的主題的實現,圖1的示例性方法可以包括確定移動機器人裝置附近的區域中的人的情緒狀態的方法。在操作52處,感測器(例如,圖8~10所示的感測器102b、102c)可以捕獲區域中的人的圖像。在操作54處,所捕獲的圖像可以經由通信網路(例如,圖11所示的網路130)發送至遠端使用者裝置(例如,遠端使用者裝置170)。在操作56處,遠端使用者裝置可以基於所捕獲的圖像來確定人的情緒狀態。在操作58處,遠端使用者裝置可以顯示所確定的人的情緒狀態。情緒狀態可能包括諸如悲傷、快樂、憤怒、迷惑和恐懼等的情緒。
圖8~9示出根據所公開的主題的實施例的示例性移動機器人裝置100。移動機器人裝置100可以具有多個感測器。感測器102a可以是飛行時間感測器。感測器102b可以是RGB (紅、綠、藍圖像感測器)相機和/或圖像感測器,並且感測器102c可以是RGB-D (RGB深度相機)。在一些實現中,感測器102b、102c可以是立體視覺感測器、3D相機、圖像感測器、熱相機或結構化光相機等。感測器102d可以是二維(2D)光檢測和測距(LiDAR)感測器、三維(3D) LiDAR感測器和/或雷達(無線電檢測和測距)感測器或超聲感測器等。
移動機器人裝置100可以包括至少一個麥克風103。在一些實現中,移動機器人裝置100可以具有佈置成陣列的多個麥克風103。
移動機器人裝置100可以包括發光二極體(LED)、有機發光二極體(OLED)、燈和/或可由控制器(例如,圖10所示的控制器114)控制以照射用於移動機器人裝置的導航的區域部分的任何合適光源。
移動機器人100可以包括用以驅動驅動系統108以使移動機器人在諸如房間或建築物等的區域中移動的馬達。驅動系統108可以包括輪,該輪可被調節以使得驅動系統108可以控制移動機器人100的方向。
移動機器人裝置100可以包括一個或多個揚聲器107。在一些實現中,諸如圖9所示,揚聲器107可被配置在顯示器110的第一側和第二側(例如,左側和右側)。顯示器110可以是LCD (液晶顯示器)或OLED顯示器等,以顯示諸如從遠端使用者裝置170接收到的圖像等的圖像。
圖10示出適於提供所公開的主題的實現的移動機器人100的示例性組件。移動機器人100可以包括匯流排122,該匯流排122使移動機器人100的諸如以下的主要組件互連:驅動系統108、可操作地經由合適的網路連接與一個或多個遠端裝置通信的網路介面116、控制器114、諸如隨機存取記憶體(RAM)、唯讀記憶體(ROM)或閃速RAM等的記憶體118、LED光源104、感測器102a、感測器102b、感測器102c、感測器102d、諸如觸控式螢幕等的可包括一個或多個控制器、顯示器和相關使用者輸入裝置的使用者介面110、諸如硬碟驅動器和閃速存儲等的固定存儲120、麥克風103、以及用以輸出音訊通知和/或其它資訊的揚聲器107。
匯流排122允許控制器114與一個或多個記憶體元件之間的資料通信,如前所述,該一個或多個記憶體元件可以包括RAM、ROM和其它記憶體。通常,RAM是作業系統和應用程式被載入至的主記憶體。除了其它代碼,ROM或閃速記憶體元件還可以包含用於控制諸如與週邊元件的交互等的基本硬體操作的基本輸入輸出系統(BIOS)。駐留在移動機器人100中的應用一般存儲在諸如固態驅動器、硬碟驅動器、光驅動器、固態驅動器或其它存儲介質等的電腦可讀介質(例如,固定存儲120)上並經由電腦可讀介質訪問。
網路介面116可以經由有線或無線連接(例如,圖11所示的網路130)來提供到遠端伺服器(例如,圖11所示的伺服器140、資料庫150、遠端平臺160和/或遠端使用者裝置170)的直接連接。網路介面116可以使用本領域技術人員容易理解的任何合適技術和協定(包括數位蜂窩電話、WiFi、藍牙(R)和近場等)來提供這種連接。例如,如下文更詳細所述,網路介面116可以允許移動機器人100經由一個或多個本地、廣域或其它通信網路來與其它電腦進行通信。移動機器人可以經由網路介面來向遠端使用者裝置發送資料,包括來自感測器的資料和/或圖像以及由麥克風所捕獲的聲音產生的音訊信號等。
許多其它裝置或元件(未示出)可以以類似的方式連接。相反,圖10所示的所有組件無需都存在以實踐本發明。這些元件可以以與所示的方式不同的方式互連。用以實現本發明的代碼可以存儲在電腦可讀存儲介質(諸如記憶體118、固定存儲120中的一個或多個)中,或者存儲在遠端存放位置上。
圖11示出根據所公開的主題的實現的示例性網路佈置。上述的移動機器人100和/或類似的移動機器人200可以經由網路130而連接到其它裝置。網路130可以是本地網路、廣域網路、網際網路或任何其它合適的通信網路,並且可以在包括有線和/或無線網路的任何合適平臺上實現。移動機器人100和/或移動機器人200可以彼此通信,以及/或者可以與諸如伺服器140、資料庫150、遠端平臺160和/或遠端使用者裝置170等的一個或多個遠端裝置進行通信。遠端裝置可以由移動機器人100、200直接訪問,或者一個或多個其它裝置可以提供中間訪問,諸如伺服器140提供對資料庫150中所存儲的資源的訪問。移動機器人100、200可以訪問遠端平臺160或由遠端平臺160提供的服務(諸如雲計算佈置和服務等)。遠端平臺160可以包括一個或多個伺服器140和/或資料庫150。遠端使用者電腦170可以經由網路130來控制移動機器人100、200,以及/或者接收感測器資料、一個或多個圖像和音訊信號等。遠端使用者裝置可以向移動機器人100、200發送一個或多個圖像、命令和音訊信號等。
更一般地,目前公開的主題的各種實現可以包括電腦實現處理以及用於實踐這些處理的設備,或者以電腦實現處理以及用於實踐這些處理的設備的形式體現。實現還可以以具有在諸如固態驅動器、DVD、CD-ROM、硬碟驅動器、USB (通用序列匯流排)驅動器或任何其它機器可讀存儲介質等的非暫時性和/或有形介質中體現的包括指令的電腦程式代碼的電腦程式產品的形式體現,使得當電腦程式代碼被載入到電腦中並由電腦執行時,電腦變為用於實踐所公開的主題的實現的設備。實現還可以以電腦程式代碼(例如,無論是存儲在存儲介質中、是載入到電腦中和/或由電腦執行、還是通過一些傳輸介質(諸如通過電線或電纜、通過光纖或經由電磁輻射等)進行傳輸)的形式體現,使得當電腦程式代碼被載入到電腦中並由電腦執行時,電腦變為用於實踐所公開的主題的實現的設備。當在通用微處理器上實現時,電腦程式程式碼片段配置微處理器以創建特定邏輯電路。
在一些配置中,電腦可讀存儲介質上所存儲的電腦可讀指令集可以由通用處理器實現,該通用處理器可以將通用處理器或包含通用處理器的裝置變換成被配置為實現或執行指令的專用裝置。實現可以包括使用具有諸如通用微處理器和/或專用積體電路(ASIC)等的處理器的硬體,該處理器在硬體和/或固件中體現了根據所公開的主題的實現的全部或部分技術。處理器可以耦接到諸如RAM、ROM、閃速記憶體、硬碟或能夠存儲電子資訊的任何其它裝置等的記憶體。記憶體可以存儲適於由處理器執行以進行根據所公開的主題的實現的技術的指令。
為了解釋起見,已經參考具體實現描述了前述說明。然而,以上的例示性討論不旨在是詳盡的或將所公開的主題的實現局限於所公開的確切形式。鑒於以上的教導,許多修改和變化都是可以的。選擇並描述這些實現以解釋所公開的主題的實現及其實際應用的原理,從而使本領域技術人員能夠利用這些實現以及具有可適合所設想的特定用途的各種修改的各種實現。
10:示例性方法
12,14,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58:操作
100, 00:移動機器人裝置
102a,102b,102c,102d:感測器
103:麥克風
104:LED光源
107:揚聲器
108:驅動系統
110:使用者介面
114:控制器
116:網路介面
118:記憶體
120:固定存儲
122:匯流排
130:網路
140:伺服器
150:資料庫
160:遠端平臺
170:遠端使用者裝置
為了提供對所公開的主題的進一步理解而包括的附圖被包含在本說明書中,並構成本說明書的一部分。附圖還示出所公開的主題的實現,並且與具體實施方式一起用於解釋所公開的主題的實現原理。沒有嘗試比對所公開主題及可實踐該主題的各種方式的基本理解所必需的更詳細地示出結構詳情。
圖1示出根據所公開的主題的實現的調節移動機器人裝置的揚聲器所輸出的音訊信號的音量的示例性方法。
圖2~4示出根據所公開的主題的實現,圖1的示例性方法可以包括翻譯語音的方法。
圖5示出根據所公開的主題的實現,圖1的示例性方法可以包括判斷移動機器人何時在距物體、人和/或動物預定距離內並發送通知的方法。
圖6示出根據所公開的主題的實現,圖1的示例性方法可以包括基於所捕獲的圖像來識別人的方法。
圖7示出根據所公開的主題的實現,圖1的示例性方法可以包括確定移動機器人裝置附近的區域中的人的情緒狀態的方法。
圖8~9示出根據所公開的主題的實現的示例性移動機器人裝置。
圖10示出根據所公開的主題的實現的圖8~9的移動機器人的示例性配置。
圖11示出根據所公開的主題的實現的可包括多個移動機器人的網路配置。
12,14,16,18,20:操作
Claims (17)
- 一種調節一移動機器人裝置所輸出的音訊之音量的方法,包括:從所述移動機器人裝置經由一通信介面向一遠端使用者裝置發送從聲音以及由一感測器捕獲的至少一個圖像所組成的組中選擇的至少一方;在所述移動機器人裝置處經由一通信網路從所述遠端使用者裝置接收用於使所述移動機器人裝置在一區域內移動的至少一個第一控制操作;在所述移動機器人裝置的一麥克風處接收所述區域中的聲音,並且基於所接收到的聲音、經由所述通信網路來發送一音訊信號;在所述移動機器人裝置的一揚聲器處輸出經由所述通信網路從所述遠端使用者裝置接收到的所述音訊信號;以及在所述移動機器人裝置的一控制器處基於所述麥克風所接收到的聲音、根據所述區域的大小和所述區域中的頻率的振幅的一平均值或一中值來調節所述揚聲器所輸出的所述音訊信號的音量。
- 如請求項1所述的方法,其中,調節音量還包括:在所述移動機器人裝置的所述控制器處基於所述麥克風處所接收到的聲音的音量來調節所述揚聲器所輸出的所述音訊信號的音量。
- 如請求項1所述的方法,其中,在所述揚聲器處輸出所述音訊信號還包括:在所述移動機器人裝置的所述揚聲器處基於所接收到的所述音訊信號中所包括的音量變化資訊來輸出所述音訊信號。
- 如請求項1所述的方法,還包括:使所述遠端使用者裝置所輸出的聲音的振幅與所述區域中的頻率的振幅的所述平均值或所述中值相等。
- 如請求項1所述的方法,還包括:在所述移動機器人裝置的所述控制器處調節所述揚聲器所要輸出的所述音訊信號的一頻率範圍。
- 如請求項5所述的方法,其中,基於來自以下各項所組成的組中的至少一個來調節所述頻率範圍:在距所述移動機器人裝置一預定距離內的人所要聽到的一預定頻率範圍、以及在距所述移動機器人裝置所述預定距離內的人能夠聽到的一選定頻率範圍。
- 如請求項1所述的方法,還包括:在所述遠端使用者裝置處或者在所述移動機器人裝置處將所述音訊信號中所包括的一第一自然語言的語音翻譯為包括一第二自然語言的一第二音訊信號;以及在所述揚聲器處輸出所述第二音訊信號。
- 如請求項1所述的方法,還包括:在所述移動機器人裝置或所述遠端使用者裝置處將所述音訊信號的一第一自然語言的語音翻譯為要在所述遠端使用者裝置的一顯示器上顯示的一第二自然語言的語音的文本。
- 如請求項1所述的方法,還包括:在所述移動機器人裝置或所述遠端使用者裝置處將所述音訊信號的一第一自然語言的語音翻譯為要由所述遠端使用者裝置的揚聲器輸出的具有一第二自然語言的一第二音訊信號。
- 如請求項1所述的方法,還包括:在所述移動機器人裝置的一顯示器上顯示所述移動機器人裝置經由所述通信網路所接收到的所述遠端使用者裝置的一使用者的一圖像。
- 如請求項1所述的方法,還包括: 使用所述感測器或其它感測器,來判斷所述移動機器人裝置何時距以下各項所組成的組中的至少一項一預定距離:一物體、一人員和一動物;以及在判斷為距所述物體、所述人員和所述動物中的至少一項所述預定距離的情況下,經由所述通信介面向所述遠端使用者裝置發送一通知。
- 如請求項11所述的方法,還包括:在所述遠端使用者裝置處輸出所述通知,其中,所述通知是從以下各項所組成的組中選擇的至少一個:一音訊通知、一視覺通知和一擴增實境通知。
- 如請求項1所述的方法,還包括:在所述感測器處捕獲所述區域中的一人員的一圖像;在通信耦接至一資料庫系統的所述移動機器人裝置或所述遠端使用者裝置處基於所捕獲的所述圖像來識別所述人員;以及在所述遠端使用者裝置處顯示從所述資料庫系統檢索到的被識別的所述人員的識別資訊。
- 如請求項13所述的方法,還包括:在所述遠端使用者裝置處顯示從所述資料庫系統檢索到的被識別的所述人員的聯繫資訊。
- 如請求項13所述的方法,其中,所述音訊信號的輸出包括:使用所述遠端使用者裝置從所述資料庫系統中的一資料庫記錄檢索被識別的所述人員所說的一自然語言;在所述遠端使用者裝置處,將所述音訊信號中的語音翻譯為被識別的所述人員所說的所述自然語言並使用翻譯後的語音來形成一第二音訊信號;以及在所述移動機器人裝置的所述揚聲器處輸出所述第二音訊信號。
- 如請求項13所述的方法,其中,所述音訊信號的輸出包括:在所述遠端使用者裝置處識別所述麥克風所接收到的聲音中的語音的一第 一自然語言;在所述遠端使用者裝置處將所述語音的所述第一自然語言翻譯為一第二自然語言;在所述遠端使用者裝置處顯示翻譯後的語音的文本。
- 如請求項1所述的方法,還包括:在所述感測器處捕獲所述區域中的一人員的一圖像;經由所述通信網路將所捕獲的所述圖像發送至所述遠端使用者裝置;在所述遠端使用者裝置處基於所捕獲的所述圖像來確定所述人員的一情緒狀態;以及在所述遠端使用者裝置處顯示所確定的所述人員的所述情緒狀態。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/932,433 US11386888B2 (en) | 2020-07-17 | 2020-07-17 | Method of adjusting volume of audio output by a mobile robot device |
US16/932,433 | 2020-07-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202205058A TW202205058A (zh) | 2022-02-01 |
TWI779327B true TWI779327B (zh) | 2022-10-01 |
Family
ID=71950432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109126064A TWI779327B (zh) | 2020-07-17 | 2020-07-31 | 調節移動機器人裝置所輸出的音訊的音量的方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11386888B2 (zh) |
EP (1) | EP3939750A1 (zh) |
CN (1) | CN114025283A (zh) |
TW (1) | TWI779327B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170352351A1 (en) * | 2014-10-29 | 2017-12-07 | Kyocera Corporation | Communication robot |
CN108369805A (zh) * | 2017-12-27 | 2018-08-03 | 深圳前海达闼云端智能科技有限公司 | 一种语音交互方法、装置和智能终端 |
US20180366121A1 (en) * | 2017-06-14 | 2018-12-20 | Toyota Jidosha Kabushiki Kaisha | Communication device, communication robot and computer-readable storage medium |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7184559B2 (en) * | 2001-02-23 | 2007-02-27 | Hewlett-Packard Development Company, L.P. | System and method for audio telepresence |
JP4220858B2 (ja) | 2003-08-18 | 2009-02-04 | 本田技研工業株式会社 | 携帯端末機器を用いた移動ロボットの画像撮影装置 |
WO2007129731A1 (ja) * | 2006-05-10 | 2007-11-15 | Honda Motor Co., Ltd. | 音源追跡システム、方法、およびロボット |
US8379072B2 (en) * | 2009-09-15 | 2013-02-19 | Exhibitone Corporation | Apparatus and method for realtime remote interpretation |
US20170011258A1 (en) | 2010-06-07 | 2017-01-12 | Affectiva, Inc. | Image analysis in support of robotic manipulation |
US20150347399A1 (en) | 2014-05-27 | 2015-12-03 | Microsoft Technology Licensing, Llc | In-Call Translation |
US20170060850A1 (en) * | 2015-08-24 | 2017-03-02 | Microsoft Technology Licensing, Llc | Personal translator |
US11151992B2 (en) * | 2017-04-06 | 2021-10-19 | AIBrain Corporation | Context aware interactive robot |
JP7326707B2 (ja) * | 2018-06-21 | 2023-08-16 | カシオ計算機株式会社 | ロボット、ロボットの制御方法及びプログラム |
WO2020145417A1 (ko) * | 2019-01-07 | 2020-07-16 | 엘지전자 주식회사 | 로봇 |
JP7339124B2 (ja) * | 2019-02-26 | 2023-09-05 | 株式会社Preferred Networks | 制御装置、システム及び制御方法 |
WO2021015308A1 (ko) * | 2019-07-19 | 2021-01-28 | 엘지전자 주식회사 | 로봇 및 그의 기동어 인식 방법 |
KR20210050201A (ko) * | 2019-10-28 | 2021-05-07 | 엘지전자 주식회사 | 로봇, 로봇의 작동 방법 및 상기 로봇을 포함하는 로봇 시스템 |
CN111239689A (zh) | 2020-02-28 | 2020-06-05 | 广东美的厨房电器制造有限公司 | 移动机器人的声波定位方法、声波接收装置及机器人系统 |
-
2020
- 2020-07-17 US US16/932,433 patent/US11386888B2/en active Active
- 2020-07-31 TW TW109126064A patent/TWI779327B/zh active
- 2020-08-04 EP EP20189480.5A patent/EP3939750A1/en active Pending
- 2020-08-10 CN CN202010796217.3A patent/CN114025283A/zh active Pending
-
2022
- 2022-03-14 US US17/654,650 patent/US11657808B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170352351A1 (en) * | 2014-10-29 | 2017-12-07 | Kyocera Corporation | Communication robot |
US20180366121A1 (en) * | 2017-06-14 | 2018-12-20 | Toyota Jidosha Kabushiki Kaisha | Communication device, communication robot and computer-readable storage medium |
CN108369805A (zh) * | 2017-12-27 | 2018-08-03 | 深圳前海达闼云端智能科技有限公司 | 一种语音交互方法、装置和智能终端 |
Also Published As
Publication number | Publication date |
---|---|
US20220020359A1 (en) | 2022-01-20 |
US11657808B2 (en) | 2023-05-23 |
EP3939750A1 (en) | 2022-01-19 |
TW202205058A (zh) | 2022-02-01 |
US11386888B2 (en) | 2022-07-12 |
US20220208181A1 (en) | 2022-06-30 |
CN114025283A (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102481454B1 (ko) | 방향성 인터페이스를 갖는 핸즈 프리 디바이스 | |
US9949056B2 (en) | Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene | |
US10339913B2 (en) | Context-based cancellation and amplification of acoustical signals in acoustical environments | |
US20180018965A1 (en) | Combining Gesture and Voice User Interfaces | |
JP2017513535A (ja) | オーディオナビゲーション支援 | |
JP2017513535A5 (zh) | ||
CN113196229A (zh) | 会话辅助音频设备个性化 | |
US20190327556A1 (en) | Compact sound location microphone | |
US10540778B2 (en) | System for determining anatomical feature orientation | |
JP6675527B2 (ja) | 音声入出力装置 | |
KR102651249B1 (ko) | 디지털 어시스턴트를 이용한 오디오 정보 제공 | |
US9042563B1 (en) | System and method to localize sound and provide real-time world coordinates with communication | |
KR20200083289A (ko) | 로컬화된 가상 개인 지원 | |
JP5206151B2 (ja) | 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法 | |
KR102115222B1 (ko) | 사운드를 제어하는 전자 장치 및 그 동작 방법 | |
US10810973B2 (en) | Information processing device and information processing method | |
TWI779327B (zh) | 調節移動機器人裝置所輸出的音訊的音量的方法 | |
KR102168812B1 (ko) | 사운드를 제어하는 전자 장치 및 그 동작 방법 | |
TWI764220B (zh) | 從一個或多個遠端使用者裝置控制移動機器人裝置的方法 | |
Panek et al. | Challenges in adopting speech control for assistive robots | |
AU2021100005A4 (en) | An automated microphone system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent |