WO2024014824A1 - 음성 인식을 이용한 신분 증명 기반의 펫 로봇 장치 및 그 동작 방법 - Google Patents

음성 인식을 이용한 신분 증명 기반의 펫 로봇 장치 및 그 동작 방법 Download PDF

Info

Publication number
WO2024014824A1
WO2024014824A1 PCT/KR2023/009818 KR2023009818W WO2024014824A1 WO 2024014824 A1 WO2024014824 A1 WO 2024014824A1 KR 2023009818 W KR2023009818 W KR 2023009818W WO 2024014824 A1 WO2024014824 A1 WO 2024014824A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
robot device
pet robot
behavior pattern
voice signal
Prior art date
Application number
PCT/KR2023/009818
Other languages
English (en)
French (fr)
Inventor
최명렬
Original Assignee
한양대학교 에리카산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220084837A external-priority patent/KR102679200B1/ko
Application filed by 한양대학교 에리카산학협력단 filed Critical 한양대학교 에리카산학협력단
Publication of WO2024014824A1 publication Critical patent/WO2024014824A1/ko

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/003Programme-controlled manipulators having parallel kinematics
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • B25J19/026Acoustical sensing devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the description below relates to a pet robot device and its operation method. It is a technology for a pet robot device that verifies its identity using voice recognition and then performs actions according to the voice.
  • these pet robot devices Unlike pets, which are living creatures, these pet robot devices have the advantage of being easy to manage and control and have a semi-permanent lifespan. However, unlike pets, which are living creatures, these pet robot devices have the disadvantage of not being able to differentiate and respond to each breeder's commands.
  • the following embodiments propose a pet robot device and its operation method that distinguishes and responds to each breeder's commands.
  • a method of operating a pet robot device performed by at least one processor includes maintaining a behavior pattern database in which behavior patterns are mapped and stored for each voice ID of a plurality of users; Receiving a voice signal uttered by a user; authenticating the voice signal as a voiceprint and selecting a voice ID having a voiceprint matching the voiceprint of the voice signal from the behavior pattern database; Analyzing the voice signal and recognizing a command corresponding to the voice signal; selecting a behavior pattern corresponding to the recognized command among behavior patterns mapped and stored to the selected voice ID from the behavior pattern database; And it may include controlling the operation of the pet robot device according to the selected behavior pattern.
  • the step of selecting the behavior pattern includes selecting the one behavior pattern based on the intimacy of the pet robot device with the user corresponding to the one selected voice ID. It can be characterized as:
  • the step of selecting the behavior pattern includes selecting the behavior pattern based on the user's health information and age information corresponding to the selected voice ID. You can do this.
  • the step of selecting the behavior pattern includes selecting the behavior pattern further based on the user's surrounding environment information corresponding to the selected voice ID. can do.
  • the step of selecting the behavior pattern may include selecting one of the behavior patterns based on condition information of the pet robot device.
  • the step of selecting the behavior pattern may include selecting the one behavior pattern based further on the user's motion information.
  • the step of recognizing the command may include converting the voice signal into text and then performing natural language processing on the converted text.
  • voiceprint authentication of the voice signal and performing natural language processing after converting the voice signal into text may be performed simultaneously and in batches.
  • the behavior pattern database is a voice signal of each of the plurality of users and operations of the pet robot device in response to the voice signals of each of the plurality of users. It may be characterized as being updated based on reward behavior.
  • the behavior pattern database may be built in advance based on the behavior characteristics of the pet that the pet robot device simulates.
  • the step of selecting a voice ID includes, when voice signals uttered by a plurality of users including the user are received at the same time, voiceprint authentication of the plurality of voice signals is performed in the behavior pattern database. selecting a plurality of voice IDs having voiceprints matching the voiceprints of the voice signals from; and selecting one voice ID among the selected plurality of voice IDs based on the priorities of the selected plurality of voice IDs.
  • the priority for the selected plurality of voice IDs is determined by the intimacy of the pet robot device with the users corresponding to the selected plurality of voice IDs, the health information and age information of each of the users. It may be characterized as being determined based on .
  • the step of selecting one of the voice IDs includes selecting the one voice ID based on a video captured of the user uttering the voice signal. You can do this.
  • the controlling step may further include displaying user information corresponding to any one of the selected voice IDs on a display included in the pet robot device.
  • the operating method of the pet robot device includes behavioral patterns for each voice ID of a plurality of users. maintaining a database of mapped and stored behavior patterns; Receiving a voice signal uttered by a user; authenticating the voice signal as a voiceprint and selecting a voice ID having a voiceprint matching the voiceprint of the voice signal from the behavior pattern database; Analyzing the voice signal and recognizing a command corresponding to the voice signal; selecting a behavior pattern corresponding to the recognized command among behavior patterns mapped and stored to the selected voice ID from the behavior pattern database; And it may include controlling the operation of the pet robot device according to the selected behavior pattern.
  • a pet robot device including a robot body replicating the appearance of a pet, a surrounding situation recognition module, and at least one processor
  • the at least one processor acts for each voice ID of a plurality of users.
  • a database maintenance unit that maintains a behavior pattern database in which patterns are mapped and stored;
  • a voice signal receiver that receives a voice signal uttered by a user using the surrounding situation recognition module;
  • a voice ID selection unit that authenticates the voice signal as a voiceprint and selects a voice ID having a voiceprint matching the voiceprint of the voice signal from the behavior pattern database;
  • a command recognition unit that analyzes the voice signal and recognizes a command corresponding to the voice signal;
  • a behavior pattern selection unit that selects a behavior pattern corresponding to the recognized command among behavior patterns stored by mapping to the selected voice ID from the behavior pattern database;
  • it may include an operation control unit that controls the operation of the robot body according to the selected behavior pattern.
  • the following embodiments may propose a pet robot device and its operation method that responds to each breeder's commands separately.
  • FIG. 1 is a diagram illustrating a pet robot device according to an embodiment.
  • FIG. 2 is a block diagram illustrating an example of components that a processor included in a pet robot device according to an embodiment may include.
  • FIG. 3 is a flow chart showing an example of an operation method of a pet robot device that can be performed by the processor shown in FIG. 2.
  • FIG. 4 is a diagram for explaining a behavior pattern database in the operating method of the pet robot device shown in FIG. 3.
  • FIG. 5 is a diagram illustrating selecting a behavior pattern based on intimacy in the method of operating the pet robot device shown in FIG. 3.
  • FIG. 6 is a diagram illustrating selecting a behavior pattern based on the user's health information and age information in the operating method of the pet robot device shown in FIG. 3.
  • FIG. 7 is a diagram illustrating selecting a behavior pattern based on the user's surrounding environment information in the operating method of the pet robot device shown in FIG. 3.
  • FIG. 8 is a diagram for explaining selecting a behavior pattern based on condition information of the pet robot device in the method of operating the pet robot device shown in FIG. 3.
  • FIG. 9 is a diagram illustrating selecting a behavior pattern based on the user's motion information in the method of operating the pet robot device shown in FIG. 3.
  • FIG. 10 is a diagram illustrating selection of one voice ID when voice signals uttered by a plurality of users are received simultaneously in the operating method of the pet robot device shown in FIG. 3.
  • FIG. 11 is a diagram illustrating selection of a voice ID based on an image captured of the user in the operating method of the pet robot device shown in FIG. 3.
  • first and second are used in this specification to describe various areas, directions, and shapes, these areas, directions, and shapes should not be limited by these terms. These terms are merely used to distinguish one area, direction or shape from another area, direction or shape. Accordingly, a part referred to as a first part in one embodiment may be referred to as a second part in another embodiment.
  • the following embodiments are technologies for identification-based pet robot devices using voice recognition and their operation methods.
  • Embodiments including those specifically disclosed in this specification describe controlling the operation of a pet robot device according to a behavior pattern corresponding to the user by identifying and proving the user's identity based on a voice signal uttered by the user. Accordingly, the following embodiments can result in a technological effect in which the pet robot device responds to each breeder's commands separately.
  • the operating method of the pet robot device described below may be performed by at least one processor included in the pet robot device.
  • a computer program according to embodiments of the present invention may be installed and driven in at least one processor, and the at least one processor may operate a pet robot device according to embodiments of the present invention according to control of the driven computer program. can be performed.
  • the above-described computer program may be combined with at least one processor and stored in a computer-readable recording medium to enable the at least one processor to execute an operating method of the pet robot device.
  • the computer program described here may be in the form of an independent program package, or the independent program package may be pre-installed on at least one processor and linked to an operating system or other program packages.
  • FIG. 1 is a diagram showing a pet robot device according to an embodiment
  • FIG. 2 is a block diagram showing an example of components that a processor included in the pet robot device according to an embodiment may include.
  • the pet robot device 100 may include a robot body 110, a surrounding situation recognition module 120, and at least one processor 130.
  • the robot body 110 is a component that simulates the external appearance of a pet, and may include driving units for simulating not only the external appearance of the pet but also the movement of the pet.
  • the pet robot device 100 is a robot device that simulates a dog
  • the robot body 110 includes components that simulate the front legs, hind legs, tail, head, and body of a dog, and a device for moving each component. It may include driving parts.
  • the surrounding situation recognition module 120 is provided on one side of the robot body 110 and may include sensors that recognize the surrounding situation where the pet robot device 100 is located based on vision, hearing, touch, etc. .
  • the surrounding situation recognition module 120 may include a voice recognition sensor that collects voice signals generated around the pet robot device 100.
  • At least one processor 130 is provided on one side of the robot body 110 and controls the operation of the robot body 110 and the surrounding situation recognition module 120 to operate the pet robot device 100, which will be described later. As a subject that performs, it may be configured to perform basic arithmetic, logic, and input/output operations and process commands of a computer program. In this case, computer program instructions may be provided to at least one processor 130 by a memory (not shown) or a communication interface (not shown). For example, at least one processor 130 may be configured to execute instructions received according to a computer program recorded in a recording device such as a memory.
  • At least one processor 130 may be configured with a system that identifies and proves the user's identity based on a voice signal uttered by the user and controls the operation of the pet robot device according to the behavior pattern corresponding to the user.
  • the system may be implemented in the form of a program that operates independently, or may be implemented in the form of an in-app of a dedicated application so that it can operate on the dedicated application.
  • At least one processor 130 may be implemented as a component for performing the operation method of the pet robot device 100, as shown in FIG. 2.
  • at least one processor 130 includes a database maintenance unit 210, a voice signal receiver 220, a voice ID selection unit 230, a command recognition unit 240, a behavior pattern selection unit 250, and an operation control unit. It may include (260).
  • components of at least one processor 130 may be selectively included in or excluded from at least one processor 130.
  • the voice signal receiver 220 and the operation control unit 260 are included in at least one processor 130, and the database maintenance unit 210, voice ID selection unit 230, and command recognition unit 240
  • the behavior pattern selection unit 250 may be configured in a processor (not shown) included in a separate server (not shown) that communicates with at least one processor 130.
  • the processor of the server may be the subject that performs the operation method of the pet robot device 100 together with at least one processor 130 of the pet robot device 100.
  • At least one processor 130 of the pet robot device 100 includes a communication method using a server processor and a communication network (e.g., mobile communication network, wired Internet, wireless Internet, broadcast network) as well as short-range wireless communication between devices.
  • a communication network e.g., mobile communication network, wired Internet, wireless Internet, broadcast network
  • the network is one or more of the following networks: personal area network (PAN), local area network (LAN), campus area network (CAN), metropolitan area network (MAN), wide area network (WAN), broadband network (BBN), and the Internet.
  • PAN personal area network
  • LAN local area network
  • CAN campus area network
  • MAN metropolitan area network
  • WAN wide area network
  • BBN broadband network
  • the network may include, but is not limited to, any one or more of network topologies including a bus network, star network, ring network, mesh network, star-bus network, tree or hierarchical network, etc. .
  • components of at least one processor 130 may be separated or merged to express the functions of at least one processor 130.
  • This at least one processor 130 and the components of the at least one processor 130 use the robot body 110 and the The surrounding situation awareness module 120 can be controlled.
  • at least one processor 130 and the components of the at least one processor 130 execute instructions according to the code of the operating system and at least one program included in the memory (not shown). It can be implemented.
  • the components of the at least one processor 130 may be expressions of different functions performed by the at least one processor 130 according to instructions provided by the program code.
  • the voice signal receiver 220 may be used as a functional expression of at least one processor 130 that controls the robot body 110 and the surrounding situation recognition module 120 to receive a voice signal uttered by a user.
  • the pet robot device 100 having the structure described above may further include a memory (not shown), a communication interface (not shown), and an input/output interface (not shown).
  • Memory is a computer-readable recording medium and may include non-permanent mass storage devices such as random access memory (RAM), read only memory (ROM), and disk drives.
  • non-perishable mass recording devices such as ROM and disk drives may be included as a separate persistent storage device separate from the memory 210.
  • an operating system and at least one program code may be stored in the memory.
  • These software components may be loaded into the memory from a computer-readable recording medium separate from the memory.
  • Such separate computer-readable recording media may include computer-readable recording media such as floppy drives, disks, tapes, DVD/CD-ROM drives, and memory cards.
  • software components may be loaded into memory through a communication interface rather than a computer-readable recording medium. For example, software components may be loaded into memory based on computer programs being installed by files received over a network.
  • the communication interface may provide functions for communicating with other devices or separate servers through a network. For example, requests, commands, data, files, etc. generated by at least one processor 130 according to a program code stored in a recording device such as a memory are sent to other devices or a separate server through a network under the control of a communication interface. It can be delivered. Conversely, signals, commands, data, files, etc. from other devices or separate servers may be received by at least one processor 130 through a communication interface via a network. Signals, commands, data, etc. received through the communication interface may be transmitted to at least one processor 130 or memory, and files, etc. may be stored in a storage medium (the permanent storage described above) that the pet robot device 100 may further include. device) can be saved.
  • a storage medium the permanent storage described above
  • the input/output interface may be a means for interfacing with an input/output device (not shown).
  • input devices may include devices such as a microphone, keyboard, or mouse
  • output devices may include devices such as displays and speakers.
  • an input/output interface may be a means of interfacing with a device that integrates input and output functions into one, such as a touch screen.
  • the input/output device may be configured to include the surrounding situation recognition module 120 described above.
  • the pet robot device 100 may include fewer or more components than those described. However, there is no need to clearly show most prior art components.
  • the pet robot device 100 may further include other components that a typical computer device may include, such as a transceiver and a database.
  • FIG. 3 is a flow chart showing an example of an operation method of the pet robot device that can be performed by the processor shown in FIG. 2, and FIG. 4 illustrates a behavior pattern database in the operation method of the pet robot device shown in FIG. 3.
  • FIG. 5 is a diagram for explaining selecting a behavior pattern based on intimacy in the method of operating the pet robot device shown in FIG. 3, and
  • FIG. 6 is a method of operating the pet robot device shown in FIG. 3.
  • FIG. 7 shows a behavior pattern based on the user's surrounding environment information in the operating method of the pet robot device shown in FIG. 3. is a diagram for explaining selection, and FIG.
  • FIG. 8 is a diagram for explaining selecting a behavior pattern based on the condition information of the pet robot device in the operating method of the pet robot device shown in FIG. 3
  • FIG. 9 is a diagram for explaining It is a diagram for explaining selecting a behavior pattern based on the user's motion information in the operating method of the pet robot device shown in FIG. 3,
  • FIG. 10 is a diagram illustrating a plurality of users in the operating method of the pet robot device shown in FIG. This is a diagram to explain selecting one voice ID when voice signals uttered by two people are received at the same time, and FIG. 11 shows which voice ID is selected based on the image captured of the user in the operating method of the pet robot device shown in FIG. 3. This diagram is to explain selecting one voice ID.
  • At least one processor 130 may read necessary commands from a memory loaded with commands related to control of the pet robot device 100.
  • the read command may include an command for controlling at least one processor 130 to execute steps S310 to S360 shown in FIG. 3 .
  • step S310 at least one processor 130 (more precisely, the database maintenance unit 210 included in the at least one processor 130) generates behavioral patterns for each voice ID 410 of a plurality of users. 420 may maintain a mapped and stored behavior pattern database 400.
  • the behavior pattern database may be built in advance before step S310 is performed.
  • behavior patterns 420 for each voice ID 410 of a plurality of users are mapped with corresponding commands 430, so that at least It may be stored in a storage medium connected to one processor 130.
  • behavior patterns A1, A2, and A3 for user 1's voice ID V1 may be stored in one-to-one mapping with commands C1, C2, and C3, and user 2's voice ID V2
  • the behavior patterns A4 and A5 may be stored in a one-to-one mapping with the instructions C4 and C5.
  • This behavior pattern database 400 is based on the voice signals of each of the plurality of users and the compensation behavior of each of the plurality of users for the operations of the pet robot device 100 in response to the voice signals of each of the plurality of users. It can be updated. For example, as the voice signal of User 1 is received, the steps (S320 to S360) described later are performed, and as a result, the pet robot device 100 is operated according to the behavior pattern A1 corresponding to the command C1, and User 1 If a negative compensatory action is performed for the operation of the pet robot device 100, the behavior pattern database 400 can be updated from a state in which behavior pattern A1 is mapped to command C1 to a state in which behavior pattern A6 is mapped to command C1. there is. On the other hand, if User 1 performs a positive compensatory action for the operation of the pet robot device 100, the behavior pattern database 400 may be maintained with the behavior pattern A1 mapped to the command C1.
  • Machine learning may be utilized in the update operation of the described behavior pattern database 400.
  • the behavior pattern database 400 may be updated by machine learning through a machine learning model based on learning data stored in a storage medium connected to at least one processor 130.
  • the behavior pattern database 400 contains the intimacy 440 of the pet robot device 100 for each of the plurality of users for each voice ID 410 of the plurality of users, as shown in FIG. 4, and the plurality of users.
  • Health information and age information 450 of each user and surrounding environment information 460 of each of a plurality of users may be mapped and stored.
  • the user's surrounding environment information 460 is environmental information of the space where the user lives with the pet robot device 100 (e.g., whether it is an environment in which the pet robot device 100 can bark loudly, or whether the pet robot device 100 is allowed to bark loudly) It may include information indicating whether (100) is an environment in which it is safe to run around.
  • Intimacy 440 is a history of the time and number of times each of the plurality of users interacted with the pet robot device 100 or personal information of each of the plurality of users (e.g., whether the user is the main guardian of the pet robot device 100) It may be determined based on information indicating recognition or user age information, etc.).
  • step S320 at least one processor 130 (more precisely, the voice signal receiver 220 included in the at least one processor 130) uses the surrounding situation recognition module 120 to allow the user to speak. A voice signal can be received.
  • At least one processor 130 (more precisely, the voice ID selection unit 230 included in the at least one processor 130) authenticates the voice signal and selects the voice signal from the behavior pattern database 400. You can select any one voice ID whose voiceprint matches the voiceprint of the voice signal. For example, at least one processor 130 analyzes the voice signal, extracts a voiceprint feature vector, and selects from the behavior pattern database 400 a voice ID having a voiceprint feature vector matching the extracted voiceprint feature vector. You can. Accordingly, the voiceprint 470 for each voice ID 410 of a plurality of users may be mapped and stored in the behavior pattern database 400.
  • a conventionally known voiceprint authentication method may be used as a method of voiceprint authentication of the user's voice signal.
  • step S340 at least one processor 130 (more precisely, the command recognition unit 240 included in the at least one processor 130) analyzes the voice signal and recognizes a command corresponding to the voice signal. You can. More specifically, at least one processor 130 may recognize a command corresponding to the voice signal through an analysis process of converting the voice signal into text and then performing natural language processing on the converted text. To this end, the command recognition unit 240 may include a Speech-To-Text (STT) model and a Natural Language Processing (NLP) model. The process of recognizing commands using the STT model and NLP model may use conventionally known text conversion technology and natural language processing technology.
  • STT Speech-To-Text
  • NLP Natural Language Processing
  • step S330 the command may be recognized by authenticating the voice signal as a voiceprint and simultaneously analyzing the voice signal, converting it into text, and performing natural language processing.
  • the recognized command is used in step S350 after the remaining process of step S330 (the process of selecting a voice ID whose voiceprint matches the voiceprint of the voice signal from the behavior pattern database 400) has been performed. It can be as prepared as possible. That is, in this case, step S340 may be included in the process of voiceprint authentication of the voice signal in step S330.
  • step S350 at least one processor 130 (more precisely, the behavior pattern selection unit 250 included in the at least one processor 130) is selected from the behavior pattern database 400 in step S330.
  • one behavior pattern corresponding to the command recognized in step S340 can be selected. For example, if user 1's voice ID V1 is selected in step S330, at least one processor 130 stores behavior patterns A1 and A2 mapped to user 1's voice ID V1 from the behavior pattern database 400. , You can select the action pattern A1 corresponding to the command C1 recognized in step S340 of A3.
  • the at least one processor 130 determines the intimacy 440 of the pet robot device 100 with the user corresponding to the voice ID selected in step S330. More can be considered. For example, the at least one processor 130 determines the behavior pattern only when the intimacy 440 of the pet robot device 100 with the user corresponding to any one voice ID selected in step S330 is greater than or equal to a preset value. An action pattern corresponding to the command recognized in step S340 can be selected from the database 400. On the other hand, if the intimacy 440 of the pet robot device 100 with the user corresponding to any one voice ID selected in step S330 is less than a preset value, in step S340 from the behavior pattern database 400 The action pattern corresponding to the recognized command may not be selected.
  • step S330 when the voice ID V1 of user 1 is selected in step S330 and the action pattern corresponding to the command C1 recognized in step S340 is A1, at least one processor Considering that the intimacy of the pet robot device 100 with User 1 is less than a preset value, 130 may select another behavior pattern A2 instead of selecting the behavior pattern A1 corresponding to the command C1.
  • the at least one processor 130 may perform the number of behavior patterns or The degree can be determined. For a more specific example, if user 1's voice ID V1 is selected in step S330 and the behavior pattern corresponding to the command C1 recognized in step S340 is A1, at least one processor 130 Considering that the intimacy of the pet robot device 100 is less than a preset value, the number of repetitions of the behavior pattern A1 corresponding to the command C1 may be determined to be less than the standard value. That is, in this case, the behavior pattern is selected based on the command recognized in step S340, but only the number or degree of the selected behavior pattern can be determined based on the intimacy 440 of the pet robot device 100.
  • At least one processor 130 may further consider the user's health information and age information 450 corresponding to the voice ID selected in step S330. For example, as shown in FIG. 6, when the health information of user 1 corresponding to any one voice ID V1 selected in step S330 indicates a “good” state, the at least one processor 130 determines the behavior pattern The action pattern A1 corresponding to the command C1 recognized in step S340 can be selected from the database 400. On the other hand, if the health information of User 1 corresponding to any one voice ID V1 selected in step S330 indicates a “patient” state, the command C1 corresponding to the recognized in step S340 is received from the behavior pattern database 400. Action pattern A1 may not be selected.
  • At least one processor 130 may determine the number or degree of a behavior pattern based on the user's health information and age information 450 corresponding to any one voice ID selected in step S330. there is. For a more specific example, if user 1's voice ID V1 is selected in step S330 and the behavior pattern corresponding to the command C1 recognized in step S340 is A1, at least one processor 130 By recognizing that the age information indicates “old age,” the number of repetitions of the behavior pattern A1 corresponding to the command C1 can be determined to be less than the reference value. That is, in this case, the behavior pattern is selected based on the command recognized in step S340, but only the number or degree of the selected behavior pattern can be determined based on the user's health information and age information 450.
  • the at least one processor 130 may further consider the user's surrounding environment information 460 corresponding to the voice ID selected in step S330. For example, as shown in FIG. 7, at least one processor 130 generates "space 1", which is user 1's surrounding environment information corresponding to one voice ID V1 selected in step S330, "loudly. When indicating a “space where barking is allowed,” the behavior pattern A1 corresponding to the command C1 recognized in step S340 can be selected from the behavior pattern database 400.
  • At least one processor 130 may determine the number or extent of the behavior pattern based on the user's surrounding environment information 460 corresponding to any one voice ID selected in step S330. For a more specific example, if user 1's voice ID V1 is selected in step S330 and the behavior pattern corresponding to the command C1 recognized in step S340 is A1, at least one processor 130 By recognizing that the surrounding environment information indicates “a space where the pet robot device 100 can run around,” the number of repetitions of the behavior pattern A1 corresponding to the command C1 can be determined to be greater than the reference value. That is, in this case, the behavior pattern is selected based on the command recognized in step S340, but only the number or degree of the selected behavior pattern can be determined based on the user's surrounding environment information 460.
  • At least one processor 130 may further consider condition information of the pet robot device 100 when selecting a behavior pattern. For example, in step S330, user 1's voice ID V1 is selected, and the behavior pattern corresponding to the command C1 recognized in step S340 is A1, and as shown in FIG. 8, the pet robot device 100 When the condition information indicates a “state requiring charging,” at least one processor 130 predicts that the pet robot device 100 cannot operate according to behavior pattern A1 in the charging situation of the pet robot device 100. Therefore, the action pattern A1 corresponding to the command C1 recognized in step S340 may not be selected.
  • At least one processor 130 may determine the number or degree of a behavior pattern based on condition information of the pet robot device 100. For a more specific example, if the voice ID V1 of user 1 is selected in step S330 and the behavior pattern corresponding to the command C1 recognized in step S340 is A1, at least one processor 130 is configured to operate the pet robot device. By recognizing that the condition information at 100 indicates a “state requiring charging,” the number of repetitions of the action pattern A1 corresponding to the command C1 can be determined to be less than the reference value. That is, in this case, the behavior pattern is selected based on the command recognized in step S340, but only the number or degree of the selected behavior pattern can be determined based on the condition information of the pet robot device 100.
  • This condition information of the pet robot device 100 can be collected from the pet robot device 100 in real time.
  • condition information of the pet robot device 100 has been described as information related to the charging state of the pet robot device 100, it is not limited or limited thereto and includes various information related to the operation of the pet robot device 100 ( For example, information on the fault area, etc.) may be included.
  • At least one processor 130 may further consider the user's motion information when selecting a behavior pattern. For example, in step S330, user 1's voice ID V1 is selected, and the action pattern corresponding to the command C1 recognized in step S340 is A1, and as shown in FIG. 9, the user utters a voice signal. When a “hand gesture forcing sitting” is generated as the user's motion information from the image captured, at least one processor 130 determines that the behavior pattern corresponding to the command C1 is A1 indicating the “sitting behavior pattern”. After rechecking based on the operation information, you can select action pattern A1. In other words, the user's motion information can be used to reconfirm in the process of selecting a behavior pattern corresponding to a command in order to improve the accuracy of selecting a behavior pattern based on a recognized command.
  • At least one processor 130 receives the voice signal uttered by the user in step S320 and simultaneously receives an image captured of the user uttering the voice signal, and obtains the user's motion information from the image. can be created.
  • the maintenance of the behavior pattern database 400 and the voice recognition algorithm in the above steps are performed by at least one processor 130 included in the pet robot device 100, it is limited or It is not limited and may be performed by a control server (not shown) connected to at least one processor 130 included in the pet robot device 100 through communication.
  • the control server may receive the voice signal uttered by the user received from the pet robot device 100 through step S320 and perform steps S330 to S350.
  • step S360 at least one processor 130 (more precisely, the operation control unit 260 included in the at least one processor 130) controls the pet robot device 100 (more precisely, the operation control unit 260 included in the at least one processor 130) according to the selected behavior pattern. , the operation of the robot body 110 can be controlled.
  • step S360 at least one processor 130 controls the operation of the pet robot device 100 and simultaneously transmits user information corresponding to one voice ID selected in step S330 to the pet robot. It can be displayed on a display included in the device 100. Accordingly, the user can check whether the pet robot device 100 has properly authenticated the user's identity based on the user's voice signal.
  • At least one processor 130 is used when a plurality of users utter a plurality of voice signals simultaneously.
  • At least one processor 130 when voice signals uttered by a plurality of users are simultaneously received through the surrounding situation recognition module 120 in step S320, at least one processor 130 (more precisely, at least The voice ID selection unit 230 included in one processor 130 performs voiceprint authentication for a plurality of voice signals and selects a plurality of voice IDs having voiceprints matching the voiceprints of the voice signals from the behavior database 400.
  • One voice ID can be selected based on the priority of the plurality of selected voice IDs. To this end, the priority 480 for each voice ID 410 of a plurality of users may be mapped and stored in the behavior database 400 for each voice ID 410 of the plurality of users.
  • the priority 480 for the voice ID 410 of each of the plurality of users is determined by the intimacy 440 of the pet robot device 100 with the plurality of users corresponding to the voice ID 410, and the health of each user. It may be determined based on information and age information 450. For example, as shown in FIG. 10, when voice IDs V1 and V2 having voiceprints matching the voiceprints of voice signals received in step S320 from the behavior database 400 are selected, at least one processor ( 130) may select a voice ID V1 with a high priority 480 based on the priorities 480 of the selected voice IDs V1 and V2.
  • At least one processor 130 sequentially performs the above-described steps S340 to S360 to control the operation of the pet robot device 100 according to the behavior pattern for the voice ID selected according to the priority 480. Then, the above-described steps (S340 to S360) are sequentially performed for the remaining voice IDs that are not selected among the voice IDs, so that the operation of the pet robot device 100 can be controlled according to the behavior pattern for the remaining voice IDs. there is.
  • a video captured of a user uttering a voice signal can be further utilized.
  • at least one processor 130 receives the user's voice signal and an image of the user in step S320, thereby receiving the user's voice signal in step S330.
  • one voice ID that has face information that matches the user's face information in the image taken of the user The voice ID can be selected from the behavior pattern database 400.
  • face information 490 of each user may be mapped and stored in the behavior pattern database 400 for each voice ID 400 of a plurality of users.
  • the behavior pattern database 400 maintained as a result of performing the steps (S310 to S360) described above can be applied and utilized to various services in the form of data recorded on a recording medium.
  • the behavior pattern database 400 is stored separately by learning or update time, so that the pet robot device 100 can be used to operate according to the behavior pattern learned at a specific time.
  • the behavior pattern database 400 can be learned and updated to improve it to be owner-friendly.
  • the behavior pattern database 400 may be optimized depending on whether the pet robot device 100 is a robot device that imitates a living pet that actually exists. For example, when the pet robot device 100 is a robot device that simulates a live cat, the behavior pattern database 400 can be optimized, utilized, and provided to suit the behavioral characteristics of the cat.
  • the behavior pattern database 400 may be linked to the metaverse.
  • the behavior pattern database 400 learned and updated in reality can be applied to the metaverse and used to control the operation of a virtual pet robot device implemented in the metaverse.
  • the behavior pattern database of the metaverse is used to control the operation of a virtual pet robot device implemented in the metaverse, and is learned and updated, the behavior pattern database of the metaverse is used to control the operation of the pet robot device 100 in reality. Can be used to control.
  • a behavior pattern database 400 in which behavior patterns 420 are mapped and stored for each voice ID 410 of a plurality of users is utilized so that the pet robot device 100 can respond to the commands of each breeder separately.
  • the behavior pattern database 400 only the voice ID of the user who is the owner of the pet robot device 100 can be mapped with the corresponding behavior patterns and stored and maintained in the behavior pattern database 400.
  • at least one processor 130 authenticates the voice signal to determine whether it matches the voiceprint of the owner user stored in the behavior pattern database 400, and determines whether the voiceprint of the voice signal matches the behavior pattern database 400. If it matches the voiceprint of the owner user stored in the database 400, steps S340 to S360 can be performed.
  • the behavior pattern database 400 maintenance and voice recognition algorithm of steps S310 to S360 described above can be applied not only to the pet robot device 100, but also to a car or metaverse.
  • the device described above may be implemented with hardware components, software components, and/or a combination of hardware components and software components.
  • the devices and components described in the embodiments include a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), and a programmable logic unit (PLU).
  • ALU arithmetic logic unit
  • FPGA field programmable gate array
  • PLU programmable logic unit
  • It may be implemented using one or more general-purpose or special-purpose computers, such as a logic unit, microprocessor, or any other device capable of executing and responding to instructions.
  • the processing device may execute an operating system (OS) and one or more software applications running on the operating system. Additionally, a processing device may access, store, manipulate, process, and generate data in response to the execution of software.
  • OS operating system
  • a processing device may access, store, manipulate, process, and generate data in response to the execution of software.
  • a single processing device may be described as being used; however, those skilled in the art will understand that a processing device includes multiple processing elements and/or multiple types of processing elements. It can be seen that it may include.
  • a processing device may include a plurality of processors or one processor and one controller. Additionally, other processing configurations, such as parallel processors, are possible.
  • Software may include a computer program, code, instructions, or a combination of one or more of these, which may configure a processing unit to operate as desired, or may be processed independently or collectively. You can command the device.
  • the software and/or data may be embodied in any type of machine, component, physical device, computer storage medium or device for the purpose of being interpreted by or providing instructions or data to the processing device. there is.
  • Software may be distributed over networked computer systems and stored or executed in a distributed manner.
  • Software and data may be stored on one or more computer-readable recording media.
  • the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer-readable medium.
  • the medium may continuously store a computer-executable program, or temporarily store it for execution or download.
  • the medium may be a variety of recording or storage means in the form of a single or several pieces of hardware combined. It is not limited to a medium directly connected to a computer system and may be distributed over a network. Examples of media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical recording media such as CD-ROMs and DVDs, magneto-optical media such as floptical disks, And there may be something configured to store program instructions, including ROM, RAM, flash memory, etc. Additionally, examples of other media include recording or storage media managed by app stores that distribute applications, sites or servers that supply or distribute various other software, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Toys (AREA)

Abstract

음성 인식을 이용한 신분 증명 기반의 펫 로봇 장치 및 그 동작 방법이 개시된다. 실시예에 따른 펫 로봇 장치는 사용자가 발화하는 음성 신호를 이용하여 신분이 식별 및 증명된 사용자에 대응하는 행동 패턴에 따라 제어될 수 있다.

Description

음성 인식을 이용한 신분 증명 기반의 펫 로봇 장치 및 그 동작 방법
아래의 설명은 펫 로봇 장치 및 그 동작 방법에 관한 것으로, 음성 인식을 이용하여 신분을 증명한 후 음성에 따른 행동을 수행하는 펫 로봇 장치에 대한 기술이다.
산업이 고도로 발달하고 생활이 윤택해지면서 정서함양 등의 목적으로 펫(Pet)을 사육하는 가구가 늘어나고 펫에 대한 관심이 고조되고 있다.
그러나 살아있는 생물인 펫을 사육하는 것은, 관리 및 통제 부주의로 인한 문제를 야기할 수 있으며, 수명이 짧아 펫의 죽음으로 인해 펫 상실 증후군(Pet loss syndrome)을 야기할 수 있다.
이에, 살아있는 생물인 펫의 외형과 행동을 모사한 펫 로봇 장치가 개발 및 제안되었다. 펫 로봇 장치에 대한 기술은 일본 공개특허 2009-012148호에 개시되어 있다.
이러한 펫 로봇 장치는 살아있는 생물인 펫과 달리 관리 및 통제가 손쉬운 이점과 수명이 반영구적인 이점을 갖고 있는 반면, 살아있는 생물인 펫과 달리 사육자들 각각의 명령을 구분하여 반응하지 못하는 단점을 갖는다.
따라서, 펫 로봇 장치가 갖는 단점을 극복하기 위한 기술이 제안될 필요가 있다.
아래의 실시예들은 사육자들 각각의 명령을 구분하여 반응하는 펫 로봇 장치 및 그 동작 방법을 제안한다.
다만, 본 발명이 해결하고자 하는 기술적 과제들은 상기 과제로 한정되는 것이 아니며, 본 발명의 기술적 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있다.
일 실시예에 따르면, 적어도 하나의 프로세서에 의해 수행되는 펫 로봇 장치의 동작 방법은, 복수의 사용자들 각각의 음성 아이디 별로 행동 패턴들이 매핑되어 저장된 행동 패턴 데이터베이스를 유지하는 단계; 사용자가 발화하는 음성 신호를 수신하는 단계; 상기 음성 신호를 성문 인증하여 상기 행동 패턴 데이터베이스로부터 상기 음성 신호의 성문과 매칭되는 성문을 갖는 어느 하나의 음성 아이디를 선택하는 단계; 상기 음성 신호를 분석하여 상기 음성 신호에 대응하는 명령어를 인식하는 단계; 상기 행동 패턴 데이터베이스로부터 상기 선택된 어느 하나의 음성 아이디에 매핑되어 저장된 행동 패턴들 중 상기 인식된 명령어에 대응하는 어느 하나의 행동 패턴을 선택하는 단계; 및 상기 선택된 행동 패턴에 따라 상기 펫 로봇 장치의 동작을 제어하는 단계를 포함할 수 있다.
일 측면에 따르면, 상기 행동 패턴을 선택하는 단계는, 상기 선택된 어느 하나의 음성 아이디에 대응하는 사용자에 대한 상기 펫 로봇 장치의 친밀도에 더 기초하여 상기 어느 하나의 행동 패턴을 선택하는 단계를 포함하는 것을 특징으로 할 수 있다.
다른 측면에 따르면, 상기 행동 패턴을 선택하는 단계는, 상기 선택된 어느 하나의 음성 아이디에 대응하는 사용자의 건강 정보 및 연령 정보에 더 기초하여 상기 어느 하나의 행동 패턴을 선택하는 단계를 포함하는 것을 특징으로 할 수 있다.
또 다른 측면에 따르면, 상기 행동 패턴을 선택하는 단계는, 상기 선택된 어느 하나의 음성 아이디에 대응하는 사용자의 주변 환경 정보에 더 기초하여 상기 어느 하나의 행동 패턴을 선택하는 단계를 포함하는 것을 특징으로 할 수 있다.
또 다른 측면에 따르면, 상기 행동 패턴을 선택하는 단계는, 상기 펫 로봇 장치의 컨디션 정보에 더 기초하여 상기 어느 하나의 행동 패턴을 선택하는 단계를 포함하는 것을 특징으로 할 수 있다.
또 다른 측면에 따르면, 상기 행동 패턴을 선택하는 단계는, 상기 사용자의 동작 정보에 더 기초하여 상기 어느 하나의 행동 패턴을 선택하는 단계를 포함하는 것을 특징으로 할 수 있다.
또 다른 측면에 따르면, 상기 명령어를 인식하는 단계는, 상기 음성 신호를 텍스트 변환 후 상기 변환된 텍스트에 대한 자연어 처리를 수행하는 단계를 포함하는 것을 특징으로 할 수 있다.
또 다른 측면에 따르면, 상기 음성 신호를 성문 인증하는 것과 상기 음성 신호를 텍스트 변환 후 상기 자연어 처리를 수행하는 것은, 동시에 일괄적으로 수행되는 것을 특징으로 할 수 있다.
또 다른 측면에 따르면, 상기 행동 패턴 데이터베이스는, 상기 복수의 사용자들 각각의 음성 신호 및 상기 복수의 사용자들 각각의 음성 신호에 응답하는 상기 펫 로봇 장치의 동작들에 대한 상기 복수의 사용자들 각각의 보상 행위에 기초하여 업데이트되는 것을 특징으로 할 수 있다.
또 다른 측면에 따르면, 상기 행동 패턴 데이터베이스는, 상기 펫 로봇 장치가 모사하는 펫의 행동 특성에 기초하여 사전에 구축되는 것을 특징으로 할 수 있다.
또 다른 측면에 따르면, 상기 어느 하나의 음성 아이디를 선택하는 단계는, 상기 사용자를 포함하는 복수의 사용자들이 발화하는 음성 신호들이 동시에 수신되는 경우, 상기 복수의 음성 신호들을 성문 인증하여 상기 행동 패턴 데이터베이스로부터 상기 음성 신호들의 성문들과 매칭되는 성문들을 갖는 복수의 음성 아이디들을 선택하는 단계; 및 상기 선택된 복수의 음성 아이디들에 대한 우선 순위에 기초하여 상기 선택된 복수의 음성 아이디들 중 어느 하나의 음성 아이디를 선택하는 단계를 포함하는 것을 특징으로 할 수 있다.
또 다른 측면에 따르면, 상기 선택된 복수의 음성 아이디들에 대한 우선 순위는, 상기 선택된 복수의 음성 아이디들에 대응하는 사용자들에 대한 상기 펫 로봇 장치의 친밀도, 상기 사용자들 각각의 건강 정보 및 연령 정보에 기초하여 결정되는 것을 특징으로 할 수 있다.
또 다른 측면에 따르면, 상기 어느 하나의 음성 아이디를 선택하는 단계는, 상기 사용자가 상기 음성 신호를 발화하는 것을 촬영한 영상에 더 기초하여 상기 어느 하나의 음성 아이디를 선택하는 단계를 포함하는 것을 특징으로 할 수 있다.
또 다른 측면에 따르면, 상기 제어하는 단계는, 상기 선택된 어느 하나의 음성 아이디에 대응하는 사용자의 정보를 상기 펫 로봇 장치에 포함되는 디스플레이에 표시하는 단계를 더 포함하는 것을 특징으로 할 수 있다.
일 실시예에 따르면, 펫 로봇 장치의 동작 방법을 실행시키기 위한 컴퓨터 프로그램이 기록되어 있는 컴퓨터 판독 가능한 기록매체에 있어서, 상기 펫 로봇 장치의 동작 방법은, 복수의 사용자들 각각의 음성 아이디 별로 행동 패턴들이 매핑되어 저장된 행동 패턴 데이터베이스를 유지하는 단계; 사용자가 발화하는 음성 신호를 수신하는 단계; 상기 음성 신호를 성문 인증하여 상기 행동 패턴 데이터베이스로부터 상기 음성 신호의 성문과 매칭되는 성문을 갖는 어느 하나의 음성 아이디를 선택하는 단계; 상기 음성 신호를 분석하여 상기 음성 신호에 대응하는 명령어를 인식하는 단계; 상기 행동 패턴 데이터베이스로부터 상기 선택된 어느 하나의 음성 아이디에 매핑되어 저장된 행동 패턴들 중 상기 인식된 명령어에 대응하는 어느 하나의 행동 패턴을 선택하는 단계; 및 상기 선택된 행동 패턴에 따라 상기 펫 로봇 장치의 동작을 제어하는 단계를 포함할 수 있다.
일 실시예에 따르면, 펫의 외형을 모사한 로봇 바디, 주변 상황 인지 모듈 및 적어도 하나의 프로세서를 포함하는 펫 로봇 장치에 있어서, 상기 적어도 하나의 프로세서는, 복수의 사용자들 각각의 음성 아이디 별로 행동 패턴들이 매핑되어 저장된 행동 패턴 데이터베이스를 유지하는 데이터베이스 유지부; 상기 주변 상황 인지 모듈을 이용하여 사용자가 발화하는 음성 신호를 수신하는 음성 신호 수신부; 상기 음성 신호를 성문 인증하여 상기 행동 패턴 데이터베이스로부터 상기 음성 신호의 성문과 매칭되는 성문을 갖는 어느 하나의 음성 아이디를 선택하는 음성 아이디 선택부; 상기 음성 신호를 분석하여 상기 음성 신호에 대응하는 명령어를 인식하는 명령어 인식부; 상기 행동 패턴 데이터베이스로부터 상기 선택된 어느 하나의 음성 아이디에 매핑되어 저장된 행동 패턴들 중 상기 인식된 명령어에 대응하는 어느 하나의 행동 패턴을 선택하는 행동 패턴 선택부; 및 상기 선택된 행동 패턴에 따라 상기 로봇 바디의 동작을 제어하는 동작 제어부를 포함할 수 있다.
아래의 실시예들은 사육자들 각각의 명령을 구분하여 반응하는 펫 로봇 장치 및 그 동작 방법을 제안할 수 있다.
다만, 본 발명의 효과는 상기 효과들로 한정되는 것이 아니며, 본 발명의 기술적 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있다.
도 1은 일 실시예에 따른 펫 로봇 장치를 도시한 도면이다.
도 2는 일 실시예에 따른 펫 로봇 장치에 포함되는 프로세서가 포함할 수 있는 구성요소의 예를 도시한 블록도이다.
도 3은 도 2에 도시된 프로세서가 수행할 수 있는 펫 로봇 장치의 동작 방법의 예를 도시한 플로우 차트이다.
도 4는 도 3에 도시된 펫 로봇 장치의 동작 방법에서 행동 패턴 데이터베이스를 설명하기 위한 도면이다.
도 5는 도 3에 도시된 펫 로봇 장치의 동작 방법에서 친밀도에 더 기초하여 행동 패턴을 선택하는 것을 설명하기 위한 도면이다.
도 6은 도 3에 도시된 펫 로봇 장치의 동작 방법에서 사용자의 건강 정보 및 연령 정보에 더 기초하여 행동 패턴을 선택하는 것을 설명하기 위한 도면이다.
도 7은 도 3에 도시된 펫 로봇 장치의 동작 방법에서 사용자의 주변 환경 정보에 더 기초하여 행동 패턴을 선택하는 것을 설명하기 위한 도면이다.
도 8은 도 3에 도시된 펫 로봇 장치의 동작 방법에서 펫 로봇 장치의 컨디션 정보에 더 기초하여 행동 패턴을 선택하는 것을 설명하기 위한 도면이다.
도 9는 도 3에 도시된 펫 로봇 장치의 동작 방법에서 사용자의 동작 정보에 더 기초하여 행동 패턴을 선택하는 것을 설명하기 위한 도면이다.
도 10은 도 3에 도시된 펫 로봇 장치의 동작 방법에서 복수의 사용자들이 발화하는 음성 신호들이 동시에 수신되는 경우 어느 하나의 음성 아이디를 선택하는 것을 설명하기 위한 도면이다.
도 11은 도 3에 도시된 펫 로봇 장치의 동작 방법에서 사용자를 촬영한 영상에 더 기초하여 어느 하나의 음성 아이디를 선택하는 것을 설명하기 위한 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 그러나 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 또한, 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
또한, 본 명세서에서 사용되는 용어(Terminology)들은 본 발명의 바람직한 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 시청자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 예컨대, 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 또한, 본 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다. 또한, 본 명세서에서 제1, 제2 등의 용어가 다양한 영역, 방향, 형상 등을 기술하기 위해서 사용되었지만, 이들 영역, 방향, 형상이 이 같은 용어들에 의해서 한정되어서는 안 된다. 이들 용어들은 단지 어느 소정 영역, 방향 또는 형상을 다른 영역, 방향 또는 형상과 구별시키기 위해서 사용되었을 뿐이다. 따라서, 어느 한 실시예에서 제1 부분으로 언급된 부분이 다른 실시예에서는 제2 부분으로 언급될 수도 있다.
또한, 본 발명의 다양한 실시 예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 기술적 사상 및 범위를 벗어나지 않으면서 다른 실시 예로 구현될 수 있다. 또한, 제시된 각각의 실시예 범주에서 개별 구성요소의 위치, 배치, 또는 구성은 본 발명의 기술적 사상 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다.
아래의 실시예들은 음성 인식을 이용한 신분 증명 기반의 펫 로봇 장치 및 그 동작 방법에 대한 기술이다.
본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 사용자가 발화하는 음성 신호를 기초로 사용자의 신분을 식별 및 증명하여 사용자에 대응하는 행동 패턴에 따라 펫 로봇 장치의 동작이 제어되는 것을 설명한다. 이에, 아래의 실시예들은 펫 로봇 장치가 사육자들 각각의 명령을 구분하여 반응하는 기술 효과를 야기할 수 있다.
이하 설명되는 펫 로봇 장치의 동작 방법은, 펫 로봇 장치에 포함되는 적어도 하나의 프로세서가 주체가 되어 수행될 수 있다. 적어도 하나의 프로세서에는 본 발명의 실시예들에 따른 컴퓨터 프로그램이 설치 및 구동될 수 있고, 적어도 하나의 프로세서는 구동된 컴퓨터 프로그램의 제어에 따라 본 발명의 실시예들에 따른 펫 로봇 장치의 동작 방법을 수행할 수 있다. 상술한 컴퓨터 프로그램은 적어도 하나의 프로세서와 결합되어 펫 로봇 장치의 동작 방법을 적어도 하나의 프로세서에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장될 수 있다. 여기서 설명한 컴퓨터 프로그램은 독립된 하나의 프로그램 패키지의 형태를 가질 수도 있고, 독립된 하나의 프로그램 패키지의 형태가 적어도 하나의 프로세서에 기 설치되어 운영체제나 다른 프로그램 패키지들과 연계되는 형태를 가질 수도 있다.
도 1은 일 실시예에 따른 펫 로봇 장치를 도시한 도면이고, 도 2는 일 실시예에 따른 펫 로봇 장치에 포함되는 프로세서가 포함할 수 있는 구성요소의 예를 도시한 블록도이다.
도 1 내지 2를 참조하면, 실시예에 따른 펫 로봇 장치(100)는, 로봇 바디(110), 주변 상황 인지 모듈(120) 및 적어도 하나의 프로세서(130)를 포함할 수 있다.
로봇 바디(110)는 펫(Pet)의 외형을 모사한 구성부로서, 펫의 외형뿐만 아니라 펫의 동작을 모사하기 위한 구동부들을 포함할 수 있다. 일례로, 펫 로봇 장치(100)가 강아지를 모사한 로봇 기기인 경우, 로봇 바디(110)는 강아지의 앞다리, 뒷다리, 꼬리, 머리, 몸통을 모사한 구성부들과, 각 구성부들을 움직이기 위한 구동부들을 포함할 수 있다.
주변 상황 인지 모듈(120)은 로봇 바디(110)의 일 측에 구비된 채, 펫 로봇 장치(100)가 위치한 주변의 상황을 시각, 청각, 촉각 등을 기반으로 인지하는 센서들을 포함할 수 있다. 일례로, 주변 상황 인지 모듈(120)은 펫 로봇 장치(100)의 주변에서 발생되는 음성 신호를 수집하는 음성 인식 센서를 포함할 수 있다.
적어도 하나의 프로세서(130)는 로봇 바디(110)의 일 측에 구비된 채, 로봇 바디(110) 및 주변 상황 인지 모듈(120)의 동작을 제어하여 후술되는 펫 로봇 장치(100)의 동작 방법을 수행하는 주체로서, 기본적인 산술, 로직 및 입출력 연산을 수행하며 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 이러한 경우, 컴퓨터 프로그램의 명령은 메모리(미도시) 또는 통신 인터페이스(미도시)에 의해 적어도 하나의 프로세서(130)로 제공될 수 있다. 일례로, 적어도 하나의 프로세서(130)는 메모리와 같은 기록 장치에 기록된 컴퓨터 프로그램에 따라 수신되는 명령을 실행하도록 구성될 수 있다.
이와 같은 적어도 하나의 프로세서(130)에는 사용자가 발화하는 음성 신호를 기초로 사용자의 신분을 식별 및 증명하여 사용자에 대응하는 행동 패턴에 따라 펫 로봇 장치의 동작을 제어하는 시스템이 구성될 수 있다. 해당 시스템은 독립적으로 동작하는 프로그램 형태로 구현되거나, 혹은 전용 어플리케이션의 인-앱(in-app) 형태로 구성되어 전용 어플리케이션 상에서 동작이 가능하도록 구현될 수 있다.
이를 위해 적어도 하나의 프로세서(130)는 도 2에 도시된 바와 같이 펫 로봇 장치(100)의 동작 방법을 수행하기 위한 구성요소로 구현될 수 있다. 일례로, 적어도 하나의 프로세서(130)는 데이터베이스 유지부(210), 음성 신호 수신부(220), 음성 아이디 선택부(230), 명령어 인식부(240), 행동 패턴 선택부(250) 및 동작 제어부(260)를 포함할 수 있다.
실시예에 따라 적어도 하나의 프로세서(130)의 구성요소들은 선택적으로 적어도 하나의 프로세서(130)에 포함되거나 제외될 수도 있다. 예를 들어, 음성 신호 수신부(220) 및 동작 제어부(260)만이 적어도 하나의 프로세서(130)에 포함된 채, 데이터베이스 유지부(210), 음성 아이디 선택부(230), 명령어 인식부(240) 및 행동 패턴 선택부(250)는 적어도 하나의 프로세서(130)와 통신하는 별도의 서버(미도시)에 포함되는 프로세서(미도시)에 구성될 수 있다. 이러한 경우, 서버의 프로세서는 펫 로봇 장치(100)의 적어도 하나의 프로세서(130)와 함께 펫 로봇 장치(100)의 동작 방법을 수행하는 주체가 될 수 있다.
펫 로봇 장치(100)의 적어도 하나의 프로세서(130)는 서버의 프로세서와 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들 간의 근거리 무선 통신을 포함하는 네트워크를 통해 통신할 수 있다. 네트워크는 PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
또한, 실시예에 따라 적어도 하나의 프로세서(130)의 구성요소들은 적어도 하나의 프로세서(130)의 기능의 표현을 위해 분리 또는 병합될 수도 있다.
이러한 적어도 하나의 프로세서(130) 및 적어도 하나의 프로세서(130)의 구성요소들은 후술되는 펫 로봇 장치(100)의 동작 방법이 포함하는 단계들(S310 내지 S360)을 수행하도록 로봇 바디(110) 및 주변 상황 인지 모듈(120)을 제어할 수 있다. 예를 들어, 적어도 하나의 프로세서(130) 및 적어도 하나의 프로세서(130)의 구성요소들은 메모리(미도시)가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.
여기서, 적어도 하나의 프로세서(130)의 구성요소들은 프로그램 코드가 제공하는 명령에 따라 적어도 하나의 프로세서(130)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예컨대, 사용자가 발화하는 음성 신호를 수신하도록 로봇 바디(110) 및 주변 상황 인지 모듈(120)을 제어하는 적어도 하나의 프로세서(130)의 기능적 표현으로서 음성 신호 수신부(220)가 이용될 수 있다.
이상, 설명된 구조의 펫 로봇 장치(100)에는 메모리(미도시), 통신 인터페이스(미도시) 및 입출력 인터페이스(미도시)가 더 포함될 수 있다.
메모리는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서, ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(210)와는 구분되는 별도의 영구 저장 장치로 포함될 수도 있다. 또한, 메모리에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스를 통해 메모리에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 메모리에 로딩될 수 있다.
통신 인터페이스는 네트워크를 통해 다른 장치 또는 별도의 서버와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 적어도 하나의 프로세서(130)가 메모리와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스의 제어에 따라 네트워크를 통해 다른 장치들 또는 별도의 서버로 전달될 수 있다. 역으로, 다른 장치 또는 별도의 서버로부터의 신호나 명령, 데이터, 파일 등이 네트워크를 거쳐 통신 인터페이스를 통해 적어도 하나의 프로세서(130)로 수신될 수 있다. 통신 인터페이스를 통해 수신된 신호나 명령, 데이터 등은 적어도 하나의 프로세서(130)나 메모리로 전달될 수 있고, 파일 등은 펫 로봇 장치(100)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.
입출력 인터페이스는 입출력 장치(미도시)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치는 전술된 주변 상황 인지 모듈(120)을 포함하도록 구성될 수 있다.
또한, 다른 실시예들에서 펫 로봇 장치(100)는 설명된 것보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 펫 로봇 장치(100)는 통상의 컴퓨터 장치가 포함할 수 있는 트랜시버(transceiver), 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.
도 3은 도 2에 도시된 프로세서가 수행할 수 있는 펫 로봇 장치의 동작 방법의 예를 도시한 플로우 차트이고, 도 4는 도 3에 도시된 펫 로봇 장치의 동작 방법에서 행동 패턴 데이터베이스를 설명하기 위한 도면이며, 도 5는 도 3에 도시된 펫 로봇 장치의 동작 방법에서 친밀도에 더 기초하여 행동 패턴을 선택하는 것을 설명하기 위한 도면이고, 도 6은 도 3에 도시된 펫 로봇 장치의 동작 방법에서 사용자의 건강 정보 및 연령 정보에 더 기초하여 행동 패턴을 선택하는 것을 설명하기 위한 도면이며, 도 7은 도 3에 도시된 펫 로봇 장치의 동작 방법에서 사용자의 주변 환경 정보에 더 기초하여 행동 패턴을 선택하는 것을 설명하기 위한 도면이고, 도 8은 도 3에 도시된 펫 로봇 장치의 동작 방법에서 펫 로봇 장치의 컨디션 정보에 더 기초하여 행동 패턴을 선택하는 것을 설명하기 위한 도면이며, 도 9는 도 3에 도시된 펫 로봇 장치의 동작 방법에서 사용자의 동작 정보에 더 기초하여 행동 패턴을 선택하는 것을 설명하기 위한 도면이고, 도 10은 도 3에 도시된 펫 로봇 장치의 동작 방법에서 복수의 사용자들이 발화하는 음성 신호들이 동시에 수신되는 경우 어느 하나의 음성 아이디를 선택하는 것을 설명하기 위한 도면이며, 도 11은 도 3에 도시된 펫 로봇 장치의 동작 방법에서 사용자를 촬영한 영상에 더 기초하여 어느 하나의 음성 아이디를 선택하는 것을 설명하기 위한 도면이다.
적어도 하나의 프로세서(130)는 펫 로봇 장치(100)의 제어와 관련된 명령이 로딩된 메모리로부터 필요한 명령을 읽어 들일 수 있다. 이 경우, 읽어 들인 명령은 적어도 하나의 프로세서(130)가 도 3에 도시된 단계들(S310 내지 S360)을 실행하도록 제어하기 위한 명령을 포함할 수 있다.
이후 설명되는 단계들(S310 내지 S360)에는 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.
단계(S310)에서 적어도 하나의 프로세서(130)(보다 정확하게는 적어도 하나의 프로세서(130)에 포함되는 데이터베이스 유지부(210))는, 복수의 사용자들 각각의 음성 아이디(410) 별로 행동 패턴들(420)이 매핑되어 저장된 행동 패턴 데이터베이스(400)를 유지할 수 있다.
행동 패턴 데이터베이스는 단계(S310)가 수행되기 이전에 사전에 구축될 수 있다. 보다 상세하게, 행동 패턴 데이터베이스(400)에는 도 4에 도시된 바와 같이 복수의 사용자들 각각의 음성 아이디(410) 별로 행동 패턴들(420)이 각각에 대응하는 명령어들(430)과 매핑되어 적어도 하나의 프로세서(130)와 연결된 저장 매체에 저장될 수 있다. 예를 들어, 행동 패턴 데이터베이스(400)에는 사용자 1의 음성 아이디 V1에 대한 행동 패턴들 A1, A2, A3이 명령어들 C1, C2, C3와 일대일 매핑되어 저장될 수 있으며, 사용자 2의 음성 아이디 V2에 대한 행동 패턴들 A4, A5가 명령어들 C4, C5와 일대일 매핑되어 저장될 수 있다.
이와 같은 행동 패턴 데이터베이스(400)는 복수의 사용자들 각각의 음성 신호 및 복수의 사용자들 각각의 음성 신호에 응답하는 펫 로봇 장치(100)의 동작들에 대한 복수의 사용자들 각각의 보상 행위에 기초하여 업데이트될 수 있다. 예를 들어, 사용자 1의 음성 신호가 수신됨에 따라 후술되는 단계들(S320 내지 S360)이 수행된 결과 명령어 C1에 대응하는 행동 패턴 A1에 따라 펫 로봇 장치(100)의 동작이 수행되었고 사용자 1이 펫 로봇 장치(100)의 동작에 대해 부정적 보상 행위를 수행했다면, 행동 패턴 데이터베이스(400)는 행동 패턴 A1이 명령어 C1과 매핑되어 있는 상태에서 행동 패턴 A6이 명령어 C1에 매핑된 상태로 업데이트될 수 있다. 반면, 사용자 1이 펫 로봇 장치(100)의 동작에 대해 긍정적 보상 행위를 수행했다면, 행동 패턴 데이터베이스(400)는 행동 패턴 A1이 명령어 C1과 매핑되어 있는 상태 그대로 유지될 수 있다.
설명된 행동 패턴 데이터베이스(400)의 업데이트 동작에는 기계 학습이 활용될 수 있다. 일례로, 행동 패턴 데이터베이스(400)는 적어도 하나의 프로세서(130)와 연결된 저장 매체에 저장된 학습 데이터를 기반으로 기계 학습 모델을 통해 기계 학습되어 업데이트될 수 있다.
또한, 행동 패턴 데이터베이스(400)에는 도 4에 도시된 바와 같이 복수의 사용자들 각각의 음성 아이디(410) 별로 복수의 사용자들 각각에 대한 펫 로봇 장치(100)의 친밀도(440), 복수의 사용자들 각각의 건강 정보 및 연령 정보(450), 복수의 사용자들 각각의 주변 환경 정보(460)가 매핑되어 저장될 수 있다. 여기서 사용자의 주변 환경 정보(460)는 사용자가 펫 로봇 장치(100)와 동거하는 공간의 환경 정보(예컨대, 펫 로봇 장치(100)가 큰 소리로 짖는 소리를 내도 되는 환경인지, 펫 로봇 장치(100)가 뛰어다녀도 되는 환경인지 등을 나타내는 정보)를 포함할 수 있다. 친밀도(440)는 복수의 사용자들 각각이 펫 로봇 장치(100)와 상호 작용한 시간 및 횟수의 히스토리 또는 복수의 사용자들 각각의 개인 정보(예컨대, 사용자가 펫 로봇 장치(100)에 대한 주 보호자인지 여부를 나타내는 정보 또는 사용자의 연령 정보 등)에 기초하여 결정될 수 있다.
단계(S320)에서 적어도 하나의 프로세서(130)(보다 정확하게는, 적어도 하나의 프로세서(130)에 포함되는 음성 신호 수신부(220))는, 주변 상황 인지 모듈(120)을 이용하여, 사용자가 발화하는 음성 신호를 수신할 수 있다.
단계(S330)에서 적어도 하나의 프로세서(130)(보다 정확하게는, 적어도 하나의 프로세서(130)에 포함되는 음성 아이디 선택부(230))는, 음성 신호를 성문 인증하여 행동 패턴 데이터베이스(400)로부터 음성 신호의 성문과 매칭되는 성문을 갖는 어느 하나의 음성 아이디를 선택할 수 있다. 예를 들어, 적어도 하나의 프로세서(130)는 음성 신호를 분석하여 성문 특징 벡터를 추출하고 추출된 성문 특징 벡터와 매칭되는 성문 특징 벡터를 갖는 어느 하나의 음성 아이디를 행동 패턴 데이터베이스(400)로부터 선택할 수 있다. 이에, 행동 패턴 데이터베이스(400)에는 복수의 사용자들 각각의 음성 아이디(410) 별 성문(470)이 매핑되어 저장되어 있을 수 있다.
이 때, 사용자의 음성 신호를 성문 인증하는 방식으로는, 종래 공지된 성문 인증 방식이 사용될 수 있다.
단계(S340)에서 적어도 하나의 프로세서(130)(보다 정확하게는, 적어도 하나의 프로세서(130)에 포함되는 명령어 인식부(240))는, 음성 신호를 분석하여 음성 신호에 대응하는 명령어를 인식할 수 있다. 보다 상세하게, 적어도 하나의 프로세서(130)는 음성 신호를 텍스트 변환 후 변환된 텍스트에 대한 자연어 처리를 수행하는 분석 과정을 통해 음성 신호에 대응하는 명령어를 인식할 수 있다. 이를 위해, 명령어 인식부(240)는 STT(Speech-To-Text) 모델 및 NLP(Natural Language Processing) 모델을 포함할 수 있다. STT 모델 및 NLP 모델을 활용하여 명령어를 인식하는 과정은 종래 공지된 텍스트 변환 기술 및 자연어 처리 기술이 사용될 수 있다.
이상, 음성 신호를 성문 인증하는 것과 음성 신호를 텍스트 변환 후 자연어 처리를 수행하는 것이 각기 다른 단계로 구분되어 수행되는 것으로 설명되었으나, 음성 신호를 성문 인증하는 것과 음성 신호를 텍스트 변환 후 자연어 처리를 수행하는 것은 동시에 일괄적으로 수행될 수 있다. 예를 들어, 단계(S330)에서 음성 신호를 성문 인증함과 동시에 음성 신호를 분석하여 텍스트 변환 후 자연어 처리를 수행함으로써 명령어를 인식할 수도 있다. 인식된 명령어는 단계(S330)의 나머지 과정(행동 패턴 데이터베이스(400)로부터 음성 신호의 성문과 매칭되는 성문을 갖는 어느 하나의 음성 아이디를 선택하는 과정)이 수행된 이후, 단계(S350)에서 사용되도록 준비될 수 있다. 즉, 이러한 경우, 단계(S340)는 단계(S330)에서 음성 신호를 성문 인증하는 과정에 포함될 수 있다.
단계(S350)에서 적어도 하나의 프로세서(130)(보다 정확하게는, 적어도 하나의 프로세서(130)에 포함되는 행동 패턴 선택부(250))는, 행동 패턴 데이터베이스(400)로부터 단계(S330)에서 선택된 어느 하나의 음성 아이디에 매핑되어 저장된 행동 패턴들 중 단계(S340)에서 인식된 명령어에 대응하는 어느 하나의 행동 패턴을 선택할 수 있다. 예를 들어, 단계(S330)에서 사용자 1의 음성 아이디 V1이 선택되었다면, 적어도 하나의 프로세서(130)는 행동 패턴 데이터베이스(400)로부터 사용자 1의 음성 아이디 V1에 매핑되어 저장된 행동 패턴들 A1, A2, A3 중 단계(S340)에서 인식된 명령어 C1에 대응하는 행동 패턴 A1을 선택할 수 있다.
이 때, 적어도 하나의 프로세서(130)는 어느 하나의 행동 패턴을 선택함에 있어, 단계(S330)에서 선택된 어느 하나의 음성 아이디에 대응하는 사용자에 대한 펫 로봇 장치(100)의 친밀도(440)를 더 고려할 수 있다. 예를 들어, 적어도 하나의 프로세서(130)는 단계(S330)에서 선택된 어느 하나의 음성 아이디에 대응하는 사용자에 대한 펫 로봇 장치(100)의 친밀도(440)가 기 설정된 수치 이상인 경우에만, 행동 패턴 데이터베이스(400)로부터 단계(S340)에서 인식된 명령어에 대응하는 행동 패턴을 선택할 수 있다. 반면, 단계(S330)에서 선택된 어느 하나의 음성 아이디에 대응하는 사용자에 대한 펫 로봇 장치(100)의 친밀도(440)가 기 설정된 수치 미만인 경우에는, 행동 패턴 데이터베이스(400)로부터 단계(S340)에서 인식된 명령어에 대응하는 행동 패턴이 선택되지 않을 수 있다. 더 구체적인 예를 들면, 도 5에 도시된 바와 같이 단계(S330)에서 사용자 1의 음성 아이디 V1이 선택되고 단계(S340)에서 인식된 명령어 C1에 대응하는 행동 패턴이 A1인 경우, 적어도 하나의 프로세서(130)는 사용자 1에 대한 펫 로봇 장치(100)의 친밀도가 기 설정된 수치 미만인 것을 고려하여 명령어 C1에 대응하는 행동 패턴 A1을 선택하는 대신에, 다른 행동 패턴 A2를 선택할 수 있다.
이와 같이 어느 하나의 행동 패턴을 선택함에 있어 친밀도(440)가 고려됨으로써, 실제 살아있는 펫이 사람에 대한 친밀도에 기초하여 명령에 따라 행동하거나 행동하지 않는 자유로운 의사 행위가 모방될 수 있다.
다른 예를 들면, 적어도 하나의 프로세서(130)는 단계(S330)에서 선택된 어느 하나의 음성 아이디에 대응하는 사용자에 대한 펫 로봇 장치(100)의 친밀도(440)에 기초하여, 행동 패턴의 횟수 또는 정도를 결정할 수 있다. 보다 구체적인 예를 들면, 단계(S330)에서 사용자 1의 음성 아이디 V1이 선택되고 단계(S340)에서 인식된 명령어 C1에 대응하는 행동 패턴이 A1인 경우, 적어도 하나의 프로세서(130)는 사용자 1에 대한 펫 로봇 장치(100)의 친밀도가 기 설정된 수치 미만인 것을 고려하여 명령어 C1에 대응하는 행동 패턴 A1의 반복 횟수를 기준치 미만으로 결정할 수 있다. 즉, 이러한 경우 행동 패턴이 선택되는 것은 단계(S340)에서 인식된 명령어에 기반하되, 선택된 행동 패턴의 횟수 또는 정도만이 펫 로봇 장치(100)의 친밀도(440)에 기초하여 결정될 수 있다.
또한, 적어도 하나의 프로세서(130)는 어느 하나의 행동 패턴을 선택함에 있어, 단계(S330)에서 선택된 어느 하나의 음성 아이디에 대응하는 사용자의 건강 정보 및 연령 정보(450)를 더 고려할 수 있다. 예를 들어, 도 6에 도시된 바와 같이 적어도 하나의 프로세서(130)는 단계(S330)에서 선택된 어느 하나의 음성 아이디 V1에 대응하는 사용자 1의 건강 정보가 "양호" 상태를 나타내는 경우, 행동 패턴 데이터베이스(400)로부터 단계(S340)에서 인식된 명령어 C1에 대응하는 행동 패턴 A1을 선택할 수 있다. 반면, 단계(S330)에서 선택된 어느 하나의 음성 아이디 V1에 대응하는 사용자 1의 건강 정보가 "환자" 상태를 나타내는 경우, 행동 패턴 데이터베이스(400)로부터 단계(S340)에서 인식된 명령어 C1에 대응하는 행동 패턴 A1이 선택되지 않을 수 있다.
이는, 행동 패턴에 따른 펫 로봇 장치(100)의 동작이 "환자" 상태인 사용자가 감당하기 힘든 것을 방지하기 위한 것이다.
다른 예를 들면, 적어도 하나의 프로세서(130)는 단계(S330)에서 선택된 어느 하나의 음성 아이디에 대응하는 사용자의 건강 정보 및 연령 정보(450)에 기초하여, 행동 패턴의 횟수 또는 정도를 결정할 수 있다. 보다 구체적인 예를 들면, 단계(S330)에서 사용자 1의 음성 아이디 V1이 선택되고 단계(S340)에서 인식된 명령어 C1에 대응하는 행동 패턴이 A1인 경우, 적어도 하나의 프로세서(130)는 사용자 1의 연령 정보가 "고령"을 나타내는 것을 인식하여 명령어 C1에 대응하는 행동 패턴 A1의 반복 횟수를 기준치 미만으로 결정할 수 있다. 즉, 이러한 경우 행동 패턴이 선택되는 것은 단계(S340)에서 인식된 명령어에 기반하되, 선택된 행동 패턴의 횟수 또는 정도만이 사용자의 건강 정보 및 연령 정보(450)에 기초하여 결정될 수 있다.
또한, 적어도 하나의 프로세서(130)는 어느 하나의 행동 패턴을 선택함에 있어, 단계(S330)에서 선택된 어느 하나의 음성 아이디에 대응하는 사용자의 주변 환경 정보(460)를 더 고려할 수 있다. 예를 들어, 도 7에 도시된 바와 같이 적어도 하나의 프로세서(130)는 단계(S330)에서 선택된 어느 하나의 음성 아이디 V1에 대응하는 사용자 1의 주변 환경 정보인 "공간 1"이 "큰 소리로 짖어도 되는 공간"을 나타내는 경우, 행동 패턴 데이터베이스(400)로부터 단계(S340)에서 인식된 명령어 C1에 대응하는 행동 패턴 A1을 선택할 수 있다. 반면, 단계(S330)에서 선택된 어느 하나의 음성 아이디 V1에 대응하는 사용자 1의 주변 환경 정보인 "공간 1"이 "큰 소리로 짖으면 아니 되는 공간"을 나타내는 경우, 행동 패턴 데이터베이스(400)로부터 단계(S340)에서 인식된 명령어 C1에 대응하는 행동 패턴 A1이 선택되지 않을 수 있다.
이와 같이 어느 하나의 행동 패턴을 선택함에 있어 사용자의 주변 환경 정보가 고려됨으로써, 선택된 행동 패턴에 따라 제어되는 펫 로봇 장치(100)의 동작으로 인해 주변 거주민들이 소음 또는 진동의 피해를 입는 것이 방지될 수 있다.
다른 예를 들면, 적어도 하나의 프로세서(130)는 단계(S330)에서 선택된 어느 하나의 음성 아이디에 대응하는 사용자의 주변 환경 정보(460)에 기초하여, 행동 패턴의 횟수 또는 정도를 결정할 수 있다. 보다 구체적인 예를 들면, 단계(S330)에서 사용자 1의 음성 아이디 V1이 선택되고 단계(S340)에서 인식된 명령어 C1에 대응하는 행동 패턴이 A1인 경우, 적어도 하나의 프로세서(130)는 사용자 1의 주변 환경 정보가 "펫 로봇 장치(100)가 뛰어다녀도 되는 공간"을 나타낸 것을 인식하여 명령어 C1에 대응하는 행동 패턴 A1의 반복 횟수를 기준치 이상으로 결정할 수 있다. 즉, 이러한 경우 행동 패턴이 선택되는 것은 단계(S340)에서 인식된 명령어에 기반하되, 선택된 행동 패턴의 횟수 또는 정도만이 사용자의 주변 환경 정보(460)에 기초하여 결정될 수 있다.
또한, 적어도 하나의 프로세서(130)는 어느 하나의 행동 패턴을 선택함에 있어, 펫 로봇 장치(100)의 컨디션 정보를 더 고려할 수 있다. 예를 들어, 단계(S330)에서 사용자 1의 음성 아이디 V1이 선택되고 단계(S340)에서 인식된 명령어 C1에 대응하는 행동 패턴이 A1이며, 도 8에 도시된 바와 같이 펫 로봇 장치(100)의 컨디션 정보가 "충전이 필요한 상태"를 나타내는 경우, 적어도 하나의 프로세서(130)는 펫 로봇 장치(100)의 충전 상황으로는 행동 패턴 A1에 따라 펫 로봇 장치(100)가 동작할 수 없음을 예상하여 단계(S340)에서 인식된 명령어 C1에 대응하는 행동 패턴 A1을 선택하지 않을 수 있다.
다른 예를 들면, 적어도 하나의 프로세서(130)는 펫 로봇 장치(100)의 컨디션 정보에 기초하여, 행동 패턴의 횟수 또는 정도를 결정할 수 있다. 보다 구체적인 예를 들면, 단계(S330)에서 사용자 1의 음성 아이디 V1이 선택되고 단계(S340)에서 인식된 명령어 C1에 대응하는 행동 패턴이 A1인 경우, 적어도 하나의 프로세서(130)는 펫 로봇 장치(100)의 컨디션 정보가 "충전이 필요한 상태"를 나타내는 것을 인식하여 명령어 C1에 대응하는 행동 패턴 A1의 반복 횟수를 기준치 미만으로 결정할 수 있다. 즉, 이러한 경우 행동 패턴이 선택되는 것은 단계(S340)에서 인식된 명령어에 기반하되, 선택된 행동 패턴의 횟수 또는 정도만이 펫 로봇 장치(100)의 컨디션 정보에 기초하여 결정될 수 있다.
이러한 펫 로봇 장치(100)의 컨디션 정보는, 실시간으로 펫 로봇 장치(100)로부터 수집될 수 있다. 또한, 이상, 펫 로봇 장치(100)의 컨디션 정보가 펫 로봇 장치(100)의 충전 상태와 관련된 정보인 것으로 설명되었으나, 이에 제한되거나 한정되지 않고 펫 로봇 장치(100)의 동작과 관련된 다양한 정보(예컨대, 고장 부위 정보 등)를 포함할 수 있다.
또한, 적어도 하나의 프로세서(130)는 어느 하나의 행동 패턴을 선택함에 있어, 사용자의 동작 정보를 더 고려할 수 있다. 예를 들어, 단계(S330)에서 사용자 1의 음성 아이디 V1이 선택되고 단계(S340)에서 인식된 명령어 C1에 대응하는 행동 패턴이 A1이며, 도 9에 도시된 바와 같이 사용자가 음성 신호를 발화하는 것을 촬영한 영상으로부터 사용자의 동작 정보로 "앉는 것을 강요하는 손 제스처"가 생성된 경우, 적어도 하나의 프로세서(130)는 명령어 C1에 대응하는 행동 패턴이 A1이 "앉는 행동 패턴"을 나타내는 것임을 사용자의 동작 정보를 기초로 재확인한 뒤, 행동 패턴 A1을 선택할 수 있다. 즉, 사용자의 동작 정보는 인식된 명령어에 기초하여 어느 하나의 행동 패턴을 선택하는 정확도를 향상시키고자, 명령어에 대응하는 행동 패턴을 선택하는 과정에서 재확인하는 용도로 사용될 수 있다.
이를 위해, 적어도 하나의 프로세서(130)는 단계(S320)에서 사용자가 발화하는 음성 신호를 수신하는 것과 동시에, 사용자가 음성 신호를 발화하는 것을 촬영한 영상을 함께 수신하여 해당 영상으로부터 사용자의 동작 정보를 생성할 수 있다.
이상 단계들(S310, S330 내지 S350)의 행동 패턴 데이터베이스(400) 유지 및 음성 인식 알고리즘이 펫 로봇 장치(100)에 포함되는 적어도 하나의 프로세서(130)에 의해 수행되는 것으로 설명되었으나, 이에 제한되거나 한정되지 않고 펫 로봇 장치(100)에 포함되는 적어도 하나의 프로세서(130)와 통신으로 연결된 제어 서버(미도시)가 주체가 되어 수행될 수도 있다. 이러한 경우, 제어 서버는 단계(S320)를 통해 펫 로봇 장치(100)에서 수신된 사용자가 발화하는 음성 신호를 전달 받아, 단계들(S330 내지 S350)을 수행할 수 있다.
단계(S360)에서 적어도 하나의 프로세서(130)(보다 정확하게는, 적어도 하나의 프로세서(130)에 포함되는 동작 제어부(260))는, 선택된 행동 패턴에 따라 펫 로봇 장치(100)(보다 정확하게는, 로봇 바디(110))의 동작을 제어할 수 있다.
또한, 단계(S360)에서 적어도 하나의 프로세서(130)는, 펫 로봇 장치(100)의 동작을 제어하는 것과 동시에, 단계(S330)에서 선택된 어느 하나의 음성 아이디에 대응하는 사용자의 정보를 펫 로봇 장치(100)에 포함되는 디스플레이에 표시할 수 있다. 이에, 사용자로 하여금 펫 로봇 장치(100)가 사용자의 음성 신호를 기반으로 사용자 본인을 제대로 신분 인증했는지를 확인하도록 할 수 있다.
이상, 단일 사용자로부터 음성 신호가 발화되고 이에 응답하여 펫 로봇 장치(100)의 동작을 제어하는 과정이 설명되었으나, 적어도 하나의 프로세서(130)는 복수의 사용자들이 복수의 음성 신호들을 동시에 발화하는 경우에도, 사용자들의 음성 신호들을 구분하여 인식하고 각각에 응답하는 펫 로봇 장치(100)의 동작을 제어할 수 있다.
보다 상세하게, 단계(S320)에서 주변 상황 인지 모듈(120)을 통해 복수의 사용자들이 발화하는 음성 신호들이 동시에 수신되는 경우, 단계(S330)에서 적어도 하나의 프로세서(130)(보다 정확하게는, 적어도 하나의 프로세서(130)에 포함되는 음성 아이디 선택부(230))는 복수의 음성 신호들을 성문 인증하여 행동 데이터베이스(400)로부터 음성 신호들의 성문들과 매칭되는 성문들을 갖는 복수의 음성 아이디들을 선택한 뒤 선택된 복수의 음성 아이디들에 대한 우선 순위에 기초하여 어느 하나의 음성 아이디를 선택할 수 있다. 이를 위해, 행동 데이터베이스(400)에는 복수의 사용자들 각각의 음성 아이디(410) 별로 복수의 사용자들 각각의 음성 아이디(410)에 대한 우선 순위(480)가 매핑되어 저장될 수 있다. 복수의 사용자들 각각의 음성 아이디(410)에 대한 우선 순위(480)는 음성 아이디(410)에 대응하는 복수의 사용자들에 대한 펫 로봇 장치(100)의 친밀도(440), 사용자들 각각의 건강 정보 및 연령 정보(450)에 기초하여 결정될 수 있다. 예를 들어, 도 10에 도시된 바와 같이 행동 데이터베이스(400)로부터 단계(S320)에서 수신된 음성 신호들의 성문들과 매칭되는 성문들을 갖는 음성 아이디들 V1, V2가 선택되면, 적어도 하나의 프로세서(130)는 선택된 음성 아이디들 V1, V2에 대한 우선 순위(480)에 기초하여 우선 순위(480)가 높은 음성 아이디 V1을 선택할 수 있다.
이후, 적어도 하나의 프로세서(130)는 전술된 단계들(S340 내지 S360)을 순차적으로 수행하여 우선 순위(480)에 따라 선택된 음성 아이디에 대한 행동 패턴에 따라 펫 로봇 장치(100)의 동작을 제어한 뒤, 음성 아이디들 중 선택되지 않은 나머지 음성 아이디에 대해서도 전술된 단계들(S340 내지 S360)을 순차적으로 수행하여 나머지 음성 아이디에 대한 행동 패턴에 따라 펫 로봇 장치(100)의 동작을 제어할 수 있다.
또한, 단계(S330)에서 어느 하나의 음성 아이디가 선택됨에 있어, 음성 신호를 발화하는 사용자를 촬영한 영상이 더 활용될 수 있다. 예를 들어, 도 11에 도시된 바와 같이, 적어도 하나의 프로세서(130)는 단계(S320)에서 사용자의 음성 신호와 함께 사용자를 촬영한 영상을 수신함으로써, 단계(S330)에서 사용자의 음성 신호를 성문 인증하여 행동 패턴 데이터베이스(400)로부터 음성 신호의 성문과 매칭되는 성문을 갖는 어느 하나의 음성 아이디를 선택하는 과정에서, 사용자를 촬영한 영상 속 사용자의 얼굴 정보와 매칭되는 얼굴 정보를 갖는 어느 하나의 음성 아이디를 행동 패턴 데이터베이스(400)로부터 선택할 수 있다. 이를 위해, 행동 패턴 데이터베이스(400)에는 복수의 사용자들 각각의 음성 아이디(400) 별로 사용자들 각각의 얼굴 정보(490)가 매핑되어 저장될 수 있다.
이상 설명된 단계들(S310 내지 S360)이 수행된 결과 유지되는 행동 패턴 데이터베이스(400)는 기록매체에 기록된 데이터의 형태로 다양한 서비스에 적용 및 활용될 수 있다. 일례로, 행동 패턴 데이터베이스(400)는 학습 또는 업데이트 시점별로 구분되어 보관됨으로써, 펫 로봇 장치(100)가 특정 시점에 학습된 행동 패턴에 따라 동작하는데 사용될 수 있다.
이 때, 행동 패턴 데이터베이스(400)가 학습 및 업데이트되는 것은 주인 친화형으로 개선되도록 이루어질 수 있다.
또한, 행동 패턴 데이터베이스(400)는 펫 로봇 장치(100)가 실제 존재하는 살아있는 어떤 펫을 모사한 로봇 장치인지에 따라 최적화될 수 있다. 일례로, 펫 로봇 장치(100)가 살아있는 고양이를 모사한 로봇 장치인 경우, 행동 패턴 데이터베이스(400)는 고양이의 행동 특성에 맞게 최적화되며 활용 및 제공될 수 있다.
또한, 행동 패턴 데이터베이스(400)는 메타버스와 연계될 수 있다. 예를 들어, 현실에서 학습 및 업데이트된 행동 패턴 데이터베이스(400)는 메타버스에 적용되어 메타버스에 구현된 가상의 펫 로봇 장치의 동작을 제어하는데 활용될 수 있다. 역으로, 메타버스에서 구현된 가상의 펫 로봇 장치의 동작을 제어하는데 메타버스의 행동 패턴 데이터베이스가 활용되어 학습 및 업데이트되는 경우, 메타버스의 행동 패턴 데이터베이스가 현실의 펫 로봇 장치(100)의 동작을 제어하는데 사용될 수 있다.
또한, 이상 펫 로봇 장치(100)가 사육자들 각각의 명령을 구분하여 반응하도록 복수의 사용자들 각각의 음성 아이디(410) 별로 행동 패턴들(420)이 매핑되어 저장된 행동 패턴 데이터베이스(400)가 활용되는 것으로 설명되었으나, 행동 패턴 데이터베이스(400)의 경량화를 위해 펫 로봇 장치(100)의 주인인 사용자의 음성 아이디만이 대응하는 행동 패턴들과 매핑되어 행동 패턴 데이터베이스(400)에 저장 및 유지될 수 있다. 이러한 경우, 단계(S330)에서 적어도 하나의 프로세서(130)는 음성 신호를 성문 인증하여 행동 패턴 데이터베이스(400)에 저장된 주인인 사용자의 성문과 일치하는지 여부를 확인하고, 음성 신호의 성문이 행동 패턴 데이터베이스(400)에 저장된 주인인 사용자의 성문과 일치하는 경우에 단계들(S340 내지 S360)를 수행할 수 있다.
이상 설명된 단계들(S310 내지 S360)의 행동 패턴 데이터베이스(400) 유지 및 음성 인식 알고리즘은, 펫 로봇 장치(100)에 적용될 뿐만 아니라, 자동차 또는 메타버스에도 적용될 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (16)

  1. 적어도 하나의 프로세서에 의해 수행되는 펫 로봇 장치의 동작 방법에 있어서,
    복수의 사용자들 각각의 음성 아이디 별로 행동 패턴들이 매핑되어 저장된 행동 패턴 데이터베이스를 유지하는 단계;
    사용자가 발화하는 음성 신호를 수신하는 단계;
    상기 음성 신호를 성문 인증하여 상기 행동 패턴 데이터베이스로부터 상기 음성 신호의 성문과 매칭되는 성문을 갖는 어느 하나의 음성 아이디를 선택하는 단계;
    상기 음성 신호를 분석하여 상기 음성 신호에 대응하는 명령어를 인식하는 단계;
    상기 행동 패턴 데이터베이스로부터 상기 선택된 어느 하나의 음성 아이디에 매핑되어 저장된 행동 패턴들 중 상기 인식된 명령어에 대응하는 어느 하나의 행동 패턴을 선택하는 단계; 및
    상기 선택된 행동 패턴에 따라 상기 펫 로봇 장치의 동작을 제어하는 단계
    를 포함하는 펫 로봇 장치의 동작 방법.
  2. 제1항에 있어서,
    상기 행동 패턴을 선택하는 단계는,
    상기 선택된 어느 하나의 음성 아이디에 대응하는 사용자에 대한 상기 펫 로봇 장치의 친밀도에 더 기초하여 상기 어느 하나의 행동 패턴을 선택하는 단계
    를 포함하는 것을 특징으로 하는 펫 로봇 장치의 동작 방법.
  3. 제1항에 있어서,
    상기 행동 패턴을 선택하는 단계는,
    상기 선택된 어느 하나의 음성 아이디에 대응하는 사용자의 건강 정보 및 연령 정보에 더 기초하여 상기 어느 하나의 행동 패턴을 선택하는 단계
    를 포함하는 것을 특징으로 하는 펫 로봇 장치의 동작 방법.
  4. 제1항에 있어서,
    상기 행동 패턴을 선택하는 단계는,
    상기 선택된 어느 하나의 음성 아이디에 대응하는 사용자의 주변 환경 정보에 더 기초하여 상기 어느 하나의 행동 패턴을 선택하는 단계
    를 포함하는 것을 특징으로 하는 펫 로봇 장치의 동작 방법.
  5. 제1항에 있어서,
    상기 행동 패턴을 선택하는 단계는,
    상기 펫 로봇 장치의 컨디션 정보에 더 기초하여 상기 어느 하나의 행동 패턴을 선택하는 단계
    를 포함하는 것을 특징으로 하는 펫 로봇 장치의 동작 방법.
  6. 제1항에 있어서,
    상기 행동 패턴을 선택하는 단계는,
    상기 사용자의 동작 정보에 더 기초하여 상기 어느 하나의 행동 패턴을 선택하는 단계
    를 포함하는 것을 특징으로 하는 펫 로봇 장치의 동작 방법.
  7. 제1항에 있어서,
    상기 명령어를 인식하는 단계는,
    상기 음성 신호를 텍스트 변환 후 상기 변환된 텍스트에 대한 자연어 처리를 수행하는 단계
    를 포함하는 것을 특징으로 하는 펫 로봇 장치의 동작 방법.
  8. 제7항에 있어서,
    상기 음성 신호를 성문 인증하는 것과 상기 음성 신호를 텍스트 변환 후 상기 자연어 처리를 수행하는 것은,
    동시에 일괄적으로 수행되는 것을 특징으로 하는 펫 로봇 장치의 동작 방법.
  9. 제1항에 있어서,
    상기 행동 패턴 데이터베이스는,
    상기 복수의 사용자들 각각의 음성 신호 및 상기 복수의 사용자들 각각의 음성 신호에 응답하는 상기 펫 로봇 장치의 동작들에 대한 상기 복수의 사용자들 각각의 보상 행위에 기초하여 업데이트되는 것을 특징으로 하는 펫 로봇 장치의 동작 방법.
  10. 제1항에 있어서,
    상기 행동 패턴 데이터베이스는,
    상기 펫 로봇 장치가 모사하는 펫의 행동 특성에 기초하여 사전에 구축되는 것을 특징으로 하는 펫 로봇 장치의 동작 방법.
  11. 제1항에 있어서,
    상기 어느 하나의 음성 아이디를 선택하는 단계는,
    상기 사용자를 포함하는 복수의 사용자들이 발화하는 음성 신호들이 동시에 수신되는 경우, 상기 복수의 음성 신호들을 성문 인증하여 상기 행동 패턴 데이터베이스로부터 상기 음성 신호들의 성문들과 매칭되는 성문들을 갖는 복수의 음성 아이디들을 선택하는 단계; 및
    상기 선택된 복수의 음성 아이디들에 대한 우선 순위에 기초하여 상기 선택된 복수의 음성 아이디들 중 어느 하나의 음성 아이디를 선택하는 단계
    를 포함하는 것을 특징으로 하는 펫 로봇 장치의 동작 방법.
  12. 제11항에 있어서,
    상기 선택된 복수의 음성 아이디들에 대한 우선 순위는,
    상기 선택된 복수의 음성 아이디들에 대응하는 사용자들에 대한 상기 펫 로봇 장치의 친밀도, 상기 사용자들 각각의 건강 정보 및 연령 정보에 기초하여 결정되는 것을 특징으로 하는 펫 로봇 장치의 동작 방법.
  13. 제1항에 있어서,
    상기 어느 하나의 음성 아이디를 선택하는 단계는,
    상기 사용자가 상기 음성 신호를 발화하는 것을 촬영한 영상에 더 기초하여 상기 어느 하나의 음성 아이디를 선택하는 단계
    를 포함하는 것을 특징으로 하는 펫 로봇 장치의 동작 방법.
  14. 제1항에 있어서,
    상기 제어하는 단계는,
    상기 선택된 어느 하나의 음성 아이디에 대응하는 사용자의 정보를 상기 펫 로봇 장치에 포함되는 디스플레이에 표시하는 단계
    를 더 포함하는 것을 특징으로 하는 펫 로봇 장치의 동작 방법.
  15. 펫 로봇 장치의 동작 방법을 실행시키기 위한 컴퓨터 프로그램이 기록되어 있는 컴퓨터 판독 가능한 기록매체에 있어서,
    상기 펫 로봇 장치의 동작 방법은,
    복수의 사용자들 각각의 음성 아이디 별로 행동 패턴들이 매핑되어 저장된 행동 패턴 데이터베이스를 유지하는 단계;
    사용자가 발화하는 음성 신호를 수신하는 단계;
    상기 음성 신호를 성문 인증하여 상기 행동 패턴 데이터베이스로부터 상기 음성 신호의 성문과 매칭되는 성문을 갖는 어느 하나의 음성 아이디를 선택하는 단계;
    상기 음성 신호를 분석하여 상기 음성 신호에 대응하는 명령어를 인식하는 단계;
    상기 행동 패턴 데이터베이스로부터 상기 선택된 어느 하나의 음성 아이디에 매핑되어 저장된 행동 패턴들 중 상기 인식된 명령어에 대응하는 어느 하나의 행동 패턴을 선택하는 단계; 및
    상기 선택된 행동 패턴에 따라 상기 펫 로봇 장치의 동작을 제어하는 단계
    를 포함하는 컴퓨터 판독 가능한 기록매체.
  16. 펫의 외형을 모사한 로봇 바디, 주변 상황 인지 모듈 및 적어도 하나의 프로세서를 포함하는 펫 로봇 장치에 있어서,
    상기 적어도 하나의 프로세서는,
    복수의 사용자들 각각의 음성 아이디 별로 행동 패턴들이 매핑되어 저장된 행동 패턴 데이터베이스를 유지하는 데이터베이스 유지부;
    상기 주변 상황 인지 모듈을 이용하여 사용자가 발화하는 음성 신호를 수신하는 음성 신호 수신부;
    상기 음성 신호를 성문 인증하여 상기 행동 패턴 데이터베이스로부터 상기 음성 신호의 성문과 매칭되는 성문을 갖는 어느 하나의 음성 아이디를 선택하는 음성 아이디 선택부;
    상기 음성 신호를 분석하여 상기 음성 신호에 대응하는 명령어를 인식하는 명령어 인식부;
    상기 행동 패턴 데이터베이스로부터 상기 선택된 어느 하나의 음성 아이디에 매핑되어 저장된 행동 패턴들 중 상기 인식된 명령어에 대응하는 어느 하나의 행동 패턴을 선택하는 행동 패턴 선택부; 및
    상기 선택된 행동 패턴에 따라 상기 로봇 바디의 동작을 제어하는 동작 제어부
    를 포함하는 펫 로봇 장치.
PCT/KR2023/009818 2022-07-11 2023-07-11 음성 인식을 이용한 신분 증명 기반의 펫 로봇 장치 및 그 동작 방법 WO2024014824A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0084837 2022-07-11
KR1020220084837A KR102679200B1 (ko) 2022-07-11 음성 인식을 이용한 신분 증명 기반의 펫 로봇 장치 및 그 동작 방법

Publications (1)

Publication Number Publication Date
WO2024014824A1 true WO2024014824A1 (ko) 2024-01-18

Family

ID=89537085

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/009818 WO2024014824A1 (ko) 2022-07-11 2023-07-11 음성 인식을 이용한 신분 증명 기반의 펫 로봇 장치 및 그 동작 방법

Country Status (1)

Country Link
WO (1) WO2024014824A1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020067920A (ko) * 2000-10-20 2002-08-24 소니 가부시끼 가이샤 로봇의 행동 제어 장치 및 그 제어 방법
JP2003205179A (ja) * 2002-01-10 2003-07-22 Fuji Photo Film Co Ltd ペット型ロボット
JP2004033624A (ja) * 2002-07-05 2004-02-05 Nti:Kk ペット型ロボットによる遠隔制御装置
WO2018084170A1 (ja) * 2016-11-07 2018-05-11 Groove X株式会社 人を識別する自律行動型ロボット
KR20190130214A (ko) * 2018-04-25 2019-11-22 삼성전자주식회사 사용자에게 서비스를 제공하는 이동형 로봇 장치 및 방법
KR20210001529A (ko) * 2019-06-28 2021-01-06 엘지전자 주식회사 로봇, 그와 연결되는 서버, 및 로봇을 이용한 음성 인식 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020067920A (ko) * 2000-10-20 2002-08-24 소니 가부시끼 가이샤 로봇의 행동 제어 장치 및 그 제어 방법
JP2003205179A (ja) * 2002-01-10 2003-07-22 Fuji Photo Film Co Ltd ペット型ロボット
JP2004033624A (ja) * 2002-07-05 2004-02-05 Nti:Kk ペット型ロボットによる遠隔制御装置
WO2018084170A1 (ja) * 2016-11-07 2018-05-11 Groove X株式会社 人を識別する自律行動型ロボット
KR20190130214A (ko) * 2018-04-25 2019-11-22 삼성전자주식회사 사용자에게 서비스를 제공하는 이동형 로봇 장치 및 방법
KR20210001529A (ko) * 2019-06-28 2021-01-06 엘지전자 주식회사 로봇, 그와 연결되는 서버, 및 로봇을 이용한 음성 인식 방법

Also Published As

Publication number Publication date
KR20240008020A (ko) 2024-01-18

Similar Documents

Publication Publication Date Title
WO2018208026A1 (ko) 수신된 음성 입력의 입력 음량에 기반하여 출력될 소리의 출력 음량을 조절하는 사용자 명령 처리 방법 및 시스템
WO2019156332A1 (ko) 증강현실용 인공지능 캐릭터의 제작 장치 및 이를 이용한 서비스 시스템
WO2021177730A1 (ko) 음성 및 연하 장애를 유발하는 질환 진단 장치 및 그 진단 방법
WO2011142532A2 (ko) 지능형 로봇의 서비스 시나리오 편집기, 그 방법, 지능형 로봇 장치 및 지능형 로봇의 서비스 방법
WO2014017773A1 (ko) 로봇 제어 시나리오 생성 방법 및 장치
WO2020130689A1 (ko) 놀이 컨텐츠를 추천하는 전자 장치 및 그의 동작 방법
WO2019098418A1 (ko) 뉴럴 네트워크 학습 방법 및 디바이스
WO2018021651A1 (ko) 사용자의 감정 정보를 이용한 오프라인 캐릭터 인형 제어 장치 및 방법
WO2020117028A1 (ko) 질의 응답 장치 및 방법
WO2018212470A1 (ko) 음성요청에 대응하는 정보 제공을 위한 미디어 선택
WO2022196921A1 (ko) 인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치
WO2020054980A1 (ko) 음소기반 화자모델 적응 방법 및 장치
KR20190140801A (ko) 영상, 음성, 텍스트 정보를 기반으로 사용자의 감정, 나이, 성별을 인식하는 방법
WO2021002649A1 (ko) 개별 화자 별 음성 생성 방법 및 컴퓨터 프로그램
WO2021080033A1 (ko) 음성 분석 방법 및 장치
WO2024014824A1 (ko) 음성 인식을 이용한 신분 증명 기반의 펫 로봇 장치 및 그 동작 방법
WO2019221479A1 (ko) 공기 조화 장치 및 이의 제어 방법
KR20190133579A (ko) 사용자와 대화하며 내면 상태를 이해하고 긴밀한 관계를 맺을 수 있는 감성지능형 개인비서 시스템
WO2020004727A1 (ko) 실시간 소리 분석 방법 및 장치
WO2021045434A1 (ko) 전자 장치 및 이의 제어 방법
KR102679200B1 (ko) 음성 인식을 이용한 신분 증명 기반의 펫 로봇 장치 및 그 동작 방법
WO2020256339A1 (ko) 전자 장치 및 이의 제어 방법
WO2022015005A1 (ko) 대화기반 정신장애선별방법 및 그 장치
WO2021085708A1 (ko) 3d 홀로그램 디스플레이 장치 기반의 양방향 커뮤니케이션 서비스 시스템
WO2020111835A1 (ko) 대화형 교육 시스템에 포함되는 사용자 장치와 교육 서버

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23839916

Country of ref document: EP

Kind code of ref document: A1