WO2011043639A2 - Métodos y sistema de control por voz - Google Patents

Métodos y sistema de control por voz Download PDF

Info

Publication number
WO2011043639A2
WO2011043639A2 PCT/MX2010/000099 MX2010000099W WO2011043639A2 WO 2011043639 A2 WO2011043639 A2 WO 2011043639A2 MX 2010000099 W MX2010000099 W MX 2010000099W WO 2011043639 A2 WO2011043639 A2 WO 2011043639A2
Authority
WO
WIPO (PCT)
Prior art keywords
command
commands
further characterized
sound input
detected
Prior art date
Application number
PCT/MX2010/000099
Other languages
English (en)
French (fr)
Other versions
WO2011043639A3 (es
Inventor
Magno ALCÁNTARA TALAVERA
Original Assignee
Alcantara Talavera Magno
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcantara Talavera Magno filed Critical Alcantara Talavera Magno
Priority to US13/500,059 priority Critical patent/US20120253824A1/en
Publication of WO2011043639A2 publication Critical patent/WO2011043639A2/es
Publication of WO2011043639A3 publication Critical patent/WO2011043639A3/es

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M11/00Telephonic communication systems specially adapted for combination with other electrical systems
    • H04M11/007Telephonic communication systems specially adapted for combination with other electrical systems with remote control systems
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/40Bus networks
    • H04L12/40006Architecture of a communication node
    • H04L12/40039Details regarding the setting of the power status of a node according to activity on the bus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L2012/2847Home automation networks characterised by the type of home appliance used
    • H04L2012/285Generic home appliances, e.g. refrigerators

Definitions

  • the present invention reveals a flexible system which has a greater capacity for operations and has improved functionality compared to other systems, since it does not have total dependence on a single type of technology, It is fully integrated to allow the control of a wide variety of electronic operations aimed at more domestic services compared to the state of the art, and is also designed for easy installation, which allows the system of the present application can be used by different types of market, such as from people who want a voice control system for comfort reasons, to people with a motor disability who can benefit greatly from the advantages of the present invention.
  • the present invention also relates to an operating method for a system in accordance with the present invention based on sequences which in turn reduces the risk of error. for false detections and facilitates the realization of operations by voice, since the system is allowed to work with a limited or relatively small vocabulary so that the functionality is not lost and in addition, the control and use of each word of the vocabulary within of the system, where at the same time, as already mentioned, unwanted operations caused by false detections are avoided
  • the present invention uses equipment designed to be easily installed in the place where operations are desired and directly and / or indirectly control the majority of domestic services in a home based on a microcontroller with voice recognition capability, in addition to several peripheral units fully integrated into the same system, allowing greater flexibility to integrate control of various services or domestic operations compared to existing technique systems. Therefore, in order to suppress the aforementioned drawbacks, the development of the present system was considered, as well as two operating methods that interact within said system to thus offer users, through voice, the integration of different technologies for control, through a functional and optimized, of the services used in a home. These methods and system are intended to be protected by means of this application.
  • FIG. 1 shows, exemplified a system in accordance with the present application.
  • FIG. 2 shows, exemplified how they are grouped and should be said, for each user, the sound inputs based on voice commands to support the disclosed methods and in accordance with the present invention.
  • FIG. 3A is a flow chart of the method that describes a type of system functionality in accordance with the present application.
  • FIG. 3B is a flow chart showing a particular embodiment of the method shown in FIG. 3A in accordance with the present invention.
  • FIG. 3C is a flow chart showing a particular embodiment of the method shown in FIG. 3A in accordance with the present invention.
  • FIG. 3D is a flow chart showing a particular modality of the method shown in FIG. 3A in accordance with the present invention.
  • FIG. 4A is a diagram of the method that describes a type of system functionality in accordance with the present invention.
  • FIG. 4B is a flow chart showing a particular embodiment of the method shown in FIG. 4A in accordance with the present invention.
  • FIG. 4C is a flow chart showing a particular embodiment of the method shown in FIG. 4A in accordance with the present invention.
  • FIG. 4D is a flow chart showing a particular modality of the method shown in FIG. 4A in accordance with the present invention.
  • FIG. 5 shows exemplified how the system communication with some other technology would be through a serial communication port in accordance with the present invention.
  • Voice command or command Digital samples of sound inputs or set of sounds (such as phrases or words) chosen by the user or entered directly from the initial firmware configuration and that are registered at a specific location in the system memory for which can then be compared with sound inputs said by some user to perform operations.
  • Any action performed by the equipment in response to a specific sound input such as changing the channel, telephone, turn on a light, send some code through the serial communication port, etc.
  • the system of the present invention is an electronic equipment that integrates all the key components for the control of electronic and electrical domestic devices, such as lighting, telephone and audio / video equipment, by means of script recognition of voice pre-registered on it, on a single computer and without the need for a computer.
  • the system revealed in the present application solves the problems of voice control systems of the state of the art by allowing the integral control of the different facilities of a house such as electricity, telephone, etc. as well as audio and / or video devices and also, with the possibility of communication with other technologies to allow the extension of its functionality. It also solves the problem of the methods to control a voice control system of the state of the art by reducing the risks presented by false detections and at the same time adding speed in the performance of the operations.
  • FIG. 1 shows the main parts and features of the system of the present invention.
  • system 100 focuses on the master unit 101 that is connected and in communication with the infrared peripheral unit 102, the peripheral general output unit 103, the serial communication port 13 and the peripheral data access arrangement unit 111. All these units contain all ports and / or connections necessary for easy and fast integration with domestic services, such as telephone, lighting, audio / video, etc. All peripheral units are integrated within the same container cabinet specially designed for easy installation.
  • the master unit 101 was devised using a microcontroller capable of synthesizing, processing and storing sound inputs and where this unit Maestro 101 contains a plurality of digital and analog input and output channels through which it can emit and / or receive pulses and / or information for communication with other units and / or communication standards, in addition to the ability to receive sound inputs , such as words or phrases by each of a plurality of users, through a microphone 108 that is connected to this master unit 101 for processing; wherein said microphone can be replaced by a wireless microphone without affecting the scope of the present invention.
  • Said sounds that are received by the master unit 101 are synthesized and processed by said master unit 101 to later compare them with digital samples of sound inputs previously registered within the system that we will call commands or orders.
  • Said record of said samples of sound inputs or commands can be made previously from the initial configuration of the system firmware, or by entering each word or phrase through microphone 108 by the same user so that the system makes a record of each of those words or phrases.
  • the system compares the sound inputs with the previously recorded sound samples or commands, and if these received sound inputs substantially coincide with the samples registered within the system, an operation is given in response to the units peripherals 102, 103, 111 and / or 113 connected directly to the master unit 101.
  • the system interacts and reports to the user through audible signals by means of a horn 107 that is directly connected to the master unit 101.
  • the master unit 101 can communicate with other systems or technologies and order operations through a serial communication port 113, which is directly connected to the master unit 101, using a serial communication standard such as the RS232 standard, so that the capacity of the system 100 can be greatly expanded by allowing communication with other technologies such as UPB, X10, ZIGBEE, Z-WAVE, KNX, etc.
  • a serial communication standard such as the RS232 standard
  • the infrared peripheral unit 102 directly connected to the master unit 101, has the ability to receive, through an infrared receiver 114, which converts the information of the infrared codes into digital pulses or information that can be read by the master unit 101, such as, for example, the Vishay IR receiver or some other similar receiver, and memorize a large number of infrared protocols of remote controls of different devices that are controlled by infrared such as that of any television, audio equipment, DVD, etc.
  • This infrared peripheral unit 102 stores the infrared code related to a function determined by a button of the remote control to be memorized in a specific location previously chosen by the user and then issuing the same code each time the master unit receives or detects the order or corresponding voice command by at least one of a plurality of users.
  • the infrared peripheral unit 102 is responsible for recording the information of each button of any remote control that operates by infrared and that is desired to transmit when a voice command is detected correspondingly, so that when the system receives a related order from the master control, this information is issued at the same frequency as it was stored and infrared to control the corresponding audio and / or video device.
  • the emission of said infrared signals or codes can be carried out individually or sequentially, where said operation, which we will call "macros", consists in issuing a variable plurality of defined infrared codes previously so that a sequence of several consecutive infrared codes is issued in order to control a plurality of functions of a single compatible electronic device and / or a plurality of compatible electronic devices and where the plurality of infrared codes to be sent will depend on the previous system configuration.
  • This macro operation can be stopped at any time it is being executed if the system detects a corresponding voice command.
  • the infrared peripheral unit 102 if the infrared code of the remote control button to turn on a television is stored in the system in a previously determined memory location and the system is also configured to only be sent once said code, every time the user says the voice command or script that invokes said location or operation, then the master unit 101 will order the infrared peripheral unit 102 to only emit the code that turns on the TV, allowing so that this operation is performed when requested by the user.
  • the peripheral general output unit 103 is a power stage for each of the at least one of the plurality of channels available in the master unit, resulting in one or more lights being directly connected to the outputs of this unit.
  • Said peripheral unit of general outputs 103 comprises a plurality of outputs 103 A (not shown in the figures).
  • Each of the outputs 103 A of this unit 103 has a predetermined memory location from the initial configuration of the system firmware, so that each time the voice command that invokes such location or operation is detected, the master unit 101 will give the order to the peripheral unit of general outputs 103 to change its status, either from 1 (ON) to 0 (OFF) or vice versa.
  • This unit allows the possibility to turn on and / or turn off one or more lights or actuators.
  • These actuators can be implemented in motors, pumps, valves, switches, etc. or for the control of the opening and / or closing of blinds, windows, doors, curtains and / or fluid flow control (water, gas, etc.), etc.
  • this general output unit 103 makes it possible to add at least one of the plurality of outputs, a contact-operated power leveler such as, for example, for the control of lights the HT7700 chip can be used to adjust the level of lighting of each bulb or light bulbs to the level that the user desires when a corresponding voice command is detected.
  • a contact-operated power leveler such as, for example, for the control of lights the HT7700 chip can be used to adjust the level of lighting of each bulb or light bulbs to the level that the user desires when a corresponding voice command is detected.
  • the level of lighting can be controlled using voice commands, however, a person skilled in the art will appreciate that the scope of the present invention is not limited in any way to the use of the HT7700 chip.
  • power levelers can be implemented to regulate the power of various actuators and / or electrical and / or electronic devices such as motors, pumps, valves and / or lights.
  • Each of the outputs 103 A (not shown in the figures) can be controlled individually or in a group by the master unit 101 when a corresponding voice command is detected.
  • the user has the ability to combine or relate the different operations of the plurality of peripheral units that make up the system 100 and thus form groups, so that said relationship is stored in memory so that by means of a command or sequence of commands corresponding voice can be carried out said group of operations.
  • the relationship that forms groups of different operations that involve several peripheral units will be called "scenarios.”
  • the scenarios involve and combine a previously defined number of operations of the plurality of peripheral units of the system 100 such as the infrared peripheral unit 102, the peripheral general output unit 103, the peripheral data access arrangement unit 111 and / or serial communication port 113.
  • a scenario can be created by combining 5 different operations, through 2 peripheral units, which could be called a "movie” scenario where the system performs the operation, through the unit infrared peripheral 102, of 1.- Turn on the TV, 2.- Turn on the DVD, 3.- Tune the TV to the video channel and then the system performs the operation, through the peripheral unit of general outputs 103, of 4.- Lower the blinds and finally 5.- Decrease the level of lighting of the bulbs to a previously determined level or you can configure the system so that the user stops to leveling, all using the corresponding voice commands.
  • great diversity of scenarios can be created with the wide variety of combinations of the functionalities of the peripheral units, which can be chosen by the user according to their tastes and / or needs.
  • System 100 has the ability to communicate with Switched Telephone Network 112 (RTC; also called Basic Telephone Network or RTB) commonly known as "telephone line” (known in English by Public Switched Telephone Network or PSTN).
  • RTC Switched Telephone Network
  • RTB Basic Telephone Network
  • PSTN Public Switched Telephone Network
  • DAA 111 Data Access Arrangement
  • This unit 111 is directly controlled by the master unit 101 so that it is possible to connect, disconnect, make or receive phone calls, etc. via the peripheral data access fix unit DAA 111 upon detection of a corresponding voice command.
  • the DAA 111 peripheral unit is integrated by a DAA device (Data Access Arrangement) 104 which serves as an interface between the master unit 101 with the RTC 112 and also is complemented with an amplification stage 105 for interaction and compatibility with a telephone speaker.
  • DAA device Data Access Arrangement
  • the master unit 101 is responsible for issuing the DTMF tones upon detection of the corresponding voice commands, which are transmitted through the peripheral unit DAA 111 to initiate communication with some other person in the other Telephone network side.
  • the system detects (by a user) each corresponding voice command representing each digit that integrates a telephone number (Example: if the number is 24871600, the user has to say the words “two", “four “,” eight “,” seven “,” one “,” six “,” zero “,” zero “, as long as these words have been registered as commands), the system stores said number in temporary memory, either for that upon receiving a corresponding voice order perform the operation of storing said number in the system memory for later use, and where a plurality of telephone numbers can be stored in the system memory for each user; or so that upon receiving the corresponding voice order, the operation of calling or immediately initiating a telephone call is performed by converting each digit into its respective DTMF tone to transmit it through the switched telephone network and initiate the connection.
  • the system informs the location of where said telephone number was stored by means of audible signals through the horn 107, so that the user can initiate a telephone call using any telephone number stored in memory saying only the words or phrases that coincide with the voice command that represents the number of the location in which said telephone number was stored, that is, the user can choose by means of some corresponding voice commands from a plurality of telephone numbers stored in memory and through another corresponding voice order, the connection or telephone call is initiated when converting each digit of the number stored in their respective DTMF tone and subsequently send those tones through the RTC using the DAA 111 data access peripheral unit.
  • a telephone speaker device 120 is integrated into the system of the present invention 100 using an amplification stage 105 that improves and cleans the transmission.
  • the telephone speaker 120 is communicated or connected directly with the peripheral data access arrangement unit DAA 111 and has the function of allowing the user to make telephone calls without the need to touch or hold any device such as a headset, that is, A hands-free mode.
  • the peripheral data access arrangement unit DAA 111 performs all the interface, amplification and concordance between the RTC 112 and the telephone speaker 120.
  • the loudspeaker used may be fully and internally integrated into the system or be external.
  • an internal telephone speaker 120 into the system consists of a special unit 106 that performs the necessary telephone speaker processing (noise reduction, echo cancellation, etc.) and which is directly connected to the amplification stage 105 which belongs to the data access array unit 111 and where all these units are located within the same container cabinet; the horn 109 and microphone 110 corresponding to this special unit 106 may be the same horn 107 and microphone 108 used by the system for the functions explained above, that is, the functions would share the same device; this would be achieved by means of an audio mixer 130 (not shown in the figures) for each plurality of speakers and each plurality of microphones to allow sharing the functions of each plurality of audio device in a single device.
  • an audio mixer 130 not shown in the figures
  • An independent or external telephone speaker 120 consists of connecting directly to the peripheral data access arrangement 111 an external telephone speaker 120 or outside the container cabinet; said external telephone speaker consists of a special unit 106 to which a separate speaker 109 and microphone 110 are connected to those used by the master unit 101 as shown in FIG. 1.
  • the function of a telephone speaker can be integrated into the system of the present invention to carry out telephone conversations without using hands (hands-free) and that the conversation can be made by several people without the need for headphones.
  • power levelers or also known as “dimmer”, which were mentioned above can be integrated into or out of the same container cabinet to make the system's functionality versatile.
  • the master unit 101 can register the voice commands in two ways: the first way is that in which the voice commands are digitally registered from the initial system configuration, such as with the initial firmware configuration by setting digital samples of the words or phrases that you want to use as voice commands.
  • the second form is that where sound inputs are received as words or phrases that you want to use as voice commands, which are said by a user through microphone 108, where said samples are digitized, recorded and located by the master unit 101 in the memory thereof and where the user is informed by means of audible signals through the horn 107 the location in which said command is stored.
  • the way in which voice commands will be registered and located will depend on the initial firmware configuration and will be explained later.
  • All commands are stored or recorded in a specified destination or location so that later, every time the master unit 101 hears through the microphone 108 a sound input substantially similar to the previously registered voice command, it assigns it a coordinate based on the type of voice command (the types of voice commands will be explained later) and on its location. Each coordinate points to a specific operation, that is, each memory location represents an operation. In this way the operations are invoked and once said operation is known, the master unit sends the signals to the peripheral units in charge of the task to be performed. Likewise, the type of operation being performed is indicated by visual means (not shown in the figures) and / or audible 107.
  • the system can recognize and work with the voices of each of a plurality of users who know the vocabulary or totality of commands registered from the system firmware configuration or who have registered the commands with their voice through microphone 108.
  • FIG. 2 shows the way in which voice commands can be grouped for the different modes of operation that the system can have (which will be explained later) of the present invention by each of a plurality of users, that is to say , there may be the same amount of these diagrams as the number of users the system has.
  • the system works using Sequential Commands 21, so that the form of operation is based on hierarchical sequences of these commands where once a sequence has been initiated when the voice command is detected with greater On a hierarchical level, the system expects to hear a later voice command for a defined time, that is, from a lower hierarchy (which will be explained in detail later), and corresponding to the same sequence as the previously said command, so that Once the sequence is finished, the system performs the corresponding operation.
  • the system when the system is working using the Immediate Commands 22, that is, in the second mode of operation, once one of these commands is detected, then the operation invoked by said command is performed without the system waiting for some other command , that is, they do not depend on a hierarchical sequence.
  • the diagrams of the Sequential Commands 21 and the Immediate Commands 22, in addition to representing the way in which said commands must be structured to be said by the user to perform operations also represent the way in which they are grouped in the microcontroller memory of the master unit 101 the plurality of commands.
  • the number of commands shown in the Sequential Commands 21 and Immediate Commands 22 diagrams may vary without affect the operation of the present invention.
  • the Sequential Voice Commands 21 are composed of: Cardinal Command 2000, Main Commands 2100, 2200, 2300, 2400, Commands Secondary 2110, 2120, 2130, 2140; 2210, 2220, 2230, 2240; 2310, 2320, 2330, 2340; 2410, 2420, 2430, 2440 and Extra Commands 2111, 2112, 2113, 2114; 2121, 2122, 2123, 2124; 2131, 2132, 2133, 2134; 2141, 2142, 2143, 2144; 2211, 2212, 2213, 2214; 2221, 2222, 2223, 2224; 2231, 2232, 2233, 2234; 2241, 2242, 2243, 2244; 2311, 2312, 2313, 2314; 2321, 2322, 2323, 2324; 2331, 2332, 2333, 2334; 2341, 2342, 2343, 2344; 2411, 2412, 2413, 2414; 2421, 2422, 2423, 2424; 2431
  • Cardinal Command 2000 is the one with the highest hierarchical value and although in the Sequential Commands 21 diagram only one Cardinal Command is shown, such as the Sequential Commands diagram 21 and the Immediate Commands diagram 22 represent all the commands that can be to have each user, then there can be the same number of these diagrams as the number of users that the system has, so there can be a plurality of Cardinal Commands of which each will mark the beginning of their respective hierarchical sequences of voice commands.
  • the Extra Command is the one with the lowest hierarchical value.
  • sequence must follow the above-mentioned pattern, for the system to perform an operation, said pattern can be of shorter lengths, that is, operations can be performed using sequences of different lengths such as:
  • the Commands of Immediate voice 22 does not function hierarchically like Sequential Voice Commands 21, since this group of commands can perform operations without the need for a hierarchical sequence, that is, operations related to such Immediate Commands can be performed, which will be carried out carried out by the system after detecting the corresponding voice command without the system waiting for some other command.
  • this mode of operation is carried out when the operations to be performed are of a type that specifically require this mode of operation with Immediate Commands and not the mode of operation with Sequential Commands, such as structuring a number telephone to make a call, where it is required that each operation, such as saving each digit of the telephone number in temporary memory, be performed once the command representing that operation is detected and without following a sequence that in this case would exhaust many of the resources of the master unit 101, since large amounts of memory are required for this purpose.
  • the Immediate Voice Commands 22 do not need a hierarchical sequence to perform any operation, that is, at the time when the system detects any of these commands, it will perform the operation related to that command.
  • the system will recognize the Immediate Voice Commands, that is, a user can say any corresponding Immediate Command and if the system detects it, the equipment will perform the corresponding or related operation with that command without following a hierarchical sequence.
  • FIG. 2 shows the command diagram that describes the structure of the Immediate Voice Commands 22 and the way they are grouped.
  • This diagram shows the plurality of Immediate Commands 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212 where each command can perform an operation and where a technician can notice that the amount of Immediate Commands may vary without limiting the scope of the present invention.
  • the Trigger Command 200 is shown, the which is a voice command whose function when the system works by default in the second mode of operation (with Immediate Commands), is to avoid false detections.
  • the system of the present invention has the ability to alternate between the aforementioned modes of operation.
  • the Trigger Command 200 can be assigned to any Sequential Command as explained above, that is, the system can be configured so that, for example, the operation of an Extra Command is related to the Trigger command to change mode. operation, so that each time that Extra Command is invoked, as the function of the Trigger Command is assigned, its operation will consist of initializing the mode of operation with the Immediate Voice Commands. The assignment of this function is done in a previous configuration. In the same way, an Immediate Command can be assigned the operation of changing the operating mode so that the system works with the Sequential Commands and which has already been explained above.
  • Any voice command or script when said correctly by the user, has the ability to perform some operation.
  • the user For the system to perform an operation, depending on the mode of operation in which it is located, whether using Sequential or Immediate Commands, the user must provide the sound inputs, such as words or phrases, that match a command or sequence of Commands (following the hierarchical order) respecting the structure in which they are grouped according to the diagrams of orders 2. Each time a command or script is detected, the system will let the user know through audible and / or visible signals 107.
  • FIG 2 shows how the order diagram 2 is structured so that the commands are said by each of a plurality of users and perform operations.
  • This diagram also represents the order in which words or phrases entered by the user or previously from firmware are recorded in memory;
  • This order diagram 2 is the most representative part of the operation of the system that is closely related to the method of operation that will be explained later.
  • the user For example, for the user to have the system perform the operation found in 2233, such as turning on the garden light, the user has to say in sequence the commands registered in the following locations: CARDINAL 2000 ⁇ MAIN 2200 ⁇ SECONDARY 2230 ⁇ EXTRA 2233
  • the user has to say correctly and in order the sequence of words that were registered in the locations CARDINAL 2000, MAIN 2200, SECONDARY 2230 and EXTRA 2233 respectively.
  • the system will inform it by means of a visible and / or audible signal 107.
  • the command diagram 2 shows all the voice commands that can be detected by the system by user, that is, some other user would have the same command diagram with the same operations and the only thing that would change would be the words or commands used, that is, each user can have a different vocabulary, however, the system follows the pattern shown in the diagrams of FIG. 2. As for example, a user may have the word "garden” registered at location 2233 (explained above), while another user may have the word "outside" registered at the same location 2233.
  • the diagram of orders 2 is the pattern that must be followed to structure the scripts, also represents the way in which each command is located in memory and also shows the location of each operation to be carried out so that it can be carried after detecting the corresponding command or script. Both types of orders or commands (Sequential and Immediate) can follow the same registration methods, either where the user says the desired word or from the initial firmware configuration (explained above).
  • Each voice order has a function, either to invoke an operation directly or to allow the detection of another group or another hierarchical level of voice commands or commands.
  • the system compares this input with the corresponding commands that are already registered and based on a tolerance level configurable by the user, the system accepts or rejects the sound input, so that if that sound input is accepted, the system advances to the next level of the hierarchical sequence, that is, to a lower hierarchical level (except in the Immediate Commands where it is not works by hierarchies), and also records the location of the command with which the sound input was compared and accepted to know the operation that could be performed or to know the group of commands that the user can say later to be detected.
  • the system can be pre-configured to select which operation is desired to be continuous. For example, if the system is configured so that the operation invoked by Extra Command 2424 changes the channel of a television by increasing it and it is also configured so that the operation is continuous or stopped by the Stop Command, then when invoked or When said operation is requested when the corresponding command is detected, it will start and continue to be carried out, that is, the system will change the television channel, increasing it continuously and indefinitely until the system detects the Stop Command.
  • the Stop Command is required to stop the operation of said power leveler, so that the level will be adjusted in the point at which the user decides to stop the operation by saying the word that represents the Stop Command.
  • the serial communication port 113 is a unit directly connected to the master unit 101 and has the function of allowing communication between the master unit with some microcontroller, some computer and / or some peripheral unit, etc. It also allows compatibility with other technologies that use the same communication standard, which can be the RS232 standard. An example of communication with other 500 technologies is shown in FIG. 5. These compatible technologies can be Zigbee, UPB, X10, Insteon, etc.
  • an interface 501 that performs the function of link or translator between port 113 (which in turn is connected to the master unit 101) and the different devices that make up the network of each technology such as the device 510 which could be a dry contact or a power leveler and where it can be wired or wirelessly connected to its communication network.
  • Said interface 501 will be connected directly to the serial communication port 113 and where said connection can be made wired or wireless.
  • the serial communication port 113 would have a direct connection to some X10 interface, such as module TW523 of said X10 technology, which is capable of translating the transmitted codes (under a standard) of the master unit 101 in codes compatible with X10 and the information that would be received through the network X10 is compatible with the standard of the master unit 101. For example, at location 2313 of FIG.
  • the address of the device 03 or Key code 03 of the X10 technology can be assigned, resulting in every time that operation is invoked, the system sends the order of orden "or on to said device if it is turned off or the order OFF "or off if it is on, the master unit 101 will know the status of said device 03 because the communication between the X10 technology and the master unit 101 is bid directional.
  • the "Home code" address, required in X10, can be previously set.
  • power leveling or dimming / brighting operations can be assigned which require the continuous or continuous operation model, where the information necessary to reduce or increase the The power level in the circuit will be transmitted constantly and indefinitely until a Stop Command stops the operation when it is detected.
  • This power leveling can be applied to the lighting of a building to control the brightness levels.
  • the transmission of codes compatible with the technology can be done for a single device or a plurality of devices by sending several codes in a single operation. In this way you can create scenarios through consecutive operations or macros where a plurality of codes or key would be sent YOUR IW / VVV
  • the number of codes is configurable by the user.
  • the AIILightsOn code could be assigned, which turns on or turns ON all devices that are within the network, to some system operation, such as 2310 using Sequential Commands or 212 using Commands Immediate so that each time this command is detected, the information is sent and the operation is carried out.
  • the initial operation of the system of the present invention is based on sound menus that can be selected using manual inputs 116 like any button or touch screen. Different configurations are made in each menu, such as the "Register commands” option that allows the user to enter the words or phrases he wishes to invoke operations in case this type of registration corresponds (explained above).
  • Another menu option is "Creating scenarios and entering infrared codes", this option allows the user to modify a normal operation to a continuous operation, as well as enter and store the infrared codes that will be used by the system.
  • all system menu options are programmed that make it possible for the user, installer and / or operator to configure and operate the system through manual inputs 116, which are directly connected to the master unit 101, which can be buttons, screens with touch-based operation, screens, etc.
  • the system menu options can be, for example, "Adjust the level” where the tolerance level is adjusted when listening to commands, whether Sequential or Immediate, "Register commands” where the user enters voice commands through the microphone in case this registration form corresponds, "Creation of scenarios and entry of infrared codes” where scenarios are created and infrared codes are recorded for the control of equipment, such as audio and video, "Delete commands "where the commands that have been registered through the microphone are deleted in case they have not been registered correctly or that they wish to change, as well as the” Listen "function main option where the system enters into operation mode with Sequential or Immediate Commands, depending on the configuration.
  • FIG. 3A shows in a flow chart 350 the method of operation of the system 100 in its mode of operation from Sequential Voice Orders or Commands, once said commands have been registered and placed in memory where in Step 300 enters the system operating mode based on Sequential Commands.
  • the entry can be done through manual inputs 116 (configuring the system from firmware) or through an operation invoked by some Immediate Command.
  • step 301 a hierarchical sequence is initiated where the system waits and listens in the environment, through microphone 108, and for an indefinite time for any sound input, such as a word or phrase spoken by a user, so that when the system detects said sound input, in step 303 it compares it with the Voice Sequential Commands previously registered within the hierarchical level of greater hierarchy, which in this case is the Cardinal Commands, to make the decision to accept or discard said sound input, where the system accepts those sounds that are substantially similar to having a high level of similarity to any of the Cardinal Commands previously registered, said level of similarity is previously configured and we will call it tolerance level, where if The sound input exceeds the tolerance level means that the input is accepted by the system.
  • Said tolerance level is used in all the steps where the system listens for some voice command; so that if in this step 303 the sound input detected by the system does not exceed this tolerance level when compared to each of the plurality of Cardinal Commands, the system rejects that sound input and returns to step 301 where returns to the wait and listen state for the detection of sound inputs until the system detects any input that exceeds the tolerance level when compared to any of the Cardinal Commands.
  • step 303 If in step 303 any sound input detected by the system coincides when the tolerance level is exceeded when compared to any of the Commands Previously registered cardinals, the system accepts said sound input and advances to the next level of the hierarchical sequence (a lower hierarchy level), where in step 304 the system waits and listens in the environment, through microphone 108 and through a previously established time, for some sound input, such as a word or phrase said by a user, to detect any input that exceeds the tolerance level when compared to any of the voice commands of the newly established hierarchical level according to the structure of the Sequential Voice Commands 21, which in this case is the group of Main Commands related to the newly detected Cardinal Command.
  • the system is in a state of listening to detect any sound input that exceeds the tolerance level when compared to a command of the Main Commands group related to the Cardinal Command previously detected and where once the system detects any sound input, in step 308 the system compares said sound input with each Main Command of the corresponding group and the decision is made to accept or reject said sound input (such as words or phrases spoken by the user) detected based on the tolerance level.
  • the system is configured in such a way that the waiting time at this stage is finite and previously defined, so that if the system does not detect any sound input that exceeds the tolerance level when compared to each of the Main Commands corresponding within the established time, the system restarts the hierarchical sequence taking possession of step 301 mentioned above.
  • step 308 the system accepts that input and also advances to the next hierarchical level of the hierarchical sequence (one level of lower hierarchy), where in step 309 the system waits and listens in the environment, through microphone 108 and for a previously established time, for some sound input, such as a word or phrase said by a user, to detect any input that exceeds the level of tolerance to compare with any of the voice commands of the newly established hierarchical level according to the structure of the Sequential Voice Commands 21, which in this case is the group of Secondary Commands related to the newly detected Main Command.
  • the system is in a state of listening to detect any sound input that exceeds the tolerance level when compared with any command of the Secondary Commands group related to the Main Command previously detected and this in turn is related to the last Cardinal Command detected and where once the system detects any sound input, in step 311 the system compares said sound input with each Secondary Command of the corresponding group and the decision is made to accept or reject said sound input (such as words or phrases said by user) detected based on tolerance level.
  • the system is configured in such a way that the waiting time at this stage is finite and previously defined, so that if the system does not detect any sound input that exceeds the tolerance level when compared to each of the Secondary Commands corresponding within the established time, the system restarts the hierarchical sequence taking over step 301 mentioned above
  • the system of the present invention can also be configured so that when in step 311 the system does not accept any voice command that exceeds the tolerance level when compared to the Secondary Commands and returns to step 301, before returning to said step 301 perform an operation in a step 310 (not shown in the Figures) exclusive to the newly detected Main Command that was active in said sequence that was being executed.
  • step 311 the sound input coincides when the tolerance level is exceeded when compared to any Secondary Command of the corresponding group within the established time, then the system accepts that input and also the system advances to the next hierarchical level of the hierarchical sequence ( a lower hierarchy level), where in step 312 the system waits and listens in the environment, through microphone 108 and for a while previously established, by some sound input, such as a word or phrase said by a user, to detect any input that exceeds the tolerance level when compared to any of the voice commands of the newly established hierarchical level according to the structure of the Commands of Sequential voice 21, which in this case is the group of Extra Commands related to the newly detected Secondary Command.
  • the system waits and listens in the environment, through microphone 108 and for a while previously established, by some sound input, such as a word or phrase said by a user, to detect any input that exceeds the tolerance level when compared to any of the voice commands of the newly established hierarchical level according to the structure of the Commands of Sequential voice 21, which in this
  • the system is in a state of listening to detect any sound input that exceeds the tolerance level when compared with any command of the Extra Command group related to the previously detected Secondary Command which in turn is related to the last Main Command detected and this in turn it is related to the last Cardinal Command detected and where once the system detects any sound input, in step 314 the system compares that sound input with each Extra Command of the corresponding group and the decision is made to accept or reject said sound input (such as words or phrases spoken by the user) detected based on the tolerance level.
  • the system is configured in such a way that the waiting time at this stage is finite and previously defined, so that if the system does not detect any sound input that exceeds the tolerance level when compared to each of the Extra Commands corresponding within the established time, in step 316 the system performs an exclusive operation to the newly detected Secondary Command, in addition the system rises a hierarchical level of the hierarchical sequence so that it is again positioned in step 309 explained above where the system waits and listen for some sound input that matches a Secondary Command related to the last Main Command detected.
  • Secondary Commands cycle 390 This creates a first cycle that we will call Secondary Commands cycle 390, in which, as explained in steps 309 and 311, the system can continue to detect and accept sound inputs that match a Secondary Command (within the group corresponding) to continuously perform (without having to say the hierarchical sequence from the beginning) exclusive operations to said group of Secondary Commands, so that if in step 311 the system discarded all Sound inputs (which have not exceeded the tolerance level) after the time granted (as explained above) has elapsed, the system will break the Secondary Commands 390 cycle by completely restarting the hierarchical sequence and positioning itself in step 301 explained above.
  • step 314 If in step 314 the sound input coincides when the tolerance level is exceeded when compared to an Extra Command of the corresponding group within the established time, then the system accepts that input and also in step 317 an exclusive operation is performed to the Extra Command newly detected, in addition the system maintains the same hierarchical level of the hierarchical sequence so that it is again positioned in step 312 explained above where the system waits and listens for some sound input that matches an Extra Command related to the last Secondary Command detected.
  • step 314 A particular mode after step 314 where the Extra Commands 391 cycle has just been broken is shown in FIG. 3B where the operation of step 316 is not carried out, that is, the system is positioned in step 309 directly after step 314.
  • a particular modality to steps 301 and 304 is that if during the execution of said steps an interruption or input signal is detected, through some channel of the master unit 101 such as a telephone call through the peripheral unit DAA 111, in step 307 (not shown in the figures) an operation will be performed, such as answering the telephone call, then the hierarchical sequence is restarted and then the system returns to step 301 explained above.
  • step 3C Another particular modality subsequent to the operation performed in step 317 is shown in FIG. 3C where the system was configured so that said operation is of a continuous nature and needs a Stop Command to be able to stop and where in step 325 the system waits and listens in the environment, through microphone 108, and for a indefinite time for any sound input, such as a word or phrase said by a user, so that when the system detects that sound input, in step 327 compare it with the voice commands previously registered as Stop Commands and makes the decision to accept or reject said sound input (such as words or phrases spoken by the user) detected based on the tolerance level, so that if in this step 327 the sound input detected by the system does not exceed this tolerance level when compared to the Stop Commands, the system rejects said sound input and returns to step 325 where it returns to the wait and listen state for the detection of sound inputs until The system detects any input that exceeds the tolerance level when compared to any of the Stop Commands.
  • any sound input such as a word or phrase said by a
  • step 327 If in step 327 some sound input detected by the system coincides when the tolerance level is exceeded when compared to any of the previously registered Stop Commands, the system accepts that sound input and also in step 328 the operation that stops it was being carried out (of a continuous nature) to later position itself in step 312 explained above.
  • step 330 Another particular modality after the operation performed in step 316 is shown in FIG. 3D where the system was configured so that this operation is continuous and requires a Stop Command to stop and where in step 330 the system waits and listens in the environment, through microphone 108, and for a undefined time for any sound input, such as a word or phrase said by a user, so that when the system detects that sound input, in step 331 compare it with the voice commands previously registered as Stop Commands and the decision is made to accept or reject said sound input (such as words or phrases spoken by the user) detected based on the tolerance level, so that if in this step 331 the sound input detected by the system does not exceed this tolerance level when compared to the Stop Commands, the system rejects that sound input and returns to step 330 where it returns to the wait and listen state for sound input detection until the system detects any input that exceeds the tolerance level when compared to any of the Stop Commands.
  • any sound input such as a word or phrase said by a user
  • step 331 If in step 331 some sound input detected by the system coincides when the tolerance level is exceeded when compared with any of the previously registered Stop Commands, the system accepts said sound input and also in step 332 the operation that stops it was being carried out (of a continuous nature) to later position itself in step 309 explained above.
  • FIG. 4A shows in a flow chart 450 the method of operation of the system 100 in its mode of operation from Immediate Voice Orders or Commands, once said commands have been registered and placed in memory.
  • step 410 the system operation mode is entered based on Immediate Commands, the entry can be made through manual inputs 116 (configuring the system from firmware) or through an operation invoked by some Sequential Command so that in step 412 the system detects any sound input by means of microphone 108, so that in step 413 this sound input is compared with the Trigger Command (explained above) and the decision is made to accept or reject the Sound inputs (such as words or phrases spoken by a user) detected by the system based on the tolerance level, so that if the system does not detect any sound input that exceeds the tolerance level when compared to the Command Corresponding shot, return to step 412.
  • the Trigger Command such as words or phrases spoken by a user
  • step 413 If in step 413 the sound input matches when the tolerance level is exceeded when compared with the Trigger Command and / or with a Sequential Command that is related to the Trigger Command (explained above), then the system accepts that input, so that in step 416 the system waits and listens in the environment , through the microphone 108, and for an indefinite time for any sound input, such as a word or phrase said by a user, so that when the system detects said sound input, in step 417 said input is compared sound with any of the corresponding Immediate Voice Commands according to the structure of the Immediate Voice Commands 22 of FIG.
  • step 417 If in step 417 the sound input coincides when the tolerance level is exceeded when compared to any Immediate Command, then in step 418 the system performs the exclusive operation to said command and then again positions itself in step 416 explained above.
  • step 413 a particular mode subsequent to step 413 where the system accepts or rejects the sound input when compared to the Trigger Command is shown in FIG. 4B where the system performs in step 415 an exclusive operation to the Trigger Command (in addition to the operation mode change operation) and subsequently it is positioned in step 416 explained above. This operation can be performed depending on the previous system configuration.
  • FIG. 4C a particular modality subsequent to the operation performed in step 418 is shown in FIG. 4C wherein said operation positions the system in step 412. This is done to reduce the risk of operations performed by false detections.
  • step 418 Another particular modality after the operation performed in step 418 is shown in FIG. 4D where the system was configured so that this operation is continuous and needs a Stop Command to be able to stop and where in step 420 the system waits and listens in the environment, through microphone 108, and for an indefinite time for any sound input, such as a word or phrase spoken by a user, so that when the system detects said sound input, in step 421 compare it to the voice commands previously registered as Stop Commands and the decision is made to accept or reject said sound input (such as words or phrases spoken by the user) detected with based on the tolerance level, so that if in this step 421 the sound input detected by the system does not exceed this tolerance level when compared to the Stop Commands, the system rejects that sound input and returns to the step 420 where it returns to the wait and listen state for the detection of sound inputs until the system detects any input that exceeds the tolerance level when compared to any of the Stop Commands.
  • any sound input such as a word or phrase spoken by a user
  • step 421 If in step 421 any sound input detected by the system coincides when the tolerance level is exceeded when compared to any of the previously registered Stop Commands, the system accepts said sound input and also in step 422 the operation that stops it was being carried out (of a continuous nature) to later position itself in step 416 explained above.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Selective Calling Equipment (AREA)

Abstract

Esta invención se refiere a un sistema con diferentes formas de operación o funcionamiento que integra todos los componentes claves para el control de la mayoría de los servicios domésticos, como puede ser teléfono, iluminación y equipo de audio/video, por medio de entradas de sonido como palabras o frases por parte de un usuario. El sistema incluye una unidad maestro que coordina el total funcionamiento y comunicación con otras tecnologías y/o con las unidades periféricas. El sistema integra una unidad de salidas generales para el control de encendido y apagado de luces, motores, etc., una unidad infrarroja para el control de equipo de audio y video, una unidad DAA para la interacción con la Red Telefónica Conmutada, una unidad de altavoz telefónico, un puerto de comunicación serial, un micrófono, una bocina, entre otros accesorios necesarios para la interacción con el usuario. La presente invención también provee dos métodos que describen el funcionamiento del sistema revelado en este documento para aumentar la funcionalidad y versatilidad de este sistema en comparación al estado de la técnica. Un método es a partir de secuencias jerárquicas de entradas de sonido, tales como una palabra o frase; el otro método es a partir de entradas de sonido, que funcionan de forma directa, es decir, sin secuencias y de igual forma en ambos casos, las palabras o frases que puede detectar el sistema son registradas previamente. Las entradas de sonido son recibidas a través de un micrófono que se encuentra integrado al sistema de la presente invención. El objeto de esta invención es la de crear un sistema que integre en un solo equipo independiente pero ampliable, un conjunto de diferentes desarrollos tecnológicos orientados al control de las necesidades básicas que se encuentran en casas u oficinas para así satisfacer la necesidades de gente con alguna discapacidad motriz, ya que todo es regido por entradas de sonido.

Description

MÉTODOS Y SISTEMA DE CONTROL POR VOZ
ANTECEDENTES DE LA INVENCIÓN
En la actualidad, la mayoría de los equipos de automatización que son controlados por entradas de voz son sistemas dependientes de procesadores o computadoras cuyas características y capacidades sobrepasan y no van de la mano con las funciones inherentes a un sistema electrónico para el control de los servicios domésticos, en donde, por ejemplo, se puede presentar el inconveniente de que la computadora tiene que estar constantemente encendida, además de la relativa obligatoriedad del uso de micrófonos inalámbricos debido a que de lo contrario se tendría que ubicar una computadora en cada cuarto donde se encuentran las operaciones que se desean realizar para que el sistema escuche las órdenes de los usuarios. Además, debido a que son equipos (computadoras) diseñados con otros propósitos, muchos de estos equipos solamente interactúan con los servicios domésticos a través de una sola tecnología electrónica como la tecnología infrarroja, radio frecuencia (RF), cablear directamente (aumentando el tiempo de instalación), etc., como se muestra en la publicación US2008/0091432 A1 en donde comúnmente se utiliza una unidad auxiliar externa por cada operación que se desea realizar, como por ejemplo la operación de encender una luz, dando como resultado una falta de flexibilidad en los sistemas existentes y que a su vez deriva en costos muy elevados al tener que agregar una interfaz, ya sea por RF u otro método, por cada operación que se desea realizar por voz. Por ejemplo, si son 4 luces las que se desean encender y apagar, se necesita el mismo numero de interfases para cumplir con cada operación, todo esto, porque en el estado de la técnica se depende de una tecnología, la cual se hace compatible con la computadora. Asimismo, en la mayoría de los casos, estos sistemas tienen un control limitado en relación a los dispositivos y servicios que se encuentran en una vivienda, ya que muchos simplemente controlan por ejemplo, luces, persianas y a veces equipo de audio y video, provocando que no exista un control completo de ios servicios domésticos, lo cual es una desventaja para el usuario. Asimismo, además de la necesidad que tienen los sistemas del estado de la técnica al tener que incorporar micrófonos inalámbricos e interfases por cada operación a realizar, y la limitante de que son pocos los servicios domésticos que comúnmente se controlan, el hecho de mantener un procesador o computadora constantemente encendida genera un gasto de energía eléctrica muy alto, lo cual es perjudicial para la vida útil del sistema, así como para el medio ambiente. Estos sistemas se basan en softwares diseñados para procesar audio y enviar las órdenes al exterior a través de una interfaz de alguna tecnología electrónica orientada a los servicios domésticos, en donde se integran a la red ciertas unidades de hardware de la misma tecnología las cuales realizarán las operaciones, ya sea de forma alámbrica o inalámbricamente. Sin embargo, como ya se mencionó, esta forma dé integración a través de una computadora tiene los inconvenientes técnicos generados de la adecuación de una computadora (PC, laptop, tablet, etc.) al control de los servicios existentes en un inmueble.
En vista de las desventajas de la técnica anterior, la presente invención revela un sistema flexible el cual tiene una mayor capacidad de operaciones y posee una funcionalidad mejorada en comparación a otros sistemas, ya que no tiene dependencia total de un solo tipo de tecnología, se encuentra completamente integrado para permitir el control de una amplia variedad de operaciones electrónicas orientadas a más servicios domésticos en comparación al estado de la técnica, y además está diseñado para su fácil instalación, lo cual permite que el sistema de la presente solicitud pueda ser usado por diferentes tipos de mercado, como por ejemplo desde las personas que quieren un sistema de control por voz por cuestiones de comodidad, hasta personas con alguna discapacidad motriz las cuales pueden beneficiarse ampliamente de las ventajas de la presente invención.
Por otra parte, muchos de los sistemas de control por voz existentes que son operados en procesadores o computadoras utilizan un vocabulario bastante amplio para el usuario, lo cual provoca que ante una conversación normal, en donde no se requiere que el sistema actúe, el equipo reconozca ciertas palabras dentro de la conversación como órdenes y de esta forma ejecute las operaciones sin consentimiento del usuario, lo cual provoca falsas detecciones y en ciertos casos la ejecución de operaciones no deseadas por el usuario y que a su vez afecta el control que el usuario tiene sobre las diferentes servicios domésticos involucrados. Asimismo, estas falsas detecciones suceden en los sistemas por voz que trabajan con palabras o frases que pueden ser dichas y cuyas operaciones se realizan inmediatamente, es decir, sin ninguna palabra inicial o secuencia, en donde si el ambiente es ruidoso o si el usuario sostiene una conversación que esté al alcance del equipo, se provocan estas falsas detecciones y por lo tanto, operaciones no deseadas. Dependiendo del tipo de sistema, se puede provocar que se enciendan luces, se cambie el canal de la TV, se cierre la puerta, etc. cuando el usuario no lo desea. En vista de los inconvenientes en la operación de los sistemas del estado de la técnica, la presente invención se refiere asimismo a un método de funcionamiento para un sistema de conformidad con la presente invención a base de secuencias que a su vez reduce el riesgo de error por falsas detecciones y facilita la realización de operaciones por voz, ya que se permite que el sistema trabaje con un vocabulario limitado o relativamente pequeño de manera que la funcionalidad no se pierde y además, se facilita el control y uso de cada palabra del vocabulario dentro del sistema, en donde al mismo tiempo, como ya se mencionó, se evitan las operaciones no deseadas provocadas por las falsas detecciones
En vista de las desventajas de los sistemas y métodos de las técnicas existentes, la presente invención utiliza un equipo diseñado para ser instalado fácilmente en el lugar donde se desean realizar las operaciones y controlar directa y/o indirectamente la mayoría de los servicios domésticos en un hogar con base en un microcontrolador con capacidad de reconocimiento de voz, además de diversas unidades periféricas totalmente integradas al mismo sistema, lo que permite una mayor flexibilidad para integrar el control de diversos servicios u operaciones domésticas en comparación a los sistemas de la técnica existente. Por lo tanto, con la finalidad de suprimir los inconvenientes mencionados anteriormente, se pensó en el desarrollo del presente sistema, así como en dos métodos de funcionamiento que interactúan dentro de dicho sistema para ofrecer así a los usuarios, por medio de la voz, la integración de diferentes tecnologías para el control, por medio de una forma funcional y optimizada, de los servicios utilizados en un hogar. Dichos métodos y sistema se pretenden proteger por medio de la presente solicitud.
BREVE DESCRIPCIÓN DE LAS FIGURAS
A continuación se describirán modalidades de la invención con referencia a los dibujos anexos, en los cuales:
La FIG. 1 muestra, ejemplificado un sistema de conformidad con la presente solicitud.
La FIG. 2 muestra, ejemplificado la forma en que se agrupan y deben de ser dichas, por cada usuario, las entradas de sonido con base en los comandos de voz para soportar los métodos revelados y de conformidad con la presente invención.
La FIG. 3A es un diagrama de flujo del método que describe un tipo de funcionalidad del sistema de conformidad con la presente solicitud.
La FIG. 3B es un diagrama de flujo mostrando una modalidad particular del método mostrado en la FIG. 3A de conformidad con la presente invención.
La FIG. 3C es un diagrama de flujo mostrando una modalidad particular del método mostrado en la FIG. 3A de conformidad con la presente invención.
La FIG. 3D es un diagrama de flujo mostrando una modalidad particular del método mostrado en la FIG. 3A de conformidad con la presente invención.
La FIG. 4A es un diagrama del método que describe un tipo de funcionalidad del sistema de conformidad con la presente invención.
La FIG. 4B es un diagrama de flujo mostrando una modalidad particular del método mostrado en la FIG. 4A de conformidad con la presente invención.
La FIG. 4C es un diagrama de flujo mostrando una modalidad particular del método mostrado en la FIG. 4A de conformidad con la presente invención.
La FIG. 4D es un diagrama de flujo mostrando una modalidad particular del método mostrado en la FIG. 4A de conformidad con la presente invención.
La FIG. 5 muestra ejemplificado cómo seria la comunicación del sistema con alguna otra tecnología a través de un puerto de comunicación serial de conformidad con la presente invención. DESCRIPCIÓN DETALLADA DE LA INVENCIÓN
Los siguientes términos serán utilizados a lo largo de la presente descripción para permitir la comprensión de la misma, sin embargo, un técnico en la materia podrá apreciar que dichos términos no pretenden de forma alguna limitar el alcance de la presente solicitud.
Orden o comando de voz: Muestras digitales de entradas de sonido o conjunto de sonidos (tales como frases o palabras) elegidos por el usuario o ingresados directamente desde la configuración inicial del firmware y que son registrados en una ubicación específica en la memoria del sistema para que posteriormente puedan ser comparadas con entradas de sonido dichas por algún usuario para realizar operaciones.
Operaciones: Cualquier acción que realiza el equipo como respuesta a una entrada de sonido determinada, tales como cambio de canal, llamar por teléfono, encender alguna luz, enviar algún código a través del puerto de comunicación serial, etc.
El sistema de la presente invención se trata de un equipo electrónico que integra todos los componentes clave para el control de dispositivos domésticos electrónicos y eléctricos, como puede ser la iluminación, teléfono y equipo de audio/video, por medio de reconocimiento de secuencias de comandos de voz prerregistradas en el mismo, en un solo equipo y sin la necesidad de una computadora. Como se mencionó anteriormente, el sistema revelado en la presente solicitud resuelve los problemas de los sistemas de control por voz del estado de la técnica al permitir el control integral de las diferentes instalaciones de una vivienda tales como energía eléctrica, teléfono, etc. así como de dispositivos de audio y/o video y además, con la posibilidad de comunicación con otras tecnologías para permitir la ampliación de la funcionalidad del mismo. Asimismo, resuelve el problema de los métodos para controlar un sistema de control por voz del estado de la técnica al reducir los riesgos presentados por falsas detecciones y al mismo tiempo agregar rapidez en la realización de las operaciones.
La FIG.1 muestra las partes y características principales del sistema de la presente invención. Como se muestra en la FIG. 1 , el sistema 100 se centra en la unidad maestro 101 que se encuentra conectada y en comunicación con la unidad periférica infrarroja 102, la unidad periférica de salidas generales 103, el puerto de comunicación serial 13 y la unidad periférica de arreglo de acceso de datos 111. Todas estas unidades contienen todos los puertos y/o conexiones necesarias para una fácil y rápida integración con los servicios domésticos, como pueden ser teléfono, iluminación, audio/ video, etc. Todas las unidades periféricas se encuentran integradas dentro de un mismo gabinete contenedor diseñado especialmente para su fácil instalación.
Para lograr una independencia de funcionamiento, ahorro de energía, facilidad de implementación y ahorro de recursos en comparación a sistemas basados en computadoras, se ideó la unidad maestro 101 utilizando un microcontrolador con capacidad para sintetizar, procesar y almacenar entradas de sonido y donde esta unidad maestro 101 contiene una pluralidad de canales de entradas y salidas digitales y analógicas por las cuales puede emitir y/o recibir pulsos y/o información para la comunicación con otras unidades y/o estándares de comunicación, además de la capacidad de recibir entradas de sonido, tales como palabras o frases por parte de cada uno de una pluralidad de usuarios, a través de un micrófono 108 que esta conectado a esta unidad maestro 101 para su procesamiento; en donde dicho micrófono puede ser reemplazado por un micrófono inalámbrico sin afectar el alcance de la presente invención. Dichos sonidos que son recibidos por la unidad maestro 101 son sintetizados y procesados por dicha unidad maestro 101 para posteriormente compararlos con muestras digitales de entradas de sonido registrados previamente dentro del sistema que llamaremos comandos u órdenes. Dicho registro de dichas muestras de entradas de sonido o comandos puede hacerse previamente desde la configuración inicial del firmware del sistema, o ingresando cada palabra o frase a través del micrófono 108 por el mismo usuario de tal forma que el sistema hace un registro de cada una de dichas palabras o frases.
Una vez que el sistema compara las entradas de sonido con las muestras de sonido registrados previamente o comandos, y si estas entradas de sonido recibidas coinciden substancialmente con las muestras registradas dentro del sistema, se da como respuesta una operación a través de las unidades periféricas 102, 103, 111 y/o 113 conectadas directamente a la unidad maestro 101. El sistema interactúa y da informes al usuario a través de señales audibles por medio de una bocina 107 que se encuentra conectada directamente a la unidad maestro 101.
Además de la comunicación con las unidades periféricas, la unidad maestro 101 puede comunicarse con otros sistemas o tecnologías y ordenar operaciones a través de un puerto de comunicación serial 113, que se encuentra conectado directamente a la unidad maestro 101, usando un estándar de comunicación serial como puede ser el estándar RS232, de manera que la capacidad del sistema 100 se puede ampliar notoriamente al permitirse la comunicación con otras tecnologías tales como la UPB, X10, ZIGBEE, Z-WAVE, KNX, etc.
La unidad periférica infrarroja 102, conectada directamente a la unidad maestro 101, tiene la capacidad de recibir, a través de un receptor infrarrojo 114, el cual convierte la información de los códigos infrarrojos en pulsos digitales o información que puede ser leída por la unidad maestro 101, como puede ser por ejemplo, el Vishay IR receiver o algún otro receptor similar, y memorizar gran cantidad de protocolos infrarrojos de controles remoto de diferentes dispositivos que sean controlados por infrarrojo como el de cualquier televisor, equipo de audio, DVD, etc. para posteriormente realizar la operación de transmitirlos a través de un led infrarrojo 115 al momento de detectarse un comando de voz que previamente fue relacionado con dicha operación de manera que se pueden relacionar una pluralidad de comandos del sistema con las operaciones que puede realizar esta unidad periférica infrarroja 102 y así controlar cualquier equipo compatible con protocolos infrarrojos. Esta unidad periférica infrarroja 102, almacena el código infrarrojo relacionado con una función determinada por un botón del control remoto a memorizar en una ubicación específica previamente elegida por el usuario para después emitir el mismo código cada vez que la unidad maestro reciba o detecte la orden o comando de voz correspondiente por parte de por lo menos uno de una pluralidad de usuarios. En otras palabras, la unidad periférica infrarroja 102 se encarga de registrar la información de cada botón de cualquier control remoto que funcione por infrarrojos y que se desea transmitir al detectarse un comando de voz correspondiente, de manera que cuando el sistema recibe una orden relacionada por parte del control maestro, se emite esta información a la misma frecuencia con la que fue almacenada y en forma infrarroja para controlar el dispositivo de audio y/o video correspondiente. Dependiendo de la configuración que se le haya dado al sistema, la emisión de dichas señales o códigos infrarrojos se puede realizar de forma individual o secuencial, en donde dicha operación, que llamaremos "macros", consiste en emitir una pluralidad variable de códigos infrarrojos definidos previamente de manera que se emite una secuencia de varios códigos infrarrojos consecutivos con la finalidad de controlar una pluralidad de funciones de un solo dispositivo electrónico compatible y/o una pluralidad de dispositivos electrónicos compatibles y en donde la pluralidad de códigos infrarrojos a enviar dependerá de la configuración previa del sistema. Dicha operación de macros puede ser detenida en cualquier momento en el que se este ejecutando si el sistema detecta un comando de voz correspondiente. Para ejemplificar la operación de dicha unidad periférica infrarroja 102, si el código infrarrojo del botón del control remoto para encender una televisión se almacena en el sistema en una ubicación de memoria previamente determinada y además se configura el sistema para que solo se envíe una vez dicho código, cada vez que el usuario diga el comando o secuencia de comandos de voz que invoque dicha ubicación u operación, entonces la unidad maestro 101 dará la orden a la unidad periférica infrarroja 102 de emitir una sola vez el código que enciende la TV, permitiendo así que se realice dicha operación al ser solicitada por el usuario. La unidad periférica de salidas generales 103 es una etapa de potencia para cada uno de los por lo menos uno de la pluralidad de canales disponibles en la unidad maestro, dando como resultado que en las salidas de esta unidad se puedan conectar directamente una o varias luces, motores, actuadores, niveladores de potencia y en general cualquier dispositivo electrónico y/o eléctrico y así poder controlar prácticamente cualquiera de estos dispositivos o circuitos al detectarse un comando de voz correspondiente. La etapa de potencia puede realizarse con relevadores, triacs, diacs, transistores y/o cualquier otra combinación de componentes electrónicos que permita la amplificación de potencia para el control de dispositivos que funcionen por corriente alterna y/o corriente directa. Dicha unidad periférica de salidas generales 103 comprende una pluralidad de salidas 103 A (no mostradas en las figuras). Cada una de las salidas 103 A de esta unidad 103 tiene una ubicación de memoria predeterminada desde la configuración inicial del firmware del sistema, de manera que cada vez que se detecte el comando de voz que invoque dicha ubicación u operación, la unidad maestro 101 dará la orden a la unidad periférica de salidas generales 103 de cambiar su estado, ya sea de 1 (ON) a 0 (OFF) ó viceversa. Esta unidad permite que haya la posibilidad de encender y/o apagar una o varias luces o actuadores. Estos actuadores pueden ser implementados en motores, bombas, válvulas, interruptores, etc. o para el control de la apertura y/o cierre de persianas, ventanas, puertas, cortinas y/o control de flujo de fluidos (agua, gas, etc.), etc. Asimismo, esta unidad de salidas generales 103 hace posible agregar a por lo menos uno de la pluralidad de salidas, un nivelador de potencia que funcione por contacto como por ejemplo, para el control de luces se puede utilizar el chip HT7700 para ajusfar el nivel de iluminación de cada bombilla o bombillas de luz hasta el nivel que el usuario deseé al detectarse un comando de voz correspondiente. Usando los niveladores de potencia se puede controlar el nivel de iluminación usando órdenes de voz, sin embargo, un técnico en la materia podrá apreciar que el alcance de la presente invención no esta limitado en forma alguna al uso del chip HT7700. De igual forma, los niveladores de potencia pueden implementarse para la regulación de la potencia de diversos actuadores y/o dispositivos eléctricos y/o electrónicos como pueden ser motores, bombas, válvulas y/o luces.
Cada una de las salidas 103 A (no mostrada en las figuras) puede ser controlada individual o grupalmente por la unidad maestro 101 al detectarse un comando de voz correspondiente.
Del mismo modo, el usuario tiene la capacidad de combinar o relacionar las diferentes operaciones de la pluralidad de unidades periféricas que conforman el sistema 100 y así formar grupos, de manera que dicha relación se almacena en memoria para que por medio de un comando o secuencia de comandos de voz correspondientes pueda llevarse a cabo dicho grupo de operaciones. Para facilitar la comprensión de la presente solicitud, a la relación que forma grupos de diferentes operaciones que involucran varías unidades periféricas le llamaremos "escenarios". Los escenarios involucran y combinan una cantidad definida previamente de operaciones de la pluralidad de unidades periféricas del sistema 100 como puede ser la unidad periférica infrarroja 102, la unidad periférica de salidas generales 103, la unidad periférica de arreglo de acceso de datos 111 y/o el puerto de comunicación serial 113. Por ejemplo, se puede crear un escenario al combinar 5 operaciones diferentes, a través de 2 unidades periféricas, el cual podría denominarse escenario de "película" en donde el sistema realiza la operación, a través de la unidad periférica infrarroja 102, de 1.- Encender la TV, 2.- Encender el DVD, 3.- Sintonizar la TV en el canal de video y posteriormente el sistema realiza la operación, a través de la unidad periférica de salidas generales 103, de 4.- Bajar las persianas y por último 5.- Disminuir el nivel de iluminación de las bombillas a un nivel previamente determinado o se puede configurar el sistema para que el usuario detenga la nivelación, todo usando los comandos de voz correspondientes. No obstante se pueden crear gran diversidad de escenarios con la amplía variedad de combinaciones de las funcionalidades de las unidades periféricas, las cuales pueden ser elegidas por el usuario de acuerdo a sus gustos y/o necesidades.
El sistema 100 tiene la capacidad de comunicarse con la Red Telefónica Conmutada 112 (RTC; también nombrada Red Telefónica Básica o RTB) comúnmente conocida como "línea telefónica" (conocida en ingles por Public Switched Telephone Network o PSTN). La interacción entre el sistema 100 y la red 112 depende de la unidad periférica de arreglo de acceso de datos DAA 111 (Data Access Arrangement por sus siglas en ingles), la cual es una interfaz que permite la transmisión y recepción de datos entre el sistema 100 y la red telefónica 112. Esta unidad 111 es controlada directamente por la unidad maestro 101 de manera que es posible conectar, desconectar, hacer o recibir llamadas telefónicas, etc. a través de la unidad periférica de arreglo de acceso de datos DAA 111 al detectarse un comando de voz correspondiente. La unidad periférica DAA 111 está integrada por un dispositivo DAA (Data Access Arrangement) 104 que sirve de interfaz entre la unidad maestro 101 con la RTC 112 y además, está complementada con una etapa de amplificación 105 para la interacción y compatibilidad con un altavoz telefónico. A través del dispositivo DAA 104, se realiza toda la transmisión de información como puede ser voz, multi-frecuencia de tono dual DTMF (Dual-Tone Multi-Frequency por sus siglas en inglés), etc. entre el sistema 100 y la RTC 112. La unidad maestro 101 se encarga de emitir los tonos DTMF al detectarse los comandos de voz correspondientes, los cuales son transmitidos a través de la unidad periférica DAA 111 para entablar comunicación con alguna otra persona en el otro lado de la red telefónica. Por ejemplo, cuando el sistema detecta (por parte de un usuario) cada comando de voz correspondiente que representa cada dígito que integra un número telefónico (Ejemplo: si el número es 24871600, el usuario tiene que decir las palabras "dos", "cuatro", "ocho", "siete", "uno", "seis", "cero", "cero", siempre y cuando se hayan registrado dichas palabras como comandos), el sistema almacena dicho número en memoria temporal, ya sea para que al recibir una orden de voz correspondiente realice la operación de almacenar dicho número en la memoria del sistema para un uso posterior, y en donde se puede almacenar en la memoria del sistema una pluralidad de números telefónicos por cada usuario; o para que al recibir la orden de voz correspondiente se realice la operación de llamar o iniciar inmediatamente una llamada telefónica al convertir cada dígito en su respectivo tono DTMF para transmitirlo a través de la red telefónica conmutada e iniciar la conexión. Cuando un usuario almacena un número telefónico en memoria, el sistema informa la ubicación de donde fue almacenado dicho número telefónico por medio de señales audibles a través de la bocina 107, de manera que el usuario puede iniciar una llamada telefónica usando cualquier número telefónico almacenado en memoria diciendo tan solo las palabras o frases que coincidan con el comando de voz que represente al número de la ubicación en la que se almacenó dicho número telefónico, es decir, el usuario puede elegir por medio de algún comandos de voz correspondiente de entre una pluralidad de números telefónicos almacenados en memoria y a través de otra orden de voz correspondiente, se inicia la conexión o llamada telefónica al convertir cada dígito del número almacenado en su respectivo tono DTMF y posteriormente enviar dichos tonos a través de la RTC usando la unidad periférica de arreglo de acceso de datos DAA 111. Otras operaciones que se pueden realizar a través de los comandos de voz usando esta unidad periférica de arreglo de acceso de datos DAA 111 son la de conectarse o desconectarse a la RTC, marcar al último número discado (función comúnmente conocida como "redial"), informar por medio de señales audibles el número telefónico que se esta diciendo o que se ha seleccionado, eliminar de la memoria algún número telefónico almacenado y seleccionado, y/o eliminar el último dígito de un número telefónico que se ha dicho. Todas estas operaciones son solicitadas o invocadas por medio de los diferentes tipos de órdenes o comandos de voz que se explicarán posteriormente.
Para facilitar la comunicación telefónica del usuario, al sistema de la presente invención 100 se le integra un dispositivo de altavoz telefónico 120 utilizando una etapa de amplificación 105 que mejora y limpia la transmisión. El altavoz telefónico 120 va comunicado o conectado directamente con la unidad periférica de arreglo de acceso de datos DAA 111 y tiene la función de permitir al usuario realizar llamadas telefónicas sin la necesidad de tocar o sostener algún artefacto como puede ser un auricular, es decir, un modo manos-libres. La unidad periférica de arreglo de acceso de datos DAA 111 realiza toda la interfaz, amplificación y concordancia entre la RTC 112 y el altavoz telefónico 120. El altavoz utilizado puede estar integrado total e internamente al sistema o ser externo. La integración de un altavoz telefónico 120 interno al sistema consiste en una unidad especial 106 que realiza el procesamiento necesario de altavoz telefónico (reducción de ruido, cancelación de eco, etc.) y que se encuentra conectada directamente a la etapa de amplificación 105 que pertenece a la unidad de arreglo de acceso de datos 111 y en donde todas estas unidades se encuentran dentro del mismo gabinete contenedor; la bocina 109 y micrófono 110 correspondientes a esta unidad especial 106 pueden ser la misma bocina 107 y micrófono 108 utilizados por el sistema para las funciones explicadas anteriormente, es decir, las funciones compartirían un mismo dispositivo; esto se lograría por medio de un mezclador de audio 130 (no mostrado en las figuras) por cada pluralidad de bocinas y cada pluralidad de micrófonos para permitir compartir las funciones de cada pluralidad de dispositivo de audio en un solo dispositivo. Un altavoz telefónico 120 independiente o externo consiste en conectar directamente a la unidad periférica de arreglo de acceso de datos 111 un altavoz telefónico 120 externo o por fuera del gabinete contenedor; dicho altavoz telefónico extemo consiste en una unidad especial 106 a la que van conectados una bocina 109 y un micrófono 110 independientes a los que usa la unidad maestro 101 como lo muestra la FIG.1. De esta manera se puede integrar la función de un altavoz telefónico al sistema de la presente invención para realizar conversaciones telefónicas sin utilizar las manos (manos-libres) y que la conversación pueda ser hecha por varias personas sin necesidad de auriculares.
Del mismo modo, los niveladores de potencia, o también conocidos como "dimmer", los cuales fueron mencionados anteriormente pueden estar integrados dentro o fuera del mismo gabinete contenedor para lograr que la funcionalidad del sistema sea versátil.
Como se explicó anteriormente, la unidad maestro 101 puede registrar las comandos de voz de dos formas: la primera forma es aquella en la que los comandos de voz son registrados digitalmente desde la configuración inicial del sistema como puede ser con la configuración inicial de firmware estableciendo muestras digitales de las palabras o frases que se desean utilizar como comandos de voz. La segunda forma es aquella en donde se reciben entradas de sonido como palabras o frases que se desean utilizar como comandos de voz, las cuales son dichas por un usuario a través del micrófono 108, en donde dichas muestras son digitalizadas, grabadas y ubicadas por la unidad maestro 101 en la memoria del mismo y en donde se le informa al usuario por medio de señales audibles a través de la bocina 107 la ubicación en la que se almacena dicho comando. La forma en que se registrarán y ubicarán los comandos de voz dependerá de la configuración inicial de firmware y que se explicará posteriormente. Todos los comandos son almacenados o registrados en un destino especificado o ubicación para que posteriormente, cada vez que la unidad maestro 101 escuche a través del micrófono 108 una entrada de sonido substancialmente semejante al comando de voz previamente registrado, ésta le asigna una coordenada basándose en el tipo de comando de voz (los tipos de comandos de voz se explicarán posteriormente) y en su ubicación. Cada coordenada apunta a una operación específica, es decir, cada ubicación en memoria representa una operación. De esta manera se invocan las operaciones y una vez conocida dicha operación, la unidad maestro envía las señales a las unidades periféricas encargadas de la tarea a realizar. Así mismo, se indica por medios visuales (no mostrados en las figuras) y/o sonoros 107 el tipo de operación que se esta realizando. El sistema puede reconocer y trabajar con las voces de cada uno de una pluralidad de usuarios que conozcan el vocabulario o totalidad de comandos registrados desde la configuración de firmware del sistema o que hayan registrado los comandos con su voz a través del micrófono 108.
Por otro lado, para reducir la cantidad de errores producidos por falsas detecciones que ocurren comúnmente en los sistemas de control por voz existentes en el estado de la técnica, se ideó un método para el control del funcionamiento del sistema, el cual está basado en secuencias jerárquicas de comandos de voz, en donde se obtiene una gran funcionalidad y versatilidad con cada comando de voz. Para una mayor compresión del método y de la forma en que trabaja el sistema, en la presente descripción se le asignará un nivel jerárquico y/o un nombre a cada tipo de comando, sin embargo, un técnico en la materia apreciará que dicha asignación no pretende de forma alguna limitar el alcance de la presente invención y que simplemente pretende permitir un cabal comprensión de la misma.
En la FIG.2 se muestran la forma en que se pueden agrupar los comandos de voz para los diferentes modos de operación que puede tener el sistema (que se explicarán posteriormente) de la presente invención por cada uno de una pluralidad de usuarios, es decir, puede haber igual cantidad de estos diagramas que la cantidad de usuarios que tenga el sistema.
Dichos modos de operación definen cómo deben de ser detectados los comandos de voz para invocar o demandar alguna operación. En un primer modo de operación, el sistema funciona con base en comandos estructurados en forma secuencial, de tal forma que les llamaremos Comandos Secuenciales 21. En el segundo modo de operación, el sistema funciona con base en comandos cuya operación no depende de una secuencia, por lo que los llamaremos Comandos Inmediatos 22. No obstante los términos Comandos Secuenciales y Comandos Inmediatos no pretenden de forma alguna limitar el alcance de la presente invención ya que dichos términos simplemente tienen la finalidad de hacer más clara la descripción de la forma de funcionamiento del sistema de conformidad con la presente invención. El sistema puede trabajar, ya sea en el primer modo de operación, en el segundo modo de operación o en una combinación de ambos modos de operación dependiendo de la configuración del sistema.
Como se mencionó anteriormente, en el primer modo de operación el sistema trabaja usando los Comandos Secuenciales 21, de manera que la forma de operación es basándose en secuencias jerárquicas de estos comandos en donde una vez iniciada una secuencia al detectarse el comando de voz con mayor nivel jerárquico, el sistema espera escuchar por un tiempo definido algún comando de voz posterior, es decir, de una jerarquía inferior (lo cual será explicado a detalle posteriormente), y correspondiente a la misma secuencia que el comando previamente dicho, de tal manera que una vez terminada de ser dicha la secuencia, el sistema realiza la operación correspondiente.
En cambio, cuando el sistema esta trabajando usando los Comandos Inmediatos 22, es decir, en el segundo modo de operación, una vez detectado alguno de estos comandos, entonces la operación invocada por dicho comando se realiza sin que el sistema espere por algún otro comando, es decir, no dependen de una secuencia jerárquica. Asimismo, los diagramas de los Comandos Secuenciales 21 y los Comandos Inmediatos 22 además de representar la forma en que deben estructurarse dichos comandos para ser dichos por el usuario para realizar operaciones, también representan la forma en que se agrupan en la memoria del microcontrolador de la unidad maestro 101 la pluralidad de comandos. No obstante, un técnico en la materia podrá notar que la cantidad de comandos mostrados en los diagramas de los Comandos Secuenciales 21 y los Comandos Inmediatos 22 puede variar sin afectar el funcionamiento de la presente invención.
En el caso de los Comandos Sécuenciales 21, dependiendo de la ubicación en que se registró cada comando (ya que se le informa al usuario la ubicación en la que fueron registradas las muestras de las palabras o frases ya sea durante la configuración inicial o durante el registro de dichas palabras o frases por parte del usuario, como se explicó anteriormente), es como se le dará a cada comando de voz un valor jerárquico que determinará la secuencia de comandos que deben de ser reconocida por el sistema para realizar las diferentes operaciones. Con el fin de facilitar la comprensión de la estructura jerárquica de los Comandos Sécuenciales y como se muestra en la FIG.2, los Comandos Sécuenciales de voz 21 están compuestos por: Comando Cardinal 2000, Comandos Principales 2100, 2200, 2300, 2400, Comandos Secundarios 2110, 2120, 2130, 2140; 2210, 2220, 2230, 2240; 2310, 2320, 2330, 2340; 2410, 2420, 2430, 2440 y Comandos Extra 2111, 2112, 2113, 2114; 2121, 2122, 2123, 2124; 2131, 2132, 2133, 2134; 2141, 2142, 2143, 2144; 2211, 2212, 2213, 2214; 2221, 2222, 2223, 2224; 2231, 2232, 2233, 2234; 2241, 2242, 2243, 2244; 2311, 2312, 2313, 2314; 2321, 2322, 2323, 2324; 2331, 2332, 2333, 2334; 2341, 2342, 2343, 2344; 2411, 2412, 2413, 2414; 2421, 2422, 2423, 2424; 2431, 2432, 2433, 2434; 2441, 2442, 2443, 2444.
La secuencia jerárquica completa de los Comandos Sécuenciales de voz sigue el patrón:
Cardinal -> Principal -> Secundario -> Extra
En donde el Comando Cardinal 2000 es el de mayor valor jerárquico y aunque en el diagrama de Comandos Sécuenciales 21 sólo se muestra un solo Comando Cardinal, como el diagrama de Comandos Sécuenciales 21 y el diagrama de Comandos Inmediatos 22 representan la totalidad de comandos que puede tener cada usuario, entonces puede haber igual número de estos diagramas que la cantidad de usuarios que tenga el sistema, por lo que puede haber una pluralidad de Comandos Cardinales de los cuales cada uno marcará el inicio de sus respectivas secuencias jerárquicas de comandos de voz. El Comando Extra es el de menor valor jerárquico. No obstante, aunque la secuencia debe de seguir el patrón antes mencionado, para que el sistema realice una operación, dicho patrón puede ser de longitudes menores, es decir, se pueden realizar operaciones utilizando secuencias de diferentes longitudes como por ejemplo:
Cardinal -> Principal -> Secundario
ó
Cardinal -> Principal
En otras palabras, para que el sistema de la presente solicitud realice alguna operación estando en el primer modo de operación en donde utiliza los Comandos Secuenciales, entonces tiene que haber reconocido alguna secuencia de comandos de voz dicha por el usuario según la estructura de agrupamiento de los Comandos Secuenciales 21, sin importar la longitud de la secuencia, de manera que cada una de estas secuencias puede representar alguna operación.
Una forma más detallada de como están estructuradas las secuencias de Comandos Secuenciales se muestra a continuación:
Primeramente el Comando Cardinal 2000, luego un Comando Principal ya sea 2100, 2200, 2300 ó 2400 que esté relacionado con el Comando Cardinal previamente dicho según el diagrama de Comandos Secuenciales 21 , posteriormente un Comando Secundario ya sea 2110, 2120, 2130, 2140; 2210, 2220, 2230, 2240; 2310, 2320, 2330, 2340; 2410, 2420, 2430 ó 2440 que esté relacionado con el Comando Principal previamente dicho según el diagrama de Comandos Secuenciales 21 y un Comando Extra 2111, 2112, 2113, 2114; 2121, 2122, 2123, 2124; 2131, 2132, 2133, 2134; 2141, 2142, 2143, 2144; 2211, 2212, 2213, 2214; 2221, 2222, 2223, 2224; 2231, 2232, 2233, 2234; 2241, 2242, 2243, 2244; 2311, 2312, 2313, 2314; 2321, 2322, 2323, 2324; 2331, 2332, 2333, 2334; 2341, 2342, 2343, 2344; 2411, 2412, 2413, 2414; 2421, 2422, 2423, 2424; 2431, 2432, 2433, 2434; 2441, 2442, 2443 ó 2444 que esté relacionado con el Comando Secundario previamente dicho según el diagrama de Comandos Secuenciales 21. No obstante, un técnico en la materia podrá notar que la cantidad de comandos que contiene cada nivel jerárquico puede variar sin limitar el alcance de la presente invención.
Por otra parte, con relación al segundo modo de operación, los Comandos de voz Inmediatos 22 no funcionan de forma jerárquica como los Comandos de voz Secuenciales 21, ya que este grupo de comandos puede realizar operaciones sin la necesidad de una secuencia jerárquica, es decir, se pueden realizar operaciones relacionadas con dichos Comandos Inmediatos, las cuales serán llevadas a cabo por el sistema después de detectar el comando de voz correspondiente sin que el sistema espere por algún otro comando. Como modalidad preferida, el uso de este modo de operación se realiza cuando las operaciones a realizar son de un tipo tal que requieran específicamente de este modo de operación con Comandos Inmediatos y no el modo de operación con Comandos Secuenciales, como por ejemplo estructurar un número telefónico para realizar una llamada, en donde se requiere que cada operación, como la de guardar cada dígito del número telefónico en memoria temporal, se realice una vez detectado el comando que representa dicha operación y sin seguir una secuencia que en este caso agotaría muchos de los recursos de la unidad maestro 101, ya que se requieren grandes cantidades de memoria para tal propósito.
Como se dijo anteriormente, los Comandos Inmediatos de voz 22 no necesitan de una secuencia jerárquica para realizar alguna operación, es decir, en el momento en el que el sistema detecta alguno de estos comandos, éste realizará la operación relacionada con dicho comando. Una vez que el equipo está en el modo de operación con Comandos Inmediatos, el sistema reconocerá los Comandos Inmediatos de voz, es decir, un usuario puede decir cualquier Comando Inmediato correspondiente y si el sistema lo detecta, el equipo realizará la operación perteneciente o relacionada con dicho comando sin seguir una secuencia jerárquica. En la FIG.2 se muestra el diagrama de órdenes que describe la estructura de los Comandos Inmediatos de voz 22 y la forma en que están agrupados. En dicho diagrama se muestra la pluralidad de Comandos Inmediatos 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212 donde cada comando puede realizar una operación y en donde un técnico en la materia podrá notar que la cantidad de Comandos Inmediatos puede variar sin limitar el alcance de la presente invención. Asimismo, en dicho diagrama de Comandos Inmediatos 22 se muestra el Comando de Disparo (trigger) 200, el cual es un comando de voz cuya función cuando el sistema trabaja por default en el segundo modo de operación (con Comandos Inmediatos), es la de evitar falsas detecciones.
El sistema de la presente invención tiene la capacidad de alternar entre los modos de operación antes mencionados.
Si el sistema se encuentra trabajando en el primer modo de operación con Comandos Secuenciales 21 y se desea cambiar al segundo modo de operación con Comandos Inmediatos 22, esto se puede realizar invocando al Comando de Disparo (trigger) 200, el cual además de la función de evitar falsas detecciones, se puede relacionar desde la configuración inicial con cualquier Comando Secuencial, de tal forma que al invocar dicho Comando Secuencial se iniciará el modo de operación con base en Comandos Inmediatos.
El Comando de Disparo 200, puede ser asignado a cualquier Comando Secuencial como se explico anteriormente, es decir, el sistema puede estar configurado para que, por ejemplo, la operación de un Comando Extra este relacionada con el comando de Disparo para cambiar de modo de operación, de manera que cada vez que se invoque dicho Comando Extra, como se le asigno la función del Comando de Disparo, su operación consistirá en inicializar el modo de operación con los Comando de voz Inmediatos. La asignación de dicha función se realiza en una configuración previa. Del mismo modo, a un Comando Inmediato se le puede asignar la operación de cambiar de modo de operación para que el sistema trabaje con los Comandos Secuenciales y que ya se explicó anteriormente.
Cualquier comando o secuencia de comandos de voz, al ser dicha correctamente por el usuario, tiene la capacidad de realizar alguna operación.
Para que el sistema realice una operación, dependiendo del modo de operación en el que se encuentre, ya sea utilizando Comandos Secuenciales o Inmediatos, el usuario debe proporcionar las entradas de sonido, tales como palabras o frases, que coincidan con algún comando o secuencia de comandos (siguiendo el orden jerárquico) respetando la estructura en que están agrupados según los diagramas de órdenes 2. Cada vez que se detecte un comando o secuencia de comandos, el sistema se lo hará saber al usuario a través de señales audibles y/o visibles 107.
La FIG 2 muestra como está estructurado el diagrama de órdenes 2 para que los comandos sean dichos por cada uno de una pluralidad de usuarios y realizar operaciones. Dicho diagrama, así mismo representa el orden en que se van registrando en memoria las palabras o frases ingresadas por el usuario o previamente desde firmware; este diagrama de órdenes 2 es la parte más representativa del funcionamiento del sistema que esta muy relacionado con el método de funcionamiento que se explicará posteriormente. Por ejemplo, para que el usuario haga que el sistema realice la operación que se encuentra en 2233, como por ejemplo, encender la luz del jardín, el usuario tiene que decir en forma de secuencia los comandos registrados en las ubicaciones siguientes: CARDINAL 2000→ PRINCIPAL 2200→ SECUNDARIO 2230→ EXTRA 2233 En otras palabras, para realizar la operación que hay en la ubicación 2233, el usuario tiene que decir correctamente y en orden la secuencia de palabras que se registraron en las ubicaciones CARDINAL 2000, PRINCIPAL 2200, SECUNDARIO 2230 y EXTRA 2233 respectivamente. Cada vez que el usuario haya dicho correctamente cada palabra o frase, el sistema lo informará por medio de una señal visible y/o audible 107.
Del mismo modo y como otro ejemplo, para que un usuario haga que el sistema realice la operación que se encuentran en la ubicación 203 perteneciente a los Comandos Inmediatos, entonces primeramente el sistema debe de estar en el modo de operación con Comandos Inmediatos en donde si el usuario dice correctamente el Comando Inmediato 203, entonces el sistema realizará la operación perteneciente a dicho comando como puede ser registrar en memoria temporal el número "3" para estructurar un número telefónico y/o enviar información a través del puerto de comunicación serial 1 3 (que se explicará posteriormente) para activar un dispositivo de otra tecnología, etc. Cabe mencionar que el diagrama de órdenes 2 muestra todos los comandos de voz que pueden ser detectados por el sistema por usuario, es decir, algún otro usuario tendría el mismo diagrama de órdenes con las mismas operaciones y lo único que cambiaría serian las palabras o comandos utilizados, es decir, cada usuario puede tener un vocabulario diferente, sin embargo, el sistema sigue el patrón mostrado en los diagramas de la FIG. 2. Como por ejemplo, un usuario puede tener registrada la palabra "jardín" en la ubicación 2233 (explicado anteriormente), mientras otro usuario puede tener registrada la palabra "exterior" en la misma ubicación 2233.
El diagrama de órdenes 2, es el patrón que se debe de seguir para estructurar las secuencias de comandos, así mismo, representa la forma en que es ubicado en memoria cada comando y también muestra la ubicación de cada operación a realizar para que pueda llevarse a cabo tras detectarse el comando o secuencia de comandos correspondiente. Ambos tipos de órdenes o comandos (Secuenciales e Inmediatas) pueden seguir los mismos métodos de registro, ya sea en donde el usuario dice la palabra deseada o desde la configuración inicial de firmware (explicado anteriormente).
Cada orden de voz tiene una función, ya sea para invocar una operación directamente o para permitir la detección de otro grupo u otro nivel jerárquico de órdenes o comandos de voz. Cuando el sistema esta en funcionamiento escuchando por entradas de sonido por parte de los usuarios para detectar algún comando de voz correspondiente, el sistema compara esta entrada con los comandos correspondientes que ya están registradas y en base a un nivel de tolerancia configurable por el usuario, el sistema acepta o rechaza la entrada de sonido, de manera de que si es aceptada dicha entrada de sonido, el sistema avanza al siguiente nivel de la secuencia jerárquica, es decir, a un nivel jerárquico inferior (excepto en los Comandos Inmediatos donde no se trabaja por jerarquías), y además registra la ubicación del comando con el que se comparó y aceptó la entrada de sonido para conocer la operación que se podría realizar o para conocer el grupo de comandos que puede decir el usuario posteriormente para ser detectados. Dichas operaciones que s peguen realizar ya fueron explicadas anteriormente, las cuales dependen de las diferentes unidades periféricas, así como del puerto de comunicación serial, en donde cada una de estas operaciones esta relacionada desde la configuración inicial de firmware con algún comando de voz, ya sea Comando Secuencial o Comando Inmediato, según los diagramas 2, de manera que al ser detectados dichos comandos, se realizarán las operaciones correspondientes. Las operaciones que realiza el sistema de la presente invención pueden ser asignadas en cualquier ubicación de memoria siguiendo el patrón con el que están agrupados los Comandos Secuenciales 21 e Inmediatos de voz 22. En el caso de los Comandos Secuenciales y como modalidad preferida se opta por agrupar cada tipo de operación con cierta semejanza en cada grupo de Comandos Secuenciales, como por ejemplo, las operaciones que el sistema realiza gracias a la unidad periférica de salidas generales 103 (en donde cada salida independiente puede representar una operación) pueden ser asignadas dentro del Comando Secundario 2130 y como producto de su ramificación, dé como resultado que al detectarse el Comando Extra 2131 se active o desactive la primera salida, la siguiente salida al detectarse el Comando Extras 2132, la siguiente salida en la ubicación del Comando Extra 2133 y la siguiente salida en el Comando Extra 2134, así mismo, al invocarse el mismo Comando Secundario 2130 se puede dar como resultado que el sistema realice la operación grupal de activar o desactivar todas las salidas de la unidad periférica de salidas generales 103 que se encuentren dentro o que sean producto de la ramificación de dicho Comando Secundario según la estructura de los Comandos Secuenciales 21. Cabe mencionar que éste es un ejemplo, en donde un técnico en la materia podrá apreciar que la ubicación de cada operación puede ser diferente sin afectar al funcionamiento del sistema de la presente invención.
Hasta este punto todas las operaciones que realiza el sistema son acciones que toman un tiempo determinado en llevarse a cabo y una vez concluida la operación el sistema sigue trabajando en otros pasos. Un tipo de operación especial que no se ha mencionado son las operaciones que requieren un paro por voz que llamaremos operaciones continuas o de carácter continuo. Estas operaciones, al ser invocadas, realizan su operación continua e indefinidamente hasta que son detenidas al detectarse un comando de voz correspondiente que llamaremos Comando de Paro y que cada uno de la pluralidad de usuarios puede tener uno de estos Comandos de Paro. Estos Comandos de Paro son registrados de la misma forma en que se registran todos los demás comandos, es decir, desde la configuración inicial de firmware o cuando el usuario dice a través del micrófono 108 la palabra o frase que será el Comando de Paro y el sistema tomará una muestra representativa y le asignará una ubicación en memoria especifica para la operación de paro. Dicha ubicación no se muestra en la FIG. 2. El sistema se puede configurar previamente para seleccionar que operación se desea que sea de carácter continuo. Por ejemplo, si se configura el sistema para que la operación invocada por el Comando Extra 2424 cambie el canal de una televisión incrementándolo y además se configura para que la operación sea de carácter continuo o detenida por el Comando de Paro, entonces al ser invocada o solicitada dicha operación al detectarse el comando correspondiente, ésta se iniciará y continuará realizándose, es decir, el sistema cambiará el canal de la televisión incrementándolo continua e indefinidamente hasta que el sistema detecte el Comando de Paro. Asimismo, en las operaciones de la unidad periférica de salidas generales 103, donde además se integran niveladores de potencia como se explicó anteriormente, se requiere del Comando de Paro para detener la operación de dicho nivelador de potencia, de manera que el nivel se ajustará en el punto en el que el usuario decida detener la operación al decir la palabra que represente al Comando de Paro.
El puerto de comunicación serial 113 es una unidad conectada directamente a la unidad maestro 101 y tiene la función de permitir la comunicación entre la unidad maestro con algún microcontrolador, alguna computadora y/o alguna unidad periférica, etc. Asimismo, permite la compatibilidad con otras tecnologías que utilicen el mismo estándar de comunicación, el cual puede ser el estándar RS232. En la FIG.5 se muestra un ejemplo de comunicación con otras tecnologías 500. Estas tecnologías compatibles pueden ser Zigbee, UPB, X10, Insteon, etc. en donde es necesario además del puerto de comunicación serial 113, una interfaz 501 que realice la función de enlace o traductor entre el puerto 113 (que a su vez esta conectado a la unidad maestro 101) y los diferentes dispositivos que integran la red de cada tecnología como por ejemplo el dispositivo 510 que podría ser un contacto seco o un nivelador de potencia y en donde puede estar conectado alámbrica o inalámbricamente a su red de comunicación. Dicha interfaz 501 estará conectada directamente hacia el puerto de comunicación serial 113 y en donde dicha conexión puede hacerse alámbrica o inalámbricamente. Dado que estas tecnologías funcionan por direcciones, donde cada dispositivo dentro de su red tiene una dirección que lo identifica, la forma en que se realizarán operaciones a través del puerto de comunicación serial es configurando el sistema de la presente invención para que se transmita toda la información y direcciones necesarias para realizar la función correspondiente, este información es enviada a través del puerto 113 tras ser invocada por alguna orden o comando de voz. Por ejemplo, para la compatibilidad con la tecnología X10, el puerto de comunicación serial 113 tendría conexión directa con alguna interfaz X10, como por ejemplo el modulo TW523 de dicha tecnología X10, que sea capaz de traducir las códigos transmitidos (bajo un estándar) de la unidad maestro 101 en códigos compatibles con X10 y la información que se recibiría a través de la red X10 sea compatible con el estándar de la unidad maestro 101. Por ejemplo, en la ubicación 2313 de la FIG.2 que asimismo representa una operación, se puede asignar la dirección del dispositivo 03 o Key code 03 de la tecnología X10, dando como resultado que cada vez que se invoque dicha operación, el sistema envíe la orden de ΌΝ" o encendido a dicho dispositivo si este se encuentra apagado o la orden de OFF" o apagado si este se encuentra encendido, la unidad maestro 101 conocerá el estado de dicho dispositivo 03 porque la comunicación entre la tecnología X10 y la unidad maestro 101 es bidireccional. La dirección de "Home code", necesaria en X10, se puede configurar previamente. Asimismo, además de las operaciones de encendido y/o apagado ON/OFF se pueden asignar operaciones de nivelación de potencia o dimming/brighting las cuales requieren del modelo de operación continua o de carácter continuo, en donde la información necesaria para reducir o aumentar el nivel de la potencia en el circuito se transmitirá constante e indefinidamente hasta que un Comando de Paro detenga la operación al ser detectado. Esta nivelación de potencia puede ser aplicada a la iluminación de algún inmueble para controlar los niveles de luminosidad. Asimismo, la transmisión de códigos compatibles con la tecnología se puede hacer para un solo dispositivo o una pluralidad de dispositivos al enviar varios códigos en una sola operación. De esta forma se pueden crear escenarios a través de las operaciones consecutivas o macros en donde se enviaría una pluralidad de códigos o key S.U IW / V V V
25 codes (según la tecnología X10) consecutivamente, la cantidad de códigos es configurable por el usuario. Asimismo, se podría asignar el código de AIILightsOn, que enciende o pone en estado de ON a todos los dispositivos que se encuentren dentro de la red, a alguna operación del sistema, como por ejemplo la 2310 usando Comandos Secuenciales o en la 212 usando Comandos Inmediatos para que cada vez que sea detectado dicho comando se envíe la información y la operación se realice.
Para una fácil comunicación con el usuario, el funcionamiento inicial del sistema de la presente invención es a base de menús sonoros que pueden ser seleccionados usando entradas manuales 116 como cualquier botón o pantalla táctil. En cada menú se realizan diferentes configuraciones, como puede ser la opción de "Registrar comandos" que permite al usuario introducir las palabras o frases que desea para invocar operaciones en caso de que corresponda este tipo de registro (explicado anteriormente). Otra opción de menú es la de "Creación de escenarios e ingreso de códigos infrarrojos", dicha opción permite al usuario modificar una operación normal a una operación de carácter continuo, así como introducir y almacenar los códigos infrarrojos que serán utilizados por el sistema. Dentro de la unidad maestro 101 se encuentran programadas todas las opciones de menú del sistema que hacen posible, por parte del usuario, instalador y/o operador, configurar y operar el sistema por medio de las entradas manuales 116, que se encuentran conectadas directamente a la unidad maestro 101, las cuales pueden ser botones, pantallas con funcionamiento a base de tacto, pantallas, etc. Las opciones de menú del sistema pueden ser como por ejemplo "Ajusfar el nivel" donde se ajusta el nivel de tolerancia al escuchar los comandos, ya sean Secuenciales o Inmediatos, "Registrar comandos" en donde el usuario ingresa los comandos de voz a través del micrófono en caso de que esta forma de registro corresponda, "Creación de escenarios e ingreso de códigos infrarrojos" en donde se crean escenarios y se graban los códigos infrarrojos para el control de equipo, como por ejemplo, de audio y video, "Eliminar comandos" en donde se borran los comandos que se hayan registrado a través del micrófono en caso de que no se hayan registrado correctamente o que se deseen cambiar, así como la función de "Escuchar" opción principal en donde el sistema entra en modo de operación con Comandos Secuenciales o Inmediatos, según la configuración.
En la FIG.3A se muestra en un diagrama de flujo 350 el método del funcionamiento del sistema 100 en su modalidad de operación a partir de Órdenes o Comandos Secuenciales de voz, una vez que se han registrado y ubicado en memoria dichos comandos en donde en el paso 300 se ingresa al modo de funcionamiento del sistema con base en Comandos Secuenciales. El ingreso se puede realizar por medio de las entradas manuales 116 (configurando el sistema desde firmware) o por medio de una operación invocada por algún Comando Inmediato.
En el paso 301 se inicia una secuencia jerárquica en donde el sistema espera y escucha en el ambiente, a través del micrófono 108, y por un tiempo indefinido por cualquier entrada de sonido, tal como una palabra o frase dicha por un usuario, de manera que cuando el sistema detecta dicha entrada de sonido, en el paso 303 la compara con los Comandos Secuenciales de voz registrados previamente dentro del nivel jerárquico de mayor jerarquía, que en este caso se trata de los Comandos Cardinales, para tomar la decisión de aceptar o descartar dicha entrada de sonido, en donde el sistema acepta aquellos sonidos que son sustancialmente semejantes al tener un nivel alto de semejanza a alguno de los Comandos Cardinales registrados previamente, dicho nivel de semejanza es configurado previamente y lo llamaremos nivel de tolerancia, en donde si la entrada de sonido supera el nivel de tolerancia significa que dicha entrada es aceptada por el sistema. Dicho nivel de tolerancia es utilizado en todos los pasos en donde el sistema escucha por algún comando de voz; de tal forma que si en este paso 303 la entrada de sonido detectada por el sistema no supera este nivel de tolerancia al ser comparada con cada uno de la pluralidad de Comandos Cardinales, el sistema rechaza dicha entrada de sonido y regresa al paso 301 en donde vuelve al estado de esperar y escuchar para la detección de entradas de sonido hasta que el sistema detecte alguna entrada que supere el nivel de tolerancia al compararse con alguno de los Comandos Cardinales.
Si en el paso 303 alguna entrada de sonido detectada por el sistema coincide al superar el nivel de tolerancia al compararse con alguno de los Comandos Cardinales previamente registrados, el sistema acepta dicha entrada de sonido y avanza al siguiente nivel de la secuencia jerárquica (un nivel de jerarquía inferior), en donde en el paso 304 el sistema espera y escucha en el ambiente, a través del micrófono 108 y por un tiempo previamente establecido, por alguna entrada de sonido, como alguna palabra o frase dicha por un usuario, para detectar alguna entrada que supere el nivel de tolerancia al compararse con alguno de los comandos de voz del nivel jerárquico recién establecido según la estructura de los Comandos de voz Secuenciales 21 , que en este caso se trata del grupo de Comandos Principales relacionados con el Comando Cardinal recién detectado.
El sistema está en estado de escuchar para detectar alguna entrada de sonido que supere el nivel de tolerancia al compararse con algún comando del grupo de Comandos Principales relacionado con el Comando Cardinal previamente detectado y en donde una vez que el sistema detecta cualquier entrada de sonido, en el paso 308 el sistema compara dicha entrada de sonido con cada Comando Principal del grupo correspondiente y se realiza la decisión de aceptar o rechazar dicha entrada de sonido (como palabras o frases dichas por el usuario) detectada con base en el nivel de tolerancia. El sistema se encuentra configurado de tal forma que el tiempo de espera en esta etapa es finito y definido previamente, de manera que si el sistema no detecta ninguna entrada de sonido que supere el nivel de tolerancia al ser comparada con cada uno de los Comandos Principales correspondientes dentro del tiempo establecido, el sistema reinicia la secuencia jerárquica posesionándose en el paso 301 mencionado anteriormente.
Si en el paso 308 la entrada de sonido coincide al superar el nivel de tolerancia al compararse con algún Comando Principal del grupo correspondiente dentro del tiempo establecido, entonces el sistema acepta dicha entrada y además avanza al siguiente nivel jerárquico de la secuencia jerárquica (un nivel de jerarquía inferior), en donde en el paso 309 el sistema espera y escucha en el ambiente, a través del micrófono 108 y por un tiempo previamente establecido, por alguna entrada de sonido, como alguna palabra o frase dicha por un usuario, para detectar alguna entrada que supere el nivel de tolerancia al compararse con alguno de los comandos de voz del nivel jerárquico recién establecido según la estructura de los Comandos de voz Secuenciales 21 , que en este caso se trata del grupo de Comandos Secundarios relacionados con el Comando Principal recién detectado.
El sistema está en estado de escuchar para detectar alguna entrada de sonido que supere el nivel de tolerancia al compararse con algún comando del grupo de Comandos Secundarios relacionado con el Comando Principal previamente detectado y éste a su vez esta relacionado con el último Comando Cardinal detectado y en donde una vez que el sistema detecta cualquier entrada de sonido, en el paso 311 el sistema compara dicha entrada de sonido con cada Comando Secundario del grupo correspondiente y se realiza la decisión de aceptar o rechazar dicha entrada de sonido (como palabras o frases dichas por el usuario) detectada con base en el nivel de tolerancia. El sistema se encuentra configurado de tal forma que el tiempo de espera en esta etapa es finito y definido previamente, de manera que si el sistema no detecta ninguna entrada de sonido que supere el nivel de tolerancia al ser comparada con cada uno de los Comandos Secundarios correspondientes dentro del tiempo establecido, el sistema reinicia la secuencia jerárquica posesionándose en el paso 301 mencionado anteriormente
El sistema de la presente invención puede configurarse además para que cuando en el paso 311 el sistema no acepte ningún comando de voz que supere el nivel de tolerancia al compararse con los Comandos Secundarios y regrese al paso 301, antes de regresar a dicho paso 301 realice una operación en un paso 310 (no mostrado en las Figuras) exclusiva al Comando Principal recién detectado que estaba activo en dicha secuencia que se estaba ejecutando.
Si en el paso 311 la entrada de sonido coincide al superar el nivel de tolerancia al compararse con algún Comando Secundario del grupo correspondiente dentro del tiempo establecido, entonces el sistema acepta dicha entrada y además el sistema avanza al siguiente nivel jerárquico de la secuencia jerárquica (un nivel de jerarquía inferior), en donde en el paso 312 el sistema espera y escucha en el ambiente, a través del micrófono 108 y por un tiempo previamente establecido, por alguna entrada de sonido, como alguna palabra o frase dicha por un usuario, para detectar alguna entrada que supere el nivel de tolerancia al compararse con alguno de los comandos de voz del nivel jerárquico recién establecido según la estructura de los Comandos de voz Secuenciales 21, que en este caso se trata del grupo de Comandos Extra relacionados con el Comando Secundario recién detectado.
El sistema está en estado de escuchar para detectar alguna entrada de sonido que supere el nivel de tolerancia al compararse con algún comando del grupo de Comandos Extra relacionado con el Comando Secundario previamente detectado que a su vez esta relacionado con el último Comando Principal detectado y éste a su vez esta relacionado con el último Comando Cardinal detectado y en donde una vez que el sistema detecta cualquier entrada de sonido, en el paso 314 el sistema compara dicha entrada de sonido con cada Comando Extra del grupo correspondiente y se realiza la decisión de aceptar o rechazar dicha entrada de sonido (como palabras o frases dichas por el usuario) detectada con base en el nivel de tolerancia. El sistema se encuentra configurado de tal forma que el tiempo de espera en esta etapa es finito y definido previamente, de manera que si el sistema no detecta ninguna entrada de sonido que supere el nivel de tolerancia al ser comparada con cada uno de los Comandos Extra correspondientes dentro del tiempo establecido, en el paso 316 el sistema realiza una operación exclusiva al Comando Secundario recién detectado, además el sistema se sube un nivel jerárquico de la secuencia jerárquica para que nuevamente se posicione en el paso 309 explicado anteriormente en donde el sistema espera y escucha por alguna entrada de sonido que coincida con algún Comando Secundario relacionado con el último Comando Principal detectado. De esta forma se crea un primer ciclo que llamaremos ciclo de Comandos Secundarios 390, en el cual, como se explica en los pasos 309 y 311 , el sistema puede seguir detectando y aceptando entradas de sonido que coincidan con algún Comando Secundario (dentro del grupo correspondiente) para realizar continuamente (sin tener que decir la secuencia jerárquica desde el inicio) operaciones exclusivas a dicho grupo de Comandos Secundarios, de manera de que si en el paso 311 el sistema descartó todas las entradas de sonido (que no hayan superado el nivel de tolerancia) una vez transcurrido el tiempo otorgado (como se explicó anteriormente), el sistema romperá el ciclo de Comandos Secundarios 390 al reiniciar completamente la secuencia jerárquica y posicionarse en el paso 301 explicado anteriormente. Si en el paso 314 la entrada de sonido coincide al superar el nivel de tolerancia al compararse con algún Comando Extra del grupo correspondiente dentro del tiempo establecido, entonces el sistema acepta dicha entrada y además en el paso 317 se realiza una operación exclusiva al Comando Extra recién detectado, además el sistema mantiene el mismo nivel jerárquico de la secuencia jerárquica para que nuevamente se posicione en el paso 312 explicado anteriormente en donde el sistema espera y escucha por alguna entrada de sonido que coincida con algún Comando Extra relacionado con el último Comando Secundario detectado. De esta forma se crea otro ciclo, que llamaremos ciclo de Comandos Extra 391, en el cual, como se explica en los pasos 312 y 314, el sistema puede seguir detectando y aceptando entradas de sonido que coincidan con algún Comando Extra (dentro del grupo correspondiente) para realizar continuamente (sin tener que decir la secuencia jerárquica desde el inicio) operaciones exclusivas a dicho grupo de Comandos Extra, de manera de que si en el paso 314 el sistema descartó todas las entradas de sonido (que no hayan superado el nivel de tolerancia) una vez transcurrido el tiempo otorgado (como se explicó anteriormente), el sistema romperá el ciclo de Comandos Extra 391 al regresar un nivel jerárquico de la secuencia jerárquica y posicionarse nuevamente en el paso 309 explicado anteriormente.
Una modalidad particular posterior al paso 314 en donde recién se acaba de romper el ciclo de Comandos Extra 391 se muestra en la FIG. 3B en donde la operación del paso 316 no se lleva a cabo, es decir, el sistema se posiciona en el paso 309 directamente después al paso 314.
Una modalidad particular a los pasos 301 y 304 es que si durante la ejecución de dichos pasos se detecta una interrupción o señal de entrada, a través de algún canal de la unidad maestro 101 como puede ser una llamada telefónica a través de la unidad periférica DAA 111, en el paso 307 (no mostrado en las figuras) se realizará una operación, como por ejemplo, el contestar la llamada telefónica, posteriormente se reinicia la secuencia jerárquica y después el sistema regresa al paso 301 explicado anteriormente.
Otra modalidad particular posterior a la operación realizada en el paso 317 se muestra en la FIG. 3C en donde el sistema se configuró para que dicha operación sea de carácter continuo y necesite de un Comando de Paro para poder detenerse y en donde en el paso 325 el sistema espera y escucha en el ambiente, a través del micrófono 108, y por un tiempo indefinido por cualquier entrada de sonido, tal como una palabra o frase dicha por un usuario, de manera que cuando el sistema detecta dicha entrada de sonido, en el paso 327 la compare con los comandos de voz registrados previamente como Comandos de Paro y se realiza la decisión de aceptar o rechazar dicha entrada de sonido (como palabras o frases dichas por el usuario) detectada con base en el nivel de tolerancia, de tal forma que si en este paso 327 la entrada de sonido detectada por el sistema no supera este nivel de tolerancia al ser comparada con los Comandos de Paro, el sistema rechaza dicha entrada de sonido y regresa al paso 325 en donde vuelve al estado de esperar y escuchar para la detección de entradas de sonido hasta que el sistema detecte alguna entrada que supere el nivel de tolerancia al compararse con alguno de los Comandos de Paro. Si en el paso 327 alguna entrada de sonido detectada por el sistema coincide al superar el nivel de tolerancia al compararse con alguno de los Comandos de Paro previamente registrados, el sistema acepta dicha entrada de sonido y además en el paso 328 se detiene la operación que se estaba realizando (de carácter continuo) para posteriormente posicionarse en el paso 312 explicado anteriormente.
Otra modalidad particular posterior a la operación realizada en el paso 316 se muestra en la FIG. 3D en donde el sistema se configuró para que dicha operación sea de carácter continuo y necesite de un Comando de Paro para poder detenerse y en donde en el paso 330 el sistema espera y escucha en el ambiente, a través del micrófono 108, y por un tiempo indefinido por cualquier entrada de sonido, tal como una palabra o frase dicha por un usuario, de manera que cuando el sistema detecta dicha entrada de sonido, en el paso 331 la compare con los comandos de voz registrados previamente como Comandos de Paro y se realiza la decisión de aceptar o rechazar dicha entrada de sonido (como palabras o frases dichas por el usuario) detectada con base en el nivel de tolerancia, de tal forma que si en este paso 331 la entrada de sonido detectada por el sistema no supera este nivel de tolerancia al ser comparada con los Comandos de Paro, el sistema rechaza dicha entrada de sonido y regresa al paso 330 en donde vuelve al estado de esperar y escuchar para la detección de entradas de sonido hasta que el sistema detecte alguna entrada que supere el nivel de tolerancia al compararse con alguno de los Comandos de Paro. Si en el paso 331 alguna entrada de sonido detectada por el sistema coincide al superar el nivel de tolerancia al compararse con alguno de los Comandos de Paro previamente registrados, el sistema acepta dicha entrada de sonido y además en el paso 332 se detiene la operación que se estaba realizando (de carácter continuo) para posteriormente posicionarse en el paso 309 explicado anteriormente.
En la FIG.4A se muestra en un diagrama de flujo 450 el método del funcionamiento del sistema 100 en su modalidad de operación a partir de Órdenes o Comandos Inmediatos de voz, una vez que se han registrado y ubicado en memoria dichos comandos.
En el paso 410 se ingresa al modo de funcionamiento del sistema con base en Comandos Inmediatos, el ingreso se puede realizar por medio de las entradas manuales 116 (configurando el sistema desde firmware) o por medio de una operación invocada por algún Comando Secuencial de manera que en el paso 412 el sistema detecta cualquier entrada de sonido por medio del micrófono 108, de manera que en el paso 413 se compara dicha entrada de sonido con el Comando de Disparo (explicado anteriormente) y se realiza la decisión de aceptar o rechazar las entradas de sonidos (como palabras o frases dichas por un usuario) detectadas por el sistema con base en el nivel de tolerancia, de manera que si el sistema no detecta ninguna entrada de sonido que supere el nivel de tolerancia al ser comparada con el Comando de Disparo correspondiente, se regresa al paso 412.
Si en el paso 413 la entrada de sonido coincide al superar el nivel de tolerancia al ser comparada con el Comando de Disparo y/o con algún Comando Secuencial que este relacionado con el Comando de Disparo (explicado anteriormente), entonces el sistema acepta dicha entrada, de manera que en el paso 416 el sistema espera y escucha en el ambiente, a través del micrófono 108, y por un tiempo indefinido por cualquier entrada de sonido, tal como una palabra o frase dicha por un usuario, de manera que cuando el sistema detecta dicha entrada de sonido, en el paso 417 se compara dicha entrada de sonido con alguno de los Comandos Inmediatos de voz correspondientes según la estructura de los Comandos Inmediatos de voz 22 de la FIG. 2, y se realiza la decisión de aceptar o rechazar las entradas de sonido (como palabras o frases dichas por un usuarios) detectadas por el sistema con base en el nivel de tolerancia, de manera que si el sistema no detecta ninguna entrada de sonido que supere el nivel de tolerancia al ser comparada con cada uno de los Comandos Inmediatos correspondientes, se regresa al paso 416.
Si en el paso 417 la entrada de sonido coincide al superar el nivel de tolerancia al ser comparada con algún Comando Inmediato, entonces en el paso 418 el sistema realiza la operación exclusiva a dicho comando para después posicionarse nuevamente en el paso 416 explicado anteriormente.
Adicionalmente, una modalidad particular posterior al paso 413 en donde el sistema acepta o rechaza la entrada de sonido al compararla con el Comando de Disparo se muestra en la FIG. 4B en donde el sistema realiza en el paso 415 una operación exclusiva al Comando de Disparo (además de la operación de cambio de modo de operación) y posteriormente se posicione en el paso 416 explicado anteriormente. Dicha operación se puede realizar dependiendo de la configuración previa del sistema.
Adicionalmente, una modalidad particular posterior a la operación realizada en el paso 418 se muestra en la FIG. 4C en donde dicha operación posiciona al sistema en el paso 412. Esto se hace para reducir el riesgo de operaciones realizadas por falsas detecciones.
Otra modalidad particular posterior a la operación realizada en el paso 418 se muestra en la FIG. 4D en donde el sistema se configuró para que dicha operación sea de carácter continuo y necesite de un Comando de Paro para poder detenerse y en donde en el paso 420 el sistema espera y escucha en el ambiente, a través del micrófono 108, y por un tiempo indefinido por cualquier entrada de sonido, tal como una palabra o frase dicha por un usuario, de manera que cuando el sistema detecta dicha entrada de sonido, en el paso 421 la compare con los comandos de voz registrados previamente como Comandos de Paro y se realiza la decisión de aceptar o rechazar dicha entrada de sonido (como palabras o frases dichas por el usuario) detectada con base en el nivel de tolerancia, de tal forma que si en este paso 421 la entrada de sonido detectada por el sistema no supera este nivel de tolerancia al ser comparada con los Comandos de Paro, el sistema rechaza dicha entrada de sonido y regresa al paso 420 en donde vuelve al estado de esperar y escuchar para la detección de entradas de sonido hasta que el sistema detecte alguna entrada que supere el nivel de tolerancia al compararse con alguno de los Comandos de Paro. Si en el paso 421 alguna entrada de sonido detectada por el sistema coincide al superar el nivel de tolerancia al compararse con alguno de los Comandos de Paro previamente registrados, el sistema acepta dicha entrada de sonido y además en el paso 422 se detiene la operación que se estaba realizando (de carácter continuo) para posteriormente posicionarse en el paso 416 explicado anteriormente.

Claims

REIVINDICACIONES
1. Un sistema de control por voz caracterizado porque comprende:
a) una unidad maestro que sintetiza, procesa y almacena entradas de sonido para emitir y/o recibir pulsos y/o información a través de una pluralidad de canales para realizar diferentes operaciones;
b) un micrófono para recibir entradas de sonido para su procesamiento por parte de la unidad maestro, en donde dicho micrófono está conectado a la unidad maestro;
c) una bocina conectada a la unidad maestro para la interacción del sistema con el usuario a través de señales audibles;
d) una unidad periférica infrarroja conectada a la unidad maestro para la recepción y envío de códigos infrarrojos para el control de equipo compatible con protocolos infrarrojos;
e) una unidad periférica de salidas generales que consiste en una etapa de potencia para cada uno de los por lo menos uno de la pluralidad de canales de la unidad maestro permitiendo que en las salidas de esta unidad se puedan conectar diferentes dispositivos eléctricos y/o electrónicos;
f) una unidad periférica de arreglo de acceso de datos (DAA) conectada a la unidad maestro para la interacción con la red telefónica conmutada (RTC); y g) un puerto de comunicación serial conectado a la unidad maestro para la interacción con otras tecnologías compatibles al permitir la transmisión y/o recepción de información bajo un estándar de comunicación serial.
2. El sistema de conformidad con la reivindicación 1 , caracterizado además porque la unidad periférica de salidas generales controla el encendido y/o apagado de una o varias luces al detectarse un comando de voz correspondiente.
3. El sistema de conformidad con la reivindicación 1 , caracterizado además porque la unidad periférica de salidas generales permite el control de actuadotes al detectarse un comando de voz correspondiente.
4. El sistema de conformidad con la reivindicación 3, caracterizado además porque los actuadores están implementados en válvulas para el control de flujo de fluidos al detectarse un comando de voz correspondiente.
5. El sistema de conformidad con la reivindicación 4, caracterizado además porque el fluido puede ser agua y/o gas.
6. El sistema de conformidad con la reivindicación 3, caracterizado además porque los actuadores están implementados en bombas.
7. El sistema de conformidad con la reivindicación 3, caracterizado además porque los actuadores están implementados en motores.
8. El sistema de conformidad con la reivindicación 7, caracterizado además porque los motores controlan la apertura y/o cierre de ventanas, puertas, persianas y/o cortinas al detectarse un comando de voz correspondiente.
9. El sistema de conformidad con la reivindicación 1 , caracterizado además porque se permite la creación de distintos escenarios combinando o relacionando las operaciones realizables a través de la unidad periférica de salidas generales, la unidad periférica infrarroja, la unidad de periférica de arreglo de acceso de datos (DAA) y/o el puerto de comunicación serial.
10. El sistema de conformidad con la reivindicación 1, caracterizado además porque por lo menos una salida de la unidad periférica de salidas generales tiene integrado un nivelador de potencia "dimmer".
11. El sistema de conformidad con la reivindicación 10, caracterizado además porque se nivela la potencia de luces, motores, bombas y/o válvulas al detectarse un comando de voz correspondiente.
12. El sistema de conformidad con la reivindicación 1 , caracterizado además porque la unidad periférica de arreglo de acceso de datos DAA incluye una etapa de amplificación para que se le integre un altavoz telefónico para entablar conversaciones del modo manos-libres.
13. El sistema de conformidad con la reivindicación 1, caracterizado además porque el sistema está contenido en un solo gabinete.
14. El sistema de conformidad con la reivindicación 12, caracterizado además porque el altavoz telefónico está integrado internamente al gabinete contenedor del sistema.
15. El sistema de conformidad con la reivindicación 14, caracterizado además porque se comparte un solo micrófono para las funciones del altavoz y para las del sistema.
16. El sistema de conformidad con la reivindicación 14, caracterizado además porque se comparte una sola bocina para las funciones del altavoz y para las del sistema.
17. El sistema de conformidad con la reivindicación 12, caracterizado además porque el altavoz telefónico esta integrado externamente al gabinete contenedor del sistema.
18. El sistema de conformidad con la reivindicación 10, caracterizado además porque cada nivelador de potencia puede estar integrado dentro o fuera del gabinete contenedor del sistema.
19. El sistema de conformidad con la reivindicación 1 , caracterizado además porque el sistema puede reconocer las voces de cada uno de una pluralidad de usuarios.
20. El sistema de conformidad con la reivindicación 1 , caracterizado además porque el sistema esta configurado adicionalmente para realizar operaciones de carácter continuo.
21. El sistema de conformidad con la reivindicación 20, caracterizado además porque cada operación de carácter continuo se realiza continua e indefinidamente y solo se detendrá hasta que se detecte un comando de voz correspondiente.
22. El sistema de conformidad con la reivindicación 1 , caracterizado además porque el sistema esta configurado adicionalmente para realizar a través de la unidad periférica infrarroja una pluralidad variable de operaciones infrarrojas consecutivas que se llamarán macros al detectarse un comando de voz correspondiente.
23. El sistema de conformidad con la reivindicación 22, caracterizado además porque la operación de macros puede ser detenida en cualquier momento al detectarse un comando de voz correspondiente.
24. El sistema de conformidad con la reivindicación 1 , caracterizado además porque el usuario puede conectarse o desconectarse a la Red Telefónica Conmutada en cualquier momento al detectarse un comando de voz correspondiente.
25. El sistema de conformidad con la reivindicación 1 , caracterizado además porque cuando el sistema detecta a los comandos de voz correspondientes a cada uno de los dígitos que integran un número telefónico, el sistema almacena dichos dígitos en memoria temporal.
26. El sistema de conformidad con la reivindicación 25, caracterizado además porque el sistema convierte los dígitos en sus respectivos tonos DTMF para enviarlos a través de la RTC para iniciar una llamada telefónica al detectarse un comando de voz correspondiente.
27. El sistema de conformidad con la reivindicación 25, caracterizado además porque el sistema almacena en la memoria del sistema dicho número telefónico al detectarse un comando de voz correspondiente.
28. El sistema de conformidad con la reivindicación 27, caracterizado además porque el sistema informa con señales audibles la ubicación en memoria de donde se almaceno el número telefónico al detectarse un comando de voz correspondiente.
29. El sistema de conformidad con la reivindicación 27, caracterizado además porque el sistema puede marcar a cualquier número telefónico almacenado en la memoria del sistema convirtiendo cada dígito del número telefónico en su respectivo tono DTMF para enviarlos a través de la RTC tras detectar el comando de voz correspondiente que represente el número de la ubicación en la que se almaceno dicho número telefónico.
30. El sistema de conformidad con la reivindicación 27, caracterizado además porque pueden almacenarse en la memoria del sistema una pluralidad de números telefónicos al detectarse un comando de voz correspondiente.
31. El sistema de conformidad con la reivindicación 25, caracterizado además porque el sistema esta configurado para que al detectar un comando de voz correspondiente, el sistema informe por medio de señales audibles cada dígito que integra al número telefónico que se éncuentra en memoria temporal.
32. El sistema de conformidad con la reivindicación 27, caracterizado además porque el sistema esta configurado para que al recibir una orden de voz correspondiente, el sistema informe por medio de señales audibles cada dígito que integra al número telefónico que se encuentra en la memoria del sistema.
33. El sistema de conformidad con la reivindicación 26 y 29, caracterizado además porque el sistema esta configurado para llamar al último número telefónico al que se llamó a través de la RTC al recibir una orden de voz correspondiente.
34. El sistema de conformidad con la reivindicación 1 , caracterizado además porque el sistema esta configurado para emitir las señales o códigos infrarrojos de manera individual o secuencial al detectarse un comando de voz correspondiente.
35. El sistema de conformidad con la reivindicación 1 , caracterizado además porque incluye una interfaz externa de otra tecnología para la comunicación y control de dispositivos de dicha tecnología (como puede ser la tecnología X10, Zigbee, etc.) al detectarse un comando de voz correspondiente.
36. El sistema de conformidad con la reivindicación 1 , caracterizado además porque la comunicación se hace bajo el estándar RS232.
37. El sistema de conformidad con la reivindicación 1 , caracterizado además porque el micrófono es inalámbrico.
38. El sistema de conformidad con la reivindicación 1 , caracterizado además porque el micrófono es alámbrico.
39. El sistema de conformidad con la reivindicación 9, caracterizado además porque los escenarios pueden ser invocados al detectarse un comando de voz correspondiente.
40. Un método de operación del sistema de conformidad con cualquiera de las reivindicaciones 1 a 39, en base a secuencias jerárquicas de longitudes variables de entradas de sonido, como palabras o frases, que coincidan con los comandos de voz o Comandos Secuenciales de voz que fueron registrados previamente en el sistema, con la capacidad de crear ciclos, para realizar operaciones a través de la unidad periférica infrarroja, unidad periférica de salidas generales, unidad periférica de arreglo de acceso de datos y/o el puerto de comunicación serial y en donde dicha secuencia jerárquica sigue el siguiente orden: Comandos Cardinales, Comandos Principales, Comandos Secundarios y finalmente Comandos Extras, donde cada nivel jerárquico puede estar comprendido por uno o una pluralidad de grupos de comandos y además cada secuencia posible representa una operación, dicho método está caracterizado porque comprende los pasos de: a) Iniciar una secuencia jerárquica en donde el sistema espera y escucha indefinidamente en el ambiente, a través del micrófono, por cualquier entrada de sonido, como palabras o frases por parte de un usuario, para detectar alguna entrada que coincida al superar el nivel de tolerancia al ser comparada con los comandos con mayor nivel jerárquico que en este caso se trata de los Comandos Cardinales^ y en donde si la entrada de sonido no coincide con ningún Comando Cardinal, el sistema se mantendrá en el paso del incisa a) y continuará en este proceso para seguir escuchando indefinidamente hasta detectar una entrada de sonido que coincida con algún Comando Cardinal; y en donde si el sistema detecta una entrada de sonido que coincida al superar el nivel de tolerancia ai compararse con algún Comando Cardinal, el sistema avanza al siguiente nivel jerárquico que comprende los Comandos Principales relacionados con el Comando Cardinal recién detectado; b) En donde el sistema espera y escucha en el ambiente, a través del micrófono y por un tiempo previamente establecido, por cualquier entrada de sonido, como palabras o frases por parte de un usuario, para detectar alguna entrada que coincida al superar el nivel de tolerancia al compararse con los comandos previamente registrados que se encuentren dentro del nivel jerárquico recién establecido, que en este caso se trata de los Comandos Principales relacionados con el último Comando Cardinal detectado y en donde si el sistema no detecta ninguna entrada de sonido que supere el nivel de tolerancia al compararse con los Comandos Principales dentro del tiempo establecido, se reinicia la secuencia jerárquica regresándose al paso del inciso a); y en donde si el sistema detecta una entrada de sonido que coincida al superar el nivel de tolerancia ai compararse con algún Comando Principal dentro del tiempo establecido, el sistema avanza al siguiente nivel jerárquico que comprende los Comandos Secundarios relacionados con el Comando Principal recién detectado; c) El sistema espera y escucha en el ambiente, a través del micrófono y por un tiempo previamente establecido, por cualquier entrada de sonido, como palabras o frases por parte de un usuario, para detectar alguna entrada que coincida al superar el nivel de tolerancia al compararse con las comandos previamente registrados que se encuentren dentro del nivel jerárquico recién establecido, que en este caso se trata de los Comandos Secundarios relacionados con el último Comando Principal detectado, y en donde si el sistema no detecta ninguna entrada de sonido que supere el nivel de tolerancia al compararse con los Comandos Secundarios dentro del tiempo establecido, se reinicia la secuencia jerárquica regresándose al paso del inciso a), pudiéndose realizar una operación exclusiva a dicho Comando Principal recién detectado antes de posicionarse en el paso del inciso a); y en donde si el sistema detecta una entrada de sonido que coincida al superar el nivel de tolerancia al compararse con algún Comando Secundario dentro del tiempo establecido, el sistema avanza al siguiente nivel jerárquico que comprende los Comandos Extras relacionados con el Comando Secundario recién detectado; d) El sistema espera y escucha en el ambiente, a través del micrófono y por un tiempo previamente establecido, por cualquier entrada de sonido, como palabras o frases por parte de un usuario, para detectar alguna entrada que coincida al superar el nivel de tolerancia al compararse con los comandos previamente registrados que se encuentren dentro del nivel jerárquico recién establecido, que en este caso se trata de los Comandos Extras relacionados con el último Comando Secundario detectado, y en donde si el sistema no detecta ninguna entrada de sonido que supere el nivel de tolerancia al compararse con los Comandos Extra dentro del tiempo establecido, entonces el sistema realiza una operación exclusiva al Comando Secundario recién detectado, se regresa un nivel jerárquico y se posiciona nuevamente en el paso del inciso c) explicado anteriormente, en donde el sistema espera y escucha en el ambiente por algún Comando Secundario relacionado con el último Comando Principal detectado iniciando así un ciclo de Comandos Secundarios que solo se puede romper al no detectarse ninguna entrada de sonido que supere el nivel de tolerancia al compararse con los Comandos Secundarios dentro del tiempo establecido. Si el sistema detecta una entrada de sonido que coincida al superar el nivel de tolerancia al comparase con algún Comando Extra dentro del tiempo establecido, el sistema realiza una operación exclusiva al Comando Extra recién detectado y se posiciona nuevamente en el paso del inciso d) explicado anteriormente en donde el sistema espera y escucha por algún Comando Extra relacionado con el último Comando Secundario detectado para iniciar así un ciclo de Comandos Extra que solo se puede romper al no detectarse ninguna entrada de sonido que supere el nivel de tolerancia al compararse con algún Comando Extra dentro del tiempo establecido en donde el sistema se posicionara en el paso del inciso c) explicado anteriormente.
41. El método de conformidad con la reivindicación 40, caracterizado además porque después del paso en donde no se detecta ningún Comando Extra dentro del tiempo establecido, el sistema no realizará la operación exclusiva al Comando Secundario si es que se viene directamente de romper el ciclo de Comandos Extra.
42. El método de conformidad con la reivindicación 40, caracterizado además porque en los pasos donde el sistema espera y escucha en el ambiente a través del micrófono y por un tiempo establecido, por cualquier entrada de sonido, si el sistema detecta alguna interrupción o señal de entrada como una llamada telefónica entrante, el sistema se conecta a la Red Telefónica Conmutada automáticamente.
43. El método de conformidad con la reivindicación 40, caracterizado además porque en el paso donde se realiza la operación perteneciente o exclusiva a un Comando Extra, dicha operación es de carácter continuo, en donde el sistema espera y escucha en el ambiente, a través de un micrófono y por un tiempo indefinido, por cualquier entrada de sonido, como palabras o frases, para detectar alguna entrada que coincida al superar el nivel de tolerancia al compararse con las palabras registradas como Comandos de Paro, en donde si el sistema no detecta ninguna entrada de sonido que coincida con algún Comando de Paro, entonces la operación no se detendrá (seguirá realizándose) y en donde si el sistema detecta una entrada de sonido que coincida al superar el nivel de tolerancia al compararse con algún Comando de Paro, entonces la operación de carácter continuo que se estaba realizando se detendrá automáticamente, el nivel jerárquico se mantiene y el sistema se posiciona nuevamente en el paso donde se espera y escucha por alguna entrada de sonido que coincida con algún Comando Extra relacionado con el último Comando Secundario detectado.
44. El método de conformidad con la reivindicación 40, caracterizado además porque en el paso donde se realiza la operación perteneciente o exclusiva a un Comando Secundario, dicha operación es de carácter continuo, en donde el sistema espera y escucha en el ambiente, a través de un micrófono y por un tiempo indefinido, por cualquier entrada de sonido, como palabras o frases, para detectar alguna entrada que coincida al superar el nivel de tolerancia al compararse con las palabras registradas como Comandos de Paro, en donde si el sistema no detecta alguna entrada de sonido que coincida con algún Comando de Paro, entonces la operación no se detendrá y seguirá realizándose indefinidamente y en donde si el sistema detecta una entrada de sonido que coincida al superar el nivel de tolerancia al compararse con algún Comando de Paro, entonces la operación de carácter continuo que se estaba realizando se detendrá automáticamente, el nivel jerárquico se mantiene y el sistema se posiciona nuevamente en el paso donde se espera y escucha por alguna entrada de sonido que coincida con algún Comando Secundario relacionado con el último Comando Principal detectado.
45. Un método de funcionamiento de un sistema como el que se reclama en las reivindicaciones 1 a 39, en base a Comandos Inmediatos de voz que fueron registrados previamente en el sistema. Dicho método está caracterizado porque comprende los pasos de: f) El sistema espera y escucha indefinidamente en el ambiente, a través de un micrófono, por cualquier entrada de sonido, como palabras o frases, que coincida al superar el nivel de tolerancia al compararse con el comando o palabra registrada como Comando de Disparo y en donde si la entrada de sonido no coincide con ningún Comando de Disparo, entonces el sistema se posicionará nuevamente en el paso del inciso f) en donde continuará escuchando indefinidamente hasta poder detectar alguna entrada de sonido que coincida al superar el nivel de tolerancia al compararse con el Comando de Disparo. Si el sistema detecta una entrada de sonido que supere el nivel de tolerancia al compararse con el Comando de Disparo; g) Entonces el sistema esperará y escuchará en el ambiente, a través de un micrófono y por un tiempo finito, por cualquier entrada de sonido, como palabras o frases, para detectar alguna entrada que coincida al superar el nivel de tolerancia al compararse con algún comando o palabra que se haya registrado como Comando Inmediato, en donde si el sistema no detecta ninguna entrada de sonido que coincida con ningún Comando Inmediato entonces se posicionará nuevamente en el paso del inciso g) para seguir esperando y escuchando por alguna entrada de sonido que supere el nivel de tolerancia al compararse con algún Comando Inmediato, de manera que si el sistema detecta dicha entrada, entonces el sistema realizará una operación exclusiva al Comando Inmediato correspondiente para posteriormente posicionarse en el paso del inciso g) para seguir esperando y escuchando por Comandos Inmediatos.
46. El método de conformidad con la reivindicación 45, caracterizado además porque posterior al paso donde se detecta una entrada de sonido que supera el nivel de tolerancia al compararse con el Comando de Disparo, se realiza una operación exclusiva a dicho Comando de Disparo.
47. El método de conformidad con la reivindicación 45, caracterizado además porque en el paso donde se realiza la operación perteneciente o exclusiva a un
Comando Inmediato, dicha operación es de carácter continuo, en donde el sistema espera y escucha en el ambiente, a través de un micrófono y por un tiempo indefinido, por cualquier entrada de sonido, como palabras o frases, para detectar alguna entrada que coincida al superar el nivel de tolerancia al compararse con las palabras registradas como Comandos de Paro, en donde si el sistema no detecta ninguna entrada de sonido que coincida con ningún Comando de Paro, entonces la operación no se detendrá y seguirá realizándose indefinidamente y en donde si el sistema detecta una entrada de sonido que coincida al superar el nivel de tolerancia al compararse con algún Comando de Paro, entonces la operación de carácter continuo que se estaba realizando se detendrá automáticamente, el nivel jerárquico se mantiene y el sistema se posiciona en el paso donde se espera y escucha por alguna entrada de sonido que coincida con algún Comando Inmediato nuevamente.
48. El sistema de conformidad con cualquiera de las reivindicaciones 1 a 39 caracterizado además porque puede operar o funcionar con el método descrito en la reivindicación 40 y/o el método de la reivindicación 45.
PCT/MX2010/000099 2009-10-08 2010-09-29 Métodos y sistema de control por voz WO2011043639A2 (es)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/500,059 US20120253824A1 (en) 2009-10-08 2010-09-29 Methods and system of voice control

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
MX2009010902A MX2009010902A (es) 2009-10-08 2009-10-08 Metodos y sistema de control por voz.
MXMX/A/2009/010902 2009-10-08

Publications (2)

Publication Number Publication Date
WO2011043639A2 true WO2011043639A2 (es) 2011-04-14
WO2011043639A3 WO2011043639A3 (es) 2011-11-24

Family

ID=43857312

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/MX2010/000099 WO2011043639A2 (es) 2009-10-08 2010-09-29 Métodos y sistema de control por voz

Country Status (3)

Country Link
US (1) US20120253824A1 (es)
MX (1) MX2009010902A (es)
WO (1) WO2011043639A2 (es)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110709785A (zh) * 2017-07-14 2020-01-17 大金工业株式会社 设备控制系统
CN113728380A (zh) * 2019-02-07 2021-11-30 托马斯·斯塔胡拉 用于智能扬声器的隐私装置

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
US9530410B1 (en) 2013-04-09 2016-12-27 Google Inc. Multi-mode guard for voice commands
US9575720B2 (en) 2013-07-31 2017-02-21 Google Inc. Visual confirmation for a recognized voice-initiated action
US9430186B2 (en) 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
US10453461B1 (en) 2015-03-17 2019-10-22 Amazon Technologies, Inc. Remote execution of secondary-device drivers
US10655951B1 (en) 2015-06-25 2020-05-19 Amazon Technologies, Inc. Determining relative positions of user devices
US10365620B1 (en) 2015-06-30 2019-07-30 Amazon Technologies, Inc. Interoperability of secondary-device hubs
US10089070B1 (en) * 2015-09-09 2018-10-02 Cisco Technology, Inc. Voice activated network interface
TWI586051B (zh) * 2016-10-26 2017-06-01 勝德國際研發股份有限公司 掛吊式插座裝置
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US11093554B2 (en) 2017-09-15 2021-08-17 Kohler Co. Feedback for water consuming appliance
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US10663938B2 (en) 2017-09-15 2020-05-26 Kohler Co. Power operation of intelligent devices
US11544591B2 (en) 2018-08-21 2023-01-03 Google Llc Framework for a computing system that alters user behavior
CN110575040B (zh) * 2019-09-09 2021-08-20 珠海格力电器股份有限公司 智能窗帘的控制方法、控制终端和智能窗帘控制系统
CN114859749B (zh) * 2022-06-27 2023-03-10 忆月启函(盐城)科技有限公司 一种基于物联网的智能家居管理方法及管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02305047A (ja) * 1989-05-18 1990-12-18 Toshiba Corp 電話機
US20030197590A1 (en) * 1996-08-06 2003-10-23 Yulun Wang General purpose distributed operating room control system
US20040127997A1 (en) * 2002-09-20 2004-07-01 Yosuke Tajika Remote controlling device, program and system with control command changing function
US20080091432A1 (en) * 2006-10-17 2008-04-17 Donald Dalton System and method for voice control of electrically powered devices
CN101430545A (zh) * 2008-12-08 2009-05-13 三一重工股份有限公司 一种用于工程机械的远程语音控制系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003096669A2 (en) * 2002-05-10 2003-11-20 Reisman Richard R Method and apparatus for browsing using multiple coordinated device
US7418392B1 (en) * 2003-09-25 2008-08-26 Sensory, Inc. System and method for controlling the operation of a device by voice commands
EP1889160A2 (en) * 2005-06-09 2008-02-20 Whirlpool Corporation Software architecture system and method for communication with, and management of, at least one component within a household appliance
US8977255B2 (en) * 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8407057B2 (en) * 2009-01-21 2013-03-26 Nuance Communications, Inc. Machine, system and method for user-guided teaching and modifying of voice commands and actions executed by a conversational learning system
US8914287B2 (en) * 2010-12-31 2014-12-16 Echostar Technologies L.L.C. Remote control audio link

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02305047A (ja) * 1989-05-18 1990-12-18 Toshiba Corp 電話機
US20030197590A1 (en) * 1996-08-06 2003-10-23 Yulun Wang General purpose distributed operating room control system
US20040127997A1 (en) * 2002-09-20 2004-07-01 Yosuke Tajika Remote controlling device, program and system with control command changing function
US20080091432A1 (en) * 2006-10-17 2008-04-17 Donald Dalton System and method for voice control of electrically powered devices
CN101430545A (zh) * 2008-12-08 2009-05-13 三一重工股份有限公司 一种用于工程机械的远程语音控制系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110709785A (zh) * 2017-07-14 2020-01-17 大金工业株式会社 设备控制系统
CN110709785B (zh) * 2017-07-14 2023-08-04 大金工业株式会社 设备控制系统
CN113728380A (zh) * 2019-02-07 2021-11-30 托马斯·斯塔胡拉 用于智能扬声器的隐私装置

Also Published As

Publication number Publication date
WO2011043639A3 (es) 2011-11-24
MX2009010902A (es) 2011-04-20
US20120253824A1 (en) 2012-10-04

Similar Documents

Publication Publication Date Title
WO2011043639A2 (es) Métodos y sistema de control por voz
ES2700049T3 (es) Servicios de telefonía para controlador multimedia programable
US7464035B2 (en) Voice control of home automation systems via telephone
US6308062B1 (en) Wireless telephony system enabling access to PC based functionalities
US10521185B1 (en) Privacy-enabled voice-assisted intelligent automated assistant user interface device
WO2007125143A9 (es) Sistema modular para portero electrónico inalámbrico
KR100700537B1 (ko) 가정용 무선전화기를 이용한 로봇 청소기의 제어시스템 및방법
US10379507B2 (en) Voice control type bath system and operating method thereof
ES2677903T3 (es) Procedimiento para la puesta en servicio o instalación de un sistema de comunicación de puerta
CN1870741A (zh) 无绳电话可视门铃对讲系统
US20080218372A1 (en) Light switch used as a communication device
JP2002132292A (ja) 音声によるホームオートメーションシステム
BRPI0520494A2 (pt) aparelho e método para remover ruìdo de fundo e terminal de comunicação móvel equipado com o aparelho
JP7133781B2 (ja) インターホン装置及びインターホンシステム
JPH10136109A (ja) 内線番号設定機能を備えたインターホン
JP2006222890A (ja) ホームオートメーションシステム用コードレス電話機
CN1413012A (zh) 无线家庭自动化系统
JPH1117782A (ja) バイブレータ付コードレス電話機
JP2024072182A (ja) 情報端末、インターホンシステム、制御方法及びプログラム
KR100342489B1 (ko) 이동 무선 단말기에서 이어폰 마이크를 이용한 통화 장치 및 방법
KR200292424Y1 (ko) 가스밸브 원격 통제장치
JPH0993355A (ja) 遠隔制御装置
TWI492604B (zh) 具有來電提示功能的通訊裝置及其來電提示方法
JPH0530228A (ja) テレコントロールシステム
JP2004266680A (ja) 遠隔制御装置

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13500059

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 10822284

Country of ref document: EP

Kind code of ref document: A2