KR101429138B1 - Speech recognition method at an apparatus for a plurality of users - Google Patents
Speech recognition method at an apparatus for a plurality of users Download PDFInfo
- Publication number
- KR101429138B1 KR101429138B1 KR1020120106657A KR20120106657A KR101429138B1 KR 101429138 B1 KR101429138 B1 KR 101429138B1 KR 1020120106657 A KR1020120106657 A KR 1020120106657A KR 20120106657 A KR20120106657 A KR 20120106657A KR 101429138 B1 KR101429138 B1 KR 101429138B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- user
- feature
- voice feature
- speech
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000013507 mapping Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 21
- 238000006243 chemical reaction Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은, (a) 사용자로부터의 수신된 음성으로부터 사용자를 식별하기 위한 음성 특징을 추출하는 단계와 (b) 추출된 음성 특징이 상기 장치에 저장된 음성 특징에서 존재하는 지를 검색하는 단계와 (c) 추출된 음성 특징이 존재하는 경우, 상기 사용자의 음성에 대응하는 텍스트를 결정하는 단계를 포함하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법에 관한 것이다.
본 발명을 이용함으로써, 다중 업소의 장치에서 저비용으로 더욱더 정확한 음성 인식이 가능하도록 하고 다중 업소의 장치를 편리하게 제어할 수 있도록 한다.The method includes the steps of: (a) extracting a voice feature for identifying a user from a received voice from a user; (b) searching for whether the extracted voice feature is present in a voice feature stored in the device; and ) Determining the text corresponding to the user ' s voice if the extracted voice feature is present. ≪ RTI ID = 0.0 > [0002] < / RTI >
By using the present invention, more accurate voice recognition can be performed at low cost in a multi-shop apparatus, and a multi-shop apparatus can be conveniently controlled.
Description
본 발명은 복수의 사용자를 위한 장치에서의 음성 인식 방법에 관한 것으로서, 구체적으로는 사용자의 음성으로부터 추출할 수 있는 각 사용자의 음성 특징을 이용하여 사용자를 식별하고 이에 따라 사용자의 음성 인식이 정확하게 이루어질 수 있도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법에 관한 것이다.The present invention relates to a method for recognizing a voice in a device for a plurality of users, and more particularly, to a voice recognition method using a voice feature of each user extracted from a voice of a user, To a method for speech recognition in a device for a plurality of users.
노래방, DVD 방, 멀티방, 커피점 등과 같은 불특정 다수가 이용하는 다중 업소에는 각 업소에서 제공하는 서비스 또는 기능에 따라 특정 장치를 구비하고 있다. 이러한 장치는 예를 들어 노래 반주 장치이거나 DVD 재생기이거나 혹은 영상 및/또는 음악 등을 복합적으로 재생할 수 있는 장치일 수 있다.A multi-function shop, such as a karaoke room, a DVD room, a multi-room, a coffee shop, etc., is provided with a specific device in accordance with a service or function provided by each shop. Such a device may be, for example, a song accompaniment device, a DVD player, or a device capable of reproducing a combination of video and / or music.
한편 전자 기술의 발달로 문자나 키 입력에 대한 대안으로 혹은 병행하여 음성 인식이 상용화되고 있다. 이러한 음성 인식 기술은 예를 들어 핸드폰이나 네비게이션 등에 탑재되어 사용자로부터 음성을 수신하고 이로부터 텍스트로 변환하고 변환된 결과를 사용자에게 보여주거나 음성으로 변환된 결과를 다시 들려 줄 수 있도록 한다. On the other hand, as the development of electronic technology, voice recognition is being commercialized as an alternative to or in parallel with a letter or key input. Such a speech recognition technology is installed in, for example, a mobile phone or a navigation system, and receives a voice from a user, converts the voice to text, displays the converted result to the user, or re-transmits the voice converted result.
반면에 다중 업소에 이용되는 장치에는 이러한 음성 인식 기술을 이용하기에는 여러 제약이 따른다. On the other hand, there are various restrictions on the use of such speech recognition technology in devices used in multi-businesses.
먼저 이러한 장치는 특정 한 명의 사용자를 위한 장치가 아니라 다수의 사용자를 위한 장치이므로 정확히 음성 인식을 할 필요가 있고 이는 제품의 신뢰성에 관련된 문제이기도 한다. 예를 들어 음성 인식이 부정확한 경우에는 그 음성을 입력한 사용자뿐 아니라 같은 공간에 있는 다른 사람에게도 불편함을 끼치게 된다.First, since such a device is not a device for a specific user but a device for a plurality of users, it is necessary to accurately recognize the voice, which is also a problem related to the reliability of the product. For example, when speech recognition is inaccurate, it may cause inconvenience not only to the user who entered the speech but also to other persons in the same space.
또한 다중 업소의 이용 환경은 음성 인식에는 유리하지 못한 환경이다. 예를 들어 다중 업소에 배치된 각 장치에 의해서 영상이나 음악 또는 음성이 큰 출력으로 생성되고 또한 다수의 사용자에 의해서 배출되는 음성이 혼재하는 환경이다. 이러한 환경에서의 음성 인식은 필연적으로 음성 인식에 어려움이 있다. In addition, the use environment of multiple businesses is not favorable for voice recognition. For example, it is an environment in which video, music, or voice is generated as a large output by each device disposed in multiple businesses, and voices emitted by a plurality of users are mixed. Speech recognition in such an environment necessarily has difficulties in speech recognition.
또한 다중 업소의 사용자는 다중 업소의 장치를 전용으로 소유하여 이용하는 사용자가 아니라 불특정 다수의 사용자이다. 이러한 불특정 다수의 사용자를 고려하여 더욱더 정확한 음성 인식을 위해서는 고가의 음성 인식 프로세서(예를 들어 DSP)를 구비하여야 하고 이는 다중 업소의 장치의 생산 및 개발 비용을 증대시키도록 하는 문제가 있다. In addition, users of multiple businesses are not an individual who owns and use devices of multiple businesses but an unspecified number of users. In consideration of such an unspecified number of users, it is necessary to provide an expensive speech recognition processor (for example, DSP) for more accurate speech recognition, which increases the production and development cost of a multi-site device.
따라서 이러한 다중 업소의 환경을 고려하여 음성 인식을 정확히 그리고 저렴한 비용으로 제공할 수 있도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법이 필요하다. Therefore, there is a need for a method of recognizing speech in a device for a plurality of users, which enables speech recognition to be provided accurately and inexpensively in consideration of the environment of such a multi-shop.
본 발명은, 상술한 문제점을 해결하기 위해서 안출한 것으로서, 다중 업소의 장치를 이용하는 사용자를 음성으로부터 결정될 수 있는 음성 특징을 이용하여 자동으로 식별하고 식별된 사용자의 음성으로부터 텍스트로 변환하여 음성 인식의 정확도를 높이고 잡음을 제거할 수 있도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법을 제공하는 데 그 목적이 있다. SUMMARY OF THE INVENTION The present invention has been made in order to solve the above-described problems, and it is an object of the present invention to provide a voice recognition apparatus and a voice recognition method which automatically identifies a user using a multi- It is an object of the present invention to provide a method for recognizing a speech in a device for a plurality of users.
또한 본 발명은, 사용자의 음성 특징을 이용하여 음성으로부터 인식된 음성 특징이 저장된 음성 특징과 다른 경우에 텍스트로 변환하지 않도록 하여 수신된 음성의 필터링이 간단하게 이루어지도록 하고 불필요한 텍스트로의 변환을 제거하도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법을 제공하는 데 그 목적이 있다. In addition, the present invention is not limited to the case where the voice characteristic recognized from the voice is different from the stored voice characteristic by using the voice characteristic of the user, so that the filtering of the received voice is simplified and the conversion into unnecessary text is eliminated And a voice recognition method in a device for a plurality of users.
또한 본 발명은, 사용자의 개인 중요 정보의 노출 없이 다중 업소의 여러 장치에서 각 사용자의 음성 특징을 공유하고 이에 따라 각 사용자로부터의 음성을 텍스트로 변환하여 다중 업소의 장치가 제어될 수 있도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법을 제공하는 데 그 목적이 있다.The present invention also provides a method and apparatus for sharing a voice characteristic of each user in multiple devices of multiple businesses without exposing the user's personal important information and converting the voice from each user into text so that the multi- And an object of the present invention is to provide a speech recognition method in a device for a plurality of users.
또한 본 발명은, 다중 업소 장치의 성능 부하의 증가 없이 음성으로부터 텍스트로 변환할 수 있도록 하여 저비용으로 다중 업소 장치를 제공할 수 있도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법을 제공하는 데 그 목적이 있다.Further, the present invention provides a method for recognizing a speech in a device for a plurality of users, which enables conversion from voice to text without increasing the performance load of a multi-occupancy device, so that a multi-occupancy device can be provided at low cost It has its purpose.
또한 본 발명은, 사용자의 음성 특징을 실시간으로 수정하여 더욱더 정확한 음성 인식이 가능하도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법을 제공하는 데 그 목적이 있다.It is another object of the present invention to provide a method for recognizing speech in a device for a plurality of users, which enables a more accurate speech recognition by correcting a user's speech characteristic in real time.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.It is to be understood that both the foregoing general description and the following detailed description are exemplary and explanatory and are not restrictive of the invention, unless further departing from the spirit and scope of the invention as defined by the appended claims. It will be possible.
상기와 같은 목적을 달성하기 위한, 복수의 사용자를 위한 장치에서의 음성 인식 방법은, (a) 사용자로부터의 수신된 음성으로부터 사용자를 식별하기 위한 음성 특징을 추출하는 단계와 (b) 추출된 음성 특징이 상기 장치에 저장된 음성 특징에서 존재하는 지를 검색하는 단계와 (c) 추출된 음성 특징이 존재하는 경우, 상기 사용자의 음성에 대응하는 텍스트를 결정하는 단계를 포함한다.According to another aspect of the present invention, there is provided a speech recognition method for a plurality of users, comprising the steps of: (a) extracting a speech feature for identifying a user from a received speech from a user; (b) Retrieving whether a feature is present in the voice feature stored in the device; and (c) if the extracted voice feature is present, determining the text corresponding to the user's voice.
또한 상기와 같은 목적을 달성하기 위한, 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 단계 (a) 이전에, 사용자로부터 음성 특징의 등록 요청을 수신하는 단계와 사용자에 대응하는 음성 특징을 결정하기 위하여, 사용자로부터 수신된 음성으로부터 음성 특징을 추출하는 단계와 추출된 음성 특징을 사용자로부터 수신된 사용자 식별자에 맵핑하는 단계와 맵핑된 음성 특징과 사용자 식별자를 저장하여 사용자를 등록하는 단계를 더 포함한다.In order to achieve the above object, there is also provided a method of recognizing speech in a device for a plurality of users, comprising the steps of: (a) receiving a registration request for a voice feature from a user; Extracting the voice feature from the voice received from the user, mapping the extracted voice feature to the user identifier received from the user, and registering the user by storing the mapped voice feature and the user identifier do.
또한 상기와 같은 목적을 달성하기 위한, 복수의 사용자를 위한 장치에서의 음성 인식 방법은, (d) 결정된 텍스트로부터 제어 명령을 식별하는 단계와 (e) 식별된 제어 명령에 따라 상기 장치를 제어하는 단계를 더 포함한다.According to still another aspect of the present invention, there is provided a method for recognizing speech in a device for a plurality of users, the method comprising: (d) identifying a control command from a determined text; and (e) .
또한 상기와 같은 목적을 달성하기 위한, 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 추출된 음성 특징이 존재하는 경우, 추출된 음성 특징과 대응하는 저장된 음성 특징 사이의 차이를 결정하는 단계와 결정된 차이를 사용하여 상기 대응하는 저장된 음성 특징을 수정하는 단계를 더 포함한다.According to another aspect of the present invention, there is provided a speech recognition method for a plurality of users, comprising the steps of: determining a difference between an extracted speech feature and a corresponding stored speech feature when the extracted speech feature exists; And modifying the corresponding stored voice feature using the determined difference.
상기와 같은 본 발명에 따른 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 다중 업소의 장치를 이용하는 사용자를 음성으로부터 결정될 수 있는 음성 특징을 이용하여 자동으로 식별하고 식별된 사용자의 음성으로부터 텍스트로 변환하여 음성 인식의 정확도를 높이고 잡음을 제거할 수 있도록 하는 효과가 있다. The method for recognizing a speech in a device for a plurality of users according to the present invention as described above automatically identifies a user using a multi-user device by using a speech feature that can be determined from the speech, So that the accuracy of speech recognition can be improved and noise can be removed.
또한 상기와 같은 본 발명에 따른 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 사용자의 음성 특징을 이용하여 음성으로부터 인식된 음성 특징이 저장된 음성 특징과 다른 경우에 텍스트로 변환하지 않도록 하여 수신된 음성의 필터링이 간단하게 이루어지도록 하고 불필요한 텍스트로의 변환을 제거하도록 하는 효과가 있다.In addition, the method of recognizing speech in a plurality of user apparatuses according to the present invention may further comprise the steps of: It is possible to simplify the filtering of the voice and to eliminate the conversion into unnecessary text.
또한 상기와 같은 본 발명에 따른 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 사용자의 개인 중요 정보의 노출 없이 다중 업소의 여러 장치에서 각 사용자의 음성 특징을 공유하고 이에 따라 각 사용자로부터의 음성을 텍스트로 변환하여 다중 업소의 장치가 제어될 수 있도록 하는 효과가 있다.In addition, the method of recognizing speech in a device for a plurality of users according to the present invention, as described above, can share voice characteristics of each user in various devices of multiple businesses without exposing personal important information of the user, Is converted into a text so that the devices of multiple businesses can be controlled.
또한 상기와 같은 본 발명에 따른 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 다중 업소 장치의 성능 부하의 증가 없이 음성으로부터 텍스트로 변환할 수 있도록 하여 저비용으로 다중 업소 장치를 제공할 수 있도록 하는 효과가 있다. In addition, the speech recognition method for a plurality of users according to the present invention as described above can convert a speech-to-text into a text without increasing the performance load of the multi-tasking apparatus, It is effective.
또한 상기와 같은 본 발명에 따른 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 사용자의 음성 특징을 실시간으로 수정하여 더욱더 정확한 음성 인식이 가능하도록 하는 효과가 있다. In addition, the speech recognition method for a plurality of users according to the present invention as described above has the effect of enabling more accurate speech recognition by correcting the speech characteristics of the user in real time.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The effects obtained by the present invention are not limited to the above-mentioned effects, and other effects not mentioned can be clearly understood by those skilled in the art from the following description will be.
도 1은 본 발명에 따른 음성 인식 방법이 구현되는 시스템 환경을 도시한 도면이다.
도 2는 다중 업소 장치의 예시적인 하드웨어 블록도를 도시한 도면이다.
도 3은, 다중 업소 장치 및/또는 개인용 장치에서 수행되는 음성 인식 방법의 개괄적인 처리 과정을 도시한 도면이다.
도 4는, S100에 따른 사용자별 음성 특징을 등록하기 위한 예시적인 처리 흐름을 도시한 도면이다.
도 5는, S200에 따른 음성 인식을 이용하여 장치를 제어하기 위한 예시적인 처리 흐름을 도시한 도면이다.
도 6은, S300에 따라 음성 특징을 수정하기 위한 예시적인 처리 흐름을 도시한 도면이다. 1 is a diagram illustrating a system environment in which a speech recognition method according to the present invention is implemented.
2 is a diagram showing an exemplary hardware block diagram of a multi-functional apparatus.
3 is a diagram showing a general processing procedure of a speech recognition method performed in a multi-business apparatus and / or a personal apparatus.
4 is a diagram showing an exemplary process flow for registering user-specific voice features according to S100.
5 is a diagram showing an exemplary process flow for controlling the apparatus using speech recognition according to S200.
6 is a diagram illustrating an exemplary process flow for modifying a voice feature in accordance with S300.
상술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술 되어 있는 상세한 설명을 통하여 더욱 명확해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.
The above and other objects, features and advantages of the present invention will become more apparent from the following detailed description of the present invention when taken in conjunction with the accompanying drawings, in which: It can be easily carried out. In the following description, well-known functions or constructions are not described in detail since they would obscure the invention in unnecessary detail. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명에 따른 음성 인식 방법이 구현되는 시스템 환경을 도시한 도면이다. 1 is a diagram illustrating a system environment in which a speech recognition method according to the present invention is implemented.
도 1에 따르면 이 시스템 환경은, 하나 이상의 다중 업소 장치(100) 및/또는 하나 이상의 개인용 장치(200)를 포함하고, 또한 이 다중 업소 장치(100) 및/또는 개인용 장치(200)에 인터넷 등을 통해 연결된 원격 서버(300)를 포함한다. 1, the system environment includes one or more
이러한 시스템 환경은 필요에 따라 일부 시스템 블록을 생략할 수 있고 혹은 도 1에 도시되지 않은 다른 시스템 블록이 더 포함하도록 구성될 수 있다.Such a system environment may omit some system blocks as needed or may be configured to further include other system blocks not shown in Fig.
도 1의 시스템 환경에서의 각 블록들을 살펴보면, 다중 업소 장치(100)는, 불특정 다수의 사용자 또는 개인이 다중 업소에서 이용할 수 있고 이 다중 업소에 전용화된 기능을 제공할 수 있는 장치이다. Referring to the respective blocks in the system environment of FIG. 1, the
이러한 다중 업소 장치(100)는, 예를 들어 노래 반주 장치이거나 DVD 재생기이거나 혹은 영상 및/또는 음악 등을 복합적으로 재생할 수 있는 장치일 수 있다.The
이와 같은 다중 업소 장치(100)는, 불특정 다수의 사용자로부터 마이크 등을 이용하여 음성을 수신할 수 있고, 수신된 음성으로부터 음성 특징을 추출할 수 있다. 그리고 추출된 음성 특징은 다중 업소 장치(100)나 원격 서버(300)에 저장된 음성 특징과 비교하여 저장된 음성 특징과 일치하는 경우 또는 지정된 임계 범위에 따라 임계 범위 내에 있는 경우에, 수신된 음성은 하나 이상의 단어 또는 문자를 포함하는 텍스트(또는 문자열)로 변환되고, 변환된 텍스트에서 이 다중 업소 장치(100)를 제어하기 위한 제어 명령을 결정하여 이에 따라 다중 업소 장치(100)를 제어한다. The multi-premises device (100) can receive voice from a plurality of unspecified users by using a microphone or the like, and can extract voice features from the received voice. And the extracted voice feature is within the threshold range according to the voice feature stored in comparison with the voice feature stored in the
또한 다중 업소 장치(100)는 전화 번호 또는 휴대 전화 번호 등과 같은 간단한 식별자를 사용자를 위한 식별자로 이용할 수 있다. 그리고 이러한 사용자를 위한 식별자는 사용자로부터 수신할 수 있고 수신된 식별자는 다중 업소 장치(100)나 원격 서버(300)에 저장된 사용자에 대하여 미리 저장된 음성 특징을 결정하기 위해서 사용되어 진다. Also, the
이러한 다중 업소 장치(100)가 등록된 사용자의 음성 특징을 이용하여 음성 인식을 할 것인지를 결정하고 이에 따라 텍스트로 변환하게 구성됨으로써, 음성 인식의 정확성을 높일 수 있고, 불필요한 텍스트로의 변환을 방지하여 잡음 또는 등록되지 않은 사용자에 의한 텍스트로의 변환으로 야기될 수 있는 여러 문제점 들을 해소할 수 있다. The multi-premises device (100) is configured to determine whether to perform speech recognition using the voice characteristics of a registered user and to convert the text into text, thereby improving the accuracy of speech recognition and preventing unnecessary conversion to text Thereby eliminating many problems that may be caused by noise or conversion into text by unregistered users.
음성 특징을 이용하여 다중 업소 장치(100)에서의 음성 인식 방법에 대해서는 도 3 내지 도 6을 통해서 상세히 살펴보도록 한다. The speech recognition method in the
개인용 장치(200)는, 인터넷에 연결되어 개인 사용자가 휴대하거나 거치하여 사용되는 장치이다. 예를 들어 개인용 장치(200)는 휴대폰, 스마트폰, 태블릿 PC, 노트북, 거치형의 개인용 PC 등일 수 있다. The
이와 같은 개인용 장치(200)는, 이 개인용 장치(200)에 포함된 프로세서와 네트워크 인터페이스와 음성을 수신하기 위한 입력 인터페이스 등을 이용하여, 원격 서버(300)에 개인용 장치(200)를 이용하는 사용자의 음성 특징을 등록하기 위해서 이용된다. The
이에 따라 개인용 장치(200)는 사용자를 식별하기 위해 이용되는, 예를 들어 ID(identification)나 휴대 전화 번호나 전화 번호와 같은, 사용자 식별자와 음성 특징을 추출하기 위해서 이용되는 일련의 음성, 또는 이러한 일련의 음성으로부터 추출된 음성 특징을, 원격 서버(300)로 인터넷을 통해 전달할 수 있다. 이에 따라 원격 서버(300)로 하여금 사용자 식별자와 대응하는 음성 특징을 전달받거나 또는 추출하여, 사용자 식별자와 대응하는 음성 특징을 맵핑하여 데이터베이스나 대용량 저장 매체에 저장한다. Accordingly, the
이러한 개인용 장치(200)에서 사용자를 등록하기 위하여, 등록을 위한 프로그램이 개인용 장치(200)의 대용량 저장 매체에 저장될 수 있다. In order to register a user in this
개인용 장치(200)에서 발생할 수 있는, 사용자 등록을 위한 구체적인 처리 흐름은 도 3과 도 4를 통해서 좀 더 상세히 살펴보도록 한다. The specific process flow for user registration, which may occur in the
원격 서버(300)는, 프로세서와 네트워크 인터페이스와 대용량 저장 매체를 구비하고, 인터넷을 통해 하나 이상의 개인용 장치(200) 및/또는 다중 업소 장치(100)로부터 사용자 등록을 위한, 사용자 식별자와 이 사용자의 음성으로부터 추출된 음성 특징 또는 이 사용자의 음성 데이터를 수신하고, 수신된 사용자 식별자와 대응하는 음성 특징(음성 데이터를 수신한 경우에는 음성 데이터로부터 음성 특징을 추출하여)을 대용량 저장 매체(예를 들어 하드 디스크)에 예를 들어 데이터 베이스의 형태로 저장한다. The
또한 원격 서버(300)는, 다중 업소 장치(100)에 의한 음성 특징의 전송 요청에 따라, 이 요청에 포함된 사용자 식별자에 대응하는 음성 특징을 데이터 베이스로부터 검색하여, 검색된 음성 특징을 요청한 다중 업소 장치(100)로 전송할 수 있다.The
그리고 원격 서버(300)에 저장되는 데이터 베이스는 간단히 사용자 식별자와 음성 특징의 맵핑 관계로만 저장할 수 있고, 이에 따라 그 외 사용자에 관련된 부가적인 정보의 저장을 배제하도록 구성할 수 있다.Also, the database stored in the
예를 들어 데이터 베이스는, 사용자의 전화 번호나 휴대 전화 번호나 사용자의 ID(Identification)와 대응하는 음성 특징만을 맵핑하여 저장함으로써, 이 맵핑된 정보의 노출로부터 발생할 수 있는 사용자의 중요 개인 신상 정보의 무단 해킹을 방지할 수 있다.
For example, the database stores only the voice features corresponding to the user's phone number, mobile phone number, or user's ID (Identification), and stores the mapped voice characteristics, It is possible to prevent unauthorized hacking.
도 2는 다중 업소 장치(100)의 예시적인 하드웨어 블록도를 도시한 도면이다. 2 is a diagram showing an exemplary hardware block diagram of the
도 2에 따르면 다중 업소 장치(100)는, 입력부(110)와 오디오 출력부(120)와 비디오 출력부(130)와 메모리(140)와 하드 디스크(150)와 제어 프로세서(190)를 포함하고 음성 인식을 위해 이용되는 마이크 연결 포트(160)와 아날로그-디지털 변환기(170)와 오디오 처리 프로세서(180)를 또한 포함한다. 2, the
여기서는, 제어 프로세서(190)와 오디오 처리 프로세서(180)를 이해를 위해 별도의 블록으로 도시하였으나 이에 국한될 필요가 없고, 예를 들어 제어 프로세서(190)가 오디오 처리 프로세서(180)의 기능을 처리하도록 다중 업소 장치(100)의 하드웨어가 구성되거나 하나의 칩셋(집적 회로) 내에 오디오 처리 프로세서 코어와 제어 프로세서 코어를 집적하여 구성될 수 있다.Although the
물론 도 2에 따른 다중 업소 장치(100)는 필요에 따라 일부 하드웨어 블록을 생략할 수 있고 혹은 도 2에 도시되지 않은 다른 하드웨어 블록이 더 포함하도록 구성될 수 있다.Of course, the
도 2에 따른, 다중 업소 장치(100)의 각 하드웨어 블록들을 살펴보면, 입력부(110)는, 터치 패널, 입력 키 버튼 및/또는 리모콘 수신 포트를 구비하여, 사용자로부터의 입력을 수신한다. 2, the
또한 터치 패널, 입력 키 버튼 및/또는 리모콘 수신 포트를 통한 리모콘에는 사용자의 음성 특징을 설정 등록하기 위한 특정 키가 배치되어 있을 수 있고, 이 특정 키를 통해 사용자의 음성 특징의 추출과 음성 특징과 사용자 맵핑 관계를 설정할 수 있도록 한다. Also, a specific key for setting and registering the voice characteristic of the user may be arranged on the remote controller through the touch panel, the input key button and / or the remote control receiver port. Through this specific key, Allows you to set up user mapping relationships.
물론 이러한 특정 키는, 마이크를 통하여 음성 특징의 등록을 위한 제어 명령의 인식으로 대체될 수 있거나 병행해서 이용될 수 있다. Of course, this particular key can be replaced by the recognition of a control command for registration of a voice feature through the microphone, or it can be used in parallel.
오디오 출력부(120)는, 제어 프로세서(190)나 오디오 처리 프로세서(180) 등에 의해서 출력된 디지털 오디오 신호를 아날로그 오디오 신호로 변환하여 스피커나 이어폰 등으로 출력한다. 이러한 오디오 출력부(120)는 오디오용 디지털-아날로그 변환기(Digital Analog Converter)를 포함할 수 있다. The
비디오 출력부(130)는, 제어 프로세서(190) 등에 의해서 출력된 디지털 비디오 신호를 외부 디스플레이(도면 미도시)의 비디오 포맷에 맞추어 변경하여 외부 디스플레이로 출력한다. 이러한 비디오 출력부(130)는, 비디오용 디지털-아날로그 변환기(Digital Analog Converter)를 포함할 수 있다. The
메모리(140)는, 디램(DRAM)과 같은 휘발성 메모리 및/또는 플래쉬(Flash)와 같은 비휘발성 메모리를 포함한다. 이 메모리(140)는, 제어 프로세서(190)나 오디오 처리 프로세서(180)에서 구동되는 각종 프로그램과 영상 데이터나 음악 또는 음성 데이터를 영구히 또는 임시로 저장할 수 있다. The
하드 디스크(150)는, 이 다중 업소 장치(100)에서 이용될 수 있는 각종 프로그램과 각종 콘텐츠를 저장한다. 이러한 콘텐츠는, 다중 업소 장치(100)의 유형에 따라 상이할 수 있고, 예를 들어 압축된 비디오 동영상 파일, 미디 포맷 또는 압축된 포맷으로 된 오디오 파일을 포함할 수 있다. The
마이크 연결 포트(160)는, 이 다중 업소 장치(100)에 연결될 수 있는 마이크를 연결하기 위한 포트이다. 이러한 마이크 연결 포트(160)에 연결되는 마이크는, 외부 잡음을 제거하거나 최소화할 수 있는 직진성의 마이크일 수 있다. The
이러한 직진성의 마이크는, 마이크를 이용하는 사용자의 음성을 최대화하여 증폭할 수 있고, 그 외 잡음(음악 소리나, 다른 사용자 또는 사람의 소리)은 최소화화도록 구성된다. Such a straight-line microphone is configured to maximize and amplify the voice of a user using a microphone, and to minimize other noises (music sound, other user or human voice).
아날로그-디지털 변환기(170)(Analog Digital Converter, ADC)는 마이크 연결 포트(160)를 통해 연결된 마이크로부터의 아날로그 음성 신호를 디지털의 음성 신호로 변환하고, 지정된 포맷에 따라 변환된 디지털 오디오 스트림을 오디오 처리 프로세서(180)로 출력한다. An analog-to-digital converter (ADC) 170 converts an analog voice signal from a microphone connected through a
이러한 아날로그-디지털 변환기(170)는 예를 들어 16 비트의 1 채널 I2S 포맷 등으로 변환하여 연속적인 디지털 오디오 스트림을 출력할 수 있다. The analog-to-
오디오 처리 프로세서(180)는, 수신된 디지털 오디오 스트림으로부터 사용자를 식별하기 위한 음성 특징을 추출한다. 이러한 오디오 처리 프로세서(180)는 디지털 오디오 스트림을 처리하기 위한 DSP(Digital Signal Processor)일 수 있다. The
이러한 오디오 처리 프로세서(180)는, 메모리(140)나 하드 디스크(150) 등에 저장된 음성 특징 추출을 위한 음성 특징 추출 프로그램을 로딩하여 이 추출 프로그램을 구동함으로써 음성 특징을 추출할 수 있다. The
이러한 음성 특징은 연결된 마이크별로 각각 추출될 수 있다. These voice features can be extracted for each connected microphone.
여기서 음성 특징은, 사용자로부터 수신된 음성으로부터 변환된(예를 들어 FFT 등을 이용하여) 디지털 오디오 스트림에 대하여 결정되는 주파수 도메인 상의 해당 음성을 다른 사용자의 음성과 구별하기 위한 주파수 파라미터이거나 주파수 도메인 상의 변환 전에 또는 별개로 디지털 오디오 스트림에서 결정할 수 있는 시간 도메인 상의 시간 파라미터이거나 또는 이 주파수 파라미터와 시간 파라미터의 조합으로 구성될 수 있다. Here, the voice characteristic is a frequency parameter for distinguishing the voice in the frequency domain determined from the voice received from the user (for example, using FFT, etc.) from the voice of the other user, Or may be a time parameter on the time domain that can be determined in the digital audio stream before or separately from the conversion, or a combination of the frequency parameter and the time parameter.
이러한 음성 특징은, 특정 사용자를 다른 사용자와 구별하기 위한 특징을 구성한다. 그리고 이 음성 특징은 동일한 단어나 문장을 읽는 경우라도 각 사용자별로 상이할 수 있다. 이러한 음성 특징을 사용자와 매칭함으로써 간단하게 음성을 필터링할 수 있고 더욱더 정확히 음성으로부터 텍스트의 변환이 가능하게 한다. Such a voice feature constitutes a feature for distinguishing a specific user from another user. This voice feature can be different for each user even if the same word or sentence is read. By matching these voice features with the user, it is possible to simply filter the voice and enable more accurate conversion of the text from the voice.
오디오 처리 프로세서(180)에서의 처리와 음성 특징에 대해서는 도 4나 도 5에서 더욱더 상세히 살펴보도록 한다. The processing and voice characteristics in the
제어 프로세서(190)는, 각 하드웨어 블록을 제어한다. 예를 들어 제어 프로세서(190)는 메모리(140)나 하드 디스크(150) 등에 저장된 프로그램을 이용하여, 다중 업소 장치(100)에 부여된 기능을 수행한다.The
또한 제어 프로세서(190)는 메모리(140)나 하드 디스크(150) 등에 저장된 사용자의 음성 인식을 위한 음성 인식 프로그램을 로딩하여 오디오 처리 프로세서(180)에 의해서 추출된 음성 특징을 메모리(140)나 하드 디스크(150) 등에 저장된 사용자와 음성 특징의 맵핑 관계에서 검색하여 추출된 음성 특징이 존재하는지 결정하고 만일 존재하는 경우에 해당 사용자로부터의 음성을 텍스트로 변환한다. The
만일 음성 특징이 존재하지 않는 경우에는 불필요한 변환이나 올바르지 못한 텍스트로의 변환을 방지하기 위해, 제어 프로세서(190)는 텍스트로의 변환을 하지 않도록 구성된다. 이에 따라 간단한 필터링으로 음성 인식에 따른 다중 업소 장치(100)에서의 불편함 등을 제거할 수 있다. If there is no speech feature, the
물론 제어 프로세서(190)는, 하드웨어 블록도의 그 구성 예에 따라서는 오디오 처리 프로세서(180)에서 수행되는 처리를 오디오 처리 프로세서(180) 대신에 수행할 수 있다. 이때에는 이 오디오 처리 프로세서(180)는 생략될 수 있다.Of course, the
제어 프로세서(190)에서 수행되는, 구체적인 각종 처리 흐름 또는 제어 흐름은, 도 3 내지 도 6을 통해서 살펴보도록 한다. Various specific process flows or control flows performed by the
시스템 버스/제어 버스(도면 부호 미도시)는, 하드웨어 블록들을 연결하여 데이터를 송수신할 수 있도록 한다. 예를 들어 시스템 버스/제어 버스는, 시리얼 버스이거나 병렬(parallel) 버스일 수 있다.
A system bus / control bus (not shown) connects the hardware blocks to transmit and receive data. For example, the system bus / control bus may be a serial bus or a parallel bus.
도 3은, 다중 업소 장치(100) 및/또는 개인용 장치(200)에서 수행되는 음성 인식 방법의 개괄적인 처리 과정을 도시한 도면이다.3 is a diagram showing a general processing procedure of a speech recognition method performed in the
이러한 도 3에 따른 음성 인식 방법은 다중 업소 장치(100)에 의해서, 예를 들어 제어 프로세서(190) 및/또는 오디오 처리 프로세서(180)의 제어하에 각 하드웨어 블록을 이용하는 프로그램을 이용하여, 수행될 수 있다. 또한 개인용 장치(200)는 예를 들어 도 3의 음성 특징의 등록(S100) 과정을 처리할 수 있다.This speech recognition method according to FIG. 3 may be performed by the
또한 도 3에 따른 각 처리 과정은 순차적으로 수행될 필요는 없고 예를 들어 음성 특징을 이용한 제어(S200)의 처리 과정 동안에 음성 특징의 등록(S100) 과정과 음성 특징의 수정(S300) 과정이 동시에 수행될 수 있도록 구성할 수도 있다. 이러한 도 3의 처리 과정은 명확한 이해를 위해 시계열화 한 것에 불과하다는 것은 자명할 것이다. 3 are not necessarily sequentially performed. For example, during the process of the control using the voice feature (S200), the registration of the voice feature (S100) and the modification of the voice feature (S300) are performed simultaneously Or may be configured to be performed. It will be appreciated that the process of FIG. 3 is just a deterioration of clock for a clear understanding.
도 3에 따른 개괄적인 처리 과정을 간단히 살펴보면, 먼저 단계 S100에서 음성 특징을 등록하고자 하는 사용자로부터 음성을 수신하여, 수신된 음성에서 해당 사용자의 음성 특징을 추출한다. 또한 이 사용자의 음성 특징에 사용자 식별자를 입력부(110)나 마이크(음성 인식 등을 통해) 등을 통해 수신하여 맵핑하고, 맵핑된 사용자의 음성 특징과 사용자 식별자는 이후 원격 서버(300) 및/또는 이 음성 인식 방법을 구현하는 다중 업소 장치(100)에 저장된다.3, a voice is received from a user who wishes to register a voice feature in step S100, and a voice feature of the user is extracted from the received voice. Also, the user identifier of the user is received and mapped through the
단계 S100에 대한 예시적인 상세한 설명은 도 4를 통해 보다더 상세히 살펴보도록 한다. An exemplary detailed description of step S100 will be described in more detail with reference to FIG.
그리고 단계 S200에서 음성 특징을 이용하여 다중 업소 장치(100)를 제어하고자 하는 사용자로부터 음성을 수신하여 수신된 음성에서 음성 특징을 추출하고 이후 추출된 음성 특징이 저장된 음성 특징과 일치하는 경우에 사용자로부터의 음성으로부터 텍스트를 결정하고 이에 따라 다중 업소 장치(100)를 제어한다. In step S200, a voice is received from a user who intends to control the
여기서 저장된 음성 특징은 사용자가 이용하고 있는 다중 업소 장치(100)의 메모리(140)나 하드 디스크(150) 등에 저장되어 있는 음성 특징들이거나 또는 원격 서버(300)에 저장되어 있는 음성 특징들일 수 있다. The stored voice feature may be voice features stored in the
단계 S200에 대한 예시적인 상세한 설명은 도 5를 통해 보다더 상세히 살펴보도록 한다. An exemplary detailed description of step S200 will be described in more detail with reference to FIG.
그리고 단계 S300에서, 등록된 사용자로부터 추출된 음성 특징은 또한 저장되어 있는 음성 특징을 수정하기 위해서 사용될 수 있다. 이에 따라 사용자의 음성 특징은 다중 업소 장치(100)의 이용 (빈도)에 따라서 변경되어 저장될 수 있다.Then, in step S300, the voice feature extracted from the registered user may also be used to modify the stored voice feature. Accordingly, the voice characteristic of the user can be changed and stored according to the use (frequency) of the
단계 S300에 대한 예시적인 상세한 설명은 도 6을 통해 보다더 상세히 살펴보도록 한다.
An exemplary detailed description of step S300 will be described in more detail with reference to FIG.
도 4는, S100에 따른 사용자별 음성 특징을 등록하기 위한 예시적인 처리 흐름을 도시한 도면이다. 이러한 도 4의 제어 흐름은 다중 업소 장치(100) 및/또는 개인용 장치(200)에 의해서 수행된다.4 is a diagram showing an exemplary process flow for registering user-specific voice features according to S100. This control flow of Fig. 4 is performed by the
먼저 단계 S103에서, 사용자로부터 음성 특징의 등록 요청을 수신한다. 이러한 등록 요청은, 입력부(110)를 통한 특정 키 코드의 수신으로 또는 마이크를 통한 특정 제어 명령의 수신으로부터 이루어질 수 있다.First, in step S103, a voice feature registration request is received from the user. Such a registration request may be made by receiving a specific key code via the
이후 단계 S105에서, 사용자로부터 사용자 식별자를 입력부(110)나 마이크 등을 통해 수신한다. 이러한 사용자 식별자는 예를 들어 전화 번호나 휴대 전화 번호나 원격 서버(300)의 데이터베이스에 등록하기 위한 사용자의 ID(Identification) 등일 수 있다. 이러한 사용자 식별자는 본 발명에 따른 음성 인식 방법이 구현되는 시스템 환경하에서 사용자를 유일하게 식별할 수 있도록 한다.In step S105, the user identifier is received from the user through the
물론 단계 S105는, 다른 단계들과 시계열적으로 일정한 순서로 수행될 필요는 없다. Of course, the step S105 need not be performed in a predetermined order in time with other steps.
이후 단계 S107에서, 하나 이상의 문장을 비디오 출력부(130) 등을 통해 디스플레이에 표시한다. 이러한 하나 이상의 문장은 사용자의 음성 특징을 추출하기 위한 용도의 문장들이다. Then, in step S107, one or more sentences are displayed on the display through the
여기서 이 하나 이상의 문장에는, 예를 들어 다중 업소 장치(100)를 제어하기 위해서 이용되는 단어 등을 포함할 수 있다. 예를 들어 이 문장에는 "시작", "종료", "예약", 숫자 등과 같이 음성 인식에 따라 특정 다중 업소 장치(100)에 할당되거나 이용되는 문자 혹은 단어를 포함할 수 있다.Here, the one or more sentences may include, for example, words used for controlling the
이후 단계 S109에서, 표시된 하나 이상의 문장을 사용자는 마이크를 이용해서 소리내어 읽고 이 하나 이상의 문장에 대응하여 발성된 음성은 마이크를 통해 그리고 아날로그-디지털 변환기(170)를 통해 수신된다. Thereafter, in step S109, the user reads aloud one or more sentences aloud using the microphone, and the voiced speech corresponding to the one or more sentences is received via the microphone and via the analog-to-
여기서, 단계 S109에서는 문장을 통한 음성 수신을 언급하였으나, 문장으로 국한될 필요는 없고, 복수의 단어에 대한 음성 수신으로 구성될 수도 있다.Here, in step S109, although speech reception through a sentence is mentioned, it need not be limited to a sentence, and may be constituted by voice reception for a plurality of words.
그리도 단계 S111에서 사용자로부터 수신된 음성으로부터 음성 특징을 추출한다. In step S111, a voice feature is extracted from the voice received from the user.
여기서 이 음성 특징은 표시된 하나 이상의 문장 전체에 대하여 추출된 음성 특징이거나 지정된 문자 혹은 단어 등에 대응하여 추출된 음성 특징일 수 있다. 이에 따라 전체 문장에 대하여 음성 특징값의 평균 등을 취하여 도출되는 음성 특징 혹은 지정된 단어 혹은 문자에 대하여 음성 특징값의 평균 등을 취하여 도출되는 음성 특징 등일 수 있다.Herein, the voice characteristic may be a voice characteristic extracted for the entire one or more sentences, or a voice characteristic extracted corresponding to a designated character or word. Accordingly, it may be a voice feature derived by taking an average of voice feature values for the entire sentence, a voice feature derived by taking an average of voice feature values for a specified word or character, and the like.
여기서, 각 지정된 문자나 단어에 대한 음성 특징들을 또한 각각 별개로 저장할 수도 있고, 이러한 각 지정된 문자나 단어에 대한 음성 특징들은 다중 업소 장치(100)를 제어하기 위한 용도로 이용될 수도 있다.Here, the voice features for each designated character or word may also be stored separately, and the voice features for each designated character or word may be used for controlling the
또한 음성 특징의 추출과는 별도로 각 지정된 문자나 단어를 일반적으로 알려진 음성 인식 기술을 이용하여 식별하고, 이 지정된 문자나 단어에 대응하는 음성 인식 기술에서의 음향 모델에 따라 단어나 문자 등에 매칭을 위해서 이용되는 예를 들어 음향 모델 파라미터(예를 들어 주파수 특징 벡터)들을 FFT 등을 이용하여 각 사용자를 위해 추출할 수도 있다. In addition, in addition to the extraction of speech features, each designated character or word is identified using a commonly known speech recognition technique, and in accordance with an acoustic model in a speech recognition technique corresponding to the specified character or word, For example, acoustic model parameters (for example, frequency characteristic vectors) to be used may be extracted for each user by using FFT or the like.
이러한 각 지정된 문자나 단어에 대응하는 음향 모델 파라미터들은 또한 각 사용자에 대하여 사용자 식별자와 함께 다중 업소 장치(100)에 저장되거나 또는 원격 서버(300)로 전송되어 원격 서버(300)에 사용자 식별자와 함께 저장될 수 있다.The acoustic model parameters corresponding to each of these designated characters or words may also be stored in the
이와 같은 음향 모델 파라미터들은 각 사용자로부터 대응하는 제어 명령 혹은 이 제어 명령에 포함되는 파라미터(예를 들어 숫자 번호 등)를 쉽게 식별할 수 있도록 하는 데 더 이용될 수 있다. Such acoustic model parameters may further be used to easily identify corresponding control commands from each user or parameters (e.g., numerical numbers, etc.) included in the control commands.
사용자에 대응하는 음성 특징은, 예를 들어 주파수 도메인 상의 주파수 파라미터 및/또는 시간 도메인 상의 시간 파라미터의 조합으로 구성된다. The speech feature corresponding to the user is composed of a combination of frequency parameters on the frequency domain and / or time parameters on the time domain, for example.
예를 들어 주파수 파라미터는, 사용자의 음성으로부터 주파수 도메인 상에서 사용자 고유의 예를 들어 사용자의 피치(pitch) 주파수 및/또는 사용자의 음색을 결정하기 위한 성대 주파수 등일 수 있다.For example, the frequency parameter may be a user-specific pitch frequency of the user in the frequency domain from the user's voice and / or a loudspeaker frequency for determining the tone of the user.
이러한 피치 주파수는 각 사용자별로 상이할 수 있고 또한 성대 주파수는 발성 중에 들숨이나 날숨을 통해 성대에 유도되는 각 사용자 간에 상이할 수 있는 잡음 주파수일 수 있다. 이러한 피치 주파수와 성대 주파수 등은, 혹은 이외의 사용자의 음성을 식별하기 위한 다른 주파수 특징들을 더 포함하여, 각 사용자의 음성 맵씨로서 각 사용자를 용이하게 식별할 수 있도록 한다. Such a pitch frequency may be different for each user and the vocal frequency may be a noise frequency that can be different between each user who is guided to the vocal cords through inhalation or exhalation during vocalization. These pitch frequencies and loudspeaker frequencies may further include other frequency characteristics for identifying the voice of a user other than the other, so that each user can be easily identified as a voice map of each user.
이러한 주파수 파라미터는, 수신된 사용자 음성으로부터 변환된 디지털 오디오 스트림에 대한 주파수 도메인 상으로의 변환(예를 들어 FFT(Fast Fourier Transform), 코사인 변환(Cosine Transform))과 함께 변환된 주파수에 대한 분석으로 획득되어 질 수 있다. This frequency parameter may be determined by analyzing the frequency converted with the frequency domain transform (e.g., FFT (Fast Fourier Transform), Cosine Transform) for the converted digital audio stream from the received user voice Can be obtained.
예를 들어 시간 파라미터는, 음성의 크기(또는 세기), 음성의 진폭(또는 범위), 음성의 높낮이(크기의 변화)로부터 판단되는 음성 리듬, 및/또는 음성의 스피드 등일 수 있다. For example, the time parameter may be the magnitude (or intensity) of the voice, the amplitude (or range) of the voice, the voice rhythm determined from the level of the voice (change in size), and / or the speed of voice.
시간 파라미터는 시간상으로 연속적으로 수신된 디지털 오디오 스트림으로부터 결정되어 질 수 있다. 예를 들어 음성의 크기는, 디지털 오디오 스트림의 각 오디오 데이터의 크기 값(예를 들어 아날로그-디지털 변환기(170)로부터의 양자화된 출력값) 또는 그 평균으로, 음성의 진폭은 각 오디오 데이터의 크기 값의 범위 또는 그 평균 값으로, 음성 리듬은 문장 또는 단어 내에서의 오디오 데이터의 크기 값의 변화 패턴으로, 음성의 스피드는, 각 문자와 후속하는 문자 사이의 시간 간격등으로 결정될 수 있다. The time parameter may be determined from the digital audio stream continuously received in time. For example, the size of the voice may be determined by the magnitude value of each audio data in the digital audio stream (e.g., the quantized output value from the analog-to-digital converter 170) or the average thereof, Or a mean value thereof. The voice rhythm is a variation pattern of the magnitude value of audio data in a sentence or a word, and the speed of voice can be determined by a time interval between each character and a following character.
물론 이러한 예시적인 주파수 파라미터나 시간 파라미터는, 특정 사용자를 식별하기 위한 예에 불과하고 이 외에도 여러 다른 주파수 특색이나 시간 도메인 상의 특색이 사용자를 식별하기 위해 이용되어 질 수 있다.Of course, these exemplary frequency parameters or time parameters are only examples for identifying a particular user, and in addition to that, different frequency features or time domain features may be used to identify the user.
그리고 이러한 시간 파라미터와 주파수 파라미터는 음성을 필터링하기 위한 용도로 음성 특징의 구성 요소로서 포함될 수 있다.And such time and frequency parameters may be included as a component of a voice feature for filtering speech.
예를 들어 음성 특징은, 하나 이상의 주파수 파라미터를 포함하거나 하나 이상의 시간 파라미터를 포함할 수 있고 혹은 이 하나 이상의 주파수 파라미터와 시간 파라미터를 같이(조합으로) 포함할 수 있다. For example, the voice feature may include one or more frequency parameters, or may include one or more temporal parameters, or may include (in combination) the one or more frequency and time parameters.
이러한 여러 파라미터의 포함은, 특정 사용자를 보다더 용이하게 그리고 정확히 식별할 수 있도록 하고, 또한 각 파라미터의 비교 범위를 좀 더 넓은 범위에서 비교될 수 있도록 한다. The inclusion of these multiple parameters makes it easier and more precise to identify a particular user and also allows the comparison range of each parameter to be compared over a wider range.
이후 단계 S113에서, 추출된 음성 특징을 수신된 사용자 식별자에 맵핑하고, 단계 S115에서 맵핑된 음성 특징과 사용자 식별자를 또는 이에 더하여 다중 업소 장치(100)의 제어를 위한 지정된 문자나 단어에 대응하고 음성 인식을 위한 음향 모델에 따른 각 사용자의 음향 모델 파라미터들을 하드 디스크(150)나 메모리(140) 등에 저장하여 등록을 완료한다. Thereafter, in step S113, the extracted voice feature is mapped to the received user identifier. In step S115, the voice feature and the user identifier mapped in step S115, or in addition to the designated character or word for control of the multi- The acoustic model parameters of each user according to the acoustic model for recognition are stored in the
여기서 사용자의 등록을 위해서는 단지 사용자 식별자와 음성 특징만이 이용되도록 구성될 수 있고 이에 따라 사용자에 대한 특정 중요 정보의 노출을 방지할 수 있다. Where only the user identifier and voice features can be configured to be used for registration of the user, thereby preventing exposure of certain important information to the user.
그리고 이러한 맵핑된 음성 특징과 사용자 식별자 혹은 이에 더하여 다중 업소 장치(100)의 제어를 위한 지정된 문자나 단어에 대응하고 음성 인식을 위한 음향 모델에 따른 각 사용자의 음향 모델 파라미터들은 다중 업소 장치(100)에서 혹은 다른 다중 업소 장치(100)에서 이용될 수 있도록 인터넷 등을 통해 연결된 원격 서버(300)로 전송(S117)된다.
The acoustic model parameters corresponding to the mapped speech features and the user identifiers or in addition to the designated characters or words for control of the
도 5는, S200에 따른 음성 인식을 이용하여 장치를 제어하기 위한 예시적인 처리 흐름을 도시한 도면이다. 5 is a diagram showing an exemplary process flow for controlling the apparatus using speech recognition according to S200.
입력부(110) 등을 통한 사용자의 음성 특징을 이용한 음성 인식의 시작 요청(즉 각 사용자에 대한 음성 인식의 요청)에 따라 단계 S203에서 입력부(110)나 마이크 등을 통해 사용자의 식별자를 수신한다. 그리고 사용자 식별자에 대응하는 음성 특징을 결정한다. And receives an identifier of the user through the
따라서, 다중 업소 장치(100)는 여러 사용자의 음성 인식의 시작 요청에 따라 대응하는 복수의 음성 특징을 결정하고 이 복수의 음성 특징에 대응하는 사용자의 음성 인식만이 가능하도록 한다. Accordingly, the
이러한 결정된 음성 특징들은 이 단계 S200을 수행하는 다중 업소 장치(100)의 메모리(140)나 하드 디스크(150)에 저장되어 있었던 음성 특징이거나 혹은 저장되어 있지 않은 경우에는 사용자 식별자를 이용하여 원격 서버(300)로부터 수신되어 저장되는 음성 특징일 수 있다. The determined voice features are voice characteristics stored in the
물론 이 과정에서 음성 특징이 다중 업소 장치(100)나 원격 서버(300)에 존재하지 않는 경우에는 등록 과정(S100)을 사용자에게 요청할 수 있다. Of course, if the voice feature is not present in the
이후 단계 S205에서 마이크와 그리고 아날로그-디지털 변환기(170)를 통해 사용자로부터의 음성을 수신한다. Then, in step S205, the microphones and the analog-to-
그리고 단계 S207에서 수신된 음성으로부터 음성 특징을 추출한다. 이러한 음성 특징은 주파수 파라미터 및/또는 시간 파라미터를 포함할 수 있다. Then, the speech feature is extracted from the speech received in step S207. Such speech features may include frequency parameters and / or time parameters.
이후 단계 S209에서 이 추출된 음성 특징이 다중 업소 장치(100)에 저장되어 있는 지를 검색한다. Then, in step S209, it is searched whether the extracted voice feature is stored in the
이 단계 S209는, 음성 인식의 시작 요청을 한 하나 이상의 사용자 식별자에 대응하는 결정된 하나 이상의 음성 특징으로부터 추출된 음성 특징이 존재하는 지를 인식하기 위해서 검색한다.This step S209 searches to recognize if there is a voice feature extracted from the determined one or more voice features corresponding to the one or more user identifiers that requested the start of voice recognition.
물론 이러한 하나 이상의 음성 특징은, 다중 업소 장치(100)에 이미 저장되어 있었던 음성 특징이거나, 혹은 단계 S203에서 사용자의 음성 인식의 시작 요청에 따라 동적으로 원격 서버(300)로부터 수신되어 다중 업소 장치(100)의 메모리(140)나 하드 디스크(150) 등에 저장되는 음성 특징일 수 있다. Of course, the one or more voice features may be voice features already stored in the
여기서 추출된 음성 특징의 검색은, 예를 들어 단계 S203에 따라 음성 인식의 시작 요청이 이루어진 복수의 음성 특징에 대해서만 이루어져서, 간단한 검색으로 특정 사용자인지를 식별할 수 있도록 한다. The retrieval of the extracted voice feature is performed only for a plurality of voice features for which a start request for voice recognition is made according to, for example, step S203, so that a simple search can identify a specific user.
혹은 이에 대한 대안으로, 사용자의 식별자를 이용하지 않고(즉 S203 단계를 수행하지 않고), 다중 업소 장치(100)에 이미 저장되어 있는 복수의 음성 특징들에 대한 검색으로 이루어질 수도 있다. Alternatively, an alternative may be to search for a plurality of voice features already stored in the
그리고 음성 특징의 검색은, 추출된 음성 특징의 각 파라미터(주파수 및/또는 시간 도메인 상의)가 복수의 음성 특징에 포함된 각 파라미터의 비교로 이루어지고 예를 들어 추출된 음성 특징의 각각의 파라미터가 복수의 음성 특징 중 대응하는 각각의 파라미터의 임계 범위(예를 들어 파라미터를 중심으로 +5% ~ -5%, 이러한 임계 범위는 파라미터별로 각 파라미터의 특징에 따라 상이할 수 있다) 내인지로 존재 여부를 결정할 수 있다. The search for speech features may be performed by comparing each parameter of the extracted speech feature (on the frequency and / or time domain) with each of the parameters included in the plurality of speech features, for example, The threshold range of each corresponding parameter of the plurality of speech features (for example, + 5% to -5% with respect to the parameter, this threshold range may vary depending on the characteristics of each parameter per parameter) Can be determined.
동일한 사용자인 경우에라도 특정 시간, 특정 상황에 따라 음성 특징은 달라 질 수 있으므로, 임계 범위를 이용하여 간단히 이러한 변화에도 불구하고 사용자를 용이하게 식별할 수 있고, 또한 다수의 파라미터를 이용하므로, 정확히 사용자 또는 이 사용자의 대응하는 음성 특징을 식별할 수 있도록 한다. Even if the user is the same user, the voice characteristic can be changed according to the specific time and the specific situation. Therefore, the user can be easily identified regardless of such a change simply by using the threshold range, and also using a plurality of parameters, Or to identify the corresponding voice features of this user.
그리고 이후 단계 S211에서 음성 특징이 예를 들어 음성 인식의 시작 요청이 이루어진 복수의 음성 특징에 존재하는 지를 결정하여, 존재하지 않는 경우에는 수신된 음성을 음성 인식 변환을 하지 않고, 단계 S205로 전이한다.Then, in step S211, it is determined whether or not the voice feature exists in, for example, a plurality of voice features for which a start request for voice recognition is made. If the voice feature is not present, the voice is not subjected to voice recognition conversion and the process proceeds to step S205 .
반면에 음성 특징이 존재하는 경우에는, S213으로 전이한다.On the other hand, if there is a voice feature, the process proceeds to S213.
단계 S213에서, 수신된 음성에 대응하는 텍스트를 결정한다. 이러한 텍스트는 하나의 문장을 구성하거나 하나 혹은 하나 이상의 단어 또는 문자로 구성될 수 있다. In step S213, the text corresponding to the received voice is determined. These texts may constitute one sentence or may consist of one or more words or letters.
이러한 음성의 텍스트로의 결정은 주지의 음성 인식 변환 기술을 이용하여 이루어진다. 이러한 음성 인식 변환 기술은 예를 들어 수신된 음성을 FFT 등을 통해 주파수 대역으로의 변환과 주어진 음향 모델을 이용하여 대응하는 단어나 문자나 문장등으로 변환하도록 한다. The determination of such speech as text is accomplished using well-known speech recognition conversion techniques. For example, the speech recognition conversion technique converts a received speech into a frequency band through an FFT or the like, and converts the received speech into a corresponding word, character, or sentence using a given acoustic model.
여기서 이 텍스트로의 결정에 또한 사용자의 추출된 음성 특징 또는 추출된 음성 특징에 대응하고 다중 업소 장치(100)에 저장되어 있는 음성 특징이 이용될 수 있다. Here, the voice characteristic corresponding to the extracted voice characteristic or the extracted voice characteristic of the user and stored in the
이에 따라 음성 인식 변환 기술은 이 추출되거나 저장된 음성 특징을 이용하여 텍스트를 더 정확히 인식할 수 있도록 한다. 이러한 인식 변환 기술은 주파수 도메인 상에서 이루어질 수 있고 개개인의 음성 특징이 더 반영되어 각 문자나 단어가 결정될 수 있도록 한다. Accordingly, the speech recognition conversion technology enables the text to be recognized more accurately by using the extracted or stored speech features. This cognitive conversion technique can be performed in the frequency domain and each individual character or word can be determined by further reflecting the individual voice characteristic.
또는(혹은 이에 더하여) 음성 인식 변환 기술은, 다중 업소 장치(100)에 저장될 수 있거나 원격 서버로부터 음성 특징과 함께 수신될 수 있는, 다중 업소 장치(100)를 제어하기 위한 각 사용자의 음성으로부터 결정된 지정된 문자나 단어에 대응하는 음향 모델 파라미터들을 이용할 수 있다. (Or in addition to) the speech recognition conversion technique may be applied to each of the user's voices to control the
이러한 지정된 문자나 단어는, 다중 업소 장치(100)에서 이용되는 제어 명령이거나 이 제어 명령의 입력 파라미터를 구성하고, 이에 따라 음성 인식 변환을 위한 음향 모델에서의 단어 간 또는 문자 간 매칭을 위해 이러한 대응하는 음향 모델 파라미터들이 이용될 수 있고 이에 따라 간단한 매칭으로 용이하게 제어 명령들을 포함하는 음성으로부터 텍스트로 성능 부하를 줄이면서 변환할 수 있도록 한다.These designated characters or words constitute the control command used in the
여기서 텍스트로의 변환 또는 결정은, 이 다중 업소 장치(100)에서 필요한 제어 명령과 입력 파라미터의 정확한 결정이 중요하므로, 이 외의 다른 단어나 문자에 대해서는 그 정확성이 떨어져도 문제되지 않을 수 있다. Here, conversion or determination into text is important because it is important to precisely determine the control command and input parameters required in the
이후 단계 S215에서, 결정된 텍스트에서 제어 명령을 식별한다. 이러한 제어 명령은 다중 업소 장치(100)를 제어하기 위해서 이용되는 예를 들어 "시작", "종료", "예약", "OK", "선택" 등과 같은 단어일 수 있다. Then, in step S215, the control command is identified in the determined text. These control commands may be words such as "start", "end", "reservation", "OK", "select", etc., which are used to control the multi-
이러한 각 제어 명령을 식별한 후에, 단계 S217에서 각 제어 명령에 따라 다중 업소 장치(100)를 제어한다. After identifying each of these control commands, the
여기서 특정 제어 명령은 이 제어 명령의 입력 파라미터로 제공되는 예를 들어 일련의 숫자가 필요할 수 있다. 이에 따라 텍스트에서의 특정 제어 명령의 위치에 선행하거나 후행하는 단어를 식별하고 식별된 단어를 입력 파라미터로 하여 다중 업소 장치(100)를 제어할 수 있다.
Here, a specific control command may require, for example, a series of numbers provided as input parameters of the control command. Accordingly, it is possible to identify the words preceding or following the specific control command in the text, and to control the
도 6은, S300에 따라 음성 특징을 수정하기 위한 예시적인 처리 흐름을 도시한 도면이다. 이러한 S300은 S200과는 별도로 이루어질 수 있고, S200에서의 진행 과정의 처리 결과를 이용하여 이루어진다. 6 is a diagram illustrating an exemplary process flow for modifying a voice feature in accordance with S300. The step S300 may be performed separately from the step S200, and may be performed using the processing result of the step S200.
먼저 단계 S303에서, 단계 S211에서 음성 특징이 존재하는 경우에, 단계 S207에서 추출된 음성 특징과 음성 특징의 검색에 의해 대응하는 사용자 식별자를 메모리(140) 등에 임시로 저장한다. First, in step S303, if a voice feature exists in step S211, the user identifier corresponding to the retrieved voice feature and voice feature extracted in step S207 is temporarily stored in the
이러한 임시 저장은 사용자 식별자별로 구별하도록 구성되고, 각 사용자별로 하나 이상의 추출된 음성 특징으로 구성될 수 있다. 이러한 하나 이상의 추출된 음성 특징은 단일의 다중 업소 장치(100)에서 시간 차에 따라 1회 이상으로 음성 특징이 추출된 경우일 수 있다. Such temporary storage may be configured to distinguish by user identifiers and may comprise one or more extracted voice features for each user. Such one or more extracted voice features may be the case where voice features are extracted more than once according to a time difference in a single
이후 단계 S305에서 임시로 저장된 사용자 식별자를 이용하여, 임시로 저장된 하나 이상의 음성 특징과 다중 업소 장치(100)에 저장되어 있는 대응하는 음성 특징 사이의 차이를 결정한다Then, using the temporarily stored user identifier in step S305, a difference between the temporarily stored one or more voice features and the corresponding voice feature stored in the
이러한 차이는 각 음성 특징에 포함된 주파수 파라미터 또는 시간 파라미터에 따라 상이하게 계산될 수 있다. These differences can be calculated differently depending on the frequency parameters or time parameters included in each speech feature.
여기서 차이는, 임시로 저장된 하나 이상의 음성 특징의 평균값과 저장되어 있는 대응하는 음성 특징의 값과의 차이로 결정될 수 있다.Where the difference may be determined by the difference between the average value of one or more temporally stored speech features and the corresponding value of the stored speech feature.
그리고 단계 S307에서, 이러한 차이를 반영하여 사용자 식별자에 대응하는 저장된 음성 특징을 수정하고 수정된 음성 특징을 다중 업소 장치(100)의 메모리(140)나 하드 디스크(150) 등에 저장한다. In step S307, the stored voice characteristic corresponding to the user identifier is corrected by reflecting the difference, and the modified voice characteristic is stored in the
이러한 음성 특징의 수정은, 이후 보다 더 정확한 음성 인식이 가능할 수 있도록 한다. This modification of the speech feature enables more accurate speech recognition than later.
그리고 단계 S309에서, 이러한 수정된 음성 특징은, 다른 다중 업소 장치(100)에서 이용될 수 있도록 원격 서버(300)로 사용자 식별자와 함께 전송된다.
Then, in step S309, this modified voice feature is transmitted with the user identifier to the
이상의 도 3 내지 도 6에서 알 수 있는 바와 같이 본 발명은, 지정된 사용자 만을 위한 음성 인식이 가능하도록 하고 각 사용자의 음성 특징을 이용하여 음성 인식이 가능하도록 하여, 음성 인식의 정확도를 높일 수 있고 예상치 못한 잡음으로부터 오동작을 방지할 수 있도록 한다. As can be seen from FIGS. 3 to 6, the present invention enables voice recognition for only a designated user, enables voice recognition using voice characteristics of each user, improves the accuracy of voice recognition, Thereby preventing a malfunction due to unacceptable noise.
또한 본 발명은, 간단한 필터링으로 불필요한 텍스트로의 변환을 제거하고 사용자 식별자와 대응하는 음성 특징만을 공유하고 저 사양의 음성 인식 기술을 이용할 수 있도록 한다.
Further, the present invention eliminates unnecessary conversion to text with simple filtering, allows only a voice feature corresponding to a user identifier to be shared, and utilizes a low-specification voice recognition technology.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것이 아니다. It will be apparent to those skilled in the art that various modifications and variations can be made in the present invention without departing from the spirit or scope of the invention. The present invention is not limited to the drawings.
100 : 다중 업소 장치
110 : 입력부 120 : 오디오 출력부
130 : 비디오 출력부 140 : 메모리
150 : 하드 디스크 160 : 마이크 연결 포트
170 : 아날로그-디지털 변환기 180 : 오디오 처리 프로세서
190 : 제어 프로세서
200 : 개인용 장치 300 : 원격 서버100: Multi-functional device
110: input unit 120: audio output unit
130: video output unit 140: memory
150: Hard disk 160: Microphone connection port
170: analog-to-digital converter 180: audio processing processor
190: Control processor
200: Personal device 300: Remote server
Claims (7)
(a) 사용자로부터의 수신된 음성으로부터 사용자를 식별하기 위한 음성 특징을 추출하는 단계;
(b) 추출된 음성 특징이 상기 장치에 저장된 음성 특징에서 존재하는 지를 검색하는 단계; 및
(c) 추출된 음성 특징이 존재하는 경우, 상기 사용자의 음성에 대응하는 텍스트를 결정하는 단계;를 포함하며,
상기 단계 (a) 이전에, 하나 이상의 사용자로부터 사용자 식별자를 수신하는 단계;를 더 포함하고,
상기 단계 (b)는, (b-1) 사용자 식별자에 대응하는 음성 특징을 결정하는 단계; 및 (b-2) 결정된 하나 이상의 음성 특징에서 추출된 음성 특징이 존재하지를 검색하는 단계;를 포함하는,
음성 인식 방법.A speech recognition method in a device for a plurality of users,
(a) extracting a voice feature for identifying a user from a received voice from a user;
(b) retrieving whether the extracted voice feature is present in the voice feature stored in the device; And
(c) if the extracted voice feature is present, determining a text corresponding to the user's voice,
Further comprising: prior to step (a), receiving a user identifier from one or more users,
Wherein step (b) comprises: (b-1) determining a voice feature corresponding to a user identifier; And (b-2) searching for a speech feature extracted from the determined one or more speech features.
Speech recognition method.
상기 음성 특징은, 사용자의 음성을 주파수 도메인으로 변환하여 결정되는 주파수 파라미터와 시간 도메인 상에서 상기 사용자의 음성으로부터 결정되는 시간 파라미터의 조합으로 구성되는,
음성 인식 방법.The method according to claim 1,
Wherein the voice feature comprises a combination of a frequency parameter determined by converting a user's voice into a frequency domain and a time parameter determined from the user's voice in a time domain,
Speech recognition method.
(a) 사용자로부터의 수신된 음성으로부터 사용자를 식별하기 위한 음성 특징을 추출하는 단계;
(b) 추출된 음성 특징이 상기 장치에 저장된 음성 특징에서 존재하는 지를 검색하는 단계; 및
(c) 추출된 음성 특징이 존재하는 경우, 상기 사용자의 음성에 대응하는 텍스트를 결정하는 단계;를 포함하며,
상기 단계 (a) 이전에,
사용자로부터 음성 특징의 등록 요청을 수신하는 단계;
사용자에 대응하는 음성 특징을 결정하기 위하여, 사용자로부터 수신된 음성으로부터 음성 특징을 추출하는 단계;
추출된 음성 특징을 사용자로부터 수신된 사용자 식별자에 맵핑하는 단계; 및
맵핑된 음성 특징과 사용자 식별자를 저장하여 사용자를 등록하는 단계;를 더 포함하는,
음성 인식 방법.A speech recognition method in a device for a plurality of users,
(a) extracting a voice feature for identifying a user from a received voice from a user;
(b) retrieving whether the extracted voice feature is present in the voice feature stored in the device; And
(c) if the extracted voice feature is present, determining a text corresponding to the user's voice,
Prior to step (a)
Receiving a registration request for a voice feature from a user;
Extracting a voice feature from a voice received from a user to determine a voice feature corresponding to the user;
Mapping extracted voice features to a user identifier received from a user; And
Further comprising registering the user by storing the mapped voice features and the user identifier,
Speech recognition method.
상기 맵핑된 음성 특징과 사용자 식별자를 상기 장치에 연결된 원격 서버에 전송하는 단계;를 더 포함하며,
상기 단계 (b)는, 동적인 음성 인식을 위해 사용자로부터 수신된 사용자 식별자에 대응하는 음성 특징을 상기 원격 서버로부터 수신 및 저장하여, 추출된 음성 특징이 존재하는 지를 검색하는,
음성 인식 방법.5. The method of claim 4,
And transmitting the mapped speech feature and user identifier to a remote server connected to the device,
Wherein the step (b) comprises receiving and storing a voice feature corresponding to a user identifier received from a user for dynamic voice recognition from the remote server and searching for the presence of the extracted voice feature,
Speech recognition method.
(d) 결정된 텍스트로부터 제어 명령을 식별하는 단계; 및
(e) 식별된 제어 명령에 따라 상기 장치를 제어하는 단계;를 더 포함하는,
음성 인식 방법.The method according to claim 1,
(d) identifying a control command from the determined text; And
(e) controlling the device in accordance with the identified control command.
Speech recognition method.
(a) 사용자로부터의 수신된 음성으로부터 사용자를 식별하기 위한 음성 특징을 추출하는 단계;
(b) 추출된 음성 특징이 상기 장치에 저장된 음성 특징에서 존재하는 지를 검색하는 단계; 및
(c) 추출된 음성 특징이 존재하는 경우, 상기 사용자의 음성에 대응하는 텍스트를 결정하는 단계;를 포함하며,
추출된 음성 특징이 존재하는 경우, 추출된 음성 특징과 대응하는 저장된 음성 특징 사이의 차이를 결정하는 단계; 및 결정된 차이를 사용하여 상기 대응하는 저장된 음성 특징을 수정하는 단계;를 더 포함하는,
음성 인식 방법.A speech recognition method in a device for a plurality of users,
(a) extracting a voice feature for identifying a user from a received voice from a user;
(b) retrieving whether the extracted voice feature is present in the voice feature stored in the device; And
(c) if the extracted voice feature is present, determining a text corresponding to the user's voice,
Determining a difference between the extracted speech characteristic and the corresponding stored speech characteristic when the extracted speech characteristic is present; And modifying the corresponding stored voice feature using the determined difference.
Speech recognition method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120106657A KR101429138B1 (en) | 2012-09-25 | 2012-09-25 | Speech recognition method at an apparatus for a plurality of users |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120106657A KR101429138B1 (en) | 2012-09-25 | 2012-09-25 | Speech recognition method at an apparatus for a plurality of users |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140039868A KR20140039868A (en) | 2014-04-02 |
KR101429138B1 true KR101429138B1 (en) | 2014-08-11 |
Family
ID=50650400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120106657A KR101429138B1 (en) | 2012-09-25 | 2012-09-25 | Speech recognition method at an apparatus for a plurality of users |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101429138B1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102515023B1 (en) | 2018-02-23 | 2023-03-29 | 삼성전자주식회사 | Electronic apparatus and control method thereof |
KR102114365B1 (en) * | 2018-05-23 | 2020-05-22 | 카페24 주식회사 | Speech recognition method and apparatus |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000347684A (en) * | 1999-06-02 | 2000-12-15 | Internatl Business Mach Corp <Ibm> | Speech recognition system |
JP2005122128A (en) * | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | Speech recognition system and program |
JP2005181358A (en) * | 2003-12-16 | 2005-07-07 | Victor Co Of Japan Ltd | Speech recognition and synthesis system |
KR100924399B1 (en) * | 2001-06-08 | 2009-10-29 | 소니 가부시끼 가이샤 | Voice recognition apparatus and voice recognition method |
-
2012
- 2012-09-25 KR KR1020120106657A patent/KR101429138B1/en active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000347684A (en) * | 1999-06-02 | 2000-12-15 | Internatl Business Mach Corp <Ibm> | Speech recognition system |
KR100924399B1 (en) * | 2001-06-08 | 2009-10-29 | 소니 가부시끼 가이샤 | Voice recognition apparatus and voice recognition method |
JP2005122128A (en) * | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | Speech recognition system and program |
JP2005181358A (en) * | 2003-12-16 | 2005-07-07 | Victor Co Of Japan Ltd | Speech recognition and synthesis system |
Also Published As
Publication number | Publication date |
---|---|
KR20140039868A (en) | 2014-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6613347B2 (en) | Method and apparatus for pushing information | |
US8606581B1 (en) | Multi-pass speech recognition | |
CN104123115B (en) | Audio information processing method and electronic device | |
CN106796785B (en) | Sound sample validation for generating a sound detection model | |
JP6510117B2 (en) | Voice control device, operation method of voice control device, computer program and recording medium | |
JP2006504115A (en) | Music identification system and method | |
CN102568478A (en) | Video play control method and system based on voice recognition | |
CN111028845A (en) | Multi-audio recognition method, device, equipment and readable storage medium | |
CN113330511B (en) | Voice recognition method, voice recognition device, storage medium and electronic equipment | |
CN110097895B (en) | Pure music detection method, pure music detection device and storage medium | |
US20200013422A1 (en) | System, Method, and Apparatus for Morphing of an Audio Track | |
KR20180012639A (en) | Voice recognition method, voice recognition device, apparatus comprising Voice recognition device, storage medium storing a program for performing the Voice recognition method, and method for making transformation model | |
US20120035919A1 (en) | Voice recording device and method thereof | |
CN109361995A (en) | A kind of volume adjusting method of electrical equipment, device, electrical equipment and medium | |
EP1640845A2 (en) | User identification method, user identification device and corresponding electronic system | |
CN109841218A (en) | A kind of voiceprint registration method and device for far field environment | |
JP2009175630A (en) | Speech recognition device, mobile terminal, speech recognition system, speech recognition device control method, mobile terminal control method, control program, and computer readable recording medium with program recorded therein | |
CN111859008A (en) | Music recommending method and terminal | |
KR101429138B1 (en) | Speech recognition method at an apparatus for a plurality of users | |
CN107767862B (en) | Voice data processing method, system and storage medium | |
WO2016137071A1 (en) | Method, device, and computer-readable recording medium for improving set of at least one semantic unit using voice | |
KR20190062369A (en) | Speech-controlled apparatus for preventing false detections of keyword and method of operating the same | |
KR102472921B1 (en) | User interfacing method for visually displaying acoustic signal and apparatus thereof | |
CN110136677B (en) | Musical tone control method and related product | |
CN110364182B (en) | Sound signal processing method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20180327 Year of fee payment: 4 |
|
R401 | Registration of restoration |