KR101429138B1 - Speech recognition method at an apparatus for a plurality of users - Google Patents

Speech recognition method at an apparatus for a plurality of users Download PDF

Info

Publication number
KR101429138B1
KR101429138B1 KR1020120106657A KR20120106657A KR101429138B1 KR 101429138 B1 KR101429138 B1 KR 101429138B1 KR 1020120106657 A KR1020120106657 A KR 1020120106657A KR 20120106657 A KR20120106657 A KR 20120106657A KR 101429138 B1 KR101429138 B1 KR 101429138B1
Authority
KR
South Korea
Prior art keywords
voice
user
feature
voice feature
speech
Prior art date
Application number
KR1020120106657A
Other languages
Korean (ko)
Other versions
KR20140039868A (en
Inventor
김승영
Original Assignee
주식회사 금영
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 금영 filed Critical 주식회사 금영
Priority to KR1020120106657A priority Critical patent/KR101429138B1/en
Publication of KR20140039868A publication Critical patent/KR20140039868A/en
Application granted granted Critical
Publication of KR101429138B1 publication Critical patent/KR101429138B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은, (a) 사용자로부터의 수신된 음성으로부터 사용자를 식별하기 위한 음성 특징을 추출하는 단계와 (b) 추출된 음성 특징이 상기 장치에 저장된 음성 특징에서 존재하는 지를 검색하는 단계와 (c) 추출된 음성 특징이 존재하는 경우, 상기 사용자의 음성에 대응하는 텍스트를 결정하는 단계를 포함하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법에 관한 것이다.
본 발명을 이용함으로써, 다중 업소의 장치에서 저비용으로 더욱더 정확한 음성 인식이 가능하도록 하고 다중 업소의 장치를 편리하게 제어할 수 있도록 한다.
The method includes the steps of: (a) extracting a voice feature for identifying a user from a received voice from a user; (b) searching for whether the extracted voice feature is present in a voice feature stored in the device; and ) Determining the text corresponding to the user ' s voice if the extracted voice feature is present. ≪ RTI ID = 0.0 > [0002] < / RTI >
By using the present invention, more accurate voice recognition can be performed at low cost in a multi-shop apparatus, and a multi-shop apparatus can be conveniently controlled.

Description

복수의 사용자를 위한 장치에서의 음성 인식 방법{SPEECH RECOGNITION METHOD AT AN APPARATUS FOR A PLURALITY OF USERS}[0001] SPEECH RECOGNITION METHOD AT APPARATUS FOR A PLURALITY OF USERS [0002]

본 발명은 복수의 사용자를 위한 장치에서의 음성 인식 방법에 관한 것으로서, 구체적으로는 사용자의 음성으로부터 추출할 수 있는 각 사용자의 음성 특징을 이용하여 사용자를 식별하고 이에 따라 사용자의 음성 인식이 정확하게 이루어질 수 있도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법에 관한 것이다.The present invention relates to a method for recognizing a voice in a device for a plurality of users, and more particularly, to a voice recognition method using a voice feature of each user extracted from a voice of a user, To a method for speech recognition in a device for a plurality of users.

노래방, DVD 방, 멀티방, 커피점 등과 같은 불특정 다수가 이용하는 다중 업소에는 각 업소에서 제공하는 서비스 또는 기능에 따라 특정 장치를 구비하고 있다. 이러한 장치는 예를 들어 노래 반주 장치이거나 DVD 재생기이거나 혹은 영상 및/또는 음악 등을 복합적으로 재생할 수 있는 장치일 수 있다.A multi-function shop, such as a karaoke room, a DVD room, a multi-room, a coffee shop, etc., is provided with a specific device in accordance with a service or function provided by each shop. Such a device may be, for example, a song accompaniment device, a DVD player, or a device capable of reproducing a combination of video and / or music.

한편 전자 기술의 발달로 문자나 키 입력에 대한 대안으로 혹은 병행하여 음성 인식이 상용화되고 있다. 이러한 음성 인식 기술은 예를 들어 핸드폰이나 네비게이션 등에 탑재되어 사용자로부터 음성을 수신하고 이로부터 텍스트로 변환하고 변환된 결과를 사용자에게 보여주거나 음성으로 변환된 결과를 다시 들려 줄 수 있도록 한다. On the other hand, as the development of electronic technology, voice recognition is being commercialized as an alternative to or in parallel with a letter or key input. Such a speech recognition technology is installed in, for example, a mobile phone or a navigation system, and receives a voice from a user, converts the voice to text, displays the converted result to the user, or re-transmits the voice converted result.

반면에 다중 업소에 이용되는 장치에는 이러한 음성 인식 기술을 이용하기에는 여러 제약이 따른다. On the other hand, there are various restrictions on the use of such speech recognition technology in devices used in multi-businesses.

먼저 이러한 장치는 특정 한 명의 사용자를 위한 장치가 아니라 다수의 사용자를 위한 장치이므로 정확히 음성 인식을 할 필요가 있고 이는 제품의 신뢰성에 관련된 문제이기도 한다. 예를 들어 음성 인식이 부정확한 경우에는 그 음성을 입력한 사용자뿐 아니라 같은 공간에 있는 다른 사람에게도 불편함을 끼치게 된다.First, since such a device is not a device for a specific user but a device for a plurality of users, it is necessary to accurately recognize the voice, which is also a problem related to the reliability of the product. For example, when speech recognition is inaccurate, it may cause inconvenience not only to the user who entered the speech but also to other persons in the same space.

또한 다중 업소의 이용 환경은 음성 인식에는 유리하지 못한 환경이다. 예를 들어 다중 업소에 배치된 각 장치에 의해서 영상이나 음악 또는 음성이 큰 출력으로 생성되고 또한 다수의 사용자에 의해서 배출되는 음성이 혼재하는 환경이다. 이러한 환경에서의 음성 인식은 필연적으로 음성 인식에 어려움이 있다. In addition, the use environment of multiple businesses is not favorable for voice recognition. For example, it is an environment in which video, music, or voice is generated as a large output by each device disposed in multiple businesses, and voices emitted by a plurality of users are mixed. Speech recognition in such an environment necessarily has difficulties in speech recognition.

또한 다중 업소의 사용자는 다중 업소의 장치를 전용으로 소유하여 이용하는 사용자가 아니라 불특정 다수의 사용자이다. 이러한 불특정 다수의 사용자를 고려하여 더욱더 정확한 음성 인식을 위해서는 고가의 음성 인식 프로세서(예를 들어 DSP)를 구비하여야 하고 이는 다중 업소의 장치의 생산 및 개발 비용을 증대시키도록 하는 문제가 있다. In addition, users of multiple businesses are not an individual who owns and use devices of multiple businesses but an unspecified number of users. In consideration of such an unspecified number of users, it is necessary to provide an expensive speech recognition processor (for example, DSP) for more accurate speech recognition, which increases the production and development cost of a multi-site device.

따라서 이러한 다중 업소의 환경을 고려하여 음성 인식을 정확히 그리고 저렴한 비용으로 제공할 수 있도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법이 필요하다. Therefore, there is a need for a method of recognizing speech in a device for a plurality of users, which enables speech recognition to be provided accurately and inexpensively in consideration of the environment of such a multi-shop.

본 발명은, 상술한 문제점을 해결하기 위해서 안출한 것으로서, 다중 업소의 장치를 이용하는 사용자를 음성으로부터 결정될 수 있는 음성 특징을 이용하여 자동으로 식별하고 식별된 사용자의 음성으로부터 텍스트로 변환하여 음성 인식의 정확도를 높이고 잡음을 제거할 수 있도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법을 제공하는 데 그 목적이 있다. SUMMARY OF THE INVENTION The present invention has been made in order to solve the above-described problems, and it is an object of the present invention to provide a voice recognition apparatus and a voice recognition method which automatically identifies a user using a multi- It is an object of the present invention to provide a method for recognizing a speech in a device for a plurality of users.

또한 본 발명은, 사용자의 음성 특징을 이용하여 음성으로부터 인식된 음성 특징이 저장된 음성 특징과 다른 경우에 텍스트로 변환하지 않도록 하여 수신된 음성의 필터링이 간단하게 이루어지도록 하고 불필요한 텍스트로의 변환을 제거하도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법을 제공하는 데 그 목적이 있다. In addition, the present invention is not limited to the case where the voice characteristic recognized from the voice is different from the stored voice characteristic by using the voice characteristic of the user, so that the filtering of the received voice is simplified and the conversion into unnecessary text is eliminated And a voice recognition method in a device for a plurality of users.

또한 본 발명은, 사용자의 개인 중요 정보의 노출 없이 다중 업소의 여러 장치에서 각 사용자의 음성 특징을 공유하고 이에 따라 각 사용자로부터의 음성을 텍스트로 변환하여 다중 업소의 장치가 제어될 수 있도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법을 제공하는 데 그 목적이 있다.The present invention also provides a method and apparatus for sharing a voice characteristic of each user in multiple devices of multiple businesses without exposing the user's personal important information and converting the voice from each user into text so that the multi- And an object of the present invention is to provide a speech recognition method in a device for a plurality of users.

또한 본 발명은, 다중 업소 장치의 성능 부하의 증가 없이 음성으로부터 텍스트로 변환할 수 있도록 하여 저비용으로 다중 업소 장치를 제공할 수 있도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법을 제공하는 데 그 목적이 있다.Further, the present invention provides a method for recognizing a speech in a device for a plurality of users, which enables conversion from voice to text without increasing the performance load of a multi-occupancy device, so that a multi-occupancy device can be provided at low cost It has its purpose.

또한 본 발명은, 사용자의 음성 특징을 실시간으로 수정하여 더욱더 정확한 음성 인식이 가능하도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법을 제공하는 데 그 목적이 있다.It is another object of the present invention to provide a method for recognizing speech in a device for a plurality of users, which enables a more accurate speech recognition by correcting a user's speech characteristic in real time.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.It is to be understood that both the foregoing general description and the following detailed description are exemplary and explanatory and are not restrictive of the invention, unless further departing from the spirit and scope of the invention as defined by the appended claims. It will be possible.

상기와 같은 목적을 달성하기 위한, 복수의 사용자를 위한 장치에서의 음성 인식 방법은, (a) 사용자로부터의 수신된 음성으로부터 사용자를 식별하기 위한 음성 특징을 추출하는 단계와 (b) 추출된 음성 특징이 상기 장치에 저장된 음성 특징에서 존재하는 지를 검색하는 단계와 (c) 추출된 음성 특징이 존재하는 경우, 상기 사용자의 음성에 대응하는 텍스트를 결정하는 단계를 포함한다.According to another aspect of the present invention, there is provided a speech recognition method for a plurality of users, comprising the steps of: (a) extracting a speech feature for identifying a user from a received speech from a user; (b) Retrieving whether a feature is present in the voice feature stored in the device; and (c) if the extracted voice feature is present, determining the text corresponding to the user's voice.

또한 상기와 같은 목적을 달성하기 위한, 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 단계 (a) 이전에, 사용자로부터 음성 특징의 등록 요청을 수신하는 단계와 사용자에 대응하는 음성 특징을 결정하기 위하여, 사용자로부터 수신된 음성으로부터 음성 특징을 추출하는 단계와 추출된 음성 특징을 사용자로부터 수신된 사용자 식별자에 맵핑하는 단계와 맵핑된 음성 특징과 사용자 식별자를 저장하여 사용자를 등록하는 단계를 더 포함한다.In order to achieve the above object, there is also provided a method of recognizing speech in a device for a plurality of users, comprising the steps of: (a) receiving a registration request for a voice feature from a user; Extracting the voice feature from the voice received from the user, mapping the extracted voice feature to the user identifier received from the user, and registering the user by storing the mapped voice feature and the user identifier do.

또한 상기와 같은 목적을 달성하기 위한, 복수의 사용자를 위한 장치에서의 음성 인식 방법은, (d) 결정된 텍스트로부터 제어 명령을 식별하는 단계와 (e) 식별된 제어 명령에 따라 상기 장치를 제어하는 단계를 더 포함한다.According to still another aspect of the present invention, there is provided a method for recognizing speech in a device for a plurality of users, the method comprising: (d) identifying a control command from a determined text; and (e) .

또한 상기와 같은 목적을 달성하기 위한, 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 추출된 음성 특징이 존재하는 경우, 추출된 음성 특징과 대응하는 저장된 음성 특징 사이의 차이를 결정하는 단계와 결정된 차이를 사용하여 상기 대응하는 저장된 음성 특징을 수정하는 단계를 더 포함한다.According to another aspect of the present invention, there is provided a speech recognition method for a plurality of users, comprising the steps of: determining a difference between an extracted speech feature and a corresponding stored speech feature when the extracted speech feature exists; And modifying the corresponding stored voice feature using the determined difference.

상기와 같은 본 발명에 따른 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 다중 업소의 장치를 이용하는 사용자를 음성으로부터 결정될 수 있는 음성 특징을 이용하여 자동으로 식별하고 식별된 사용자의 음성으로부터 텍스트로 변환하여 음성 인식의 정확도를 높이고 잡음을 제거할 수 있도록 하는 효과가 있다. The method for recognizing a speech in a device for a plurality of users according to the present invention as described above automatically identifies a user using a multi-user device by using a speech feature that can be determined from the speech, So that the accuracy of speech recognition can be improved and noise can be removed.

또한 상기와 같은 본 발명에 따른 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 사용자의 음성 특징을 이용하여 음성으로부터 인식된 음성 특징이 저장된 음성 특징과 다른 경우에 텍스트로 변환하지 않도록 하여 수신된 음성의 필터링이 간단하게 이루어지도록 하고 불필요한 텍스트로의 변환을 제거하도록 하는 효과가 있다.In addition, the method of recognizing speech in a plurality of user apparatuses according to the present invention may further comprise the steps of: It is possible to simplify the filtering of the voice and to eliminate the conversion into unnecessary text.

또한 상기와 같은 본 발명에 따른 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 사용자의 개인 중요 정보의 노출 없이 다중 업소의 여러 장치에서 각 사용자의 음성 특징을 공유하고 이에 따라 각 사용자로부터의 음성을 텍스트로 변환하여 다중 업소의 장치가 제어될 수 있도록 하는 효과가 있다.In addition, the method of recognizing speech in a device for a plurality of users according to the present invention, as described above, can share voice characteristics of each user in various devices of multiple businesses without exposing personal important information of the user, Is converted into a text so that the devices of multiple businesses can be controlled.

또한 상기와 같은 본 발명에 따른 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 다중 업소 장치의 성능 부하의 증가 없이 음성으로부터 텍스트로 변환할 수 있도록 하여 저비용으로 다중 업소 장치를 제공할 수 있도록 하는 효과가 있다. In addition, the speech recognition method for a plurality of users according to the present invention as described above can convert a speech-to-text into a text without increasing the performance load of the multi-tasking apparatus, It is effective.

또한 상기와 같은 본 발명에 따른 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 사용자의 음성 특징을 실시간으로 수정하여 더욱더 정확한 음성 인식이 가능하도록 하는 효과가 있다. In addition, the speech recognition method for a plurality of users according to the present invention as described above has the effect of enabling more accurate speech recognition by correcting the speech characteristics of the user in real time.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The effects obtained by the present invention are not limited to the above-mentioned effects, and other effects not mentioned can be clearly understood by those skilled in the art from the following description will be.

도 1은 본 발명에 따른 음성 인식 방법이 구현되는 시스템 환경을 도시한 도면이다.
도 2는 다중 업소 장치의 예시적인 하드웨어 블록도를 도시한 도면이다.
도 3은, 다중 업소 장치 및/또는 개인용 장치에서 수행되는 음성 인식 방법의 개괄적인 처리 과정을 도시한 도면이다.
도 4는, S100에 따른 사용자별 음성 특징을 등록하기 위한 예시적인 처리 흐름을 도시한 도면이다.
도 5는, S200에 따른 음성 인식을 이용하여 장치를 제어하기 위한 예시적인 처리 흐름을 도시한 도면이다.
도 6은, S300에 따라 음성 특징을 수정하기 위한 예시적인 처리 흐름을 도시한 도면이다.
1 is a diagram illustrating a system environment in which a speech recognition method according to the present invention is implemented.
2 is a diagram showing an exemplary hardware block diagram of a multi-functional apparatus.
3 is a diagram showing a general processing procedure of a speech recognition method performed in a multi-business apparatus and / or a personal apparatus.
4 is a diagram showing an exemplary process flow for registering user-specific voice features according to S100.
5 is a diagram showing an exemplary process flow for controlling the apparatus using speech recognition according to S200.
6 is a diagram illustrating an exemplary process flow for modifying a voice feature in accordance with S300.

상술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술 되어 있는 상세한 설명을 통하여 더욱 명확해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.
The above and other objects, features and advantages of the present invention will become more apparent from the following detailed description of the present invention when taken in conjunction with the accompanying drawings, in which: It can be easily carried out. In the following description, well-known functions or constructions are not described in detail since they would obscure the invention in unnecessary detail. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명에 따른 음성 인식 방법이 구현되는 시스템 환경을 도시한 도면이다. 1 is a diagram illustrating a system environment in which a speech recognition method according to the present invention is implemented.

도 1에 따르면 이 시스템 환경은, 하나 이상의 다중 업소 장치(100) 및/또는 하나 이상의 개인용 장치(200)를 포함하고, 또한 이 다중 업소 장치(100) 및/또는 개인용 장치(200)에 인터넷 등을 통해 연결된 원격 서버(300)를 포함한다. 1, the system environment includes one or more multi-premises devices 100 and / or one or more personal devices 200 and may also be connected to the Internet 100 Lt; RTI ID = 0.0 > 300 < / RTI >

이러한 시스템 환경은 필요에 따라 일부 시스템 블록을 생략할 수 있고 혹은 도 1에 도시되지 않은 다른 시스템 블록이 더 포함하도록 구성될 수 있다.Such a system environment may omit some system blocks as needed or may be configured to further include other system blocks not shown in Fig.

도 1의 시스템 환경에서의 각 블록들을 살펴보면, 다중 업소 장치(100)는, 불특정 다수의 사용자 또는 개인이 다중 업소에서 이용할 수 있고 이 다중 업소에 전용화된 기능을 제공할 수 있는 장치이다. Referring to the respective blocks in the system environment of FIG. 1, the multi-functional apparatus 100 is an apparatus that can be used by an unspecified number of users or individuals in multiple businesses and can provide a function dedicated to the multiple businesses.

이러한 다중 업소 장치(100)는, 예를 들어 노래 반주 장치이거나 DVD 재생기이거나 혹은 영상 및/또는 음악 등을 복합적으로 재생할 수 있는 장치일 수 있다.The multi-entertainment apparatus 100 may be, for example, a song accompaniment device, a DVD player, or a device capable of reproducing a combination of video and / or music.

이와 같은 다중 업소 장치(100)는, 불특정 다수의 사용자로부터 마이크 등을 이용하여 음성을 수신할 수 있고, 수신된 음성으로부터 음성 특징을 추출할 수 있다. 그리고 추출된 음성 특징은 다중 업소 장치(100)나 원격 서버(300)에 저장된 음성 특징과 비교하여 저장된 음성 특징과 일치하는 경우 또는 지정된 임계 범위에 따라 임계 범위 내에 있는 경우에, 수신된 음성은 하나 이상의 단어 또는 문자를 포함하는 텍스트(또는 문자열)로 변환되고, 변환된 텍스트에서 이 다중 업소 장치(100)를 제어하기 위한 제어 명령을 결정하여 이에 따라 다중 업소 장치(100)를 제어한다. The multi-premises device (100) can receive voice from a plurality of unspecified users by using a microphone or the like, and can extract voice features from the received voice. And the extracted voice feature is within the threshold range according to the voice feature stored in comparison with the voice feature stored in the multi-user device 100 or the remote server 300 or according to the specified critical range, (Or a character string) containing more than words or characters, and determines a control command for controlling the multi-functional apparatus 100 in the converted text, thereby controlling the multi-functional apparatus 100. [

또한 다중 업소 장치(100)는 전화 번호 또는 휴대 전화 번호 등과 같은 간단한 식별자를 사용자를 위한 식별자로 이용할 수 있다. 그리고 이러한 사용자를 위한 식별자는 사용자로부터 수신할 수 있고 수신된 식별자는 다중 업소 장치(100)나 원격 서버(300)에 저장된 사용자에 대하여 미리 저장된 음성 특징을 결정하기 위해서 사용되어 진다. Also, the multi-premises device 100 can use a simple identifier such as a telephone number or a mobile phone number as an identifier for the user. The identifier for this user may be received from the user and the received identifier may be used to determine the voice characteristics previously stored for the user stored in the multi-user device 100 or the remote server 300.

이러한 다중 업소 장치(100)가 등록된 사용자의 음성 특징을 이용하여 음성 인식을 할 것인지를 결정하고 이에 따라 텍스트로 변환하게 구성됨으로써, 음성 인식의 정확성을 높일 수 있고, 불필요한 텍스트로의 변환을 방지하여 잡음 또는 등록되지 않은 사용자에 의한 텍스트로의 변환으로 야기될 수 있는 여러 문제점 들을 해소할 수 있다. The multi-premises device (100) is configured to determine whether to perform speech recognition using the voice characteristics of a registered user and to convert the text into text, thereby improving the accuracy of speech recognition and preventing unnecessary conversion to text Thereby eliminating many problems that may be caused by noise or conversion into text by unregistered users.

음성 특징을 이용하여 다중 업소 장치(100)에서의 음성 인식 방법에 대해서는 도 3 내지 도 6을 통해서 상세히 살펴보도록 한다. The speech recognition method in the multi-premises device 100 using the speech feature will be described in detail with reference to FIG. 3 to FIG.

개인용 장치(200)는, 인터넷에 연결되어 개인 사용자가 휴대하거나 거치하여 사용되는 장치이다. 예를 들어 개인용 장치(200)는 휴대폰, 스마트폰, 태블릿 PC, 노트북, 거치형의 개인용 PC 등일 수 있다. The personal device 200 is a device that is connected to the Internet and is used by an individual user carried or carried. For example, the personal device 200 may be a mobile phone, a smart phone, a tablet PC, a notebook, a stationary personal PC, and the like.

이와 같은 개인용 장치(200)는, 이 개인용 장치(200)에 포함된 프로세서와 네트워크 인터페이스와 음성을 수신하기 위한 입력 인터페이스 등을 이용하여, 원격 서버(300)에 개인용 장치(200)를 이용하는 사용자의 음성 특징을 등록하기 위해서 이용된다. The personal device 200 may be connected to the personal server 200 by using a processor included in the personal device 200 and a network interface and an input interface for receiving voice. It is used to register voice features.

이에 따라 개인용 장치(200)는 사용자를 식별하기 위해 이용되는, 예를 들어 ID(identification)나 휴대 전화 번호나 전화 번호와 같은, 사용자 식별자와 음성 특징을 추출하기 위해서 이용되는 일련의 음성, 또는 이러한 일련의 음성으로부터 추출된 음성 특징을, 원격 서버(300)로 인터넷을 통해 전달할 수 있다. 이에 따라 원격 서버(300)로 하여금 사용자 식별자와 대응하는 음성 특징을 전달받거나 또는 추출하여, 사용자 식별자와 대응하는 음성 특징을 맵핑하여 데이터베이스나 대용량 저장 매체에 저장한다. Accordingly, the personal device 200 can be used to identify a user identifier and a series of voices used to extract voice features, such as, for example, an identification (ID) or a mobile phone number or a telephone number, Voice features extracted from a series of voices can be delivered to the remote server 300 over the Internet. Accordingly, the remote server 300 receives or extracts the voice feature corresponding to the user identifier, maps the voice feature corresponding to the user identifier, and stores the voice feature in the database or the mass storage medium.

이러한 개인용 장치(200)에서 사용자를 등록하기 위하여, 등록을 위한 프로그램이 개인용 장치(200)의 대용량 저장 매체에 저장될 수 있다. In order to register a user in this personal device 200, a program for registration may be stored in the mass storage medium of the personal device 200. [

개인용 장치(200)에서 발생할 수 있는, 사용자 등록을 위한 구체적인 처리 흐름은 도 3과 도 4를 통해서 좀 더 상세히 살펴보도록 한다. The specific process flow for user registration, which may occur in the personal device 200, will be described in more detail with reference to FIG. 3 and FIG.

원격 서버(300)는, 프로세서와 네트워크 인터페이스와 대용량 저장 매체를 구비하고, 인터넷을 통해 하나 이상의 개인용 장치(200) 및/또는 다중 업소 장치(100)로부터 사용자 등록을 위한, 사용자 식별자와 이 사용자의 음성으로부터 추출된 음성 특징 또는 이 사용자의 음성 데이터를 수신하고, 수신된 사용자 식별자와 대응하는 음성 특징(음성 데이터를 수신한 경우에는 음성 데이터로부터 음성 특징을 추출하여)을 대용량 저장 매체(예를 들어 하드 디스크)에 예를 들어 데이터 베이스의 형태로 저장한다. The remote server 300 includes a processor, a network interface, and a mass storage medium, and is capable of storing user identifiers and user information for user registration from one or more personal devices 200 and / A voice feature extracted from a voice or voice data of the user, and a voice feature corresponding to the received user identifier (extracting a voice feature from voice data when voice data is received) to a mass storage medium Hard disk) in the form of a database, for example.

또한 원격 서버(300)는, 다중 업소 장치(100)에 의한 음성 특징의 전송 요청에 따라, 이 요청에 포함된 사용자 식별자에 대응하는 음성 특징을 데이터 베이스로부터 검색하여, 검색된 음성 특징을 요청한 다중 업소 장치(100)로 전송할 수 있다.The remote server 300 searches the database for the voice characteristic corresponding to the user identifier included in the request in response to the transmission request of the voice characteristic by the multi-party device 100, To the device (100).

그리고 원격 서버(300)에 저장되는 데이터 베이스는 간단히 사용자 식별자와 음성 특징의 맵핑 관계로만 저장할 수 있고, 이에 따라 그 외 사용자에 관련된 부가적인 정보의 저장을 배제하도록 구성할 수 있다.Also, the database stored in the remote server 300 can be simply stored in the mapping relationship of the user identifier and the voice characteristic, thereby excluding the storage of additional information related to the other users.

예를 들어 데이터 베이스는, 사용자의 전화 번호나 휴대 전화 번호나 사용자의 ID(Identification)와 대응하는 음성 특징만을 맵핑하여 저장함으로써, 이 맵핑된 정보의 노출로부터 발생할 수 있는 사용자의 중요 개인 신상 정보의 무단 해킹을 방지할 수 있다.
For example, the database stores only the voice features corresponding to the user's phone number, mobile phone number, or user's ID (Identification), and stores the mapped voice characteristics, It is possible to prevent unauthorized hacking.

도 2는 다중 업소 장치(100)의 예시적인 하드웨어 블록도를 도시한 도면이다. 2 is a diagram showing an exemplary hardware block diagram of the multi-functional apparatus 100. As shown in FIG.

도 2에 따르면 다중 업소 장치(100)는, 입력부(110)와 오디오 출력부(120)와 비디오 출력부(130)와 메모리(140)와 하드 디스크(150)와 제어 프로세서(190)를 포함하고 음성 인식을 위해 이용되는 마이크 연결 포트(160)와 아날로그-디지털 변환기(170)와 오디오 처리 프로세서(180)를 또한 포함한다. 2, the multi-premises equipment 100 includes an input unit 110, an audio output unit 120, a video output unit 130, a memory 140, a hard disk 150, and a control processor 190 And also includes a microphone connection port 160, an analog-to-digital converter 170 and an audio processing processor 180, which are used for speech recognition.

여기서는, 제어 프로세서(190)와 오디오 처리 프로세서(180)를 이해를 위해 별도의 블록으로 도시하였으나 이에 국한될 필요가 없고, 예를 들어 제어 프로세서(190)가 오디오 처리 프로세서(180)의 기능을 처리하도록 다중 업소 장치(100)의 하드웨어가 구성되거나 하나의 칩셋(집적 회로) 내에 오디오 처리 프로세서 코어와 제어 프로세서 코어를 집적하여 구성될 수 있다.Although the control processor 190 and the audio processing processor 180 are shown here as separate blocks for the sake of understanding, the control processor 190 does not need to be limited to the control processor 190, The hardware of the multi-functional apparatus 100 may be configured or integrated into one chipset (integrated circuit) by integrating an audio processing processor core and a control processor core.

물론 도 2에 따른 다중 업소 장치(100)는 필요에 따라 일부 하드웨어 블록을 생략할 수 있고 혹은 도 2에 도시되지 않은 다른 하드웨어 블록이 더 포함하도록 구성될 수 있다.Of course, the multi-functional apparatus 100 according to FIG. 2 may omit some hardware blocks as needed, or may be configured to further include other hardware blocks not shown in FIG.

도 2에 따른, 다중 업소 장치(100)의 각 하드웨어 블록들을 살펴보면, 입력부(110)는, 터치 패널, 입력 키 버튼 및/또는 리모콘 수신 포트를 구비하여, 사용자로부터의 입력을 수신한다. 2, the input unit 110 includes a touch panel, an input key button, and / or a remote control receiver port, and receives an input from a user.

또한 터치 패널, 입력 키 버튼 및/또는 리모콘 수신 포트를 통한 리모콘에는 사용자의 음성 특징을 설정 등록하기 위한 특정 키가 배치되어 있을 수 있고, 이 특정 키를 통해 사용자의 음성 특징의 추출과 음성 특징과 사용자 맵핑 관계를 설정할 수 있도록 한다. Also, a specific key for setting and registering the voice characteristic of the user may be arranged on the remote controller through the touch panel, the input key button and / or the remote control receiver port. Through this specific key, Allows you to set up user mapping relationships.

물론 이러한 특정 키는, 마이크를 통하여 음성 특징의 등록을 위한 제어 명령의 인식으로 대체될 수 있거나 병행해서 이용될 수 있다. Of course, this particular key can be replaced by the recognition of a control command for registration of a voice feature through the microphone, or it can be used in parallel.

오디오 출력부(120)는, 제어 프로세서(190)나 오디오 처리 프로세서(180) 등에 의해서 출력된 디지털 오디오 신호를 아날로그 오디오 신호로 변환하여 스피커나 이어폰 등으로 출력한다. 이러한 오디오 출력부(120)는 오디오용 디지털-아날로그 변환기(Digital Analog Converter)를 포함할 수 있다. The audio output unit 120 converts a digital audio signal output from the control processor 190, the audio processing processor 180, or the like into an analog audio signal and outputs the analog audio signal to a speaker or an earphone. The audio output unit 120 may include a digital analog converter for audio.

비디오 출력부(130)는, 제어 프로세서(190) 등에 의해서 출력된 디지털 비디오 신호를 외부 디스플레이(도면 미도시)의 비디오 포맷에 맞추어 변경하여 외부 디스플레이로 출력한다. 이러한 비디오 출력부(130)는, 비디오용 디지털-아날로그 변환기(Digital Analog Converter)를 포함할 수 있다. The video output unit 130 changes the digital video signal output from the control processor 190 or the like to the video format of the external display (not shown) and outputs the converted digital video signal to the external display. The video output unit 130 may include a digital-to-analog converter for video.

메모리(140)는, 디램(DRAM)과 같은 휘발성 메모리 및/또는 플래쉬(Flash)와 같은 비휘발성 메모리를 포함한다. 이 메모리(140)는, 제어 프로세서(190)나 오디오 처리 프로세서(180)에서 구동되는 각종 프로그램과 영상 데이터나 음악 또는 음성 데이터를 영구히 또는 임시로 저장할 수 있다. The memory 140 includes volatile memory such as DRAM (dynamic random access memory) and / or non-volatile memory such as Flash. The memory 140 may permanently or temporarily store various programs and image data or music or voice data driven by the control processor 190 or the audio processing processor 180.

하드 디스크(150)는, 이 다중 업소 장치(100)에서 이용될 수 있는 각종 프로그램과 각종 콘텐츠를 저장한다. 이러한 콘텐츠는, 다중 업소 장치(100)의 유형에 따라 상이할 수 있고, 예를 들어 압축된 비디오 동영상 파일, 미디 포맷 또는 압축된 포맷으로 된 오디오 파일을 포함할 수 있다. The hard disk 150 stores various programs and various contents that can be used in the multi-functional apparatus 100. Such content may be different depending on the type of the multi-functional apparatus 100, and may include, for example, a compressed video movie file, an audio file in a MIDI format or a compressed format.

마이크 연결 포트(160)는, 이 다중 업소 장치(100)에 연결될 수 있는 마이크를 연결하기 위한 포트이다. 이러한 마이크 연결 포트(160)에 연결되는 마이크는, 외부 잡음을 제거하거나 최소화할 수 있는 직진성의 마이크일 수 있다. The microphone connection port 160 is a port for connecting a microphone that can be connected to the multi-functional apparatus 100. The microphone connected to the microphone connection port 160 may be a linear microphone capable of removing or minimizing external noise.

이러한 직진성의 마이크는, 마이크를 이용하는 사용자의 음성을 최대화하여 증폭할 수 있고, 그 외 잡음(음악 소리나, 다른 사용자 또는 사람의 소리)은 최소화화도록 구성된다. Such a straight-line microphone is configured to maximize and amplify the voice of a user using a microphone, and to minimize other noises (music sound, other user or human voice).

아날로그-디지털 변환기(170)(Analog Digital Converter, ADC)는 마이크 연결 포트(160)를 통해 연결된 마이크로부터의 아날로그 음성 신호를 디지털의 음성 신호로 변환하고, 지정된 포맷에 따라 변환된 디지털 오디오 스트림을 오디오 처리 프로세서(180)로 출력한다. An analog-to-digital converter (ADC) 170 converts an analog voice signal from a microphone connected through a microphone connection port 160 into a digital voice signal, and converts the converted digital audio stream according to a specified format into audio And outputs it to the processing processor 180.

이러한 아날로그-디지털 변환기(170)는 예를 들어 16 비트의 1 채널 I2S 포맷 등으로 변환하여 연속적인 디지털 오디오 스트림을 출력할 수 있다. The analog-to-digital converter 170 can output a continuous digital audio stream by converting it into, for example, 16-bit 1-channel I2S format or the like.

오디오 처리 프로세서(180)는, 수신된 디지털 오디오 스트림으로부터 사용자를 식별하기 위한 음성 특징을 추출한다. 이러한 오디오 처리 프로세서(180)는 디지털 오디오 스트림을 처리하기 위한 DSP(Digital Signal Processor)일 수 있다. The audio processing processor 180 extracts voice features for identifying the user from the received digital audio stream. The audio processing processor 180 may be a digital signal processor (DSP) for processing a digital audio stream.

이러한 오디오 처리 프로세서(180)는, 메모리(140)나 하드 디스크(150) 등에 저장된 음성 특징 추출을 위한 음성 특징 추출 프로그램을 로딩하여 이 추출 프로그램을 구동함으로써 음성 특징을 추출할 수 있다. The audio processing processor 180 may extract a voice feature by loading a voice feature extraction program for voice feature extraction stored in the memory 140 or the hard disk 150 and driving the extraction program.

이러한 음성 특징은 연결된 마이크별로 각각 추출될 수 있다. These voice features can be extracted for each connected microphone.

여기서 음성 특징은, 사용자로부터 수신된 음성으로부터 변환된(예를 들어 FFT 등을 이용하여) 디지털 오디오 스트림에 대하여 결정되는 주파수 도메인 상의 해당 음성을 다른 사용자의 음성과 구별하기 위한 주파수 파라미터이거나 주파수 도메인 상의 변환 전에 또는 별개로 디지털 오디오 스트림에서 결정할 수 있는 시간 도메인 상의 시간 파라미터이거나 또는 이 주파수 파라미터와 시간 파라미터의 조합으로 구성될 수 있다. Here, the voice characteristic is a frequency parameter for distinguishing the voice in the frequency domain determined from the voice received from the user (for example, using FFT, etc.) from the voice of the other user, Or may be a time parameter on the time domain that can be determined in the digital audio stream before or separately from the conversion, or a combination of the frequency parameter and the time parameter.

이러한 음성 특징은, 특정 사용자를 다른 사용자와 구별하기 위한 특징을 구성한다. 그리고 이 음성 특징은 동일한 단어나 문장을 읽는 경우라도 각 사용자별로 상이할 수 있다. 이러한 음성 특징을 사용자와 매칭함으로써 간단하게 음성을 필터링할 수 있고 더욱더 정확히 음성으로부터 텍스트의 변환이 가능하게 한다. Such a voice feature constitutes a feature for distinguishing a specific user from another user. This voice feature can be different for each user even if the same word or sentence is read. By matching these voice features with the user, it is possible to simply filter the voice and enable more accurate conversion of the text from the voice.

오디오 처리 프로세서(180)에서의 처리와 음성 특징에 대해서는 도 4나 도 5에서 더욱더 상세히 살펴보도록 한다. The processing and voice characteristics in the audio processing processor 180 will be described in more detail in FIG. 4 and FIG.

제어 프로세서(190)는, 각 하드웨어 블록을 제어한다. 예를 들어 제어 프로세서(190)는 메모리(140)나 하드 디스크(150) 등에 저장된 프로그램을 이용하여, 다중 업소 장치(100)에 부여된 기능을 수행한다.The control processor 190 controls each hardware block. For example, the control processor 190 performs a function assigned to the multi-functional apparatus 100 by using a program stored in the memory 140 or the hard disk 150 or the like.

또한 제어 프로세서(190)는 메모리(140)나 하드 디스크(150) 등에 저장된 사용자의 음성 인식을 위한 음성 인식 프로그램을 로딩하여 오디오 처리 프로세서(180)에 의해서 추출된 음성 특징을 메모리(140)나 하드 디스크(150) 등에 저장된 사용자와 음성 특징의 맵핑 관계에서 검색하여 추출된 음성 특징이 존재하는지 결정하고 만일 존재하는 경우에 해당 사용자로부터의 음성을 텍스트로 변환한다. The control processor 190 loads a voice recognition program for voice recognition of the user stored in the memory 140 or the hard disk 150 and outputs the voice characteristic extracted by the audio processor 180 to the memory 140 or the hard disk 150. [ A search is made in the mapping relation between the user and the voice feature stored in the disk 150 or the like to determine whether the extracted voice feature exists and if there is a voice from the user is converted into text.

만일 음성 특징이 존재하지 않는 경우에는 불필요한 변환이나 올바르지 못한 텍스트로의 변환을 방지하기 위해, 제어 프로세서(190)는 텍스트로의 변환을 하지 않도록 구성된다. 이에 따라 간단한 필터링으로 음성 인식에 따른 다중 업소 장치(100)에서의 불편함 등을 제거할 수 있다. If there is no speech feature, the control processor 190 is configured not to convert to text to avoid unnecessary or incorrect conversion to text. Accordingly, it is possible to eliminate inconveniences and the like in the multi-functional apparatus 100 due to speech recognition by simple filtering.

물론 제어 프로세서(190)는, 하드웨어 블록도의 그 구성 예에 따라서는 오디오 처리 프로세서(180)에서 수행되는 처리를 오디오 처리 프로세서(180) 대신에 수행할 수 있다. 이때에는 이 오디오 처리 프로세서(180)는 생략될 수 있다.Of course, the control processor 190 may perform the processing performed in the audio processing processor 180 instead of the audio processing processor 180, depending on the configuration example of the hardware block diagram. At this time, the audio processing processor 180 may be omitted.

제어 프로세서(190)에서 수행되는, 구체적인 각종 처리 흐름 또는 제어 흐름은, 도 3 내지 도 6을 통해서 살펴보도록 한다. Various specific process flows or control flows performed by the control processor 190 will be described with reference to FIGS. 3 through 6. FIG.

시스템 버스/제어 버스(도면 부호 미도시)는, 하드웨어 블록들을 연결하여 데이터를 송수신할 수 있도록 한다. 예를 들어 시스템 버스/제어 버스는, 시리얼 버스이거나 병렬(parallel) 버스일 수 있다.
A system bus / control bus (not shown) connects the hardware blocks to transmit and receive data. For example, the system bus / control bus may be a serial bus or a parallel bus.

도 3은, 다중 업소 장치(100) 및/또는 개인용 장치(200)에서 수행되는 음성 인식 방법의 개괄적인 처리 과정을 도시한 도면이다.3 is a diagram showing a general processing procedure of a speech recognition method performed in the multi-premises device 100 and / or the personal device 200. In FIG.

이러한 도 3에 따른 음성 인식 방법은 다중 업소 장치(100)에 의해서, 예를 들어 제어 프로세서(190) 및/또는 오디오 처리 프로세서(180)의 제어하에 각 하드웨어 블록을 이용하는 프로그램을 이용하여, 수행될 수 있다. 또한 개인용 장치(200)는 예를 들어 도 3의 음성 특징의 등록(S100) 과정을 처리할 수 있다.This speech recognition method according to FIG. 3 may be performed by the multi-premises device 100, for example, using a program that uses each hardware block under the control of the control processor 190 and / or the audio processing processor 180 . Also, the personal device 200 can process the registration (S100) of the voice feature of FIG. 3, for example.

또한 도 3에 따른 각 처리 과정은 순차적으로 수행될 필요는 없고 예를 들어 음성 특징을 이용한 제어(S200)의 처리 과정 동안에 음성 특징의 등록(S100) 과정과 음성 특징의 수정(S300) 과정이 동시에 수행될 수 있도록 구성할 수도 있다. 이러한 도 3의 처리 과정은 명확한 이해를 위해 시계열화 한 것에 불과하다는 것은 자명할 것이다. 3 are not necessarily sequentially performed. For example, during the process of the control using the voice feature (S200), the registration of the voice feature (S100) and the modification of the voice feature (S300) are performed simultaneously Or may be configured to be performed. It will be appreciated that the process of FIG. 3 is just a deterioration of clock for a clear understanding.

도 3에 따른 개괄적인 처리 과정을 간단히 살펴보면, 먼저 단계 S100에서 음성 특징을 등록하고자 하는 사용자로부터 음성을 수신하여, 수신된 음성에서 해당 사용자의 음성 특징을 추출한다. 또한 이 사용자의 음성 특징에 사용자 식별자를 입력부(110)나 마이크(음성 인식 등을 통해) 등을 통해 수신하여 맵핑하고, 맵핑된 사용자의 음성 특징과 사용자 식별자는 이후 원격 서버(300) 및/또는 이 음성 인식 방법을 구현하는 다중 업소 장치(100)에 저장된다.3, a voice is received from a user who wishes to register a voice feature in step S100, and a voice feature of the user is extracted from the received voice. Also, the user identifier of the user is received and mapped through the input unit 110 or the microphone (via voice recognition or the like), and the mapped user's voice characteristic and user identifier are then transmitted to the remote server 300 and / Is stored in the multi-functional apparatus (100) implementing the speech recognition method.

단계 S100에 대한 예시적인 상세한 설명은 도 4를 통해 보다더 상세히 살펴보도록 한다. An exemplary detailed description of step S100 will be described in more detail with reference to FIG.

그리고 단계 S200에서 음성 특징을 이용하여 다중 업소 장치(100)를 제어하고자 하는 사용자로부터 음성을 수신하여 수신된 음성에서 음성 특징을 추출하고 이후 추출된 음성 특징이 저장된 음성 특징과 일치하는 경우에 사용자로부터의 음성으로부터 텍스트를 결정하고 이에 따라 다중 업소 장치(100)를 제어한다. In step S200, a voice is received from a user who intends to control the multi-functional device 100 using the voice feature, and the voice feature is extracted from the received voice. If the extracted voice feature coincides with the stored voice feature, And controls the multi-functional apparatus 100 accordingly.

여기서 저장된 음성 특징은 사용자가 이용하고 있는 다중 업소 장치(100)의 메모리(140)나 하드 디스크(150) 등에 저장되어 있는 음성 특징들이거나 또는 원격 서버(300)에 저장되어 있는 음성 특징들일 수 있다. The stored voice feature may be voice features stored in the memory 140 or hard disk 150 of the multi-user device 100 that the user is using or voice features stored in the remote server 300 .

단계 S200에 대한 예시적인 상세한 설명은 도 5를 통해 보다더 상세히 살펴보도록 한다. An exemplary detailed description of step S200 will be described in more detail with reference to FIG.

그리고 단계 S300에서, 등록된 사용자로부터 추출된 음성 특징은 또한 저장되어 있는 음성 특징을 수정하기 위해서 사용될 수 있다. 이에 따라 사용자의 음성 특징은 다중 업소 장치(100)의 이용 (빈도)에 따라서 변경되어 저장될 수 있다.Then, in step S300, the voice feature extracted from the registered user may also be used to modify the stored voice feature. Accordingly, the voice characteristic of the user can be changed and stored according to the use (frequency) of the multi-functional apparatus 100.

단계 S300에 대한 예시적인 상세한 설명은 도 6을 통해 보다더 상세히 살펴보도록 한다.
An exemplary detailed description of step S300 will be described in more detail with reference to FIG.

도 4는, S100에 따른 사용자별 음성 특징을 등록하기 위한 예시적인 처리 흐름을 도시한 도면이다. 이러한 도 4의 제어 흐름은 다중 업소 장치(100) 및/또는 개인용 장치(200)에 의해서 수행된다.4 is a diagram showing an exemplary process flow for registering user-specific voice features according to S100. This control flow of Fig. 4 is performed by the multi-premises device 100 and / or the personal device 200. [

먼저 단계 S103에서, 사용자로부터 음성 특징의 등록 요청을 수신한다. 이러한 등록 요청은, 입력부(110)를 통한 특정 키 코드의 수신으로 또는 마이크를 통한 특정 제어 명령의 수신으로부터 이루어질 수 있다.First, in step S103, a voice feature registration request is received from the user. Such a registration request may be made by receiving a specific key code via the input unit 110 or from receiving a specific control command via a microphone.

이후 단계 S105에서, 사용자로부터 사용자 식별자를 입력부(110)나 마이크 등을 통해 수신한다. 이러한 사용자 식별자는 예를 들어 전화 번호나 휴대 전화 번호나 원격 서버(300)의 데이터베이스에 등록하기 위한 사용자의 ID(Identification) 등일 수 있다. 이러한 사용자 식별자는 본 발명에 따른 음성 인식 방법이 구현되는 시스템 환경하에서 사용자를 유일하게 식별할 수 있도록 한다.In step S105, the user identifier is received from the user through the input unit 110, the microphone, or the like. Such a user identifier may be, for example, a telephone number or a mobile phone number, or a user's ID (identification) for registering in a database of the remote server 300. [ This user identifier allows the user to be uniquely identified in a system environment in which the speech recognition method according to the present invention is implemented.

물론 단계 S105는, 다른 단계들과 시계열적으로 일정한 순서로 수행될 필요는 없다. Of course, the step S105 need not be performed in a predetermined order in time with other steps.

이후 단계 S107에서, 하나 이상의 문장을 비디오 출력부(130) 등을 통해 디스플레이에 표시한다. 이러한 하나 이상의 문장은 사용자의 음성 특징을 추출하기 위한 용도의 문장들이다. Then, in step S107, one or more sentences are displayed on the display through the video output unit 130 or the like. These one or more sentences are sentences for the purpose of extracting the voice characteristic of the user.

여기서 이 하나 이상의 문장에는, 예를 들어 다중 업소 장치(100)를 제어하기 위해서 이용되는 단어 등을 포함할 수 있다. 예를 들어 이 문장에는 "시작", "종료", "예약", 숫자 등과 같이 음성 인식에 따라 특정 다중 업소 장치(100)에 할당되거나 이용되는 문자 혹은 단어를 포함할 수 있다.Here, the one or more sentences may include, for example, words used for controlling the multi-functional apparatus 100 or the like. For example, the sentence may include a character or a word assigned to or used by a specific multi-functional device 100 according to speech recognition such as "start ", &

이후 단계 S109에서, 표시된 하나 이상의 문장을 사용자는 마이크를 이용해서 소리내어 읽고 이 하나 이상의 문장에 대응하여 발성된 음성은 마이크를 통해 그리고 아날로그-디지털 변환기(170)를 통해 수신된다. Thereafter, in step S109, the user reads aloud one or more sentences aloud using the microphone, and the voiced speech corresponding to the one or more sentences is received via the microphone and via the analog-to-digital converter 170. [

여기서, 단계 S109에서는 문장을 통한 음성 수신을 언급하였으나, 문장으로 국한될 필요는 없고, 복수의 단어에 대한 음성 수신으로 구성될 수도 있다.Here, in step S109, although speech reception through a sentence is mentioned, it need not be limited to a sentence, and may be constituted by voice reception for a plurality of words.

그리도 단계 S111에서 사용자로부터 수신된 음성으로부터 음성 특징을 추출한다. In step S111, a voice feature is extracted from the voice received from the user.

여기서 이 음성 특징은 표시된 하나 이상의 문장 전체에 대하여 추출된 음성 특징이거나 지정된 문자 혹은 단어 등에 대응하여 추출된 음성 특징일 수 있다. 이에 따라 전체 문장에 대하여 음성 특징값의 평균 등을 취하여 도출되는 음성 특징 혹은 지정된 단어 혹은 문자에 대하여 음성 특징값의 평균 등을 취하여 도출되는 음성 특징 등일 수 있다.Herein, the voice characteristic may be a voice characteristic extracted for the entire one or more sentences, or a voice characteristic extracted corresponding to a designated character or word. Accordingly, it may be a voice feature derived by taking an average of voice feature values for the entire sentence, a voice feature derived by taking an average of voice feature values for a specified word or character, and the like.

여기서, 각 지정된 문자나 단어에 대한 음성 특징들을 또한 각각 별개로 저장할 수도 있고, 이러한 각 지정된 문자나 단어에 대한 음성 특징들은 다중 업소 장치(100)를 제어하기 위한 용도로 이용될 수도 있다.Here, the voice features for each designated character or word may also be stored separately, and the voice features for each designated character or word may be used for controlling the multi-premises device 100.

또한 음성 특징의 추출과는 별도로 각 지정된 문자나 단어를 일반적으로 알려진 음성 인식 기술을 이용하여 식별하고, 이 지정된 문자나 단어에 대응하는 음성 인식 기술에서의 음향 모델에 따라 단어나 문자 등에 매칭을 위해서 이용되는 예를 들어 음향 모델 파라미터(예를 들어 주파수 특징 벡터)들을 FFT 등을 이용하여 각 사용자를 위해 추출할 수도 있다. In addition, in addition to the extraction of speech features, each designated character or word is identified using a commonly known speech recognition technique, and in accordance with an acoustic model in a speech recognition technique corresponding to the specified character or word, For example, acoustic model parameters (for example, frequency characteristic vectors) to be used may be extracted for each user by using FFT or the like.

이러한 각 지정된 문자나 단어에 대응하는 음향 모델 파라미터들은 또한 각 사용자에 대하여 사용자 식별자와 함께 다중 업소 장치(100)에 저장되거나 또는 원격 서버(300)로 전송되어 원격 서버(300)에 사용자 식별자와 함께 저장될 수 있다.The acoustic model parameters corresponding to each of these designated characters or words may also be stored in the multi-premises device 100 together with the user identifier for each user or transmitted to the remote server 300 and coupled with the user identifier to the remote server 300 Lt; / RTI >

이와 같은 음향 모델 파라미터들은 각 사용자로부터 대응하는 제어 명령 혹은 이 제어 명령에 포함되는 파라미터(예를 들어 숫자 번호 등)를 쉽게 식별할 수 있도록 하는 데 더 이용될 수 있다. Such acoustic model parameters may further be used to easily identify corresponding control commands from each user or parameters (e.g., numerical numbers, etc.) included in the control commands.

사용자에 대응하는 음성 특징은, 예를 들어 주파수 도메인 상의 주파수 파라미터 및/또는 시간 도메인 상의 시간 파라미터의 조합으로 구성된다. The speech feature corresponding to the user is composed of a combination of frequency parameters on the frequency domain and / or time parameters on the time domain, for example.

예를 들어 주파수 파라미터는, 사용자의 음성으로부터 주파수 도메인 상에서 사용자 고유의 예를 들어 사용자의 피치(pitch) 주파수 및/또는 사용자의 음색을 결정하기 위한 성대 주파수 등일 수 있다.For example, the frequency parameter may be a user-specific pitch frequency of the user in the frequency domain from the user's voice and / or a loudspeaker frequency for determining the tone of the user.

이러한 피치 주파수는 각 사용자별로 상이할 수 있고 또한 성대 주파수는 발성 중에 들숨이나 날숨을 통해 성대에 유도되는 각 사용자 간에 상이할 수 있는 잡음 주파수일 수 있다. 이러한 피치 주파수와 성대 주파수 등은, 혹은 이외의 사용자의 음성을 식별하기 위한 다른 주파수 특징들을 더 포함하여, 각 사용자의 음성 맵씨로서 각 사용자를 용이하게 식별할 수 있도록 한다. Such a pitch frequency may be different for each user and the vocal frequency may be a noise frequency that can be different between each user who is guided to the vocal cords through inhalation or exhalation during vocalization. These pitch frequencies and loudspeaker frequencies may further include other frequency characteristics for identifying the voice of a user other than the other, so that each user can be easily identified as a voice map of each user.

이러한 주파수 파라미터는, 수신된 사용자 음성으로부터 변환된 디지털 오디오 스트림에 대한 주파수 도메인 상으로의 변환(예를 들어 FFT(Fast Fourier Transform), 코사인 변환(Cosine Transform))과 함께 변환된 주파수에 대한 분석으로 획득되어 질 수 있다. This frequency parameter may be determined by analyzing the frequency converted with the frequency domain transform (e.g., FFT (Fast Fourier Transform), Cosine Transform) for the converted digital audio stream from the received user voice Can be obtained.

예를 들어 시간 파라미터는, 음성의 크기(또는 세기), 음성의 진폭(또는 범위), 음성의 높낮이(크기의 변화)로부터 판단되는 음성 리듬, 및/또는 음성의 스피드 등일 수 있다. For example, the time parameter may be the magnitude (or intensity) of the voice, the amplitude (or range) of the voice, the voice rhythm determined from the level of the voice (change in size), and / or the speed of voice.

시간 파라미터는 시간상으로 연속적으로 수신된 디지털 오디오 스트림으로부터 결정되어 질 수 있다. 예를 들어 음성의 크기는, 디지털 오디오 스트림의 각 오디오 데이터의 크기 값(예를 들어 아날로그-디지털 변환기(170)로부터의 양자화된 출력값) 또는 그 평균으로, 음성의 진폭은 각 오디오 데이터의 크기 값의 범위 또는 그 평균 값으로, 음성 리듬은 문장 또는 단어 내에서의 오디오 데이터의 크기 값의 변화 패턴으로, 음성의 스피드는, 각 문자와 후속하는 문자 사이의 시간 간격등으로 결정될 수 있다. The time parameter may be determined from the digital audio stream continuously received in time. For example, the size of the voice may be determined by the magnitude value of each audio data in the digital audio stream (e.g., the quantized output value from the analog-to-digital converter 170) or the average thereof, Or a mean value thereof. The voice rhythm is a variation pattern of the magnitude value of audio data in a sentence or a word, and the speed of voice can be determined by a time interval between each character and a following character.

물론 이러한 예시적인 주파수 파라미터나 시간 파라미터는, 특정 사용자를 식별하기 위한 예에 불과하고 이 외에도 여러 다른 주파수 특색이나 시간 도메인 상의 특색이 사용자를 식별하기 위해 이용되어 질 수 있다.Of course, these exemplary frequency parameters or time parameters are only examples for identifying a particular user, and in addition to that, different frequency features or time domain features may be used to identify the user.

그리고 이러한 시간 파라미터와 주파수 파라미터는 음성을 필터링하기 위한 용도로 음성 특징의 구성 요소로서 포함될 수 있다.And such time and frequency parameters may be included as a component of a voice feature for filtering speech.

예를 들어 음성 특징은, 하나 이상의 주파수 파라미터를 포함하거나 하나 이상의 시간 파라미터를 포함할 수 있고 혹은 이 하나 이상의 주파수 파라미터와 시간 파라미터를 같이(조합으로) 포함할 수 있다. For example, the voice feature may include one or more frequency parameters, or may include one or more temporal parameters, or may include (in combination) the one or more frequency and time parameters.

이러한 여러 파라미터의 포함은, 특정 사용자를 보다더 용이하게 그리고 정확히 식별할 수 있도록 하고, 또한 각 파라미터의 비교 범위를 좀 더 넓은 범위에서 비교될 수 있도록 한다. The inclusion of these multiple parameters makes it easier and more precise to identify a particular user and also allows the comparison range of each parameter to be compared over a wider range.

이후 단계 S113에서, 추출된 음성 특징을 수신된 사용자 식별자에 맵핑하고, 단계 S115에서 맵핑된 음성 특징과 사용자 식별자를 또는 이에 더하여 다중 업소 장치(100)의 제어를 위한 지정된 문자나 단어에 대응하고 음성 인식을 위한 음향 모델에 따른 각 사용자의 음향 모델 파라미터들을 하드 디스크(150)나 메모리(140) 등에 저장하여 등록을 완료한다. Thereafter, in step S113, the extracted voice feature is mapped to the received user identifier. In step S115, the voice feature and the user identifier mapped in step S115, or in addition to the designated character or word for control of the multi- The acoustic model parameters of each user according to the acoustic model for recognition are stored in the hard disk 150 or the memory 140 and the registration is completed.

여기서 사용자의 등록을 위해서는 단지 사용자 식별자와 음성 특징만이 이용되도록 구성될 수 있고 이에 따라 사용자에 대한 특정 중요 정보의 노출을 방지할 수 있다. Where only the user identifier and voice features can be configured to be used for registration of the user, thereby preventing exposure of certain important information to the user.

그리고 이러한 맵핑된 음성 특징과 사용자 식별자 혹은 이에 더하여 다중 업소 장치(100)의 제어를 위한 지정된 문자나 단어에 대응하고 음성 인식을 위한 음향 모델에 따른 각 사용자의 음향 모델 파라미터들은 다중 업소 장치(100)에서 혹은 다른 다중 업소 장치(100)에서 이용될 수 있도록 인터넷 등을 통해 연결된 원격 서버(300)로 전송(S117)된다.
The acoustic model parameters corresponding to the mapped speech features and the user identifiers or in addition to the designated characters or words for control of the multi-functional apparatus 100 and corresponding to the acoustic models for speech recognition are stored in the multi- (S117) to the remote server 300 connected via the Internet or the like so that it can be used in the other multi-functional apparatuses 100 or the like.

도 5는, S200에 따른 음성 인식을 이용하여 장치를 제어하기 위한 예시적인 처리 흐름을 도시한 도면이다. 5 is a diagram showing an exemplary process flow for controlling the apparatus using speech recognition according to S200.

입력부(110) 등을 통한 사용자의 음성 특징을 이용한 음성 인식의 시작 요청(즉 각 사용자에 대한 음성 인식의 요청)에 따라 단계 S203에서 입력부(110)나 마이크 등을 통해 사용자의 식별자를 수신한다. 그리고 사용자 식별자에 대응하는 음성 특징을 결정한다. And receives an identifier of the user through the input unit 110 or the microphone in step S203 according to a start request of speech recognition using the voice feature of the user through the input unit 110 or the like (i.e., a voice recognition request for each user). And determines a voice feature corresponding to the user identifier.

따라서, 다중 업소 장치(100)는 여러 사용자의 음성 인식의 시작 요청에 따라 대응하는 복수의 음성 특징을 결정하고 이 복수의 음성 특징에 대응하는 사용자의 음성 인식만이 가능하도록 한다. Accordingly, the multi-premises equipment 100 determines a plurality of corresponding voice features in response to a start request of voice recognition of a plurality of users, and enables only voice recognition of the user corresponding to the plurality of voice features.

이러한 결정된 음성 특징들은 이 단계 S200을 수행하는 다중 업소 장치(100)의 메모리(140)나 하드 디스크(150)에 저장되어 있었던 음성 특징이거나 혹은 저장되어 있지 않은 경우에는 사용자 식별자를 이용하여 원격 서버(300)로부터 수신되어 저장되는 음성 특징일 수 있다. The determined voice features are voice characteristics stored in the memory 140 or the hard disk 150 of the multi-functional apparatus 100 performing the step S200 or may be stored in the remote server 300). ≪ / RTI >

물론 이 과정에서 음성 특징이 다중 업소 장치(100)나 원격 서버(300)에 존재하지 않는 경우에는 등록 과정(S100)을 사용자에게 요청할 수 있다. Of course, if the voice feature is not present in the multi-user device 100 or the remote server 300, the user can request the registration process S100.

이후 단계 S205에서 마이크와 그리고 아날로그-디지털 변환기(170)를 통해 사용자로부터의 음성을 수신한다. Then, in step S205, the microphones and the analog-to-digital converter 170 receive voice from the user.

그리고 단계 S207에서 수신된 음성으로부터 음성 특징을 추출한다. 이러한 음성 특징은 주파수 파라미터 및/또는 시간 파라미터를 포함할 수 있다. Then, the speech feature is extracted from the speech received in step S207. Such speech features may include frequency parameters and / or time parameters.

이후 단계 S209에서 이 추출된 음성 특징이 다중 업소 장치(100)에 저장되어 있는 지를 검색한다. Then, in step S209, it is searched whether the extracted voice feature is stored in the multi-functional apparatus 100. [

이 단계 S209는, 음성 인식의 시작 요청을 한 하나 이상의 사용자 식별자에 대응하는 결정된 하나 이상의 음성 특징으로부터 추출된 음성 특징이 존재하는 지를 인식하기 위해서 검색한다.This step S209 searches to recognize if there is a voice feature extracted from the determined one or more voice features corresponding to the one or more user identifiers that requested the start of voice recognition.

물론 이러한 하나 이상의 음성 특징은, 다중 업소 장치(100)에 이미 저장되어 있었던 음성 특징이거나, 혹은 단계 S203에서 사용자의 음성 인식의 시작 요청에 따라 동적으로 원격 서버(300)로부터 수신되어 다중 업소 장치(100)의 메모리(140)나 하드 디스크(150) 등에 저장되는 음성 특징일 수 있다. Of course, the one or more voice features may be voice features already stored in the multi-premises device 100, or dynamically received from the remote server 300 in response to a start request of the user's voice recognition in step S203, 100 or the memory 140 or the hard disk 150 of the mobile terminal 100. [

여기서 추출된 음성 특징의 검색은, 예를 들어 단계 S203에 따라 음성 인식의 시작 요청이 이루어진 복수의 음성 특징에 대해서만 이루어져서, 간단한 검색으로 특정 사용자인지를 식별할 수 있도록 한다. The retrieval of the extracted voice feature is performed only for a plurality of voice features for which a start request for voice recognition is made according to, for example, step S203, so that a simple search can identify a specific user.

혹은 이에 대한 대안으로, 사용자의 식별자를 이용하지 않고(즉 S203 단계를 수행하지 않고), 다중 업소 장치(100)에 이미 저장되어 있는 복수의 음성 특징들에 대한 검색으로 이루어질 수도 있다. Alternatively, an alternative may be to search for a plurality of voice features already stored in the multi-premises device 100 without using the user's identifier (i.e., without performing step S203).

그리고 음성 특징의 검색은, 추출된 음성 특징의 각 파라미터(주파수 및/또는 시간 도메인 상의)가 복수의 음성 특징에 포함된 각 파라미터의 비교로 이루어지고 예를 들어 추출된 음성 특징의 각각의 파라미터가 복수의 음성 특징 중 대응하는 각각의 파라미터의 임계 범위(예를 들어 파라미터를 중심으로 +5% ~ -5%, 이러한 임계 범위는 파라미터별로 각 파라미터의 특징에 따라 상이할 수 있다) 내인지로 존재 여부를 결정할 수 있다. The search for speech features may be performed by comparing each parameter of the extracted speech feature (on the frequency and / or time domain) with each of the parameters included in the plurality of speech features, for example, The threshold range of each corresponding parameter of the plurality of speech features (for example, + 5% to -5% with respect to the parameter, this threshold range may vary depending on the characteristics of each parameter per parameter) Can be determined.

동일한 사용자인 경우에라도 특정 시간, 특정 상황에 따라 음성 특징은 달라 질 수 있으므로, 임계 범위를 이용하여 간단히 이러한 변화에도 불구하고 사용자를 용이하게 식별할 수 있고, 또한 다수의 파라미터를 이용하므로, 정확히 사용자 또는 이 사용자의 대응하는 음성 특징을 식별할 수 있도록 한다. Even if the user is the same user, the voice characteristic can be changed according to the specific time and the specific situation. Therefore, the user can be easily identified regardless of such a change simply by using the threshold range, and also using a plurality of parameters, Or to identify the corresponding voice features of this user.

그리고 이후 단계 S211에서 음성 특징이 예를 들어 음성 인식의 시작 요청이 이루어진 복수의 음성 특징에 존재하는 지를 결정하여, 존재하지 않는 경우에는 수신된 음성을 음성 인식 변환을 하지 않고, 단계 S205로 전이한다.Then, in step S211, it is determined whether or not the voice feature exists in, for example, a plurality of voice features for which a start request for voice recognition is made. If the voice feature is not present, the voice is not subjected to voice recognition conversion and the process proceeds to step S205 .

반면에 음성 특징이 존재하는 경우에는, S213으로 전이한다.On the other hand, if there is a voice feature, the process proceeds to S213.

단계 S213에서, 수신된 음성에 대응하는 텍스트를 결정한다. 이러한 텍스트는 하나의 문장을 구성하거나 하나 혹은 하나 이상의 단어 또는 문자로 구성될 수 있다. In step S213, the text corresponding to the received voice is determined. These texts may constitute one sentence or may consist of one or more words or letters.

이러한 음성의 텍스트로의 결정은 주지의 음성 인식 변환 기술을 이용하여 이루어진다. 이러한 음성 인식 변환 기술은 예를 들어 수신된 음성을 FFT 등을 통해 주파수 대역으로의 변환과 주어진 음향 모델을 이용하여 대응하는 단어나 문자나 문장등으로 변환하도록 한다. The determination of such speech as text is accomplished using well-known speech recognition conversion techniques. For example, the speech recognition conversion technique converts a received speech into a frequency band through an FFT or the like, and converts the received speech into a corresponding word, character, or sentence using a given acoustic model.

여기서 이 텍스트로의 결정에 또한 사용자의 추출된 음성 특징 또는 추출된 음성 특징에 대응하고 다중 업소 장치(100)에 저장되어 있는 음성 특징이 이용될 수 있다. Here, the voice characteristic corresponding to the extracted voice characteristic or the extracted voice characteristic of the user and stored in the multi-functional apparatus 100 can also be used for determination with this text.

이에 따라 음성 인식 변환 기술은 이 추출되거나 저장된 음성 특징을 이용하여 텍스트를 더 정확히 인식할 수 있도록 한다. 이러한 인식 변환 기술은 주파수 도메인 상에서 이루어질 수 있고 개개인의 음성 특징이 더 반영되어 각 문자나 단어가 결정될 수 있도록 한다. Accordingly, the speech recognition conversion technology enables the text to be recognized more accurately by using the extracted or stored speech features. This cognitive conversion technique can be performed in the frequency domain and each individual character or word can be determined by further reflecting the individual voice characteristic.

또는(혹은 이에 더하여) 음성 인식 변환 기술은, 다중 업소 장치(100)에 저장될 수 있거나 원격 서버로부터 음성 특징과 함께 수신될 수 있는, 다중 업소 장치(100)를 제어하기 위한 각 사용자의 음성으로부터 결정된 지정된 문자나 단어에 대응하는 음향 모델 파라미터들을 이용할 수 있다. (Or in addition to) the speech recognition conversion technique may be applied to each of the user's voices to control the multi-user device 100, which may be stored in the multi-user device 100 or received with voice features from a remote server Acoustic model parameters corresponding to the determined designated character or word may be used.

이러한 지정된 문자나 단어는, 다중 업소 장치(100)에서 이용되는 제어 명령이거나 이 제어 명령의 입력 파라미터를 구성하고, 이에 따라 음성 인식 변환을 위한 음향 모델에서의 단어 간 또는 문자 간 매칭을 위해 이러한 대응하는 음향 모델 파라미터들이 이용될 수 있고 이에 따라 간단한 매칭으로 용이하게 제어 명령들을 포함하는 음성으로부터 텍스트로 성능 부하를 줄이면서 변환할 수 있도록 한다.These designated characters or words constitute the control command used in the multi-functional apparatus 100 or the input parameters of the control command, and accordingly, the corresponding character or word is used for matching between words or characters in an acoustic model for speech recognition conversion Acoustic model parameters can be used so that it can be easily converted from speech containing control commands to text in a simple match with reduced performance load.

여기서 텍스트로의 변환 또는 결정은, 이 다중 업소 장치(100)에서 필요한 제어 명령과 입력 파라미터의 정확한 결정이 중요하므로, 이 외의 다른 단어나 문자에 대해서는 그 정확성이 떨어져도 문제되지 않을 수 있다. Here, conversion or determination into text is important because it is important to precisely determine the control command and input parameters required in the multi-premises equipment 100, so that the accuracy of the other words or characters may not be a problem.

이후 단계 S215에서, 결정된 텍스트에서 제어 명령을 식별한다. 이러한 제어 명령은 다중 업소 장치(100)를 제어하기 위해서 이용되는 예를 들어 "시작", "종료", "예약", "OK", "선택" 등과 같은 단어일 수 있다. Then, in step S215, the control command is identified in the determined text. These control commands may be words such as "start", "end", "reservation", "OK", "select", etc., which are used to control the multi-

이러한 각 제어 명령을 식별한 후에, 단계 S217에서 각 제어 명령에 따라 다중 업소 장치(100)를 제어한다. After identifying each of these control commands, the multi-functional apparatus 100 is controlled in accordance with the respective control commands in step S217.

여기서 특정 제어 명령은 이 제어 명령의 입력 파라미터로 제공되는 예를 들어 일련의 숫자가 필요할 수 있다. 이에 따라 텍스트에서의 특정 제어 명령의 위치에 선행하거나 후행하는 단어를 식별하고 식별된 단어를 입력 파라미터로 하여 다중 업소 장치(100)를 제어할 수 있다.
Here, a specific control command may require, for example, a series of numbers provided as input parameters of the control command. Accordingly, it is possible to identify the words preceding or following the specific control command in the text, and to control the multi-functional apparatus 100 using the identified word as an input parameter.

도 6은, S300에 따라 음성 특징을 수정하기 위한 예시적인 처리 흐름을 도시한 도면이다. 이러한 S300은 S200과는 별도로 이루어질 수 있고, S200에서의 진행 과정의 처리 결과를 이용하여 이루어진다. 6 is a diagram illustrating an exemplary process flow for modifying a voice feature in accordance with S300. The step S300 may be performed separately from the step S200, and may be performed using the processing result of the step S200.

먼저 단계 S303에서, 단계 S211에서 음성 특징이 존재하는 경우에, 단계 S207에서 추출된 음성 특징과 음성 특징의 검색에 의해 대응하는 사용자 식별자를 메모리(140) 등에 임시로 저장한다. First, in step S303, if a voice feature exists in step S211, the user identifier corresponding to the retrieved voice feature and voice feature extracted in step S207 is temporarily stored in the memory 140 or the like.

이러한 임시 저장은 사용자 식별자별로 구별하도록 구성되고, 각 사용자별로 하나 이상의 추출된 음성 특징으로 구성될 수 있다. 이러한 하나 이상의 추출된 음성 특징은 단일의 다중 업소 장치(100)에서 시간 차에 따라 1회 이상으로 음성 특징이 추출된 경우일 수 있다. Such temporary storage may be configured to distinguish by user identifiers and may comprise one or more extracted voice features for each user. Such one or more extracted voice features may be the case where voice features are extracted more than once according to a time difference in a single multi-functional apparatus 100.

이후 단계 S305에서 임시로 저장된 사용자 식별자를 이용하여, 임시로 저장된 하나 이상의 음성 특징과 다중 업소 장치(100)에 저장되어 있는 대응하는 음성 특징 사이의 차이를 결정한다Then, using the temporarily stored user identifier in step S305, a difference between the temporarily stored one or more voice features and the corresponding voice feature stored in the multi-premises device 100 is determined

이러한 차이는 각 음성 특징에 포함된 주파수 파라미터 또는 시간 파라미터에 따라 상이하게 계산될 수 있다. These differences can be calculated differently depending on the frequency parameters or time parameters included in each speech feature.

여기서 차이는, 임시로 저장된 하나 이상의 음성 특징의 평균값과 저장되어 있는 대응하는 음성 특징의 값과의 차이로 결정될 수 있다.Where the difference may be determined by the difference between the average value of one or more temporally stored speech features and the corresponding value of the stored speech feature.

그리고 단계 S307에서, 이러한 차이를 반영하여 사용자 식별자에 대응하는 저장된 음성 특징을 수정하고 수정된 음성 특징을 다중 업소 장치(100)의 메모리(140)나 하드 디스크(150) 등에 저장한다. In step S307, the stored voice characteristic corresponding to the user identifier is corrected by reflecting the difference, and the modified voice characteristic is stored in the memory 140 or the hard disk 150 of the multi-functional device 100. [

이러한 음성 특징의 수정은, 이후 보다 더 정확한 음성 인식이 가능할 수 있도록 한다. This modification of the speech feature enables more accurate speech recognition than later.

그리고 단계 S309에서, 이러한 수정된 음성 특징은, 다른 다중 업소 장치(100)에서 이용될 수 있도록 원격 서버(300)로 사용자 식별자와 함께 전송된다.
Then, in step S309, this modified voice feature is transmitted with the user identifier to the remote server 300 so that it can be used in other multi-functional apparatuses 100. [

이상의 도 3 내지 도 6에서 알 수 있는 바와 같이 본 발명은, 지정된 사용자 만을 위한 음성 인식이 가능하도록 하고 각 사용자의 음성 특징을 이용하여 음성 인식이 가능하도록 하여, 음성 인식의 정확도를 높일 수 있고 예상치 못한 잡음으로부터 오동작을 방지할 수 있도록 한다. As can be seen from FIGS. 3 to 6, the present invention enables voice recognition for only a designated user, enables voice recognition using voice characteristics of each user, improves the accuracy of voice recognition, Thereby preventing a malfunction due to unacceptable noise.

또한 본 발명은, 간단한 필터링으로 불필요한 텍스트로의 변환을 제거하고 사용자 식별자와 대응하는 음성 특징만을 공유하고 저 사양의 음성 인식 기술을 이용할 수 있도록 한다.
Further, the present invention eliminates unnecessary conversion to text with simple filtering, allows only a voice feature corresponding to a user identifier to be shared, and utilizes a low-specification voice recognition technology.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것이 아니다. It will be apparent to those skilled in the art that various modifications and variations can be made in the present invention without departing from the spirit or scope of the invention. The present invention is not limited to the drawings.

100 : 다중 업소 장치
110 : 입력부 120 : 오디오 출력부
130 : 비디오 출력부 140 : 메모리
150 : 하드 디스크 160 : 마이크 연결 포트
170 : 아날로그-디지털 변환기 180 : 오디오 처리 프로세서
190 : 제어 프로세서
200 : 개인용 장치 300 : 원격 서버
100: Multi-functional device
110: input unit 120: audio output unit
130: video output unit 140: memory
150: Hard disk 160: Microphone connection port
170: analog-to-digital converter 180: audio processing processor
190: Control processor
200: Personal device 300: Remote server

Claims (7)

복수의 사용자를 위한 장치에서의 음성 인식 방법으로서,
(a) 사용자로부터의 수신된 음성으로부터 사용자를 식별하기 위한 음성 특징을 추출하는 단계;
(b) 추출된 음성 특징이 상기 장치에 저장된 음성 특징에서 존재하는 지를 검색하는 단계; 및
(c) 추출된 음성 특징이 존재하는 경우, 상기 사용자의 음성에 대응하는 텍스트를 결정하는 단계;를 포함하며,
상기 단계 (a) 이전에, 하나 이상의 사용자로부터 사용자 식별자를 수신하는 단계;를 더 포함하고,
상기 단계 (b)는, (b-1) 사용자 식별자에 대응하는 음성 특징을 결정하는 단계; 및 (b-2) 결정된 하나 이상의 음성 특징에서 추출된 음성 특징이 존재하지를 검색하는 단계;를 포함하는,
음성 인식 방법.
A speech recognition method in a device for a plurality of users,
(a) extracting a voice feature for identifying a user from a received voice from a user;
(b) retrieving whether the extracted voice feature is present in the voice feature stored in the device; And
(c) if the extracted voice feature is present, determining a text corresponding to the user's voice,
Further comprising: prior to step (a), receiving a user identifier from one or more users,
Wherein step (b) comprises: (b-1) determining a voice feature corresponding to a user identifier; And (b-2) searching for a speech feature extracted from the determined one or more speech features.
Speech recognition method.
제1항에 있어서,
상기 음성 특징은, 사용자의 음성을 주파수 도메인으로 변환하여 결정되는 주파수 파라미터와 시간 도메인 상에서 상기 사용자의 음성으로부터 결정되는 시간 파라미터의 조합으로 구성되는,
음성 인식 방법.
The method according to claim 1,
Wherein the voice feature comprises a combination of a frequency parameter determined by converting a user's voice into a frequency domain and a time parameter determined from the user's voice in a time domain,
Speech recognition method.
삭제delete 복수의 사용자를 위한 장치에서의 음성 인식 방법으로서,
(a) 사용자로부터의 수신된 음성으로부터 사용자를 식별하기 위한 음성 특징을 추출하는 단계;
(b) 추출된 음성 특징이 상기 장치에 저장된 음성 특징에서 존재하는 지를 검색하는 단계; 및
(c) 추출된 음성 특징이 존재하는 경우, 상기 사용자의 음성에 대응하는 텍스트를 결정하는 단계;를 포함하며,
상기 단계 (a) 이전에,
사용자로부터 음성 특징의 등록 요청을 수신하는 단계;
사용자에 대응하는 음성 특징을 결정하기 위하여, 사용자로부터 수신된 음성으로부터 음성 특징을 추출하는 단계;
추출된 음성 특징을 사용자로부터 수신된 사용자 식별자에 맵핑하는 단계; 및
맵핑된 음성 특징과 사용자 식별자를 저장하여 사용자를 등록하는 단계;를 더 포함하는,
음성 인식 방법.
A speech recognition method in a device for a plurality of users,
(a) extracting a voice feature for identifying a user from a received voice from a user;
(b) retrieving whether the extracted voice feature is present in the voice feature stored in the device; And
(c) if the extracted voice feature is present, determining a text corresponding to the user's voice,
Prior to step (a)
Receiving a registration request for a voice feature from a user;
Extracting a voice feature from a voice received from a user to determine a voice feature corresponding to the user;
Mapping extracted voice features to a user identifier received from a user; And
Further comprising registering the user by storing the mapped voice features and the user identifier,
Speech recognition method.
제4항에 있어서,
상기 맵핑된 음성 특징과 사용자 식별자를 상기 장치에 연결된 원격 서버에 전송하는 단계;를 더 포함하며,
상기 단계 (b)는, 동적인 음성 인식을 위해 사용자로부터 수신된 사용자 식별자에 대응하는 음성 특징을 상기 원격 서버로부터 수신 및 저장하여, 추출된 음성 특징이 존재하는 지를 검색하는,
음성 인식 방법.
5. The method of claim 4,
And transmitting the mapped speech feature and user identifier to a remote server connected to the device,
Wherein the step (b) comprises receiving and storing a voice feature corresponding to a user identifier received from a user for dynamic voice recognition from the remote server and searching for the presence of the extracted voice feature,
Speech recognition method.
제1항에 있어서,
(d) 결정된 텍스트로부터 제어 명령을 식별하는 단계; 및
(e) 식별된 제어 명령에 따라 상기 장치를 제어하는 단계;를 더 포함하는,
음성 인식 방법.
The method according to claim 1,
(d) identifying a control command from the determined text; And
(e) controlling the device in accordance with the identified control command.
Speech recognition method.
복수의 사용자를 위한 장치에서의 음성 인식 방법으로서,
(a) 사용자로부터의 수신된 음성으로부터 사용자를 식별하기 위한 음성 특징을 추출하는 단계;
(b) 추출된 음성 특징이 상기 장치에 저장된 음성 특징에서 존재하는 지를 검색하는 단계; 및
(c) 추출된 음성 특징이 존재하는 경우, 상기 사용자의 음성에 대응하는 텍스트를 결정하는 단계;를 포함하며,
추출된 음성 특징이 존재하는 경우, 추출된 음성 특징과 대응하는 저장된 음성 특징 사이의 차이를 결정하는 단계; 및 결정된 차이를 사용하여 상기 대응하는 저장된 음성 특징을 수정하는 단계;를 더 포함하는,
음성 인식 방법.
A speech recognition method in a device for a plurality of users,
(a) extracting a voice feature for identifying a user from a received voice from a user;
(b) retrieving whether the extracted voice feature is present in the voice feature stored in the device; And
(c) if the extracted voice feature is present, determining a text corresponding to the user's voice,
Determining a difference between the extracted speech characteristic and the corresponding stored speech characteristic when the extracted speech characteristic is present; And modifying the corresponding stored voice feature using the determined difference.
Speech recognition method.
KR1020120106657A 2012-09-25 2012-09-25 Speech recognition method at an apparatus for a plurality of users KR101429138B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120106657A KR101429138B1 (en) 2012-09-25 2012-09-25 Speech recognition method at an apparatus for a plurality of users

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120106657A KR101429138B1 (en) 2012-09-25 2012-09-25 Speech recognition method at an apparatus for a plurality of users

Publications (2)

Publication Number Publication Date
KR20140039868A KR20140039868A (en) 2014-04-02
KR101429138B1 true KR101429138B1 (en) 2014-08-11

Family

ID=50650400

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120106657A KR101429138B1 (en) 2012-09-25 2012-09-25 Speech recognition method at an apparatus for a plurality of users

Country Status (1)

Country Link
KR (1) KR101429138B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102515023B1 (en) 2018-02-23 2023-03-29 삼성전자주식회사 Electronic apparatus and control method thereof
KR102114365B1 (en) * 2018-05-23 2020-05-22 카페24 주식회사 Speech recognition method and apparatus

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000347684A (en) * 1999-06-02 2000-12-15 Internatl Business Mach Corp <Ibm> Speech recognition system
JP2005122128A (en) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd Speech recognition system and program
JP2005181358A (en) * 2003-12-16 2005-07-07 Victor Co Of Japan Ltd Speech recognition and synthesis system
KR100924399B1 (en) * 2001-06-08 2009-10-29 소니 가부시끼 가이샤 Voice recognition apparatus and voice recognition method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000347684A (en) * 1999-06-02 2000-12-15 Internatl Business Mach Corp <Ibm> Speech recognition system
KR100924399B1 (en) * 2001-06-08 2009-10-29 소니 가부시끼 가이샤 Voice recognition apparatus and voice recognition method
JP2005122128A (en) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd Speech recognition system and program
JP2005181358A (en) * 2003-12-16 2005-07-07 Victor Co Of Japan Ltd Speech recognition and synthesis system

Also Published As

Publication number Publication date
KR20140039868A (en) 2014-04-02

Similar Documents

Publication Publication Date Title
JP6613347B2 (en) Method and apparatus for pushing information
US8606581B1 (en) Multi-pass speech recognition
CN104123115B (en) Audio information processing method and electronic device
CN106796785B (en) Sound sample validation for generating a sound detection model
JP6510117B2 (en) Voice control device, operation method of voice control device, computer program and recording medium
JP2006504115A (en) Music identification system and method
CN102568478A (en) Video play control method and system based on voice recognition
CN111028845A (en) Multi-audio recognition method, device, equipment and readable storage medium
CN113330511B (en) Voice recognition method, voice recognition device, storage medium and electronic equipment
CN110097895B (en) Pure music detection method, pure music detection device and storage medium
US20200013422A1 (en) System, Method, and Apparatus for Morphing of an Audio Track
KR20180012639A (en) Voice recognition method, voice recognition device, apparatus comprising Voice recognition device, storage medium storing a program for performing the Voice recognition method, and method for making transformation model
US20120035919A1 (en) Voice recording device and method thereof
CN109361995A (en) A kind of volume adjusting method of electrical equipment, device, electrical equipment and medium
EP1640845A2 (en) User identification method, user identification device and corresponding electronic system
CN109841218A (en) A kind of voiceprint registration method and device for far field environment
JP2009175630A (en) Speech recognition device, mobile terminal, speech recognition system, speech recognition device control method, mobile terminal control method, control program, and computer readable recording medium with program recorded therein
CN111859008A (en) Music recommending method and terminal
KR101429138B1 (en) Speech recognition method at an apparatus for a plurality of users
CN107767862B (en) Voice data processing method, system and storage medium
WO2016137071A1 (en) Method, device, and computer-readable recording medium for improving set of at least one semantic unit using voice
KR20190062369A (en) Speech-controlled apparatus for preventing false detections of keyword and method of operating the same
KR102472921B1 (en) User interfacing method for visually displaying acoustic signal and apparatus thereof
CN110136677B (en) Musical tone control method and related product
CN110364182B (en) Sound signal processing method and device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180327

Year of fee payment: 4

R401 Registration of restoration