KR20140039868A - 복수의 사용자를 위한 장치에서의 음성 인식 방법 - Google Patents

복수의 사용자를 위한 장치에서의 음성 인식 방법 Download PDF

Info

Publication number
KR20140039868A
KR20140039868A KR1020120106657A KR20120106657A KR20140039868A KR 20140039868 A KR20140039868 A KR 20140039868A KR 1020120106657 A KR1020120106657 A KR 1020120106657A KR 20120106657 A KR20120106657 A KR 20120106657A KR 20140039868 A KR20140039868 A KR 20140039868A
Authority
KR
South Korea
Prior art keywords
voice
user
speech
feature
speech recognition
Prior art date
Application number
KR1020120106657A
Other languages
English (en)
Other versions
KR101429138B1 (ko
Inventor
김승영
Original Assignee
주식회사 금영
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 금영 filed Critical 주식회사 금영
Priority to KR1020120106657A priority Critical patent/KR101429138B1/ko
Publication of KR20140039868A publication Critical patent/KR20140039868A/ko
Application granted granted Critical
Publication of KR101429138B1 publication Critical patent/KR101429138B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은, (a) 사용자로부터의 수신된 음성으로부터 사용자를 식별하기 위한 음성 특징을 추출하는 단계와 (b) 추출된 음성 특징이 상기 장치에 저장된 음성 특징에서 존재하는 지를 검색하는 단계와 (c) 추출된 음성 특징이 존재하는 경우, 상기 사용자의 음성에 대응하는 텍스트를 결정하는 단계를 포함하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법에 관한 것이다.
본 발명을 이용함으로써, 다중 업소의 장치에서 저비용으로 더욱더 정확한 음성 인식이 가능하도록 하고 다중 업소의 장치를 편리하게 제어할 수 있도록 한다.

Description

복수의 사용자를 위한 장치에서의 음성 인식 방법{SPEECH RECOGNITION METHOD AT AN APPARATUS FOR A PLURALITY OF USERS}
본 발명은 복수의 사용자를 위한 장치에서의 음성 인식 방법에 관한 것으로서, 구체적으로는 사용자의 음성으로부터 추출할 수 있는 각 사용자의 음성 특징을 이용하여 사용자를 식별하고 이에 따라 사용자의 음성 인식이 정확하게 이루어질 수 있도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법에 관한 것이다.
노래방, DVD 방, 멀티방, 커피점 등과 같은 불특정 다수가 이용하는 다중 업소에는 각 업소에서 제공하는 서비스 또는 기능에 따라 특정 장치를 구비하고 있다. 이러한 장치는 예를 들어 노래 반주 장치이거나 DVD 재생기이거나 혹은 영상 및/또는 음악 등을 복합적으로 재생할 수 있는 장치일 수 있다.
한편 전자 기술의 발달로 문자나 키 입력에 대한 대안으로 혹은 병행하여 음성 인식이 상용화되고 있다. 이러한 음성 인식 기술은 예를 들어 핸드폰이나 네비게이션 등에 탑재되어 사용자로부터 음성을 수신하고 이로부터 텍스트로 변환하고 변환된 결과를 사용자에게 보여주거나 음성으로 변환된 결과를 다시 들려 줄 수 있도록 한다.
반면에 다중 업소에 이용되는 장치에는 이러한 음성 인식 기술을 이용하기에는 여러 제약이 따른다.
먼저 이러한 장치는 특정 한 명의 사용자를 위한 장치가 아니라 다수의 사용자를 위한 장치이므로 정확히 음성 인식을 할 필요가 있고 이는 제품의 신뢰성에 관련된 문제이기도 한다. 예를 들어 음성 인식이 부정확한 경우에는 그 음성을 입력한 사용자뿐 아니라 같은 공간에 있는 다른 사람에게도 불편함을 끼치게 된다.
또한 다중 업소의 이용 환경은 음성 인식에는 유리하지 못한 환경이다. 예를 들어 다중 업소에 배치된 각 장치에 의해서 영상이나 음악 또는 음성이 큰 출력으로 생성되고 또한 다수의 사용자에 의해서 배출되는 음성이 혼재하는 환경이다. 이러한 환경에서의 음성 인식은 필연적으로 음성 인식에 어려움이 있다.
또한 다중 업소의 사용자는 다중 업소의 장치를 전용으로 소유하여 이용하는 사용자가 아니라 불특정 다수의 사용자이다. 이러한 불특정 다수의 사용자를 고려하여 더욱더 정확한 음성 인식을 위해서는 고가의 음성 인식 프로세서(예를 들어 DSP)를 구비하여야 하고 이는 다중 업소의 장치의 생산 및 개발 비용을 증대시키도록 하는 문제가 있다.
따라서 이러한 다중 업소의 환경을 고려하여 음성 인식을 정확히 그리고 저렴한 비용으로 제공할 수 있도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법이 필요하다.
본 발명은, 상술한 문제점을 해결하기 위해서 안출한 것으로서, 다중 업소의 장치를 이용하는 사용자를 음성으로부터 결정될 수 있는 음성 특징을 이용하여 자동으로 식별하고 식별된 사용자의 음성으로부터 텍스트로 변환하여 음성 인식의 정확도를 높이고 잡음을 제거할 수 있도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법을 제공하는 데 그 목적이 있다.
또한 본 발명은, 사용자의 음성 특징을 이용하여 음성으로부터 인식된 음성 특징이 저장된 음성 특징과 다른 경우에 텍스트로 변환하지 않도록 하여 수신된 음성의 필터링이 간단하게 이루어지도록 하고 불필요한 텍스트로의 변환을 제거하도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법을 제공하는 데 그 목적이 있다.
또한 본 발명은, 사용자의 개인 중요 정보의 노출 없이 다중 업소의 여러 장치에서 각 사용자의 음성 특징을 공유하고 이에 따라 각 사용자로부터의 음성을 텍스트로 변환하여 다중 업소의 장치가 제어될 수 있도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법을 제공하는 데 그 목적이 있다.
또한 본 발명은, 다중 업소 장치의 성능 부하의 증가 없이 음성으로부터 텍스트로 변환할 수 있도록 하여 저비용으로 다중 업소 장치를 제공할 수 있도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법을 제공하는 데 그 목적이 있다.
또한 본 발명은, 사용자의 음성 특징을 실시간으로 수정하여 더욱더 정확한 음성 인식이 가능하도록 하는, 복수의 사용자를 위한 장치에서의 음성 인식 방법을 제공하는 데 그 목적이 있다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위한, 복수의 사용자를 위한 장치에서의 음성 인식 방법은, (a) 사용자로부터의 수신된 음성으로부터 사용자를 식별하기 위한 음성 특징을 추출하는 단계와 (b) 추출된 음성 특징이 상기 장치에 저장된 음성 특징에서 존재하는 지를 검색하는 단계와 (c) 추출된 음성 특징이 존재하는 경우, 상기 사용자의 음성에 대응하는 텍스트를 결정하는 단계를 포함한다.
또한 상기와 같은 목적을 달성하기 위한, 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 단계 (a) 이전에, 사용자로부터 음성 특징의 등록 요청을 수신하는 단계와 사용자에 대응하는 음성 특징을 결정하기 위하여, 사용자로부터 수신된 음성으로부터 음성 특징을 추출하는 단계와 추출된 음성 특징을 사용자로부터 수신된 사용자 식별자에 맵핑하는 단계와 맵핑된 음성 특징과 사용자 식별자를 저장하여 사용자를 등록하는 단계를 더 포함한다.
또한 상기와 같은 목적을 달성하기 위한, 복수의 사용자를 위한 장치에서의 음성 인식 방법은, (d) 결정된 텍스트로부터 제어 명령을 식별하는 단계와 (e) 식별된 제어 명령에 따라 상기 장치를 제어하는 단계를 더 포함한다.
또한 상기와 같은 목적을 달성하기 위한, 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 추출된 음성 특징이 존재하는 경우, 추출된 음성 특징과 대응하는 저장된 음성 특징 사이의 차이를 결정하는 단계와 결정된 차이를 사용하여 상기 대응하는 저장된 음성 특징을 수정하는 단계를 더 포함한다.
상기와 같은 본 발명에 따른 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 다중 업소의 장치를 이용하는 사용자를 음성으로부터 결정될 수 있는 음성 특징을 이용하여 자동으로 식별하고 식별된 사용자의 음성으로부터 텍스트로 변환하여 음성 인식의 정확도를 높이고 잡음을 제거할 수 있도록 하는 효과가 있다.
또한 상기와 같은 본 발명에 따른 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 사용자의 음성 특징을 이용하여 음성으로부터 인식된 음성 특징이 저장된 음성 특징과 다른 경우에 텍스트로 변환하지 않도록 하여 수신된 음성의 필터링이 간단하게 이루어지도록 하고 불필요한 텍스트로의 변환을 제거하도록 하는 효과가 있다.
또한 상기와 같은 본 발명에 따른 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 사용자의 개인 중요 정보의 노출 없이 다중 업소의 여러 장치에서 각 사용자의 음성 특징을 공유하고 이에 따라 각 사용자로부터의 음성을 텍스트로 변환하여 다중 업소의 장치가 제어될 수 있도록 하는 효과가 있다.
또한 상기와 같은 본 발명에 따른 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 다중 업소 장치의 성능 부하의 증가 없이 음성으로부터 텍스트로 변환할 수 있도록 하여 저비용으로 다중 업소 장치를 제공할 수 있도록 하는 효과가 있다.
또한 상기와 같은 본 발명에 따른 복수의 사용자를 위한 장치에서의 음성 인식 방법은, 사용자의 음성 특징을 실시간으로 수정하여 더욱더 정확한 음성 인식이 가능하도록 하는 효과가 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명에 따른 음성 인식 방법이 구현되는 시스템 환경을 도시한 도면이다.
도 2는 다중 업소 장치의 예시적인 하드웨어 블록도를 도시한 도면이다.
도 3은, 다중 업소 장치 및/또는 개인용 장치에서 수행되는 음성 인식 방법의 개괄적인 처리 과정을 도시한 도면이다.
도 4는, S100에 따른 사용자별 음성 특징을 등록하기 위한 예시적인 처리 흐름을 도시한 도면이다.
도 5는, S200에 따른 음성 인식을 이용하여 장치를 제어하기 위한 예시적인 처리 흐름을 도시한 도면이다.
도 6은, S300에 따라 음성 특징을 수정하기 위한 예시적인 처리 흐름을 도시한 도면이다.
상술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술 되어 있는 상세한 설명을 통하여 더욱 명확해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.
도 1은 본 발명에 따른 음성 인식 방법이 구현되는 시스템 환경을 도시한 도면이다.
도 1에 따르면 이 시스템 환경은, 하나 이상의 다중 업소 장치(100) 및/또는 하나 이상의 개인용 장치(200)를 포함하고, 또한 이 다중 업소 장치(100) 및/또는 개인용 장치(200)에 인터넷 등을 통해 연결된 원격 서버(300)를 포함한다.
이러한 시스템 환경은 필요에 따라 일부 시스템 블록을 생략할 수 있고 혹은 도 1에 도시되지 않은 다른 시스템 블록이 더 포함하도록 구성될 수 있다.
도 1의 시스템 환경에서의 각 블록들을 살펴보면, 다중 업소 장치(100)는, 불특정 다수의 사용자 또는 개인이 다중 업소에서 이용할 수 있고 이 다중 업소에 전용화된 기능을 제공할 수 있는 장치이다.
이러한 다중 업소 장치(100)는, 예를 들어 노래 반주 장치이거나 DVD 재생기이거나 혹은 영상 및/또는 음악 등을 복합적으로 재생할 수 있는 장치일 수 있다.
이와 같은 다중 업소 장치(100)는, 불특정 다수의 사용자로부터 마이크 등을 이용하여 음성을 수신할 수 있고, 수신된 음성으로부터 음성 특징을 추출할 수 있다. 그리고 추출된 음성 특징은 다중 업소 장치(100)나 원격 서버(300)에 저장된 음성 특징과 비교하여 저장된 음성 특징과 일치하는 경우 또는 지정된 임계 범위에 따라 임계 범위 내에 있는 경우에, 수신된 음성은 하나 이상의 단어 또는 문자를 포함하는 텍스트(또는 문자열)로 변환되고, 변환된 텍스트에서 이 다중 업소 장치(100)를 제어하기 위한 제어 명령을 결정하여 이에 따라 다중 업소 장치(100)를 제어한다.
또한 다중 업소 장치(100)는 전화 번호 또는 휴대 전화 번호 등과 같은 간단한 식별자를 사용자를 위한 식별자로 이용할 수 있다. 그리고 이러한 사용자를 위한 식별자는 사용자로부터 수신할 수 있고 수신된 식별자는 다중 업소 장치(100)나 원격 서버(300)에 저장된 사용자에 대하여 미리 저장된 음성 특징을 결정하기 위해서 사용되어 진다.
이러한 다중 업소 장치(100)가 등록된 사용자의 음성 특징을 이용하여 음성 인식을 할 것인지를 결정하고 이에 따라 텍스트로 변환하게 구성됨으로써, 음성 인식의 정확성을 높일 수 있고, 불필요한 텍스트로의 변환을 방지하여 잡음 또는 등록되지 않은 사용자에 의한 텍스트로의 변환으로 야기될 수 있는 여러 문제점 들을 해소할 수 있다.
음성 특징을 이용하여 다중 업소 장치(100)에서의 음성 인식 방법에 대해서는 도 3 내지 도 6을 통해서 상세히 살펴보도록 한다.
개인용 장치(200)는, 인터넷에 연결되어 개인 사용자가 휴대하거나 거치하여 사용되는 장치이다. 예를 들어 개인용 장치(200)는 휴대폰, 스마트폰, 태블릿 PC, 노트북, 거치형의 개인용 PC 등일 수 있다.
이와 같은 개인용 장치(200)는, 이 개인용 장치(200)에 포함된 프로세서와 네트워크 인터페이스와 음성을 수신하기 위한 입력 인터페이스 등을 이용하여, 원격 서버(300)에 개인용 장치(200)를 이용하는 사용자의 음성 특징을 등록하기 위해서 이용된다.
이에 따라 개인용 장치(200)는 사용자를 식별하기 위해 이용되는, 예를 들어 ID(identification)나 휴대 전화 번호나 전화 번호와 같은, 사용자 식별자와 음성 특징을 추출하기 위해서 이용되는 일련의 음성, 또는 이러한 일련의 음성으로부터 추출된 음성 특징을, 원격 서버(300)로 인터넷을 통해 전달할 수 있다. 이에 따라 원격 서버(300)로 하여금 사용자 식별자와 대응하는 음성 특징을 전달받거나 또는 추출하여, 사용자 식별자와 대응하는 음성 특징을 맵핑하여 데이터베이스나 대용량 저장 매체에 저장한다.
이러한 개인용 장치(200)에서 사용자를 등록하기 위하여, 등록을 위한 프로그램이 개인용 장치(200)의 대용량 저장 매체에 저장될 수 있다.
개인용 장치(200)에서 발생할 수 있는, 사용자 등록을 위한 구체적인 처리 흐름은 도 3과 도 4를 통해서 좀 더 상세히 살펴보도록 한다.
원격 서버(300)는, 프로세서와 네트워크 인터페이스와 대용량 저장 매체를 구비하고, 인터넷을 통해 하나 이상의 개인용 장치(200) 및/또는 다중 업소 장치(100)로부터 사용자 등록을 위한, 사용자 식별자와 이 사용자의 음성으로부터 추출된 음성 특징 또는 이 사용자의 음성 데이터를 수신하고, 수신된 사용자 식별자와 대응하는 음성 특징(음성 데이터를 수신한 경우에는 음성 데이터로부터 음성 특징을 추출하여)을 대용량 저장 매체(예를 들어 하드 디스크)에 예를 들어 데이터 베이스의 형태로 저장한다.
또한 원격 서버(300)는, 다중 업소 장치(100)에 의한 음성 특징의 전송 요청에 따라, 이 요청에 포함된 사용자 식별자에 대응하는 음성 특징을 데이터 베이스로부터 검색하여, 검색된 음성 특징을 요청한 다중 업소 장치(100)로 전송할 수 있다.
그리고 원격 서버(300)에 저장되는 데이터 베이스는 간단히 사용자 식별자와 음성 특징의 맵핑 관계로만 저장할 수 있고, 이에 따라 그 외 사용자에 관련된 부가적인 정보의 저장을 배제하도록 구성할 수 있다.
예를 들어 데이터 베이스는, 사용자의 전화 번호나 휴대 전화 번호나 사용자의 ID(Identification)와 대응하는 음성 특징만을 맵핑하여 저장함으로써, 이 맵핑된 정보의 노출로부터 발생할 수 있는 사용자의 중요 개인 신상 정보의 무단 해킹을 방지할 수 있다.
도 2는 다중 업소 장치(100)의 예시적인 하드웨어 블록도를 도시한 도면이다.
도 2에 따르면 다중 업소 장치(100)는, 입력부(110)와 오디오 출력부(120)와 비디오 출력부(130)와 메모리(140)와 하드 디스크(150)와 제어 프로세서(190)를 포함하고 음성 인식을 위해 이용되는 마이크 연결 포트(160)와 아날로그-디지털 변환기(170)와 오디오 처리 프로세서(180)를 또한 포함한다.
여기서는, 제어 프로세서(190)와 오디오 처리 프로세서(180)를 이해를 위해 별도의 블록으로 도시하였으나 이에 국한될 필요가 없고, 예를 들어 제어 프로세서(190)가 오디오 처리 프로세서(180)의 기능을 처리하도록 다중 업소 장치(100)의 하드웨어가 구성되거나 하나의 칩셋(집적 회로) 내에 오디오 처리 프로세서 코어와 제어 프로세서 코어를 집적하여 구성될 수 있다.
물론 도 2에 따른 다중 업소 장치(100)는 필요에 따라 일부 하드웨어 블록을 생략할 수 있고 혹은 도 2에 도시되지 않은 다른 하드웨어 블록이 더 포함하도록 구성될 수 있다.
도 2에 따른, 다중 업소 장치(100)의 각 하드웨어 블록들을 살펴보면, 입력부(110)는, 터치 패널, 입력 키 버튼 및/또는 리모콘 수신 포트를 구비하여, 사용자로부터의 입력을 수신한다.
또한 터치 패널, 입력 키 버튼 및/또는 리모콘 수신 포트를 통한 리모콘에는 사용자의 음성 특징을 설정 등록하기 위한 특정 키가 배치되어 있을 수 있고, 이 특정 키를 통해 사용자의 음성 특징의 추출과 음성 특징과 사용자 맵핑 관계를 설정할 수 있도록 한다.
물론 이러한 특정 키는, 마이크를 통하여 음성 특징의 등록을 위한 제어 명령의 인식으로 대체될 수 있거나 병행해서 이용될 수 있다.
오디오 출력부(120)는, 제어 프로세서(190)나 오디오 처리 프로세서(180) 등에 의해서 출력된 디지털 오디오 신호를 아날로그 오디오 신호로 변환하여 스피커나 이어폰 등으로 출력한다. 이러한 오디오 출력부(120)는 오디오용 디지털-아날로그 변환기(Digital Analog Converter)를 포함할 수 있다.
비디오 출력부(130)는, 제어 프로세서(190) 등에 의해서 출력된 디지털 비디오 신호를 외부 디스플레이(도면 미도시)의 비디오 포맷에 맞추어 변경하여 외부 디스플레이로 출력한다. 이러한 비디오 출력부(130)는, 비디오용 디지털-아날로그 변환기(Digital Analog Converter)를 포함할 수 있다.
메모리(140)는, 디램(DRAM)과 같은 휘발성 메모리 및/또는 플래쉬(Flash)와 같은 비휘발성 메모리를 포함한다. 이 메모리(140)는, 제어 프로세서(190)나 오디오 처리 프로세서(180)에서 구동되는 각종 프로그램과 영상 데이터나 음악 또는 음성 데이터를 영구히 또는 임시로 저장할 수 있다.
하드 디스크(150)는, 이 다중 업소 장치(100)에서 이용될 수 있는 각종 프로그램과 각종 콘텐츠를 저장한다. 이러한 콘텐츠는, 다중 업소 장치(100)의 유형에 따라 상이할 수 있고, 예를 들어 압축된 비디오 동영상 파일, 미디 포맷 또는 압축된 포맷으로 된 오디오 파일을 포함할 수 있다.
마이크 연결 포트(160)는, 이 다중 업소 장치(100)에 연결될 수 있는 마이크를 연결하기 위한 포트이다. 이러한 마이크 연결 포트(160)에 연결되는 마이크는, 외부 잡음을 제거하거나 최소화할 수 있는 직진성의 마이크일 수 있다.
이러한 직진성의 마이크는, 마이크를 이용하는 사용자의 음성을 최대화하여 증폭할 수 있고, 그 외 잡음(음악 소리나, 다른 사용자 또는 사람의 소리)은 최소화화도록 구성된다.
아날로그-디지털 변환기(170)(Analog Digital Converter, ADC)는 마이크 연결 포트(160)를 통해 연결된 마이크로부터의 아날로그 음성 신호를 디지털의 음성 신호로 변환하고, 지정된 포맷에 따라 변환된 디지털 오디오 스트림을 오디오 처리 프로세서(180)로 출력한다.
이러한 아날로그-디지털 변환기(170)는 예를 들어 16 비트의 1 채널 I2S 포맷 등으로 변환하여 연속적인 디지털 오디오 스트림을 출력할 수 있다.
오디오 처리 프로세서(180)는, 수신된 디지털 오디오 스트림으로부터 사용자를 식별하기 위한 음성 특징을 추출한다. 이러한 오디오 처리 프로세서(180)는 디지털 오디오 스트림을 처리하기 위한 DSP(Digital Signal Processor)일 수 있다.
이러한 오디오 처리 프로세서(180)는, 메모리(140)나 하드 디스크(150) 등에 저장된 음성 특징 추출을 위한 음성 특징 추출 프로그램을 로딩하여 이 추출 프로그램을 구동함으로써 음성 특징을 추출할 수 있다.
이러한 음성 특징은 연결된 마이크별로 각각 추출될 수 있다.
여기서 음성 특징은, 사용자로부터 수신된 음성으로부터 변환된(예를 들어 FFT 등을 이용하여) 디지털 오디오 스트림에 대하여 결정되는 주파수 도메인 상의 해당 음성을 다른 사용자의 음성과 구별하기 위한 주파수 파라미터이거나 주파수 도메인 상의 변환 전에 또는 별개로 디지털 오디오 스트림에서 결정할 수 있는 시간 도메인 상의 시간 파라미터이거나 또는 이 주파수 파라미터와 시간 파라미터의 조합으로 구성될 수 있다.
이러한 음성 특징은, 특정 사용자를 다른 사용자와 구별하기 위한 특징을 구성한다. 그리고 이 음성 특징은 동일한 단어나 문장을 읽는 경우라도 각 사용자별로 상이할 수 있다. 이러한 음성 특징을 사용자와 매칭함으로써 간단하게 음성을 필터링할 수 있고 더욱더 정확히 음성으로부터 텍스트의 변환이 가능하게 한다.
오디오 처리 프로세서(180)에서의 처리와 음성 특징에 대해서는 도 4나 도 5에서 더욱더 상세히 살펴보도록 한다.
제어 프로세서(190)는, 각 하드웨어 블록을 제어한다. 예를 들어 제어 프로세서(190)는 메모리(140)나 하드 디스크(150) 등에 저장된 프로그램을 이용하여, 다중 업소 장치(100)에 부여된 기능을 수행한다.
또한 제어 프로세서(190)는 메모리(140)나 하드 디스크(150) 등에 저장된 사용자의 음성 인식을 위한 음성 인식 프로그램을 로딩하여 오디오 처리 프로세서(180)에 의해서 추출된 음성 특징을 메모리(140)나 하드 디스크(150) 등에 저장된 사용자와 음성 특징의 맵핑 관계에서 검색하여 추출된 음성 특징이 존재하는지 결정하고 만일 존재하는 경우에 해당 사용자로부터의 음성을 텍스트로 변환한다.
만일 음성 특징이 존재하지 않는 경우에는 불필요한 변환이나 올바르지 못한 텍스트로의 변환을 방지하기 위해, 제어 프로세서(190)는 텍스트로의 변환을 하지 않도록 구성된다. 이에 따라 간단한 필터링으로 음성 인식에 따른 다중 업소 장치(100)에서의 불편함 등을 제거할 수 있다.
물론 제어 프로세서(190)는, 하드웨어 블록도의 그 구성 예에 따라서는 오디오 처리 프로세서(180)에서 수행되는 처리를 오디오 처리 프로세서(180) 대신에 수행할 수 있다. 이때에는 이 오디오 처리 프로세서(180)는 생략될 수 있다.
제어 프로세서(190)에서 수행되는, 구체적인 각종 처리 흐름 또는 제어 흐름은, 도 3 내지 도 6을 통해서 살펴보도록 한다.
시스템 버스/제어 버스(도면 부호 미도시)는, 하드웨어 블록들을 연결하여 데이터를 송수신할 수 있도록 한다. 예를 들어 시스템 버스/제어 버스는, 시리얼 버스이거나 병렬(parallel) 버스일 수 있다.
도 3은, 다중 업소 장치(100) 및/또는 개인용 장치(200)에서 수행되는 음성 인식 방법의 개괄적인 처리 과정을 도시한 도면이다.
이러한 도 3에 따른 음성 인식 방법은 다중 업소 장치(100)에 의해서, 예를 들어 제어 프로세서(190) 및/또는 오디오 처리 프로세서(180)의 제어하에 각 하드웨어 블록을 이용하는 프로그램을 이용하여, 수행될 수 있다. 또한 개인용 장치(200)는 예를 들어 도 3의 음성 특징의 등록(S100) 과정을 처리할 수 있다.
또한 도 3에 따른 각 처리 과정은 순차적으로 수행될 필요는 없고 예를 들어 음성 특징을 이용한 제어(S200)의 처리 과정 동안에 음성 특징의 등록(S100) 과정과 음성 특징의 수정(S300) 과정이 동시에 수행될 수 있도록 구성할 수도 있다. 이러한 도 3의 처리 과정은 명확한 이해를 위해 시계열화 한 것에 불과하다는 것은 자명할 것이다.
도 3에 따른 개괄적인 처리 과정을 간단히 살펴보면, 먼저 단계 S100에서 음성 특징을 등록하고자 하는 사용자로부터 음성을 수신하여, 수신된 음성에서 해당 사용자의 음성 특징을 추출한다. 또한 이 사용자의 음성 특징에 사용자 식별자를 입력부(110)나 마이크(음성 인식 등을 통해) 등을 통해 수신하여 맵핑하고, 맵핑된 사용자의 음성 특징과 사용자 식별자는 이후 원격 서버(300) 및/또는 이 음성 인식 방법을 구현하는 다중 업소 장치(100)에 저장된다.
단계 S100에 대한 예시적인 상세한 설명은 도 4를 통해 보다더 상세히 살펴보도록 한다.
그리고 단계 S200에서 음성 특징을 이용하여 다중 업소 장치(100)를 제어하고자 하는 사용자로부터 음성을 수신하여 수신된 음성에서 음성 특징을 추출하고 이후 추출된 음성 특징이 저장된 음성 특징과 일치하는 경우에 사용자로부터의 음성으로부터 텍스트를 결정하고 이에 따라 다중 업소 장치(100)를 제어한다.
여기서 저장된 음성 특징은 사용자가 이용하고 있는 다중 업소 장치(100)의 메모리(140)나 하드 디스크(150) 등에 저장되어 있는 음성 특징들이거나 또는 원격 서버(300)에 저장되어 있는 음성 특징들일 수 있다.
단계 S200에 대한 예시적인 상세한 설명은 도 5를 통해 보다더 상세히 살펴보도록 한다.
그리고 단계 S300에서, 등록된 사용자로부터 추출된 음성 특징은 또한 저장되어 있는 음성 특징을 수정하기 위해서 사용될 수 있다. 이에 따라 사용자의 음성 특징은 다중 업소 장치(100)의 이용 (빈도)에 따라서 변경되어 저장될 수 있다.
단계 S300에 대한 예시적인 상세한 설명은 도 6을 통해 보다더 상세히 살펴보도록 한다.
도 4는, S100에 따른 사용자별 음성 특징을 등록하기 위한 예시적인 처리 흐름을 도시한 도면이다. 이러한 도 4의 제어 흐름은 다중 업소 장치(100) 및/또는 개인용 장치(200)에 의해서 수행된다.
먼저 단계 S103에서, 사용자로부터 음성 특징의 등록 요청을 수신한다. 이러한 등록 요청은, 입력부(110)를 통한 특정 키 코드의 수신으로 또는 마이크를 통한 특정 제어 명령의 수신으로부터 이루어질 수 있다.
이후 단계 S105에서, 사용자로부터 사용자 식별자를 입력부(110)나 마이크 등을 통해 수신한다. 이러한 사용자 식별자는 예를 들어 전화 번호나 휴대 전화 번호나 원격 서버(300)의 데이터베이스에 등록하기 위한 사용자의 ID(Identification) 등일 수 있다. 이러한 사용자 식별자는 본 발명에 따른 음성 인식 방법이 구현되는 시스템 환경하에서 사용자를 유일하게 식별할 수 있도록 한다.
물론 단계 S105는, 다른 단계들과 시계열적으로 일정한 순서로 수행될 필요는 없다.
이후 단계 S107에서, 하나 이상의 문장을 비디오 출력부(130) 등을 통해 디스플레이에 표시한다. 이러한 하나 이상의 문장은 사용자의 음성 특징을 추출하기 위한 용도의 문장들이다.
여기서 이 하나 이상의 문장에는, 예를 들어 다중 업소 장치(100)를 제어하기 위해서 이용되는 단어 등을 포함할 수 있다. 예를 들어 이 문장에는 "시작", "종료", "예약", 숫자 등과 같이 음성 인식에 따라 특정 다중 업소 장치(100)에 할당되거나 이용되는 문자 혹은 단어를 포함할 수 있다.
이후 단계 S109에서, 표시된 하나 이상의 문장을 사용자는 마이크를 이용해서 소리내어 읽고 이 하나 이상의 문장에 대응하여 발성된 음성은 마이크를 통해 그리고 아날로그-디지털 변환기(170)를 통해 수신된다.
여기서, 단계 S109에서는 문장을 통한 음성 수신을 언급하였으나, 문장으로 국한될 필요는 없고, 복수의 단어에 대한 음성 수신으로 구성될 수도 있다.
그리도 단계 S111에서 사용자로부터 수신된 음성으로부터 음성 특징을 추출한다.
여기서 이 음성 특징은 표시된 하나 이상의 문장 전체에 대하여 추출된 음성 특징이거나 지정된 문자 혹은 단어 등에 대응하여 추출된 음성 특징일 수 있다. 이에 따라 전체 문장에 대하여 음성 특징값의 평균 등을 취하여 도출되는 음성 특징 혹은 지정된 단어 혹은 문자에 대하여 음성 특징값의 평균 등을 취하여 도출되는 음성 특징 등일 수 있다.
여기서, 각 지정된 문자나 단어에 대한 음성 특징들을 또한 각각 별개로 저장할 수도 있고, 이러한 각 지정된 문자나 단어에 대한 음성 특징들은 다중 업소 장치(100)를 제어하기 위한 용도로 이용될 수도 있다.
또한 음성 특징의 추출과는 별도로 각 지정된 문자나 단어를 일반적으로 알려진 음성 인식 기술을 이용하여 식별하고, 이 지정된 문자나 단어에 대응하는 음성 인식 기술에서의 음향 모델에 따라 단어나 문자 등에 매칭을 위해서 이용되는 예를 들어 음향 모델 파라미터(예를 들어 주파수 특징 벡터)들을 FFT 등을 이용하여 각 사용자를 위해 추출할 수도 있다.
이러한 각 지정된 문자나 단어에 대응하는 음향 모델 파라미터들은 또한 각 사용자에 대하여 사용자 식별자와 함께 다중 업소 장치(100)에 저장되거나 또는 원격 서버(300)로 전송되어 원격 서버(300)에 사용자 식별자와 함께 저장될 수 있다.
이와 같은 음향 모델 파라미터들은 각 사용자로부터 대응하는 제어 명령 혹은 이 제어 명령에 포함되는 파라미터(예를 들어 숫자 번호 등)를 쉽게 식별할 수 있도록 하는 데 더 이용될 수 있다.
사용자에 대응하는 음성 특징은, 예를 들어 주파수 도메인 상의 주파수 파라미터 및/또는 시간 도메인 상의 시간 파라미터의 조합으로 구성된다.
예를 들어 주파수 파라미터는, 사용자의 음성으로부터 주파수 도메인 상에서 사용자 고유의 예를 들어 사용자의 피치(pitch) 주파수 및/또는 사용자의 음색을 결정하기 위한 성대 주파수 등일 수 있다.
이러한 피치 주파수는 각 사용자별로 상이할 수 있고 또한 성대 주파수는 발성 중에 들숨이나 날숨을 통해 성대에 유도되는 각 사용자 간에 상이할 수 있는 잡음 주파수일 수 있다. 이러한 피치 주파수와 성대 주파수 등은, 혹은 이외의 사용자의 음성을 식별하기 위한 다른 주파수 특징들을 더 포함하여, 각 사용자의 음성 맵씨로서 각 사용자를 용이하게 식별할 수 있도록 한다.
이러한 주파수 파라미터는, 수신된 사용자 음성으로부터 변환된 디지털 오디오 스트림에 대한 주파수 도메인 상으로의 변환(예를 들어 FFT(Fast Fourier Transform), 코사인 변환(Cosine Transform))과 함께 변환된 주파수에 대한 분석으로 획득되어 질 수 있다.
예를 들어 시간 파라미터는, 음성의 크기(또는 세기), 음성의 진폭(또는 범위), 음성의 높낮이(크기의 변화)로부터 판단되는 음성 리듬, 및/또는 음성의 스피드 등일 수 있다.
시간 파라미터는 시간상으로 연속적으로 수신된 디지털 오디오 스트림으로부터 결정되어 질 수 있다. 예를 들어 음성의 크기는, 디지털 오디오 스트림의 각 오디오 데이터의 크기 값(예를 들어 아날로그-디지털 변환기(170)로부터의 양자화된 출력값) 또는 그 평균으로, 음성의 진폭은 각 오디오 데이터의 크기 값의 범위 또는 그 평균 값으로, 음성 리듬은 문장 또는 단어 내에서의 오디오 데이터의 크기 값의 변화 패턴으로, 음성의 스피드는, 각 문자와 후속하는 문자 사이의 시간 간격등으로 결정될 수 있다.
물론 이러한 예시적인 주파수 파라미터나 시간 파라미터는, 특정 사용자를 식별하기 위한 예에 불과하고 이 외에도 여러 다른 주파수 특색이나 시간 도메인 상의 특색이 사용자를 식별하기 위해 이용되어 질 수 있다.
그리고 이러한 시간 파라미터와 주파수 파라미터는 음성을 필터링하기 위한 용도로 음성 특징의 구성 요소로서 포함될 수 있다.
예를 들어 음성 특징은, 하나 이상의 주파수 파라미터를 포함하거나 하나 이상의 시간 파라미터를 포함할 수 있고 혹은 이 하나 이상의 주파수 파라미터와 시간 파라미터를 같이(조합으로) 포함할 수 있다.
이러한 여러 파라미터의 포함은, 특정 사용자를 보다더 용이하게 그리고 정확히 식별할 수 있도록 하고, 또한 각 파라미터의 비교 범위를 좀 더 넓은 범위에서 비교될 수 있도록 한다.
이후 단계 S113에서, 추출된 음성 특징을 수신된 사용자 식별자에 맵핑하고, 단계 S115에서 맵핑된 음성 특징과 사용자 식별자를 또는 이에 더하여 다중 업소 장치(100)의 제어를 위한 지정된 문자나 단어에 대응하고 음성 인식을 위한 음향 모델에 따른 각 사용자의 음향 모델 파라미터들을 하드 디스크(150)나 메모리(140) 등에 저장하여 등록을 완료한다.
여기서 사용자의 등록을 위해서는 단지 사용자 식별자와 음성 특징만이 이용되도록 구성될 수 있고 이에 따라 사용자에 대한 특정 중요 정보의 노출을 방지할 수 있다.
그리고 이러한 맵핑된 음성 특징과 사용자 식별자 혹은 이에 더하여 다중 업소 장치(100)의 제어를 위한 지정된 문자나 단어에 대응하고 음성 인식을 위한 음향 모델에 따른 각 사용자의 음향 모델 파라미터들은 다중 업소 장치(100)에서 혹은 다른 다중 업소 장치(100)에서 이용될 수 있도록 인터넷 등을 통해 연결된 원격 서버(300)로 전송(S117)된다.
도 5는, S200에 따른 음성 인식을 이용하여 장치를 제어하기 위한 예시적인 처리 흐름을 도시한 도면이다.
입력부(110) 등을 통한 사용자의 음성 특징을 이용한 음성 인식의 시작 요청(즉 각 사용자에 대한 음성 인식의 요청)에 따라 단계 S203에서 입력부(110)나 마이크 등을 통해 사용자의 식별자를 수신한다. 그리고 사용자 식별자에 대응하는 음성 특징을 결정한다.
따라서, 다중 업소 장치(100)는 여러 사용자의 음성 인식의 시작 요청에 따라 대응하는 복수의 음성 특징을 결정하고 이 복수의 음성 특징에 대응하는 사용자의 음성 인식만이 가능하도록 한다.
이러한 결정된 음성 특징들은 이 단계 S200을 수행하는 다중 업소 장치(100)의 메모리(140)나 하드 디스크(150)에 저장되어 있었던 음성 특징이거나 혹은 저장되어 있지 않은 경우에는 사용자 식별자를 이용하여 원격 서버(300)로부터 수신되어 저장되는 음성 특징일 수 있다.
물론 이 과정에서 음성 특징이 다중 업소 장치(100)나 원격 서버(300)에 존재하지 않는 경우에는 등록 과정(S100)을 사용자에게 요청할 수 있다.
이후 단계 S205에서 마이크와 그리고 아날로그-디지털 변환기(170)를 통해 사용자로부터의 음성을 수신한다.
그리고 단계 S207에서 수신된 음성으로부터 음성 특징을 추출한다. 이러한 음성 특징은 주파수 파라미터 및/또는 시간 파라미터를 포함할 수 있다.
이후 단계 S209에서 이 추출된 음성 특징이 다중 업소 장치(100)에 저장되어 있는 지를 검색한다.
이 단계 S209는, 음성 인식의 시작 요청을 한 하나 이상의 사용자 식별자에 대응하는 결정된 하나 이상의 음성 특징으로부터 추출된 음성 특징이 존재하는 지를 인식하기 위해서 검색한다.
물론 이러한 하나 이상의 음성 특징은, 다중 업소 장치(100)에 이미 저장되어 있었던 음성 특징이거나, 혹은 단계 S203에서 사용자의 음성 인식의 시작 요청에 따라 동적으로 원격 서버(300)로부터 수신되어 다중 업소 장치(100)의 메모리(140)나 하드 디스크(150) 등에 저장되는 음성 특징일 수 있다.
여기서 추출된 음성 특징의 검색은, 예를 들어 단계 S203에 따라 음성 인식의 시작 요청이 이루어진 복수의 음성 특징에 대해서만 이루어져서, 간단한 검색으로 특정 사용자인지를 식별할 수 있도록 한다.
혹은 이에 대한 대안으로, 사용자의 식별자를 이용하지 않고(즉 S203 단계를 수행하지 않고), 다중 업소 장치(100)에 이미 저장되어 있는 복수의 음성 특징들에 대한 검색으로 이루어질 수도 있다.
그리고 음성 특징의 검색은, 추출된 음성 특징의 각 파라미터(주파수 및/또는 시간 도메인 상의)가 복수의 음성 특징에 포함된 각 파라미터의 비교로 이루어지고 예를 들어 추출된 음성 특징의 각각의 파라미터가 복수의 음성 특징 중 대응하는 각각의 파라미터의 임계 범위(예를 들어 파라미터를 중심으로 +5% ~ -5%, 이러한 임계 범위는 파라미터별로 각 파라미터의 특징에 따라 상이할 수 있다) 내인지로 존재 여부를 결정할 수 있다.
동일한 사용자인 경우에라도 특정 시간, 특정 상황에 따라 음성 특징은 달라 질 수 있으므로, 임계 범위를 이용하여 간단히 이러한 변화에도 불구하고 사용자를 용이하게 식별할 수 있고, 또한 다수의 파라미터를 이용하므로, 정확히 사용자 또는 이 사용자의 대응하는 음성 특징을 식별할 수 있도록 한다.
그리고 이후 단계 S211에서 음성 특징이 예를 들어 음성 인식의 시작 요청이 이루어진 복수의 음성 특징에 존재하는 지를 결정하여, 존재하지 않는 경우에는 수신된 음성을 음성 인식 변환을 하지 않고, 단계 S205로 전이한다.
반면에 음성 특징이 존재하는 경우에는, S213으로 전이한다.
단계 S213에서, 수신된 음성에 대응하는 텍스트를 결정한다. 이러한 텍스트는 하나의 문장을 구성하거나 하나 혹은 하나 이상의 단어 또는 문자로 구성될 수 있다.
이러한 음성의 텍스트로의 결정은 주지의 음성 인식 변환 기술을 이용하여 이루어진다. 이러한 음성 인식 변환 기술은 예를 들어 수신된 음성을 FFT 등을 통해 주파수 대역으로의 변환과 주어진 음향 모델을 이용하여 대응하는 단어나 문자나 문장등으로 변환하도록 한다.
여기서 이 텍스트로의 결정에 또한 사용자의 추출된 음성 특징 또는 추출된 음성 특징에 대응하고 다중 업소 장치(100)에 저장되어 있는 음성 특징이 이용될 수 있다.
이에 따라 음성 인식 변환 기술은 이 추출되거나 저장된 음성 특징을 이용하여 텍스트를 더 정확히 인식할 수 있도록 한다. 이러한 인식 변환 기술은 주파수 도메인 상에서 이루어질 수 있고 개개인의 음성 특징이 더 반영되어 각 문자나 단어가 결정될 수 있도록 한다.
또는(혹은 이에 더하여) 음성 인식 변환 기술은, 다중 업소 장치(100)에 저장될 수 있거나 원격 서버로부터 음성 특징과 함께 수신될 수 있는, 다중 업소 장치(100)를 제어하기 위한 각 사용자의 음성으로부터 결정된 지정된 문자나 단어에 대응하는 음향 모델 파라미터들을 이용할 수 있다.
이러한 지정된 문자나 단어는, 다중 업소 장치(100)에서 이용되는 제어 명령이거나 이 제어 명령의 입력 파라미터를 구성하고, 이에 따라 음성 인식 변환을 위한 음향 모델에서의 단어 간 또는 문자 간 매칭을 위해 이러한 대응하는 음향 모델 파라미터들이 이용될 수 있고 이에 따라 간단한 매칭으로 용이하게 제어 명령들을 포함하는 음성으로부터 텍스트로 성능 부하를 줄이면서 변환할 수 있도록 한다.
여기서 텍스트로의 변환 또는 결정은, 이 다중 업소 장치(100)에서 필요한 제어 명령과 입력 파라미터의 정확한 결정이 중요하므로, 이 외의 다른 단어나 문자에 대해서는 그 정확성이 떨어져도 문제되지 않을 수 있다.
이후 단계 S215에서, 결정된 텍스트에서 제어 명령을 식별한다. 이러한 제어 명령은 다중 업소 장치(100)를 제어하기 위해서 이용되는 예를 들어 "시작", "종료", "예약", "OK", "선택" 등과 같은 단어일 수 있다.
이러한 각 제어 명령을 식별한 후에, 단계 S217에서 각 제어 명령에 따라 다중 업소 장치(100)를 제어한다.
여기서 특정 제어 명령은 이 제어 명령의 입력 파라미터로 제공되는 예를 들어 일련의 숫자가 필요할 수 있다. 이에 따라 텍스트에서의 특정 제어 명령의 위치에 선행하거나 후행하는 단어를 식별하고 식별된 단어를 입력 파라미터로 하여 다중 업소 장치(100)를 제어할 수 있다.
도 6은, S300에 따라 음성 특징을 수정하기 위한 예시적인 처리 흐름을 도시한 도면이다. 이러한 S300은 S200과는 별도로 이루어질 수 있고, S200에서의 진행 과정의 처리 결과를 이용하여 이루어진다.
먼저 단계 S303에서, 단계 S211에서 음성 특징이 존재하는 경우에, 단계 S207에서 추출된 음성 특징과 음성 특징의 검색에 의해 대응하는 사용자 식별자를 메모리(140) 등에 임시로 저장한다.
이러한 임시 저장은 사용자 식별자별로 구별하도록 구성되고, 각 사용자별로 하나 이상의 추출된 음성 특징으로 구성될 수 있다. 이러한 하나 이상의 추출된 음성 특징은 단일의 다중 업소 장치(100)에서 시간 차에 따라 1회 이상으로 음성 특징이 추출된 경우일 수 있다.
이후 단계 S305에서 임시로 저장된 사용자 식별자를 이용하여, 임시로 저장된 하나 이상의 음성 특징과 다중 업소 장치(100)에 저장되어 있는 대응하는 음성 특징 사이의 차이를 결정한다
이러한 차이는 각 음성 특징에 포함된 주파수 파라미터 또는 시간 파라미터에 따라 상이하게 계산될 수 있다.
여기서 차이는, 임시로 저장된 하나 이상의 음성 특징의 평균값과 저장되어 있는 대응하는 음성 특징의 값과의 차이로 결정될 수 있다.
그리고 단계 S307에서, 이러한 차이를 반영하여 사용자 식별자에 대응하는 저장된 음성 특징을 수정하고 수정된 음성 특징을 다중 업소 장치(100)의 메모리(140)나 하드 디스크(150) 등에 저장한다.
이러한 음성 특징의 수정은, 이후 보다 더 정확한 음성 인식이 가능할 수 있도록 한다.
그리고 단계 S309에서, 이러한 수정된 음성 특징은, 다른 다중 업소 장치(100)에서 이용될 수 있도록 원격 서버(300)로 사용자 식별자와 함께 전송된다.
이상의 도 3 내지 도 6에서 알 수 있는 바와 같이 본 발명은, 지정된 사용자 만을 위한 음성 인식이 가능하도록 하고 각 사용자의 음성 특징을 이용하여 음성 인식이 가능하도록 하여, 음성 인식의 정확도를 높일 수 있고 예상치 못한 잡음으로부터 오동작을 방지할 수 있도록 한다.
또한 본 발명은, 간단한 필터링으로 불필요한 텍스트로의 변환을 제거하고 사용자 식별자와 대응하는 음성 특징만을 공유하고 저 사양의 음성 인식 기술을 이용할 수 있도록 한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것이 아니다.
100 : 다중 업소 장치
110 : 입력부 120 : 오디오 출력부
130 : 비디오 출력부 140 : 메모리
150 : 하드 디스크 160 : 마이크 연결 포트
170 : 아날로그-디지털 변환기 180 : 오디오 처리 프로세서
190 : 제어 프로세서
200 : 개인용 장치 300 : 원격 서버

Claims (7)

  1. 복수의 사용자를 위한 장치에서의 음성 인식 방법으로서,
    (a) 사용자로부터의 수신된 음성으로부터 사용자를 식별하기 위한 음성 특징을 추출하는 단계;
    (b) 추출된 음성 특징이 상기 장치에 저장된 음성 특징에서 존재하는 지를 검색하는 단계; 및
    (c) 추출된 음성 특징이 존재하는 경우, 상기 사용자의 음성에 대응하는 텍스트를 결정하는 단계;를 포함하는,
    음성 인식 방법.
  2. 제1항에 있어서,
    상기 음성 특징은, 사용자의 음성을 주파수 도메인으로 변환하여 결정되는 주파수 파라미터와 시간 도메인 상에서 상기 사용자의 음성으로부터 결정되는 시간 파라미터의 조합으로 구성되는,
    음성 인식 방법.
  3. 제1항에 있어서,
    상기 단계 (a) 이전에, 하나 이상의 사용자로부터 사용자 식별자를 수신하는 단계;를 더 포함하며,
    상기 단계 (b)는,
    (b-1) 사용자 식별자에 대응하는 음성 특징을 결정하는 단계; 및
    (b-2) 결정된 하나 이상의 음성 특징에서 추출된 음성 특징이 존재하지를 검색하는 단계;를 포함하는,
    음성 인식 방법.
  4. 제1항에 있어서,
    상기 단계 (a) 이전에,
    사용자로부터 음성 특징의 등록 요청을 수신하는 단계;
    사용자에 대응하는 음성 특징을 결정하기 위하여, 사용자로부터 수신된 음성으로부터 음성 특징을 추출하는 단계;
    추출된 음성 특징을 사용자로부터 수신된 사용자 식별자에 맵핑하는 단계; 및
    맵핑된 음성 특징과 사용자 식별자를 저장하여 사용자를 등록하는 단계;를 더 포함하는,
    음성 인식 방법.
  5. 제4항에 있어서,
    상기 맵핑된 음성 특징과 사용자 식별자를 상기 장치에 연결된 원격 서버에 전송하는 단계;를 더 포함하며,
    상기 단계 (b)는, 동적인 음성 인식을 위해 사용자로부터 수신된 사용자 식별자에 대응하는 음성 특징을 상기 원격 서버로부터 수신 및 저장하여, 추출된 음성 특징이 존재하는 지를 검색하는,
    음성 인식 방법.
  6. 제1항에 있어서,
    (d) 결정된 텍스트로부터 제어 명령을 식별하는 단계; 및
    (e) 식별된 제어 명령에 따라 상기 장치를 제어하는 단계;를 더 포함하는,
    음성 인식 방법.
  7. 제1항에 있어서,
    추출된 음성 특징이 존재하는 경우, 추출된 음성 특징과 대응하는 저장된 음성 특징 사이의 차이를 결정하는 단계; 및
    결정된 차이를 사용하여 상기 대응하는 저장된 음성 특징을 수정하는 단계;를 더 포함하는,
    음성 인식 방법.
KR1020120106657A 2012-09-25 2012-09-25 복수의 사용자를 위한 장치에서의 음성 인식 방법 KR101429138B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120106657A KR101429138B1 (ko) 2012-09-25 2012-09-25 복수의 사용자를 위한 장치에서의 음성 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120106657A KR101429138B1 (ko) 2012-09-25 2012-09-25 복수의 사용자를 위한 장치에서의 음성 인식 방법

Publications (2)

Publication Number Publication Date
KR20140039868A true KR20140039868A (ko) 2014-04-02
KR101429138B1 KR101429138B1 (ko) 2014-08-11

Family

ID=50650400

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120106657A KR101429138B1 (ko) 2012-09-25 2012-09-25 복수의 사용자를 위한 장치에서의 음성 인식 방법

Country Status (1)

Country Link
KR (1) KR101429138B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019164120A1 (ko) * 2018-02-23 2019-08-29 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20190133325A (ko) * 2018-05-23 2019-12-03 카페24 주식회사 음성인식 방법 및 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000347684A (ja) * 1999-06-02 2000-12-15 Internatl Business Mach Corp <Ibm> 音声認識システム
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2005122128A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 音声認識システム及びプログラム
JP2005181358A (ja) * 2003-12-16 2005-07-07 Victor Co Of Japan Ltd 音声認識合成システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019164120A1 (ko) * 2018-02-23 2019-08-29 삼성전자주식회사 전자 장치 및 그 제어 방법
US11709655B2 (en) 2018-02-23 2023-07-25 Samsung Electronics Co., Ltd. Electronic device and control method thereof
KR20190133325A (ko) * 2018-05-23 2019-12-03 카페24 주식회사 음성인식 방법 및 장치

Also Published As

Publication number Publication date
KR101429138B1 (ko) 2014-08-11

Similar Documents

Publication Publication Date Title
JP6613347B2 (ja) 情報をプッシュする方法及び装置
US11568876B2 (en) Method and device for user registration, and electronic device
US8606581B1 (en) Multi-pass speech recognition
US8478592B2 (en) Enhancing media playback with speech recognition
CN104123115B (zh) 一种音频信息处理方法及电子设备
CN110503961B (zh) 音频识别方法、装置、存储介质及电子设备
JP2006504115A (ja) 楽曲識別システムおよび方法
JP2019133182A (ja) 音声制御装置、音声制御方法、コンピュータプログラム及び記録媒体
CN111028845A (zh) 多音频识别方法、装置、设备及可读存储介质
CN111370024B (zh) 一种音频调整方法、设备及计算机可读存储介质
CN110097895B (zh) 一种纯音乐检测方法、装置及存储介质
KR20180012639A (ko) 음성 인식 방법, 음성 인식 장치, 음성 인식 장치를 포함하는 기기, 음성 인식 방법을 수행하기 위한 프로그램을 저장하는 저장 매체, 및 변환 모델을 생성하는 방법
US20120035919A1 (en) Voice recording device and method thereof
CN109841218A (zh) 一种针对远场环境的声纹注册方法及装置
CN109361995A (zh) 一种电器设备的音量调节方法、装置、电器设备和介质
JP2009175630A (ja) 音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体
EP1640845A2 (en) User identification method, user identification device and corresponding electronic system
KR101429138B1 (ko) 복수의 사용자를 위한 장치에서의 음성 인식 방법
CN107767862B (zh) 语音数据处理方法、系统及存储介质
WO2016137071A1 (ko) 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN111859008A (zh) 一种推荐音乐的方法及终端
CN110136677B (zh) 乐音控制方法及相关产品
CN113409774A (zh) 语音识别方法、装置及电子设备
JP6772468B2 (ja) 管理装置、情報処理装置、情報提供システム、言語情報の管理方法、情報提供方法、および情報処理装置の動作方法
CN111033461A (zh) 信息提供方法及信息提供装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180327

Year of fee payment: 4

R401 Registration of restoration