KR20130016644A - 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법 - Google Patents

음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법 Download PDF

Info

Publication number
KR20130016644A
KR20130016644A KR1020110078703A KR20110078703A KR20130016644A KR 20130016644 A KR20130016644 A KR 20130016644A KR 1020110078703 A KR1020110078703 A KR 1020110078703A KR 20110078703 A KR20110078703 A KR 20110078703A KR 20130016644 A KR20130016644 A KR 20130016644A
Authority
KR
South Korea
Prior art keywords
voice recognition
voice
information
target information
server
Prior art date
Application number
KR1020110078703A
Other languages
English (en)
Inventor
박은상
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020110078703A priority Critical patent/KR20130016644A/ko
Priority to EP20120162406 priority patent/EP2557565A1/en
Priority to CN2012102607842A priority patent/CN102930867A/zh
Priority to US13/569,494 priority patent/US20130041666A1/en
Publication of KR20130016644A publication Critical patent/KR20130016644A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 음성인식장치에 관한 것으로, 사용자로부터 음성입력을 수신하는 음성입력부; 영상 처리를 수행하는 영상처리부; 상기 영상 처리 수행결과를 디스플레이 하는 디스플레이부; 상기 음성입력의 데이터 및 음성인식대상정보를 음성인식엔진에 전송하고, 상기 음성인식엔진으로부터 상기 음성입력에 대응하는 인식결과를 수신하여 동작하는 제어부를 포함하는 음성인식장치를 제공한다.
본 발명에 따르면, 인식 가능한 어휘에 제한이 없는 범용성의 음성인식 엔진으로도 특정한 영역에서 사용되는 제한된 수의 어휘를 정확히 인식할 수 있다.

Description

음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법 {Voice recognition apparatus, voice recognition server, voice recognition system and voice recognition method}
본 발명은 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법에 관한 것으로, 보다 상세하게는 범용 음성인식엔진을 가지고 특정한 영역에서 사용되는 제한된 수의 어휘를 정확하게 인식할 수 있는 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법에 관한 것이다.
음성인식 기술이 PC, 이동통신기기, 뿐만 아니라 DTV를 중심으로 한 가전기기에서도 적극적으로 사용되고 있다. 특히 이동통신기기에서는 서버를 기반으로 한 음성인식 기술을 채택하여 웹 검색과 같은 검색기능, SMS기능을 음성으로 입력할 수 있는 기능을 제공하고 있다. 이때 서버 기반의 음성인식 엔진은 소위 특정한 영역 내에서 사용되는 언어만을 인식하는 것이 아니라 영역이 정해지지 않은 다양한 어휘를 인식하게 된다. 또한, 인식 가능한 어휘에 제한이 없는 범용성의 음성인식 엔진은 PC, 이동통신기기 및 DTV와 같은 내부에 있을 수도 있다.
이와 같은 인식 가능한 어휘에 제한이 없는 범용성을 가지는 음성인식 엔진은 특정한 영역으로 국한되어 인식하고자 하는 어휘의 수가 제한되어 있는 경우에는 다소 인식률이 떨어지거나, 특화된 음성인식 엔진에 비해 첫 번째 인식 성공률에서 다소 떨어지는 성능을 보이고 있다.
본 발명은 상기의 종래 기술의 문제를 해결하기 위한 것으로, 인식 가능한 어휘에 제한이 없는 범용성을 가지는 음성인식 엔진을 가지고 특정한 영역에서 사용되는 제한된 수의 어휘를 정확히 인식할 수 있는 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법을 제공하고자 함에 발명의 목적이 있다.
상기 목적을 달성하기 위한 본 발명의 음성인식장치는, 사용자로부터 음성입력을 수신하는 음성입력부; 영상 처리를 수행하는 영상처리부; 상기 영상 처리 수행결과를 디스플레이 하는 디스플레이부; 상기 음성입력의 데이터 및 음성인식대상정보를 음성인식엔진에 전송하고, 상기 음성인식엔진으로부터 상기 음성입력에 대응하는 인식결과를 수신하여 동작하는 제어부를 포함할 수 있다.
또한, 상기 음성인식대상정보는 텍스트 정보일 수 있다.
또한, 상기 음성인식대상정보는 음성인식 대상인 복수의 어휘일 수 있다.
또한, 상기 음성인식대상정보는 이미지 또는 이미지를 지칭하는 명칭일 수 있다.
또한, 상기 음성인식대상정보는 웹 페이지의 링크정보 또는 메뉴 항목일 수 있다.
또한, 상기 음성인식대상정보는 음성입력 수신 시, 디스플레이 되어있는 웹 페이지 또는 메뉴의 적어도 한 단어 이상의 텍스트일 수 있다.
또한, 상기 음성인식장치는 휴대단말기, 컴퓨터 및 디스플레이장치일 수 있다.
또한, 상기 음성인식엔진은 상기 음성인식장치에 내장된 장치에서 동작할 수 있다.
또한, 상기 음성인식엔진은 상기 음성인식장치 외부의 음성인식서버에 내장된 장치에서 동작할 수 있다.
한편, 본 발명의 음성인식장치는, 사용자로부터 음성입력을 수신하는 음성입력부; 영상 처리를 수행하는 영상처리부; 상기 영상 처리 수행결과를 디스플레이 하는 디스플레이부; 음성인식서버와 통신하는 통신부; 및 상기 음성입력의 데이터 및 음성인식대상정보를 상기 음성인식서버에 전송하고, 상기 음성입력에 대응하는 인식결과를 수신하여 동작하는 제어부를 포함할 수 있다.
또한, 저장부를 포함하고, 상기 저장부는 상기 음성인식대상정보를 저장할 수 있다.
한편, 본 발명의 음성인식서버는, 음성인식장치와 통신하는 통신부; 음성인식을 수행하는 음성인식부; 및 음성인식장치로부터 음성입력의 데이터와 음성인식대상정보를 수신한 경우, 상기 음성입력의 데이터가 상기 음성인식대상정보에 국한하여 인식되도록 상기 음성인식부를 제어하고, 인식결과를 상기 음성인식장치에 전송하는 제어부를 포함할 수 있다.
또한, 저장부를 포함하고, 상기 저장부는 상기 음성인식대상정보를 저장할 수 있다.
또한, 인식보정부를 포함하고, 상기 인식보정부는 상기 인식결과가 상기 음성인식대상정보와 유사한 경우, 상기 인식결과를 상기 음성인식대상정보 중 가장 유사한 정보로 보정할 수 있다.
또한, 상기 음성인식부는 서버기반의 범용 음성인식엔진일 수 있다.
또한, 상기 음성인식대상정보는 텍스트 정보일 수 있다.
또한, 상기 음성인식대상정보는 음성인식 대상인 복수의 어휘일 수 있다.
또한, 상기 음성인식대상정보는 이미지 또는 이미지를 지칭하는 명칭일 수 있다.
또한, 상기 음성인식대상정보는 웹 페이지의 링크정보 또는 메뉴 항목일 수 있다.
한편, 본 발명의 음성인식시스템은, 음성입력의 데이터와 음성인식대상정보를 음성인식서버에 전송하고, 음성인식서버로부터 음성입력에 대응하는 인식결과를 수신하여 동작하는 음성인식장치; 및 상기 음성인식장치로부터 음성입력의 데이터와 음성인식대상정보를 수신하여, 상기 음성입력의 데이터가 상기 음성인식대상정보에 국한하여 인식되도록 하고, 인식결과를 상기 음성인식장치로 전송하는 음성인식서버를 포함할 수 있다.
또한, 상기 인식결과가 상기 음성인식대상정보와 유사한 경우, 상기 인식결과를 상기 음성인식대상정보 중 가장 유사한 정보로 보정할 수 있다.
한편, 본 발명은, 음성인식장치에서 음성입력을 수신하는 단계; 상기 음성입력의 데이터와 음성인식대상정보를 음성인식서버에 전송하는 단계; 상기 음성인식대상정보에 국한하여 음성을 인식하는 단계; 및 음성인식결과를 상기 음성인식장치로 전송하는 단계를 포함할 수 있다.
또한, 상기 음성인식대상정보는 텍스트 정보일 수 있다.
또한, 상기 음성인식대상정보는 음성인식 대상인 복수의 어휘일 수 있다.
또한, 상기 음성인식대상정보는 이미지 또는 이미지를 지칭하는 명칭일 수 있다.
또한, 상기 음성인식대상정보는 웹 페이지의 링크정보 또는 메뉴 항목일 수 있다.
또한, 상기 음성인식대상정보는 음성입력 수신 시, 디스플레이 되어있는 웹 페이지 또는 메뉴의 적어도 한 단어 이상의 텍스트일 수 있다.
또한, 상기 음성인식대상정보에 국한하여 음성을 인식하는 단계는, 상기 인식결과가 상기 음성인식대상정보와 유사한 경우, 상기 인식결과를 상기 음성인식대상정보 중 가장 유사한 정보로 보정할 수 있다.
본 발명에 따른 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법에 의하면, 인식 가능한 어휘에 제한이 없는 범용성의 음성인식 엔진으로도 특정한 영역에서 사용되는 제한된 수의 어휘를 정확히 인식할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 음성인식장치의 블록도.
도 2는 본 발명의 다른 실시 예에 따른 음성인식장치 및 음성인식서버를 포함하는 음성인식시스템의 블록도.
도 3은 본 발명의 실시 예에 따른 음성인식대상정보가 디스플레이 되어있는 웹 페이지의 예시도.
도 4는 본 발명의 일 실시 예에 따른 음성인식방법의 순서도.
도 5는 본 발명의 다른 실시 예에 따른 음성인식방법의 순서도.
이하에서는, 첨부도면을 참고하여 본 발명에 따른 일 실시 예를 보다 상세하게 설명한다.
도 1은 본 발명의 일 실시 예에 따른 음성인식장치의 블록도이다.
도 1을 참조하면, 음성인식장치(100)는 음성입력부(110), 제어부(120), 영상처리부(150), 디스플레이부(160) 및 음성인식엔진(170)을 포함한다.
음성인식장치(100)는 휴대단말기, 컴퓨터 및 디스플레이장치일 수 있다. 음성입력부(110)는 사용자로부터 음성입력을 수신하고, A/D 변환을 수행하여 음성입력을 디지털로 변환한다.
영상처리부(150)는 제어부(120)로부터 입력되는 신호를 영상 표시 가능하도록 처리한다.
디스플레이부(160)는 영상 처리 수행결과를 디스플레이 한다. 구체적으로는, 사용자가 음성으로 발음할 수 있는 정보를 표시한다. 또한, 음성입력의 인식결과에 해당하는 정보를 표시한다.
음성인식엔진(170)은 음성인식장치(100)내에 내장된 별개의 장치에서 실행되는 소프트웨어로 구현될 수 있다. 예를 들면, 음성인식장치(100) 내에 있는 칩에 음성인식엔진(170)을 탑재할 수 있다. 또한, 별개의 장치에서 실행되지 않고 플레쉬 메모리에 저장되어 있다가 음성인식장치(100)의 전원이 켜지고 동작하면, 제어부(120)와 같이 메인 메모리에서 실행되는 소프트웨어로 구현될 수도 있다. 도1의 실시 예에서는 음성인식엔진(170)이 음성인식장치(100) 내에 포함되어 있는 것만을 도시하고 있으나, 음성인식엔진(170)은 음성인식장치(100)의 외부에 있을 수 있다. 예를 들면, 인터넷을 통하여 연결되는 외부의 음성인식서버에 있는 음성인식엔진을 사용할 수도 있으며, 로컬 네트워크로 연결되는 외부의 장치에 있는 음성인식엔진을 사용할 수도 있다.
제어부(120)는 음성입력부(110)로부터 입력되는 음성입력의 데이터 및 음성인식대상정보를 음성인식엔진(170)에 전송하고, 음성인식엔진(170)으로부터 음성입력에 대응하는 인식결과를 수신하여 동작한다. 음성입력의 데이터는 사용자가 발음한 음성정보를 말하며, 음성인식대상정보는 휴대단말기, 컴퓨터 또는 디스플레이장치에 내장되어 있는 텍스트 정보일 수 있으며, 구체적으로는, 음성으로 인식하고자 하는 복수의 어휘일 수 있다. 예를 들면, 디스플레이장치의 경우, 영화나 뉴스를 사용자가 시청하고 있을 때, "볼륨 업", "볼륨 다운" 또는 "소리 크게", "소리 작게" 등을 발음하여 영화나 뉴스의 소리를 조절할 수 있다. 이 뿐만 아니라, "채널 업", "채널 다운"을 발음하여 채널을 전환할 수도 있고, "파워 온", "파워 오프"를 발음하여 전원을 제어할 수도 있다. 이와 같이 디스플레이장치를 제어하기 위해 사용하는 것으로서 디스플레이장치에 미리 저장해 놓은 제어 명령어들의 집합이 음성인식대상정보에 해당한다.
결국, 제어부(120)는 사용자가 "소리 크게"라고 발음하면, "소리 크게"라는 음성입력의 데이터와 디스플레이장치에 미리 저장되어 있는 "볼륨 업", "볼륨 다운", "소리 크게", "소리 작게", "채널 업", "채널 다운", "파워 온", "파워 오프" 등의 음성인식대상정보를 음성인식엔진(170)에 전송하면, 음성인식엔진(170)은 "소리 크게"라는 음성입력의 데이터로부터 음성 특징 벡터를 추출하고, 음성인식대상정보에 해당하는 여러 개의 명령어들과 비교한다. 비교 결과, "소리 크게"와 동일한 음성인식대상정보가 있는 것으로 판단되어, "소리 크게"에 해당하는 제어정보를 제어부(120)에 전달하면 제어부(120)는 디스플레이장치의 소리를 조절하게 된다. 여기서 제어정보는 제어부(120)과 음성인식엔진(170)사이에 각각의 기능에 대한 약속된 정보에 해당한다.
만약, 사용자가 "소리 짝게"라고 발음하였다고 가정하면, 제어부(120)는 "소리 짝게"라는 음성입력의 데이터와 "볼륨 업", "볼륨 다운", "소리 크게", "소리 작게", "채널 업", "채널 다운", "파워 온", "파워 오프" 등의 음성인식대상정보를 음성인식엔진(170)에 전송한다. 음성인식엔진(170)은 "소리 짝게" 라는 음성입력의 데이터로부터 음성 특징 벡터를 추출하고, 음성인식대상정보에 해당하는 여러 개의 명령어들과 비교한다. 비교 결과, "소리 짝게"와 유사한 "소리 작게"는 있는 것으로 판단되었으나, 동일하지 않은 것으로 판단한다. 이와 같이 음성인식 결과, 음성인식대상정보와 동일하지 않지만 유사도가 높은 경우는 음성인식 결과를 보정하여 "소리 작게"로 인식하게 된다. 그리고 "소리 작게"에 해당하는 제어정보를 제어부(120)에 전달하면 제어부(120)는 디스플레이장치의 소리를 조절하게 된다.
상기의 실시 예에서는 음성인식대상정보는 휴대단말기, 컴퓨터 또는 디스플레이장치에 미리 내장되어 있는 경우만을 설명하였으나, 이에 한정하지 않는다. 음성인식장치(100)가 사용자로부터 음성입력의 데이터를 수신할 때, 디스플레이부(160)에 컴퓨터의 웹 페이지 또는 디스플레이장치의 메뉴가 표시되어 있는 경우는 웹 페이지의 링크정보, 웹 페이지의 텍스트 정보, 메뉴의 텍스트 정보와 같이 화면에 표시되고 있는 텍스트 정보가 음성인식대상정보에 해당한다. 또한, 각종 이미지와 이미지를 지칭하는 명칭 역시 음성인식대상정보에 해당할 수 있다. 제어부(120)는 음성입력을 수신하는 경우, 이와 같은 정보가 화면에 표시되어 있는 경우는 화면에 표시된 정보로부터 추출된 적어도 한 단어 이상의 텍스트를 수신된 음성입력의 데이터와 함께 음성인식엔진(170)에 전송하고, 음성인식엔진(170)으로부터 음성인식에 대응하는 결과를 수신하여 동작한다. 음성인식장치(100)의 내부에 저장된 데이터가 아닌 디스플레이부(160)에 표시된 정보가 음성인식대상정보에 해당한 다는 것만 차이가 있을 뿐, 음성인식엔진(170)에서 음성입력의 데이터와 음성인식대상정보를 수신하여 동작하는 과정은 상기의 실시예와 동일하다.
도 2는 본 발명의 다른 실시 예에 따른 음성인식장치 및 음성인식서버를 포함하는 음성인식시스템의 블록도이다.
도 2를 참조하면, 음성인식시스템(1)은 음성인식장치(100)와 음성인식서버(200)를 포함한다. 음성인식장치(100)는 음성입력부(110), 제어부(120), 저장부(130), 통신부(140), 영상처리부(150) 및 디스플레이부(160)를 포함한다. 음성입력부(110), 제어부(120), 영상처리부(150) 및 디스플레이부(160)의 기능은 도 1에서 설명한 바와 같다. 저장부(130)는 음성인식대상정보를 저장한다. 음성입력을 수신하는 경우, 디스플레이부(160)에 표시되어 있는 음성인식대상정보를 저장할 수도 있고, 도1에서 설명한 바와 같이, 음성인식장치(100)의 제어명령어 등을 미리 저장하고 있을 수 있다. 통신부(140)는 음성인식서버(200)와 네트워크(300)를 통하여 통신하는 기능을 담당한다. 네트워크(300)는 유선 또는 무선 네트워크일 수 있다.
제어부(120)는 사용자에 의해 입력된 음성입력의 데이터와 음성인식대상정보를 음성인식서버(200)에 전송하고, 음성인식에 대응하는 인식결과를 수신하여 동작한다. 음성인식장치(100)의 구체적인 설명은 도1에서 설명한 바와 같으므로 생략한다.
음성인식서버(200)는 통신부(210), 제어부(220), 음성인식부(230), 저장부(240) 및 인식보정부(250)를 포함한다. 음성인식서버(200)는 인식하는 단어의 수가 제한되어 있는 임베디드 기반의 음성인식엔진이 아닌, 인식하는 단어의 수가 제안되어 있지 않은 서버기반의 범용 음성인식엔진을 사용할 수 있다.
통신부(210)는 음성인식장치(100)와 유선 또는 무선 네트워크(300)를 통하여 통신하는 기능을 수행한다. 음성인식부(230)에는 음성인식엔진이 탑재되어 있어 음성인식기능을 수행한다. 저장부(240)는 음성인식장치(100)로부터 수신한 음성인식대상정보를 저장한다. 저장된 음성인식대상정보는 음성인식부(230)에서 음성인식을 수행할 때 참고할 수 있다.
제어부(220)는 음성인식장치(100)로부터 수신한 음성입력의 데이터가 저장부(240)에 저장된 음성인식대상정보에 국한하여 인식되도록 음성인식부(230)를 제어하고, 음성인식결과를 음성인식장치(100)에 전송한다. 인식보정부(250)는 음성인식결과가 저장부(240)에 저장된 음성인식대상정보와 유사한 경우, 음성인식결과를 음성인식대상정보 중 가장 유사한 정보로 보정한다.
구체적으로는, 도1에서 설명한 바와 같이, 음성인식서버(200)가 음성인식장치(100)로부터 "소리 짝게"라는 음성입력의 데이터와 "볼륨 업", "볼륨 다운", "소리 크게", "소리 작게", "채널 업", "채널 다운", "파워 온", "파워 오프" 등의 음성인식대상정보를 수신하면, 음성인식부(230)의 음성인식결과, "소리 짝게"로 인식하게 된다. 제어부(220)는 저장부(240)에 저장된 음성인식대상정보와 인식결과를 비교하고 "소리 짝게"와 동일한 정보는 없으나, 유사한 "소리 작게"가 있다고 판단하고, 인식보정부(250)를 제어하여 인식결과를 "소리 작게"로 보정한다. 음성인식서버(200)는 보정된 "소리 작게"에 해당하는 제어정보를 음성인식장치(100)로 전송하고, 음성인식장치(100)는 음성인식결과를 수신하여 동작하게 된다.
도 3은 본 발명의 실시 예에 따른 음성인식대상정보가 디스플레이 되어있는 웹 페이지의 예시도이다.
도 3을 참조하면, 음성인식장치(100)가 컴퓨터 또는 휴대단말기인 경우, 디스플레이부(160)에 표시되는 웹 페이지를 나타낸다. 도3의 실시 예는 음성인식대상정보가 사용자로부터 음성입력을 수신할 때, 디스플레이 되어 있는 웹 페이지의 링크정보, 메뉴, 또는 텍스트를 나타낸다.
사용자는 컴퓨터의 웹 페이지에서 음성 또는 키보드를 이용하여 "김밥"(310)을 검색한다. 검색결과에 해당하는 정보(320)가 웹 페이지에 표시된다. 그 다음 사용자는 검색결과에 해당하는 정보(320) 중 어느 하나를 음성정보를 이용하여 선택할 수 있다.
예를 들면, 검색결과에 해당하는 정보(320) 중 가장 위에 있는 링크인 "별일이네 김밥과 스파게티"를 선택하기 위해 "별일이네 김밥"을 발음하면, 컴퓨터의 제어부(120)는 "별일이네 김밥"의 음성입력의 데이터와 사용자로부터 음성입력을 수신할 때 화면에 표시되어 있는 "별일이네 김밥과 스파게티", "김밥 전문 김가네", "배달 전문 김밥천국 창업", "김밥나라 전국 체인본사",…, "김밥창업전문 무료상담창업뉴스"를 음성인식대상정보로서 추출하여 음성인식서버(200)에 전송한다. 음성인식서버(200)는 "별일이네 김밥"의 음성입력의 데이터와 음성인식대상정보를 수신하고, 음성인식결과, "별일이네 김밥"으로 인식한다. 음성인식서버(200)의 제어부(220)는 저장부(240)에 저장된 음성인식대상정보와 인식결과를 비교하고 "별일이네 김밥"과 동일한 정보는 없으나, 유사한 "별일이네 김밥과 스파게티"가 있다고 판단하고, 인식보정부(250)를 제어하여 인식결과를 "별일이네 김밥과 스파게티"로 보정한다. 음성인식서버(200)는 보정된 "별일이네 김밥과 스파게티"에 해당하는 제어정보를 음성인식장치(100)로 전송하고, 음성인식장치(100)는 음성인식결과를 수신하면, "별일이네 김밥과 스파게티"의 링크를 선택하여 해당 웹 페이지를 표시한다.
도 4는 본 발명의 일 실시 예에 따른 음성인식방법의 순서도이고, 도 5는 본 발명의 다른 실시 예에 따른 음성인식방법의 순서도이다.
도 4 및 5를 참조하면, 음성인식장치(100)는 사용자로부터 음성입력을 수신한다(S400). 음성인식장치(100)는 음성입력의 데이터와 음성인식대상정보를 음성인식서버(200)에 전송한다(S420). 음성인식대상정보는 음성인식장치(100)에 미리 저장되어 있는 복수의 어휘 또는 사용자로부터 음성입력을 수신할 때, 화면에 표시되어 있는 웹 페이지 또는 메뉴의 텍스트 정보일 수 있다. 또는 웹 페이지에 있는 이미지, 이미지를 지칭하는 명칭일 수 있고, 웹 페이지의 링크정보일 수도 있다. 음성인식서버(200)는 음성입력의 데이터와 음성인식대상정보를 수신하면, 음성입력의 데이터를 음성인식대상정보에 국한하여 음성인식 하도록 한다(S440). 구체적으로는, 음성입력의 데이터를 이용하여 음성인식을 수행하고(S442), 음성인식 결과가 음성인식대상정보와 유사하지만, 동일하지 않은 경우는 음성인식결과를 가장 유사한 음성인식대상정보로 인식되도록 보정한다(S444). 구체적인 실시 예는 도1에서 설명하였으므로 생략한다. 마지막으로, 음성인식 결과를 음성인식장치(100)로 전송하면, 음성인식장치(100)는 인식결과를 수신하여 동작한다.
본 발명에 의하면, 인식 가능한 어휘에 제한이 없는 범용성의 음성인식 엔진으로도 특정한 영역에서 사용되는 제한된 수의 어휘를 정확히 인식할 수 있다.
본 발명은 상기한 특정의 바람직한 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 되는 것임은 자명하다.
1: 음성인식시스템 100: 음성인식장치
110: 음성입력부 120, 220: 제어부
130, 240: 저장부 140, 210: 통신부
150: 영상처리부 160: 디스플레이부
170: 음성인식엔진 200: 음성인식서버
230: 음성인식부 250: 인식보정부
300: 네트워크 310: 김밥
320: 검색결과에 해당하는 정보

Claims (28)

  1. 음성인식장치에 있어서,
    사용자로부터 음성입력을 수신하는 음성입력부;
    영상 처리를 수행하는 영상처리부;
    상기 영상 처리 수행결과를 디스플레이 하는 디스플레이부;
    상기 음성입력의 데이터 및 음성인식대상정보를 음성인식엔진에 전송하고, 상기 음성인식엔진으로부터 상기 음성입력에 대응하는 인식결과를 수신하여 동작하는 제어부를 포함하는 음성인식장치.
  2. 제1항에 있어서,
    상기 음성인식대상정보는 텍스트 정보인 것을 특징으로 하는 음성인식장치.
  3. 제1항에 있어서,
    상기 음성인식대상정보는 음성인식 대상인 복수의 어휘인 것을 특징으로 하는 음성인식장치.
  4. 제1항에 있어서,
    상기 음성인식대상정보는 이미지 또는 이미지를 지칭하는 명칭인 것을 특징으로 하는 음성인식장치.
  5. 제1항에 있어서,
    상기 음성인식대상정보는 웹 페이지의 링크정보 또는 메뉴 항목인 것을 특징으로 하는 음성인식장치.
  6. 제1항에 있어서,
    상기 음성인식대상정보는 음성입력 수신 시, 디스플레이 되어있는 웹 페이지 또는 메뉴의 적어도 한 단어 이상의 텍스트인 것을 특징으로 하는 음성인식장치.
  7. 제1항에 있어서,
    상기 음성인식장치는 휴대단말기, 컴퓨터 및 디스플레이장치를 포함하는 것을 특징으로 하는 음성인식장치.
  8. 제1항에 있어서,
    상기 음성인식엔진은 상기 음성인식장치에 내장된 장치에서 동작하는 것을 특징으로 하는 음성인식장치.
  9. 제1항에 있어서,
    상기 음성인식엔진은 상기 음성인식장치 외부의 음성인식서버에 내장된 장치에서 동작하는 것을 특징으로 하는 음성인식장치.
  10. 음성인식장치에 있어서,
    사용자로부터 음성입력을 수신하는 음성입력부;
    영상 처리를 수행하는 영상처리부;
    상기 영상 처리 수행결과를 디스플레이 하는 디스플레이부;
    음성인식서버와 통신하는 통신부; 및
    상기 음성입력의 데이터 및 음성인식대상정보를 상기 음성인식서버에 전송하고, 상기 음성입력에 대응하는 인식결과를 수신하여 동작하는 제어부를 포함하는 음성인식장치.
  11. 제10항에 있어서,
    저장부를 포함하고,
    상기 저장부는 상기 음성인식대상정보를 저장하는 것을 특징으로 하는 음성인식장치.
  12. 음성인식서버에 있어서,
    음성인식장치와 통신하는 통신부;
    음성인식을 수행하는 음성인식부; 및
    음성인식장치로부터 음성입력의 데이터와 음성인식대상정보를 수신한 경우, 상기 음성입력의 데이터가 상기 음성인식대상정보에 국한하여 인식되도록 상기 음성인식부를 제어하고, 인식결과를 상기 음성인식장치에 전송하는 제어부를 포함하는 음성인식서버.
  13. 제12항에 있어서,
    저장부를 포함하고,
    상기 저장부는 상기 음성인식대상정보를 저장하는 것을 특징으로 하는 하는 음성인식서버.
  14. 제12항 또는 제13항에 있어서,
    인식보정부를 포함하고,
    상기 인식보정부는 상기 인식결과가 상기 음성인식대상정보와 유사한 경우, 상기 인식결과를 상기 음성인식대상정보 중 가장 유사한 정보로 보정하는 것을 특징으로 하는 음성인식서버.
  15. 제12항에 있어서,
    상기 음성인식부는 서버기반의 범용 음성인식엔진인 것을 특징으로 하는 음성인식서버.
  16. 제12항에 있어서,
    상기 음성인식대상정보는 텍스트 정보인 것을 특징으로 하는 음성인식서버.
  17. 제12항에 있어서,
    상기 음성인식대상정보는 음성인식 대상인 복수의 어휘인 것을 특징으로 하는 음성인식서버.
  18. 제12항에 있어서,
    상기 음성인식대상정보는 이미지 또는 이미지를 지칭하는 명칭인 것을 특징으로 하는 음성인식서버.
  19. 제12항에 있어서,
    상기 음성인식대상정보는 웹 페이지의 링크정보 또는 메뉴 항목인 것을 특징으로 하는 음성인식서버.
  20. 음성인식시스템에 있어서,
    음성입력의 데이터와 음성인식대상정보를 음성인식서버에 전송하고, 음성인식서버로부터 음성입력에 대응하는 인식결과를 수신하여 동작하는 음성인식장치; 및
    상기 음성인식장치로부터 음성입력의 데이터와 음성인식대상정보를 수신하여, 상기 음성입력의 데이터가 상기 음성인식대상정보에 국한하여 인식되도록 하고, 인식결과를 상기 음성인식장치로 전송하는 음성인식서버를 포함하는 음성인식시스템.
  21. 제20항에 있어서,
    상기 인식결과가 상기 음성인식대상정보와 유사한 경우, 상기 인식결과를 상기 음성인식대상정보 중 가장 유사한 정보로 보정하는 것을 특징으로 하는 음성인식시스템.
  22. 음성인식방법에 있어서,
    음성인식장치에서 음성입력을 수신하는 단계;
    상기 음성입력의 데이터와 음성인식대상정보를 음성인식서버에 전송하는 단계;
    상기 음성인식대상정보에 국한하여 음성을 인식하는 단계; 및
    음성인식결과를 상기 음성인식장치로 전송하는 단계를 포함하는 음성인식방법.
  23. 제22항에 있어서,
    상기 음성인식대상정보는 텍스트 정보인 것을 특징으로 하는 음성인식방법.
  24. 제22항에 있어서,
    상기 음성인식대상정보는 음성인식 대상인 복수의 어휘인 것을 특징으로 하는 음성인식방법.
  25. 제22항에 있어서,
    상기 음성인식대상정보는 이미지 또는 이미지를 지칭하는 명칭인 것을 특징으로 하는 음성인식방법.
  26. 제22항에 있어서,
    상기 음성인식대상정보는 웹 페이지의 링크정보 또는 메뉴 항목인 것을 특징으로 하는 음성인식방법.
  27. 제22항에 있어서,
    상기 음성인식대상정보는 음성입력 수신 시, 디스플레이 되어있는 웹 페이지 또는 메뉴의 적어도 한 단어 이상의 텍스트인 것을 특징으로 하는 음성인식방법.
  28. 제22항에 있어서,
    상기 음성인식대상정보에 국한하여 음성을 인식하는 단계는,
    상기 인식결과가 상기 음성인식대상정보와 유사한 경우, 상기 인식결과를 상기 음성인식대상정보 중 가장 유사한 정보로 보정하는 것을 특징으로 하는 음성인식방법.
KR1020110078703A 2011-08-08 2011-08-08 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법 KR20130016644A (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020110078703A KR20130016644A (ko) 2011-08-08 2011-08-08 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법
EP20120162406 EP2557565A1 (en) 2011-08-08 2012-03-30 Voice recognition method and apparatus
CN2012102607842A CN102930867A (zh) 2011-08-08 2012-07-25 语音识别设备、语音识别服务器、语音识别系统和方法
US13/569,494 US20130041666A1 (en) 2011-08-08 2012-08-08 Voice recognition apparatus, voice recognition server, voice recognition system and voice recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110078703A KR20130016644A (ko) 2011-08-08 2011-08-08 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법

Publications (1)

Publication Number Publication Date
KR20130016644A true KR20130016644A (ko) 2013-02-18

Family

ID=46022022

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110078703A KR20130016644A (ko) 2011-08-08 2011-08-08 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법

Country Status (4)

Country Link
US (1) US20130041666A1 (ko)
EP (1) EP2557565A1 (ko)
KR (1) KR20130016644A (ko)
CN (1) CN102930867A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150058027A (ko) * 2013-11-18 2015-05-28 삼성전자주식회사 디스플레이 장치 및 제어 방법
KR101587625B1 (ko) * 2014-11-18 2016-01-21 박남태 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7516190B2 (en) 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
CN104123930A (zh) * 2013-04-27 2014-10-29 华为技术有限公司 喉音识别方法及装置
CN104122806A (zh) * 2013-04-28 2014-10-29 海尔集团公司 家电设备的控制方法和系统
KR102053820B1 (ko) 2013-07-02 2019-12-09 삼성전자주식회사 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
KR102215579B1 (ko) * 2014-01-22 2021-02-15 삼성전자주식회사 대화형 시스템, 디스플레이 장치 및 그 제어 방법
KR20180118461A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质
CN107886947A (zh) * 2017-10-19 2018-04-06 珠海格力电器股份有限公司 一种图像处理的方法以及装置
CN110764422A (zh) * 2018-07-27 2020-02-07 珠海格力电器股份有限公司 电器的控制方法和装置

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5809471A (en) * 1996-03-07 1998-09-15 Ibm Corporation Retrieval of additional information not found in interactive TV or telephony signal by application using dynamically extracted vocabulary
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US7330815B1 (en) * 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
JP2003514261A (ja) * 1999-11-09 2003-04-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ インターネットページのハイパーリンクを作動させる音声認識方法
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
JP3862470B2 (ja) * 2000-03-31 2006-12-27 キヤノン株式会社 データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体
FI20001918A (fi) * 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
JP3581648B2 (ja) * 2000-11-27 2004-10-27 キヤノン株式会社 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US20020178182A1 (en) * 2001-05-04 2002-11-28 Kuansan Wang Markup language extensions for web enabled recognition
JP3997459B2 (ja) * 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
US7062444B2 (en) * 2002-01-24 2006-06-13 Intel Corporation Architecture for DSR client and server development platform
JP2003241790A (ja) * 2002-02-13 2003-08-29 Internatl Business Mach Corp <Ibm> 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
AU2002347129A1 (en) * 2002-11-13 2004-06-03 Intel China Ltd. Multi-modal web interaction over wireless network
JP2006033795A (ja) * 2004-06-15 2006-02-02 Sanyo Electric Co Ltd リモートコントロールシステム、コントローラ、コンピュータにコントローラの機能を付与するプログラム、当該プログラムを格納した記憶媒体、およびサーバ。
KR100735820B1 (ko) * 2006-03-02 2007-07-06 삼성전자주식회사 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
KR100790177B1 (ko) * 2006-04-28 2008-01-02 삼성전자주식회사 휴대단말기에서 이미지 디스플레이 방법 및 장치
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US20090092266A1 (en) * 2007-10-04 2009-04-09 Cheng-Chieh Wu Wireless audio system capable of receiving commands or voice input
US8359204B2 (en) * 2007-10-26 2013-01-22 Honda Motor Co., Ltd. Free-speech command classification for car navigation system
US20090172546A1 (en) * 2007-12-31 2009-07-02 Motorola, Inc. Search-based dynamic voice activation
US8255224B2 (en) * 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
US20090271200A1 (en) * 2008-04-23 2009-10-29 Volkswagen Group Of America, Inc. Speech recognition assembly for acoustically controlling a function of a motor vehicle
EP2275953B1 (en) * 2009-06-30 2018-10-24 LG Electronics Inc. Mobile terminal
EP2339576B1 (en) * 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
KR20120080069A (ko) * 2011-01-06 2012-07-16 삼성전자주식회사 디스플레이 장치 및 그 음성 제어 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150058027A (ko) * 2013-11-18 2015-05-28 삼성전자주식회사 디스플레이 장치 및 제어 방법
KR101587625B1 (ko) * 2014-11-18 2016-01-21 박남태 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
WO2016080713A1 (ko) * 2014-11-18 2016-05-26 박남태 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법

Also Published As

Publication number Publication date
US20130041666A1 (en) 2013-02-14
CN102930867A (zh) 2013-02-13
EP2557565A1 (en) 2013-02-13

Similar Documents

Publication Publication Date Title
KR20130016644A (ko) 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법
US10068571B2 (en) Voice control method and voice control system
JP6640502B2 (ja) ディスプレイ装置、音声取得装置およびその音声認識方法
US9721572B2 (en) Device control method and electric device
US9886952B2 (en) Interactive system, display apparatus, and controlling method thereof
US9245521B2 (en) Method for correcting voice recognition error and broadcast receiving apparatus applying the same
KR102210433B1 (ko) 전자 장치 및 이의 음성 인식 방법
EP3190512B1 (en) Display device and operating method therefor
US11100919B2 (en) Information processing device, information processing method, and program
US9589561B2 (en) Display apparatus and method for recognizing voice
US20170133013A1 (en) Voice control method and voice control system
US10170122B2 (en) Speech recognition method, electronic device and speech recognition system
KR101819457B1 (ko) 음성 인식 장치 및 시스템
CN110827826B (zh) 语音转换文字方法、电子设备
US20160004502A1 (en) System and method for correcting speech input
US10535337B2 (en) Method for correcting false recognition contained in recognition result of speech of user
US20150363392A1 (en) Real-time modification of input method based on language context
US20240062759A1 (en) Modifying spoken commands
JP2020028129A (ja) 電子装置、サーバー及びその制御方法
US10770067B1 (en) Dynamic voice search transitioning
US11948567B2 (en) Electronic device and control method therefor
KR20170051994A (ko) 음성인식 디바이스 및 이의 동작 방법
KR20210064928A (ko) 전자장치와 그의 제어방법, 및 기록매체
US20190172460A1 (en) Electronic apparatus and control method thereof
KR20150134252A (ko) 디스플레이 장치, 원격 제어 장치, 시스템 및 그 제어 방법

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid