KR20080030336A - 사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치 - Google Patents

사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치 Download PDF

Info

Publication number
KR20080030336A
KR20080030336A KR1020060096291A KR20060096291A KR20080030336A KR 20080030336 A KR20080030336 A KR 20080030336A KR 1020060096291 A KR1020060096291 A KR 1020060096291A KR 20060096291 A KR20060096291 A KR 20060096291A KR 20080030336 A KR20080030336 A KR 20080030336A
Authority
KR
South Korea
Prior art keywords
service
user
user terminal
speech recognition
user profile
Prior art date
Application number
KR1020060096291A
Other languages
English (en)
Other versions
KR100913130B1 (ko
Inventor
강점자
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060096291A priority Critical patent/KR100913130B1/ko
Publication of KR20080030336A publication Critical patent/KR20080030336A/ko
Application granted granted Critical
Publication of KR100913130B1 publication Critical patent/KR100913130B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

본 발명은 사용자 단말기로부터 음성 신호를 수신하는 단계, 음성 신호에 상응하는 사용자 식별 정보를 분석하는 단계 및 분석된 사용자 식별 정보에 상응하는 FSN(Finite State Network) 및 사전을 이용하여 음성 신호를 인식하는 단계를 포함하는 대용량 음성 인식 장치의 음성 인식 방법을 제공한다.
음성 인식, 프로파일

Description

사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치{Method and Apparatus for speech recognition service using user profile}
도 1은 음성 인식 시스템을 이용한 서비스를 제공하기 위한 일반적인 흐름도.
도 2는 기존의 대용량의 음성 인식 장치를 이용하여 음성 인식 서비스를 제공하기 위한 흐름도.
도 3은 기존의 대용량의 음성 인식 장치를 이용하여 음성 인식 서비스를 제공하기 위한 다른 방법을 나타낸 흐름도.
도 4는 본 발명이 적용되는 일 실시예에 따른 시스템의 개념도.
도 5는 본 발명의 바람직한 일 실시예에 따른 대용량 음성 인식 장치에서 서비스를 처리하는 순서도.
도 6은 본 발명의 바람직한 일 실시예에 따른 대용량 음성 인식 장치에서 사용자 프로파일 정보를 저장하는 흐름도.
도 7은 본 발명의 바람직한 일 실시예에 따른 사용자 프로파일 정보의 실시예를 나타낸 도면.
도 8은 본 발명의 바람직한 일 실시예에 사용자 프로파일을 이용한 음성 인 식 서비스의 전체 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
401 : 사용자 단말기
403 : 음성 인식 장치
405 : 서비스 장치
407 : 네트워크
본 발명은 사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치에 관한 것이다.
대용량 음성 인식 시스템은 등록 어휘수가 수십만 어휘 이상이기 때문에 인식 결과를 출력하는데 소요되는 시간이 오래 걸리며, 계산 양이 많아 실시간 응답이 어려울 뿐만 아니라, 등록 어휘수가 많을수록 유사 단어가 존재할 가능성이 높아 인식 성능이 나빠진다.
시스템 관점에서는 사용자가 음성 인식 서비스를 제공받기 위하여 어떤 발성을 할지 알 수 없기 때문에, 음성 인식을 통한 서비스를 제공하기 위하여 발성 가능한 어휘를 등록 어휘로 정의해야 한다. 이러한 등록 어휘는 시스템에 정의된 문법과 서비스 시나리오에 의하여 사용자가 발성해야 할 순서를 다단계 방식으로 설계하거나, 한 단계 방식으로 설계함으로써 시스템이 융통성을 갖도록 설계하고 있다.
종래의 서비스 시나리오에 의한 다단계 방식으로 설계하는 경우, 사용자 관점에서는 서비스를 이용할 때마다 다단계 절차를 거치기 때문에 서비스 이용시간이 오래 걸린다. 시스템 관점에서는 서비스 시나리오에 따라 태스크(task)를 변경하는 개념이므로, 태스크(task)에 따라 인식 대상 어휘 수가 제한되기 때문에 실시간 응답이 빠르고, 인식 성능이 대체로 좋은 편이다. 이 방식에서는 사용자에게 발성 형태를 고립어 형태로 발성하도록 한다. 따라서 복잡한 서비스인 경우 단계가 복잡해진다.
종래 방식의 또 다른 방식으로 한 단계 방식으로 대용량 음성 인식 시스템을 설계하는 경우, 즉 사용자가 한번에 서비스를 이용하는 경우를 말한다. 이 방식은 다단계 방식을 보완하기 위해 사용하는 방식으로, 사용자 관점에서 서비스를 한 단계만으로 이용하기 때문에 서비스 이용시간이 빠른 반면, 인식 대상 어휘수가 많아 실시간 응답이 어렵고, 인식 성능이 좋지 않다.
본 발명은 사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치를 제공하는데 그 목적이 있다.
본 발명의 또 다른 목적은 미리 작성된 프로파일 정보를 이용하여 음성 인식 서비스의 속도와 정확도를 높이는데 있다.
상술한 목적들을 달성하기 위하여, 본 발명의 일 측면에 따르면, 사용자 단말기로부터 음성 신호를 수신하는 단계, 상기 음성 신호에 상응하는 사용자 식별 정보를 분석하는 단계 및 상기 분석된 사용자 식별 정보에 상응하는 FSN(Finite State Network) 및 사전을 이용하여 상기 음성 신호를 인식하는 단계를 포함하는 대용량 음성 인식 장치의 음성 인식 방법을 제공할 수 있다.
바람직한 실시예에 있어서, 상기 인식된 음성 신호에 상응하는 서비스 요청 신호를 서비스 장치에 발송하는 단계를 더 포함할 수 있다. 또한, 상기 사용자 단말기로부터 서비스 접속 신호를 수신하는 단계, 상기 서비스 접속 신호에 상응하여 상기 사용자 단말기에 사용자 프로파일 정보 요청 신호를 발송하는 단계, 상기 사용자 단말기로부터 사용자 프로파일 정보를 수신하는 단계, 상기 수신된 사용자 프로파일 정보를 저장하는 단계 및 상기 저장된 사용자 프로파일 정보에 상응하여 FSN(Finite State Network) 및 사전을 생성하는 단계를 더 포함할 수 있다.
또한, 상기 사용자 프로파일 정보는 FSN(Finite State Network) 및 사전 생성이 가능한 단어가 적어도 한 개 이상 포함되어 있는 것을 특징으로 할 수 있다.
본 발명의 다른 일 측면에 따르면, 사용자 단말기로부터 음성 신호를 수신하는 수단, 상기 음성 신호에 상응하는 사용자 식별 정보를 분석하는 수단 및 상기 분석된 사용자 식별 정보에 상응하는 FSN(Finite State Network) 및 사전을 이용하여 상기 음성 신호를 인식하는 수단을 포함하는 대용량 음성 인식 장치를 제공할 수 있다.
바람직한 실시예에 있어서, 상기 인식된 음성 신호에 상응하는 서비스 요청 신호를 서비스 장치에 발송하는 수단을 더 포함할 수 있다. 또한, 상기 사용자 단말기로부터 서비스 접속 신호를 수신하는 수단, 상기 서비스 접속 신호에 상응하여 상기 사용자 단말기에 사용자 프로파일 정보 요청 신호를 발송하는 수단, 상기 사용자 단말기로부터 사용자 프로파일 정보를 수신하는 수단, 상기 수신된 사용자 프로파일 정보를 저장하는 수단 및 상기 저장된 사용자 프로파일 정보에 상응하여 FSN(Finite State Network) 및 사전을 생성하는 수단을 더 포함할 수 있다.
또한, 상기 사용자 프로파일 정보는 FSN(Finite State Network) 및 사전 생성이 가능한 단어가 적어도 한 개 이상 포함되어 있는 것을 특징으로 할 수 있다.
이어서, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.
도 1은 음성 인식 시스템을 이용한 서비스를 제공하기 위한 일반적인 흐름도이다.
도 1을 참조하면, 우선 사용자 단말기(110)에서 음성 인식 시스템을 이용하여 서비스를 제공받기위해서 서비스 장치에 접속 요청을 시도한다(단계 101). 그러면 상기 서비스 장치 접속 요청 신호(101)는 통신망(120)을 통하여 음성 인식 시스템(130)에 전송된다(단계 103). 그러면 음성 인식 시스템(130)은 사용자 단말기로 서비스 장치(140)를 이용하기 위한 안내 멘트를 발송하고(단계 105), 이러한 안내 멘트는 통신망(120)을 통하여 사용자 단말기(110)로 전송된다(단계 107).
그러면 사용자 단말기(110)는 안내 멘트에 따라 서비스를 받기 위한 음성을 발송하고(단계 109), 이러한 음성 정보는 통신망(120)을 지나 음성 인식 시스템(130)에 전송된다(단계 111). 음성 정보를 수신한 음성 인식 시스템(130)은 수신된 음성 정보를 바탕으로 음성을 처리하여 필요한 정보를 얻어내고(단계 113), 사용자 단말기에서 요청한 서비스를 서비스 장치(140)로 전송한다(단계 115). 그러면 서비스 장치(140)는 사용자 단말기로 사용자 단말기가 요청한 서비스를 전송한다(단계 117).
이러한 음성 인식 서비스는 음성 인식 시스템의 성능에 따라 그 정확도가 좌우되고, 특히 연결 단어를 처리할 경우 음성 인식의 성능이 떨어진다는 단점이 존재하였다.
도 2는 기존의 대용량의 음성 인식 장치를 이용하여 음성 인식 서비스를 제공하기 위한 흐름도이다.
도 2를 참조하면, 우선 사용자 단말기(210)에서 대용량 음성 인식 장치(220)로 서비스를 요청한다(단계 201). 그러면 대용량 음성 인식 장치(220)는 1단계 안내 멘트를 사용자 단말기로 전송한다(단계 203). 그러면 사용자 단말기는 안내 멘트에 따라 1단계 고립어 음성을 대용량 음성 인식 장치(220)로 전송하고(단계 205), 대용량 음성 인식 장치(220)는 전송된 1단계 고립어 음성을 처리하여 1단계 서비스 정보를 획득한다(단계 207). 그 후, 대용량 음성 인식 장치(220)는 2단계 안내 멘트를 사용자 단말기로 전송하고(단계 209), 사용자 단말기는 안내 멘트에 따라 2단계 고립어 음성을 대용량 음성 인식 장치(220)로 전송하고(단계 211), 대용량 음성 인식 장치(220)는 전송된 2단계 고립어 음성을 처리하여 2단계 서비스 정보를 획득한다(단계 213).
이러한 방식으로 n 단어의 고립어로 이루어진 연결어를 서비스해야할 경우 대용량 음성 인식 장치(220)는 n 단계의 안내 멘트를 사용자 단말기(210)로 전송하고(단계 215), 사용자 단말기(210)로부터 n 단계의 고립어 음성 정보를 수신하여(단계 217) n 단계의 고립어 음성을 처리하여(단계 219), 전체적인 음성 정보를 처리한 후 서비스 장치(230)에 사용자 단말기(210)가 원하는 서비스를 요청하고(단계 221), 서비스 장치는 요청된 서비스를 사용자 단말기로 전송한다(단계 223).
여기서 각 단계는 사용자 단말기에서 요청한 서비스가 복잡한 연속어로 이루어진 경우, 각각의 고립어를 분리하여 음성 전송을 요청하는 단계이다. 예를 들어 사용자 단말기에서 요청한 서비스가 "SBS 드라마 하늘이시어"인 경우 대용량 음성 인식 장치(220)는 "원하는 공중파 방송 채널을 말씀하세요." 라는 1단계 안내 멘트를 전송하고, 사용자 단말기(210)로부터 "SBS"라는 고립어 음성 정보를 수신하면 그 정보를 처리한 후, 다시 "원하는 방송 종류를 말씀하세요."라는 2단계 안내 멘트를 전송한다. 그 후, "드라마"라는 음성 정보를 수신하면, 다시 "원하는 드라마 의 제목을 말씀하세요."라고 3단계 안내 멘트를 전송하여 최종 고립어 정보인 "하늘이시어"의 정보를 제공받는다.
이러한 단계별 음성 인식을 통하여 "SBS 드라마 하늘이시어"에 대한 정보를 취득하여 서비스 장치로 최종 음성 인식 정보를 전송하게 된다.
이러한 방식의 대용량 음성 인식 처리 방법은 각 음성 정보에 대한 인식 대상의 어휘수가 제한적이어서 실시간 응답이 가능하고 인식 성능이 좋다는 장점이 있으나, 여러 단계의 절차에 의해 서비스가 제공되어 서비스의 제공시간이 오래 걸리고 사용자 입장에서 불편할 수 있다는 단점이 존재한다.
도 3은 기존의 대용량의 음성 인식 장치를 이용하여 음성 인식 서비스를 제공하기 위한 다른 방법을 나타낸 흐름도이다.
도 3을 참조하면, 우선 사용자 단말기(310)에서 대용량 음성 인식 장치(320)로 서비스를 요청한다(단계 301). 그 후, 대용량 음성 인식 장치(320)는 안내 멘트를 사용자 단말기로 전송한다(단계 303). 그러면 사용자 단말기는 안내 멘트에 따라 복수의 고립어를 포함하는 연결어 음성을 대용량 음성 인식 장치(320)로 전송하고(단계 305), 대용량 음성 인식 장치(320)는 전송된 연결어 음성을 처리하여 서비스 정보를 획득한다(단계 307). 그 후 연결어 음성 정보를 처리한 후 서비스 장치(330)에 사용자 단말기(310)가 원하는 서비스를 요청하고(단계 309), 서비스 장치는 요청된 서비스를 사용자 단말기(310)로 전송한다(단계 311).
이러한 방식의 대용량 음성 인식 처리 방법은 사용자 입장에서 한 단계의 절차만으로 서비스를 이용할 수 있기 때문에 서비스 이용 시간이 빠르고, 편리한 장점이 있으나, 인식 대상 어휘 수가 많아져서 대용량 음성 인식 장치(320)에서 처리할 양이 증가하여 실시간 응답이 어렵고, 인식 성능이 나쁜 단점이 존재한다.
도 4는 본 발명이 적용되는 일 실시예에 따른 시스템의 개념도이다.
도 4를 참조하면, 본 발명에 따른 음성 인식 서비스 시스템은 네트워크(407)와 결합하는 사용자 단말기(401), 대용량 음성 인식 장치(403), 및 서비스 장치(405)를 포함한다. 이러한 구분은 본 발명에 대한 이해를 도모하기 위한 것으로 각각의 구성 요소는 물리적 실체가 아닌 기능적 실체일 수 있다. 따라서 본 도에서 확인할 수 있는 바와 같이, 사용자는 경우에 따라 사용자 단말기(401)를 거치지 않고 직접 대용량 음성 인식 장치(403)에 접속할 수 있다.
사용자 단말기(401)는 네트워크(407)에 접속할 수 있고, 음성을 전송할 수 있는 형태의 기기라면 무엇이던 가능할 것이다. 일반적으로 음성 인식 서비스의 경우 음성에 의한 서비스를 제공하므로 음성을 전송할 수 있는 전화기나 이동 통신 단말기가 될 것이다. 그러나 일반적인 퍼스널 컴퓨터, 핸드핼드 PC, 노트북 PC, PDA, 컴퓨팅 기능을 포함하는 가전제품 등도 포함하며, 네트워크(407)를 통하여 대용량 음성 인식 장치(403)에 접속하여 본 발명에 따른 서비스를 설정할 수 있는 컴퓨팅 시스템을 포함하는 컴퓨팅 장치이다. 또한 이러한 단말기(401)는 물리적 실체 로서가 아니라 기능적 실체로서 상기에서 설명한 각 실시예의 일부 기능만을 의미할 수도 있다.
네트워크(407)는 음성 서비스가 전달될 수 있는 모든 형태의 통신망을 포함한다. 이러한 통신망에는 대표적으로 PSTN(Public Switched Telephone Network)이 있을 수 있고, 이동 통신망, 인터넷 등이 있을 수 있다. 또한 이러한 네트워크는 본 발명의 이해를 돕기 위한 것일 뿐으로 본 네트워크(407)는 상기에서 설명된 예시뿐만 아니라 미시적인 네트워크 예를 들어 컴퓨터 내부의 버스(BUS) 인터페이스 등을 포함하는 개념이다.
대용량 음성 인식 장치(403)는 사용자 단말기(401)로부터 수신된 음성 신호를 분석하여 서비스 장치(405)로 사용자 단말기(401)가 원하는 서비스를 요청하는 역할을 담당한다. 이러한 대용량 음성 인식 장치(403)에서 사용자 단말기(401)로부터 수신된 음성 신호를 분석할 때에 저장된 사용자의 프로파일 정보를 이용하여 빠르고 정확하게 음성 인식이 가능하다.
이러한 프로파일 정보는 미리 사용자 단말기(401)로부터 수신되어 저장되고, 저장된 사용자 프로파일 정보를 이용하여 FSN(Finite State Network)및 사전을 생성하여 실제 음성 인식 서비스를 제공할 때 보다 빠른 음성 신호의 분석을 제공한다. 따라서 프로파일에는 일반적으로 사용자가 자주 사용하는 단어와 자주 사용하는 서비스 카테고리 및 사용자 인증 정보 등이 포함된다.
대용량 음성 인식 장치(403) 또한 물리적 실체로서가 아니라 기능적 실체로 서 일반적으로 당 업자가 언급하는 물리적인 실체를 가진 장치뿐만 아니라 상기에서 설명하는 기능을 가지는 기능적 실체는 모두 장치로서 표현될 수 있다.
서비스 장치(405)는 대용량 음성 인식 장치(405)에서 요청한 서비스 요청 신호에 따라 사용자 단말기(401)로 요청된 서비스를 전송하는 역할을 담당한다. 이러한 경우 서비스의 제공이 사용자 단말기(401)에게서 이루질 필요가 없는 경우 그에 적당한 서비스를 사용자가 받을 수 있다면, 사용자 단말기(401)로 제공할 필요는 없다.
이러한 서비스 장치(405)는 서비스에 따라 다양한 서비스 데이터를 저장할 수 있다. 예를 들어 VOD(Video On Demand)서비스의 경우에는 서비스 장치(405)는 사용자 단말기로 전송할 수 있는 방송 데이터가 저장될 수 있으며, 다른 서비스의 경우에는 그 서비스에 상응하는 다른 데이터가 저장될 수 있을 것이다.
서비스 장치(405) 또한 물리적 실체로서가 아니라 기능적 실체로서 일반적으로 물리적인 실체를 가진 서비스 장치(405) 뿐만 아니라 상기에서 설명하는 기능을 가지는 기능적 실체는 모두 서비스 장치(405)로서 표현될 수 있다.
다만 이러한 시스템의 설명은 본 발명의 일 실시예일 뿐이다.
본 발명에서 사용자 단말기(401), 대용량 음성 인식 장치(403) 및 서비스 장치(405)는 상기에서 예시를 든 물리적인 실체일 수 있으나, 기능적인 구분으로서도 의미를 가진다.
예를 들어 상기에서 단말기(401)의 일 실시예로 표현된 노트북 PC의 경우에 는 단말기(401)로서 음성을 인식하고 음성을 대용량 인식 장치에서 인식 가능한 신호로 변조하여 전송하는 역할을 가질 수 있으나, 그 뿐만 아니라 대용량 음성 인식 장치(403)로서 단말기(401)로부터 수신된 음성 신호를 분석하여 서비스 장치(405)로 사용자 단말기(401)가 원하는 서비스를 요청하는 역할을 같이 포함할 수 있으며, 또한 서비스 장치(405)로서 대용량 음성 인식 장치(405)에서 요청한 서비스 요청 신호에 따라 사용자에게 서비스를 제공하는 역할을 모두 포함하여 같이 수행할 수 있다.
이러한 경우 네트워크(407)는 인터넷이나 이동통신망이 아니라 노트북 PC 내부의 데이터 송수신 네트워크인 SCSI (small computer system interface), IDE (Integrated Drive Electronics), PCI (Peripheral Component Interconnect), ISA (Industry Standard Architecture)가 될 수 있다.
이하에서 설명하는 실시예는 설명의 편의를 위해서 모두 단말기, 대용량 음성 인식 장치 및 서비스 장치가 물리적으로 분리된 실체로서 가정하고 설명하였으나, 상기에서 설명한 바와 같이 각 구성 부분들은 물리적 실체뿐만 아니라 기능적인 실체로서도 이해할 수 있다.
도 5는 본 발명의 바람직한 일 실시예에 따른 대용량 음성 인식 장치에서 서비스를 처리하는 순서도이다.
도 5를 참조하면, 우선 대용량 음성 인식 장치에서 음성 인식을 해야 할 음성 신호를 수신한다(단계 501). 그러면 대용량 음성 인식 장치는 음성 신호의 사용 자를 분석한다(단계 503). 이러한 사용자의 분석은 사용자 프로파일 정보를 활용하기 위해서 필요한 단계이다. 이러한 사용자의 분석은 음성 신호에 의해서도 가능한데, 사용자의 음성 정보를 분석하여 각 사용자의 특징을 분석하여 사용자를 확인할 수 있으며, 그 외에 음성 인식 시스템에 접속하기 전에 다른 방식으로 사용자 인증을 받아 사용자를 확인한 뒤 음성 정보를 수신하는 방법도 이용이 가능하다.
이러한 단계를 지나 사용자의 정보 분석이 끝나면 서비스 사용자인지를 판단하여(단계 505) 서비스 사용자가 아니라면 서비스 종료 멘트를 발송하고 서비스를 종료하며(단계 507), 서비스 사용자라면 사용자 프로파일이 존재하는지 확인한다(단계 509).
이 때, 사용자 프로파일이 존재하지 않는다면 도면 2 및 도면 3에서 설명한 기존의 음성 인식 절차를 이용하여 음성 인식을 할 수 있을 것이다(단계 511).
사용자 프로파일 정보에 의해 생성된 FSN(Finite State Network) 및 사전에 의해 음성을 인식할 수 있다(단계 513). 이러한 미리 설정된 프로파일 정보에 의한 음성 인식 방법은 기존의 방식에 비해 정확도가 우수하고 음성 인식 처리가 빨라 기존 방식에 비해 매우 효율적인 음성 인식 처리가 가능하다.
이러한 방식에 의해 음성 인식이 완료되면(단계 515), 서비스 장치로 인식된 정보를 발송한다(단계 517). 이러한 방식에 의해 기존의 음성 인식 방식에 비해 빠르고 효율적인 음성 인식 서비스가 제공될 수 있다.
도 6은 본 발명의 바람직한 일 실시예에 따른 대용량 음성 인식 장치에서 사 용자 프로파일 정보를 저장하는 흐름도이다.
도 6을 참조하면, 우선 사용자 단말기(610)가 대용량 음성 인식 장치(620)에 접속한다(단계 601). 그러면 대용량 음성 인식 장치(620)는 사용자 단말기(610)로 사용자 프로파일 정보를 요청하고(단계 603), 이러한 사용자 프로파일 정보의 요청을 받은 사용자 단말기(610)는 대용량 음성 인식 장치(620)가 요청하는 형태의 프로파일 정보를 작성한다(단계 605).
그 후, 작성된 사용자 프로파일 정보를 대용량 음성 인식 장치(620)로 전송한다(단계 607). 그러면 대용량 음성 인식 장치(620)는 사용자 단말기(610)로부터 전송된 사용자 프로파일 정보를 저장하고(단계 609), 그 프로파일 정보를 분석한다(단계 611).이러한 사용자 프로파일 정보에는 사용자의 인증 정보와 사전 및 FSN(Finite State Network)의 범위를 축소시키는 키워드가 포함되어 있다. 이러한 키워드를 분석하면 검색 범위를 적절하게 좁히는 사전 및 FSN(Finite State Network)의 생성이 가능하다.
그 후, 사용자 프로파일 정보에 포함된 단어를 이용하여 FSN(Finite State Network) 및 사전을 생성하여 저장한다(단계 613).
프로파일 정보에 포함된 단어는 대용량 음성 인식 장치에서 검색해야할 단어의 데이터베이스를 한정하는 역할을 한다. 즉 기존의 음성 인식 방식이 사용자와 관계없이 데이터베이스에 포함된 모든 음성 정보를 검색하여 음성을 인식하는 방식이라면, 본 발명은 프로파일 정보를 이용하여 각 사용자마다 다른 기준을 적용하여 FSN(Finite State Network) 및 사전을 생성할 수 있어, 사용자에 따라 각각 다른 문법 구조와 사전을 가지게 된다. 이러한 방식을 이용하면 대용량의 음성 정보를 모두 검색할 필요가 없어 빠르고 정확한 음성 인식이 가능하다.
이렇게 저장된 FSN(Finite State Network) 및 사전은 사용자 단말기(610)에 음성 인식 서비스를 제공할 때 적용될 것이다.
도 7은 본 발명의 바람직한 일 실시예에 따른 사용자 프로파일 정보의 실시예를 나타낸 도면이다.
도 7을 참조하면, 이러한 사용자 프로파일 정보는 사용자 단말기에서 음성 인식 서비스를 제공받기 전에 미리 작성되는 것이다. 따라서 이러한 사용자 프로파일 정보를 미리 저장한 대용량 음성 인식 장치는 사용자 프로파일 정보에 포함된 단어에 의해 FSN(Finite State Network) 및 사전을 생성하여 그것을 바탕으로 빠르고 정확한 음성 인식 서비스를 제공할 수 있다.
사용자 프로파일 정보는 사용자마다 각각 다른 개인적인 정보일 경우가 많으므로 각 사용자에 따라 다른 정보를 저장해야 할 것이다. 따라서 사용자 프로파일 정보에서 가장 먼저 인식되어야 할 것은 사용자 아이디와 사용자 비밀번호일 것이다(701). 물론 아이디나 비밀번호가 아니라 음성 정보의 특징에 의해 사용자를 판별할 수도 있으며 이러한 경우 사용자 프로파일 정보에 포함되는 것은 사용자의 아이디와 비밀번호가 아니라, 사용자의 음성 지문이 될 수 있을 것이다.
상기 도면 7의 사용자 프로파일 정보는 음성 인식 TV 가이드에 관한 실시예 를 나타낸 것이므로, 도면에 나타낸 사용자 프로파일은 서비스 유형, 서비스 채널 및 즐겨 사용하는 단어의 목록으로 나타난다. 이러한 사용자 프로파일은 음성 인식 서비스의 종류에 따라 얼마든지 변경될 수 있다.
서비스 유형(703) 및 서비스 채널(705)의 정보는 대용량 음성 인식 장치에서 음성을 인식할 때 대상 찾아야할 서비스 범위를 줄여주는 역할을 담당한다.
즐겨 사용하는 단어(707)는 사용자가 음성 인식 서비스를 사용할 때 가장 빈번하게 사용하는 단어들이다. 이러한 사용자 프로파일 정보에 의해 대용량 음성 인식 장치는 장치에 포함된 모든 음성 데이터베이스를 검색할 필요가 없이, 사용자 프로파일에 의해 한정된 범위의 데이터베이스 내에서 FSN(Finite State Network) 및 사전을 생성할 수 있다.
이렇게 생성된 FSN(Finite State Network) 및 사전은 저장되어 사용자 단말기가 음성 인식 서비스를 요청할 경우 이를 이용하여 실시간 응답이 가능하고 정확한 음성 인식이 가능하다.
도 8은 본 발명의 바람직한 일 실시예에 사용자 프로파일을 이용한 음성 인식 서비스의 전체 흐름도이다.
도 8을 참조하면, 우선 사용자 단말기(810)가 대용량 음성 인식 장치(820)로 서비스 접속 신호를 전송한다(단계 801). 그러면 대용량 음성 인식 장치(820)는 사용자 단말기(810)로 사용자 프로파일 정보를 요청하고(단계 803), 이러한 사용자 프로파일 정보의 요청을 받은 사용자 단말기(810)는 대용량 음성 인식 장치(820)가 요청하는 형태의 프로파일 정보를 작성한다(단계 805).
그 후, 작성된 사용자 프로파일 정보를 대용량 음성 인식 장치(820)로 전송한다(단계 807). 그러면 대용량 음성 인식 장치(820)는 사용자 단말기(810)로부터 전송된 사용자 프로파일 정보를 저장하고(단계 809), 그 프로파일 정보를 분석하여 사용자 프로파일 정보에 포함된 단어를 이용하여 FSN(Finite State Network) 및 사전을 생성하여 저장한다(단계 811).
그 후, 음성 인식 서비스를 이용하기 위해 사용자 단말기(810)에서 대용량 음성 인식 장치(820)로 서비스 요청 신호를 전송한다(단계 813). 그러면 상기 대용량 음성 인식 장치(820)는 사용자 단말기(810)로 서비스 안내 멘트를 발송한다(단계 815). 서비스 안내 멘트를 수신한 사용자 단말기(810)는 대용량 음성 인식 장치(820)로 안내 멘트에 따라 적절한 음성 신호를 발송하고(단계 817), 음성 신호를 수신한 대용량 음성 인식 장치(820)는 사용자 식별 정보를 분석한다(단계 819). 사용자 식별 정보는 음성 자체에 의한 것일 수도 있고, 음성의 내용에 따른 암호 키를 입력받아 식별 정보를 분석할 수도 있다. 이러한 사용자 식별 정보의 분석은 음성 인식을 이용하려는 사용자가 인증된 사용자인지를 판단하기 위해서이다.
그 후 대용량 음성 인식 장치(820)는 인증된 사용자 프로파일이 존재하는지를 확인(단계 821)하여 사용자 프로파일이 존재하면 상기 참조 번호 811의 단계에서 생성된 사용자 프로파일을 이용하여(단계 825) 음성 신호를 처리한다(단계 823).
그 후, 음성 처리에 의해 인식된 정보를 서비스 장치(830)로 전송한다(단계 827). 그러면 서비스 요청 신호를 수신한 서비스 장치(830)는 요청 신호에 상응하는 서비스를 사용자 단말기(810)로 전송한다(단계 829).
본 발명은 상기 실시예에 한정되지 않으며, 많은 변형이 본 발명의 사상 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 가능함은 물론이다.
본 발명에 의하여, 사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치를 제공할 수 있다.
또한 본 발명에 의해, 미리 작성된 프로파일 정보를 이용하여 음성 인식 서비스의 속도와 정확도를 높일 수 있다.

Claims (8)

  1. 사용자 단말기로부터 음성 신호를 수신하는 단계;
    상기 음성 신호에 상응하는 사용자 식별 정보를 분석하는 단계; 및
    상기 분석된 사용자 식별 정보에 상응하는 FSN(Finite State Network) 및 사전을 이용하여 상기 음성 신호를 인식하는 단계
    를 포함하는 대용량 음성 인식 장치의 음성 인식 방법.
  2. 제1항에 있어서,
    상기 인식된 음성 신호에 상응하는 서비스 요청 신호를 서비스 장치에 발송하는 단계
    를 더 포함하는 대용량 음성 인식 장치의 음성 인식 방법.
  3. 제1항에 있어서,
    상기 사용자 단말기로부터 서비스 접속 신호를 수신하는 단계;
    상기 서비스 접속 신호에 상응하여 상기 사용자 단말기에 사용자 프로파일 정보 요청 신호를 발송하는 단계;
    상기 사용자 단말기로부터 사용자 프로파일 정보를 수신하는 단계;
    상기 수신된 사용자 프로파일 정보를 저장하는 단계; 및
    상기 저장된 사용자 프로파일 정보에 상응하여 FSN(Finite State Network) 및 사전을 생성하는 단계
    를 더 포함하는 대용량 음성 인식 장치의 음성 인식 방법.
  4. 제3항에 있어서,
    상기 사용자 프로파일 정보는 FSN(Finite State Network) 및 사전 생성이 가능한 단어가 적어도 한 개 이상 포함되어 있는 것
    을 특징으로 하는 대용량 음성 인식 장치의 음성 인식 방법.
  5. 사용자 단말기로부터 음성 신호를 수신하는 수단;
    상기 음성 신호에 상응하는 사용자 식별 정보를 분석하는 수단; 및
    상기 분석된 사용자 식별 정보에 상응하는 FSN(Finite State Network) 및 사전을 이용하여 상기 음성 신호를 인식하는 수단
    을 포함하는 대용량 음성 인식 장치.
  6. 제1항에 있어서,
    상기 인식된 음성 신호에 상응하는 서비스 요청 신호를 서비스 장치에 발송하는 수단
    을 더 포함하는 대용량 음성 인식 장치.
  7. 제1항에 있어서,
    상기 사용자 단말기로부터 서비스 접속 신호를 수신하는 수단;
    상기 서비스 접속 신호에 상응하여 상기 사용자 단말기에 사용자 프로파일 정보 요청 신호를 발송하는 수단;
    상기 사용자 단말기로부터 사용자 프로파일 정보를 수신하는 수단;
    상기 수신된 사용자 프로파일 정보를 저장하는 수단; 및
    상기 저장된 사용자 프로파일 정보에 상응하여 FSN(Finite State Network) 및 사전을 생성하는 수단
    을 더 포함하는 대용량 음성 인식 장치.
  8. 제7항에 있어서,
    상기 사용자 프로파일 정보는 FSN(Finite State Network) 및 사전 생성이 가능한 단어가 적어도 한 개 이상 포함되어 있는 것
    을 특징으로 하는 대용량 음성 인식 장치.
KR1020060096291A 2006-09-29 2006-09-29 사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치 KR100913130B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060096291A KR100913130B1 (ko) 2006-09-29 2006-09-29 사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060096291A KR100913130B1 (ko) 2006-09-29 2006-09-29 사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20080030336A true KR20080030336A (ko) 2008-04-04
KR100913130B1 KR100913130B1 (ko) 2009-08-19

Family

ID=39532493

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060096291A KR100913130B1 (ko) 2006-09-29 2006-09-29 사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100913130B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190143210A (ko) * 2018-06-20 2019-12-30 주식회사 엘지유플러스 개인 검색 패턴 가이드 제공 장치 및 방법
KR20200072005A (ko) * 2018-12-12 2020-06-22 주식회사 엘지유플러스 음성 인식된 문장의 보정 방법
KR20200075465A (ko) * 2018-12-18 2020-06-26 주식회사 엘지유플러스 문장 복원 방법 및 장치

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3581648B2 (ja) * 2000-11-27 2004-10-27 キヤノン株式会社 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
US20020091515A1 (en) * 2001-01-05 2002-07-11 Harinath Garudadri System and method for voice recognition in a distributed voice recognition system
KR20040107232A (ko) * 2003-06-13 2004-12-20 현대자동차주식회사 음성 인식 방법
KR20050023941A (ko) * 2003-09-03 2005-03-10 삼성전자주식회사 음성 인식 및 화자 인식을 통한 개별화된 서비스를제공하는 a/v 장치 및 그 방법
KR100679043B1 (ko) * 2005-02-15 2007-02-05 삼성전자주식회사 음성 대화 인터페이스 장치 및 방법
KR100810500B1 (ko) * 2005-12-08 2008-03-07 한국전자통신연구원 대화형 음성 인터페이스 시스템에서의 사용자 편의성증대 방법
KR100766061B1 (ko) * 2005-12-09 2007-10-11 한국전자통신연구원 화자적응 방법 및 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190143210A (ko) * 2018-06-20 2019-12-30 주식회사 엘지유플러스 개인 검색 패턴 가이드 제공 장치 및 방법
KR20200072005A (ko) * 2018-12-12 2020-06-22 주식회사 엘지유플러스 음성 인식된 문장의 보정 방법
KR20200075465A (ko) * 2018-12-18 2020-06-26 주식회사 엘지유플러스 문장 복원 방법 및 장치

Also Published As

Publication number Publication date
KR100913130B1 (ko) 2009-08-19

Similar Documents

Publication Publication Date Title
US11626101B2 (en) Dynamic language and command recognition
KR102649208B1 (ko) 질의 응답을 위한 디스플레이 장치 및 방법
US11636146B2 (en) Content analysis to enhance voice search
US9547716B2 (en) Displaying additional data about outputted media data by a display device for a speech search command
US8862615B1 (en) Systems and methods for providing information discovery and retrieval
US10811005B2 (en) Adapting voice input processing based on voice input characteristics
US11494434B2 (en) Systems and methods for managing voice queries using pronunciation information
CN109087639B (zh) 用于语音识别的方法、装置、电子设备及计算机可读介质
WO2014201834A1 (en) Method and device of matching speech input to text
US11127399B2 (en) Method and apparatus for pushing information
US20070143307A1 (en) Communication system employing a context engine
US20080201142A1 (en) Method and apparatus for automication creation of an interactive log based on real-time content
CN105206272A (zh) 语音传输控制方法及系统
KR20140112360A (ko) 음성 인식의 단어 통합 시스템 및 단어군 추가 방법
KR100814641B1 (ko) 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
KR20160032564A (ko) 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
KR100913130B1 (ko) 사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치
US20190164541A1 (en) Real-time utterance verification system and method thereof
WO2019155716A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
KR20010064061A (ko) 음성 인식 기능을 갖는 검색 엔진
KR102479026B1 (ko) MPEG IoMT 환경에서의 질의응답 시스템 및 방법
KR20120083025A (ko) 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법
CN111339790B (zh) 文本翻译方法、装置、设备及计算机可读存储介质
KR20090013876A (ko) 음소를 이용한 분산형 음성 인식 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
E801 Decision on dismissal of amendment
B601 Maintenance of original decision after re-examination before a trial
S901 Examination by remand of revocation
GRNO Decision to grant (after opposition)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20130729

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee