KR101330328B1 - 음성 인식 방법 및 이를 위한 시스템 - Google Patents

음성 인식 방법 및 이를 위한 시스템 Download PDF

Info

Publication number
KR101330328B1
KR101330328B1 KR1020100127898A KR20100127898A KR101330328B1 KR 101330328 B1 KR101330328 B1 KR 101330328B1 KR 1020100127898 A KR1020100127898 A KR 1020100127898A KR 20100127898 A KR20100127898 A KR 20100127898A KR 101330328 B1 KR101330328 B1 KR 101330328B1
Authority
KR
South Korea
Prior art keywords
user
model
speech
recognition result
speaker
Prior art date
Application number
KR1020100127898A
Other languages
English (en)
Other versions
KR20120066523A (ko
Inventor
송화전
강병옥
이윤근
박전규
정훈
이성주
정호영
박기영
강점자
정의석
전형배
김종진
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020100127898A priority Critical patent/KR101330328B1/ko
Publication of KR20120066523A publication Critical patent/KR20120066523A/ko
Application granted granted Critical
Publication of KR101330328B1 publication Critical patent/KR101330328B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building

Abstract

개인 맞춤형 자연어 연속어 음성 인식 방법 및 이를 위한 시스템이 개시된다. 음성 인식 방법은, 단말로부터 사용자 정보 및 사용자 발화를 수신하는 단계와, 상기 수신된 사용자 정보에 기초하여 상기 사용자가 등록된 사용자인지 여부를 판단하는 단계와, 상기 사용자가 등록된 사용자인 것으로 판단되면, 상기 등록된 사용자의 정보를 포함하는 개인 맞춤형 모델을 기초로 상기 사용자 발화를 인식하여 음성 인식 결과를 생성하는 단계 및 상기 생성된 음성 인식 결과를 상기 단말로 전송하는 단계를 포함한다. 따라서, 현재 웹 서비스 중에 휴대 단말 환경 기반 음성 검색 서비스의 성능을 최대한 높이기 위해 개인 맞춤형 서비스를 제공할 수 있다.

Description

음성 인식 방법 및 이를 위한 시스템{METHOD OF RECOGNIZING VOICE AND SYSTEM FOR THE SAME}
본 발명은 음성 인식 방법 및 이를 위한 시스템에 관한 것으로, 더욱 상세하게는 개인 맞춤형 자연어 연속어 음성 인식 방법 및 이를 위한 시스템에 관한 것이다.
최근 스마트폰 등 휴대 단말의 사용이 폭발적으로 증가하고 있으며, 이런 사용자 환경의 변화에 발맞추어 포탈 서비스 업체 등에서 클라우드 컴퓨팅 방식 도입 등 새로운 모바일 생태계를 구축하려 하고 있으며, 이를 통해 기존에 웹 상에서 서비스 하기 어려웠던 분야에 대한 서비스를 스마트폰 등으로 쉽게 수행이 가능하도록 서비스 산업을 진화시키려고 한다. 이러한 서비스 변화에 대한 대표적인 예로 음성 검색 서비스를 들 수 있다. 즉, 음성 인식의 경우에도 클라우드 컴퓨팅 환경으로 인해 거의 무제한 어휘 인식이 가능해 졌으며, 웹검색뿐만 아니라 예약, 일정관리, 이메일 작성 등과 같은 음성인식 응용 시스템이 거의 실용화 단계에 접어 들고 있다.
휴대 단말의 경우는 개인 사용자 자신이 선호하는 응용프로그램 및 인터넷 서비스를 주로 사용하므로 휴대 단말을 개인의 사용 성향에 따라 개인 맞춤형 서비스를 제공한다면 휴대 단말의 활용성을 극대화할 수 있다. 따라서, 음성 인식의 경우에도 개별 사용자의 발화 특성 및 자주 사용하는 단어와 문장 또는 관심 분야 등에 대한 선호도를 반영하여 개인 맞춤형 서비스를 제공하는 시스템을 구축함으로써 개별 사용자 각각에 대한 음성 인식의 성능을 극대화 할 수 있다.
또한 자연어 연속어 음성 인식의 경우에는 활용할 수 있는 분야가 무궁무진하며, 이중 실용화 가능성이 가장 높고 사용자들이 가장 선호할 수 있는 기술로서 일정관리, 예약, 이메일 작성, 외국어 학습 시스템, 자동 통역, 지능로봇 음성 인터페이스 등이 될 것이다. 그러나, 자연어 연속어 음성 인식의 경우 자연어 특성이 반영된 다양한 형태의 발화가 가능하므로 모든 사용자들의 패턴을 수집, 분석 및 반영하여 수준 높은 범용 음성인식 서비스를 제공하는 것은 어렵다는 문제점이 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 제 1 목적은, 개인 맞춤형 자연어 연속어 음성 인식 방법을 제공하는데 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 제 2 목적은, 개인 맞춤형 자연어 연속어 음성 인식 시스템을 제공하는데 있다.
상기한 본 발명의 제 1 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성 인식 방법은, 단말로부터 사용자 정보 및 사용자 발화를 수신하는 단계와, 상기 수신된 사용자 정보에 기초하여 상기 사용자가 등록된 사용자인지 여부를 판단하는 단계와, 상기 사용자가 등록된 사용자인 것으로 판단되면, 상기 등록된 사용자의 정보를 포함하는 개인 맞춤형 모델을 기초로 상기 사용자 발화를 인식하여 음성 인식 결과를 생성하는 단계 및 상기 생성된 음성 인식 결과를 상기 단말로 전송하는 단계를 포함한다.
여기서, 상기 음성 인식 방법은, 상기 단말로부터 음성 인식 결과 동의 메시지가 수신되면 상기 사용자 발화 및 음성 인식 결과 중 적어도 하나를 이용하여 상기 개인 맞춤형 모델을 업데이트하는 단계를 더 포함할 수 있다.
여기서, 상기 음성 인식 결과를 생성하는 단계는, 상기 사용자가 등록된 사용자가 아닌 것으로 판단되면, 화자 독립 모델을 기초로 상기 사용자 발화를 인식하여 음성 인식 결과를 생성하는 단계를 포함할 수 있다.
여기서, 상기 화자 독립 모델을 기초로 상기 사용자 발화를 인식하여 음성 인식 결과를 생성하는 단계는, 상기 사용자가 등록된 사용자가 아닌 것으로 판단되면, 자연어 발화에서 발생할 수 있는 간투사, 입술소리, 숨소리 및 목청 가다듬기 소리 중 적어도 하나를 포함하여 구성된 화자 독립 필러 모델, 사용자가 자주 사용하는 환경을 검출하여 구성된 환경 잡음 모델, 휴대 단말별 묵음 구간을 표현하는 표현을 이용하여 구성된 묵음 모델 및 휴대 단말별 채널 잡음을 보상하기 위해 구성된 채널 잡음 모델 중 적어도 하나를 포함하는 상기 화자 독립 모델을 기초로 상기 사용자 발화를 인식하여 음성 인식 결과를 생성할 수 있다.
여기서, 상기 사용자 발화 및 음성 인식 결과 중 적어도 하나를 이용하여 상기 개인 맞춤형 모델을 업데이트하는 단계는, 상기 단말로부터 음성 인식 결과 동의 메시지가 수신되면 상기 사용자 발화 및 음성 인식 결과를 통해 자연어 발화시 사용자의 발화 형태를 분석하여, 상기 화자 독립 필러 모델에 화자 적응 기법, 변별 학습 및 발화 검증 기술 중 적어도 하나를 적용, 상기 환경 잡음 모델 및 상기 묵음 모델에 화자 적응 기법, 변별 학습 및 발화 검증 기술 중 적어도 하나를 적용, 상기 채널 잡음 모델에 사용자 휴대 단말의 편차에 대한 채널 특성을 반영 및 상기 화자 독립 음향 모델에 화자 적용 기법 반영 중 적어도 하나에 의해 상기 개인 맞춤형 모델을 업데이트할 수 있다.
본 발명의 제 2 목적을 달성하기 위한 본 발명의 일 실시예에 따른 서버는, 단말로부터 사용자 정보 및 사용자 발화를 수신하고, 수신된 상기 사용자 정보 및 사용자 발화를 제공하는 입/출력 관리 모듈과, 상기 입/출력 관리 모듈로부터 제공 받은 사용자 정보에 기초하여 상기 사용자가 등록된 사용자인지 여부를 판단하고, 제공 받은 음성 인식 결과를 상기 입/출력 관리 모듈을 통해 상기 단말로 전송하는 제어 모듈과, 상기 제어 모듈의 제어에 기초하여 상기 등록된 사용자의 정보를 포함하는 개인 맞춤형 모델을 제공하는 서비스 처리 모듈 및 상기 서비스 처리 모듈로부터 제공 받은 상기 개인 맞춤형 모델을 기초로 상기 사용자 발화를 인식하여 음성 인식 결과를 생성하고, 생성된 상기 음성 인식 결과를 상기 입/출력 관리 모듈을 통해 상기 단말로 전송하는 음성 인식 모듈을 포함한다.
여기서, 상기 서비스 처리 모듈은, 상기 단말로부터 음성 인식 결과 동의 메시지가 수신됨에 따른 상기 제어 모듈의 제어에 기초하여 상기 사용자 정보 및 사용자 발화 중 적어도 하나를 이용하여 상기 개인 맞춤형 모델을 업데이트할 수 있다.
여기서, 상기 서버는, 화자 독립 음향 모델, 화자 독립 언어 모델, 자연어 필러 모델용 범용 음성 데이터 베이스, 범용 언어 데이터 베이스, 범용 자연어 필터 및 잡음 데이터 베이스가 구축된 언어 코퍼스 모듈과, 상기 언어 코퍼스 모듈로부터 수집되어 구축된 데이터 베이스를 훈련하는 훈련 모듈 및 상기 훈련 모듈로부터 훈련된 데이터 베이스를 이용하여 화자 독립 필러 모델, 화자 독립 음향 모델, 화자 독립 언어 모델, 잡음 모델, 묵음 모델 및 채널 잡음 모델 중 적어도 하나를 포함하는 화자 독립 모델을 구성하는 모델 구성 모듈을 더 포함할 수 있다.
여기서, 상기 음성 인식 모듈은, 상기 사용자가 등록된 사용자가 아닌 경우, 상기 모델 구성 모듈로부터 수신된 상기 화자 독립 모델에 기초하여 상기 사용자 발화를 인식한 음성 인식 결과를 생성하고, 생성된 상기 음성 인식 결과를 상기 입/출력 관리 모듈을 통해 상기 단말로 전송할 수 있다.
여기서, 상기 서비스 처리 모듈은, 상기 음성 인식 결과를 통해 자연어 발화시 사용자의 발화 형태를 분석하여 상기 화자 독립 필러 모델에 화자 적응 기법, 변별 학습 및 발화 검증 기술 중 적어도 하나를 적용, 상기 환경 잡음 모델 및 상기 묵음 모델에 화자 적응 기법, 변별 학습 및 발화 검증 기술 중 적어도 하나를 적용, 상기 채널 잡음 모델에 사용자 휴대 단말의 편차에 대한 채널 특성을 반영 및 상기 화자 독립 음향 모델에 대해 화자 적응 기법 반영 중 적어도 하나에 의해 상기 개인 맞춤형 모델을 업데이트할 수 있다.
삭제
상기와 같은 본 발명에 따른 개인 맞춤형 자연어 연속어 음성 인식 방법 및 이를 위한 시스템을 이용할 경우에는 현재 웹 서비스 중에 휴대 단말 환경 기반 음성 검색 서비스의 성능을 최대한 높이기 위해 개인 맞춤형 서비스를 제공할 수 있으며, 특히 자연어 발성을 통한 다양한 음성 인식 서비스를 창출할 수 있으며, 예약, 일정관리, 이메일 작성, 외국어 교육 시스템이나 자동 통역 등이 그 대표적인 예이다. 또한 향후 지속적으로 클라우드 컴퓨팅 환경이 성숙하고 또한 다양한 형태의 개인 맞춤형 웹 서비스 산업이 급속하게 창출될 것이며, 이러한 새로운 모바일 플랫폼 기반의 에코시스템(eco-system)에서 개인 사용자에게 가장 편리한 사용자 인터페이스를 제공할 수 있을 것이다.
도1은 본 발명의 일 실시예에 따른 음성 인식 시스템의 내부 구조를 개략적으로 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 과정을 설명하기 위한 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도1은 본 발명의 일 실시예에 따른 음성 인식 시스템의 내부 구조를 개략적으로 도시한 도면이다. 도 1은 사용자가 모바일 플랫폼 기반 음성 인식 시스템과 연동하여 음성 인식 서비스를 제공하는 다양한 형태의 어플리케이션을 앱스토어 등에서 다운로드하여 자신의 휴대 단말에 설치한 후, 클라이언트는 자신이 원하는 서비스에 대해 자연스럽게 발화함에 따라 서버는 통신망을 통하여 클라이언트로부터 수신된 사용자 발화를 이용하여 사용자의 음성을 인식하여 사용자가 요청한 웹 검색 자료 또는 사용자가 특정 서비스를 지원받기 위해 가입한 여러 가지 형태의 웹 서비스 업체에 인식 결과 및 추가적인 정보를 제공하는 경우의 예시도이다.
본 발명의 일 실시예에 따르면, 휴대 단말은 셀룰러 전화기, 무선 통신 기능을 가지는 스마트 폰, 무선 통신 기능을 가지는 개인 휴대용 단말기(PDA), 무선 모뎀, 무선 통신 기능을 가지는 휴대용 컴퓨터, 무선 통신 기능을 가지는 디지털 카메라와 같은 촬영장치, 무선 통신 기능을 가지는 게이밍 장치, 무선 통신 기능을 가지는 음악저장 및 재생 가전제품, 무선 인터넷 접속 및 브라우징이 가능한 인터넷 가전제품뿐만 아니라 그러한 기능들의 조합들을 통합하고 있는 휴대형 유닛 또는 단말기들을 포함할 수 있으나, 이에 한정되는 것은 아니다.
또한, 본 발명의 일 실시예에 따르면, 서버는 통신망을 통하여 클라이언트로부터 수신된 사용자 발화를 이용하여 사용자의 음성을 인식하며, 통신망은 유선과 무선으로 펌웨어 파일을 송수신할 수 있는 모든 통신망을 지칭하는 것으로, 와이브로(Wibro), 공중 전화망, 이동 통신망, 예를 들어 코드 분할 다중 접속(CDMA: Code Division Multiple Access, 이하, 'CDMA'라 칭하기로 함.), 직교 주파수 분할(OFDM: Orthogonal Frequency Division Multiplexing)을 포함하며, 이에 한정되는 것은 아니다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 음식 인식 시스템은 클라이언트(100), 통신망(101) 및 서버(102)를 포함하여 구성될 수 있고, 서버(102)는 제 1 모델 구성부(103) 및 제 2 모델 구성부(104)를 포함하여 구성될 수 있고, 제 1 모델 구성부(103)는 입/출력 관리 유닛(113), 제어 유닛(123), 서비스 처리 유닛(133) 및 음성 인식 유닛(143)을 포함하여 구성될 수 있고, 제 2 모델 구성부(104)는 언어 코퍼스 유닛(114), 훈련 유닛(124) 및 모델 구성 유닛(134)를 포함하여 구성될 수 있다.
입/출력 관리 유닛(113)은 사용자가 자신의 휴대 단말에 설치된 모바일 플랫폼 기반 음성 인식 시스템과 연동하여 음성 인식 서비스를 제공하는 다양한 형태의 어플리케이션을 이용하여 음성 인식 시스템에 로그인한 경우, 사용자 정보를 수신한다.
입/출력 관리 유닛(113)은 음성 인식 유닛(143)으로부터 수신된 음성 인식 결과를 클라이언트(100)에게 송신함에 따라 클라이언트(100)로부터 음성 인식 결과에 대한 사용자의 확인을 수신한다.
제어 유닛(123)은 입/출력 관리 유닛(113)으로부터 수신된 사용자 정보를 이용하여 음성 인식 시스템에 접속한 사용자가 등록된 사용자인지 등록되지 않은 사용자인지 판단할 수 있다. 먼저, 제어 유닛(123)이 음성 인식 시스템에 접속한 사용자가 등록된 사용자라고 판단한 경우를 설명하기로 한다. 제어 유닛(123)은 음성 인식 시스템에 접속한 사용자가 등록된 사용자라고 판단함에 따라 서비스 처리 유닛(133)에 저장된 개인 맞춤형 서비스 정보 중 접속한 사용자에 해당하는 서비스 정보가 음성 인식 유닛(143)에 전송되도록 제어한다.
둘째, 제어 유닛(123)이 음성 인식 시스템에 접속한 사용자가 등록되지 않은 사용자라고 판단한 경우를 설명하기로 한다. 제어 유닛(123)은 음성 인식 시스템에 접속한 사용자가 등록되지 않은 사용자라고 판단함에 따라 서비스 처리 유닛(133)에 저장된 개인 맞춤형 서비스 정보가 음성 인식 유닛(143)에 전송되지 않도록 제어한다. 이는 음성 인식 시스템에 접속한 사용자에 대한 개인 맞춤형 서비스가 서비스 처리 유닛(133)에 저장되지 않았기 때문이다. 제어 유닛(123)은 입/출력 관리 유닛(113)으로부터 수신된 사용자 음성을 음성 인식 유닛(143)에 전송되도록 제어하여 음성 인식 유닛(143)이 사용자의 사용 환경을 최대한 반영하여 화자 독립 음향/언어/필러 모델을 반영하여 음성 인식을 수행하도록 제어한다.
제어 유닛(123)은 입/출력 관리 유닛(113)이 음성 인식 유닛(143)으로부터 수신된 음성 인식 결과를 클라이언트(100)에게 송신함에 따라 클라이언트(100)로부터 수신된 음성 인식 결과에 대한 사용자의 확인을 이용하여 사용자가 음성 인식 결과에 동의하는지 여부를 판단할 수 있다. 먼저, 제어 유닛(123)은 입/출력 관리 유닛(113)이 클라이언트(100)로부터 수신된 음식 인식 결과에 대한 사용자의 확인을 이용하여 사용자가 음성 인식 결과에 동의하였다고 판단한 경우를 설명하기로 한다. 제어 유닛(123)이 사용자가 음성 인식 결과에 동의하였다고 판단함에 따라 입/출력 관리 유닛(113)으로부터 수신된 사용자 발화 및 음성 인식 결과가 서비스 처리 유닛(133)에 저장되도록 제어한다.
둘째, 제어 유닛(123)은 입/출력 관리 유닛(113)이 클라이언트(100)로부터 수신된 음성 인식 결과에 대한 사용자의 확인을 이용하여 사용자가 음성 인식 결과에 동의하지 않았다고 판단하는 경우를 설명하기로 한다. 제어 유닛(123)이 사용자가 음성 인식 결과에 동의하지 않았다고 판단함에 따라 입/출력 관리 유닛(113)이 클라이언트(100)로부터 사용자 발화를 다시 수신하도록 제어한다.
서비스 처리 유닛(133)은 제어 유닛(123)의 제어에 의해 개인 맞춤형 서비스 정보를 음성 인식 유닛(143)에 송신하거나 송신하지 않는다. 먼저, 서비스 처리 유닛(133)이 제어 유닛(123)의 제어에 의해 개인 맞춤형 서비스 정보 음성 인식 유닛(143)에 송신하는 경우를 설명하기로 한다. 제어 유닛(123)이 음성 인식 시스템에 접속한 사용자가 등록된 사용자라고 판단함에 따라 서비스 처리 유닛(133)은 개인 맞춤형 서비스 정보 중 음성 인식 시스템에 접속한 사용자에 해당하는 서비스 정보를 음성 인식 유닛(143)으로 송신한다.
둘째, 서비스 처리 유닛(133)이 제어 유닛(123)의 제어에 의해 개인 맞춤형 서비스 정보 음성 인식 유닛(143)에 송신하지 않는 경우를 설명하기로 한다. 제어 유닛(123)이 음성 인식 시스템에 접속한 사용자가 등록되지 않은 사용자라고 판단함에 따라 서비스 처리 유닛(133)은 개인 맞춤형 서비스 정보를 음성 인식 유닛(143)으로 송신하지 않는다.
서비스 처리 유닛(133)은 제어 유닛(123)의 제어에 의해 입/출력 관리 유닛(113)으로부터 수신된 사용자 발화 및 음성 인식 결과를 저장하거나 저장하지 않는다. 먼저, 서비스 처리 유닛(133)이 제어에 의해 입/출력 관리 유닛(113)으로부터 수신된 사용자 발화 및 음성 인식 결과를 저장하는 경우를 설명하기로 한다. 제어 유닛(123)은 입/출력 관리 유닛(113)이 음성 인식 유닛(143)로부터 수신된 음성 인식 결과를 클라이언트(100)에게 송신함에 따라 클라이언트(100)로부터 수신된 음성 인식 결과에 대한 사용자의 확인을 이용하여 사용자가 음성 인식 결과에 동의한다고 판단함에 따라 서비스 처리 유닛(133)은 입/출력 관리 유닛(113)으로부터 수신된 사용자 발화 및 음성 인식 결과를 저장한다.
둘째, 서비스 처리 유닛(133)이 제어에 의해 입/출력 관리 유닛(113)으로부터 수신된 사용자 발화 및 음성 인식 결과를 저장하지 않는 경우를 설명하기로 한다. 제어 유닛(123)은 입/출력 관리 유닛(113)이 음성 인식 유닛(143)으로부터 수신된 음성 인식 결과를 클라이언트(100)에게 송신함에 따라 클라이언트(100)로부터 수신된 음성 인식 결과에 대한 사용자의 확인을 이용하여 사용자가 음성 인식 결과에 동의하지 않는다고 판단함에 따라 서비스 처리 유닛(133)은 입/출력 관리 유닛(113)으로부터 수신된 사용자 발화 및 음성 인식 결과를 저장하지 않는다.
서비스 처리 유닛(133)은 제어 유닛(123)이 입/출력 관리 유닛(113)이 음성 인식 유닛(143)으로부터 수신된 음성 인식 결과를 클라이언트(100)에게 송신함에 따라 클라이언트(100)로부터 수신된 음성 인식 결과에 대한 사용자의 확인을 이용하여 사용자가 음성 인식 결과에 동의하였다고 판단한 경우, 입/출력 관리 유닛(113)으로부터 수신된 사용자 발화를 저장하고, 저장된 사용자 발화의 음성 인식 결과를 이용하여 자연어 발화시 사용자의 습관적 발화 형태를 분석하여 개인 맞춤 모델을 구성한다. 먼저, 서비스 처리 유닛(133)은 모델 구성 유닛(134)으로부터 사용자가 습관적으로 발생하는 개인의 간투사 등이 모델로 구성되어 수신된 화자 독립 필러 모델에 화자 적응 기법이나 변별 학습 및 발화 검증 기술을 적용하여 개인 맞춤 필러 모델을 구성한다. 둘째, 서비스 처리 유닛(133)은 모델 구성 유닛(134)으로부터 사용자가 자주 사용하는 환경이 검출되어 모델로 구성되어 수신된 화자 독립 잡음 모델 및 화자 독립 묵음 모델에 화자 적응 기법이나 변별 학습 및 발화 검증 기술을 각각 적용하여 개인 맞춤 잡음 모델 및 묵음 모델을 구성한다.
셋째, 서비스 처리 유닛(133)은 모델 구성 유닛(134)으로부터 구성되어 수신된 휴대 단말별 채널 잡음 모델에 사용자의 휴대 단말의 편차에 대한 채널 특성을 반영하여 개인 맞춤 채널 모델을 구성한다. 넷째, 서비스 처리 유닛(133)은 모델 구성 유닛(134)으로부터 구성되어 수신된 화자 독립 음향 모델에 대해 화자 적응 기법을 이용하여 개인 맞춤형 음향 모델을 구성한다. 이와 같이, 서비스 처리 유닛(133)은 등록 사용자에 대해서 개인 맞춤형으로 음향/언어/필러/잡음 모델 등을 사용자 발화가 발생할 때마다 지속적으로 업데이트 하기 때문에 음성 인식 성능을 극대화 시킬 수 있다.
음성 인식 유닛(143)은 제어 유닛(123)의 제어에 의해 서비스 처리 유닛(133)으로부터 개인 맞춤형 서비스 정보를 수신하거나 수신하지 않을 수 있다. 먼저, 음성 인식 유닛(143)은 제어 유닛(123)의 제어에 의해 서비스 처리 유닛(133)으로부터 개인 맞춤형 서비스 정보를 수신하는 경우를 설명하기로 한다. 제어 유닛(123)이 입/출력 관리 유닛(113)으로부터 수신된 사용자 정보를 이용하여 음성 인식 시스템에 접속한 사용자가 등록된 사용자라고 판단함에 따라 음성 인식 유닛(143)은 서비스 처리 유닛(133)으로부터 개인 맞춤형 서비스 정보를 수신할 수 있다.
둘째, 음성 인식 유닛(143)은 제어 유닛(123)의 제어에 의해 서비스 처리 유닛(133)으로부터 개인 맞춤형 서비스 정보를 수신하지 않는 경우를 설명하기로 한다. 제어 유닛(123)이 입/출력 관리 유닛(113)으로부터 수신된 사용자 정보를 이용하여 음성 인식 시스템에 접속한 사용자가 등록되지 않은 사용자라고 판단함에 따라 음성 인식 유닛(143)은 서비스 처리 유닛(133)으로부터 개인 맞춤형 서비스 정보를 수신하지 않을 수 있다.
음성 인식 유닛(143)은 제어 유닛(123)이 입/출력 관리 유닛(113)으로부터 수신된 사용자 정보를 이용하여 음성 인식 시스템에 접속한 사용자가 등록된 사용자라고 판단함에 따라 서비스 처리 유닛(133)으로부터 개인 맞춤형 서비스 정보를 수신한 경우, 서비스 처리 유닛(133)으로부터 수신된 개인 맞춤형 서비스 정보를 기초로 하여 입/출력 관리 유닛(113)을 통해 클라이언트(100)로부터 수신된 사용자 발화를 인식하고, 사용자 발화를 인식한 결과인 음성 인식 결과를 입/출력 관리 유닛(113)을 통해 클라이언트(100)로 송신한다.
음성 인식 유닛(143)은 제어 유닛(123)이 입/출력 관리 유닛(113)으로부터 수신된 사용자 정보를 이용하여 음성 인식 시스템에 접속한 사용자가 등록되지 않은 사용자라고 판단함에 따라 모델 구성 유닛(134)으로부터 수신된 모델을 기초로 하여 입/출력 관리 유닛(113)을 통해 클라이언트(100)로부터 수신된 사용자 발화를 인식하고, 사용자 발화를 인식한 결과인 음성 인식 결과를 입/출력 관리 유닛(113)을 통해 클라이언트(100)로 송신한다.
언어 코퍼스 유닛(114)은 사용하고자 하는 음성 인식 서비스 목적에 맞는 규모로 내용을 수집하여 데이터 베이스를 구축한다. 본 발명의 일 실시예에 따르면, 언어 코퍼스 유닛(114)은 음성 인식 서비스 목적에 맞는 규모로 내용을 수집하여 화자 독립 음향/언어/필러 모델용 범용 음성 데이터 베이스, 범용 언어 데이터 베이스, 범용 자연어 필터 및 잡음 데이터 베이스를 구축한다.
훈련 유닛(124)은 언어 코퍼스 유닛(114)으로부터 수집되어 구축된 데이터 베이스를 훈련을 한다.
모델 구성 유닛(134)은 훈련 유닛(124)로부터 훈련된 데이터 베이스를 이용하여 다양한 형태의 화자 독립 모델을 구성한다. 먼저, 모델 구성 유닛(134)은 훈련 유닛(124)로부터 훈련된 데이터 베이스를 이용하여 다양한 형태의 자연어 발화에서 발생할 수 있는 간투사, 입술소리, 숨소리, 목청 가다듬기 소리 등을 포함하여 화자 독립 필러 모델을 구성할 수 있고, 화자 독립 음향 모델 및 화자 독립 언어 모델을 구성한다.
둘째, 모델 구성 유닛(134)은 훈련 유닛(124)로부터 훈련된 데이터 베이스를 이용하여 사용자가 자주 사용하는 환경을 검출하여 다양한 환경별 잡음 모델을 구성한다. 셋째, 모델 구성 유닛(134)은 훈련 유닛(124)로부터 훈련된 데이터 베이스를 이용하여 다양한 휴대 단말별 묵음 구간을 표현하는 묵음 모델을 구성한다. 넷째, 모델 구성 유닛(134)은 훈련 유닛(124)로부터 훈련된 데이터 베이스를 이용하여 휴대 단말별 채널 잡음을 보상하도록 하는 채널 잡음 모델을 구성한다.
모델 구성 유닛(134)은 제어 유닛(123)이 입/출력 관리 유닛(113)가 음성 인식 유닛(143)으로부터 수신된 음성 인식 결과를 클라이언트(100)에게 송신함에 따라 클라이언트(100)로부터 수신된 음성 인식 결과에 대한 사용자의 확인을 이용하여 사용자가 음성 인식 결과에 동의하였다고 판단한 경우, 서비스 처리 유닛(133)으로 화자 독립 음향/언어/필러 모델을 송신한다. 그러면 이하에서는, 도 2를 참조하여 본 발명의 일 실시예에 따른 음성 인식 과정을 보다 구체적으로 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 과정을 설명하기 위한 흐름도이다. 도 2는 사용자가 모바일 플랫폼 기반 음성 인식 시스템과 연동하여 음성 인식 서비스를 제공하는 다양한 형태의 어플리케이션을 앱스토어 등에서 다운로드 하여 자신의 휴대 단말에 설치한 후, 클라이언트는 자신이 원하는 서비스에 대해 자연스럽게 발화함에 따라 서버는 통신망을 통하여 클라이언트로부터 수신된 사용자 발화를 이용하여 사용자의 음성을 인식하여 사용자가 요청한 웹 검색 자료 또는 사용자가 특정 서비스를 지원받기 위해 가입한 여러 가지 형태의 웹 서비스 업체에 인식 결과 및 추가적인 정보를 제공하는 경우에 사용자 발화를 인식하는 과정을 설명하기 위한 흐름도이다.
본 발명의 일 실시예에 따르면, 휴대 단말은 셀룰러 전화기, 무선 통신 기능을 가지는 스마트 폰, 무선 통신 기능을 가지는 개인 휴대용 단말기(PDA), 무선 모뎀, 무선 통신 기능을 가지는 휴대용 컴퓨터, 무선 통신 기능을 가지는 디지털 카메라와 같은 촬영장치, 무선 통신 기능을 가지는 게이밍 장치, 무선 통신 기능을 가지는 음악저장 및 재생 가전제품, 무선 인터넷 접속 및 브라우징이 가능한 인터넷 가전제품뿐만 아니라 그러한 기능들의 조합들을 통합하고 있는 휴대형 유닛 또는 단말기들을 포함할 수 있으나, 이에 한정되는 것은 아니다.
또한, 본 발명의 일 실시예에 따르면, 서버는 통신망을 통하여 클라이언트로부터 수신된 사용자 발화를 이용하여 사용자의 음성을 인식하며, 통신망은 유선과 무선으로 펌웨어 파일을 송수신할 수 있는 모든 통신망을 지칭하는 것으로, 와이브로(Wibro), 공중 전화망, 이동 통신망, 예를 들어 코드 분할 다중 접속, 직교 주파수 분할을 포함하며, 이에 한정되는 것은 아니다.
도 2를 참조하면, 음성 인식 시스템은 음성 인식 시스템에 로그인한 사용자의 정보 및 사용자 발화를 수신한다(S201). 음성 인식 시스템이 수신된 사용자 정보를 이용하여 음성 인식 시스템에 로그인한 사용자가 등록된 사용자라고 판단한 경우(S202), 개인 맞춤형 모델을 기초로 하여 사용자 발화를 인식한다(S203). 여기서 개인 맞춤형 모델은 화자 독립 모델을 기초로 하여 생성된 모델로서, 사용자가 습관적으로 발생하는 개인의 간투사 등이 모델로 구성되어 수신된 화자 독립 필러 모델에 화자 적응 기법이나 변별 학습 및 발화 검증 기술을 적용하여 구성된 개인 맞춤 필러 모델, 사용자가 자주 사용하는 환경이 검출되어 모델로 구성되어 수신된 화자 독립 잡음 모델 및 화자 독립 묵음 모델에 화자 적응 기법이나 변별 학습 및 발화 검증 기술을 각각 적용하여 구성된 개인 맞춤 잡음 모델 및 묵음 모델, 휴대 단말별 채널 잡음 모델에 사용자의 휴대 단말의 편차에 대한 채널 특성을 반영하여 구성된 개인 맞춤 채널 모델 및 화자 독립 음향 모델에 대해 화자 적응 기법을 이용하여 구성된 개인 맞춤형 음향 모델을 포함한다.
음성 인식 시스템이 수신된 사용자 정보를 이용하여 음성 인식 시스템에 로그인한 사용자가 등록된 사용자가 아니라고 판단한 경우(S202), 화자 독립 모델을 기초로 하여 사용자 발화를 인식한다(S204). 여기서, 화자 독립 모델은 다양한 형태의 자연어 발화에서 발생할 수 있는 간투사, 입술소리, 숨소리, 목청 가다듬기 소리 등을 포함하여 구성된 화자 독립 필러 모델, 사용자가 자주 사용하는 환경을 검출하여 구성된 환경별 잡음 모델, 휴대 단말별 묵음 구간을 표현하는 표현들을 이용하여 구성된 묵음 모델 및 휴대 단말별 채널 잡음을 보상하기 위해 구성된 채널 잡음 모델을 포함한다.
음성 인식 시스템이 사용자로부터 수신된 사용자 발화의 인식에 따른 음성 인식 결과에 대한 확인을 이용하여 사용자가 음성 인식 결과에 동의하였다고 판단한 경우(S205), 사용자 발화 및 음성 인식 결과를 개인 맞춤형 모델에 업데이트한다(S206). 음성 인식 시스템이 사용자로부터 수신된 사용자 발화의 인식에 따른 음성 인식 결과에 대한 확인을 이용하여 사용자가 음성 인식 결과에 동의하지 않았다고 판단한 경우(S205), 사용자 발화를 재 수신한다(S207).
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 클라이언트 101: 통신망
102: 서버 103: 제 1 모델 구성부
113: 입/출력 관리 유닛 123: 제어 유닛
133: 서비스 처리 유닛 143: 음성 인식 유닛
104: 제 2 모델 구성부 114: 언어 코퍼스 유닛
124: 훈련 유닛 134: 모델 구성 유닛

Claims (10)

  1. 단말로부터 사용자 정보 및 사용자 발화를 수신하는 단계;
    상기 수신된 사용자 정보에 기초하여 상기 사용자가 등록된 사용자인지 여부를 판단하는 단계;
    상기 사용자가 등록된 사용자인 것으로 판단되면, 상기 등록된 사용자의 정보를 포함하는 개인 맞춤형 모델을 기초로 상기 사용자 발화를 인식하여 음성 인식 결과를 생성하는 단계;
    상기 생성된 음성 인식 결과를 상기 단말로 전송하는 단계;
    상기 단말에 의한 응답으로 상기 단말로 전송된 음성 인식 결과에 대한 동의 여부를 판단하는 단계;
    상기 음성 인식 결과에 대해 동의한 경우, 상기 사용자 발화 및 음성 인식 결과 중 적어도 하나를 이용하여 상기 개인 맞춤형 모델을 업데이트하는 단계; 및
    상기 음성 인식 결과에 대해 동의하지 않은 경우, 상기 사용자 발화를 재수신하는 단계를 포함하는 음성 인식 방법.
  2. 삭제
  3. 청구항 1에 있어서,
    상기 음성 인식 결과를 생성하는 단계는,
    상기 사용자가 등록된 사용자가 아닌 것으로 판단되면, 화자 독립 모델을 기초로 상기 사용자 발화를 인식하여 음성 인식 결과를 생성하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
  4. 청구항 3에 있어서,
    상기 화자 독립 모델을 기초로 상기 사용자 발화를 인식하여 음성 인식 결과를 생성하는 단계는,
    상기 사용자가 등록된 사용자가 아닌 것으로 판단되면, 자연어 발화에서 발생할 수 있는 간투사, 입술소리, 숨소리 및 목청 가다듬기 소리 중 적어도 하나를 포함하여 구성된 화자 독립 필러 모델, 사용자가 자주 사용하는 환경을 검출하여 구성된 환경 잡음 모델, 휴대 단말별 묵음 구간을 표현하는 표현을 이용하여 구성된 묵음 모델 및 휴대 단말별 채널 잡음을 보상하기 위해 구성된 채널 잡음 모델 중 적어도 하나를 포함하는 상기 화자 독립 모델을 기초로 상기 사용자 발화를 인식하여 음성 인식 결과를 생성하는 것을 특징으로 하는 음성 인식 방법.
  5. 청구항 4에 있어서,
    상기 사용자 발화 및 음성 인식 결과 중 적어도 하나를 이용하여 상기 개인 맞춤형 모델을 업데이트하는 단계는,
    상기 단말로부터 음성 인식 결과 동의 메시지가 수신되면 상기 사용자 발화 및 음성 인식 결과를 통해 자연어 발화시 사용자의 발화 형태를 분석하여, 상기 화자 독립 필러 모델에 화자 적응 기법, 변별 학습 및 발화 검증 기술 중 적어도 하나를 적용, 상기 환경 잡음 모델 및 상기 묵음 모델에 화자 적응 기법, 변별 학습 및 발화 검증 기술 중 적어도 하나를 적용, 상기 채널 잡음 모델에 사용자 휴대 단말의 편차에 대한 채널 특성을 반영 및 상기 화자 독립 음향 모델에 화자 적용 기법 반영 중 적어도 하나에 의해 상기 개인 맞춤형 모델을 업데이트 하는 것을 특징으로 하는 음성 인식 방법.
  6. 단말로부터 사용자 정보 및 사용자 발화를 수신하고, 수신된 상기 사용자 정보 및 사용자 발화를 제공하는 입/출력 관리 모듈;
    상기 입/출력 관리 모듈로부터 제공 받은 사용자 정보에 기초하여 상기 사용자가 등록된 사용자인지 여부를 판단하고, 제공 받은 음성 인식 결과를 상기 입/출력 관리 모듈을 통해 상기 단말로 전송하는 제어 모듈;
    상기 제어 모듈의 제어에 기초하여 상기 등록된 사용자의 정보를 포함하는 개인 맞춤형 모델을 제공하는 서비스 처리 모듈; 및
    상기 서비스 처리 모듈로부터 제공 받은 상기 개인 맞춤형 모델을 기초로 상기 사용자 발화를 인식하여 음성 인식 결과를 생성하고, 생성된 상기 음성 인식 결과를 상기 입/출력 관리 모듈을 통해 상기 단말로 전송하는 음성 인식 모듈을 포함하되,
    상기 서비스 처리 모듈은,
    상기 단말에 의한 응답으로 상기 단말로 전송된 음성 인식 결과에 대한 동의 여부를 판단하여,
    상기 음성 인식 결과에 대해 동의한 경우, 상기 사용자 발화 및 음성 인식 결과 중 적어도 하나를 이용하여 상기 개인 맞춤형 모델을 업데이트하고,
    상기 음성 인식 결과에 대해 동의하지 않은 경우, 상기 사용자 발화를 재수신하는 것을 특징으로 하는 서버.
  7. 삭제
  8. 청구항 6에 있어서,
    상기 서버는,
    화자 독립 음향 모델, 화자 독립 언어 모델, 자연어 필러 모델용 범용 음성 데이터 베이스, 범용 언어 데이터 베이스, 범용 자연어 필터 및 잡음 데이터 베이가 구축된 언어 코퍼스 모듈;
    상기 언어 코퍼스 모듈로부터 수집되어 구축된 데이터 베이스를 훈련하는 훈련 모듈; 및
    상기 훈련 모듈로부터 훈련된 데이터 베이스를 이용하여 화자 독립 필러 모델, 화자 독립 음향 모델, 화자 독립 언어 모델, 환경 잡음 모델, 묵음 모델 및 채널 잡음 모델 중 적어도 하나를 포함하는 화자 독립 모델을 구성하는 모델 구성 모듈을 더 포함하는 서버.
  9. 청구항 8에 있어서,
    상기 음성 인식 모듈은,
    상기 사용자가 등록된 사용자가 아닌 경우, 상기 모델 구성 모듈로부터 수신된 상기 화자 독립 모델에 기초하여 상기 사용자 발화를 인식한 음성 인식 결과를 생성하고, 생성된 상기 음성 인식 결과를 상기 입/출력 관리 모듈을 통해 상기 단말로 전송하는 것을 특징으로 하는 서버.
  10. 청구항 8에 있어서,
    상기 서비스 처리 모듈은,
    상기 음성 인식 결과를 통해 자연어 발화시 사용자의 발화 형태를 분석하여 상기 화자 독립 필러 모델에 화자 적응 기법, 변별 학습 및 발화 검증 기술 중 적어도 하나를 적용, 상기 환경 잡음 모델 및 상기 묵음 모델에 화자 적응 기법, 변별 학습 및 발화 검증 기술 중 적어도 하나를 적용, 상기 채널 잡음 모델에 사용자 휴대 단말의 편차에 대한 채널 특성을 반영 및 상기 화자 독립 음향 모델에 대해 화자 적응 기법 반영 중 적어도 하나에 의해 상기 개인 맞춤형 모델을 업데이트 하는 것을 특징으로 하는 서버.

KR1020100127898A 2010-12-14 2010-12-14 음성 인식 방법 및 이를 위한 시스템 KR101330328B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100127898A KR101330328B1 (ko) 2010-12-14 2010-12-14 음성 인식 방법 및 이를 위한 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100127898A KR101330328B1 (ko) 2010-12-14 2010-12-14 음성 인식 방법 및 이를 위한 시스템

Publications (2)

Publication Number Publication Date
KR20120066523A KR20120066523A (ko) 2012-06-22
KR101330328B1 true KR101330328B1 (ko) 2013-11-15

Family

ID=46685871

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100127898A KR101330328B1 (ko) 2010-12-14 2010-12-14 음성 인식 방법 및 이를 위한 시스템

Country Status (1)

Country Link
KR (1) KR101330328B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160055059A (ko) * 2014-11-07 2016-05-17 삼성전자주식회사 음성 신호 처리 방법 및 장치
US10553219B2 (en) 2015-09-23 2020-02-04 Samsung Electronics Co., Ltd. Voice recognition apparatus, voice recognition method of user device, and non-transitory computer readable recording medium
WO2020101174A1 (ko) * 2018-11-15 2020-05-22 삼성전자 주식회사 개인화 립 리딩 모델 생성 방법 및 장치
WO2020184753A1 (ko) * 2019-03-12 2020-09-17 엘지전자 주식회사 음성 추출 필터를 이용하여 음성 제어를 수행하는 인공 지능 장치 및 그 방법
KR20200121845A (ko) * 2018-12-03 2020-10-26 구글 엘엘씨 텍스트 독립 화자 인식
KR20210008520A (ko) * 2018-09-25 2021-01-22 구글 엘엘씨 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리
US11308936B2 (en) 2014-11-07 2022-04-19 Samsung Electronics Co., Ltd. Speech signal processing method and speech signal processing apparatus

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015005679A1 (ko) * 2013-07-09 2015-01-15 주식회사 윌러스표준기술연구소 음성 인식 방법, 장치 및 시스템
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
KR101883301B1 (ko) * 2017-01-11 2018-07-30 (주)파워보이스 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
GB202104280D0 (en) * 2021-03-26 2021-05-12 Samsung Electronics Co Ltd Method and apparatus for real-time sound enhancement

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080001873A (ko) * 2006-06-30 2008-01-04 주식회사 케이티 음성 인식을 이용한 저장물 관리 장치 및 방법
KR20100027865A (ko) * 2008-09-03 2010-03-11 엘지전자 주식회사 화자 및 음성 인식 장치 및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080001873A (ko) * 2006-06-30 2008-01-04 주식회사 케이티 음성 인식을 이용한 저장물 관리 장치 및 방법
KR20100027865A (ko) * 2008-09-03 2010-03-11 엘지전자 주식회사 화자 및 음성 인식 장치 및 그 방법

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102536944B1 (ko) * 2014-11-07 2023-05-26 삼성전자주식회사 음성 신호 처리 방법 및 장치
KR20160055059A (ko) * 2014-11-07 2016-05-17 삼성전자주식회사 음성 신호 처리 방법 및 장치
US11308936B2 (en) 2014-11-07 2022-04-19 Samsung Electronics Co., Ltd. Speech signal processing method and speech signal processing apparatus
US10553219B2 (en) 2015-09-23 2020-02-04 Samsung Electronics Co., Ltd. Voice recognition apparatus, voice recognition method of user device, and non-transitory computer readable recording medium
KR102492783B1 (ko) 2018-09-25 2023-01-27 구글 엘엘씨 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리
KR20210008520A (ko) * 2018-09-25 2021-01-22 구글 엘엘씨 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리
KR102535338B1 (ko) 2018-09-25 2023-05-26 구글 엘엘씨 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리
KR20230018534A (ko) * 2018-09-25 2023-02-07 구글 엘엘씨 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리
WO2020101174A1 (ko) * 2018-11-15 2020-05-22 삼성전자 주식회사 개인화 립 리딩 모델 생성 방법 및 장치
KR20200121845A (ko) * 2018-12-03 2020-10-26 구글 엘엘씨 텍스트 독립 화자 인식
US11527235B2 (en) 2018-12-03 2022-12-13 Google Llc Text independent speaker recognition
KR102438671B1 (ko) 2018-12-03 2022-08-31 구글 엘엘씨 텍스트 독립 화자 인식
KR20220070546A (ko) * 2018-12-03 2022-05-31 구글 엘엘씨 텍스트 독립 화자 인식
KR102399420B1 (ko) 2018-12-03 2022-05-19 구글 엘엘씨 텍스트 독립 화자 인식
US11468886B2 (en) 2019-03-12 2022-10-11 Lg Electronics Inc. Artificial intelligence apparatus for performing voice control using voice extraction filter and method for the same
WO2020184753A1 (ko) * 2019-03-12 2020-09-17 엘지전자 주식회사 음성 추출 필터를 이용하여 음성 제어를 수행하는 인공 지능 장치 및 그 방법

Also Published As

Publication number Publication date
KR20120066523A (ko) 2012-06-22

Similar Documents

Publication Publication Date Title
KR101330328B1 (ko) 음성 인식 방법 및 이를 위한 시스템
US10217463B2 (en) Hybridized client-server speech recognition
US10331794B2 (en) Hybrid, offline/online speech translation system
CN106201424B (zh) 一种信息交互方法、装置及电子设备
CN104394491B (zh) 一种智能耳机、云服务器以及音量调节方法和系统
KR102386863B1 (ko) 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치
CN102117614B (zh) 个性化文本语音合成和个性化语音特征提取
US8831939B2 (en) Voice data transferring device, terminal device, voice data transferring method, and voice recognition system
CN103137129B (zh) 语音识别方法及电子装置
CN110998720A (zh) 话音数据处理方法及支持该方法的电子设备
JP7171532B2 (ja) 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法
KR20200013152A (ko) 이전에 대화를 수집한 결과를 기반으로 인공 지능 서비스를 제공하는 전자 장치 및 방법
CN111261151B (zh) 一种语音处理方法、装置、电子设备及存储介质
CN105190614A (zh) 使用声调细微差别的搜索结果
KR20150134993A (ko) 디바이스 정보를 이용하는 음성인식 방법 및 장치
CN103092928B (zh) 语音查询方法及系统
CN102292766A (zh) 用于提供用于语音识别自适应的复合模型的方法、装置和计算机程序产品
CN105654955A (zh) 语音识别方法及装置
JP2008204040A (ja) 携帯端末、プログラム及び携帯端末への表示画面制御方法
US20200320993A1 (en) Dialogue processing apparatus, a vehicle having the same, and a dialogue processing method
KR20180089242A (ko) 챗봇에서의 출력 유형에 따라 대화 내용을 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
KR102279505B1 (ko) 음성 일기 장치
CN111968630B (zh) 信息处理方法、装置和电子设备
KR102150902B1 (ko) 음성 응답을 위한 장치 및 방법
KR200497267Y1 (ko) 멀티 챗봇 모듈을 이용하는 관리 서버

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161027

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee