KR20050083547A - 음성 처리 장치 및 방법, 기록 매체와 프로그램 - Google Patents

음성 처리 장치 및 방법, 기록 매체와 프로그램 Download PDF

Info

Publication number
KR20050083547A
KR20050083547A KR1020047011216A KR20047011216A KR20050083547A KR 20050083547 A KR20050083547 A KR 20050083547A KR 1020047011216 A KR1020047011216 A KR 1020047011216A KR 20047011216 A KR20047011216 A KR 20047011216A KR 20050083547 A KR20050083547 A KR 20050083547A
Authority
KR
South Korea
Prior art keywords
word
unknown
processing
recognition
network
Prior art date
Application number
KR1020047011216A
Other languages
English (en)
Other versions
KR101014086B1 (ko
Inventor
히로아끼 오가와
Original Assignee
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 가부시끼 가이샤 filed Critical 소니 가부시끼 가이샤
Publication of KR20050083547A publication Critical patent/KR20050083547A/ko
Application granted granted Critical
Publication of KR101014086B1 publication Critical patent/KR101014086B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 삭제 에러를 적게 하여, 음성 인식율을 향상시킬 수 있도록 하는 음성 처리 장치 및 방법, 기록 매체와 프로그램에 관한 것이다. 도 16C에 도시된 바와 같이, 단어 「は」와 단어 「<OOV>」의 경계에 대응하는 부분에서, 음절 「ハ」를 포함하는 패스(92) 및 패스(93)가 생성되고, 단어 「<OOV>」와 단어 「です」의 경계에 대응하는 부분에서, 음절 「ワ」를 포함하지 않는 패스(101)와 음절 「ワ」를 포함하는 패스(102) 및 패스(103)가 생성되고, 단어와 음절과의 네트워크가 생성된다. 이에 의해, 입력 음성에 대하여 최적의 네트워크 상의 서브 워드 계열을 선택할 수 있다. 본 발명은 음성 인식 장치에 적용할 수 있다.

Description

음성 처리 장치 및 방법, 기록 매체와 프로그램{VOICE PROCESSING DEVICE AND METHOD, RECORDING MEDIUM, AND PROGRAM}
본 발명은 음성 처리 장치 및 음성 처리 방법, 기록 매체와 프로그램에 관한 것으로, 특히 연속해서 입력되는 음성 신호를 한창 음성 인식 중에 있을 때, 그 입력 음성 신호에 포함되는 미지어를 추출하여, 간단히 등록할 수 있도록 한 음성 처리 장치 및 음성 처리 방법, 프로그램과 기록 매체에 관한 것이다.
신규 어휘를 획득하는 기능을 갖는 연속 음성 인식 시스템에 있어서 신규 어휘를 획득하기 위해서는, 음성 중의 미지어 부분을 추정하는 것과, 미지어 부분에 발음을 부여하는 것이 필요하다.
음성 중의 미지어 부분을 추정하기 위해서는, 음성에 대하여 음운이나 음절 등 단어보다 짧은 단위(서브 워드)로 음성 인식을 행하고, 음성에 음절의 계열을 부여(즉, 요미가나를 부여)하면서, 각 음절의 스코어를 구하고, 이 스코어에 적절한 페널티를 부여함으로써 미지어(OOV: Out Of Vocabulary)의 스코어를 추정한다. 단어 음성 인식을 행하는 경우, 통상의 단어 후보 이외에는 미지어일 가능성을 고려하여, 통상의 단어 후보 이외에 대해서는 상기한 바와 같이 구한 스코어를 이용한다. 이에 의해, 발성된 음성 중에 미지어가 있는 경우, 미지어의 스코어가 정해 단어의 스코어보다 나쁘고, 부정해 단어의 스코어보다 좋다고 추정되면, 미지어 부분이 미지어라고 인식된다. 다음으로, 미지어 부분에 발음을 부여하기 위해서는, 미지어 부분의 음절 타입 라이터에 있어서의 시각 정보에 기초하여, 상술한 서브 워드 계열(예를 들면, 음절 계열)을 참조한다. 이에 의해, 미지어에 부여되는 음절 열도 추정할 수 있다(예를 들면, Issam Bazzi and James R. Glass 저 「Proceedings of International Conference Spoken Language Processing(ICSLP) 2000」, 2000년 10월 발행, p.433-436(이하, 비특허 문헌 1이라고 함), 가이 아쯔히꼬(甲斐充彦)와 나까가와 세이찌(中川聖一), 용장 후·정정해서 말하기 등을 포함하는 발화를 위한 미지어 처리를 이용한 음성 인식 시스템의 비교 평가, 전자 정보 통신 학회 논문지, 1997년 10월 발행, J80-D-Ⅱ, p.2615-2625(이하, 비특허 문헌 2라고 함), 및 오꾸보 히로아끼(小窪浩明), 오니시 시게히꼬(大西茂彦), 야마모또 히로시(山本博史), 및 기꾸이 겐이찌로(菊井玄一郎), 서브 워드 모델을 이용한 미등록어 인식의 효율적 탐색 방법, 정보 처리 학회 논문지, 2002년 7월 발행, Vol.43, No.7, p.2082-2090(이하, 비특허 문헌 3이라고 함) 참조).
그러나, 음절의 검색인 경우, 음절 단위의 스코어는 얻어지지만, 단어의 경계가 그 음절 단위와 반드시 일치한다고는 한정되지 않는다. 도 1을 참조하여, 단어 열의 경계와 서브 워드 계열의 경계의 불일치에 대하여 설명한다.
단어 열의 검색 결과 얻어지는 단어 열의 단어 경계의 시각과, 서브 워드 계열의 검색 결과 얻어지는 서브 워드 계열의 시간적 경계는, 반드시 일치한다고는 한정하지 않는다. 예를 들면, 도 1에 도시된 바와 같이 단어 음성 인식에 의한 인식 결과가 word1<OOV>word2일 때, <OOV>와 주변 단어의 경계에서는 단어 열의 경계와 서브 워드 계열(Sy11 내지 Sy18)의 경계의 불일치가 발생하는 경우가 있다. 또, <OOV>는 미지어를 나타내는 심볼이다. 도 1의 예에서는 <OOV>의 시간적으로 전의 경계는 Sy14의 도중에 대응하고, 시간적으로 후의 경계는 Sy17의 도중에 대응하고 있다. 이에 의해, 불일치가 발생하고 있는 경계의 서브 워드인 Sy14와 Sy17은 <OOV>에 포함되거나, 포함되지 않기도 한다. 따라서, <OOV>의 발음을 취득하기 위해서는 서브 워드의 경계를 결정해야 한다.
서브 워드의 경계를 결정하는 방법으로서, 서브 워드 계열에 의해 그 경계를 결정하는 방법이 알려져 있다. 그 방법, 즉 서브 워드 계열에 의한 <OOV> 발음 취득 방법에 대하여, 도 2를 참조하여 이하에 설명한다.
서브 워드 계열에 의한 <OOV> 발음 취득 방법은 통상의 음성 인식과, 음절 타입 라이터에 의한 인식이 종료된 시점에, <OOV>의 양단의 음절 타입 라이터 시각을 포함하는 음절에 대하여, 각 음절의 계속 시간의 50% 이상이 <OOV>의 구간에 포함된 경우, 그 음절을 <OOV>의 일부로 하는 방법이다.
예를 들면, 도 2에 도시된 바와 같이 인식된 단어 열의 일부가 단어 1, <OOV>, 단어 2의 배열인 것으로 한다. 또한, 음절 타입 라이터에 의한 서브 워드 계열의 일부가 음절 i, 음절 j, 음절 k 등의 배열인 것으로 한다. 이 경우, L1(음절 i의 단어 1측에 대응하는 부분의 길이(시간))>L2(음절 i의 <OOV>측에 대응하는 부분의 길이(시간))이므로, 음절 i는 <OOV>에 포함되지 않는 것으로 판정된다. 이에 대하여, L3(음절 k의 <OOV>측에 대응하는 부분의 길이(시간))>L4(음절 k의 단어 2측에 대응하는 부분의 길이(시간))이므로, 음절 k는 <OOV>에 포함되는 것으로 판정된다.
도 3과 도 4는 도 2의 서브 워드 계열에 의한 <OOV> 발음 취득 방법을 이용한 실험 결과를 나타낸다.
예를 들면, 도 2의 서브 워드 계열에 의한 <OOV> 발음 취득 방법을, 12명(남녀 각 6명)의 여행 도메인(호텔의 체크인이나 레스토랑에서의 주문 등)의 752종류의 발화에 대하여 실험하였다. 도 3에 도시된 바와 같이 특징량, 음향 모델, 및 언어 모델에 대하여 조건을 설정하였다. 특징량은 16bit, 16㎑의 샘플링, 10msec의 프레임 주기, 25msec의 프레임 길이, 및 12차의 MFCC(Mel Frequency Cepstrum Cofficients)(멜 주파수 켑스트럼), 및 0차 내지 12차까지의 MFCC의 1차 회귀 계수(25차원)로 설정되어 있다. 음향 모델은 16mixture, 1000tied-state의 HMM(Hidden Markov Model)으로 되고, 언어 모델은 서브 워드 트라이그램, Cut-off trigram5, bigram5로 되어 있다. 또, 본 예에서는 314종류의 음절 및 음절 연쇄를 서브 워드로서 이용하였다. 언어 모델은 닛케이(日經) 신문 6년분의 코퍼스(corpus)로 학습한 음운의 트라이그램을 이용하였다.
도 4는 도 2의 서브 워드 계열에 의한 <OOV> 발음 취득 방법을 적용한 경우의 서브 워드 계열의 인식 정밀도, 치환 에러, 삭제 에러, 및 삽입 에러의 성능을 나타내고 있으며, 각각의 값은 백분률로 표시되어 있다. 여기서, 치환 에러는 본래의 음절과는 다른 음절로 치환하는 에러이고, 삭제 에러는 본래 인식되어야 하는 음절이 인식되지 않는 에러(deletion error)이고, 삽입 에러는 본래 인식되어서는 안되는 음절이 인식 결과에 나타나는 에러(insertion error)이다. 또, 인식 정밀도 Acc는 총 음절 수 N, 정해 수 N_C, 삽입 에러의 수 N_I에 의해, 수학식 1로부터 구해진다.
도 4에 도시된 바와 같이, 도 2의 서브 워드 계열에 의한 <OOV> 발음 취득 방법에 의한 인식 정밀도는 40.2%이고, 삭제 에러와 삽입 에러의 발생율은 각각 33.3%과 4.1%이었다.
그러나, 도 2의 서브 워드 계열에 의한 <OOV> 발음 취득 방법에서는, 연속 단어 인식을 행하는 경우, 음절의 경계를 고려하여 단어 인식을 행해야 한다. 또한, 예를 들면 도 4에 도시된 바와 같이 인식 정밀도가 40.2%로 그다지 높지 않고, 한편 삭제 에러의 발생율이 33.3%로 높기 때문에, 사용자는 그 연속 음성 인식 시스템이 탑재된 로봇을 슬기롭지 않다고 느끼는 경향이 있다. 또한, 예를 들면, 도 4에 도시된 바와 같이 삭제 에러의 발생율이 33.3%인 반면, 삽입 에러의 발생율은 4.1%로, 양자의 발생 밸런스가 나빴다.
〈발명의 개시〉
본 발명은 이러한 상황을 감안하여 이루어진 것으로, 음성 인식의 인식율을 향상시킬 수 있도록 함과 함께, 삭제 에러와 삽입 에러의 발생을 밸런스시키는 것을 목적으로 한다.
본 발명의 음성 처리 장치는, 연속되는 입력 음성을 인식하는 인식 수단과, 인식 수단에 의해 인식된 인식 결과에, 미지어가 포함되어 있는지의 여부를 판정하는 미지어 판정 수단과, 미지어 판정 수단에서 인식 결과에 미지어가 포함되어 있다고 판정된 경우, 미지어의 단어 경계에 대응하는 시각의 서브 워드를 포함하는 패스와, 그 서브 워드를 포함하지 않는 패스를 갖는 네트워크를 생성하는 네트워크 생성 수단과, 미지어 판정 수단에 의해, 미지어가 포함되어 있다고 판정된 경우, 미지어에 대응하는 단어를 획득하는 획득 수단과, 획득 수단에 의해 획득된 단어를 다른 정보와 관련시켜 등록하는 등록 수단을 포함하는 것을 특징으로 한다.
이 음성 처리 장치는 인식 결과가 특정 패턴에 매치되는지의 여부를 판정하는 패턴 판정 수단을 더 포함하고, 등록 수단은 패턴 판정 수단에 의해, 인식 결과가 특정 패턴에 매치되어 있다고 판정된 경우, 단어를 등록하도록 할 수 있다.
이 음성 처리 장치는 미지어 판정 수단에 의해, 미지어가 포함되어 있지 않다고 판정된 경우, 또는 패턴 판정 수단에 의해, 인식 결과가 특정 패턴에 매치되지 않는다고 판정된 경우, 입력 음성에 대응하는 응답을 생성하는 응답 생성 수단을 더 포함하도록 할 수 있다.
등록 수단은 다른 정보로서, 카테고리와 관련시켜 단어를 등록하도록 할 수 있다.
등록 수단은 패턴 판정 수단에 의해 매치된다고 판정된 패턴과 관련시켜, 다른 정보를 등록하도록 할 수 있다.
획득 수단은 미지어를 클러스터링함으로써 단어를 획득하도록 할 수 있다.
네트워크 생성 수단에 의해 생성된 네트워크는, 단어와 음절 간의 네트워크이도록 할 수 있다.
이 음성 처리 장치는 입력 음성과 네트워크의 매칭에 기초하여, 네트워크 상의 스코어가 높은 패스를 선택하는 선택 수단과, 선택 수단에 의해 선택된 패스를 포함하는 네트워크에 기초하여, 미지어에 대응하는 발음을 취득하는 발음 취득 수단을 더 포함하도록 할 수 있다.
이 음성 처리 장치는 입력 음성의 소정의 구간에 대하여, 기지어로 매칭시킨 경우와 음절 타입 라이터로 인식시킨 경우의 음향 스코어를 비교하는 비교 수단을 더 구비하고, 비교 수단은 음절 타입 라이터로 인식시킨 음향 스코어쪽이 우수한 경우, 그 구간을 미지어라고 추정하도록 할 수 있다.
비교 수단은 기지어로 매칭시킨 경우의 음향 스코어에 대하여, 음절 타입 라이터로 인식시킨 경우의 음향 스코어에 보정을 행한 후에 비교를 행하도록 할 수 있다.
본 발명의 음성 처리 방법은, 연속되는 입력 음성을 인식하는 인식 단계와, 인식 단계의 처리에 의해 인식된 인식 결과에, 미지어가 포함되어 있는지의 여부를 판정하는 판정 단계와, 판정 단계의 처리에서 인식 결과에 미지어가 포함되어 있다고 판정된 경우, 미지어의 단어 경계에 대응하는 시각의 서브 워드를 포함하는 패스와, 그 서브 워드를 포함하지 않는 패스를 갖는 네트워크를 생성하는 네트워크 생성 단계와, 판정 단계의 처리에 의해, 미지어가 포함되어 있다고 판정된 경우, 미지어에 대응하는 단어를 획득하는 획득 단계와, 획득 단계의 처리에 의해 획득된 단어를 다른 정보와 관련시켜 등록하는 등록 단계를 포함하는 것을 특징으로 한다.
본 발명의 기록 매체의 프로그램은 연속되는 입력 음성을 인식하는 인식 단계와, 인식 단계의 처리에 의해 인식된 인식 결과에, 미지어가 포함되어 있는지의 여부를 판정하는 판정 단계와, 판정 단계의 처리에서 인식 결과에 미지어가 포함되어 있다고 판정된 경우, 미지어의 단어 경계에 대응하는 시각의 서브 워드를 포함하는 패스와, 그 서브 워드를 포함하지 않는 패스를 갖는 네트워크를 생성하는 네트워크 생성 단계와, 판정 단계의 처리에 의해, 미지어가 포함되어 있다고 판정된 경우, 미지어에 대응하는 단어를 획득하는 획득 단계와, 획득 단계의 처리에 의해 획득된 단어를 다른 정보와 관련시켜 등록하는 등록 단계를 포함하는 것을 특징으로 한다.
본 발명의 프로그램은 연속되는 입력 음성을 인식하는 인식 단계와, 인식 단계의 처리에 의해 인식된 인식 결과에, 미지어가 포함되어 있는지의 여부를 판정하는 판정 단계와, 판정 단계의 처리에 있어서 인식 결과에 미지어가 포함되어 있다고 판정된 경우, 미지어의 단어 경계에 대응하는 시각의 서브 워드를 포함하는 패스와, 그 서브 워드를 포함하지 않는 패스를 갖는 네트워크를 생성하는 네트워크 생성 단계와, 판정 단계의 처리에 의해, 미지어가 포함되어 있다고 판정된 경우, 미지어에 대응하는 단어를 획득하는 획득 단계와, 획득 단계의 처리에 의해 획득된 단어를 다른 정보와 관련시켜 등록하는 등록 단계를 컴퓨터에 실행시키는 것을 특징으로 한다.
본 발명의 음성 처리 장치 및 방법, 기록 매체와 프로그램에 있어서는 연속하는 입력 음성이 인식되고, 인식 결과에 미지어가 포함되어 있는 경우, 네트워크가 생성되고, 그 네트워크에 기초하여 미지어의 발음이 취득되며, 미지어에 대응하는 단어가 획득되고, 그 단어가 다른 정보과 관련시켜 등록된다.
도 1은 단어 열의 경계와 서브 워드 계열의 경계의 불일치를 설명하는 도면.
도 2는 서브 워드 계열에 의한 <OOV> 발음 취득 방법을 설명하는 도면.
도 3은 도 2의 서브 워드 계열에 의한 <OOV> 발음 취득 방법을 이용한 경우의 실험의 조건을 나타내는 도면.
도 4는 도 2의 서브 워드 계열에 의한 <OOV> 발음 취득 방법을 이용한 실험 결과를 나타내는 도면.
도 5는 본 발명을 적용한 대화 시스템의 일 실시 형태의 구성예를 나타내는 블록도.
도 6은 클러스터의 상태의 예를 나타내는 도면.
도 7은 단어의 등록을 나타내는 도면.
도 8은 도 5의 음성 인식부의 구성예를 나타내는 블록도.
도 9는 도 5의 대화 시스템의 동작을 설명하기 위한 흐름도.
도 10은 도 9의 단계 S22의 음성 인식 처리의 상세를 설명하기 위한 흐름도.
도 11은 도 10의 단계 S54의 단어 열 생성 처리의 상세를 설명하기 위한 흐름도.
도 12는 언어 모델 데이터베이스로 이용되는 문법의 예를 나타내는 도면.
도 13은 유한 상태 오토마톤에 의한 언어 모델의 예를 나타내는 도면.
도 14는 tri-gram을 이용한 언어 스코어의 계산의 예를 나타내는 도면.
도 15는 tri-gram 데이터베이스의 예를 나타내는 도면.
도 16은 네트워크의 생성에 대하여 설명하는 도면.
도 17은 본 발명을 적용한 실험 결과를 나타내는 도면.
도 18은 본 발명을 적용한 실험 결과를 나타내는 도면.
도 19는 도 9의 단계 S28의 단어 획득 처리의 상세를 설명하기 위한 흐름도.
도 20은 템플릿의 예를 나타내는 도면.
도 21은 음절 타입 라이터를 조립한 문법의 예를 나타내는 도면.
도 22는 본 발명을 적용한 컴퓨터의 일 실시 형태의 구성예를 나타내는 블록도.
〈발명을 실시하기 위한 최량의 형태〉
이하, 본 발명의 실시 형태에 대하여, 도면을 참조하여 설명한다. 도 5는 본 발명을 적용한 대화 시스템의 일 실시 형태의 구성예를 나타내고 있다.
이 대화 시스템은, 예를 들면 로봇에 탑재되어, 사용자(인간)와 음성에 의해 대화를 행하는 시스템으로서, 예를 들어 음성이 입력되면, 그 음성으로부터 이름이 추출되어, 등록되도록 되어 있다.
즉, 음성 인식부(1)에는 사용자로부터의 발화에 기초한 음성 신호가 입력되도록 되어 있으며, 음성 인식부(1)는 입력된 음성 신호를 인식하고, 그 음성 인식의 결과로서의 텍스트, 기타 부수하는 정보를 대화 제어부(3)와 단어 획득부(4)에 필요에 따라 출력한다.
단어 획득부(4)는 음성 인식부(1)가 갖는 인식용 사전에 등록되어 있지 않은 단어에 대하여, 음향적 특징을 자동적으로 기억하고, 그 이후 그 단어의 음성을 인식할 수 있도록 한다.
즉, 단어 획득부(4)는 입력 음성에 대응하는 발음을 음절 타입 라이터에 의해 구하고, 그것을 몇 개의 클러스터로 분류한다. 각 클러스터는 ID와 대표 음절 계열을 갖고, ID로 관리된다. 이 때의 클러스터의 상태를 도 6을 참조하여 설명한다.
예를 들면, 「あか」, 「あお」, 「みどり」라는 3회의 입력 음성이 있던 것으로 한다. 이 경우, 단어 획득부(4)는 3회의 음성을 각각에 대응한 「あか」 클러스터(21), 「あお」 클러스터(22), 「みどり」 클러스터(23)의 3개의 클러스터로 분류하고, 각 클러스터에는 대표가 되는 음절 계열(도 6의 예의 경우, "ア/カ", "ア/オ", "ミ/ド/リ")과 ID(도 6의 예의 경우, 「1」, 「2」, 「3」)를 부가한다.
여기서 다시, 「あか」라는 음성이 입력되면, 대응하는 클러스터가 이미 존재하므로, 단어 획득부(4)는 입력 음성을 「あか」 클러스터(21)로 분류하여, 새로운 클러스터는 생성하지 않는다. 이에 대하여, 「くろ」라는 음성이 입력된 경우, 대응하는 클러스터가 존재하지 않으므로, 단어 획득부(4)는 「くろ」에 대응한 클러스터(24)를 새롭게 생성하고, 그 클러스터에는 대표적인 음절 계열(도 6의 예의 경우, "ク/ロ")과 ID(도 6의 예의 경우, 「4」)를 부가한다.
따라서, 입력 음성이 미획득의 말인지의 여부는 새로운 클러스터가 생성되었는지의 여부에 따라 판정할 수 있다. 또, 이러한 단어 획득 처리의 상세는 본 출원인이 앞서 제안한 일본 특원2001-97843호에 개시되어 있다.
연상 기억부(2)는 등록한 이름(미지어)이 사용자명인지, 캐릭터명인지 등의 카테고리 등의 정보를 기억한다. 예를 들면, 도 7의 예에서는 클러스터 ID와 카테고리명이 대응하여 기억되어 있다. 도 7의 예의 경우, 예를 들면 클러스터 ID 「1」, 「3」, 「4」는 「사용자명」의 카테고리에 대응되고, 클러스터 ID 「2」는 「캐릭터명」의 카테고리에 대응되어 있다.
대화 제어부(3)는 음성 인식부(1)의 출력으로부터 사용자의 발화의 내용을 이해하고, 그 이해의 결과에 기초하여, 이름(미지어)의 등록을 제어한다. 또한, 대화 제어부(3)는 연상 기억부(2)에 기억되어 있는 등록 완료된 이름의 정보에 기초하여, 등록 완료한 이름을 인식할 수 있도록, 그 이후의 대화를 제어한다.
도 8은 음성 인식부(1)의 구성예를 나타내고 있다.
음성 인식부(1)는 마이크로폰(41), AD 변환부(42), 특징량 추출부(43), 매칭부(44), 음절 타입 라이터부(45), 제어부(46), 네트워크 생성부(47), 음향 모델 데이터베이스(51), 사전 데이터베이스(52), 및 언어 모델 데이터베이스(53)로 구성되어 있다.
사용자의 발화는 마이크로폰(41)에 입력되고, 마이크로폰(41)에서는 그 발화가 전기 신호로서의 음성 신호로 변환된다. 이 음성 신호는 AD(Analog Digital) 변환부(42)에 공급된다. AD 변환부(42)는 마이크로폰(41)으로부터의 아날로그 신호인 음성 신호를 샘플링하고, 양자화하여, 디지털 신호인 음성 데이터로 변환한다. 이 음성 데이터는 특징량 추출부(43)에 공급된다.
특징량 추출부(43)는 AD 변환부(42)로부터의 음성 데이터에 대하여, 적당한 프레임마다, 예를 들면 스펙트럼, 파워 선형 예측 계수, 켑스트럼 계수, 선스펙트 럼쌍 등의 특징 파라미터를 추출하여, 매칭부(44) 및 음절 타입 라이터부(45)에 공급한다.
매칭부(44)는 특징량 추출부(43)로부터의 특징 파라미터에 기초하여, 음향 모델 데이터베이스(51), 사전 데이터베이스(52), 및 언어 모델 데이터베이스(53)를 필요에 따라 참조하면서, 마이크로폰(41)에 입력된 음성(입력 음성)에 가장 가까운 단어 열을 구하여, 네트워크 생성부(47)에 출력한다.
음향 모델 데이터베이스(51)는 음성 인식하는 음성의 언어에 있어서의 개개의 음운이나 음절 등의 음향적인 특징을 나타내는 음향 모델을 기억하고 있다. 음향 모델로서는, 예를 들면 HMM(Hidden Markov Model) 등을 이용할 수 있다. 사전 데이터베이스(52)는 인식 대상의 각 단어(어구)에 대하여, 그 발음에 관한 정보가 기술된 단어 사전이나, 음운이나 음절의 연쇄 관계를 기술한 모델을 기억하고 있다.
또, 여기에 있어서의 단어는, 인식 처리에 있어서 하나의 덩어리로서 취급하는 편이 적합한 단위로서, 언어학적인 단어와는 반드시 일치하지 않는다. 예를 들면, 「タロウ君」은 그 전체를 1단어로 취급해도 되고, 「タロウ」, 「君」이라는 2단어로 취급해도 된다. 또한, 더 큰 단위인 「안녕하세요 タロウ君」 등을 1단어로 취급해도 된다.
또한, 음절은, 음향적으로 1개의 단위로서 취급하는 편이 처리상 적합한 것으로, 음성학적인 음절과는 반드시 일치하지 않는다. 예를 들면, 「도쿄」의 「도」의 부분을 "ト/ウ"이라는 2개의 음절 기호로 나타내도 되고, "ト"의 장음인 "ト:"라는 기호를 이용하여 "ト:"라고 나타내도 된다. 그 외에도, 무음을 나타내는 기호를 준비해도 되고, 또한 그것을 「발화 전의 무음」, 「발화에 끼워진 짧은 무음 구간」, 「발화어의 무음」, 「「っ」의 부분의 무음」과 같이 세세하게 분류하여 각각에 기호를 준비해도 된다.
언어 모델 데이터베이스(53)는 사전 데이터베이스(52)의 단어 사전에 등록되어 있는 각 단어가 어떻게 연쇄하는(접속하는)지에 관한 정보를 기술하고 있다.
음절 타입 라이터부(45)는 특징량 추출부(43)로부터 공급된 특징 파라미터에 기초하여, 입력된 음성에 대응하는 음절 계열을 취득하여, 매칭부(44)에 출력함과 함께, 네트워크 생성부(47)에도 출력한다. 예를 들면, 「나의 이름은 오가와입니다.」라는 음성으로부터 "ワ/タ/シ/ノ/ナ/マ/エ/ハ/オ/ガ/ワ/デ/ス"라는 음절 계열을 취득한다. 이 음절 타입 라이터에는 기존의 것을 이용할 수 있다.
또, 음절 타입 라이터 이외라도, 임의의 음성에 대하여 음절 계열을 취득할 수 있는 것이면 대신해서 이용할 수 있다. 예를 들면, 일본어의 음운(a/i/u/e/o/k/a/k/i)을 단위로 하는 음성 인식이나, 음소, 그 밖의 단어보다는 작은 단위인 서브 워드를 단위로 하는 음성 인식을 이용할 수 있다.
제어부(46)는 AD 변환부(42), 특징량 추출부(43), 매칭부(44), 음절 타입 라이터부(45)의 동작을 제어한다.
네트워크 생성부(47)는 단어 열과, 음절 타입 라이터부(45)로부터 취득되는 음절 계열에 기초하는 서브 워드 계열(음절 계열)에 기초하여, 단어와 음절과의 네트워크를 생성한다. 즉, <OOV>의 직전의 경계에 대응하는 시각의 음절을 포함하는 패스와, 그것을 포함하지 않는 패스, 및 <OOV>의 직후의 경계에 대응하는 시각의 음절을 포함하는 패스와, 그것을 포함하지 않는 패스를 생성하여, 매칭부(44)에 출력한다.
다음으로, 도 9의 흐름도를 참조하여, 본 발명의 대화 시스템의 처리에 대하여 설명한다.
단계 S21에서, 사용자가 마이크로폰(41)에 음성을 입력하면, 마이크로폰(41)은 그 발화를 전기 신호로서의 음성 신호로 변환한다. 그리고, 단계 S22에서, 음성 인식부(1)는 음성 인식 처리를 실행한다.
음성 인식 처리의 상세에 대하여, 도 10을 참조하여 설명한다. 마이크로폰(41)으로 생성된 음성 신호는 단계 S51에서, AD 변환부(42)에 의해, 디지털 신호인 음성 데이터로 변환되어, 특징량 추출부(43)에 공급된다.
단계 S52에서, 특징량 추출부(43)는 AD 변환부(42)로부터의 음성 데이터를 수신한다. 그리고, 특징량 추출부(43)는 단계 S53으로 진행하여, 적당한 프레임마다, 예를 들면 스펙트럼, 파워, 이들의 시간 변화량 등의 특징 파라미터를 추출하여, 매칭부(44)에 공급한다.
단계 S54에서, 매칭부(44)는 사전 데이터베이스(52)에 저장되어 있는 단어 모델 중의 몇 개를 연결하여, 단어 열 생성 처리를 실행한다. 또, 이 단어 열을 구성하는 단어에는 사전 데이터베이스(52)에 등록되어 있는 기지어뿐만 아니라, 등록되어 있지 않은 미지어를 나타내는 심볼인 "<OOV>"도 포함되어 있다. 이 단어 열 생성 처리에 대하여, 도 11을 참조하여 상세히 설명한다.
단계 S81에서, 매칭부(44)는 입력 음성의 임의의 구간에 대하여, 양방인 경우의 음향 스코어를 계산한다. 즉, 입력 음성의 임의의 구간을, 사전 데이터베이스(52)에 등록되어 있는 기지어와 매칭시킨 결과의 음향 스코어와, 입력 음성에 기초하여, 음절 타입 라이터부(45)에 의해 얻어진 결과(현재의 경우, "ワ/タ/シ/ノ/ナ/マ/エ/ハ/オ/ガ/ワ/デ/ス" 중의 일부 구간)의 음향 스코어가 각각 계산된다. 음향 스코어는 음성 인식 결과의 후보인 단어 열과 입력 음성이 소리로서 어느 정도 가까운지를 나타낸다.
다음으로, 입력 음성의 일부 구간과 사전 데이터베이스(52)에 등록되어 있는 기지어를 매칭시킨 결과의 음향 스코어와, 음절 타입 라이터부(45)에 의한 결과의 음향 스코어를 비교시키는 것이지만, 기지어와의 매칭은 단어 단위로 행해지고, 음절 타입 라이터부(45)에서의 매칭은 음절 단위로 행해져, 척도가 서로 다르므로, 그대로는 비교하는 것이 곤란하다(일반적으로는, 음절 단위의 음향 스코어쪽이 큰 값으로 된다). 따라서, 척도를 맞춰서 비교할 수 있도록 하기 위해서, 매칭부(44)는 단계 S82에서, 음절 타입 라이터부(45)에 의해 얻어진 결과의 음향 스코어에 보정을 가한다.
예를 들면, 음절 타입 라이터부(45)로부터의 음향 스코어에 계수를 곱하거나, 일정한 값이나 프레임 길이에 비례한 값 등을 빼기도 하는 처리가 행해진다. 물론, 이 처리는 상대적인 것이므로, 기지어와 매칭시킨 결과의 음향 스코어에 대하여 행할 수도 있다. 또, 이 처리의 상세는, 예를 들면 문헌 「"EUROSPEECH99 Volume 1, Page 49-52"」에 「OOV-Detection in Large Vocabulary System Using Automatically Defined Word-Fragments as Fillers」로서 개시되어 있다.
매칭부(44)는 단계 S83에서, 이 2개의 음향 스코어를 비교한다(음절 타입 라이터부(45)에서 인식시킨 결과의 음향 스코어쪽이 높은지(우수한지)를 판정한다). 음절 타입 라이터부(45)에서 인식시킨 결과의 음향 스코어쪽이 높은 경우, 단계 S84로 진행하여, 매칭부(44)는 그 구간을 <OOV>(Out Of Vocabulary 미지어)라고 추정한다.
단계 S83에서, 기지어와 매칭시킨 결과의 음향 스코어에 대하여, 음절 타입 라이터부(45)에서 인식된 결과의 음향 스코어쪽이 낮다고 판정된 경우, 단계 S86으로 진행하여, 매칭부(44)는 그 구간을 기지어라고 추정한다.
즉, 예를 들면, 「オガワ」에 상당하는 구간에 대하여, 음절 타입 라이터부(45)가 출력한 "オ/ガ/ワ"의 음향 스코어와, 기지어로 매칭시킨 경우의 음향 스코어를 비교하여, "オ/ガ/ワ"의 음향 스코어쪽이 높은 경우에는 그 음성 구간에 상당하는 단어로서 「<OOV>(オ/ガ/ワ)」가 출력되고, 기지어의 음향 스코어쪽이 높은 경우에는 그 기지어가 음성 구간에 상당하는 단어로서 출력된다.
단계 S85에서, 매칭부(44)는 음향 스코어가 높아질 것으로 추측되는 단어 열(몇 개의 단어 모델을 연결한 것)을 우선적으로 n개 생성한다.
도 10으로 되돌아가, 단계 S55에서, 음절 타입 라이터부(45)는 단계 S54의 처리와는 독립적으로, 단계 S53의 처리에서 추출된 특징 파라미터에 대하여 음운을 단위로 하는 인식을 행하여, 음절 계열을 출력한다. 예를 들면, 「나의 이름은 오가와(미지어)입니다.」라는 음성이 입력되면, 음절 타입 라이터부(45)는 "ワ/タ/シ/ノ/ナ/マ/エ/ハ/オ/ガ/ワ/デ/ス"라는 음절 계열을 출력한다.
단계 S56에서, 매칭부(44)는 단계 S54에서 생성된 단어 열마다 음향 스코어를 계산한다. <OOV>(미지어)를 포함하지 않는 단어 열에 대해서는, 기존의 방법, 즉 각 단어 열(단어 모델을 연결한 것)에 대하여 음성의 특징 파라미터를 입력함으로써 우도(尤度))를 계산하는 방법이 이용된다. 한편, <OOV>를 포함하는 단어 열에 대해서는, 기존의 방법에서는 <OOV>에 상당하는 음성 구간의 음향 스코어를 구할 수 없다(<OOV>에 대응하는 단어 모델은 사전에는 존재하지 않기 때문에). 따라서, 그 음성 구간에 대해서는 음절 타입 라이터의 인식 결과 중에서 동일 구간의 음향 스코어를 추출하고, 그 값에 보정을 가한 것이 <OOV>의 음향 스코어로서 채용된다. 그것은 또한, 다른 기지어 부분의 음향 스코어와 통합되고, 그것이 그 단어 열의 음향 스코어로 된다.
단계 S57에서, 매칭부(44)는 음향 스코어가 높은 단어 열을 상위 m개(m≤n) 추출하여, 후보 단어 열로 한다. 단계 S58에서, 매칭부(44)는 언어 모델 데이터베이스(53)를 참조하여, 후보 단어 열마다, 언어 스코어를 계산한다. 언어 스코어는 인식 결과의 후보인 단어 열이 말로서 어느 정도 어울리는지를 나타낸다. 여기서, 이 언어 스코어를 계산하는 방법을 상세히 설명한다.
본 발명의 음성 인식부(1)는 미지어도 인식하므로, 언어 모델은 미지어에 대응되어 있을 필요가 있다. 일례로서, 미지어에 대응한 문법 또는 유한 상태 오토마톤(FSA: Finite State Automaton)을 이용한 경우와, 동일하게 미지어에 대응한 tri-gram(통계 언어 모델의 1개임)을 이용한 경우에 대하여 설명한다.
문법의 예를 도 12를 참조하여 설명한다. 이 문법(61)은 BNF(Backus Naur Form)로 기술되어 있다. 도 12에서, "$A"는 「변수」를 나타내고, "A|B"는 「A 또는 B」라는 의미를 나타낸다. 또한, "[A]"는 「A는 생략 가능」이라는 의미를 나타내고, {A}는 「A를 0회 이상 반복」이라는 의미를 나타낸다.
<OOV>는 미지어를 나타내는 심볼로서, 문법 중에 <OOV>를 기술해 둠으로써, 미지어를 포함하는 단어 열에 대해서도 대처할 수 있다. "$ACTION"은 도 12에서는 정의되어 있지 않지만, 예를 들면 「기립」, 「착석」, 「절」, 「인사」 등의 동작의 이름이 정의된다.
이 문법(61)에서는 「<선두>/안녕하십니까/<종단>」("/"는 단어 사이의 구획), 「<선두>/안녕/<종단>」, 「<선두>/저/의/이름/은/<OOV>/입니다/<종단>」과 같이 데이터베이스에 기억되어 있는 문법에 맞는 단어 열은 수리(이 문법으로 해석)되지만, 「<선두>/자네/의/<OOV>/이름/<종단>」 등의, 데이터베이스에 기억되어 있는 문법에 맞지 않는 단어 열은 수리되지 않는다(이 문법으로 해석되지 않는다). 또, 「<선두>」와 「<종단>」은 각각 발화 전과 후의 무음을 나타내는 특수한 심볼이다.
이 문법을 이용하여 언어 스코어를 계산하기 위해서, 파서(parser: 해석기)가 이용된다. 파서는 단어 열을, 문법을 수리할 수 있는 단어 열과, 수리할 수 없는 단어 열로 나눈다. 즉, 예를 들면 수리할 수 있는 단어 열에는 언어 스코어 1이 부여되고, 수리할 수 없는 단어 열에는 언어 스코어 0이 부여된다.
따라서, 예를 들면, 「<선두>/저/의/이름/은/<OOV>(タ/ロ/ウ)/입니다/<종단>」과, 「<선두>/저/의/이름/은/<OOV>(ジ/ロ/ウ)/입니다/<종단>」이라는 2개의 단어 열이 있던 경우, 어느 것이나 「<선두>/저/의/이름/은/<OOV>/입니다/<종단>」으로 치환된 후에 언어 스코어가 계산되어, 모두 언어 스코어 1(수리)이 출력된다.
또한, 단어 열의 문법이 수리 가능한지의 여부의 판정은, 사전에 문법을 등가(근사이어도 됨)인 유한 상태 오토마톤(이하, FSA라고 함)으로 변환해 두고, 각 단어 열이 그 FSA로 수리 가능한지의 여부를 판정함으로써도 실현할 수 있다.
도 12의 문법을 등가인 FSA로 변환한 예가 도 13에 도시되어 있다. FSA는 상태(노드)와 패스(아크)로 이루어지는 유향 그래프이다. 도 13에 도시된 바와 같이 S1은 개시 상태, S16은 종료 상태이다. 또한, "$ACTION"에는 도 12와 마찬가지로 실제로는 동작의 이름이 등록되어 있다.
패스에는 단어가 부여되어 있어, 소정의 상태로부터 다음의 상태로 천이하는 경우, 패스는 이 단어를 소비한다. 단, "ε"가 부여되어 있는 패스는 단어를 소비하지 않는 특별한 천이(이하, ε 천이라고 함)이다. 즉, 예를 들면, 「<선두>/저/는/<OOV>/입니다/<종단>」에서는 초기 상태 S1로부터 상태 S2로 천이하고, <선두>가 소비되어, 상태 S2로부터 상태 S3으로 천이하고, 「저」가 소비되지만, 상태 S3으로부터 상태 S5로의 천이는 ε 천이이므로, 단어는 소비되지 않는다. 즉, 상태 S3으로부터 상태 S5로 스킵하여, 다음의 상태 S6으로 천이할 수 있다.
소정의 단어 열이 이 FSA로 수리 가능한지의 여부는, 초기 상태 S1로부터 출발하여 종료 상태 S16까지 도달 가능한지의 여부로 판정된다.
즉, 예를 들면, 「<선두>/저/의/이름/은/<OOV>/입니다/<종단>」에서는 초기 상태 S1로부터 상태 S2로 천이하여, 단어 「<선두>」가 소비된다. 다음으로, 상태 S2로부터 상태 S3으로 천이하여, 단어 「저」가 소비된다. 이하, 마찬가지로, 상태 S3으로부터 상태 S4로, 상태 S4로부터 상태 S5로, 상태 S5로부터 상태 S6으로, 상태 S6으로부터 상태 S7로 순차적으로 천이하여, 「의」, 「이름」, 「은」, 「<OOV>」, 이 계속해서 소비된다. 또한, 상태 S7로부터 상태 S15로 천이하여, 「입니다」가 소비되고, 상태 S15로부터 상태 S16으로 천이하여, 「<종단>」이 소비되고, 결국 종료 상태 S16으로 도달한다. 따라서, 「<선두>/저/의/이름/은/<OOV>/입니다/<종단>」은 FSA로 수리된다.
그러나, 「<선두>/자네/의/<OOV>/이름/<종단>」은 상태 S1로부터 상태 S2로, 상태 S2로부터 상태 S8로, 상태 S8로부터 상태 S9까지는 천이하여, 「<선두>」, 「자네」, 「의」까지는 소비되지만, 그 앞으로는 천이할 수 없기 때문에, 종료 상태 S16으로 도달할 수는 없다. 따라서, 「<선두>/자네/의/<OOV>/이름/<종단>」은 FSA로 수리되지 않는다(불수리).
또한, 언어 모델로서, 통계 언어 모델의 하나인 tri-gram을 이용한 경우의 언어 스코어를 계산하는 예를, 도 14를 참조하여 설명한다. 통계 언어 모델은, 그 단어 열의 생성 확률을 구하고, 그것을 언어 스코어로 하는 언어 모델이다. 즉, 예를 들면 도 14의 언어 모델(71)의 「<선두>/저/의/이름/은/<OOV>/입니다/<종단>」의 언어 스코어는, 제2 행에 나타내는 바와 같이 그 단어 열의 생성 확률로 표시된다. 이것은 또한, 제3 행 내지 제6 행으로 나타내는 바와 같이 조건부 확률의 곱으로서 표시된다. 또, 예를 들면, 「P(의|<선두>저)」는 「의」의 직전의 단어가 「저」이고, 「저」의 직전의 단어가 「<선두>」이다라고 하는 등의 조건 하에서, 「의」가 출현하는 확률을 나타낸다.
또한, tri-gram에서는 도 14의 제3 행 내지 제6 행으로 나타내는 식을, 제7 행 내지 제9 행으로 나타내는 바와 같이 연속하는 3단어의 조건부 확률로 근사시킨다. 이들 확률값은 도 15에 도시되는 바와 같은 트라이그램 데이터베이스(81)를 참조하여 구해진다. 이 tri-gram 데이터베이스(81)는 미리 대량의 텍스트를 분석하여 구해진 것이다.
도 15의 예에서는 3개의 연속하는 단어 w1, w2, w3의 확률 P(w3|w1w2)가 표시되어 있다. 예를 들면, 3개의 단어 w1, w2, w3이, 각각 「<선두>」, 「저」, 「의」인 경우, 확률값은 0.12로 되고, 「저」, 「의」, 「이름」인 경우, 확률값은 0.01로 되고, 「<OOV>」, 「입니다」, 「<종단>」인 경우, 확률값은 0.87로 되어 있다.
물론, 「P(W)」 및 「P(w2|w1)」에 대해서도, 마찬가지로 미리 구해 둔다.
이와 같이 하여, 언어 모델 중에 <OOV>에 대하여, 엔트리 처리를 해 둠으로써, <OOV>를 포함하는 단어 열에 대하여, 언어 스코어를 계산할 수 있다. 따라서, 인식 결과에 <OOV>라는 심볼을 출력할 수 있다.
또한, 다른 종류의 언어 모델을 이용하는 경우도, <OOV>에 대한 엔트리 처리를 함으로써, 마찬가지로 <OOV>를 포함하는 단어 열에 대하여, 언어 스코어를 계산할 수 있다.
또한, <OOV>의 엔트리가 존재하지 않는 언어 모델을 이용한 경우라도, <OOV>를 언어 모델 중의 적절한 단어에 맵핑하는 기구를 이용함으로써, 언어 스코어의 계산을 할 수 있다. 예를 들면, 「P(<OOV>|저는)」이 존재하지 않는 tri-gram 데이터베이스를 이용한 경우라도, 「P(오가와|저는)」으로 데이터베이스를 액세스하여, 거기에 기술되어 있는 확률을 「P(<OOV>|저는)」의 값으로 간주함으로써, 언어 스코어의 계산을 할 수 있다.
도 10을 다시 참조하면, 매칭부(44)는 단계 S59에서, 음향 스코어와 언어 스코어를 통합한다. 단계 S60에서, 매칭부(44)는 단계 S59에서 구해진 음향 스코어와 언어 스코어의 양 스코어를 통합한 스코어에 기초하여, 가장 양호한 스코어를 갖는 후보 단어 열을 선택하여, 인식 결과로서 출력한다.
또, 언어 모델로서, 유한 상태 오토마톤을 사용하고 있는 경우에는 단계 S59의 통합 처리를, 언어 스코어가 0인 경우에는 단어 열을 소거하고, 언어 스코어가 O 이외인 경우에는 그대로 남긴다고 하는 처리로 해도 된다.
도 9를 다시 참조하면, 이상과 같이 하여 단계 S22에서 음성 인식 처리가 실행된 후, 단계 S23에서, 음성 인식부(1)의 제어부(46)는 인식된 단어 열에 미지어가 포함되어 있는지의 여부를 판정한다. 단계 S23에서 미지어가 포함되어 있다고 판정된 경우, 네트워크 생성부(47)는 단어 열과, 음절 타입 라이터부(45)로부터 취득되는 음절 계열에 기초하는 서브 워드 계열에 기초하여, 단어와 서브 워드(예를 들면, 음절)와의 네트워크를 생성한다. 즉, <OOV>의 직전의 경계에 대응하는 시각의 음절을 포함하는 패스와, 그것을 포함하지 않는 패스, 및 <OOV>의 직후의 경계에 대응하는 시각의 음절을 포함하는 패스와, 그것을 포함하지 않는 패스가 생성되어, 매칭부(44)에 출력된다.
단계 S25에서, 매칭부(44)는 음절 타입 라이터부(45)로부터 공급된 음절 계열에 기초하는 서브 워드 계열과, 네트워크 생성부(47)로부터 공급된 네트워크에 기초하여, 사용자로부터 입력된 음성과 네트워크를 매칭한다.
도 16은 네트워크의 생성에 대하여 설명한다.
예를 들면, 사용자로부터 「나의 이름은 오가와(미지어)입니다.」라는 음성이 마이크로폰(41)에 입력된 것으로 한다. 매칭부(44)는 구해진 음향 스코어와 언어 스코어의 양 스코어를 통합한 스코어에 기초하여, 가장 좋은 스코어를 갖는 후보 단어 열을 선택하여, 인식 결과로서 출력하고, 예를 들면 도 16A에 도시된 바와 같이 「<선두>/저/의/이름/은/<OOV>/입니다/<종단>」이 되는 것으로 한다. 동시에, 음절 타입 라이터부(45)는, 도 16B에 도시된 바와 같이 "ワ/タ/シ/ノ/ナ/マ/エ/ハ/オ/ガ/ワ/デ/ス"라는 음절 계열을 출력하는 것으로 한다.
이 때, 도 16A와 도 16B에 도시된 바와 같이 매칭부(44)에 의해 얻어진 인식 결과인 단어 열의 경계와, 음절 타입 라이터부(45)에 의해 얻어진 음절 계열에 기초하는 서브 워드 계열의 경계는, 일반적으로는 일치하지 않는다. 예를 들면, 도 16A와 도 16B인 경우, 단어 열에 있어서의 단어 「는」과 단어 「<OOV>」의 경계는 서브 워드 계열에 있어서의 음절 「ハ」에 대응하고, 단어 열에 있어서의 단어 「<OOV>」와 단어 「입니다」의 경계는 서브 워드 계열에 있어서의 음절 「ワ」에 대응한다. 그 때문에, 단어 열에 있어서의 단어 「는」과 단어 「<OOV>」의 경계와 서브 워드 계열에 있어서의 음절 「ハ」의 부분에서의 불일치인 경우, 음절 「ハ」는 단어 열에 있어서의 단어 「는」에 포함되거나, 단어 열에 있어서의 단어 「<OOV>」에 포함되기도 한다.
따라서, 단어와 음절과의 네트워크가 생성된다. 즉, <OOV>의 직전의 경계에 대응하는 시각의 음절을 포함하는 패스와, 그것을 포함하지 않는 패스, 및 <OOV>의 직후의 경계에 대응하는 시각의 음절을 포함하는 패스와, 그것을 포함하지 않는 패스가 생성된다.
예를 들면, 도 16B와 도 16C에 도시된 바와 같이 특징 추출부(43)로부터 출력된 시각 정보의 특징 파라미터에 기초하여, 서브 워드 계열에 있어서의 음절 「ハ」와 음절 「ワ」의 소정의 프레임에 대응하는 음절 타입 라이터부(45)에 있어서의 음절 타입 라이터 시각을, 각각 t0과 t1로 하고, 그 음절 타입 라이터 시각 t0 과 t1에 대응하는 단어 열의 시각을, 각각 t2와 t3으로 한다. 또한, 도 16C에 도시된 바와 같이, 도 16의 구간 D, 즉 <OOV>의 직전의 단어 「는」으로부터 <OOV>의 직후의 단어 「입니다」까지의 구간은 <OOV>의 발음에 대응할 가능성이 있는 음절 「ハ」 「オ」 「ガ」 「ワ」로 구성되어 있다.
도 16C에 도시된 바와 같이 단어 열에 있어서의 단어 「는」과 단어 「<OOV>」의 경계에 대응하는 부분에서, 음절 「ハ」를 포함하지 않는 패스(91)와, 음절 「ハ」를 포함하는 패스(92) 및 패스(93)가 생성되고, 단어 열에 있어서의 단어 「<OOV>」과 단어 「입니다」의 경계에 대응하는 부분에서, 음절 「ワ」를 포함하지 않는 패스(101)와, 음절 「ワ」를 포함하는 패스(102) 및 패스(103)가 생성된다. 이에 의해, 서브 워드 계열의 경계를 결정하지 않고, 입력된 음성에 대하여 최적의 네트워크 상의 서브 워드 계열을 선택할 수 있다.
또, 도 16의 경우에는 네트워크로서 구성된 단어와 음절로 이루어지는 네트워크와 입력된 음성을 매칭하면, 상기 네트워크로부터 이하의 4가지의 문가설(文假說)이 생성된다.
저의-이름-은-ハ-오-가-와-입니다
저의-이름-은-ハ-오-가-입니다
저의-이름-은-오-가-와-입니다
저의-이름-은-오-가-입니다
도 9를 다시 참조하면, 단계 S26에서, 매칭부(44)는 사용자로부터 입력된 음성과 네트워크의 매칭의 결과에 기초하여, 스코어가 높은 네트워크 상의 패스(예를 들면, 도 16에서의 패스(91)와, 패스(102) 및 패스(103))를 선택한다. 단계 S27에서, 매칭부(44)는 단계 S26에서 선택된 네트워크 상의 패스(예를 들면, 도 16에서의 패스(91)와, 패스(102) 및 패스(103))와 음절 타입 라이터부(45)로부터 출력된 서브 워드 계열에 기초하여, <OOV>에 대응하는 발음(도 16의 예의 경우, 「オ/ガ/ワ」)을 취득한다.
도 17과 도 18은 본 발명을 적용한 실험 결과를 나타낸다. 또, 조건 설정에 대해서는 도 3에서의 설정과 마찬가지이므로, 그 설명은 생략한다.
도 17은 각각 본 발명을 적용한 경우의 음절 계열의 인식 정밀도, 치환 에러, 삭제 에러, 및 삽입 에러의 성능을 나타내고 있으며, 각각의 값은 백분률로 표시되어 있다. 이들의 상세한 설명에 대해서는 도 4와 마찬가지이므로, 생략한다. 도 17의 결과에서는 인식 정밀도는 48.5%로, 도 4에서의 서브 워드 계열에 의한 <OOV> 발음 취득 방법에 있어서의 인식 정밀도의 40.2%와 비교하면, 인식 정밀도는 향상되어 있다. 또한, 삭제 에러와 삽입 에러의 발생율은, 각각 11.6%와 8.0%로, 도 4에서의 서브 워드 계열에 의한 <OOV> 발음 취득 방법에 있어서의 삭제 에러와 삽입 에러의 발생율인 33.3%와 4.1%를 비교하면, 삭제 에러와 삽입 에러의 발생 밸런스는 개선되어 있다(양자의 차가 적게 되어 있다).
도 18은 1명의 화자의 발화에 대하여 본 발명에 의해 <OOV>에 부여된 인식 결과의 일부의 예를 나타내고 있다.
도 18의 예에서는 제1회째에, 「クロサキ」가 「クロタチ」로 인식되어 있으며, 「タ」와 「チ」에서 치환 에러가 발생하고 있다. 또한, 제2회째에서는 「クロサキ」는 「オロサ」로 인식되어 있으며, 「ク」에서 삭제 에러가 발생하고, 「オ」에서 치환 에러가 발생하고 있다. 또한, 제3회째에서는 「クロサキ」는 「ロサキ」로 인식되어 있으며, 「ク」에서 삭제 에러가 발생하고 있다. 또한, 제4회째에서는 「クロサキ」는 「ロサキ」로 인식되어 있으며, 「ク」에서 삭제 에러가 발생하고 있다. 「クロサキ」는, 또한 제5회째에서는 「クロサキ」로 인식되어 있으며, 어떤 에러도 발생하지 않는다.
「カズミ」는 제1회째에서는 「カズミ」로 인식되어 있으며, 어떤 에러도 발생하지 않는다. 예를 들면, 제2회째에서는 「カズミ」는 「カツニ」로 인식되어 있으며, 「ズ」와 「ミ」에서 치환 에러가 발생하고 있다. 제3회째에서는 「カズミ」는 「カズミ」로 인식되고 있으며, 어떤 에러도 발생하지 않는다. 제4회째에서는 「カズミ」는 「カツミ」로 인식되고 있으며, 「ズ」에서 치환 에러가 발생하고 있다. 제5회째에서는 「カズミ」는 「カスミ」로 인식되고 있으며, 「ズ」에서 치환 에러가 발생하고 있다.
도 9를 다시 참조하면, 제어부(46)는 단어 획득부(4)를 제어하고, 단계 S28에서, 단어 획득 처리를 실행시켜, 그 미지어를 획득시킨다.
단어 획득 처리의 상세에 대하여, 도 19를 참조하여 설명한다. 단계 S111에서, 단어 획득부(4)는 음성 인식부(1)로부터 미지어(<OOV>)의 특징 파라미터, 특히 시간 정보에 관한 특징 파라미터를 추출한다. 단계 S112에서, 단어 획득부(4)는 미지어가 이미 획득된 클러스터에 속하는지를 판정한다. 이미 획득된 클러스터에 속하지 않는다고 판정된 경우, 단어 획득부(4)는 단계 S113에서, 그 미지어에 대응하는 새로운 클러스터를 생성한다. 그리고, 단계 S114에서, 단어 획득부(4)는 미지어가 속하는 클러스터의 ID를 음성 인식부(1)의 매칭부(44)에 출력한다.
단계 S112에서, 미지어가 이미 획득된 클러스터에 속한다고 판정된 경우, 새로운 클러스터를 생성할 필요가 없기 때문에, 단어 획득부(4)는 단계 S113의 처리를 스킵하여, 단계 S114로 진행하고, 미지어가 속하는 이미 획득된 클러스터의 ID를 매칭부(44)에 출력한다.
또, 도 19의 처리는 각 미지어마다 행해진다.
도 9를 다시 참조하면, 단계 S28의 단어 획득 처리 종료 후, 단계 S29에서, 대화 제어부(3)는 단계 S28의 처리에서 획득된 단어 열이 템플릿에 매치되어 있는지의 여부를 판정한다. 즉, 인식 결과의 단어 열이 무엇인가의 이름의 등록을 의미하는 것인지의 판정이 여기서 행해진다. 그리고, 단계 S29에서, 인식 결과의 단어 열이 템플릿에 매치되어 있다고 판정된 경우, 단계 S30에서, 대화 제어부(3)는 연상 기억부(2)에, 이름의 클러스터 ID와 카테고리를 대응시켜 기억시킨다.
대화 제어부(3)가 매칭시키는 템플릿의 예를 도 20을 참조하여 설명한다. 또, 도 20에서, "/A/"는 「문자열 A가 포함되어 있으면」이라는 의미를 나타내고, "A|B"는 「A 또는 B」라는 의미를 나타낸다. 또한, "."는 「임의의 문자」를 나타내고, "A+"는 「A의 1회 이상의 반복」이라는 의미를 나타내고, "(.)+"는 「임의의 문자열」을 나타낸다.
이 템플릿(121)은 인식 결과의 단어 열이 도면의 좌측의 정규 표현에 매치된 경우, 도면의 우측의 동작을 실행시키는 것을 나타내고 있다. 예를 들면, 인식 결과가 「<선두>/저/의/이름/은/<OOV>(オ/ガ/ワ)/입니다/<종단>」이라는 단어 열인 경우, 이 인식 결과로부터 생성된 문자열 「저의 이름은 <OOV>입니다」는 도 20의 제2번째 정규 표현에 매치된다. 따라서, 대응하는 동작인 「<OOV>에 대응하는 클러스터 ID를 사용자명으로서 등록한다」 처리가 실행된다. 즉, 「<OOV>(オ/ガ/ワ)」의 클러스터 ID가 「1」인 경우, 도 5에 도시된 바와 같이 클러스터 ID 「1」의 카테고리명이 「사용자명」으로서 등록된다.
또한, 예를 들면, 인식 결과가 「<선두>/자네/의/이름/은/<OOV>(ア/イ/ボ)/이야/<종단>」인 경우, 거기에서부터 생성되는 문자열 「자네의 이름은 <OOV>이야」는 도 20의 제1번째 정규 표현에 매치되므로, 「<OOV>(ア/イ/ボ)」가 클러스터 ID 「2」이면, 클러스터 ID 「2」의 카테고리는 「캐릭터명」으로서 등록된다.
또, 대화 시스템에 따라서는 등록하는 단어가 1종류밖에 없는(예를 들면, 「사용자명」만) 경우도 있고, 그 경우는 템플릿(121)과 연상 기억부(2)는 간략화할 수 있다. 예를 들면, 템플릿(121)의 내용을 「인식 결과에 <OOV>가 포함되어 있으니, 그 ID를 기억한다」로 하여, 연상 기억부(2)에 그 클러스터 ID만을 기억시킬 수 있다.
대화 제어부(3)는 이와 같이 하여 연상 기억부(2)에 등록된 정보를 이후의 대화의 판단 처리에 반영시킨다. 예를 들면, 대화 시스템 측에서, 「사용자의 발화 중에, 대화 캐릭터의 이름이 포함되어 있는지의 여부를 판정한다. 포함되어 있는 경우에는 『부름을 받았다』라고 판단하여, 그에 따른 대답을 한다」라는 처리나, 「대화 캐릭터가 사용자의 이름을 재잘거린다」라는 처리가 필요하게 된 경우에, 대화 제어부(3)는 연상 기억부(2)의 정보를 참조함으로써, 대화 캐릭터에 상당하는 단어(카테고리명이 「캐릭터명」인 엔트리)나 사용자명에 상당하는 단어(카테고리명이 「사용자명」인 엔트리)를 얻을 수 있다.
한편, 단계 S23에서, 인식 결과에 미지어가 포함되어 있지 않다고 판정된 경우, 또는 단계 S29에서, 인식 결과가 템플릿에 매치하지 않다고 판정된 경우, 단계 S31에서, 대화 제어부(3)는 입력 음성에 대응하는 응답을 생성한다. 즉, 이 경우에는 이름(미지어)의 등록 처리는 행해지지 않고, 사용자로부터의 입력 음성에 대응하는 소정의 처리가 실행된다.
그런데, 언어 모델로서 문법을 이용하는 경우, 문법 중에 음절 타입 라이터 상당의 기술도 편성될 수 있다. 이 경우의 문법의 예가 도 21에 도시되어 있다. 이 문법(131)에 있어서, 제1행째 변수 "$SYLLABLE"는 모든 음절이 「또는」을 의미하는 "|"로 연결되어 있으므로, 음절 기호 중 어느 하나를 의미한다. 변수 "OOV"는 "$SYLLABLE"를 0회 이상 반복하는 것을 나타내고 있다. 즉, 「임의의 음절 기호를 0회 이상 접속한 것」을 의미하고, 음절 타입 라이터에 상당한다. 따라서, 제3행째의 「는」과 「입니다」 사이의 "$00V"는 임의의 발음을 접수할 수 있다.
이 문법(131)을 이용한 경우의 인식 결과에서는, "$00V"에 상당하는 부분이 복수의 심볼로 출력된다. 예를 들면, 「저의 이름은 오가와입니다」의 인식 결과가 「<선두>/저/의/이름/은/오/가/와/입니다/<종단>」으로 된다. 이 결과를 「<선두>/저/의/이름/은/<OOV>(オ/ガ/ワ)/입니다」로 변환하면, 도 9의 단계 S23 이후의 처리는 음절 타입 라이터를 이용한 경우와 마찬가지로 실행할 수 있다.
또, 이상에서는 미지어에 관련된 정보로서, 카테고리를 등록하도록 했지만, 그 밖의 정보를 등록하도록 해도 된다. 또한, 도 9의 흐름도에 있어서의 단계 S28은 생략해도 되고, 단계 S28이 생략된 경우에는 단계 S30에서의 처리는 대화 제어부(3)가 연상 기억부(2)에 서브 워드 계열과 카테고리를 대응시켜 기억시킨다고 하는 처리가 된다.
또한, 이상의 실시 형태에서는, 도 16C에 도시된 바와 같이 음절과 단어의 네트워크를 형성하도록 했지만, 입력 음성에 대하여 우도가 최대로 되는 최적의 네트워크 상의 서브 워드 계열을 선택할 수 있으면 되므로, 음절에 한정되지 않고, 음소, 음운 등의, 음절 이외의 서브 워드와 단어와의 네트워크로 할 수 있다.
도 22는 상술한 처리를 실행하는 퍼스널 컴퓨터(150)의 구성예를 나타내고 있다. 이 퍼스널 컴퓨터(150)는 CPU(Central Processing Unit)(151)를 내장하고 있다. CPU(151)에는 버스(154)를 통하여, 입출력 인터페이스(155)가 접속되어 있다. 버스(154)에는 ROM(Read Only Memory)(152) 및 RAM(Random Access Memory)(153)이 접속되어 있다.
입출력 인터페이스(155)에는 사용자가 조작하는 마우스, 키보드, 마이크로폰, AD 변환기 등의 입력 디바이스로 구성되는 입력부(157), 및 디스플레이, 스피커, DA 변환기 등의 출력 디바이스로 구성되는 출력부(156)가 접속되어 있다. 또한, 입출력 인터페이스(155)에는 프로그램이나 각종 데이터를 저장하는 하드디스크 드라이브 등으로 이루어지는 기억부(158), 및 인터넷으로 대표되는 네트워크를 통하여 데이터를 통신하는 통신부(159)가 접속되어 있다.
입출력 인터페이스(155)에는 자기 디스크(171), 광 디스크(172), 광 자기 디스크(173), 반도체 메모리(174) 등의 기록 매체에 대하여 데이터를 기입 및 판독하는 드라이브(160)가 필요에 따라 접속된다.
이 퍼스널 컴퓨터(150)에 본 발명을 적용한 음성 처리 장치로서의 동작을 실행시키는 음성 처리 프로그램은, 자기 디스크(171)(플로피 디스크를 포함함), 광 디스크(172)(CD-ROM(Compact Disc-Read Only Memory), DVD(Digital Versatile Disc)를 포함함), 광 자기 디스크(173)(MD(Mini Disc)를 포함함), 또는 반도체 메모리(174)에 저장된 상태에서 퍼스널 컴퓨터(150)에 공급되고, 드라이브(160)에 의해 판독되어, 기억부(158)에 내장되는 하드디스크 드라이브에 인스톨된다. 기억부(158)에 인스톨된 음성 처리 프로그램은 입력부(157)에 입력되는 사용자로부터의 커맨드에 대응하는 CPU(151)의 명령에 의해, 기억부(158)로부터 RAM(153)에 로드되어 실행된다.
상술한 일련의 처리는 하드웨어에 의해 실행시킬 수도 있고, 소프트웨어에 의해 실행시킬 수도 있다. 일련의 처리를 소프트웨어에 의해 실행시키는 경우에는 그 소프트웨어를 구성하는 프로그램이 전용의 하드웨어에 내장되어 있는 컴퓨터, 또는 각종 프로그램을 인스톨함으로써, 각종 기능을 실행할 수 있는, 예를 들면 범용의 퍼스널 컴퓨터 등에, 네트워크나 기록 매체로부터 인스톨된다.
이 기록 매체는 도 22에 도시된 바와 같이 장치 본체와는 별도로, 사용자에게 프로그램을 제공하기 위해서 배포되는 프로그램이 기록되어 있는 자기 디스크(171), 광 디스크(172), 광 자기 디스크(173), 또는 반도체 메모리(174) 등으로 이루어지는 패키지 미디어로 구성될 뿐만 아니라, 장치 본체에 미리 내장된 상태에서 사용자에게 제공되는, 프로그램이 기록되어 있는 ROM(152)이나, 기억부(158)에 포함되는 하드디스크 등으로 구성된다.
또, 본 명세서에 있어서, 기록 매체에 기록되는 프로그램을 기술하는 스텝은 기재된 순서를 따라 시계열적으로 행해지는 처리는 물론, 반드시 시계열적으로 처리되지 않아도, 병렬적 또는 개별적으로 실행되는 처리도 포함하는 것이다.
또한, 본 명세서에 있어서, 시스템은 복수의 장치가 논리적으로 집합한 것을 말하며, 각 구성의 장치가 동일 개체 내에 있는지의 여부는 불문한다.
이상과 같이 본 발명에 따르면, 단어를 음성으로 등록할 수 있다. 또한, 그 등록을 사용자에게 등록 모드를 의식시키지 않고 실행할 수 있다. 또한, 기지어와 미지어를 포함하는 연속하는 입력 음성 중에서 미지어를 추출하고, 그 미지어의 발음을 취득하여, 미지어의 단어를 확실하게 획득할 수 있다. 이에 의해, 그 미지어를 용이하게 등록할 수 있게 된다. 또한, 등록한 단어를 이후의 대화에서 반영시킬 수 있게 된다.
또한, 본 발명에 따르면, 음성 인식의 인식율을 향상시킬 수 있다. 또한, 미지어 획득 시의 삭제 에러를 적게 할 수 있어, 삭제 에러와 삽입 에러의 발생 밸런스를 양호하게 할 수 있다. 이에 의해, 사용자가 연속 음성 인식 시스템을 갖는 로봇 등을 슬기롭지 않다고 느끼는 것을 억제할 수 있다.

Claims (13)

  1. 입력 음성을 처리하고, 그 처리 결과에 기초하여, 상기 입력 음성에 포함되는 단어를 등록하는 음성 처리 장치로서,
    연속되는 상기 입력 음성을 인식하는 인식 수단과,
    상기 인식 수단에 의해 인식된 인식 결과에, 미지어가 포함되어 있는지의 여부를 판정하는 미지어 판정 수단과,
    상기 미지어 판정 수단에서 상기 인식 결과에 상기 미지어가 포함되어 있다고 판정된 경우, 상기 미지어의 단어 경계에 대응하는 시각의 서브 워드를 포함하는 패스와, 그 서브 워드를 포함하지 않는 패스를 갖는 네트워크를 생성하는 네트워크 생성 수단과,
    상기 미지어 판정 수단에 의해, 상기 미지어가 포함되어 있다고 판정된 경우, 상기 미지어에 대응하는 단어를 획득하는 획득 수단과,
    상기 획득 수단에 의해 획득된 상기 단어를 다른 정보와 관련시켜 등록하는 등록 수단
    을 포함하는 것을 특징으로 하는 음성 처리 장치.
  2. 제1항에 있어서,
    상기 인식 결과가 특정 패턴에 매치되는지의 여부를 판정하는 패턴 판정 수단을 더 포함하고,
    상기 등록 수단은 상기 패턴 판정 수단에 의해, 상기 인식 결과가 특정 패턴에 매치되어 있다고 판정된 경우, 상기 단어를 등록하는 것을 특징으로 하는 음성 처리 장치.
  3. 제2항에 있어서,
    상기 미지어 판정 수단에 의해, 상기 미지어가 포함되어 있지 않다고 판정된 경우, 또는 상기 패턴 판정 수단에 의해, 상기 인식 결과가 특정 패턴에 매치되지 않는다고 판정된 경우, 상기 입력 음성에 대응하는 응답을 생성하는 응답 생성 수단을 더 포함하는 것을 특징으로 하는 음성 처리 장치.
  4. 제2항에 있어서,
    상기 등록 수단은 상기 다른 정보로서, 카테고리와 관련시켜 상기 단어를 등록하는 것을 특징으로 하는 음성 처리 장치.
  5. 제2항에 있어서,
    상기 등록 수단은 상기 패턴 판정 수단에 의해 매치된다고 판정된 상기 패턴과 관련시켜, 상기 다른 정보를 등록하는 것을 특징으로 하는 음성 처리 장치.
  6. 제1항에 있어서,
    상기 획득 수단은 상기 미지어를 클러스터링함으로써 상기 단어를 획득하는 것을 특징으로 하는 음성 처리 장치.
  7. 제1항에 있어서,
    상기 네트워크 생성 수단에 의해 생성된 상기 네트워크는, 상기 단어와 음절 간의 네트워크인 것을 특징으로 하는 음성 처리 장치.
  8. 제7항에 있어서,
    상기 입력 음성과 상기 네트워크의 매칭에 기초하여, 상기 네트워크 상의 스코어가 높은 패스를 선택하는 선택 수단과,
    상기 선택 수단에 의해 선택된 상기 패스를 포함하는 상기 네트워크에 기초하여, 상기 미지어에 대응하는 발음을 취득하는 발음 취득 수단을 더 포함하는 것을 특징으로 하는 음성 처리 장치.
  9. 제1항에 있어서,
    상기 입력 음성의 소정의 구간에 대하여, 기지어로 매칭시킨 경우와 음절 타입 라이터로 인식시킨 경우의 음성 스코어를 비교하는 비교 수단을 더 포함하며,
    상기 비교 수단은 상기 음절 타입 라이터로 인식시킨 상기 음향 스코어쪽이 우수한 경우, 그 구간을 미지어라고 추정하는 것을 특징으로 하는 음성 처리 장치.
  10. 제9항에 있어서,
    상기 비교 수단은 상기 기지어로 매칭시킨 경우의 음향 스코어에 대하여, 상기 음절 타입 라이터로 인식시킨 경우의 음향 스코어에 보정을 행한 후에 비교를 행하는 것을 특징으로 하는 음성 처리 장치.
  11. 입력 음성을 처리하고, 그 처리 결과에 기초하여, 상기 입력 음성에 포함되는 단어를 등록하는 음성 처리 장치의 음성 처리 방법으로서,
    연속되는 상기 입력 음성을 인식하는 인식 단계와,
    상기 인식 단계의 처리에 의해 인식된 인식 결과에, 미지어가 포함되어 있는지의 여부를 판정하는 판정 단계와,
    상기 판정 단계의 처리에서 상기 인식 결과에 상기 미지어가 포함되어 있다고 판정된 경우, 상기 미지어의 단어 경계에 대응하는 시각의 서브 워드를 포함하는 패스와, 그 서브 워드를 포함하지 않는 패스를 갖는 네트워크를 생성하는 네트워크 생성 단계와,
    상기 판정 단계의 처리에 의해, 상기 미지어가 포함되어 있다고 판정된 경우, 상기 미지어에 대응하는 단어를 획득하는 획득 단계와,
    상기 획득 단계의 처리에 의해 획득된 상기 단어를 다른 정보와 관련시켜 등록하는 등록 단계
    를 포함하는 것을 특징으로 하는 음성 처리 방법.
  12. 입력 음성을 처리하고, 그 처리 결과에 기초하여, 상기 입력 음성에 포함되는 단어를 등록하는 음성 처리 장치의 프로그램으로서,
    연속되는 상기 입력 음성을 인식하는 인식 단계와,
    상기 인식 단계의 처리에 의해 인식된 인식 결과에, 미지어가 포함되어 있는지의 여부를 판정하는 판정 단계와,
    상기 판정 단계의 처리에서 상기 인식 결과에 상기 미지어가 포함되어 있다고 판정된 경우, 상기 미지어의 단어 경계에 대응하는 시각의 서브 워드를 포함하는 패스와, 그 서브 워드를 포함하지 않는 패스를 갖는 네트워크를 생성하는 네트워크 생성 단계와,
    상기 판정 단계의 처리에 의해, 상기 미지어가 포함되어 있다고 판정된 경우, 상기 미지어에 대응하는 단어를 획득하는 획득 단계와,
    상기 획득 단계의 처리에 의해 획득된 상기 단어를 다른 정보와 관련시켜 등록하는 등록 단계
    를 포함하는 것을 특징으로 하는 컴퓨터가 판독 가능한 프로그램이 기록되어 있는 기록 매체.
  13. 입력 음성을 처리하고, 그 처리 결과에 기초하여, 상기 입력 음성에 포함되는 단어를 등록하는 음성 처리 장치의 프로그램으로서,
    연속되는 상기 입력 음성을 인식하는 인식 단계와,
    상기 인식 단계의 처리에 의해 인식된 인식 결과에, 미지어가 포함되어 있는지의 여부를 판정하는 판정 단계와,
    상기 판정 단계의 처리에서 상기 인식 결과에 상기 미지어가 포함되어 있다고 판정된 경우, 상기 미지어의 단어 경계에 대응하는 시각의 서브 워드를 포함하는 패스와, 그 서브 워드를 포함하지 않는 패스를 갖는 네트워크를 생성하는 네트워크 생성 단계와,
    상기 판정 단계의 처리에 의해, 상기 미지어가 포함되어 있다고 판정된 경우, 상기 미지어에 대응하는 단어를 획득하는 획득 단계와,
    상기 획득 단계의 처리에 의해 획득된 상기 단어를 다른 정보와 관련시켜 등록하는 등록 단계
    를 컴퓨터에 실행시키는 것을 특징으로 하는 프로그램.
KR1020047011216A 2002-11-21 2003-11-12 음성 처리 장치 및 방법, 및 기록 매체 KR101014086B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2002-00337892 2002-11-21
JP2002337892A JP4072718B2 (ja) 2002-11-21 2002-11-21 音声処理装置および方法、記録媒体並びにプログラム

Publications (2)

Publication Number Publication Date
KR20050083547A true KR20050083547A (ko) 2005-08-26
KR101014086B1 KR101014086B1 (ko) 2011-02-14

Family

ID=32321860

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020047011216A KR101014086B1 (ko) 2002-11-21 2003-11-12 음성 처리 장치 및 방법, 및 기록 매체

Country Status (8)

Country Link
US (1) US7653541B2 (ko)
EP (1) EP1460615B1 (ko)
JP (1) JP4072718B2 (ko)
KR (1) KR101014086B1 (ko)
CN (1) CN100354929C (ko)
AU (1) AU2003280726A1 (ko)
DE (1) DE60318385T2 (ko)
WO (1) WO2004047075A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140974B2 (en) 2014-12-29 2018-11-27 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4705023B2 (ja) * 2004-06-10 2011-06-22 パナソニック株式会社 音声認識装置、音声認識方法、及びプログラム
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP2007133033A (ja) * 2005-11-08 2007-05-31 Nec Corp 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
DE602006012218D1 (de) * 2005-12-08 2010-03-25 Nuance Comm Austria Gmbh Spracherkennungssystem mit riesigem vokabular
WO2007097390A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム
US9245526B2 (en) * 2006-04-25 2016-01-26 General Motors Llc Dynamic clustering of nametags in an automated speech recognition system
WO2008069139A1 (ja) 2006-11-30 2008-06-12 National Institute Of Advanced Industrial Science And Technology 音声認識システム及び音声認識システム用プログラム
US8868410B2 (en) * 2007-08-31 2014-10-21 National Institute Of Information And Communications Technology Non-dialogue-based and dialogue-based learning apparatus by substituting for uttered words undefined in a dictionary with word-graphs comprising of words defined in the dictionary
CN101452702B (zh) * 2007-12-05 2011-08-10 财团法人工业技术研究院 语音模型的调整方法及其调整模块
US8326631B1 (en) * 2008-04-02 2012-12-04 Verint Americas, Inc. Systems and methods for speech indexing
JP5810912B2 (ja) * 2011-12-28 2015-11-11 富士通株式会社 音声認識装置、音声認識方法及び音声認識プログラム
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
CN104157285B (zh) 2013-05-14 2016-01-20 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
JP6655835B2 (ja) * 2016-06-16 2020-02-26 パナソニックIpマネジメント株式会社 対話処理方法、対話処理システム、及びプログラム
JP6711343B2 (ja) * 2017-12-05 2020-06-17 カシオ計算機株式会社 音声処理装置、音声処理方法及びプログラム
US11232783B2 (en) 2018-09-12 2022-01-25 Samsung Electronics Co., Ltd. System and method for dynamic cluster personalization
US20220335951A1 (en) * 2019-09-27 2022-10-20 Nec Corporation Speech recognition device, speech recognition method, and program
JP6807586B1 (ja) * 2020-01-30 2021-01-06 ベルフェイス株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0384707A (ja) * 1989-08-28 1991-04-10 Victor Co Of Japan Ltd 垂直磁気記録方式
JPH06266386A (ja) 1993-03-16 1994-09-22 Nippon Telegr & Teleph Corp <Ntt> ワードスポッティング方法
JPH10507536A (ja) * 1994-11-01 1998-07-21 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 言語認識
JP3576272B2 (ja) 1995-06-22 2004-10-13 シャープ株式会社 音声認識装置および方法
JP2886117B2 (ja) 1995-09-11 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
JP3459712B2 (ja) * 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
JPH09274496A (ja) 1996-04-09 1997-10-21 Fuji Xerox Co Ltd 音声認識装置
JP2999726B2 (ja) 1996-09-18 2000-01-17 株式会社エイ・ティ・アール音声翻訳通信研究所 連続音声認識装置
JP3428309B2 (ja) 1996-09-24 2003-07-22 松下電器産業株式会社 音声認識装置
US5956668A (en) * 1997-07-18 1999-09-21 At&T Corp. Method and apparatus for speech translation with unrecognized segments
JPH1185179A (ja) 1997-09-16 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 統計的言語モデルの作成方法
US5983180A (en) * 1997-10-23 1999-11-09 Softsound Limited Recognition of sequential data using finite state sequence models organized in a tree structure
US6631349B1 (en) * 1997-11-27 2003-10-07 Hitachi, Ltd. Speech recognition method and system
JP3476008B2 (ja) 1999-09-10 2003-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
JP2001249684A (ja) 2000-03-02 2001-09-14 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
DE60016722T2 (de) * 2000-06-07 2005-12-15 Sony International (Europe) Gmbh Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE10042942C2 (de) * 2000-08-31 2003-05-08 Siemens Ag Verfahren zur Sprachsynthese
GB0027178D0 (en) * 2000-11-07 2000-12-27 Canon Kk Speech processing system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140974B2 (en) 2014-12-29 2018-11-27 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition

Also Published As

Publication number Publication date
DE60318385D1 (de) 2008-02-14
EP1460615A1 (en) 2004-09-22
US7653541B2 (en) 2010-01-26
DE60318385T2 (de) 2009-01-02
CN100354929C (zh) 2007-12-12
WO2004047075A1 (ja) 2004-06-03
EP1460615B1 (en) 2008-01-02
EP1460615A4 (en) 2007-04-25
US20050143998A1 (en) 2005-06-30
JP2004170765A (ja) 2004-06-17
CN1692405A (zh) 2005-11-02
KR101014086B1 (ko) 2011-02-14
JP4072718B2 (ja) 2008-04-09
AU2003280726A1 (en) 2004-06-15

Similar Documents

Publication Publication Date Title
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US11062694B2 (en) Text-to-speech processing with emphasized output audio
US8019602B2 (en) Automatic speech recognition learning using user corrections
US10276149B1 (en) Dynamic text-to-speech output
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
US20160379638A1 (en) Input speech quality matching
Young HMMs and related speech recognition technologies
Knill et al. Hidden Markov models in speech and language processing
Williams Knowing what you don't know: roles for confidence measures in automatic speech recognition
Huang et al. From Sphinx-II to Whisper—making speech recognition usable
Manasa et al. Comparison of acoustical models of GMM-HMM based for speech recognition in Hindi using PocketSphinx
US20040006469A1 (en) Apparatus and method for updating lexicon
JP4048473B2 (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
El Ouahabi et al. Amazigh speech recognition using triphone modeling and clustering tree decision
JPH1097293A (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JPH09114482A (ja) 音声認識のための話者適応化方法
Fabian Confidence measurement techniques in automatic speech recognition and dialog management
JPH09212190A (ja) 音声認識装置及び文認識装置
JPH09160586A (ja) ヒドン・マルコフ・モデルの学習方法
Zhang et al. Modeling syllable-based pronunciation variation for accented mandarin speech recognition
Raut Discriminative adaptive training and Bayesian inference for speech recognition
Şahin Language modeling for Turkish continuous speech recognition
JPH0981185A (ja) 連続音声認識装置
Du Preez Fast accurate diphone-based phoneme recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140124

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee