KR20230081248A - 문맥 기반 음성인식 시스템 및 방법 - Google Patents

문맥 기반 음성인식 시스템 및 방법 Download PDF

Info

Publication number
KR20230081248A
KR20230081248A KR1020210169133A KR20210169133A KR20230081248A KR 20230081248 A KR20230081248 A KR 20230081248A KR 1020210169133 A KR1020210169133 A KR 1020210169133A KR 20210169133 A KR20210169133 A KR 20210169133A KR 20230081248 A KR20230081248 A KR 20230081248A
Authority
KR
South Korea
Prior art keywords
context information
context
redefined
speech recognition
voice
Prior art date
Application number
KR1020210169133A
Other languages
English (en)
Inventor
김승희
김상훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020210169133A priority Critical patent/KR20230081248A/ko
Publication of KR20230081248A publication Critical patent/KR20230081248A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 문맥 기반 음성인식 시스템 및 방법에 관한 것이다. 본 발명에 따른 문맥 기반 음성인식 시스템은, 최초 문맥 정보 중에서 숫자 및 제1 언어 중 어느 하나에 의한 표기 형태를, 상기 표기 형태와 발음상 대응되는 제2 언어 표기 형태로 변환함으로써 재정의된 문맥 정보를 생성하는 문맥 정보 변환 모듈; 발화 음성 및 상기 재정의된 문맥 정보를 기초로 음성 인식 결과를 생성하는 문맥 기반 음성인식기; 및 상기 음성 인식 결과 중 상기 재정의된 문맥 정보에 해당하는 제2 언어 표기 형태가 포함된 경우, 상기 제2 언어 표기 형태를 상기 최초 문맥 정보에 따른 표기 형태로 복원하여 최종 음성 인식 결과를 생성하는 복원 모듈;을 포함한다.

Description

문맥 기반 음성인식 시스템 및 방법{SYSTEM AND METHOD FOR CONTEXT-BASED SPEECH RECOGNITION}
본 발명은 문맥 기반 음성인식 시스템 및 방법에 관한 것이다.
종래의 음성인식 시스템은, 발화된 음성 중 음성인식 모델에 대한 학습 데이터베이스에 포함되지 않았거나 드물게 나타나는 패턴에 대해서는 인식 성능이 떨어진다는 문제점을 가지고 있다. 심층 신경망을 활용한 종단형 음성인식 시스템의 성능이 종래의 음성인식 시스템에 비해 많이 개선되기는 했으나, 종래의 음성인식 시스템과 동일한 문제점을 가지고 있다. 또한, 종단형 음성인식 시스템은 다수의 모듈로 구성된 기존의 음성인식 시스템에 비해 튜닝이 쉽지 않다는 문제점도 가지고 있다. 예를 들어, 한국어 인명은 언어적으로 구별할 수 있는 정보가 적기 때문에 종단형 음성인식 시스템에서도 유사한 발음의 다른 이름으로 오인식될 가능성이 높다.
이러한 문제를 해결하기 위해 등장한 것이 문맥 기반 음성인식 시스템이다. 문맥 기반 음성인식 시스템 및 방법은, 발화에 포함될 가능성이 높지만 오인식의 가능성 역시 높은 구문들을 문맥 정보로 삼아, 이 문맥 정보를 반영하여 음성인식을 수행함으로써 사용자 발화의 음성인식 성능을 향상하기 위한 시스템 및 방법이다.
그러나, 문맥 기반 음성인식 시스템을 적용하더라도, 외국어로 표기된 단어 또는 구문처럼 학습 데이터베이스에서 비중이 극히 낮은 형태의 표기에 대해서는 문맥 정보로 반영하더라도 제대로 인식되지 않는 경우가 많다. 예를 들어, 문맥 기반 종단형 한국어 음성인식 시스템에서 문맥 정보로 영어 알파벳 구문을 입력할 경우 한국어 구문에 비해 인식률이 현저히 떨어지며, 다양한 형태로 발성되는 숫자 표현 역시 인식률이 떨어진다.
결국, 기존의 문맥 기반 음성인식 시스템은 외국어나 숫자로 표기된 구문을 문맥 정보에 반영하더라도 한국어 구문에 비해 인식률이 떨어지는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여, 문맥 정보에 포함된 특정 한 표기 형태를 음성인식 시스템의 대상 언어의 표현 형태로 변환하여 문맥 정보를 재정의하며, 재정의된 문맥 정보를 반영하여 음성인식을 수행하고, 음성인식 결과를 원래의 표기 형태로 복원하여 최종 인식 결과를 생성하는 문맥 기반 음성인식 시스템 및 방법을 제공하는 것을 목적으로 한다.
더욱 상세하게는, 음성인식 모델이 잘 학습하지 못하여 문맥 정보에 반영하더라도 인식이 잘 되지 않는 음성인식 출력 단위로 표기된 구문(예컨대, 외국어 구문이나 숫자)을, 음성인식이 잘 되는 형태(예컨대, 한국어 음성인식 모델에서 한글 단위)로 변환함으로써 문맥 정보를 재정의하고, 재정의된 문맥 정보에 따라 문맥 기반 음성인식을 수행한 후, 인식 결과에 포함된 재정의된 문맥 구문을 원래의 표기 형태로 복원하여 최종 인식 결과를 생성하는 문맥 기반 음성인식 시스템 및 방법을 제공하는 것을 목적으로 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 문맥 기반 음성인식 시스템은, 최초 문맥 정보 중에서 숫자 및 제1 언어 중 어느 하나에 의한 표기 형태를, 상기 표기 형태와 발음상 대응되는 제2 언어 표기 형태로 변환함으로써 재정의된 문맥 정보를 생성하는 문맥 정보 변환 모듈; 발화 음성 및 상기 재정의된 문맥 정보를 기초로 음성 인식 결과를 생성하는 문맥 기반 음성인식기; 및 상기 음성 인식 결과 중 상기 재정의된 문맥 정보에 해당하는 제2 언어 표기 형태가 포함된 경우, 상기 제2 언어 표기 형태를 상기 최초 문맥 정보에 따른 표기 형태로 복원하여 최종 음성 인식 결과를 생성하는 복원 모듈;을 포함한다.
본 발명에 따르면, 외국어 구문이나 숫자처럼 음성인식 모델이 잘 학습하지 못하여 문맥 정보에 반영하더라도 인식이 잘 되지 않는 음성인식 출력 단위로 표기된 구문들을, 음성인식이 잘 되는 형태로 변환하여 문맥 정보를 재정의한 후 음성인식을 수행함으로써 음성인식 성능을 향상할 수 있는 효과가 있다.
또한 본 발명에 따르면, 음성인식 결과에 포함되어 있는 문맥 구문 중 원래 외국어 구문이나 숫자였던 한국어 문맥 구문을 원래의 형태로 복원하여 최종 인식 결과를 생성함으로써, 최종 인식 결과를 스마트폰 음성 비서 또는 자동번역기에 입력하였을 때 보다 정확한 수행 결과를 얻을 수 있다는 효과가 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 기존의 문맥 기반 음성인식 시스템의 기능을 나타낸 블록도.
도 2는 본 발명의 일 실시예에 따른 문맥 기반 음성인식 시스템의 구성과 기능을 나타낸 블록도.
도 3은 본 발명에 일 실시예에 따른 문맥 기반 음성인식 시스템의 동작 예시를 나타낸 도면.
도 4는 본 발명의 다른 실시예에 따른 문맥 기반 음성인식 시스템의 동작 예시를 나타낸 도면.
도 5는 본 발명의 일 실시예에 따른 문맥 기반 음성인식 방법을 설명하기 위한 흐름도.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
이하, 본 발명의 실시예를 첨부한 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면 번호에 상관없이 동일한 수단에 대해서는 동일한 참조 번호를 사용하기로 한다.
도 1은 기존의 문맥 기반 음성인식 시스템의 기능을 나타낸 블록도이다.
음성인식 모델, 특히 종단형 음성인식 모델에서는 학습 데이터베이스에 나타나지 않았거나 드물게 나타나는 단어에 대한 인식성능이 상대적으로 떨어진다. 그리고, 인명처럼 발음이 유사한 구문의 경우에도 혼동이 많이 발생할 수 있다. 이러한 단어나 구문을 문맥 정보로 삼아, 이 문맥 정보를 음성인식 시스템에 입력하고 음성인식 과정에 반영하여 인식 성능을 높일 수 있다. 예를 들어, "움베르토 레스토랑에 전화해 줘"라는 발성을 입력했을 때 "움배르토 레스토랑에 전화해 줘"라고 오인식될 가능성이 높은데, 문맥 정보로 "움베르토"를 반영하여 오인식의 가능성을 줄일 수 있다. 참고로, 문맥 정보는 음성인식 시스템에서 높은 정확도의 출력을 얻기 위해 이용하는 정보로서, 특정 상황이나 특정 주제와 관련된 정보이다. 문맥 정보는 다양한 형태가 있을 수 있는데, 주소록 등을 예로 들 수 있다.
그러나, 음성인식 시스템에 입력하는 문맥 정보 중에 외국어 문자로 표기된 단어 또는 구문이 있을 경우에는 문맥 정보에 반영해도 인식이 잘 되지 않는 경우가 많다. 예를 들어, 한국어 음성인식 모델의 학습 데이터베이스에 저장되어, 음성인식 모델의 학습 시 레이블로 사용되는 전사문은 대부분 한글 전사문(轉寫文, transcript)이며, 전사문에서 알파벳으로 표기된 부분의 비중은 극히 낮다. 이로 인해, 음성인식기의 출력 기호에 알파벳을 포함할 수는 있으나, 발화에 포함된 외국어 단어가 실제 알파벳으로 출력되는 확률은 대단히 낮다. 따라서, 기존 문맥 기반 음성인식 시스템의 음성인식 결과를 활용하는데 있어서 어려움이 발생할 수 있다. 예를 들어, 스마트폰의 주소록에 "Umberto"가 등록되어 있고, 주소록을 문맥 정보에 반영한 경우, 사용자가 스마트폰의 음성 비서 기능을 사용하여 "Umberto"에게 전화를 걸기 위해 "Umberto에게 전화해 줘"라고 발성하더라도 "Umberto"가 "움배르토" 또는 "움베르토"로 인식되어 전화 연결이 되지 않는 경우가 발생할 수 있다.
도 2는 본 발명의 일 실시예에 따른 문맥 기반 음성인식 시스템의 구성과 기능을 나타낸 블록도이다.
본 발명의 일 실시예에 따른 문맥 기반 음성인식 시스템(10)은 문맥 정보 변환 모듈(100), 문맥 기반 음성인식기(200) 및 복원 모듈(300)을 포함한다.
문맥 정보 변환 모듈(100)은 사용자가 입력한 문맥 정보('최초 문맥 정보')에, 학습 데이터베이스에서 노출 빈도가 없거나 낮은 표기 형태가 있을 경우 해당 문맥 정보를 재정의(再定義, redefinition)한다. 예를 들어, 문맥 정보 변환 모듈(100)은 사용자가 입력한 문맥 정보에 외국어 문자로 표기된 구문 또는 숫자가 포함된 경우, 상기 구문 또는 숫자 부분을 상기 구문 또는 숫자의 소리에 대한 한글 표현으로 변환함으로써 문맥 정보를 재정의한다. 문맥 정보 변환 모듈(100)은 문맥 기반 음성인식기(200)에 재정의된 문맥 정보를 전달한다. 또한 문맥 정보 변환 모듈(100)은 재정의된 문맥 정보에 한해 최초 문맥 정보와 매칭하여 복원 모듈(300)에 전달한다. 문맥 기반 음성인식기(200)는 문맥 정보 변환 모듈(100)에서 전달받은 재정의된 문맥 정보를 내부 저장소에 저장하고, 재정의된 문맥 정보를 이용하여 음성을 인식하게 된다.
문맥 기반 음성인식기(200)는 재정의된 문맥 정보를 반영하여 사용자 발화에 대한 음성인식을 수행하여 음성인식 결과(이하 '최초 인식 결과'로 칭함)를 출력한다. 예를 들어, 사용자 발화 중 외국어 구문이 포함되어 있는 경우, 문맥 기반 음성인식기(200)는 한글 표현으로 재정의된 문맥 정보를 반영하여 상기 외국어 구문에 대한 음성을 상기 외국어 구문의 소리와 유사한 한글 표현으로 인식할 수 있다. 사용자 발화에 문맥 정보에 반영된 구문이 포함될 경우 해당 구문에 대한 인식률이 높아질 수 있다.
복원 모듈(300)은 최초 인식 결과에 문맥 정보 변환 모듈(100)이 재정의한 구문이 포함될 경우 문맥 정보 변환 모듈(100)이 변환하기 전의 문맥 정보(최초 문맥 정보)와 변환 후의 문맥 정보(재정의된 문맥 정보)의 매칭 관계를 이용하여 상기 구문을 최초 문맥 정보에 포함되어 있는 원래의 표현으로 복원함으로써 문맥 기반 음성인식 시스템(10)의 최종적인 음성인식 결과(이하 '최종 인식 결과'로 칭함)를 출력한다. 예를 들어, 복원 모듈(300)은 최초 인식 결과에 문맥 정보 변환 모듈(100)이 재정의한 문맥 정보에 해당하는 한글 표현이 포함되어 있는 경우, 상기 한글 표현을 최초 문맥 정보에 있는 원래의 외국어 구문이나 숫자로 이루어진 표기 형태로 복원하여 최종 인식 결과를 생성한다.
문맥 기반 음성인식기(200)에서 사용하는 문맥 기반 음성인식 모델에 입력되는 언어에 따라서 문맥 정보 변환 모듈(100)의 타겟 언어가 달라질 수 있다. 예를 들어, 문맥 기반 음성인식기(200)에서 사용하는 문맥 기반 음성인식 모델이 한국어 음성인식 모델일 경우, 문맥 정보 변환 모듈(100)은 문맥 정보를 한글 표현으로 변환하는 모듈이 된다. 또한, 문맥 기반 음성인식기(200)에서 사용하는 문맥 기반 음성인식 모델이 중국어 음성인식 모델이면 문맥 정보 변환 모듈(100)에 문맥 정보를 중국어로 변환하는 모듈이 적용된다.
도 3은 본 발명의 일 실시예에 따른 문맥 기반 음성인식 시스템(10)의 동작 예시를 나타낸 도면이다. 본 예시에서, 문맥 기반 음성인식 시스템(10)은 스마트폰의 음성 전화 걸기에 사용되며, 문맥 기반 음성인식 시스템(10)의 음성인식 모델의 입력 언어는 한국어라고 전제한다.
본 예시에서, 스마트폰의 사용자 주소록에 'Umberto', '홍길동', 'ETRI'가 저장되어 있으며, 사용자 주소록의 정보가 최초 문맥 정보로서 활용된다. 따라서, 사용자 주소록 정보는 문맥 정보 변환 모듈(100)에 입력된다. 문맥 정보 변환 모듈(100)의 문맥 정보 변환 결과는 [표 1]과 같다.
문맥 정보 변환 모듈(100)에 입력된 문맥 정보
(최초 문맥 정보)
문맥 정보 변환 결과
(재정의된 문맥 정보)
'Umberto' '움베르토' 및 '움배르토'
'홍길동' '홍길동'
'ETRI' '에트리'
문맥 정보 변환 모듈(100)은 문맥 기반 음성인식기(200)에 재정의된 문맥 정보([표 1]의 2열에 해당하는 '움베르토','움배르토','홍길동','에트리')를 전달한다. 또한 문맥 정보 변환 모듈(100)은 복원 모듈(300)에 재정의된 문맥 정보와 최초 문맥 정보를 매칭하여 전달한다. 본 예시에서 문맥 정보 변환 모듈(100)은 '움베르토:Umberto','움배르토:Umberto' 및 '에트리:ETRI'를 복원 모듈(300)에 전달한다.
사용자가 "Umberto에게 전화해 줘"라고 발성하면, 문맥 기반 음성인식기(200)는 변환된 문맥 정보를 반영하여 사용자 발성을 인식한 결과(최초 인식 결과)로서 "움배르토에게 전화해 줘"를 출력한다.
복원 모듈(300)은 최초 인식 결과와 문맥 정보 변환 모듈(100)이 제공한 재정의된 문맥 정보를 기초로 복원 대상이 있는지 탐색하며, 재정의된 문맥 정보에 해당하는 표기 형태(표현)가 있는 경우, 재정의된 문맥 정보와 최초 문맥 정보의 매칭 관계를 이용하여 상기 재정의된 문맥 정보에 해당하는 표기 형태를 최초 문맥 정보에 포함되어 있는 원래의 표현으로 복원한다. 복원 모듈(300)은 최초 인식 결과에 재정의된 문맥 정보에 해당하는 '움배르토'가 포함되어 있으므로 이를 최초 문맥 정보에 포함되어 있는 원래의 표기 형태인 'Umberto'로 복원하여 최종 인식 결과인 "Umberto에게 전화해 줘"를 출력한다. 최종 인식 결과는 스마트폰 음성 비서(20)에게 전달되며, 스마트폰 음성 비서(20)는 자동으로 'Umberto'에게 전화를 걸어준다.
도 4는 본 발명의 다른 실시예에 따른 문맥 기반 음성인식 시스템(10')의 동작 예시를 나타낸 도면이다. 본 발명의 다른 실시예에 따른 문맥 기반 음성인식 시스템(10')은 문맥 정보 변환 모듈(100), 문맥 기반 음성인식기(200) 및 복원 모듈(300)을 포함하며, 문맥 정보 데이터베이스(400, 이하 문맥 정보 DB)를 더 포함할 수 있다.
문맥 정보 변환 모듈(100)은 자동 변환 알고리즘을 사용할 수도 있고, 사용자가 문맥 기반 음성인식 시스템(10')에 등록한 문맥 정보 DB(400)에 의존할 수도 있다. 도 3은 문맥 정보 변환 모듈(100)이 자동 변환 알고리즘을 사용하는 경우의 실시예를 나타낸 것이며, 도 4는 사용자가 등록한 문맥 정보 DB(400)에 의존하는 문맥 정보 변환 모듈(100)를 사용하는 실시예를 나타낸 것이다.
본 예시에서는, 대학교에서 강의자가 여러 나라 국적의 학생들을 대상으로 한국어로 강의를 하고, 문맥 기반 음성인식 시스템(10')이 상기 강의 음성을 기초로 음성인식 결과를 생성하면, 개별 학생의 단말기에 내장된 자동번역기에서 상기 음성인식 결과를 번역하여 화면에 표시하는 상황을 가정한다.
문맥 기반 음성인식 시스템(10')의 음성인식 모델의 입력 언어는 한국어라고 전제한다. 따라서 문맥 기반 음성인식 시스템(10')의 문맥 정보 변환 모듈(100)은 문맥 정보를 한글 표현으로 변환하는 모듈이 적용된다.
강의자는 강의 전에 미리 주요 용어나 표현들을 문맥 정보 DB(400)에 저장한다. 이때 문맥에 반영할 구문뿐만 아니라 이 구문들의 한글 변환 형태도 함께 정의하여 등록할 수 있다. 문맥 정보 변환 모듈(100)은 문맥 정보 DB(400)에 포함된 구문들을 한글로 변환하는데, 사용자가 정의한 한글 변환 형태가 있다면 이를 문맥 정보 변환 모듈(100)의 출력에 반영할 수 있다. 예를 들어, 문맥 정보 변환 모듈(100)은, 문맥 정보 DB(400)에 문맥 정보의 한글 변환 형태가 존재하지 않으면, 문맥 정보 DB(400)에 저장된 문맥 정보를 문맥 정보 변환 모듈(100)의 내부 알고리즘을 사용하여 한글 표현으로 변환하고, 문맥 정보 DB(400)에 문맥 정보의 한글 변환 형태가 존재하는 경우, 그 한글 변환 형태를 그대로 출력할 수 있다. 본 예시에서는 강의자가 문맥 정보 DB(400)에 'seq2seq: 씩투씩, 시퀀스투시퀀스(표기형태: 발음1, 발음2)'를 등록하였다고 가정한다. 따라서 문맥 정보 변환 모듈(100)은 문맥 정보 DB(400)에 저장된 문맥 정보를 입력받아 '씩투씩'과 '시퀀스투시퀀스'를 변환된 문맥 정보(재정의된 문맥 정보)로서 문맥 기반 음성인식기(200)에 전달한다. 또한 문맥 정보 변환 모듈(100)은 '씩투씩:seq2seq' 및 '시퀀스투시퀀스:seq2seq'를 복원 모듈(300)에 전달한다.
강의자가 "seq2seq 모델이 무엇일까요?"를 발화하면("씩투씩 모델이 무엇일까요?"로 발음함), 발화 음성은 문맥 기반 음성인식기(200)에 입력되어 최초 음성인식 결과인 "씩투씩 모델이 무엇일까요?"가 출력된다. 복원 모듈(300)은 최초 음성인식 결과와 문맥 정보 변환 모듈(100)에서 전달받은 정보를 바탕으로 "씩투씩"을 "seq2seq"으로 변환한 후 최종 인식 결과인 "seq2seq 모델이 무엇일까요?"를 출력한다. 최종 인식 결과는 각 언어별 자동번역기(30,40)에 입력되고 번역된 결과는 개별 학생의 단말기에서 출력된다. 즉, 개별 학생의 단말기에 내장된 자동번역기는 음성인식 결과를 입력받아 그 학생의 모국어로 출력한다. 예를 들어, 미국인 학생은 한영 자동번역기(30)가 출력한 "What is seq2seq model?"을 단말기에서 확인할 수 있으며, 일본인 학생은 한일 자동번역기(40)에서 출력한 "seq2seqモデルって何ですか?"를 단말기에서 확인할 수 있다.
도 5는 본 발명의 일 실시예에 따른 문맥 기반 음성인식 방법을 설명하기 위한 흐름도이다. 본 발명의 일 실시예에 따른 문맥 기반 음성인식 방법은 S510 단계 내지 S530 단계를 포함한다.
S510 단계는 문맥 정보 재정의(再定義, redefinition) 단계이다. 문맥 정보 변환 모듈(100)은 최초 문맥 정보를 입력받고, 문맥 기반 음성인식 시스템(10,10')에 탑재된 음성인식 모델을 학습시키기 위한 학습 데이터베이스에서 노출 빈도가 없거나 낮은 표기 형태를 가진 문맥 정보를 재정의(再定義, redefinition)한다. 한국어를 인식하는 음성인식 시스템의 경우, 재정의가 필요한 문맥 정보는 외국어 문자로 표기된 구문이나 숫자로 된 문맥 정보가 될 수 있다. 예를 들어, 상기 음성인식 시스템은 최초 문맥 정보에 포함된 외국어 문자로 표기된 구문을 발음상 대응되는 한국어 구문으로 변환함으로써 재정의된 문맥 정보를 생성한다. 문맥 정보 변환 모듈(100)은 문맥 기반 음성인식기(200)에 재정의된 문맥 정보를 전달한다. 또한 문맥 정보 변환 모듈(100)은 재정의된 문맥 정보에 한해 원문 표현의 문맥 정보와 매칭하여 복원 모듈(300)에 전달한다.
S520 단계는 음성인식 단계이다. 문맥 기반 음성인식기(200)는 S510 단계에서 재정의된 문맥 정보를 반영하여 사용자 발화에 대한 음성인식을 수행하여 음성인식 결과('최초 인식 결과')를 출력한다. 예를 들어, 사용자 발화 중 외국어 구문이 포함되어 있는 경우, 문맥 기반 음성인식기(200)는 한글 표현으로 재정의된 문맥 정보를 반영하여 상기 외국어 구문에 대한 음성을 상기 외국어 구문의 소리와 유사한 한글 표현으로 인식할 수 있다.
S530 단계는 재정의(再定義) 구문을 원래의 표현으로 복원하는 단계이다. 복원 모듈(300)은 최초 인식 결과에 문맥 정보 변환 모듈(100)이 재정의한 문맥 정보에 해당하는 구문('재정의 구문')이 포함될 경우, 문맥 정보 변환 모듈(100)에서 전달받은 정보(재정의된 문맥 정보와 최초 문맥 정보의 매칭 관계)에 기초하여 상기 재정의 구문을 원래의 표현으로 복원함으로써 문맥 기반 음성인식 시스템(10)의 최종적인 음성인식 결과('최종 인식 결과')를 출력한다. 예를 들어, 복원 모듈(300)은 최초 인식 결과에 문맥 정보 변환 모듈(100)이 재정의된 문맥 정보에 해당하는 한글 표현이 포함되어 있는 경우, 상기 한글 표현을 최초 문맥 정보에 있는 원래의 외국어 구문이나 숫자로 복원하여 최종 인식 결과를 생성한다.
도 5의 내용은 도 1 내지 도 4의 내용에 적용될 수 있으며, 도 1 내지 도 4의 내용은 도 5에 적용될 수 있다.
이상, 본 발명에 따른 문맥 기반 음성인식 시스템 및 방법을 설명하기 위해 한국어 음성인식 모델이 탑재된 문맥 기반 음성인식 시스템에 알파벳으로 표현된 문맥 정보가 입력되는 실시예를 기술하였으나, 본 발명에 따른 문맥 기반 음성인식 시스템 및 방법은 한국어 이외의 언어에 대한 음성인식 시스템에 적용될 수 있으며, 알파벳 이외의 문자로 표현된 문맥 정보의 경우에도 적용될 수 있다.
참고로, 본 발명의 실시예에 따른 구성 요소들은 소프트웨어 또는 DSP(digital signal processor), FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다.
그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.
구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.
한편, 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
본 실시예에서 사용되는 '~기' 또는 '~모듈'이라는 용어는 소프트웨어 또는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~기' 또는 '~모듈'는 어떤 역할들을 수행한다. 그렇지만 '~기' 또는 '~모듈'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~기' 또는 '~모듈'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~기' 또는 '~모듈'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~기' 또는 '~모듈'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~기' 또는 '~모듈'들로 결합되거나 추가적인 구성요소들과 '~기' 또는 '~모듈'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~기' 또는 '~모듈'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
전술한 문맥 기반 음성인식 방법은 도면에 제시된 흐름도를 참조로 하여 설명되었다. 간단히 설명하기 위하여 상기 방법은 일련의 블록들로 도시되고 설명되었으나, 본 발명은 상기 블록들의 순서에 한정되지 않고, 몇몇 블록들은 다른 블록들과 본 명세서에서 도시되고 기술된 것과 상이한 순서로 또는 동시에 일어날 수도 있으며, 동일한 또는 유사한 결과를 달성하는 다양한 다른 분기, 흐름 경로, 및 블록의 순서들이 구현될 수 있다. 또한, 본 명세서에서 기술되는 방법의 구현을 위하여 도시된 모든 블록들이 요구되지 않을 수도 있다.
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진 자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호범위는 상기 상세한 설명보다는 후술한 특허청구범위에 의하여 정해지며, 특허청구의 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태는 본 발명의 기술적 범위에 포함되는 것으로 해석되어야 한다.
10, 10': 문맥 기반 음성인식 시스템
20: 스마트폰 음성 비서
30: 한영 자동번역기
40: 한일 자동번역기
100: 문맥 정보 변환 모듈
200: 문맥 기반 음성인식기
300: 복원 모듈
400: 문맥 정보 데이터베이스

Claims (1)

  1. 최초 문맥 정보 중에서 숫자 및 제1 언어 중 어느 하나에 의한 표기 형태를, 상기 표기 형태와 발음상 대응되는 제2 언어 표기 형태로 변환함으로써 재정의된 문맥 정보를 생성하는 문맥 정보 변환 모듈;
    발화 음성 및 상기 재정의된 문맥 정보를 기초로 음성 인식 결과를 생성하는 문맥 기반 음성인식기; 및
    상기 음성 인식 결과 중 상기 재정의된 문맥 정보에 해당하는 제2 언어 표기 형태가 포함된 경우, 상기 제2 언어 표기 형태를 상기 최초 문맥 정보에 따른 표기 형태로 복원하여 최종 음성 인식 결과를 생성하는 복원 모듈;
    을 포함하는 문맥 기반 음성인식 시스템.
KR1020210169133A 2021-11-30 2021-11-30 문맥 기반 음성인식 시스템 및 방법 KR20230081248A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210169133A KR20230081248A (ko) 2021-11-30 2021-11-30 문맥 기반 음성인식 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210169133A KR20230081248A (ko) 2021-11-30 2021-11-30 문맥 기반 음성인식 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20230081248A true KR20230081248A (ko) 2023-06-07

Family

ID=86761349

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210169133A KR20230081248A (ko) 2021-11-30 2021-11-30 문맥 기반 음성인식 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20230081248A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117059082A (zh) * 2023-10-13 2023-11-14 北京水滴科技集团有限公司 基于大模型的外呼通话方法、装置、介质和计算机设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117059082A (zh) * 2023-10-13 2023-11-14 北京水滴科技集团有限公司 基于大模型的外呼通话方法、装置、介质和计算机设备
CN117059082B (zh) * 2023-10-13 2023-12-29 北京水滴科技集团有限公司 基于大模型的外呼通话方法、装置、介质和计算机设备

Similar Documents

Publication Publication Date Title
JP7280382B2 (ja) 数字列のエンドツーエンド自動音声認識
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
KR102386854B1 (ko) 통합 모델 기반의 음성 인식 장치 및 방법
US6073091A (en) Apparatus and method for forming a filtered inflected language model for automatic speech recognition
US20160147740A1 (en) Adapting machine translation data using damaging channel model
KR102375115B1 (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
CA2336459A1 (en) Method and apparatus for the prediction of multiple name pronunciations for use in speech recognition
CN111177324A (zh) 基于语音识别结果进行意图分类的方法和装置
Le et al. G2G: TTS-driven pronunciation learning for graphemic hybrid ASR
KR20230081248A (ko) 문맥 기반 음성인식 시스템 및 방법
Yuan et al. Decoupling recognition and transcription in Mandarin ASR
Ashihara et al. SpeechGLUE: How well can self-supervised speech models capture linguistic knowledge?
CN112489634A (zh) 语言的声学模型训练方法、装置、电子设备及计算机介质
CN111933116A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN1753083B (zh) 语音标记方法、系统及基于语音标记的语音识别方法和系统
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
Nursetyo LatAksLate: Javanese script translator based on Indonesian speech recognition using sphinx-4 and google API
Anoop et al. Exploring a unified ASR for multiple South Indian languages leveraging multilingual acoustic and language models
Fischer et al. Multilingual acoustic models for the recognition of non-native speech
CA2597826C (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
Iso-Sipila et al. Multi-lingual speaker-independent voice user interface for mobile devices
CN116229994B (zh) 一种阿拉伯语方言的标符预测模型的构建方法和装置
KR20030010979A (ko) 의미어단위 모델을 이용한 연속음성인식방법 및 장치
KR20030001668A (ko) 연속 음성인식기의 성능 개선 방법