KR20170081897A - 음성 데이터 인식 시스템 및 방법 - Google Patents

음성 데이터 인식 시스템 및 방법 Download PDF

Info

Publication number
KR20170081897A
KR20170081897A KR1020160000901A KR20160000901A KR20170081897A KR 20170081897 A KR20170081897 A KR 20170081897A KR 1020160000901 A KR1020160000901 A KR 1020160000901A KR 20160000901 A KR20160000901 A KR 20160000901A KR 20170081897 A KR20170081897 A KR 20170081897A
Authority
KR
South Korea
Prior art keywords
word
unregistered
generated
phoneme
input
Prior art date
Application number
KR1020160000901A
Other languages
English (en)
Inventor
김동현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160000901A priority Critical patent/KR20170081897A/ko
Publication of KR20170081897A publication Critical patent/KR20170081897A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L2015/063

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

본 발명에 따른 음성 데이터 인식 서버는 음성 수신 모듈, 디스플레이 모듈, 음성 데이터 인식 프로그램이 저장된 메모리 및 상기 프로그램을 실행시키는 프로세서를 포함하되, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 음성 수신 모듈로부터 사용자에 의해 입력된 음성 데이터를 수신하면, 기 저장된 언어 네트워크에 기초하여 상기 음성 데이터로부터 단어열을 추출하고, 상기 디스플레이 모듈에 의해 상기 추출된 단어열이 디스플레이됨에 따라, 사용자로부터 상기 단어열 중 오인식된 단어에 대하여 등록어 또는 미등록어에 대해 입력받으면, 상기 입력된 등록어 또는 미등록어가 포함된 문장 또는 문구를 생성하고, 상기 생성된 문장 또는 문구에 기초하여 상기 언어 네트워크를 갱신한다.

Description

음성 데이터 인식 시스템 및 방법{SYSTEM AND METHOD FOR RECOGNIZING VOICE DATA}
본 발명은 음성 데이터 인식 시스템 및 방법에 관한 것이다.
음성 인식 시스템은 마이크 등의 입력 장치를 통해 입력된 사람의 음성을 텍스트로 변환하고 이를 입력으로 하여 각종 서비스를 제공한다.
이와 같은 음성 인식 시스템은 지금까지 음향 모델의 발달로 인하여 많은 성능 향상이 이루어졌으나, 사용자가 발성하여 인식할 수 있는 단어의 양은 인식 사전의 단어수로 제한되어 있다는 한계가 존재하였다.
그리고 개별 사용자마다 자주 발성하고 높은 인식률을 원하는 단어의 도메인은 각각 다르고, 또한 신규 단어가 지속적으로 증가하고 있어, 고정된 단어 인식 사전을 갖는 음성 인식기는 이러한 요구를 반영할 수 없다는 문제가 있다.
한편, 종래의 음성 인식 시스템은 시스템에 등록되어 있는 단어들과 미등록된 단어들을 구별하고, 미등록 단어일 경우 사용자에게 재발성을 요구하였다. 즉, 미등록 단어 사전과 등록 단어 사전을 각각 만들고, 입력된 음성 인식 결과에서 유사도를 측정한 다음, 유사도에 기초하여 등록된 단어인지 미등록된 단어인지 선택한 후, 선택된 단어에 대하여 사용자에게 피드백을 받았다.
이때, 선택된 단어가 정확하면 해당 서비스를 제공하고, 단어가 틀렸다고 알려주거나 인식 결과 유사도가 임계값 이상 차이가 나는 경우 미등록 단어로 취급하여 단어를 수집하게 된다. 그 다음, 미등록 단어들을 수작업을 통해 미등록 사전에 추가하게 된다.
그러나 이와 같은 기술은 고립 단어 음성 인식처럼, 기본적으로 서비스하고자 하는 음성 인식 대상 단어에 제한을 두고 있으며, 지속적으로 등록된 인식 사전을 확장할 수 없다는 문제가 있다.
또 다른 예로, 등록 단어인지 아닌지를 사용자에게 피드백 받거나, 등록 단어 사전과의 유사도로 측정하는 방법이 있다. 즉, 사용자가 피드백이 틀렸다고 하거나, 유사도가 임계값 이상으로 멀어진 단어들을 모아서 추후 등록 사전에 추가하는 방법이다. 그러나 이와 같은 방법은 사용자가 입력한 텍스트 정보가 없을 경우 관리자가 수집된 단어들을 다시 듣고 텍스트를 결정해줘야 하는 번거로움이 존재한다.
또한, 음절 인식기를 이용하여 인식된 유사 발음 표기인 비정형 텍스트를 그대로 사용하는 경우, 미등록어를 구별하는 용도로만 유효하고, 등록 사전을 확장하기 위해서는 후처리 수작업이 필요하다는 번거로움이 있다.
이와 관련하여, 한국등록특허 제10-1235694호(발명의 명칭: 음성인식 시스템 및 그 음성인식 방법)는 음향모델의 학습에 이용되는 텍스트에 포함된 어절 간에 소정의 발음 변이 규칙이 적용된 음향모델 및 어휘트리를 이용하여 음성인식을 수행하는 기술을 개시하고 있다.
본 발명의 실시예는 사용자의 입력을 통해 단어 인식 사전을 지속적으로 확장할 수 있는 음성 데이터 인식 서버 및 방법을 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 음성 데이터 인식 서버는 음성 데이터 인식 서버는 음성 수신 모듈, 디스플레이 모듈, 음성 데이터 인식 프로그램이 저장된 메모리 및 상기 프로그램을 실행시키는 프로세서를 포함하되, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 음성 수신 모듈로부터 사용자에 의해 입력된 음성 데이터를 수신하면, 기 저장된 언어 네트워크에 기초하여 상기 음성 데이터로부터 단어열을 추출하고, 상기 디스플레이 모듈에 의해 상기 추출된 단어열이 디스플레이됨에 따라, 사용자로부터 상기 단어열 중 오인식된 단어에 대하여 등록어 또는 미등록어에 대해 입력받으면, 상기 입력된 등록어 또는 미등록어가 포함된 문장 또는 문구를 생성하고, 상기 생성된 문장 또는 문구에 기초하여 상기 언어 네트워크를 갱신한다.
또한, 본 발명의 제 2 측면에 따른 음성 데이터 인식 서버에서의 음성 데이터 인식 방법은 사용자로부터 음성 데이터를 입력받는 단계; 기 저장된 언어 네트워크에 기초하여 상기 음성 데이터로부터 단어열을 추출하는 단계; 상기 추출된 단어열을 디스플레이하는 단계; 사용자로부터 상기 단어열 중 오인식된 단어에 대하여 등록어 또는 미등록어에 대한 입력을 받는 단계; 상기 입력된 등록어 또는 미등록어가 포함된 문장 또는 문구를 생성하는 단계 및 상기 생성된 문장 또는 문구에 기초하여 상기 언어 네트워크를 갱신하는 단계를 포함한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 음성 인식을 할 수 있는 인식 사전의 제약을 받지 않고 점차적으로 미등록어를 추가할 수 있다. 그리고, 사용자가 직접 자신에게 필요한 단어 도메인의 미등록어를 추가할 수 있다.
또한, 미등록어와 오인식하여 수정된 단어에 대하여 사용자의 발성을 따르는 발음 사전을 생성하게 함으로써, 개인 맞춤형 음성 인식이 가능하도록 할 수 있다.
이와 더불어, 단계적으로 언어 네트워크를 갱신함으로써, 미등록어를 보다 빠르고 자동적으로 반영할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 데이터 인식 서버의 블록도이다.
도 2는 음성 데이터 인식 결과 및 이에 따른 등록어와 미등록어를 선택 및 입력하는 일 예시를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 음성 데이터 인식 서버의 구체적인 블록도의 일 예시를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 음성 데이터 인식 방법의 순서도이다.
도 5a 및 도 5b는 등록어 및 미등록어에 기초하여 발음 사전을 생성하는 방법의 순서도이다.
도 6은 문장 또는 문구를 생성하는 방법의 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하에서는 도 1 및 도 2를 참조하여, 본 발명의 일 실시예에 따른 음성 데이터 인식 서버(100)에 대해 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 음성 데이터 인식 서버(100)의 블록도이다. 도 2는 음성 데이터 인식 결과 및 이에 따른 등록어와 미등록어를 선택 및 입력하는 일 예시를 도시한 도면이다.
본 발명의 일 실시예에 따른 음성 데이터 인식 서버(100)는 음성 수신 모듈(110), 디스플레이 모듈(120), 메모리(130) 및 프로세서(140)를 포함한다.
본 발명에 따른 음성 수신 모듈(110)은 예를 들어 마이크와 같이, 사용자가 발화한 음성을 수신한다. 디스플레이 모듈(120)은 사용자로부터 음성 데이터를 인식 받으면 그 결과를 디스플레이한다.
메모리(130)는 음성 데이터 인식 프로그램을 저장한다. 여기에서, 메모리(130)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다.
예를 들어, 메모리(130)는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.
또한, 메모리(130)에 저장된 프로그램은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다.
프로세서(140)는 메모리(130)에 저장된 프로그램을 실행시킨다. 이때, 프로세서(140)는 프로그램을 실행시킴에 따라, 사용자로부터 음성 데이터를 입력받으면, 기 저장된 언어 네트워크에 기초하여 음성 데이터로부터 단어열을 추출한다.
이와 같은 단어열은 디스플레이 모듈(120)에 의해 디스플레이된다. 디스플레이 모듈(120)에 의해 단어열이 디스플레이됨에 따라, 사용자로부터 단어열 중 오인식된 단어에 대하여 등록어 또는 미등록어에 대해 입력받으면, 입력된 등록어 또는 미등록어가 포함된 문장 또는 문구를 생성한다.
도 2를 참조하면, 사용자가 음성을 발화하면 프로세서(140)는 기 저장된 언어 네트워크에 기초하여 음성 데이터로부터 “단어 1” 내지 “단어 7”까지의 단어열을 추출한다. 이때, “단어 1”, “단어 3”, “단어 4”, “단어 5” 및 “단어 7”은 기 저장된 언어 네트워크에 포함된 단어로서 프로세서(140)가 인식한 단어에 해당한다. 그러나 “단어 2” 및 “단어 6”의 경우 기 저장된 언어 네트워크에 포함되어 있지 않거나, 프로세서(140)가 인식하지 못한 오인식된 단어에 해당한다. 이와 같이 화면에 디스플레이된 단어열 중에서 사용자가 오인식된 부분을 선택하면 프로세서(140)는 디스플레이 모듈(120)로 하여금 다른 후보 단어 리스트를 디스플레이하게끔 하고, 사용자로 하여금 오인식된 단어를 선택하여 고칠 수 있도록 할 수 있다.
프로세서(140)는 오인식된 단어에 대하여 등록어 또는 미등록어에 대한 사용자의 입력을 받기 위한 인터페이스를 사용자에게 제공할 수 있다. 이때, 등록어는 기 저장된 언어 네트워크에 등록된 단어로서, 프로세서가 유사도 등의 기준에 기초하여 추출한 후보 단어 리스트에 포함된 단어를 의미한다. 그리고 미등록어는 기 저장된 언어 네트워크에 등록되지 않은 단어로서, 사용자에 의해 입력되는 단어를 의미한다.
먼저, 등록어에 대한 입력은 오인식된 단어에 대응되는 하나 이상의 등록어가 디스플레이되고, 디스플레이된 등록어 중 어느 하나를 선택함에 따라 입력될 수 있다.
예를 들어, 프로세서(140)는 오인식된 “단어 2”에 대한 후보 단어인 “등록어 1” 내지 “등록어 3”을 사용자에게 제공할 수 있다. 이때, 후보 단어인 “등록어 1” 내지 “등록어 3”은 사용자의 음성 발화에 유사한 순서대로 제공될 수 있다. 이에 따라, 사용자는 “등록어 1” 내지 “등록어 3” 중 어느 하나를 선택함에 따라 등록어를 입력할 수 있다.
또한, 프로세서(140)는 사용자에게 미등록어를 입력할 수 있는 인터페이스를 함께 제공할 수 있다. 미등록어 입력란의 선택은 후보 단어 리스트에 사용자가 발성한 단어가 없는 경우 사용자로 하여금 선택하게끔 하기 위한 것이다.
이때, 미등록어에 대한 입력은 사용자로부터 미등록어에 대한 텍스트 및 음성 중 하나 이상을 입력받음에 따라 수행될 수 있다. 예를 들어, 디스플레이 모듈(120)에 오인식된 “단어 2”에 대하여 “미등록어” 입력란을 선택하면 “미등록어 텍스트 입력”란과 “재발성 버튼”란이 활성화될 수 있다. 그리고 사용자가 “미등록어 텍스트 입력”란을 선택하면 직접 텍스트를 입력하여 미등록어를 입력할 수 있다. 이와 더불어, “재발성 버튼”란을 선택하면 사용자가 다시 문장 또는 단어에 대하여 재발화함으로써 미등록어를 입력할 수 있다.
한편, 사용자로부터 단어열 중 오인식된 단어에 대하여 등록어에 대한 입력을 받은 경우, 프로세서(140)는 단어열 전체 음향 신호 중 등록어 단어 부분 음향 신호를 추출할 수 있다. 이때, 프로세서(140)는 단어열 전체 음향 신호에 포함된 시간 할당 정보에 기초하여 등록어 단어 부분 음향 신호를 추출할 수 있다. 그리고 등록어 음소 디코더에 기초하여 입력된 등록어에 대한 음소열을 생성하고, 생성된 음소열에 기초하여 발음 사전을 생성할 수 있다.
등록어 음소 디코더는 기 저장된 훈련 코퍼스(Corpus)에 포함된 단어들의 발음열 발생 패턴에 기초하여 음소 네트워크를 생성할 수 있다. 이때, 언어 네트워크는 WFST(Weighted Finite State Transducer)일 수 있다. 그리고 등록어 음소 디코더는 생성된 음소 네트워크에 기초하여 음소열을 생성할 수 있다.
이와 같은 등록어 음소 디코더는 기존에 단어 단위 음성 인식 시스템과 같이 음소 단위 인식 시스템을 만드는 것으로, 등록된 단어들의 발음 구성을 활용하여 자주 발음된 패턴에 대한 가중치를 적용함에 따라, 기 등록된 단어의 음소 인식 정확성을 높일 수 있다.
사용자로부터 단어열 중 오인식된 단어에 대하여 미등록어에 대한 입력을 받은 경우, 프로세서(140)는 단어열 전체 음향 신호 중 미등록어 단어 부분 음향 신호를 추출할 수 있다. 이때, 프로세서(140)는 단어열 전체 음향 신호에 포함된 시간 할당 정보에 기초하여 미등록어 단어 부분 음향 신호를 추출할 수 있다. 그리고 미등록어 음소 디코더에 기초하여 미등록어에 대한 음소열을 생성하고, 생성된 음소열에 기초하여 발음 사전을 생성할 수 있다.
이와 같은 과정을 통해, 사용자는 미등록어 텍스트만 입력하고, 재발성을 하지 않더라도 단어열 전체 음향 신호에 포함된 시간 할당 정보에 기초하여 올바르게 인식된 나머지 단어 부분을 제외시키고, 추출된 미등록 단어 부분 음향 신호를 자동으로 할당하도록 구성할 수 있다.
이때, 미등록어 음소 디코더는 자음과 모음 음소의 발생 순서를 고려하여 미등록어에 대한 음소열을 생성할 수 있다. 즉, 미등록어 음소 디코더는 기본적인 자음과 모음 음소의 발생 순서를 고려하여 배열된 언어 네트워크, 예를 들어 FST(Finite State Transducer)는 생성하지만, 음소간 발생 확률 차이를 크게 가지지 않는다는 특징이 있다.
이와 같은 미등록어에 대한 발음 구성은 기존 발음열 패턴에 영향을 받지 않기 때문에, 고유명사나 단어약어 발음 등 기존 패턴과 다른 단어들의 발음열을 생성하는데 기여할 수 있다.
이와 더불어, 등록어이지만 후보 단어 리스트에 나타나지 않아 “미등록어” 입력란을 선택하는 경우에도 미등록어 음소 인식을 수행할 수 있다. 이 경우, 사용자의 발음에 가까운 새로운 발음열을 추가하게 됨으로써, 기존 등록어의 발음 사전을 보다 다양하게 구성되도록 할 수 있다.
이와 같이, 본 발명의 일 실시예에 따른 음성 데이터 인식 서버(100)는 두 가지 음소 디코더를 사용할 수 있으며, 이와 같은 음소 디코더는 사용자가 미등록어로 입력한 단어나 오인식하여 수정하기 위해 선택한 다른 후보 단어에 기초하여 사용자의 발성에 따라 발음 음소열을 생성할 수 있다.
다시 도 1을 참조하면, 사용자로부터 단어열 중 오인식된 단어에 대하여 등록어 또는 미등록어에 대해 입력받으면, 프로세서(140)는 입력된 등록어 또는 미등록어가 포함된 문장 또는 문구를 생성한다.
이때, 프로세서(140)는 입력된 등록어 또는 미등록어에 대하여 아카이브(Archive) 검색에 기초하여 검색 단어가 포함된 단어열을 수집할 수 있다. 그리고 비정형 데이터를 정제하여 수집된 단어열에 대한 문장 또는 문구를 생성할 수 있다. 이와 같이 생성된 문장 또는 문구에 대하여 각각 단어 클래스를 할당하고, 할당된 단어 클래스에 포함된 단어들을 조합하여 복수 개의 문장 또는 문구를 생성할 수 있다.
이때, 단어 클래스는 수집된 단어열 중 검색 단어를 제외한 나머지 단어에 대하여, 훈련 코퍼스 내의 의미 및 문법적으로 대체 가능한 하나 이상의 단어에 기초하여 생성된 것일 수 있다.
보다 구체적으로, 프로세서(140)는 사용자의 피드백을 받아 입력된 등록어 또는 미등록어를 포함하는 언어 네트워크를 생성하기 위해, 다양한 조건의 문장 또는 문구를 생성할 수 있다. 즉, 프로세서(140)는 사용자의 피드백을 받은 등록어 또는 미등록어가 포함된 가능한 많은 문장 또는 문구를 생성하여, 음성 인식기의 언어 네트워크에 적용할 언어 모델 확률을 생성할 수 있다.
이를 위해, 프로세서(140)는 먼저 사용자의 피드백을 받은 등록어 또는 미등록어를 아카이브 검색을 통한 검색 단어를 포함하는 문장 또는 문구를 수집하고 이를 정제할 수 있다. 이때, 아카이브 검색은 디지털 문헌, 텍스트 로그 및 인터넷 검색 등의 데이터 자료를 자동으로 검색하는 것으로, 언어 모델을 생성하기 위해 사용했던 정제된 훈련 코퍼스보다 많은 범위의 자료를 말한다.
아카이브 검색을 자동으로 수행할 경우, 수행 결과에 비정형 데이터들이 함께 포함될 수 있기 때문에, 프로세서(140)는 기존 인식 사전과 매칭 작업을 함께 수행하여 새로운 미등록어가 포함되거나 문장 또는 문구로 변환하기 어려운 데이터들을 삭제하거나 정제할 수 있다.
다음으로, 프로세서(140)는 정제된 문장 또는 문구에서, 검색에 사용된 등록어 또는 미등록어를 제외한 나머지 단어들을 단어 클래스에 할당할 수 있다. 이때, 단어 클래스는 훈련 코퍼스의 단어들에 대해 의미적 쓰임새와 문법적 쓰임새가 같은 단어들을 지식 기반으로 그룹화시킨 것으로서, 문장 또는 문구 내에서 단어를 서로 대체해도 허용되는 특징을 보이는 단어들의 묶음을 말한다.
다음으로, 프로세서(140)는 검색을 통해 생성된 문장 또는 문구에 포함된 단어들을 단어 클래스에 속한 단어들로 대체하여 복수 개의 문장 또는 문구를 생성할 수 있다. 이때, 프로세서(140)는 단어 클래스에 속한 단어들의 개수와, 문장 또는 문구에 포함된 단어의 개수에 기초하여 여러가지 조합된 문장 또는 문구를 생성할 수 있다.
프로세서(140)는 입력된 등록어 또는 미등록어의 발음열과, 생성된 복수 개의 문장 또는 문구에 포함된 단어들의 발음열에 기초하여 발음 사전을 생성하고, 생성된 문장 또는 문구에 기초하여 언어 네트워크를 생성할 수 있다. 이때, 생성된 복수 개의 문장 또는 문구들은 G2P(Grapheme to Phoneme)에 의해 발음 사전으로 생성될 수 있다.
이와 같이 생성된 문장 또는 문구에 기초하여 프로세서는 언어 네트워크를 갱신한다. 이때, 프로세서(140)는 기 저장된 언어 네트워크와 생성된 언어 네트워크를 결합하고, 결합된 언어 네트워크를 재구성할 수 있다. 이와 같이 재구성된 언어 네트워크에 기초하여 프로세서(140)는 언어 네트워크를 갱신할 수 있다.
종래 기술에 따른 음성 데이터 인식 기법의 경우 언어 모델이 적용된 언어 네트워크와 음향 모델을 가지고 음성 신호를 처리하였다. 이때, 언어 네트워크는 훈련 코퍼스와 G2P로 생성한 발음 사전에 기초하여 생성될 수 있다. 이와 같이 한번 생성된 언어 네트워크는 서비스하는 관리자가 새로운 코퍼스를 추가하여 훈련하지 않으면 갱신되지 않는다. 이에 따라, 사용자마다 음성 인식에 필요한 미등록어가 발생하여도 쉽게 갱신되지 않는 문제가 있었다.
그러나 본 발명의 일 실시예에 따른 음성 데이터 인식 서버(100)에서의 언어 네트워크는 사용자에 의해 입력된 등록어 또는 미등록어를 반영한 새로운 언어 네트워크를 생성하고, 이를 기 저장된 언어 네트워크와 결합하여 음성 인식에 활용할 수 있다.
새로운 언어 네트워크와 기 저장된 언어 네트워크를 결합한 언어 네트워크를 사용하는 동안, 프로세서(140)는 두 언어 네트워크에 기초하여 언어 네트워크를 재구성할 수 있다. 이와 같이 재구성된 언어 네트워크가 생성되면 기 저장된 언어 네트워크를 대체하여 음성 데이터 인식에 사용될 수 있다. 이때, 언어 네트워크를 생성하는 과정 및 결합하는 과정은 본 발명에 따른 음성 데이터 인식 서버(100)의 설정에 따라 온라인 또는 일괄처리 방식 등 다양한 방식에 의해 수행될 수 있다.
한편, 본 발명의 일 실시예에 따른 음성 데이터 인식 서버(100)는 도 1과 더불어 도 3과 같은 세부적인 구성요소로 구성될 수 있는바, 이하 도 3을 참조하여 설명하도록 한다.
도 3은 본 발명의 일 실시예에 따른 음성 데이터 인식 서버(100)의 구체적인 블록도의 일 예시를 도시한 도면이다.
본 발명의 일 실시예에 따른 음성 데이터 인식 서버(100)는 음성 수신부(310), 음성 인식부(320), 인식 결과 수정 인터페이스(330), 등록어 인식부(340), 미등록어 인식부(350) 및 언어 네트워크 관리부(360)를 포함할 수 있다.
음성 수신부(310)는 예를 들어, 마이크와 같이, 음성 인식을 수행하기 위해 음성을 녹음하고 이를 음성 인식부(320)로 전달한다.
음성 인식부(320)는 음성 인식 서비스를 제공하는 부분으로 기 저장된 언어 네트워크에 기초하여 음성 인식을 수행한다. 이때, 음성 인식부(320)는 단어열 디코더(321) 및 언어 네트워크 결합부(323)를 포함할 수 있다.
단어열 디코더(321)는 언어 네트워크 결합부(323)에서 제공된 언어 네트워크에 기초하여 음성 인식을 수행하고 인식된 단어열을 인식 결과 수정 인터페이스(330)에 전달한다.
언어 네트워크 결합부(323)는 기 저장된 언어 네트워크를 단어열 디코더(321)에 전달한다. 이때, 언어 네트워크 결합부(323)는 하기에서 설명할 언어 네트워크 관리부(360)에 의해 생성된 새 언어 네트워크를 전달받으면, 기 저장된 언어 네트워크와 결합하여 단어열 디코더(321)에 빠르게 언어 네트워크를 전달할 수 있다. 그리고 기 저장된 언어 네트워크와 새롭게 생성된 언어 네트워크를 재구성하여, 재구성된 언어 네트워크를 다시 단어열 디코더(321)에 전달할 수 있다.
인식 결과 수정 인터페이스(330)는 음성 인식부(320)에서 전달받은 단어열을 인식 결과로써 화면에 디스플레이한다. 그리고 사용자가 디스플레이된 단어열 중 오인식된 단어를 선택하면, 수정할 후보 단어로 등록어를 디스플레이하거나, 미등록어를 입력받기 위한 입력란을 디스플레이하여, 사용자로 하여금 선택하게끔 할 수 있다. 이에 따라, 사용자가 후보 단어 리스트의 등록어를 선택하면 등록어가 포함된 인식 결과 문장 또는 문구가 등록어 인식부(340)에 전달되고, 미등록어를 입력하면 미등록어가 포함된 인식 결과 문장 또는 문구가 미등록어 인식부(350)에 전달된다.
등록어 인식부(340)는 인식 결과 수정 인터페이스(330)로부터 전달된 등록어가 포함된 부분을 등록어 음소 디코더(343)로 재인식한다. 이와 같은 등록어 인식부(340)는 단어 신호 할당부(341) 및 등록어 음소 디코더(343)를 포함한다.
단어 신호 할당부(341)는 사용자에 의해 선택된 등록어에 대한 등록어 단어 부분 음향 신호를 인식된 단어열 전체 음향 신호에서 추출하고, 입력된 단어열 텍스트를 언어 네트워크 관리부(360)의 문장 생성부(361)로 전달한다.
등록어 음소 디코더(343)는 상술한 바와 같이, 등록어 단어 부분 신호와 단어 텍스트에 대해 음소열을 생성한다.
미등록어 인식부(350)는 미등록어 입력부(351) 및 미등록어 음소 디코더(353)를 포함한다.
미등록어 입력부(351)는 인식 결과 수정 인터페에스(330)에 디스플레이된 단어열 중 오인식된 단어에 대하여 사용자로가 미등록어 입력란을 선택할 경우, 사용자로부터 미등록어 입력을 받는다. 그리고 단어열 전체 음향 신호에 포함된 시간 영역 정보에 기초하여 미등록어 단어 부분 음향 신호를 추출하거나, 재발성 녹음을 통해 음성 신호를 입력받는다. 이때, 미등록어 입력부(351)는 사용자로부터 음성 신호에 대한 입력을 받지 못한 경우, 미등록어 단어 부분 음향 신호를 자동으로 추출할 수 있다.
미등록어 음소 디코더(353)는 상술한 바와 같이, 미등록어 텍스트와 음성 신호에 대해 음소열을 생성한다.
언어 네트워크 관리부(360)는 문장 생성부(361), 발음 사전 생성부(363), 발음 사전 결합부(365) 및 언어 네트워크 생성부(367)를 포함한다.
문장 생성부(361)는 등록어 인식부(340) 또는 미등록어 인식부(350)로부터 전달된 인식 단어열 중 미등록어 또는 등록어를 아카이브 검색하여 검색 단어가 포함된 단어열을 수집한다. 그리고 수집된 단어열들에서 새로운 미등록어가 포함된 단어열을 제외한 나머지 단어들을 문장 또는 문구 형식으로 생성한다. 생성된 문장 또는 문구에서 검색 단어를 제외한 나머지 단어들에 대해 훈련 코퍼스 내의 의미적, 문법적으로 대체할 수 있는 단어들을 각각 단어 클래스에 할당한다. 그리고 수집된 문장 또는 문구에 대하여 단어 클래스에 포함된 단어들을 조합하여 다양한 문장 또는 문구를 생성한다.
발음 사전 생성부(363)는 문장 생성부(361)에서 전달된 단어열 중 미등록어 인식부(350)에서 전달된 단어들에 대한 발음 사전을 생성할 수 있다.
발음 사전 결합부(365)는 발음 사전 생성부(365)에서 전달된 발음 사전과, 등록어 인식부(340) 및 미등록부 인식부(350)에 의해 전달된 발음열에 기초하여 새로운 발음 사전을 생성할 수 있다.
언어 네트워크 생성부(367)는 전달된 문장 또는 문구들과 새로운 발음 사전에 기초하여 새로운 언어 네트워크를 생성할 수 있다.
참고로, 본 발명의 실시예에 따른 도 1 및 도 3에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다.
그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.
구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.
이하에서는 도 4 내지 도 6을 참조하여 본 발명의 일 실시예에 따른 음성 데이터 인식 방법에 대하여 설명하도록 한다.
도 4는 본 발명의 일 실시예에 따른 음성 데이터 인식 방법의 순서도이다. 도 5a 및 도 5b는 등록어 및 미등록어에 기초하여 발음 사전을 생성하는 방법의 순서도이다. 도 6은 문장 또는 문구를 생성하는 방법의 순서도이다.
본 발명의 일 실시예에 따른 음성 데이터 인식 서버(100)에서의 음성 데이터 인식 방법은 먼저 사용자로부터 음성 데이터를 입력받는다(S410).
다음으로, 기 저장된 언어 네트워크에 기초하여 음성 데이터로부터 단어열을 추출하고(S420), 추출된 단어열을 디스플레이한다(S430).
다음으로, 사용자로부터 디스플레이된 단어열 중 오인식된 단어에 대하여 등록어 또는 미등록어에 대해 입력받는다(S440).
다음으로, 사용자로부터 입력된 등록어 또는 미등록어가 포함된 문장 또는 문구를 생성한다(S450). 문장 또는 문구를 생성하는 각 단계에 대하여 도 5a, 도 5b 및 도 6을 참조하여 설명하도록 한다.
먼저 도 5a를 참조하면, 사용자로부터 단어열 중 오인식된 단어에 대하여 등록어에 대한 입력을 받은 경우, 단어열 전체 음향 신호 중 등록어 단어 부분 음향 신호를 추출할 수 있다(S510). 그리고 등록어 음소 디코더에 기초하여 입력된 등록어에 대한 음소열을 생성할 수 있다(S520). 이와 같이 생성된 음소열에 기초하여 발음 사전을 생성할 수 있다(S530).
다음으로 도 5b를 참조하면, 사용자로부터 단어열 중 오인식된 단어에 대하여 미등록어에 대한 입력을 받은 경우, 단어열 전체 음향 신호 중 미등록어 단어 부분 음향 신호를 추출할 수 있다(S560). 그리고 미등록어 음소 디코더에 기초하여 입력된 미등록어에 대한 음소열을 생성할 수 있다(S570). 이와 같이 생성된 음소열에 기초하여 발음 사전을 생성할 수 있다(S580).
한편, 등록어 및 미등록어 음소 디코더에 대한 설명은 도 1 내지 도 3에서 구체적으로 설명하였는바 이하 생략하도록 한다.
도 6을 참조하면, 본 발명의 일 실시예에서의 문장 또는 문구를 생성하는 단계는, 입력된 등록어 또는 미등록어에 대하여 아카이브 검색에 기초하여 검색 단어가 포함된 단어열을 수집할 수 있다(S610). 그리고 비정형 데이터를 정제하여 수집된 단어열에 대한 문장 또는 문구를 생성할 수 있다(S620). 이와 같이 생성된 문장 또는 문구에 각각 단어 클래스를 할당하고(S630), 할당된 단어 클래스에 포함된 단어들을 조합하여 복수 개의 문장 또는 문구를 생성할 수 있다(S640). 이때, 단어 클래스는 수집된 단어열 중 검색 단어를 제외한 나머지 단어에 대하여 훈련 코퍼스 내의 의미 및 문법적으로 대체 가능한 하나 이상의 단어에 기초하여 생성된 것일 수 있다.
다시 도 4를 참조하면, 사용자에 의해 입력된 등록어 또는 미등록어가 포함된 문장 또는 문구를 생성하면, 생성된 문장 또는 문구에 기초하여 언어 네트워크를 갱신할 수 있다(S460). 이때, 언어 네트워크를 갱신하는 단계는, 입력된 등록어 또는 미등록어의 발음열과 생성된 문장 또는 문구에 포함된 발음열에 기초하여 발음 사전을 생성하고, 생성된 문장 또는 문구 및 생성된 발음 사전에 기초하여 언어 네트워크를 갱신할 수 있다.
이와 같은 언어 네트워크는 기 저장된 언어 네트워크와 결합되어 먼저 음성 인식부에 전달되며, 그동안 결합된 언어 네트워크들을 재구성하여 새로운 언어 네트워크를 사용하게끔 할 수 있다.
상술한 설명에서, 단계 S410 내지 S640은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1 내지 도 3에서의 음성 데이터 인식 서버(100)에 관하여 이미 기술된 내용은 도 4 내지 도 6의 음성 데이터 인식 방법 방법에도 적용된다.
상술한 본 발명에 따른 음성 데이터 인식 서버 및 방법에 따르면, 음성 인식을 할 수 있는 인식 사전의 제약을 받지 않고 점차적으로 미등록어를 추가할 수 있다. 그리고 사용자가 직접 자신에게 필요한 단어 도메인의 미등록어를 추가할 수 있다.
또한, 미등록어와 오인식하여 수정된 단어에 대하여 사용자의 발성을 따르는 발음 사전을 생성하게 함으로써, 개인 맞춤형 음성 인식이 가능하도록 할 수 있다.
이와 더불어, 단계적으로 언어 네트워크를 갱신함으로써, 미등록어를 보다 빠르고 자동적으로 반영할 수 있다.
그리고 미등록어에 대한 개인 발음을 다중 발음으로 묶음으로써, 다수의 사람들을 위한 일반 음성 인식 시스템도 사용자들에 의해 자동으로 인식 단어를 확장하는 음성 인식 시스템이 될 수 있게끔 할 수 있다.
본 발명의 일 실시예에 따른 음성 데이터 인식 서버(100)에서의 음성 데이터 인식 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 음성 데이터 인식 서버
110: 음성 수신 모듈
120: 디스플레이 모듈
130: 메모리
140: 프로세서

Claims (15)

  1. 음성 데이터 인식 서버에 있어서,
    음성 수신 모듈,
    디스플레이 모듈,
    음성 데이터 인식 프로그램이 저장된 메모리 및
    상기 프로그램을 실행시키는 프로세서를 포함하되,
    상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 음성 수신 모듈로부터 사용자에 의해 입력된 음성 데이터를 수신하면, 기 저장된 언어 네트워크에 기초하여 상기 음성 데이터로부터 단어열을 추출하고,
    상기 디스플레이 모듈에 의해 상기 추출된 단어열이 디스플레이됨에 따라, 사용자로부터 상기 단어열 중 오인식된 단어에 대하여 등록어 또는 미등록어에 대해 입력받으면, 상기 입력된 등록어 또는 미등록어가 포함된 문장 또는 문구를 생성하고, 상기 생성된 문장 또는 문구에 기초하여 상기 언어 네트워크를 갱신하는 음성 데이터 인식 서버.
  2. 제 1 항에 있어서,
    상기 사용자로부터 상기 단어열 중 오인식된 단어에 대하여 등록어에 대한 입력을 받은 경우,
    상기 프로세서는 상기 단어열 전체 음향 신호 중 상기 등록어 단어 부분 음향 신호를 추출하고, 등록어 음소 디코더에 기초하여 상기 입력된 등록어에 대한 음소열을 생성하며, 상기 생성된 음소열에 기초하여 발음 사전을 생성하는 것인 음성 데이터 인식 서버.
  3. 제 2 항에 있어서,
    상기 등록어 음소 디코더는 기 저장된 훈련 코퍼스에 포함된 단어들의 발음열 발생 패턴에 기초하여 음소 네트워크를 생성하고, 상기 생성된 음소 네트워크에 기초하여 음소열을 생성하는 것인 음성 데이터 인식 서버.
  4. 제 1 항에 있어서,
    상기 등록어에 대한 입력은 상기 오인식된 단어에 대응되는 하나 이상의 등록어가 디스플레이되고, 상기 디스플레이된 등록어 중 어느 하나를 선택함에 따라 입력되는 것인 음성 데이터 인식 서버.
  5. 제 1 항에 있어서,
    상기 사용자로부터 상기 단어열 중 오인식된 단어에 대하여 미등록어에 대한 입력을 받은 경우,
    상기 프로세서는 상기 단어열 전체 음향 신호 중 상기 미등록어 단어 부분 음향 신호를 추출하고, 미등록어 음소 디코더에 기초하여 상기 미등록어에 대한 음소열을 생성하며, 상기 생성된 음소열에 기초하여 발음 사전을 생성하는 것인 음성 데이터 인식 서버.
  6. 제 5 항에 있어서,
    상기 미등록어 음소 디코더는 자음과 모음 음소의 발생 순서를 고려하여 상기 미등록어에 대한 음소열을 생성하는 것인 음성 데이터 인식 서버.
  7. 제 1 항에 있어서,
    상기 미등록어에 대한 입력은 상기 사용자로부터 미등록어에 대한 텍스트 및 음성 중 하나 이상을 입력받는 것인 음성 데이터 인식 서버.
  8. 제 1 항에 있어서,
    상기 프로세서는 상기 입력된 등록어 또는 미등록어에 대하여 아카이브 검색에 기초하여 검색 단어가 포함된 단어열을 수집하고, 비정형 데이터를 정제하여 상기 수집된 단어열에 대한 문장 또는 문구를 생성하며, 상기 생성된 문장 또는 문구 각각에 단어 클래스를 할당하고, 상기 할당된 단어 클래스에 포함된 단어들을 조합하여 복수 개의 문장 또는 문구를 생성하되,
    상기 단어 클래스는 상기 수집된 단어열 중 상기 검색 단어를 제외한 나머지 단어에 대하여, 훈련 코퍼스 내의 의미 및 문법적으로 대체 가능한 하나 이상의 단어에 기초하여 생성된 것인 음성 데이터 인식 서버.
  9. 제 1 항에 있어서,
    상기 프로세서는 상기 입력된 등록어 또는 미등록어의 발음열과 상기 생성된 문장 또는 문구에 포함된 단어들의 발음열에 기초하여 발음 사전을 생성하고, 상기 생성된 문장 또는 문구 및 상기 생성된 발음 사전에 기초하여 언어 네트워크를 생성하는 것인 음성 데이터 인식 서버.
  10. 제 9 항에 있어서,
    상기 프로세서는 상기 기 저장된 언어 네트워크와 상기 생성된 언어 네트워크를 결합하고, 상기 결합된 언어 네트워크들을 재구성하며, 상기 재구성한 언어 네트워크에 기초하여 상기 언어 네트워크를 갱신하는 것인 음성 데이터 인식 서버.
  11. 음성 데이터 인식 서버에서의 음성 데이터 인식 방법에 있어서,
    사용자로부터 음성 데이터를 입력받는 단계;
    기 저장된 언어 네트워크에 기초하여 상기 음성 데이터로부터 단어열을 추출하는 단계;
    상기 추출된 단어열을 디스플레이하는 단계;
    사용자로부터 상기 단어열 중 오인식된 단어에 대하여 등록어 또는 미등록어에 대한 입력을 받는 단계;
    상기 입력된 등록어 또는 미등록어가 포함된 문장 또는 문구를 생성하는 단계 및
    상기 생성된 문장 또는 문구에 기초하여 상기 언어 네트워크를 갱신하는 단계를 포함하는 음성 데이터 인식 방법.
  12. 제 11 항에 있어서,
    상기 사용자로부터 상기 단어열 중 오인식된 단어에 대하여 등록어에 대한 입력을 받은 경우,
    상기 단어열 전체 음향 신호 중 상기 등록어 단어 부분 음향 신호를 추출하는 단계;
    등록어 음소 디코더에 기초하여 상기 입력된 등록어에 대한 음소열을 생성하는 단계 및
    상기 생성된 음소열에 기초하여 발음 사전을 생성하는 단계를 더 포함하는 음성 데이터 인식 방법.
  13. 제 11 항에 있어서,
    상기 사용자로부터 상기 단어열 중 오인식된 단어에 대하여 미등록어에 대한 입력을 받은 경우,
    상기 단어열 전체 음향 신호 중 상기 미등록어 단어 부분 음향 신호를 추출하는 단계;
    미등록어 음소 디코더에 기초하여 상기 미등록어에 대한 음소열을 생성하는 단계 및
    상기 생성된 음소열에 기초하여 발음 사전을 생성하는 단계를 더 포함하는 음성 데이터 인식 방법.
  14. 제 11 항에 있어서,
    상기 입력된 등록어 또는 미등록어가 포함된 문장 또는 문구를 생성하는 단계는,
    상기 입력된 등록어 또는 미등록어에 대하여 아카이브 검색에 기초하여 검색 단어가 포함된 단어열을 수집하는 단계;
    비정형 데이터를 정제하여 상기 수집된 단어열에 대한 문장 또는 문구를 생성하는 단계;
    상기 생성된 문장 또는 문구 각각에 단어 클래스를 할당하는 단계 및
    상기 할당된 단어 클래스에 포함된 단어들을 조합하여 복수 개의 문장 또는 문구를 생성하는 단계를 포함하되,
    상기 단어 클래스는 상기 수집된 단어열 중 상기 검색 단어를 제외한 나머지 단어에 대하여, 훈련 코퍼스 내의 의미 및 문법적으로 대체 가능한 하나 이상의 단어에 기초하여 생성된 것인 음성 데이터 인식 방법.
  15. 제 11 항에 있어서,
    상기 생성된 문장 또는 문구에 기초하여 상기 언어 네트워크를 갱신하는 단계는,
    상기 입력된 등록어 또는 미등록어의 발음열과 상기 생성된 문장 또는 문구에 포함된 단어들의 발음열에 기초하여 발음 사전을 생성하는 단계 및
    상기 생성된 문장 또는 문구 및 상기 생성된 발음 사전에 기초하여 언어 네트워크를 생성하는 단계를 포함하는 음성 데이터 인식 방법.
KR1020160000901A 2016-01-05 2016-01-05 음성 데이터 인식 시스템 및 방법 KR20170081897A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160000901A KR20170081897A (ko) 2016-01-05 2016-01-05 음성 데이터 인식 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160000901A KR20170081897A (ko) 2016-01-05 2016-01-05 음성 데이터 인식 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20170081897A true KR20170081897A (ko) 2017-07-13

Family

ID=59352643

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160000901A KR20170081897A (ko) 2016-01-05 2016-01-05 음성 데이터 인식 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20170081897A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362817A (zh) * 2020-03-04 2021-09-07 株式会社东芝 声音识别纠错装置、声音识别纠错方法以及声音识别纠错程序
US11417327B2 (en) 2018-11-28 2022-08-16 Samsung Electronics Co., Ltd. Electronic device and control method thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11417327B2 (en) 2018-11-28 2022-08-16 Samsung Electronics Co., Ltd. Electronic device and control method thereof
CN113362817A (zh) * 2020-03-04 2021-09-07 株式会社东芝 声音识别纠错装置、声音识别纠错方法以及声音识别纠错程序

Similar Documents

Publication Publication Date Title
Pratap et al. Scaling speech technology to 1,000+ languages
CN110050302B (zh) 语音合成
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US10163436B1 (en) Training a speech processing system using spoken utterances
US8990089B2 (en) Text to speech synthesis for texts with foreign language inclusions
CN1199148C (zh) 语音识别装置、语音识别方法
US10176809B1 (en) Customized compression and decompression of audio data
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US11562743B2 (en) Analysis of an automatically generated transcription
JP2002520664A (ja) 言語に依存しない音声認識
JP2008209717A (ja) 入力された音声を処理する装置、方法およびプログラム
Kadyan et al. Refinement of HMM model parameters for Punjabi automatic speech recognition (PASR) system
US9607618B2 (en) Out of vocabulary pattern learning
EP3791388A1 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
KR20210001937A (ko) 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법
CN113362817A (zh) 声音识别纠错装置、声音识别纠错方法以及声音识别纠错程序
JP5688761B2 (ja) 音響モデル学習装置、および音響モデル学習方法
KR102580904B1 (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
US20180012602A1 (en) System and methods for pronunciation analysis-based speaker verification
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
KR20170081897A (ko) 음성 데이터 인식 시스템 및 방법
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
US20150206539A1 (en) Enhanced human machine interface through hybrid word recognition and dynamic speech synthesis tuning
JP2004101727A (ja) 多言語音声認識方法、装置、プログラム、および多言語話者適応方法、装置、プログラム
JP5124012B2 (ja) 音声認識装置及び音声認識プログラム