KR101819459B1 - 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치 - Google Patents

음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치 Download PDF

Info

Publication number
KR101819459B1
KR101819459B1 KR1020160115155A KR20160115155A KR101819459B1 KR 101819459 B1 KR101819459 B1 KR 101819459B1 KR 1020160115155 A KR1020160115155 A KR 1020160115155A KR 20160115155 A KR20160115155 A KR 20160115155A KR 101819459 B1 KR101819459 B1 KR 101819459B1
Authority
KR
South Korea
Prior art keywords
voice
word
display window
displayed
error
Prior art date
Application number
KR1020160115155A
Other languages
English (en)
Inventor
안문학
Original Assignee
주식회사 소리자바
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 소리자바 filed Critical 주식회사 소리자바
Application granted granted Critical
Publication of KR101819459B1 publication Critical patent/KR101819459B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • G06F17/24
    • G06F17/28
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치에 관한 것으로서, 음성을 텍스트로 변환한 단어를 표시하는 제1 표시창 및 해당 단어를 조합한 문장을 표시하는 제2 표시창을 이용해 음식 인식 결과를 표시하되, 인식률이 기 설정된 값보다 낮은 오류 단어에 대응하는 음성을 저장하고, 오류 단어 대한 수정 명령에 따라 저장된 음성을 재생한 후, 해당 오류 단어에 대응하는 음성을 입력받아 텍스트로 변환해 오류 단어를 대체하여 표시하며, 이를 통해 실시간 텍스트 변환되는 단어들에 인식 오류가 발생하였는지 직관적으로 확인하고, 사용자의 음성을 이용한 재입력을 통해 오류가 발생한 단어의 손쉬운 수정이 가능하다.

Description

음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치 {Voice recognition system and apparatus supporting voice recognition error correction}
본 발명은 음성 인식 장치에 관한 것으로, 더욱 상세하게는 음성을 인식하여 텍스트로 변환하되, 수정을 위하여 실시간 입력 상태를 표시하고 용이하게 수정할 수 있도록 하는 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치에 관한 것이다.
최근 스마트폰에서는 음성 인식 기술이 대중화되고 있으며, 스마트워치와 같은 웨어러블 장치에서는 음성 인식을 가장 주요한 문자 입력 수단으로 활용할 것으로 예상된다.
음성 인식 기술은 음성 인식으로 입력을 행하면, 이를 단어 별로 인식하고, 인식된 단어를 조합하여 문장으로 형성하여 텍스트 형태로 사용자에게 보여지게 된다.
그러나 음성 인식 기술은 오래전부터 개발되어 온 기술임에도 불구하고, 정확한 음성 인식을 통하여 텍스트로 치환되어 입력되는데 있어서 아직도 오류가 다수 발생하고 있다.
이에 따라 인식된 텍스트가 의도와 다르거나 오류가 있는 경우에 이를 수정해야 한다.
일반적으로 이러한 텍스트를 수정하기 위해서는 키보드를 이용하여 백스페이스키를 통하여 글자 단위로 텍스트의 일부를 삭제하여 수정하는데, 이러한 텍스트 수정 방법은 키보드를 통해 백스페이스키를 복수로 눌러 입력하여 텍스트를 글자단위로 지우고 다시 입력하는 등 번거로운 동작이 수반될 수밖에 없다.
한편 종래의 음성 인식 장치는 최종적으로 단어 조합에 의해 형성된 문장을 텍스트 형태로 보여주기 때문에, 수정을 위한 사용자의 입장에서는 어떠한 형태의 단어를 조합하여 문장이 형성되었는지 확인할 수 없는 문제점이 있었다.
한국공개특허 제10-2005-0087313호 (2005년 08월 31일 공개)
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 음성이 입력되면 어떠한 단어 조합에 의해 어떠한 문장이 형성되었는지에 대한 과정을 직관적으로 확인할 수 있고, 음성 인식되어 생성된 텍스트의 수정을 음성 입력을 통해 용이하게 진행할 수 있는 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치를 제공하기 위한 것이다.
상기와 같은 목적을 달성하기 위한 본 발명의 음성 인식 오류 수정을 지원하는 음성 인식 장치는, 음성을 입력받는 음성 입력부, 음성 인식된 텍스트의 수정을 위한 정보를 입력받는 정보 입력부, 음성을 저장하는 음성 저장부, 상기 음성 저장부에 저장된 음성을 재생하는 음성 재생부, 상기 음성 입력부로부터 입력되는 음성을 텍스트로 변환한 단어를 표시하는 제1 표시창 및 상기 제1 표시창에 표시되는 단어를 조합한 문장을 표시하는 제2 표시창을 포함하는 표시부, 및 상기 음성 입력부로부터 입력되는 음성을 단어 단위로 텍스트로 변환하여 상기 제1 표시창에 실시간 표시하고, 상기 제1 표시창에 표시된 단어를 조합하고 문장으로 형성하여 실시간 제2 표시창에 표시하되, 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 오류 단어에 대응하는 음성을 상기 음성 저장부에 저장하고, 상기 정보 입력부로부터 상기 오류 단어에 대한 수정을 위한 명령을 입력받으면 상기 음성 저장부에 저장된 상기 오류 단어에 대응하는 음성을 상기 음성 재생부를 통해 재생한 후, 상기 음성 입력부를 통해 상기 오류 단어에 대응하는 음성을 입력받아 텍스트로 변환해 상기 오류 단어를 대체하여 표시하는 제어부를 포함하는 것을 특징으로 한다.
본 발명의 음성 인식 오류 수정을 지원하는 음성 인식 장치에 있어서, 상기 제어부는, 상기 오류 단어와 인접하여 위치한 하나 이상의 단어에 대응하는 음성을 상기 음성 저장부에 함께 저장하고, 상기 정보 입력부로부터 상기 오류 단어 대한 수정을 위한 명령을 입력받으면 상기 음성 저장부에 저장된 상기 오류 단어에 대응하는 음성과 인접하여 위치한 단어에 대응하는 음성을 상기 음성 재생부를 통해 순차적으로 재생한 후, 상기 음성 입력부를 통해 상기 오류 단어에 대응하는 음성 및 인접하여 위치한 단어에 대응하는 음성을 함께 입력받아 상기 오류 단어를 대체하는 것을 특징으로 한다.
본 발명의 음성 인식 오류 수정을 지원하는 음성 인식 장치에 있어서, 상기 제어부는, 상기 정보 입력부로부터 상기 오류 단어 대한 수정을 위한 명령을 입력받으면 텍스트 변환 및 문장 형성 동작을 일시 정지하고, 상기 오류 단어를 대체하여 표시한 후 기 설정된 시간만큼 이전으로 돌아가서 텍스트 변환 및 문장 형성 동작을 재개하는 것을 특징으로 한다.
본 발명의 음성 인식 오류 수정을 지원하는 음성 인식 장치에 있어서, 상기 제어부는, 기 설정된 시간만큼 이전으로 돌아가는 경우, 아직 텍스트로 변환되지 않은 음성 부분부터 텍스트 변환을 재개하는 것을 특징으로 한다.
본 발명의 음성 인식 오류 수정을 지원하는 음성 인식 장치는, 학습을 위해 오류 수정 내용을 저장하는 학습 저장부를 더 포함하고, 상기 제어부는, 상기 오류 단어에 대응하는 원래 음성과 상기 오류 단어를 대체하는 텍스트를 매칭하여 상기 학습 저장부에 저장하고, 상기 음성 입력부로부터 상기 오류 단어에 대응하는 원래 음성과 유사한 음성이 입력되면 상기 학습 저장부에서 상기 오류 단어를 대체하는 텍스트를 확인하여 변환하는 것을 특징으로 한다.
본 발명의 음성 인식 오류 수정을 지원하는 음성 인식 장치에 있어서, 상기 제어부는, 상기 제1 표시창에 실시간 표시되는 단어의 말미에 표시되어 상기 단어의 입력 상태를 나타내는 제1 커서를 상기 제1 표시창에 표시하고, 상기 제2 표시창에 실시간 표시되는 조합된 문장의 말미에 표시되어 상기 문장의 입력 상태를 나타내는 제2 커서를 상기 제2 표시창에 표시하고, 수정을 위한 제3 커서를 상기 정보 입력부를 통한 입력 신호에 따라 위치를 이동하여 상기 제1 표시창 또는 상기 제2 표시창에 표시하는 것을 특징으로 한다.
본 발명의 음성 인식 오류 수정을 지원하는 음성 인식 장치에 있어서, 상기 제어부는, 상기 오류 단어를 상기 제1 표시창 또는 상기 제2 표시창에서 식별 가능하도록 표시하는 것을 특징으로 한다.
본 발명의 음성 인식 오류 수정을 지원하는 음성 인식 장치에 있어서, 상기 제어부는, 상기 오류 단어의 인식률 값을 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 상기 오류 단어 옆에 표시하는 것을 특징으로 한다.
본 발명의 음성 인식 오류 수정을 지원하는 음성 인식 장치에 있어서, 상기 인식률 값은, 인식률에 따라 0 ~ 1까지 표현한 수치인 것을 특징으로 한다.
본 발명의 음성 인식 오류 수정을 지원하는 음성 인식 장치에 있어서, 상기 제어부는, 상기 오류 단어를 다른 단어와 구별할 수 있도록 색상을 달리하여 표시하는 것을 특징으로 한다.
본 발명의 음성 인식 오류 수정을 지원하는 음성 인식 장치에 있어서, 상기 제어부는, 상기 오류 단어의 인식이 불가능한 경우 글자 수가 식별되도록 표시하는 것을 특징으로 한다.
본 발명의 음성 인식 오류 수정을 지원하는 음성 인식 장치에 있어서, 상기 제어부는, 인식이 불가능한 상기 오류 단어의 글자 수만큼 특수문자를 표시하는 것을 특징으로 한다.
본 발명의 음성 인식 오류 수정을 지원하는 음성 인식 장치는, 외국어 단어를 저장하는 외국어 저장부를 더 포함하고, 상기 제어부는, 상기 음성 입력부로부터 외국어 음성이 입력되는 경우, 상기 외국어 음성을 상기 외국어 저장부에 저장된 외국어 단어 중 매칭되는 외국어 단어로 변환하여 상기 제1 표시창 또는 상기 제2 표시창에 표시하는 것을 특징으로 한다.
본 발명의 음성 인식 오류 수정을 지원하는 음성 인식 장치에 있어서, 상기 제어부는, 상기 음성 입력부로부터 외국어 음성이 입력되는 경우, 상기 외국어 음성을 소리 나는 대로 표시하되, 상기 정보 입력부에 의해 상기 제3 커서가 소리 나는 대로 표시된 단어로 이동하면, 상기 외국어 저장부에 저장된 외국어 단어 중 매칭되는 적어도 하나의 외국어 단어를 선택할 수 있는 선택창을 상기 제1 표시창 또는 상기 제2 표시창에 제공하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명의 음성 인식 오류 수정을 지원하는 음성 인식 시스템은, 음성을 포함하는 콘텐츠를 제공하는 콘텐츠 제공 서버, 및 상기 콘텐츠 제공 서버로부터 콘텐츠를 수신하여 상기 콘텐츠에 포함된 음성을 입력받는 음성 입력부, 음성 인식된 텍스트의 수정을 위한 정보를 입력받는 정보 입력부, 음성을 저장하는 음성 저장부, 상기 음성 저장부에 저장된 음성을 재생하는 음성 재생부, 상기 음성 입력부로부터 입력되는 음성을 텍스트로 변환한 단어를 표시하는 제1 표시창 및 상기 제1 표시창에 표시되는 단어를 조합한 문장을 표시하는 제2 표시창을 포함하는 표시부, 및 상기 음성 입력부로부터 입력되는 음성을 단어 단위로 텍스트로 변환하여 상기 제1 표시창에 실시간 표시하고, 상기 제1 표시창에 표시된 단어를 조합하고 문장으로 형성하여 실시간 제2 표시창에 표시하되, 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 오류 단어에 대응하는 음성을 상기 음성 저장부에 저장하고, 상기 정보 입력부로부터 상기 오류 단어 대한 수정을 위한 명령을 입력받으면 상기 음성 저장부에 저장된 상기 오류 단어에 대응하는 음성을 상기 음성 재생부를 통해 재생한 후, 상기 음성 입력부를 통해 상기 오류 단어에 대응하는 음성을 입력받아 텍스트로 변환해 상기 오류 단어를 대체하여 표시하는 제어부를 포함하는 음성 인식 장치를 포함하는 것을 특징으로 한다.
본 발명의 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치에 따르면, 입력부로부터 입력되는 음성을 단어 단위로 텍스트로 변환하여 제1 표시창에 실시간 표시하도록 하고, 제1 표시창에 표시된 단어를 조합하고 문장으로 형성하여 실시간 제2 표시창에 표시함으로써, 문장이 어떠한 단어 조합에 의해 형성되었는지에 대한 과정을 직관적으로 확인할 수 있다.
이때 제1 표시창에 실시간 변환되어 표시되는 텍스트나, 제2 표시창에 문장으로 형성되어 표시되는 단어들에 인식 오류가 발생하였는지 직관적으로 확인하고, 사용자의 음성을 이용한 재입력을 통해 오류가 발생한 단어의 손쉬운 수정이 가능하며, 오류가 발생한 단어와 인접한 단어를 함께 재입력하여 인식률을 높일 수 있다.
한편 인식 오류가 발생한 단어의 원래 음성과, 오류 수정에 따른 올바른 텍스트를 매칭하여 학습함으로써, 동일한 오류가 다시 발생하는 것을 방지하고 인식률을 개선할 수 있다.
이 경우 음성 인식되어 표시되는 단어 중 인식률이 낮은 단어에 대하여 식별되도록 표시하고, 표시되는 단어 중 인식이 불가한 단어에 대하여 글자 수가 식별되도록 표시함으로써, 음성 인식되어 생성된 텍스트의 수정을 용이하게 할 수 있다.
더하여 외국어 음성이 입력되는 경우, 외국어 음성을 기 저장된 외국어 단어 중 매칭되는 외국어 단어로 변환하여 표시함으로써, 텍스트를 삭제 후 수정하지 않더라도 외국어 단어에 대한 변환이 가능할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 인식 시스템의 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 구성을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따라 표시부에 표시되는 모습을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따라 오류 단어와 인접하여 위치한 단어를 함께 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따라 오류가 수정되어 표시부에 표시되는 모습을 나타낸 도면이다.
도 6은 본 발명의 다른 일 실시예에 따라 표시부에 표시되는 모습을 나타낸 도면이다.
하기의 설명에서는 본 발명의 실시예를 이해하는데 필요한 부분만이 설명되며, 그 이외 부분의 설명은 본 발명의 요지를 흩트리지 않도록 생략될 것이라는 것을 유의하여야 한다.
이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 바람직한 실시예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
본 발명은 음성을 인식하여 텍스트로 변환하는 기술과 관련한 것이다. 이하, 첨부된 도면을 참조하여 본 발명의 실시예를 보다 상세하게 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 음성 인식 시스템(300)의 구성을 나타낸 도면이다.
도 1을 참조하면, 본 발명의 실시예에 따른 음성 인식 시스템(300)은 콘텐츠 제공 서버(200) 및 음성 인식 장치(100)를 포함한다.
콘텐츠 제공 서버(200)는 음성이 포함된 오디오 파일 또는 동영상 파일을 음성 인식 장치(100)로 제공할 수 있다. 예컨대 콘텐츠 제공 서버(200)는 방송사 서버 또는 국회 서버 등이 될 수 있다. 여기서 콘텐츠 제공 서버(200)는 오디오 파일 또는 동영상 파일을 음성 인식 장치(100)로 전달하고, 오디오 파일 또는 동영상 파일에 포함된 음성을 텍스트로 변환하여 다시 전달받을 수 있다. 콘텐츠 제공 서버(200)는 음성 인식 장치(100)로부터 전달받은 텍스트를 자막으로 사용할 수 있다.
음성 인식 장치(100)는 콘텐츠 제공 서버(200)로부터 음성이 포함된 오디오 파일 또는 동영상 파일을 전달받는다. 음성 인식 장치(100)는 콘텐츠 제공 서버(200)로부터 전달받은 오디오 파일 또는 동영상 파일에서 음성을 인식하여 텍스트 형태로 변환한다.
음성 인식 장치(100)는 음성이 입력되면, 음성으로부터 인식에 필요한 특징 벡터를 추출한다. 여기서 특징 벡터들은 음성학적 특성은 잘 나타내며, 그 이외의 요소, 즉 배경 잡음, 화자 차이, 발음 태도 등에는 둔감하도록 설정된다. 이후 음성 인식 장치(100)는 특징 벡터를 저장된 단어 모델, 즉 각 단어의 음성학적 특징 또는 그보다 짧게 음소 단위의 음향 모델과의 비교를 통해 가능한 단어에 대한 경우를 뽑아내는 패턴 분류 과정을 수행한다. 여기서 음성 인식 장치(100)는 패턴 분류 과정을 통해 인식률이 가장 높은 단어를 화면상의 특정 창에 표시할 수 있다.
또한 음성 인식 장치(100)는 패턴 분류 과정을 거친 결과를 일련의 후보 단어 또는 후보 음소의 형태로 문장 단위 검색을 실시한다. 여기서 음성 인식 장치(100)는 후보 단어 또는 후보 음소들의 정보를 토대로 문법 구조, 전체적인 문장 문맥, 특정 주제에 부합 여부를 판단하여 어떤 단어나 음소가 가장 적절한지를 판단하게 된다. 음성 인식 장치(100)는 이러한 과정을 거쳐 완성된 문장을 화면상의 특정 창에 표시할 수 있다.
즉 본 발명의 실시예에 따른 음성 인식 장치(100)는 상기의 과정을 통해 얻어진 단어와, 문장을 각각 독립된 창에 실시간 표시할 수 있다.
또한 음성 인식 장치(100)는 사용자로부터 음성 인식에 오류가 발생한 오류 단어를 수정하기 위한 정보를 입력받아, 해당 오류 단어에 대응하는 음성을 청각적으로 재생하여 사용자에게 제공하고, 이를 청취한 사용자가 해당 음성을 육성으로 발음하여 음성 형식으로 입력하도록 함으로써 오류 단어를 대체할 올바른 텍스트를 입력할 수 있도록 지원한다. 음성 인식 장치(100)는 수정되어 완성된 음성 인식 결과를 저장하거나, 콘텐츠 제공 서버(200)로 다시 제공할 수 있다.
이하 본 발명의 실시예에 따른 음성 인식 장치(100)에 대하여 더욱 상세히 설명하도록 한다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치(100)의 구성을 나타낸 도면이고, 도 3은 본 발명의 일 실시예에 따라 표시부(20)에 표시되는 모습을 나타낸 도면이고, 도 4는 본 발명의 일 실시예에 따라 오류 단어와 인접하여 위치한 단어를 함께 나타낸 도면이며, 도 5는 본 발명의 일 실시예에 따라 오류가 수정되어 표시부(20)에 표시되는 모습을 나타낸 도면이다.
도 1 내지 도 5를 참조하면, 본 실시예에 따른 음성 인식 장치(100)는 입력부(10), 표시부(20), 통신부(30), 음성 재생부(40), 저장부(50) 및 제어부(60)를 포함하여 구성된다.
통신부(30)는 제어부(60)의 제어에 따라 각종 통신 방식을 이용해 데이터를 송수신하는 통신 인터페이스를 포함하며, 콘텐츠 제공 서버(200)로부터 오디오 파일 또는 동영상 파일을 전달받을 수 있다. 이러한 통신부(30)는 유무선 통신을 통해 콘텐츠 제공 서버(200)로부터 오디오 파일 또는 동영상 파일을 전달받거나, 음성 인식이 완료된 텍스트를 다시 콘텐츠 제공 서버(200)로 전달할 수 있다.
입력부(10)는 제어부(60)의 제어에 따라 음성을 입력하기 위한 음성 입력부(11) 및 사용자가 정보를 입력하기 위한 정보 입력부(12)를 포함한다.
음성 입력부(11)는 음성을 입력받기 위한 구성으로서, 콘텐츠 제공 서버(200)로부터 오디오 파일 또는 동영상 파일을 전달받게 되면 오디오 파일 또는 동영상 파일에 포함된 음성을 입력받을 수 있다. 또한 음성 입력부(11)는 마이크(Microphone)로 구성되어 사용자의 음성을 입력받을 수 있다.
정보 입력부(12)는 숫자 및 문자 정보 등의 다양한 정보를 입력받고, 음성 인식 장치(100)의 기능 제어와 관련하여 입력되는 신호를 제어부(60)로 전달하는 구성으로서, 음성 인식된 텍스트의 수정을 위한 정보를 입력받을 수 있다. 예를 들어 정보 입력부(12)는 제3 커서(20c)를 이동시켜 음성 인식되어 표시부(20)에 표시된 텍스트나 오류가 발생한 단어를 수정하기 위한 신호를 입력받을 수 있다. 정보 입력부(12)는 키보드, 키패드, 마우스, 조이스틱 등과 같은 입력 장치가 될 수 있고, 바람직하게는 잘못 인식된 단어 또는 문장을 빠르게 수정할 수 있는 속기 키보드가 될 수 있다.
표시부(20)는 제어부(60)의 제어에 따라 음성 인식 장치(100)의 기능 수행 중에 발생하는 일련의 동작상태 및 동작결과 등에 대한 정보를 표시한다. 또한 표시부(20)는 음성 인식 장치(100)의 메뉴 및 사용자가 입력한 사용자 데이터 등을 표시할 수 있다. 여기서 표시부(20)는 액정표시장치(LCD, Liquid Crystal Display), 초박막 액정표시장치(TFT-LCD, Thin Film Transistor LCD), 발광다이오드(LED, Light Emitting Diode), 유기 발광다이오드(OLED, Organic LED), 능동형 유기발광다이오드(AMOLED, Active Matrix OLED), 레티나 디스플레이(Retina Display), 플렉시블 디스플레이(Flexible display) 및 3차원(3 Dimension) 디스플레이 등으로 구성될 수 있다.
이러한 표시부(20)는 제1 표시창(21) 및 제2 표시창(22)을 포함할 수 있다.
제1 표시창(21)은 음성 입력부로부터 입력되는 음성을 텍스트로 변환한 단어를 시각적으로 표시하는 역할을 하며, 음성 입력부(11)로 입력된 음성에서 추출된 특징 벡터와 기 저장된 단어 모델을 비교하여 얻어진 결과를 표시한다. 즉 제1 표시창(21)은 제어부(60)에 의해 수행되는 패턴 분류의 결과물을 실시간 화면상에 표시할 수 있다. 제1 표시창(21) 패턴 분류되어 얻어진 결과물인 단어를 누적 표시하며, 기 설정된 누적 범위가 지나면 지나간 단어는 삭제되고, 실시간 새로운 단어를 추가 표시한다. 즉 제1 표시창(21)은 음성 인식 과정에서 문장을 만들기 위한 전 단계인 단어별 인식 상태를 표시할 수 있다. 여기서 제1 표시창(21)은 패턴 분류되어 표시되는 단어의 실시간 입력 상태를 표시하기 위한 제1 커서(20a)를 단어의 말미에 표시할 수 있고, 제1 표시창(21)은 텍스트나 단어의 수정을 위하여 이동하는 제3 커서(20c)를 표시할 수 있다.
제2 표시창(22)은 제1 표시창(21)에 표시되는 단어를 조합한 문장을 표시하는 역할을 한다. 제2 표시창(22)은 음성 입력되어 패턴 분류 과정을 거친 결과를 일련의 후보 단어 또는 후보 음소의 형태로 문장 단위 검색을 실시하고, 후보 단어 또는 후보음소들의 정보를 토대로 문법 구조, 전체적인 문장 문맥, 특정 주제에 부합 여부를 판단한 결과물, 즉 문장을 화면상에 표시할 수 있다. 이러한 제2 표시창(22)은 단어의 조합으로 형성된 문장을 실시간 표시할 수 있다. 여기서 제2 표시창(22)은 단어의 조합으로 형성된 문장의 실시간 입력 상태를 표시하기 위한 제2 커서(20b)를 문장의 말미에 표시할 수 있다. 또한 제2 표시창(22)은 단어나 문장의 수정을 위하여 이동하는 제3 커서(20c)를 표시할 수 있다.
음성 재생부(40)는 제어부(60)의 제어에 따라 음성 저장부(51)에 저장된 음성을 청각적으로 재생하여 사용자가 청취할 수 있도록 하는 구성으로서, 청각적 출력을 위한 스피커를 포함한다.
저장부(50)는 음성 인식 장치(100)의 기능 동작에 필요한 응용 프로그램을 저장한다. 여기서 저장부(50)는 사용자의 요청에 상응하여 각 기능을 활성화하는 경우, 제어부(60)의 제어 하에 해당 응용 프로그램들을 실행하여 각 기능을 제공한다. 여기서 저장부(50)는 패턴 분류에 사용되는 단어 모델, 즉 각 단어의 음성학적 특징 또는 음소 단위의 음향 모델을 저장한다. 또한 저장부(50)는 문법 구조 정보, 문장 문맥 정보, 특정 주제 정보 등을 저장한다.
이러한 저장부(50)는 음성 저장부(51), 학습 저장부(52) 및 외국어 저장부(53)를 포함한다.
음성 저장부(51)는 제어부(60)의 제어에 따라 음성 인식 대상인 음성을 저장하는 저장소이다. 음성 저장부(51)는 음성 입력부(11)를 통해 음성이 입력되어 텍스트로 변환된 단어 중에서, 음성 인식률이 기 설정된 값보다 낮은 오류 단어 대응하는 음성을 저장한다. 음성 저장부(51)에 저장된 음성은 이후 제어부(60)의 제어에 따라 음성 재생부(40)를 통해 사용자가 청각적으로 인식할 수 있도록 재생된다.
학습 저장부(52)는 제어부(60)의 제어에 따라 학습을 위해 오류 수정 내용을 저장하는 저장소이다. 학습 저장부(52)는 오류 단어가 올바른 텍스트로 대체되면, 오류 단어에 대응하는 원래 음성과 대체 텍스트를 저장한다. 학습 저장부(52)에 저장된 음성 및 대응하는 텍스트는, 이후 음성 입력부(11)를 통해 유사한 음성이 입력되는 경우 제어부(60)가 학습 저장부(52)에 저장된 정보를 확인하여 텍스트 변환에 활용한다.
외국어 저장부(53)는 제어부(60)의 제어에 따라 외국어 단어와 관련한 정보를 저장하는 저장소이다. 외국어 저장부(53)는 음성 입력부(11)를 통해 입력된 외국어 음성과 매칭시킬 수 있는 외국어 단어를 저장하고, 이후 음성 입력부(11)를 통해 유사한 외국어 음성이 입력되는 경우 제어부(60)가 외국어 저장부(53)에 저장된 정보를 확인하여 외국어 텍스트 변환에 활용하도록 한다.
제어부(60)는 입력부(10), 표시부(20), 통신부(30), 음성 재생부(40) 및 저장부(50)를 포함한 음성 인식 장치(100)의 전반적인 동작을 제어하는 역할을 하며, 이를 위한 연산 유닛과 메모리를 포함한다.
제어부(60)는 음성 입력부(11)로부터 음성이 입력되면, 패턴 분류를 통해 얻어진 단어를 제1 표시창(21)에 표시하고, 패턴 분류를 통해 얻어진 단어를 조합한 문장을 제2 표시창(22)에 표시한다.
이러한 제어부(60)는 패턴 분류 모듈(61) 및 언어 처리 모듈(62)을 포함한다.
패턴 분류 모듈(61)은 음성 입력부(11)를 통해 입력된 음성으로부터 필요한 특징 벡터를 추출한다. 여기서 특징 벡터들은 음성학적 특성은 잘 나타내며, 그 이외의 요소, 즉 배경 잡음, 화자 차이, 발음 태도 등에는 둔감하도록 설정된다. 이후 패턴 분류 모듈(61)은 저장부(50)에 저장되어 있는 단어 모델, 즉 각 단어의 음성학적 특징 또는 그보다 짧게 음소 단위의 음향 모델과의 비교를 통해 가능한 단어에 대한 경우를 추출한다. 즉 패턴 분류 모듈(61)은 저장부(50)에 저장된 음향 모델과의 패턴 비교를 통해 알맞은 후보 단어를 선정한다. 패턴 분류 모듈(61)은 선정된 후보 단어들 중 인식률이 가장 높은 단어를 제1 표시창(21)을 통해 표시하도록 한다. 여기서 패턴 분류 모듈(61)은 제1 표시창(21)에 실시간 표시되는 단어의 말미에 표시되어 단어의 입력 상태를 나타내는 제1 커서(20a)를 제1 표시창(21)에 표시하도록 하도록 한다.
또한 패턴 분류 모듈(61)은 패턴 분류 과정을 거쳐 제1 표시창(21)에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 오류 단어에 대하여 식별되도록 표시할 수 있다. 즉 패턴 분류 모듈(61)은 제1 표시창(21)에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 오류 단어에 대하여 그 인식률 값을 단어 옆에 표시할 수 있다. 여기서 인식률 값은 인식률에 따라 0 ~ 1까지 표현한 수치를 의미할 수 있으며 패턴 분류 모듈(61)은 단어의 인식률 값이 0.8 미만인 단어에 대하여 인식률 값을 표시할 수 있다. 예컨대 패턴 분류 모듈(61)은 음성 입력부(11)로부터 '수포로'라는 음성이 입력되게 되면, 이를 오인식하여 도 3의 a와 같이 '숲으로'와 같이 표시할 수 있으며, 이 경우, 패턴 분류 모듈(61)은 '숲으로'의 인식률이 0.43이어서 기 설정된 0.8 미만인 오류 단어임을 확인하고, a와 같이 단어 옆에 인식률을 표시할 수 있다. 이때 제어부(60)는 인식률이 기 설정된 값보다 낮아 오류 단어로 판단된 '숲으로'의 단어에 대응하는 '수포로'의 음성을 음성 저장부(51)에 저장하여 향후 오류를 수정하는데 활용하도록 한다.
실시예에 따라서 패턴 분류 모듈(61)은 인식률 값이 기 설정된 값보다 낮은 단어에 대하여 색상을 달리하여 표시할 수도 있으며, 이에 따라 사용자는 음성 인식 오류가 발생한 단어를 직관적으로 확인할 수 있다.
또한 패턴 분류 모듈(61)은 인식이 불가한 단어에 대하여, 단어의 글자 수를 식별할 수 있도록 표시할 수 있다. 즉 패턴 분류 모듈(61)은 인식이 불가한 단어에 대하여 글자 수에 맞도록 특수문자를 표시하도록 할 수 있다. 예컨대 패턴 분류 모듈(61)은 '생태는' 이라는 음성이 입력되나, 인식이 불가한 경우 도3의 b와 같이 글자 수가 식별 가능하도록 '???' 로 표시할 수 있으며, 이때 제어부(60)는 인식이 불가능한 '???' 단어에 대응하는 '생태는'의 음성을 음성 저장부(51)에 저장하여 향후 오류를 저장하는데 활용하도록 할 수 있다.
이와 같이 본 발명에 따른 음성 인식 장치(100)는 패턴 분류 모듈(61)을 통해 음성 인식되어 표시되는 단어 중 인식이 불가한 단어에 대하여 글자 수가 식별되도록 표시함으로써, 음성 인식이 어려운 단어의 존재와 대응하는 글자 수를 직관적으로 확인하도록 할 수 있다.
또한 패턴 분류 모듈(61)은 음성 입력부(11)로부터 외국어 음성이 입력되는 경우, 외국어 음성을 외국어 저장부(53)에 저장된 외국어 단어 중 매칭되는 외국어 단어로 변환하여 제1 표시창(21) 또는 제2 표시창(22)에 표시할 수 있다. 예컨대 패턴 분류 모듈(61)은 도 3의 c와 같이 매칭되는 외국어 단어를 소리 나는 대로 표시된 단어 옆에 표시할 수 있다.
한편 패턴 분류 모듈(61)은 제1 표시창(21)에 문장의 수정을 위하여 이동하는 제3 커서(20c)를 표시할 수 있다. 여기서 제3 커서(20c)는 정보 입력부(12)를 통한 입력에 따라 이동될 수 있다.
언어 처리 모듈(62)은 패턴 분류 모듈(61)에서 패턴 분류 과정을 거친 결과를 일련의 후보 단어 또는 후보 음소의 형태로 문장 단위 검색을 실시한다. 여기서 언어 처리 모듈(62)은 후보 단어 또는 후보 음소들의 정보를 토대로 문법 구조, 전체적인 문장 문맥, 특정 주제에 부합 여부를 판단하여 어떤 단어나 음소가 가장 적절한지를 판단하게 된다. 이후 언어 처리 모듈(62)은 가장 적절한 단어를 혼합하여 문장을 형성한다. 여기서 언어 처리 모듈(62)은 생성된 문장을 실시간 제2 표시창(22)에 표시할 수 있다.
여기서 언어 처리 모듈(62)은 제2 표시창(22)에 단어의 조합으로 형성된 문장의 실시간 입력 상태를 표시하기 위한 제2 커서(20b)를 문장의 말미에 표시하도록 할 수 있다. 또한 언어 처리 모듈(62)은 제1 표시창(21)에 표시된 제3 커서(20c)와 같이, 제2 표시창(22)에 문장의 수정을 위하여 이동하는 제3 커서를 표시할 수 있으며, 여기서 제3 커서는 정보 입력부(12)를 통한 입력에 따라 이동될 수 있다.
또한 언어 처리 모듈(62)은 패턴 분류 모듈(61)과 같이, 인식률이 낮은 단어에 대하여 식별 가능하도록 표시할 수 있고, 인식이 불가한 단어에 대하여 글자 수를 식별할 수 있도록 표시할 수 있고, 외국어 단어에 대하여 저장부(50)에 저장된 매칭되는 외국어 단어로 변환하여 제2 표시창(22)에 표시하도록 할 수 있다. 한편 인식률이 낮은 단어, 인식이 불가한 단어 및 외국어 단어에 대한 기능은 상술한 패턴 분류 모듈(61)과 동일하므로, 동일한 설명은 생략하도록 한다.
본 발명에 따라 인식 오류가 발생한 단어를 수정하는 과정을 설명하면 다음과 같다.
도 3에 도시된 제1 표시창(21)의 a와 같이 '숲으로'로 인식된 단어는 인식률이 0.43로서 기 설정된 0.8보다 낮으므로 오류 단어로 분류되고, 제1 표시창(21)에 인식률과 함께 인식 오류가 발생하였음이 표시된다. 이때 정보 입력부(12)를 통한 입력에 따라 오류 수정을 위한 제3 커서(20c)가 인식 오류가 발생한 a로 이동하여 오류 단어인 '숲으로'를 수정하기 위한 명령이 입력되면, 제어부(60)는 오류 단어인 '숲으로'에 대응하여 음성 저장부(51)에 저장된 '수포로'의 음성을 확인하고, 해당 '수포로'의 음성을 음성 재생부(40)를 통해 청각적으로 출력하여 사용자가 청각으로 확인하도록 한다.
그리고 음성 재생부(40)를 통해 재생된 '수포로'의 음성을 확인한 사용자가, 음성 입력부(11)의 마이크 등을 이용해 자신의 육성으로 '수포로'의 음성을 재입력하면, 제어부(60)는 패턴 분류 모듈(61)을 이용해 도 5에 도시된 a와 같이 올바른 텍스트인 '수포로'로 인식해 오류 단어를 대체하여 표시한다.
실시예에 따라서 제어부(60)는 오류 단어와 인접하여 위치한 하나 이상의 단어에 대응하는 음성을 음성 저장부(51)에 함께 저장하고, 정보 입력부(12)로부터 오류 단어 대한 수정을 위한 명령을 입력받으면 음성 저장부(51)에 저장된 오류 단어에 대응하는 음성과 인접하여 위치한 단어에 대응하는 음성을 음성 재생부(40)를 통해 순차적으로 재생할 수 있다. 그리고 제어부(60)는 오류 단어에 대응하는 음성 및 인접하여 위치한 단어에 대응하는 음성을 음성 입력부(11)를 통해 함께 입력받아 오류 단어를 대체함으로써 오류 수정시 음성 인식률을 높일 수 있다.
예를 들어 도 4 상단의 d에 도시된 바와 같이, 제어부(60)는 오류 단어 '숲으로'에 대응하는 음성인 '수포로'와, 그 전에 인접한 '전부'에 대응하는 음성과, 후에 인접한 '돌아'에 대응하는 음성을 음성 저장부(51)에 함께 저장할 수 있다. 그리고 정보 입력부(12)를 통한 입력에 따라 사용자가 오류 단어 '숲으로'를 수정하려는 경우, 제어부(60)는 '전부'에 대응하는 음성, 오류 단어 '숲으로'에 대응하는 '수포로'의 음성, '돌아'에 대응하는 음성을 순차적으로 함께 재생하여 사용자가 청각으로 확인하도록 한다. 이후 음성 입력부(11)를 통해 사용자의 육성으로 '전부', '수포로', '돌아' 각각에 대응하는 음성이 재입력되면, 제어부(60)는 오류 단어 '숲으로'를 도 4 하단의 d에 도시된 바와 같이 '수포로'로 수정해 대체한다.
한편 제어부(60)는 정보 입력부(12)로부터 오류 단어에 대한 수정을 위한 명령을 입력받으면, 패턴 분류 모듈(61)을 이용한 텍스트 변환 동작 및 언어 처리 모듈(62)을 이용한 문장 형성 동작을 일시 정지하고, 음성 입력부(11)를 통한 사용자의 음성 입력에 따라 오류 단어를 대체하여 표시부(20)의 제1 표시창(21)이나 제2 표시창(22)에 올바른 단어를 표시한 후, 음성 인식을 통한 텍스트 변환을 재개하는데, 이때 기 설정된 시간만큼 이전으로 돌아가서 텍스트 변환 및 문장 형성 동작을 재개할 수 있다. 이렇게 기 설정된 시간만큼 이전으로 돌아가는 경우 제어부(60)는 아직 텍스트로 변환되지 않은 음성 부분부터 텍스트 변환을 재개할 수 있다.
그리고 제어부(60)가 오류 단어를 수정하여 표시하는 경우에는, 오류 단어에 대응하는 원래 음성과 해당 오류 단어를 대체하는 텍스트를 매칭하여 학습 저장부(52)에 저장하고, 음성 입력부(11)로부터 오류 단어에 대응하는 원래 음성과 유사한 음성이 입력되면 학습 저장부(52)에서 해당 오류 단어를 대체하는 텍스트를 확인하여 변환할 수 있다. 이러한 학습 동작을 통해 기존에 오류가 발생했던 음성에 대한 인식 오류를 개선할 수 있다.
이하에서는 본 발명의 다른 실시예에 따라 음성 인식 결과를 수정하는 방안을 설명하기로 한다.
도 6은 본 발명의 또는 다른 일 실시예에 따라 표시부(120)에 표시되는 모습을 나타낸 도면이다.
도 2 및 도 6을 참조하면, 본 발명의 다른 실시예에 따른 표시부(120)는 제어부(60)의 제어 하에, 음성 입력부(11)로부터 외국어 음성이 입력되는 경우, 외국어 음성을 소리 나는 대로 표시하되, 정보 입력부(12)에 의해 제3 커서(20c)가 소리 나는 대로 표시된 단어로 이동하게 되면, 외국어 저장부(53)에 저장된 외국어 단어 중 매칭되는 적어도 하나의 외국어 단어를 선택할 수 있는 선택창(24)을 제1 표시창(21) 또는 제2 표시창(22)에 표시할 수 있다.
예컨대 도 4의 c에 도시된 바와 같이, 음성 입력을 통해 '케이비에스'가 입력되면, 제2 표시창(22)에 '케이비에스'로 표시하되, 정보 입력부(12)를 통한 입력에 따라 제3 커서(20c)를 해당 단어로 이동하게 되면, 외국어 저장부(53)에 '케이비에스'와 매칭되어 저장되어 있는 'KBS' 및 'KAEBI S' 중 하나를 선택할 수 있는 선택창(24)을 표시할 수 있다.
이후 제어부(60)는 정보 입력부(12)를 통한 입력 신호에 따라 'KBS'가 선택되면, 이를 '케이비에스'와 병기하거나 이를 대체하여 제2 표시창(22)에 표시할 수 있다.
한편, 본 명세서와 도면에 개시된 실시예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형예들이 실시 가능하다는 것은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게는 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다.
10: 입력부 11: 음성 입력부
12: 정보 입력부 20, 120: 표시부
20a: 제1 커서 20b: 제2 커서
20c: 제3 커서 21: 제1 표시창
22: 제2 표시창 30: 통신부
40: 음성 재생부 50: 저장부
51: 음성 저장부 52: 학습 저장부
53: 외국어 저장부 60: 제어부
61: 패턴 분류 모듈 62: 언어 처리 모듈
100: 음성 인식 장치 200: 콘텐츠 제공 서버
300: 음성 인식 시스템

Claims (15)

  1. 음성을 입력받는 음성 입력부;
    음성 인식된 텍스트의 수정을 위한 정보를 입력받는 정보 입력부;
    음성을 저장하는 음성 저장부;
    상기 음성 저장부에 저장된 음성을 재생하는 음성 재생부;
    상기 음성 입력부로부터 입력되는 음성을 텍스트로 변환한 단어를 표시하는 제1 표시창 및 상기 제1 표시창에 표시되는 단어를 조합한 문장을 표시하는 제2 표시창을 포함하는 표시부; 및
    상기 음성 입력부로부터 입력되는 음성을 단어 단위로 텍스트로 변환하여 상기 제1 표시창에 실시간 표시하고, 상기 제1 표시창에 표시된 단어를 조합하고 문장으로 형성하여 실시간 제2 표시창에 표시하되, 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 오류 단어에 대응하는 음성을 상기 음성 저장부에 저장하고, 상기 정보 입력부로부터 상기 오류 단어에 대한 수정을 위한 명령을 입력받으면 상기 음성 저장부에 저장된 상기 오류 단어에 대응하는 음성을 상기 음성 재생부를 통해 재생한 후, 상기 음성 입력부를 통해 상기 오류 단어에 대응하는 음성을 입력받아 텍스트로 변환해 상기 오류 단어를 대체하여 표시하는 제어부;
    를 포함하고,
    상기 제어부는,
    상기 정보 입력부로부터 상기 오류 단어 대한 수정을 위한 명령을 입력받으면 텍스트 변환 및 문장 형성 동작을 일시 정지하고, 상기 오류 단어를 대체하여 표시한 후 기 설정된 시간만큼 이전으로 돌아가서 텍스트 변환 및 문장 형성 동작을 재개하는 것을 특징으로 하는 음성 인식 오류 수정을 지원하는 음성 인식 장치.
  2. 제1항에 있어서,
    상기 제어부는,
    상기 오류 단어와 인접하여 위치한 하나 이상의 단어에 대응하는 음성을 상기 음성 저장부에 함께 저장하고, 상기 정보 입력부로부터 상기 오류 단어 대한 수정을 위한 명령을 입력받으면 상기 음성 저장부에 저장된 상기 오류 단어에 대응하는 음성과 인접하여 위치한 단어에 대응하는 음성을 상기 음성 재생부를 통해 순차적으로 재생한 후, 상기 음성 입력부를 통해 상기 오류 단어에 대응하는 음성 및 인접하여 위치한 단어에 대응하는 음성을 함께 입력받아 상기 오류 단어를 대체하는 것을 특징으로 하는 음성 인식 오류 수정을 지원하는 음성 인식 장치.
  3. 삭제
  4. 제1항에 있어서,
    상기 제어부는,
    기 설정된 시간만큼 이전으로 돌아가는 경우, 아직 텍스트로 변환되지 않은 음성 부분부터 텍스트 변환을 재개하는 것을 특징으로 하는 음성 인식 오류 수정을 지원하는 음성 인식 장치.
  5. 제1항에 있어서,
    학습을 위해 오류 수정 내용을 저장하는 학습 저장부;
    를 더 포함하고,
    상기 제어부는,
    상기 오류 단어에 대응하는 원래 음성과 상기 오류 단어를 대체하는 텍스트를 매칭하여 상기 학습 저장부에 저장하고, 상기 음성 입력부로부터 상기 오류 단어에 대응하는 원래 음성과 유사한 음성이 입력되면 상기 학습 저장부에서 상기 오류 단어를 대체하는 텍스트를 확인하여 변환하는 것을 특징으로 하는 음성 인식 오류 수정을 지원하는 음성 인식 장치.
  6. 제1항에 있어서,
    상기 제어부는,
    상기 제1 표시창에 실시간 표시되는 단어의 말미에 표시되어 상기 단어의 입력 상태를 나타내는 제1 커서를 상기 제1 표시창에 표시하고, 상기 제2 표시창에 실시간 표시되는 조합된 문장의 말미에 표시되어 상기 문장의 입력 상태를 나타내는 제2 커서를 상기 제2 표시창에 표시하고, 수정을 위한 제3 커서를 상기 정보 입력부를 통한 입력 신호에 따라 위치를 이동하여 상기 제1 표시창 또는 상기 제2 표시창에 표시하는 것을 특징으로 하는 음성 인식 오류 수정을 지원하는 음성 인식 장치.
  7. 제1항에 있어서,
    상기 제어부는,
    상기 오류 단어를 상기 제1 표시창 또는 상기 제2 표시창에서 식별 가능하도록 표시하는 것을 특징으로 하는 음성 인식 오류 수정을 지원하는 음성 인식 장치.
  8. 제7항에 있어서,
    상기 제어부는,
    상기 오류 단어의 인식률 값을 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 상기 오류 단어 옆에 표시하는 것을 특징으로 하는 음성 인식 오류 수정을 지원하는 음성 인식 장치.
  9. 제8항에 있어서,
    상기 인식률 값은,
    인식률에 따라 0 ~ 1까지 표현한 수치인 것을 특징으로 하는 음성 인식 오류 수정을 지원하는 음성 인식 장치.
  10. 제1항에 있어서,
    상기 제어부는,
    상기 오류 단어를 다른 단어와 구별할 수 있도록 색상을 달리하여 표시하는 것을 특징으로 하는 음성 인식 오류 수정을 지원하는 음성 인식 장치.
  11. 제1항에 있어서,
    상기 제어부는,
    상기 오류 단어의 인식이 불가능한 경우 글자 수가 식별되도록 표시하는 것을 특징으로 하는 음성 인식 오류 수정을 지원하는 음성 인식 장치.
  12. 제11항에 있어서,
    상기 제어부는,
    인식이 불가능한 상기 오류 단어의 글자 수만큼 특수문자를 표시하는 것을 특징으로 하는 음성 인식 오류 수정을 지원하는 음성 인식 장치.
  13. 제1항에 있어서,
    외국어 단어를 저장하는 외국어 저장부;
    를 더 포함하고,
    상기 제어부는,
    상기 음성 입력부로부터 외국어 음성이 입력되는 경우, 상기 외국어 음성을 상기 외국어 저장부에 저장된 외국어 단어 중 매칭되는 외국어 단어로 변환하여 상기 제1 표시창 또는 상기 제2 표시창에 표시하는 것을 특징으로 하는 음성 인식 오류 수정을 지원하는 음성 인식 장치.
  14. 제13항에 있어서,
    상기 제어부는,
    상기 음성 입력부로부터 외국어 음성이 입력되는 경우, 상기 외국어 음성을 소리 나는 대로 표시하되, 상기 정보 입력부를 통한 입력 신호에 따라 수정을 위한 제3 커서가 소리 나는 대로 표시된 단어로 이동하면, 상기 외국어 저장부에 저장된 외국어 단어 중 매칭되는 적어도 하나의 외국어 단어를 선택할 수 있는 선택창을 상기 제1 표시창 또는 상기 제2 표시창에 제공하는 것을 특징으로 하는 음성 인식 오류 수정을 지원하는 음성 인식 장치.
  15. 음성을 포함하는 콘텐츠를 제공하는 콘텐츠 제공 서버; 및
    상기 콘텐츠 제공 서버로부터 콘텐츠를 수신하여 상기 콘텐츠에 포함된 음성을 입력받는 음성 입력부, 음성 인식된 텍스트의 수정을 위한 정보를 입력받는 정보 입력부, 음성을 저장하는 음성 저장부, 상기 음성 저장부에 저장된 음성을 재생하는 음성 재생부, 상기 음성 입력부로부터 입력되는 음성을 텍스트로 변환한 단어를 표시하는 제1 표시창 및 상기 제1 표시창에 표시되는 단어를 조합한 문장을 표시하는 제2 표시창을 포함하는 표시부, 및 상기 음성 입력부로부터 입력되는 음성을 단어 단위로 텍스트로 변환하여 상기 제1 표시창에 실시간 표시하고, 상기 제1 표시창에 표시된 단어를 조합하고 문장으로 형성하여 실시간 제2 표시창에 표시하되, 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 오류 단어에 대응하는 음성을 상기 음성 저장부에 저장하고, 상기 정보 입력부로부터 상기 오류 단어 대한 수정을 위한 명령을 입력받으면 상기 음성 저장부에 저장된 상기 오류 단어에 대응하는 음성을 상기 음성 재생부를 통해 재생한 후, 상기 음성 입력부를 통해 상기 오류 단어에 대응하는 음성을 입력받아 텍스트로 변환해 상기 오류 단어를 대체하여 표시하는 제어부를 포함하는 음성 인식 장치;
    를 포함하고,
    상기 제어부는,
    상기 정보 입력부로부터 상기 오류 단어 대한 수정을 위한 명령을 입력받으면 텍스트 변환 및 문장 형성 동작을 일시 정지하고, 상기 오류 단어를 대체하여 표시한 후 기 설정된 시간만큼 이전으로 돌아가서 텍스트 변환 및 문장 형성 동작을 재개하는 것을 특징으로 하는 음성 인식 오류 수정을 지원하는 음성 인식 시스템.
KR1020160115155A 2016-08-17 2016-09-07 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치 KR101819459B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20160104021 2016-08-17
KR1020160104021 2016-08-17

Publications (1)

Publication Number Publication Date
KR101819459B1 true KR101819459B1 (ko) 2018-01-17

Family

ID=61025868

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020160114256A KR101819458B1 (ko) 2016-08-17 2016-09-06 음성 인식 장치 및 시스템
KR1020160114255A KR101819457B1 (ko) 2016-08-17 2016-09-06 음성 인식 장치 및 시스템
KR1020160115155A KR101819459B1 (ko) 2016-08-17 2016-09-07 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020160114256A KR101819458B1 (ko) 2016-08-17 2016-09-06 음성 인식 장치 및 시스템
KR1020160114255A KR101819457B1 (ko) 2016-08-17 2016-09-06 음성 인식 장치 및 시스템

Country Status (1)

Country Link
KR (3) KR101819458B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101992370B1 (ko) * 2018-04-20 2019-06-24 주식회사 스터디맥스 말하기 학습방법 및 학습시스템
KR20190087353A (ko) 2019-07-05 2019-07-24 엘지전자 주식회사 음성 인식 검증 장치 및 방법
KR20190100095A (ko) 2019-08-08 2019-08-28 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치
KR20210050130A (ko) * 2019-10-28 2021-05-07 주식회사 한글과컴퓨터 음성 인식기의 인식률 개선을 위한 학습용 단어 수집 장치 및 그 동작 방법
KR20220027417A (ko) * 2020-08-27 2022-03-08 주식회사 오투오 사용자 단말에서의 음성 인식을 이용한 단어찾기게임 방법 및 그 사용자 단말
US11657803B1 (en) 2022-11-02 2023-05-23 Actionpower Corp. Method for speech recognition by using feedback information
US11984122B2 (en) 2020-07-27 2024-05-14 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102121059B1 (ko) * 2019-06-26 2020-06-09 주식회사 아이미디어솔루션 비상 상황에 대한 음성 인식 기반의 다각화된 통지를 위한 비상 방송 시스템, 장치 및 기법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3082746B2 (ja) * 1998-05-11 2000-08-28 日本電気株式会社 音声認識システム
JP2005128130A (ja) * 2003-10-22 2005-05-19 Toyota Central Res & Dev Lab Inc 音声認識装置、音声認識方法及びプログラム
JP2006267319A (ja) * 2005-03-23 2006-10-05 Nec Corp 音声書き起こし支援装置及びその方法ならびに修正箇所決定装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012181358A (ja) * 2011-03-01 2012-09-20 Nec Corp テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3082746B2 (ja) * 1998-05-11 2000-08-28 日本電気株式会社 音声認識システム
JP2005128130A (ja) * 2003-10-22 2005-05-19 Toyota Central Res & Dev Lab Inc 音声認識装置、音声認識方法及びプログラム
JP2006267319A (ja) * 2005-03-23 2006-10-05 Nec Corp 音声書き起こし支援装置及びその方法ならびに修正箇所決定装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101992370B1 (ko) * 2018-04-20 2019-06-24 주식회사 스터디맥스 말하기 학습방법 및 학습시스템
KR20190087353A (ko) 2019-07-05 2019-07-24 엘지전자 주식회사 음성 인식 검증 장치 및 방법
US11205417B2 (en) 2019-07-05 2021-12-21 Lg Electronics Inc. Apparatus and method for inspecting speech recognition
KR20190100095A (ko) 2019-08-08 2019-08-28 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치
US11030991B2 (en) 2019-08-08 2021-06-08 Lg Electronics Inc. Method and device for speech processing
KR20210050130A (ko) * 2019-10-28 2021-05-07 주식회사 한글과컴퓨터 음성 인식기의 인식률 개선을 위한 학습용 단어 수집 장치 및 그 동작 방법
KR102300427B1 (ko) * 2019-10-28 2021-09-09 주식회사 한글과컴퓨터 음성 인식기의 인식률 개선을 위한 학습용 단어 수집 장치 및 그 동작 방법
US11984122B2 (en) 2020-07-27 2024-05-14 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR20220027417A (ko) * 2020-08-27 2022-03-08 주식회사 오투오 사용자 단말에서의 음성 인식을 이용한 단어찾기게임 방법 및 그 사용자 단말
KR102453317B1 (ko) * 2020-08-27 2022-10-12 주식회사 오투오 사용자 단말에서의 음성 인식을 이용한 단어찾기게임 방법 및 그 사용자 단말
US11657803B1 (en) 2022-11-02 2023-05-23 Actionpower Corp. Method for speech recognition by using feedback information

Also Published As

Publication number Publication date
KR101819457B1 (ko) 2018-01-17
KR101819458B1 (ko) 2018-01-17

Similar Documents

Publication Publication Date Title
KR101819459B1 (ko) 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치
US10276164B2 (en) Multi-speaker speech recognition correction system
US11727914B2 (en) Intent recognition and emotional text-to-speech learning
US8954329B2 (en) Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
US10089974B2 (en) Speech recognition and text-to-speech learning system
US9070363B2 (en) Speech translation with back-channeling cues
US20060293889A1 (en) Error correction for speech recognition systems
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
CN108520650A (zh) 一种智能语言训练系统和方法
KR100593589B1 (ko) 음성인식을 이용한 다국어 통역/학습 장치 및 방법
KR101111487B1 (ko) 영어 학습장치 및 방법
US10825357B2 (en) Systems and methods for variably paced real time translation between the written and spoken forms of a word
US7752045B2 (en) Systems and methods for comparing speech elements
KR20030079497A (ko) 대화형 언어학습 시스템 및 서비스방법
US10529330B2 (en) Speech recognition apparatus and system
KR20170051759A (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
JP6509308B1 (ja) 音声認識装置およびシステム
KR102392992B1 (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
KR101983031B1 (ko) 언어 교육 방법 및 언어 교육 시스템
KR20220032200A (ko) 외국어 교육용 인공지능 기능을 구비한 사용자 기기 및 외국어 교육 방법
KR20140087953A (ko) 의미단위 및 원어민의 발음 데이터를 이용한 언어교육 학습장치 및 방법
CN116524916A (zh) 一种语音处理方法、装置及车辆
KR20240073991A (ko) 음성 합성 서비스 제공 방법 및 그 시스템
KR20220124351A (ko) 인공지능 기반 언어 학습 서비스 제공 시스템 및 방법
KR20140078077A (ko) 의미단위 및 원어민의 발음 데이터를 이용한 언어교육 학습장치 및 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant