KR101819458B1 - 음성 인식 장치 및 시스템 - Google Patents

음성 인식 장치 및 시스템 Download PDF

Info

Publication number
KR101819458B1
KR101819458B1 KR1020160114256A KR20160114256A KR101819458B1 KR 101819458 B1 KR101819458 B1 KR 101819458B1 KR 1020160114256 A KR1020160114256 A KR 1020160114256A KR 20160114256 A KR20160114256 A KR 20160114256A KR 101819458 B1 KR101819458 B1 KR 101819458B1
Authority
KR
South Korea
Prior art keywords
display window
word
voice
words
displayed
Prior art date
Application number
KR1020160114256A
Other languages
English (en)
Inventor
안문학
Original Assignee
주식회사 소리자바
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 소리자바 filed Critical 주식회사 소리자바
Application granted granted Critical
Publication of KR101819458B1 publication Critical patent/KR101819458B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • G06F17/28
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • User Interface Of Digital Computer (AREA)
  • Tourism & Hospitality (AREA)
  • Machine Translation (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 음성을 인식하여 텍스트로 변환하되, 수정을 위하여 실시간 입력 상태를 표시하기 위한 음성 인식 장치 및 시스템에 관한 것이다. 본 발명에 따른 음성 인식 장치는 음성을 입력받는 입력부, 입력부로부터 입력되는 음성을 텍스트로 변환한 단어를 표시하는 제1 표시창 및 제1 표시창에 표시되는 단어를 조합한 문장을 표시하는 제2 표시창을 포함하는 표시부, 입력부로부터 입력되는 음성을 단어 단위로 텍스트로 변환하여 제1 표시창에 실시간 표시하도록 하고, 제1 표시창에 표시된 단어를 조합하고 문장으로 형성하여 시간별로 제2 표시창에 표시하는 제어부를 포함한다.

Description

음성 인식 장치 및 시스템{Voice recognition apparatus and system}
본 발명은 음성 인식 장치에 관한 것으로, 더욱 상세하게는 음성을 인식하여 텍스트로 변환하되, 수정을 위하여 실시간 입력 상태를 표시하기 위한 음성 인식 장치 및 시스템에 관한 것이다.
최근 스마트폰에서는 음성 인식 기술이 대중화되고 있으며, 스마트워치와 같은 웨어러블 장치에서는 음성 인식을 가장 주요한 문자 입력 수단으로 활용할 것으로 예상된다.
음성 인식 기술은 음성 인식으로 입력을 행하면, 이를 단어 별로 인식하고, 인식된 단어를 조합하여 문장으로 형성하여 텍스트 형태로 사용자에게 보여지게 된다.
그러나 음성 인식 기술은 오래전부터 개발되어 온 기술임에도 불구하고, 정확한 음성 인식을 통하여 텍스트로 치환되어 입력되는데 있어서 아직도 오류가 다수 발생하고 있다.
이에 따라 인식된 텍스트가 의도와 다르거나 오류가 있는 경우에 이를 수정해야 한다.
일반적으로 이러한 텍스트를 수정하기 위해서는 키보드를 이용하여 백스페이스 키를 통하여 글자 단위로 텍스트의 일부를 삭제하여 수정하거나, 구술된 단위로 한번에 입력된 텍스트 전체를 삭제하고, 구술을 다시 행하여 재입력하는 방법으로 이전의 오류를 수정하게 된다.
이러한 텍스트 수정 방법은 키보드를 통해 백스페이스 키를 복수로 눌러 입력하여 텍스트를 글자단위로 지우고 다시 입력하는 등 번거로운 동작이 수반될 수 밖에 없다.
또한 구술된 단위로 다시 입력하는 것은 잘못 인식된 텍스트 뿐만 아니라 인식에 문제가 없는 부분까지 다시 행하여 재입력할 뿐만 아니라, 동일한 오류가 다시 발생되는 문제점이 생길 수 있다.
한편 종래의 음성 인식 장치는 최종적으로 단어 조합에 의해 형성된 문장을 텍스트 형태로 보여주기 때문에, 수정을 위한 사용자의 입장에서는 어떠한 형태의 단어를 조합하여 문장이 형성되었는지 확인할 수 없는 문제점이 있었다.
한국등록특허 제10-1154011호(2012.05.31)
따라서 본 발명의 목적은 음성이 입력되면 어떠한 단어 조합에 의해 어떠한 문장이 형성되었는지에 대한 과정을 직관적으로 확인할 수 있고, 음성 인식되어 생성된 텍스트의 수정을 용이하게 할 수 있는 음성 인식 장치 및 시스템을 제공하는 데 있다.
본 발명에 따른 음성 인식 장치는 음성을 입력받는 입력부, 상기 입력부로부터 입력되는 음성을 텍스트로 변환한 단어를 표시하는 제1 표시창 및 상기 제1 표시창에 표시되는 상기 단어를 조합한 문장을 표시하는 제2 표시창을 포함하는 표시부, 상기 입력부로부터 입력되는 음성을 단어 단위로 텍스트로 변환하여 상기 제1 표시창에 실시간 표시하도록 하고, 상기 제1 표시창에 표시된 단어를 조합하고 문장으로 형성하여 시간별로 상기 제2 표시창에 표시하는 제어부를 포함한다.
본 발명에 따른 음성 인식 장치에 있어서, 상기 제어부는 상기 제1 표시창에 실시간 표시되는 단어의 말미에 표시되어 상기 단어의 입력 상태를 나타내는 제1 커서를 상기 제1 표시창에 표시하도록 하고, 상기 제2 표시창에 실시간 표시되는 조합된 문장의 말미에 표시되어 상기 문장의 입력 상태를 나타내는 제2 커서를 상기 제2 표시창에 표시하도록 하고, 수정을 위한 제3 커서를 상기 제1 표시창 또는 상기 제2 표시창에 표시하는 것을 특징으로 한다.
본 발명에 따른 음성 인식 장치에 있어서, 상기 입력부는 음성을 입력받는 음성 입력부, 상기 음성 입력부로부터 입력된 음성을 통해 텍스트로 변환된 상기 단어 또는 상기 문장의 수정을 위하여 상기 제3 커서를 이동시키는 키 입력부를 포함하는 것을 특징으로 한다.
본 발명에 따른 음성 인식 장치에 있어서, 상기 제어부는 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 단어에 대하여 식별되도록 표시하는 것을 특징으로 한다.
본 발명에 따른 음성 인식 장치에 있어서, 상기 제어부는 상지 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 단어에 대하여 인식률 값을 상기 인식률이 낮은 단어 옆에 표시하는 것을 특징으로 한다.
본 발명에 따른 음성 인식 장치에 있어서, 상기 인식률 값은 인식률에 따라 0 ~ 1까지 표현한 수치인 것을 특징으로 한다.
본 발명에 따른 음성 인식 장치에 있어서, 상기 제어부는 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 단어에 대하여 크기 또는 색상을 달리하여 표시하는 것을 특징으로 한다.
본 발명에 따른 음성 인식 장치에 있어서, 상기 제어부는 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식이 불가한 단어에 대하여 글자수가 식별되도록 표시하는 것을 특징으로 한다.
본 발명에 따른 음성 인식 장치에 있어서, 상기 제어부는 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식이 불가한 단어에 대하여 글자수 만큼 특수문자를 표시하는 것을 특징으로 한다.
본 발명에 따른 음성 인식 장치에 있어서, 외국어 단어를 저장하는 저장부를 더 포함하고, 상기 제어부는 상기 음성 입력부로부터 외국어 음성이 입력되는 경우, 상기 외국어 음성을 상기 저장부에 저장된 외국어 단어 중 매칭되는 외국어 단어로 변환하여 상기 제1 표시창 또는 상기 제2 표시창에 표시하는 것을 특징으로 한다.
본 발명에 따른 음성 인식 장치에 있어서, 상기 제어부는 상기 음성 입력부로부터 외국어 음성이 입력되는 경우, 상기 외국어 음성을 소리나는 대로 표시하되, 상기 키 입력부에 의해 상기 제3 커서가 상기 소리나는 대로 표시된 단어로 이동하게 되면, 상기 저장부에 저장된 외국어 단어 중 매칭되는 적어도 하나의 외국어 단어를 선택할 수 있는 선택창을 상기 제1 표시창 또는 상기 제2 표시창에 제공하는 것을 특징으로 한다.
본 발명에 따른 음성 인식 장치에 있어서, 상기 제어부는 시간별로 표시된 상기 문장에 대한 인식률을 상기 제2 표시창에 표시하는 것을 특징으로 한다.
본 발명에 따른 음성 인식 장치에 있어서, 상기 표시부는 상기 제2 표시창에 시간별로 표시된 문장을 통합하여 표시하는 제3 표시창을 더 포함하는 것을 특징으로 한다.
본 발명에 따른 음성 인식 시스템에 있어서, 음성을 포함하는 콘텐츠를 제공하는 콘텐츠 제공 서버, 상기 콘텐츠 제공 서버로부터 콘텐츠를 수신하여, 상기 콘텐츠에 포함된 음성을 입력받는 입력부, 상기 입력부로부터 입력되는 음성을 텍스트로 변환한 단어를 표시하는 제1 표시창 및 상기 제1 표시창에 표시되는 상기 단어를 조합한 문장을 표시하는 제2 표시창을 포함하는 표시부, 상기 입력부로부터 입력되는 음성을 단어 단위로 텍스트로 변환하여 상기 제1 표시창에 실시간 표시하도록 하고, 상기 제1 표시창에 표시된 단어를 조합하고 문장으로 형성하여 시간별로 상기 제2 표시창에 표시하는 제어부를 포함하는 음성 인식 장치를 포함한다.
본 발명에 따른 음성 인식 장치는 입력부로부터 입력되는 음성을 단어 단위로 텍스트로 변화하여 제1 표시창에 실시간 표시하도록 하고, 제1 표시창에 표시된 단어를 조합하고 문장으로 형성하여 시간별로 제2 표시창에 표시함으로써, 문장이 어떠한 단어 조합에 의해 형성되었는지에 대한 과정을 직관적으로 확인할 수 있도록 함으로써, 음성 인식되어 생성된 텍스트의 수정을 용이하게 할 수 있다.
본 발명에 따른 음성 인식 장치는 음성 인식되어 표시되는 단어 중 인식률이 낮은 단어에 대하여 식별되도록 표시함으로써, 음성 인식되어 생성된 텍스트의 수정을 용이하게 할 수 있다.
본 발명에 따른 음성 인식 장치는 음성 인식되어 표시되는 단어 중 인식이 불가한 단어에 대하여 글자수가 식별되도록 표시함으로써, 음성 인식되어 생성된 텍스트의 수정을 용이하게 할 수 있다.
본 발명에 따른 음성 인식 장치는 외국어 음성이 입력되는 경우, 외국어 음성을 저장부에 저장된 외국어 단어 중 매칭되는 외국어 단어로 변환하여 표시함으로써, 텍스트를 삭제 후 수정하지 않더라도 외국어 단어에 대한 변환이 가능할 수 있다.
도 1은 본 발명의 실시예에 따른 음성 인식 시스템의 구성을 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 음성 인식 장치의 구성을 나타낸 블록도이다.
도 3은 본 발명의 실시예에 따른 음성 인식 장치의 표시부를 나타낸 예시도이다.
도 4는 본 발명의 다른 실시예에 따른 음성 인식 장치의 표시부를 나타낸 예시도이다.
하기의 설명에서는 본 발명의 실시예를 이해하는데 필요한 부분만이 설명되며, 그 이외 부분의 설명은 본 발명의 요지를 흩트리지 않도록 생략될 것이라는 것을 유의하여야 한다.
이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 바람직한 실시예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 보다 상세하게 설명하고자 한다.
도 1은 본 발명의 실시예에 따른 음성 인식 시스템의 구성을 나타낸 블록도이다.
도 1을 참조하면, 본 발명의 실시예에 따른 음성 인식 시스템(300)은 콘텐츠 제공 서버(200) 및 음성 인식 장치(100)를 포함한다.
콘텐츠 제공 서버(200)는 음성이 포함된 오디오 파일 또는 동영상 파일을 음성 인식 장치(100)로 제공할 수 있다. 예컨데 콘텐츠 제공 서버(200)는 방송사 서버 또는 국회 서버 등이 될 수 있다. 여기서 콘텐츠 제공 서버(200)는 오디오 파일 또는 동영상 파일을 음성 인식 장치(100)로 전달하고, 오디오 파일 또는 동영상 파일에 포함된 음성을 텍스트로 변환하여 다시 전달받을 수 있다. 콘텐츠 제공 서버(200)는 음성 인식 장치(100)로부터 전달받은 텍스트를 자막으로 사용할 수 있다.
음성 인식 장치(100)는 콘텐츠 제공 서버(200)로부터 음성이 포함된 오디오 파일 또는 동영상 파일을 전달받는다. 음성 인식 장치(100)는 콘텐츠 제공 서버(200)로부터 전달받은 오디오 파일 또는 동영상 파일에서 음성을 인식하여 텍스트 형태로 변환한다.
음성 인식 장치(100)는 음성이 입력되면, 음성으로부터 인식에 필요한 특징 벡터를 추출한다. 여기서 특징 벡터들은 음성학적 특성은 잘 나타내며, 그 이외의 요소, 즉 배경 잡음, 화자 차이, 발음 태도 등에는 둔감하도록 설정된다. 이후 음성 인식 장치(100)는 특징 벡터를 저장된 단어 모델, 즉 각 단어의 음성학적 특징 또는 그보다 짧게 음소 단위의 음향 모델과의 비교를 통해 가능한 단어에 대한 경우를 뽑아내는 패턴 분류 과정을 수행한다. 여기서 음성 인식 장치(100)는 패턴 분류 과정을 통해 인식률이 가장 높은 단어를 화면상의 특정 창에 표시할 수 있다.
또한 음성 인식 장치(100)는 패턴 분류 과정을 거친 결과를 일련의 후보 단어 또는 후보 음소의 형태로 문장 단위 검색을 실시한다. 여기서 음성 인식 장치(100)는 후보 단어 또는 후보 음소들의 정보를 토대로 문법 구조, 전체적인 문장 문맥, 특정 주제에 부합 여부를 판단하여 어떤 단어나 음소가 가장 적절한지를 판단하게 된다. 음성 인식 장치(100)는 이러한 과정을 거쳐 완성된 문장을 화면 상의 특정 창에 표시할 수 있다.
즉 본 발명의 실시예에 따른 음성 인식 장치(100)는 상기의 과정을 통해 얻어진 단어와, 문장을 각각 독립된 창에 실시간 표시할 수 있다.
또한 음성 인식 장치(100)는 사용자로부터 키 입력 동작을 입력받아 각각 독립된 창에 실시간 표시된 단어와 문장을 수정하도록 할 수 있다. 음성 인식 장치(100)는 수정되어 완성된 음성 인식 결과를 저장하거나, 콘텐츠 제공 서버(200)로 다시 제공할 수 있다.
이하 본 발명의 실시예에 따른 음성 인식 장치(100)에 대하여 더욱 상세히 설명하도록 한다.
도 2는 본 발명의 실시예에 따른 음성 인식 장치의 구성을 나타낸 블록도이고, 도 3은 본 발명의 실시예에 따른 음성 인식 장치의 표시부를 나타낸 예시도이다.
도 1 내지 도 3을 참조하면, 본 발명의 실시예에 따른 음성 인식 장치(100)는 통신부(50), 입력부(10), 표시부(20), 저장부(30) 및 제어부(40)를 포함한다.
통신부(50)는 콘텐츠 제공 서버(200)로부터 오디오 파일 또는 동영상 파일을 전달받을 수 있다. 이러한 통신부(50)는 유무선 통신을 통해 콘텐츠 제공 서버(200)로부터 오디오 파일 또는 동영상 파일을 전달받거나, 음성 인식이 완료된 텍스트를 다시 콘텐츠 제공 서버(200)로 전달할 수 있다.
입력부(10)는 음성 입력부(11) 및 키 입력부(12)를 포함할 수 있다.
음성 입력부(11)는 콘텐츠 제공 서버(200)로부터 오디오 파일 또는 동영상 파일을 전달받게 되면, 오디오 파일 또는 동영상 파일에 포함된 음성을 입력받을 수 있다. 또한 음성 입력부(11)는 마이크(Microphone)로 구성되어 사용자의 음성을 입력받을 수 있다.
키 입력부(12)는 숫자 및 문자 정보 등의 다양한 정보를 입력받고, 각종 기능을 설정 및 음성 인식 장치(100)의 기능 제어와 관련하여 입력되는 신호를 제어부(40)로 전달한다. 또한 키 입력부(12)는 제3 커서(30c)를 이동시켜 음성 인식되어 표시부(20)에 표시된 텍스트를 수정하기 위한 신호를 입력받을 수 있다. 예컨데 키 입력부(12)는 키보드, 키패드, 마우스, 조이스틱 등과 같은 입력 장치가 될 수 있고, 바람직하게는 잘못 인식된 단어 또는 문장을 빠르게 수정할 수 있는 속기 키보드가 될 수 있다.
표시부(20)는 음성 인식 장치(100)의 기능 수행 중에 발생하는 일련의 동작상태 및 동작결과 등에 대한 정보를 표시한다. 또한 표시부(20)는 음성 인식 장치(100)의 메뉴 및 사용자가 입력한 사용자 데이터 등을 표시할 수 있다. 여기서 표시부(20)는 액정표시장치(LCD, Liquid Crystal Display), 초박막 액정표시장치(TFT-LCD, Thin Film Transistor LCD), 발광다이오드(LED, Light Emitting Diode), 유기 발광다이오드(OLED, Organic LED), 능동형 유기발광다이오드(AMOLED, Active Matrix OLED), 레티나 디스플레이(Retina Display), 플렉시블 디스플레이(Flexible display) 및 3차원(3 Dimension) 디스플레이 등으로 구성될 수 있다.
이러한 표시부(20)는 제1 표시창(21) 및 제2 표시창(22)을 포함할 수 있고, 제2 표시창(22)에서 완성된 문장을 나타내는 제3 표시창(23)을 더 포함할 수 있다.
제1 표시창(21)은 음성 입력부(11)로 입력된 음성에서 추출된 특징 벡터와, 기 저장된 단어 모델을 비교하여 얻어진 결과를 표시한다. 즉 제1 표시창(21)은 제어부(40)에 의해 수행되는 패턴 분류의 결과물을 실시간 화면상에 표시할 수 있다. 제1 표시창(21)는 패턴 분류되어 얻어진 결과물인 단어를 누적 표시하며, 기 설정된 누적 범위가 지나면 지나간 단어는 삭제되고, 실시간 새로운 단어를 추가 표시한다. 즉 제1 표시창(21)은 음성 인식 과정에서 문장을 만들기 위한 전 단계인 단어별 인식 상태를 표시할 수 있다. 여기서 제1 표시창(21)은 패턴 분류되어 표시되는 단어의 실시간 입력 상태를 표시하기 위한 제1 커서(20a)를 단어의 말미에 표시할 수 있다.
제2 표시창(22)은 음성 입력되어 패턴 분류 과정을 거친 결과를 일련의 후보 단어 또는 후보 음소의 형태로 문장 단위 검색을 실시하고, 후보 단어 또는 후보음소들의 정보를 토대로 문법 구조, 전체적인 문장 문맥, 특정 주제에 부합 여부를 판단한 결과물, 즉 문장을 화면상에 표시할 수 있다. 이러한 제2 표시창(22)은 단어의 조합으로 형성된 문장을 시간별로 표시할 수 있다. 이러한 제2 표시창(22)은 표 형태로 다양한 항목을 제공하고, 항목에 부합하는 내용을 표시할 수 있다. 예컨데 제2 표시창(22)은 시간, 텍스트, 바이트 또는 인식률을 표시할 수 있다. 여기서 텍스트는 단어의 조합으로 형성된 문장을 의미하며, 시간은 입력되는 음성의 시간과 부합하여 표시할 수 있다. 그리고 바이트는 문장의 길이를 의미하며, 인식률은 문장에 대한 음성 인식률을 나타낸다. 여기서 제2 표시창(22)은 단어의 조합으로 형성된 문장의 실시간 입력 상태를 표시하기 위한 제2 커서(20b)를 문장의 말미에 표시할 수 있다. 또한 제2 표시창(22)은 문장의 수정을 위하여 이동하는 제3 커서(20c)를 표시할 수 있다.
제3 표시창(23)은 제2 표시창(22)에 시간별로 표시된 각각의 문장을 조합하여 문단 또는 단락으로 표시할 수 있다. 여기서 제3 표시창(23)은 제2 표시창(22)에 표시된 문장에서 수정이 완료된 결과를 표시할 수 있다. 또한 제3 표시창(23)은 키 입력부(12)의 입력에 따라 제어부(40)의 제어 하에 제3 커서(20c)를 완성된 문장에 표시하여 수정하도록 할 수 있다.
저장부(30)는 음성 인식 장치(100)의 기능 동작에 필요한 응용 프로그램을 저장한다. 여기서 저장부(30)는 사용자의 요청에 상응하여 각 기능을 활성화하는 경우, 제어부(40)의 제어 하에 해당 응용 프로그램들을 실행하여 각 기능을 제공한다. 여기서 저장부(30)는 패턴 분류에 사용되는 단어 모델, 즉 각 단어의 음성학적 특징 또는 음소 단위의 음향 모델을 저장한다. 또한 저장부(30)는 문법 구조 정보, 문장 문맥 정보, 특정 주제 정보 등을 저장한다. 또한 저장부(30)는 외국어 DB(31) 저장할 수 있다. 즉 저장부(30)는 음성 입력부(11)를 통해 외국어 음성이 입력되는 경우, 매칭시킬 수 있는 외국어 단어를 저장하여 제어부(40)의 제어 하에 매칭되는 외국어 단어를 제공할 수 있다.
제어부(40)는 음성 입력부(11)로부터 음성이 입력되면, 패턴 분류를 통해 얻어진 단어를 제1 표시창(21)에 표시되도록 하고, 패턴 분류를 통해 얻어진 단어를 조합한 문장을 제2 표시창(22)에 표시되도록 할 수 있다.
이러한 제어부(40)는 패턴 분류 모듈(41) 및 언어 처리 모듈(42)을 포함한다.
패턴 분류 모듈(41)은 음성 입력부(11)를 통해 입력된 음성으로부터 필요한 특징 벡터를 추출한다. 여기서 특징 벡터들은 음성학적 특성은 잘 나타내며, 그 이외의 요소, 즉 배경 잡음, 화자 차이, 발음 태도 등에는 둔감하도록 설정된다. 이후 패턴 분류 모듈(41)은 저장부(30)에 저장되어 있는 단어 모델, 즉 각 단어의 음성학적 특징 또는 그보다 짧게 음소 단위의 음향 모델과의 비교를 통해 가능한 단어에 대한 경우를 추출한다. 즉 패턴 분류 모듈(41)은 저장부(30)에 저장된 음향 모델과의 패턴 비교를 통해 알맞은 후보 단어를 선정한다. 패턴 분류 모듈(41)은 선정된 후보 단어들 중 인식률이 가장 높은 단어를 제1 표시창(21)을 통해 표시하도록 한다. 여기서 패턴 분류 모듈(41)은 제1 표시창(21)에 실시간 표시되는 단어의 말미에 표시되어 단어의 입력 상태를 나타내는 제1 커서(20a)를 상기 제1 표시창(21)에 표시하도록 하도록 한다.
또한 패턴 분류 모듈(41)은 패턴 분류 과정을 거쳐 제1 표시창(21)에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 단어에 대하여 식별되도록 표시할 수 있다. 즉 패턴 분류 모듈(41)은 제1 표시창(21)에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 단어에 대하여 그 인식률 값을 단어 옆에 표시할 수 있다. 여기서 인식률 값은 인식률에 따라 0 ~ 1까지 표현한 수치를 의미한다. 예컨데 패턴 분류 모듈(41)은 단어의 인식률 값이 0.8 미만인 단어에 대하여 인식률 값을 표시할 수 있다. 예컨데 패턴 분류 모듈(41)은 음성 입력부(11)로부터 '재단' 이라는 단어가 입력되게 되면, 인식률이 낮을 경우 오인식 하여 도 3의 a와 같이 '재난' 으로 표시될 수 있다. 이 경우, 패턴 분류 모듈(41)은 a와 같이 단어 옆에 인식률을 표시할 수 있다.
또한 패턴 분류 모듈(41)은 인식률 값이 기 설정된 값보다 낮은 단어에 대하여 색상 또는 크기를 달리하여 표시할 수 있다.
이와 같이, 본 발명에 따른 음성 인식 장치(100)는 패턴 분류 모듈(41)을 통해 음성 인식되어 표시되는 단어 중 인식률이 낮은 단어에 대하여 식별되도록 표시함으로써, 음성 인식되어 생성된 텍스트의 수정을 용이하도록 할 수 있다.
또한 패턴 분류 모듈(41)은 인식이 불가한 단어에 대하여, 단어의 글자수를 식별할 수 있도록 표시할 수 있다. 즉 패턴 분류 모듈(41)은 인식이 불가한 단어에 대하여 글자수에 맞도록 특수문자를 표시하도록 할 수 있다. 예컨데 패턴 분류 모듈(41)은 '분석은' 이라는 음성이 입력되나, 인식이 불가한 경우 도3의 b와 같이 글자수가 식별 가능하도록 '???' 로 표시할 수 있다.
이와 같이 본 발명에 따른 음성 인식 장치(100)는 패턴 분류 모듈(41)을 통해 음성 인식되어 표시되는 단어 중 인식이 불가한 단어에 대하여 글자수가 식별되도록 표시함으로써, 음성 인식되어 생성된 텍스트의 수정을 용이하게 할 수 있다.
또한 패턴 분류 모듈(41)은 음성 입력부(11)로부터 외국어 음성이 입력되는 경우, 외국어 음성을 저장부(30)에 저장된 외국어 단어 중 매칭되는 외국어 단어로 변환하여 제1 표시창(21) 또는 제2 표시창(22)에 표시할 수 있다. 예컨데 패턴 분류 모듈(41)은 도 3의 c와 같이 매칭되는 외국어 단어를 소리나는 대로 표시된 단어 옆에 표시할 수 있다.
언어 처리 모듈(42)은 패턴 분류 모듈(41)에서 패턴 분류 과정을 거친 결과를 일련의 후보 단어 또는 후보 음소의 형태로 문장 단위 검색을 실시한다. 여기서 언어 처리 모듈(42)은 후보 단어 또는 후보 음소들의 정보를 토대로 문법 구조, 전체적인 문장 문맥, 특정 주제에 부합 여부를 판단하여 어떤 단어나 음소가 가장 적절한지를 판단하게 된다. 이후 언어 처리 모듈(42)은 가장 적절한 단어를 혼합하여 문장을 형성한다. 여기서 언어 처리 모듈(42)은 생성된 문장을 시간별로 제2 표시창(22)에 표시할 수 있다.
여기서 언어 처리 모듈(42)은 제2 표시창(22)에 단어의 조합으로 형성된 문장의 실시간 입력 상태를 표시하기 위한 제2 커서(20b)를 문장의 말미에 표시하도록 할 수 있다. 또한 언어 처리 모듈(42)은 제2 표시창(22)에 문장의 수정을 위하여 이동하는 제3 커서(20c)를 표시할 수 있다. 여기서 제3 커서(20c)는 키 입력부(12)의 입력에 따라 이동될 수 있다.
또한 언어 처리 모듈(42)은 패턴 분류 모듈(41)과 같이, 인식률이 낮은 단어에 대하여 식별 가능하도록 표시할 수 있고, 인식이 불가한 단어에 대하여 글자수를 식별할 수 있도록 표시할 수 있고, 외국어 단어에 대하여 저장부(30)에 저장된 매칭되는 외국어 단어로 변환하여 제2 표시창(22)에 표시하도록 할 수 있다. 한편 인식률이 낮은 단어, 인식이 불가한 단어 및 외국어 단어에 대한 기능은 상술한 패턴 분류 모듈(41)과 동일하므로, 동일한 설명은 생략하도록 한다.
이하 본 발명의 다른 실시예에 따른 음성 인시 장치의 표시부에 대하여 설명하도록 한다.
도 4는 본 발명의 다른 실시예에 따른 음성 인식 장치의 표시부를 나타낸 예시도이다.
도 2 및 도 4를 참조하면, 본 발명의 다른 실시예에 따른 표시부(120)는 제어부(40)의 제어 하에, 음성 입력부(11)로부터 외국어 음성이 입력되는 경우, 외국어 음성을 소리나는 대로 표시하되, 키 입력부(12)에 의해 제3 커서(20c)가 소리나느 대로 표시된 단어로 이동하게 되면, 저장부(30)에 저장된 외국어 단어 중 매칭되는 적어도 하나의 외국어 단어를 선택할 수 있는 선택창(24)을 제1 표시창(21) 또는 제2 표시창(22)에 표시할 수 있다.
예컨데 도 4의 c에 도시된 바와 같이, 음성 입력을 통해 '사드'가 입력되면, 제2 표시창(22)에 '사드'로 표시하되, 제3 커서(20c)를 단어로 이동하게 되면, 저장부(30)에 저장되어 있는 'THAAD' 및 'SOD' 중 하나를 선택할 수 있는 선택창(24)을 표시할 수 있다.
한편, 본 도면에 개시된 실시예는 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게는 자명한 것이다.
10 : 입력부 11 : 음성 입력부
12 : 키 입력부 20, 120 : 표시부
20a :제1 커서 20b : 제2 커서
20c : 제3 커서 21 : 제1 표시창
22 : 제2 표시창 23 : 제3 표시창
24 : 선택창 30 : 저장부
31 : 외국어DB 40 : 제어부
50 : 통신부 100 : 음성 인식 장치
200 : 콘텐츠 제공 서버 300 : 음성 인식 시스템

Claims (14)

  1. 음성을 입력받는 음성 입력부;
    상기 음성 입력부로부터 입력된 음성을 통해 텍스트로 변환된 단어 또는 문장의 수정을 위한 신호를 입력받는 키 입력부;
    상기 음성 입력부로부터 입력되는 음성을 텍스트로 변환한 단어를 표시하는 제1 표시창 및 상기 제1 표시창에 표시되는 상기 단어를 조합한 문장을 표시하는 제2 표시창을 포함하는 표시부;
    상기 음성 입력부로부터 입력되는 음성을 단어 단위로 텍스트로 변환하여 상기 제1 표시창에 실시간 표시하도록 하고, 상기 제1 표시창에 표시된 단어를 조합하고 문장으로 형성하여 시간별로 상기 제2 표시창에 표시하는 제어부; 를 포함하고,
    상기 제어부는 상기 제1 표시창에 실시간 표시되는 단어의 말미에 표시되어 상기 단어의 입력 상태를 나타내는 제1 커서를 상기 제1 표시창에 표시하도록 하고, 상기 제2 표시창에 실시간 표시되는 조합된 문장의 말미에 표시되어 상기 문장의 입력 상태를 나타내는 제2 커서를 상기 제2 표시창에 표시하도록 하고, 상기 키 입력부 신호에 따라 수정을 위한 제3 커서를 이동시켜 상기 제1 표시창 또는 상기 제2 표시창에 표시하고,
    상기 제어부는 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식이 불가한 단어에 대하여 글자수가 식별되도록 글자수 만큼 특수문자를 표시하는 것을 특징으로 하는 음성 인식 장치.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 제어부는 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 단어에 대하여 식별되도록 표시하는 것을 특징으로 하는 음성 인식 장치.
  5. 제4항에 있어서,
    상기 제어부는 상지 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 단어에 대하여 인식률 값을 상기 인식률이 낮은 단어 옆에 표시하는 것을 특징으로 하는 음성 인식 장치.
  6. 제5항에 있어서,
    상기 인식률 값은 인식률에 따라 0 ~ 1까지 표현한 수치인 것을 특징으로 하는 음성 인식 장치.
  7. 제1항에 있어서,
    상기 제어부는 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 단어에 대하여 크기 또는 색상을 달리하여 표시하는 것을 특징으로 하는 음성 인식 장치.
  8. 삭제
  9. 삭제
  10. 제1항에 있어서,
    외국어 단어를 저장하는 저장부; 를 더 포함하고,
    상기 제어부는 상기 음성 입력부로부터 외국어 음성이 입력되는 경우, 상기 외국어 음성을 상기 저장부에 저장된 외국어 단어 중 매칭되는 외국어 단어로 변환하여 상기 제1 표시창 또는 상기 제2 표시창에 표시하는 것을 특징으로 하는 음성 인식 장치.
  11. 제10항에 있어서,
    상기 제어부는 상기 음성 입력부로부터 외국어 음성이 입력되는 경우, 상기 외국어 음성을 소리나는 대로 표시하되, 상기 키 입력부에 의해 상기 제3 커서가 상기 소리나는 대로 표시된 단어로 이동하게 되면, 상기 저장부에 저장된 외국어 단어 중 매칭되는 적어도 하나의 외국어 단어를 선택할 수 있는 선택창을 상기 제1 표시창 또는 상기 제2 표시창에 제공하는 것을 특징으로 하는 음성 인식 장치.
  12. 제1항에 있어서,
    상기 제어부는 시간별로 표시된 상기 문장에 대한 인식률을 상기 제2 표시창에 표시하는 것을 특징으로 하는 음성 인식 장치.
  13. 제1항에 있어서,
    상기 표시부는,
    상기 제2 표시창에 시간별로 표시된 문장을 통합하여 표시하는 제3 표시창;
    을 더 포함하는 것을 특징으로 하는 음성 인식 장치.
  14. 음성을 포함하는 콘텐츠를 제공하는 콘텐츠 제공 서버;
    상기 콘텐츠 제공 서버로부터 콘텐츠를 수신하여, 상기 콘텐츠에 포함된 음성을 입력받는 음성 입력부, 상기 음성 입력부로부터 입력된 음성을 통해 텍스트로 변환된 단어 또는 문장의 수정을 위한 신호를 입력받는 키 입력부, 상기 음성 입력부로부터 입력되는 음성을 텍스트로 변환한 단어를 표시하는 제1 표시창 및 상기 제1 표시창에 표시되는 상기 단어를 조합한 문장을 표시하는 제2 표시창을 포함하는 표시부, 상기 음성 입력부로부터 입력되는 음성을 단어 단위로 텍스트로 변환하여 상기 제1 표시창에 실시간 표시하도록 하고, 상기 제1 표시창에 표시된 단어를 조합하고 문장으로 형성하여 시간별로 상기 제2 표시창에 표시하는 제어부를 포함하는 음성 인식 장치; 를 포함하고,
    상기 제어부는 상기 제1 표시창에 실시간 표시되는 단어의 말미에 표시되어 상기 단어의 입력 상태를 나타내는 제1 커서를 상기 제1 표시창에 표시하도록 하고, 상기 제2 표시창에 실시간 표시되는 조합된 문장의 말미에 표시되어 상기 문장의 입력 상태를 나타내는 제2 커서를 상기 제2 표시창에 표시하도록 하고, 상기 키 입력부 신호에 따라 수정을 위한 제3 커서를 이동시켜 상기 제1 표시창 또는 상기 제2 표시창에 표시하고,
    상기 제어부는 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식이 불가한 단어에 대하여 글자수가 식별되도록 글자수 만큼 특수문자를 표시하는 것을 특징으로 하는 음성 인식 시스템.
KR1020160114256A 2016-08-17 2016-09-06 음성 인식 장치 및 시스템 KR101819458B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20160104021 2016-08-17
KR1020160104021 2016-08-17

Publications (1)

Publication Number Publication Date
KR101819458B1 true KR101819458B1 (ko) 2018-01-17

Family

ID=61025868

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020160114255A KR101819457B1 (ko) 2016-08-17 2016-09-06 음성 인식 장치 및 시스템
KR1020160114256A KR101819458B1 (ko) 2016-08-17 2016-09-06 음성 인식 장치 및 시스템
KR1020160115155A KR101819459B1 (ko) 2016-08-17 2016-09-07 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020160114255A KR101819457B1 (ko) 2016-08-17 2016-09-06 음성 인식 장치 및 시스템

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020160115155A KR101819459B1 (ko) 2016-08-17 2016-09-07 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치

Country Status (1)

Country Link
KR (3) KR101819457B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101992370B1 (ko) * 2018-04-20 2019-06-24 주식회사 스터디맥스 말하기 학습방법 및 학습시스템
KR102121059B1 (ko) * 2019-06-26 2020-06-09 주식회사 아이미디어솔루션 비상 상황에 대한 음성 인식 기반의 다각화된 통지를 위한 비상 방송 시스템, 장치 및 기법
KR20190087353A (ko) 2019-07-05 2019-07-24 엘지전자 주식회사 음성 인식 검증 장치 및 방법
KR20190100095A (ko) 2019-08-08 2019-08-28 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치
KR102300427B1 (ko) * 2019-10-28 2021-09-09 주식회사 한글과컴퓨터 음성 인식기의 인식률 개선을 위한 학습용 단어 수집 장치 및 그 동작 방법
KR20220013732A (ko) 2020-07-27 2022-02-04 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR102453317B1 (ko) * 2020-08-27 2022-10-12 주식회사 오투오 사용자 단말에서의 음성 인식을 이용한 단어찾기게임 방법 및 그 사용자 단말
US11657803B1 (en) 2022-11-02 2023-05-23 Actionpower Corp. Method for speech recognition by using feedback information

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3082746B2 (ja) * 1998-05-11 2000-08-28 日本電気株式会社 音声認識システム
JP2005128130A (ja) * 2003-10-22 2005-05-19 Toyota Central Res & Dev Lab Inc 音声認識装置、音声認識方法及びプログラム
JP2012181358A (ja) * 2011-03-01 2012-09-20 Nec Corp テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4784120B2 (ja) * 2005-03-23 2011-10-05 日本電気株式会社 音声書き起こし支援装置及びその方法ならびにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3082746B2 (ja) * 1998-05-11 2000-08-28 日本電気株式会社 音声認識システム
JP2005128130A (ja) * 2003-10-22 2005-05-19 Toyota Central Res & Dev Lab Inc 音声認識装置、音声認識方法及びプログラム
JP2012181358A (ja) * 2011-03-01 2012-09-20 Nec Corp テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム

Also Published As

Publication number Publication date
KR101819459B1 (ko) 2018-01-17
KR101819457B1 (ko) 2018-01-17

Similar Documents

Publication Publication Date Title
KR101819458B1 (ko) 음성 인식 장치 및 시스템
US10276164B2 (en) Multi-speaker speech recognition correction system
KR102191425B1 (ko) 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
KR102628036B1 (ko) 음성 신호를 기초로 한 텍스트 편집 장치 및 텍스트 편집 방법
US10741172B2 (en) Conference system, conference system control method, and program
CN107632980A (zh) 语音翻译方法和装置、用于语音翻译的装置
US20140324433A1 (en) Method and device for learning language and computer readable recording medium
US10714082B2 (en) Information processing apparatus, information processing method, and program
KR102043419B1 (ko) 아동언어학습을 위한 음성인식 기반 학습 시스템 및 학습방법
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
CN112735396A (zh) 语音识别纠错方法、装置及存储介质
KR100593589B1 (ko) 음성인식을 이용한 다국어 통역/학습 장치 및 방법
CN105913841B (zh) 语音识别方法、装置及终端
KR102009150B1 (ko) 수화 또는 지화 인식 장치 및 방법
CN111640452B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN109979435B (zh) 数据处理方法和装置、用于数据处理的装置
KR20150014235A (ko) 자동 통역 장치 및 방법
KR20200140171A (ko) 전자 장치 및 이의 제어 방법
KR20220143622A (ko) 전자 장치 및 그 제어 방법
US10529330B2 (en) Speech recognition apparatus and system
US11501762B2 (en) Compounding corrective actions and learning in mixed mode dictation
JP6509308B1 (ja) 音声認識装置およびシステム
KR20130128172A (ko) 장애인을 위한 이동통신 단말기 및 문자생성방법
CN113515586A (zh) 数据处理方法及装置
CN109841209A (zh) 语音识别设备和系统

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant