KR20190108472A - 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템 - Google Patents

강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템 Download PDF

Info

Publication number
KR20190108472A
KR20190108472A KR1020180147724A KR20180147724A KR20190108472A KR 20190108472 A KR20190108472 A KR 20190108472A KR 1020180147724 A KR1020180147724 A KR 1020180147724A KR 20180147724 A KR20180147724 A KR 20180147724A KR 20190108472 A KR20190108472 A KR 20190108472A
Authority
KR
South Korea
Prior art keywords
lecture
module
word
text
detected
Prior art date
Application number
KR1020180147724A
Other languages
English (en)
Other versions
KR102170844B1 (ko
Inventor
김아현
Original Assignee
주식회사 산타
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 산타 filed Critical 주식회사 산타
Priority to KR1020180147724A priority Critical patent/KR102170844B1/ko
Priority to PCT/KR2018/016940 priority patent/WO2020111374A1/ko
Publication of KR20190108472A publication Critical patent/KR20190108472A/ko
Application granted granted Critical
Publication of KR102170844B1 publication Critical patent/KR102170844B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • G06F17/24

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템에 관한 것이다. 보다 상세하게는 강의 키워드 입력 모듈을 구비함으로써, 키워드 별 가중치를 적용할 수 있고, 검색 모듈로 가중치를 적용하여 검색하기에, 강의 중 자주 사용되는 용어들로 구성된 웹페이지의 텍스트를 기반으로 강의 음성을 텍스트로 변환할 수 있어, 변환 시 단어들이 강의 주제에 최대한 벗어나지 않도록 하고, 음성 인식 정확도를 향상시키며, 수정 모듈을 구비함으로써, 오류 검출 모듈에서 검출된 단어를 이루는 각 음절의 초성, 중성, 및 종성이 관련 단어 검출 모듈에서 검출된 단어와의 일치도에 따라 차등 표식하여, 사용자 정정 모듈로 이를 확인하고, 텍스트를 정정할 수 있어, 사용자의 작업 시간을 단축하는 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템에 관한 것이다.

Description

강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템{Lecture voice file text conversion system based on lecture-related keywords}
본 발명은 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템에 관한 것이다. 보다 상세하게는 강의 키워드 입력 모듈을 구비함으로써, 키워드별 가중치를 적용할 수 있고, 검색 모듈로 가중치를 적용하여 검색하기에, 강의 중 자주 사용되는 용어들로 구성된 웹페이지의 텍스트를 기반으로 강의 음성을 텍스트로 변환할 수 있어, 변환 시 단어들이 강의 주제에 최대한 벗어나지 않도록 하고, 음성 인식 정확도를 향상시키며, 수정 모듈을 구비함으로써, 오류 검출 모듈에서 검출된 단어를 이루는 각 음절의 초성, 중성, 및 종성이 관련 단어 검출 모듈에서 검출된 단어와의 일치도에 따라 차등 표식하여, 사용자 정정 모듈로 이를 확인하고, 텍스트를 정정할 수 있어, 사용자의 작업 시간을 단축하는 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템에 관한 것이다.
최근 애플의 시리(Siri), 구글 보이스, 삼성전자 S보이스 등 음성 인식 기술이 대중화되고 있으며, 스마트워치나 구글 글래스와 같은 웨어러블 장치에서는 음성 인식을 가장 주요한 문자 입력 수단으로 활용할 것으로 예상되며, 음성 인식 기술은 오래전부터 개발되어 온 기술임에도 불구하고, 정확한 음성 인식을 통하여 텍스트로 치환되어 입력되는데 있어서 아직도 오류가 다수 발생하고 있다.
음성 인식으로 입력을 행하면, 텍스트로 치환되어 이것이 사용자에게 보여지게 되는데, 인식된 텍스트가 의도와 다르거나 오류가 있는 경우가 빈번히 발생한다.
특히, 음성에서 텍스트로 변환하는 도구인 API는 음성에서 텍스트로 변환할 수 있는 시스템을 제공하나, 음성을 텍스트로 변환하였을 때 사람마다 말하는 방식의 차이, 음성의 차이, 주위 소음이나 잡음 등의 방해 요소로 인해 정확도가 떨어지는 문제점이 있다.
또한, 강의 시, 강의 음성 내용을 텍스트 변환하여 자막으로 사용할 경우에, 강의 내용 텍스트 파일의 정확성을 요구하지만 인식 오류 등을 포함하여 기대에 미치지 못하는 실정이다.
또한, 상기의 강의를 녹음한 파일은 용량이 커 보관하는 데 한계가 있고, 추후 특정 문구를 검색하는 데 무리가 있으며, 추후, 데이터 분석을 통한 2차 자료 활용에도 제약이 따르는 문제점이 있다.
선행기술문헌 : KR등록특허공보 제1651909호(2016.8.29 공고)
본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로, 강의 음성파일로부터 텍스트 추출 정확도가 높은 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템을 제공하는 데 그 목적이 있다.
상기 목적을 달성하기 위해 안출된 본 발명에 따른 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템은 강의의 음성을 녹음하는강의 녹음 모듈; 강의 녹음 모듈로 녹음되는 음성을 음성 인식을 수행하여 텍스트로 변환하는 텍스트 변환 모듈; 강의 녹음 모듈로 녹음되는 강의의 특정 주제와 관련된 키워드를 입력하는 강의 키워드 입력 모듈; 웹서버에서 강의 키워드 입력 모듈로 입력된 키워드로 검색하고, 웹페이지 내 키워드가 포함된 횟수가 많은 순서대로 검색 결과를 정렬하는 검색 모듈; 검색 모듈로 검색된 웹페이지 중, 일정 순위까지의 웹페이지에 게시된 텍스트를 추출하여 저장하는 텍스트 취합 모듈; 텍스트 취합 모듈로 취합된 텍스트 중 2회 이상 반복된 단어를 검출하는 관련 단어 검출모듈; 사전 제공 서비스와 연결하여 단어 각각에 대한 품사 정보 및 발음 정보를 기반으로, 텍스트 변환 모듈로 변환된 텍스트 중 정보가 없는 단어를 검출하는 오류 검출 모듈; 오류 검출 모듈로 검출된 단어와 관련 단어 검출 모듈로 검출된 단어를 비교하여 특정 조건에 부합하면, 관련 단어 검출 모듈에서 검출된 단어로 수정하고, 이를 특정 조건에 따라 달리 표식하는 수정 모듈; 및 수정 모듈로 수정된 부분을 각 다른 표식으로 확인할 수 있고, 텍스트를 정정할 수 있도록 하는 사용자 정정 모듈을 포함할 수 있다.
또한, 수정 모듈은 오류 검출 모듈에서 검출된 단어의 초성이 관련단어 검출 모듈에서 검출된 단어의 초성과 일치할 경우, 관련 단어 검출 모듈에서 검출된 단어로 수정하고, 이를 표식하고, 오류 검출 모듈에서 검출된 단어의 초성이 관련 단어 검출 모듈에서 검출된 단어의 초성과 일치하고, 중성이 하나 이상 일치할 경우, 관련 단어 검출 모듈에서 검출된 단어로 수정하고, 이를 다르게 표식하며, 오류 검출 모듈에서 검출된 단어의 초성이 관련 단어 검출 모듈에서 검출된 단어의 초성이 일치하고, 중성이 하나 이상 일치하며, 종성이 하나 이상 일치할 경우, 관련 단어 검출 모듈에서 검출된 단어로 수정하고, 이를 또 다르게 표식하는 것을 포함할 수 있다.
또한, 강의 키워드 입력 모듈은 입력된 키워드마다 가중치를 부여할 수 있고, 검색 모듈로 검색 시 가중치를 적용하여 키워드 포함 횟수를 산출하도록 하는 것을 포함할 수 있다.
본 발명에 의하면, 강의 키워드 입력 모듈을 구비함으로써, 각 키워드 별 가중치를 적용할 수 있고, 검색 모듈로 가중치를 적용하여 검색하기에, 강의 중 자주 사용되는 용어들로 구성된 웹페이지의 텍스트를 기반으로 강의 음성을 텍스트로 변환할 수 있어, 변환 시 단어들이 강의 주제에 최대한 벗어나지 않도록 하고, 음성 인식 정확도를 향상시키는 데 그 효과가 있다.
또한, 본 발명에 의하면, 수정 모듈을 구비함으로써, 오류 검출 모듈에서 검출된 단어를 이루는 각 음절의 초성, 중성, 및 종성이 관련 단어 검출 모듈에서 검출된 단어와의 일치도에 따라 차등 표식하여, 사용자 정정 모듈로 이를 확인하고, 정정할 수 있어, 정확도를 높이고 사용자의 작업 시간을 단축하는 데 그 효과가 있다.
도 1은 본 발명의 바람직한 실시예에 따른 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템의 개념도이다.
도 2는 본 발명의 바람직한 실시예에 따른 음성인식 결과에서 오류를 판단하기 위한 방법의 흐름도이다.
도 3은 본 발명의 바람직한 실시예에 따른 음성인식 결과에서 판단된 오류를 수정하기 위한 방법의 흐름도이다.
도 4는 본 발명의 다른 실시예에 따른 음성인식 결과에서 판단된 오류를 수정하기 위한 방법의 흐름도이다.
이하, 본 발명의 바람직한 실시 예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
도 1은 본 발명의 바람직한 실시예에 따른 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템(1000)의 개념도이다.
본 발명의 바람직한 실시예에 따른 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템(1000)은, 도 1을 참조하면, 강의 녹음 모듈(10), 잡음 제거 모듈(20), 텍스트 변환 모듈(30), 강의 키워드 입력 모듈(40), 검색 모듈(50), 텍스트 취합 모듈(60), 관련 단어 검출 모듈(70), 오류 검출 모듈(80), 수정 모듈(90), 및 사용자 정정 모듈(100)을 포함하여 구성되고, 강의 시 녹음된 음성을 텍스트로 변환이 용이하게 하며, 정확도를 향상시킴에 따라 강의 자막을 만들 때 사용자의 시간을 절약할 수 있도록 한다.
이하, 강의 녹음 모듈(10)부터 상세히 설명하기로 한다.
강의 녹음 모듈(10)은 강의의 음성을 녹음하는 것으로, 영상이 필요할 경우에는 영상 촬영 내 음성이 포함될 수 있도록 할 수 있다. 일 예로 강의 녹음 모듈(10)은 강사를 촬영하는 카메라가 동작하는 시점과 동기화되어 강사의 강의가 녹음되도록 구성될 수 있다. 다른 일 예로는 강사를 촬영하는 카메라가 동작하는 시점으로부터 일정 시간이 경과된 시점부터 강사의 강의가 녹음되도록 구성될 수 있다. 이는 강사가 강의를 준비하는 시간 동안에는 강의 내용과 관련 없는 잡음(강의자료의 페이지를 넘기는 소리, 강의 내용과 상관없는 노이즈 등)이 강의 녹음 모듈(10)을 통해 녹음될 수 있기 때문이다.
강의 녹음 모듈(10)을 통해 녹음된 음성은 파일 형태(mp3 등)으로 저장될 수 있고, 본 발명에서는 저장된 음성 파일은 텍스트로 변환될 수 있다.
잡음 제거 모듈(20)은 강의 녹음 모듈(10)로 녹음된 음성 데이터를 재생하여 주파수를 추출하고, 주파수 영역에서 사람의 목소리가 조사되는 특정 구간의 주파수를 제외한 나머지 외부 잡음 부분을 제거한다. 특히, 음성 및 잡음구간 인식과 제거는 스펙트럼 차감법이나 LMS 알고리즘 적응필터 등을 이용하여 다양한 방식으로 잡음이 제거될 수 있다.
또한, 잡음 제거 모듈(20)은 잡음 부분을 제거하면서, 주파수가 사람의 목소리가 조사되는 구간이고, 일정 이하의 음성 주파수가 일정 시간 지속되는 경우, 강의자의 말이 쉬어주는 부분(글에서 띄어쓰는 부분이 될 수 있다.)이라 판단하고, 이를 기준으로 파일을 분리저장 하도록 할 수 있다.
본 발명에서 분리 저장하는 것은, 길이가 긴 음성파일을 그 자체로 텍스트로 변환하는 것보다 길이가 긴 음성파일을 강의자의 음성이 존재하는 부분들로 구분하여 각각의 부분을 여러 개의 음성파일로 분리 저장하고, 이렇게 분리 저장된 여러 개의 음성파일 각각을 독립적으로 텍스트로 변환하는 것이 음성 인식률과 정확성이 높기 때문이다.
다른 일 예로 강사가 강의를 하는 도중에 강의자의 말이 쉬어주는 부분이 일정 시간동안 검출되지 않는 경우에는 일정 시간 까지만 녹음된 음성파일을 분리하여 저장할 수 있다. 예를 들면, 강의자의 개인적인 특성 상 쉬지 않고 말을 하는 경우 등이 있으므로 30초 이상 동안 강의자의 말이 쉬어주는 부분이 없다면 30초를 기준으로 우선 강의자의 음성을 분리하여 먼저 저장하고, 계속적으로 강의자의 음성을 녹음할 수 있다.
강의자의 음성파일의 텍스트 변환의 정확도를 향상시기기 위하여는 텍스트 변환전에 강의자의 음성파일에서 잡음을 먼저 제거하는 것이 바람직하다.
텍스트 변환 모듈(30)은 강의 녹음 모듈(10)로 녹음되는 음성, 잡음 제거 모듈(20)로 잡음이 제거된 음성을 음성 인식을 수행하여 텍스트로 변환하고, 텍스트 변환 모듈(30)은 API(Application Programming Interface)를 이용하여 음성을 텍스트로 변환하도록 하며, API는 종래에 사용되는 음성 텍스트 변환용(ex.
Google speech API, IBM watson speech)으로 사용될 수 있으며 종류에 한정하지 않도록 한다.
강의 키워드 입력 모듈(40)은 강의 녹음 모듈(10)로 녹음되는 강의의 특정 주제와 관련된 키워드를 입력하는 것으로, 강의의 특정 주제와 관련된 키워드의 입력을 통해 키워드와 연관된 데이터 베이스(DB)의 자료를 검색할 수 있다.
DB의 예로는 인터넷을 통하여 연결된 웹페이지, 사용자가 임의로 저장매체 등에 저장한 강의 관련 데이터들, 클라우드 서버 등에 저장된 강의 관련 데이터 등이 포함될 수 있으나, 이에 한정되는 것은 아니며 다양한 방식으로 저장되거나 업데이트되는 다양한 데이터일 수 있다.
또한, 강의 키워드 입력 모듈(40)은 입력된 키워드마다 가중치를 부여할 수 있고, 검색 모듈(50)로 검색 시 가중치를 적용하여 키워드 포함 횟수를 산출하도록 할 수 있다.
특히, 강의 키워드 입력 모듈(40)은 키워드별 가중치를 개별 적용할 수 있고, 검색 모듈(50)로 가중치를 적용하여 검색하기에, 강의 중 자주 사용되는 용어들로 구성된 웹페이지의 텍스트를 기반으로 강의 음성을 텍스트로 변환할 수 있어, 변환 시 단어들이 강의 주제에 최대한 벗어나지 않도록 하고, 음성 인식 정확도를 향상시키는 장점이 있다.
일례로, "막걸리 만드는법"에 대한 강의를 진행했다고 가정하면, 강의 키워드 입력 모듈(40)로 강의 주제와 연관된 막걸리, 이산화탄소, 효모, 누룩, 등을 포함하는 키워드를 입력하고, 키워드별로 가중치를 부여한다. 막걸리는 50%, 이산화탄소 10%, 효모 5%, 누룩 30%로 가중치를 부여하게 되면, 검색 모듈(50)을 통하여 검색된 웹 페이지에 막걸리가 한 번 기재되어 있더라도, 가중치를 부여하여 세 번 기재된 것으로 계산하도록 하기에 강의 주제와 밀접성이 높은 단어는 가중치를 높게 부여하는 것이 만족도 높은 검색이 가능하도록 한다.
검색 모듈(50)은 웹서버에서 강의 키워드 입력 모듈(40)로 입력된 키워드로 검색하고, 웹페이지 내 키워드가 포함된 횟수가 많은 순서대로 검색 결과를 정렬한다. 이때, 검색 모듈(50)은 하나의 키워드를 입력받은 경우 그 키워드를 유사키워드들로 확장하여 유사키워드들을 웹서버에서 검색할 수 있다.
다른 일 예로 검색 모듈(50)은 강의 관련 내용에 대한 데이터들이 저장되어 있는 별도의 서버, 저장매체 등에 검색된 데이터에 기초하여 강의 키워드 입력 모듈(40)로 입력된 키워드로 검색하여, 키워드가 포함된 횟수가 많은 순서대로 검색 결과를 정렬할 수 있다.
또 다른 일 예로, 검색 모듈(50)은 웹서버, 상기 서버, 상기 저장매체 등에 포함되어 있는 웹페이지를 포함하는 모든 데이터 들 내에서 강의 키워드 입력 모듈(40)로 입력된 키워드로 검색하고, 키워드가 포함된 횟수가 많은 순서대로 검색 결과를 정렬할 수 있다.
또한, 강의 키워드 입력 모듈(40)로 특정 키워드에 가중치를 부여하면, 가중치를 적용시켜 순서대로 검색 결과를 제공함은 물론이다.
일 예로 텍스트 취합 모듈(60)은 검색 모듈(50)로 검색된 웹페이지 중, 일정 순위까지의 웹페이지에 게시된 텍스트를 추출하여 DB에 저장할 수 있다.
웹페이지의 경우 공식적인 기관 이외에 개인들에 의하여 내용이 작성되는 경우가 있고, 이 경우 정확하지 않은 정보가 포함될 수 있으므로 신뢰성을 인정할 수 있는 일정 순위까지의 웹페이지를 이용하는 것이 보다 바람직하다.
또한, 텍스트 취합 모듈(60)은 강의자료로부터 텍스트를 추출하여 DB에 저장할 수 있다. 이때, 강의자료로부터 추출된 텍스트는 강의 내용과 연관성이 높을 가능성이 높으므로, 웹페이지에서 추출된 텍스트보다 높은 우선순위 또는 가중치를 부여함이 바람직하다.
상기의 일정 순위는 사용자의 설정에 의해 변경 실시될 수 있으며, 텍스트 취합 모듈(60)은 앞서 검색 모듈(50)을 통해 강의 내용과 연관성이 높다고 판단되는 텍스트를 취합한다.
관련 단어 검출 모듈(70)은 텍스트 취합 모듈(60)로 취합된 텍스트 중 특정 조건에 부합하는 단어를 검출한다. 예를 들어, 관련 단어 검출 모듈(70)은 취합된 텍스트 중 2회 이상 반복된 단어를 검출할 수 있다. 상기 2회 이상(복수회) 반복되는 단어는 강의 주제와 밀접한 관련이 있는 단어라고 볼 수 있고, 상기 단어들을 기준으로 음성 인식 오류 텍스트를 수정할 수 있다.
또한, 관련 단어 검출 모듈(70)은 텍스트 취합 모듈(60)로 취합된 텍스트 중 높은 우선순위를 가진 단어나 높은 가중치를 가진 단어를 우선적으로 검출할 수 있다. 예를 들어, 강의자료에 직접적으로 포함된 단어라면 가장 높은 우선 순위 또는 가장 높은 가중치를 가질 수 있고, 취합된 텍스트에서 반복된 횟수가 많을수록 높은 우선 순위를 가질 수 있다.
오류 검출 모듈(80)은 일 예로 웹서버의 사전 제공 서비스와 연결하여 단어 각각에 대한 품사 정보 및 발음 정보를 기반으로, 텍스트 변환 모듈(30)로 변환된 텍스트 중 정보가 없는 단어를 검출할 수 있다. 이때 검출된 단어는 음성 인식의 오류일 가능성이 높다.
다른 일 예로 오류 검출 모듈(80)은 미리 저장되어 있는 강의와 관련된 전문용어나, 강의에서만 사용되는 특정 단어 등에 대한 내용이 저장되어 있는 저장매체 등과 연결되고, 웹서버의 사전 제공 서비스와 연결되어, 단어 각각에 대한 품사 정보 및 발음 정보를 기반으로, 텍스트 변환 모듈(30)로 변환된 텍스트 중 정보가 없는 단어를 검출할 수 있다.
일 실시예에 따르면, 오류 검출 모듈(80)은 정보가 없는 단어를 검출한 경우, 음성 인식의 오류인지 여부를 자동적으로 판별할 수 있다.
예를 들어, 오류 검출 모듈(80)은 저장된 DB에 포함되어 있지 않은 단어가 인식된 경우, 이 단어의 앞 단어나 뒷 단어와 함께 웹사이트 상에서 한정하여 검색을 할 수 있다. 구체적으로 예를 들면, DB에 포함되어 있지 않은 “막걸리”가 인식되고, 그 앞에서 DB에 포함되어 있던“맛있는”이라는 단어가 인식된 경우, “맛있는 막걸리”로 웹사이트 상에서 검색한다면 수만 건 이상의 검색결과가 나오게 된다. 그러므로, DB에 포함되어 있지 않은 “막걸리”가 오류가 아닌 것을 판정할 수 있다.
한편, 오류 검출 모듈(80)은 DB에 포함되어 있지 않은 “이산화탄소”가 인식되고, 그 앞의 단어에서 DB에 포함되어 있던 “맛있는”이라는 단어가 인식된 경우, “맛있는 이산화탄소”로 웹사이트 상에서 검색한다면 10개 이하의 검색결과가 나오게 되어, DB에 포함되어 있지 않은 “이산화탄소”가 오류라는 것을 판정할 수 있다.
수정 모듈(90)은 오류 검출 모듈(80)로 검출된 단어와 관련 단어 검출 모듈(70)로 검출된 단어를 비교하여 특정 조건에 부합하면, 관련 단어 검출 모듈(70)에서 검출된 단어로 수정하고, 이를 특정 조건에 따라 달리 표식한다.
또한, 수정 모듈(90)의 특정 조건에 대해 상세히 서술하기로 한다.
수정 모듈(90)은 오류 검출 모듈(80)에서 검출된 단어의 초성이 관련 단어 검출 모듈(70)에서 검출된 단어의 초성과 일치할 경우, 관련 단어 검출 모듈(70)에서 검출된 단어로 수정하고, 이를 표식한다.
또한, 수정 모듈(90)은 오류 검출 모듈(80)에서 검출된 단어의 초성이 관련 단어 검출 모듈(70)에서 검출된 단어의 초성과 일치하고, 중성이 하나 이상 일치할 경우, 관련 단어 검출 모듈(70)에서 검출된 단어로 수정하고, 이를 다르게 표식한다.
또한, 수정 모듈(90)은 오류 검출 모듈(80)에서 검출된 단어의 초성이 관련 단어 검출 모듈(70)에서 검출된 단어의 초성이 일치하고, 중성이 하나 이상 일치하며, 종성이 하나 이상 일치할 경우, 관련 단어 검출 모듈(70)에서 검출된 단어로 수정하고, 이를 또 다르게 표식한다.
일례로, 오류 검출 모듈(80)에서 사전에 없는 음성 인식 오류인 "이산하탓소"를 검출했을 경우, 관련 단어 검출 모듈(70)의 단어(텍스트 취합 모듈(60)로 취합된 된 단어 중 복수회 반복되는 단어) 중, 초성, 중성, 종성이 어느 정도 일치하는지 확인한다.
오류 단어인 "이산하탓소"는 관련 단어 검출 모듈(70)의 단어인 "이산화탄소"와 초성 'ㅇ(이)', 'ㅅ(산)', 'ㅎ(하)', 'ㅌ(탓)', 'ㅅ(소)'로 5개가 일치하고, 중성은 'ㅣ(이)', 'ㅏ(산)', 'ㅏ(탓)', 'ㅗ(소)'로 중성도 4개가 일치하며, 종성에서 'ㄴ'으로 '산'의 'ㄴ'과 1개 일치하고, '탄'의 'ㄴ'과 'ㅅ'이 불일치한다. 이에 따라 본 발명에서는 초성은 모두 일치하고, 중성과 종성은 하나 이상 일치하므로 파란색의 표식을 할 수 있다.
만약, 오류 단어가 "이사하타소"라면, "이산화탄소"와 초성은 5개 모두 일치하고, 중성도 4개가 일치하지만, 종성이 불일치하므로, "이산화탄소"로 수정하고, 파란색과 다른 초록색으로 표식을 할 수 있다.
또한, 오류 단어가 "아선하터서"라면, "이산화탄소"와 초성은 5개 모두 일치하고, 중성은 불일치하며, 종성은 '선'에서 'ㄴ'이 '산'과 일치하여 1개가 일치하지만, 중성이 일치하는 부분이 없으므로 초성만 일치하는 것으로하여, "이산화탄소"로 수정하고 파란색과 초록색을 제외한 자주색으로 표식을 할 수 있다.
또한, 오류 단어나 정정 단어의 초성 또는 종성이 쌍자음(ㄲ, ㄸ, ㅃ, ㅆ, ㅉ)일 경우에는, 쌍자음과 자음이 초성 또는 종성이 동일 범주로 카운트하여 일치 여부를 판단하도록 한다.
보다 상세하게는, 오류 단어가 "눈섭"이라면, "눈썹"과 초성이 1개('ㄴ')가 일치하지만, 된발음으로 인해 "썹"을 "섭"으로 발음하는 경우가 종종 있으므로, '섭'의 자음 'ㅅ'이 쌍자음 'ㅆ'과 일치(동일 범주)한다고 판단하여 초성이 2개가 모두 일치하는 것으로 판단하도록 한다.
또한, 초성, 중성, 종성이 일치하지 않는 경우에는 별도로 표식을 하여 사용자 정정 모듈(100)을 통해 이를 확인하여 수정할 수 있도록 한다.
일례로, "이산화탄소"가 "이사나타스"로 인식될 경우, 초성과 종성이 모두 일치하지 않고, 중성이 'ㅣ(이)', 'ㅏ(산)', 'ㅏ(탄)'으로 3개 일치하는 경우로 상기 기재에 해당하지 않는다. 이는 파란색, 초록색, 자주색을 제외한 별개의 색인 빨간색으로 표식할 수 있다.
또한, 수정 모듈(90)은 오류 검출 모듈(80)에서 검출된 단어의 음성유사도와 관련 단어 검출 모듈(70)에서 검출된 단어의 음성유사도에 기초하여, 관련 단어 검출 모듈(70)에서 검출된 단어로 수정하고, 이를 표식할 수 있다. 예를 들어, 단어의 초성, 중성, 종성에 해당하는 코드 인덱스를 정의한 경우, 오류 검출 모듈(80)에서 검출된 단어의 코드 인덱스 값을 구하고, 관련 단어 검출 모듈(70)에서 검출된 단어들의 코드 인덱스 값들을 구한 후에, 코드 인덱스 값이 동일한 단어를 선택하여 선택된 단어로 수정할 수 있다. 만약 코드 인덱스 값이 동일한 단어가 없는 경우 수정 모듈(90)은 코드 인덱스 값이 가장 유사한 단어를 선택하여 수정할 수 있다.
또한, 수정 모듈(90)은 사용자의 환경에 맞게 적절히 조건을 부가하여 변경 사용할 수도 있음은 물론이다.
사용자 정정 모듈(100)은 수정 모듈(90)로 수정된 부분을 각 다른 표식으로 확인할 수 있고, 텍스트를 정정할 수 있도록 한다.
도 2는 본 발명의 바람직한 실시예에 따른 음성인식 결과에서 오류를 판단하기 위한 방법의 흐름도이다.
일 실시예에 따른, 음성인식 결과에서 오류를 판단하기 위한 방법은 키워드에 따른 검색결과로 인한 텍스트를 추출하여 DB에 저장하는 단계, DB에 저장된 텍스트 중에서 우선순위를 설정하는 단계, DB에 정보가 없는 단어를 검출하는 단계, 검출된 단어가 오류로 인한 인식인지 여부를 판별하는 단계를 포함할 수 있다.
단계 210에서, 시스템(1000)은 웹서버에서 강의 키워드 입력 모듈(40)로 입력된 키워드로 검색하고, 검색결과에 따른 텍스트들을 추출하여 DB에 저장한다.
단계 220에서, 시스템(1000)은 DB에 저장된 텍스트 중에서 우선순위를 설정한다. 예를 들어, 관련 단어 검출 모듈(70)은 취합된 텍스트 중 반복 횟수가 높은 순서로 우선순위를 설정할 수 있다. 또한, 관련 단어 검출 모듈(70)은 취합된 텍스트 중에서 강의자료로부터 직접적으로 취합된 텍스트에 대해 가장 높은 우선순위를 설정할 수 있다.
단계 230에서, 시스템(1000)은 DB에 정보가 없는 단어를 검출한다. 이때, 시스템(1000)은 DB에서 우선 순위가 낮은 단어를 대신 검출할 수도 있다. DB에 저장된 텍스트가 많을 수록 정보가 없는 단어가 존재하지 않을 수도 있으므로, 이때는 우선 순위가 낮은 단어를 검출하여, 상기 단어에 기초하여 오류 여부를 판단할 수 있다.
단계 240에서, 시스템(1000)은 검출된 단어가 음성인식의 오류로 인한 인식인지 여부를 판별할 수 있다. 오류 검출 모듈(80)은 저장된 DB에 포함되어 있지 않은 단어가 인식된 경우, 인식된 단어의 앞 단어나 뒷 단어를 함께 웹에서 검색하여, 함께 쓰는 단어인지 여부를 판단하는 방식으로, 오류 여부를 판단할 수 있다.
도 3은 본 발명의 바람직한 실시예에 따른 음성인식 결과에서 판단된 오류를 수정하기 위한 방법의 흐름도이다.
일 실시예에 따른, 음성인식 결과에서 판단된 오류를 수정하기 위한 방법은 오류 검출 모듈에서 검출된 단어를 관련 단어 검출 모듈에서 검출된 단어와 초성, 중성, 종성을 비교하는 단계, 비교에 따라 단어를 선택하는 단계, 선택된 단어를 이용하여 오류 검출 모듈에서 검출된 단어를 수정하는 단계, 및 수정된 단어를 초성, 중성, 종성의 일치도에 따라 다른 색상으로 표시하는 단계를 포함할 수 있다.
단계 310에서, 시스템(1000)은 오류 검출 모듈에서 검출된 단어를 관련 단어 검출 모듈에서 검출된 단어와 초성, 중성, 종성을 비교한다. 예를 들어 시스템(1000)은 오류 검출 모듈(80)에서 검출된 단어의 초성이 관련 단어 검출 모듈(70)에서 검출된 단어의 초성과 일치하는 지 여부를 판단할 수 있다. 또한, 시스템(1000)은 오류 검출 모듈(80)에서 검출된 단어의 중성 및 종성이 관련 단어 검출 모듈(70)에서 검출된 단어의 중성 및 종성과 일치하는 지 여부를 판단할 수 있다.
단계 320에서, 시스템(1000)은 비교에 따라 단어를 선택하고, 선택된 단어를 이용하여 오류 검출 모듈에서 검출된 단어를 수정한다. 예를 들어, 시스템(1000)은 오류라고 판단된 단어의 초성, 중성, 종성에 가장 유사하게 대응하는 단어를 관련 단어 검출 모듈에서 수집한 DB에서 선택할 수 있다.
단계 330에서, 시스템(1000)은 수정된 단어를 초성, 중성, 종성의 일치도에 따라 다른 색상으로 표시한다. 이와 관련해서는 도 1의 수정 모듈(90)에서 설명되었는 바, 추가적인 설명은 생략한다.
도 4는 본 발명의 다른 실시예에 따른 음성인식 결과에서 판단된 오류를 수정하기 위한 방법의 흐름도이다.
일 실시예에 따른, 음성인식 결과에서 판단된 오류를 수정하기 위한 방법은 오류 검출 모듈에서 검출된 단어를 관련 단어 검출 모듈에서 검출된 단어와 비교하여, 관련 있는 단어들을 검출하는 단계, 선택된 단어들에서 우선순위가 가장 높은 단어로 오류 검출 모듈에서 검출된 단어를 수정하는 단계, 수정된 단어를 다른 색상으로 표시하는 단계를 포함할 수 있다.
단계 410에서, 시스템(1000)은 오류 검출 모듈에서 검출된 단어를 관련 단어 검출 모듈에서 검출된 단어와 비교하여, 관련 있는 단어들을 검출한다. 예를 들어, 시스템(1000)은 오류 검출 모듈(80)에서 검출된 단어의 음성유사도와 관련 단어 검출 모듈(70)에서 검출된 단어의 음성유사도에 기초하여 관련 있는 단어들을 검출할 수 있다. 구체적으로, 시스템(1000)은 단어의 초성, 중성, 종성에 해당하는 코드 인덱스를 정의한 경우, 오류 검출 모듈(80)에서 검출된 단어의 코드 인덱스 값을 구하고, 관련 단어 검출 모듈(70)에서 검출된 단어들의 코드 인덱스 값들을 구한 후에, 코드 인덱스 값이 동일한 단어들을 선택할 수 있다. 코드 인덱스 값이 동일한 단어가 없는 경우 시스템(1000)은 코드 인덱스 값이 가장 유사한 단어들을 선택할 수 있다.
단계 420에서, 시스템(1000)은 선택된 단어들에서 우선순위가 가장 높은 단어로 오류 검출 모듈에서 검출된 단어를 수정한다. 이때, 우선순위는 상술한 바와 같이, DB에서 반복된 횟수 등에 기초하여 설정될 수 있다.
단계 430에서, 시스템(1000)은 수정된 단어를 다른 색상으로 표시한다. 시스템(1000)이 자동으로 수정한 단어를 사용자에게 다른 색상으로 표시하여 사용자 정정 모듈(100)을 통한 정정의 기회를 주기 위함이다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
10 - 강의 녹음 모듈
20 - 잡음 제거 모듈
30 - 텍스트 변환 모듈
40 - 강의 키워드 입력 모듈
50 - 검색 모듈
60 - 텍스트 취합 모듈
70 - 관련 단어 검출 모듈
80 - 오류 검출 모듈
90 - 수정 모듈
100 - 사용자 정정 모듈
1000 - 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템

Claims (7)

  1. 강의의 음성을 녹음하는 강의 녹음 모듈;
    강의 녹음 모듈로 녹음되는 음성을 음성 인식을 수행하여 텍스트로 변환하는 텍스트 변환 모듈;
    강의 녹음 모듈로 녹음되는 강의의 특정 주제와 관련된 키워드를 입력하는 강의 키워드 입력 모듈;
    웹서버에서 강의 키워드 입력 모듈로 입력된 키워드로 검색하고, 웹페이지 내 키워드가 포함된 횟수가 많은 순서대로 검색 결과를 정렬하는 검색 모듈;
    검색 모듈로 검색된 웹페이지 중, 일정 순위까지의 웹페이지에 게시된 텍스트를 추출하여 저장하는 텍스트 취합 모듈;
    텍스트 취합 모듈로 취합된 텍스트 중 특정 조건에 부합하는 단어를 검출하는 관련 단어 검출 모듈;
    텍스트 변환 모듈로 변환된 텍스트 중 정보가 없는 단어를 검출하는 오류 검출 모듈; 및
    오류 검출 모듈로 검출된 단어와 관련 단어 검출 모듈로 검출된 단어를 비교하여 특정 조건에 부합하면, 관련 단어 검출 모듈에서 검출된 단어로 수정하고, 이를 특정 조건에 따라 달리 표식하는 수정 모듈을 포함하는, 강의 음성파일 텍스트 변환 시스템.
  2. 제1항에 있어서,
    수정 모듈로 수정된 부분을 각 다른 표식으로 확인할 수 있고, 텍스트를 정정할 수 있도록 하는 사용자 정정 모듈을 더 포함하는 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템.
  3. 제1항에 있어서,
    수정 모듈은
    오류 검출 모듈에서 검출된 단어의 초성이 관련 단어 검출 모듈에서 검출된 단어의 초성과 일치할 경우, 관련 단어 검출 모듈에서 검출된 단어로 수정하고, 이를 표식하고,
    오류 검출 모듈에서 검출된 단어의 초성이 관련 단어 검출 모듈에서 검출된 단어의 초성과 일치하고, 중성이 하나 이상 일치할 경우, 관련 단어 검출 모듈에서 검출된 단어로 수정하고, 이를 다르게 표식하며,
    오류 검출 모듈에서 검출된 단어의 초성이 관련 단어 검출 모듈에서 검출된 단어의 초성이 일치하고, 중성이 하나 이상 일치하며, 종성이 하나 이상 일치할 경우, 관련 단어 검출 모듈에서 검출된 단어로 수정하고, 이를 또 다르게 표식하는 것을 포함하는 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템.
  4. 제1항에 있어서,
    강의 키워드 입력 모듈은 입력된 키워드마다 가중치를 부여할 수 있고, 검색 모듈로 검색 시 가중치를 적용하여 키워드 포함 횟수를 산출하도록 하는 것을 포함하는 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템.
  5. 제1항에 있어서,
    강의 녹음 모듈로 녹음되는 음성에서 잡음 부분을 제거하면서, 주파수가 사람의 목소리가 조사되는 구간이고, 일정 이하의 음성 주파수가 일정 시간 지속되는 것에 기초하여 강의 녹음 모듈로 녹음되는 음성을 분리하여 저장하는 잡음 제거 모듈을 더 포함하는 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템.
  6. 제1항에 있어서,
    강의 녹음 모듈로 녹음되는 음성에서 잡음 부분을 제거하면서, 강의자의 말이 중단된 부분이 일정 시간동안 검출되지 않는 경우에는 일정 시간 까지만 녹음된 음성파일을 분리하여 저장하는 잡음 제거 모듈을 더 포함하는 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템.
  7. 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환방법으로서,
    녹음되는 강의의 특정 주제와 관련된 키워드를 입력하는 단계;
    상기 키워드에 따른 검색결과로 인한 텍스트를 추출하여 데이터베이스에 저장하는 단계;
    상기 데이터베이스에 저장된 텍스트 중에서 우선순위를 설정하는 단계;
    상기 데이터베이스에 정보가 없거나 상기 우선순위가 미리 결정된 순위보다 낮은 단어를 검출하는 단계;
    상기 검출된 단어가 오류로 인한 인식인지 여부를 상기 검출된 단어의 초성, 중성, 종성을 이용하여 판별하는 단계를 포함하는, 강의 음성파일 텍스트 변환방법.
KR1020180147724A 2018-03-14 2018-11-26 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템 KR102170844B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180147724A KR102170844B1 (ko) 2018-03-14 2018-11-26 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템
PCT/KR2018/016940 WO2020111374A1 (ko) 2018-11-26 2018-12-28 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020180029633 2018-03-14
KR1020180029633 2018-03-14
KR1020180147724A KR102170844B1 (ko) 2018-03-14 2018-11-26 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템

Publications (2)

Publication Number Publication Date
KR20190108472A true KR20190108472A (ko) 2019-09-24
KR102170844B1 KR102170844B1 (ko) 2020-10-27

Family

ID=70859719

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180147724A KR102170844B1 (ko) 2018-03-14 2018-11-26 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템

Country Status (2)

Country Link
KR (1) KR102170844B1 (ko)
WO (1) WO2020111374A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129895B (zh) * 2021-04-20 2022-12-30 上海仙剑文化传媒股份有限公司 一种语音检测处理系统
CN116246633B (zh) * 2023-05-12 2023-07-21 深圳市宏辉智通科技有限公司 无线智能物联网会议系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140062247A (ko) * 2012-11-14 2014-05-23 전소연 이동 통신 단말기에서의 강좌 텍스트 데이터 생성 방법과 이를 이용한 이동 통신 단말기
KR20150015703A (ko) * 2013-08-01 2015-02-11 엘지전자 주식회사 음성 인식 장치 및 그 방법
JP2015201185A (ja) * 2014-04-04 2015-11-12 富士通株式会社 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体
KR101590724B1 (ko) * 2014-10-06 2016-02-02 포항공과대학교 산학협력단 음성 인식 오류 수정 방법 및 이를 수행하는 장치
KR20160033563A (ko) * 2014-09-18 2016-03-28 경북대학교 산학협력단 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5576864A (en) * 1978-12-06 1980-06-10 Otsuka Pharmaceut Co Ltd Carbostyril derivative
KR20170036404A (ko) * 2015-09-24 2017-04-03 국민대학교산학협력단 읽기검사 오류분석 방법 및 이를 적용한 읽기검사 오류분석 단말 및 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140062247A (ko) * 2012-11-14 2014-05-23 전소연 이동 통신 단말기에서의 강좌 텍스트 데이터 생성 방법과 이를 이용한 이동 통신 단말기
KR20150015703A (ko) * 2013-08-01 2015-02-11 엘지전자 주식회사 음성 인식 장치 및 그 방법
JP2015201185A (ja) * 2014-04-04 2015-11-12 富士通株式会社 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体
KR20160033563A (ko) * 2014-09-18 2016-03-28 경북대학교 산학협력단 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체
KR101590724B1 (ko) * 2014-10-06 2016-02-02 포항공과대학교 산학협력단 음성 인식 오류 수정 방법 및 이를 수행하는 장치

Also Published As

Publication number Publication date
WO2020111374A1 (ko) 2020-06-04
KR102170844B1 (ko) 2020-10-27

Similar Documents

Publication Publication Date Title
CN109065031B (zh) 语音标注方法、装置及设备
US10176804B2 (en) Analyzing textual data
US10515292B2 (en) Joint acoustic and visual processing
US8504367B2 (en) Speech retrieval apparatus and speech retrieval method
CN106297800B (zh) 一种自适应的语音识别的方法和设备
US9548052B2 (en) Ebook interaction using speech recognition
US10140976B2 (en) Discriminative training of automatic speech recognition models with natural language processing dictionary for spoken language processing
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
WO2002061728A1 (fr) Dispositif de reconnaissance de phrases, procede de reconnaissance de phrases, programme et support
JP2018033048A (ja) メタデータ生成システム
van Esch et al. Future directions in technological support for language documentation
CN112382295A (zh) 语音识别方法、装置、设备及可读存储介质
KR102170844B1 (ko) 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
KR102080409B1 (ko) 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템
San et al. Automated speech tools for helping communities process restricted-access corpora for language revival efforts
Tripathi et al. VEP detection for read, extempore and conversation speech
CN110223206B (zh) 课文专业方向确定方法及系统和解析课件匹配方法及系统
CN114155841A (zh) 语音识别方法、装置、设备及存储介质
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP2014126925A (ja) 情報検索装置および情報検索方法
CN113077792B (zh) 佛学主题词识别方法、装置、设备及存储介质
CN112084777B (zh) 一种实体链接方法
Mansikkaniemi et al. Unsupervised topic adaptation for morph-based speech recognition.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant