KR20220046771A

KR20220046771A - 문장 구두점 제공 시스템 및 방법

Info

Publication number: KR20220046771A
Application number: KR1020200129818A
Authority: KR
Inventors: 이현빈; 조지훈; 송수근; 김미경; 강태근; 백민호
Original assignee: (주)에어사운드
Priority date: 2020-10-08
Filing date: 2020-10-08
Publication date: 2022-04-15
Also published as: KR102562692B1

Abstract

본 발명의 일 실시예에 따른 문장 구두점 제공 시스템은, 텍스트 문장을 추출하기 위한 음성파일을 입력받는 음성파일입력부; 상기 음성파일입력부를 통하여 입력된 음성파일을 인식하여, 해당 음성에 해당하는 텍스트를 추출하는 STT 엔진; 상기 STT 엔진을 통하여 추출된 텍스트를 사용자가 확인할 수 있도록 출력하는 텍스트출력부; 상기 추출된 텍스트의 구두점을 결정하기 위해 문자 패턴 데이터베이스를 기반으로 구두점 결정 알고리즘을 수행하는 구두점결정부; 문자 패턴을 기반으로 한 구두점 결정에 의해 해당 구두점을 상기 추출된 텍스트에 삽입하는 구두점삽입부를 포함할 수 있다.

Description

문장 구두점 제공 시스템 및 방법{System and method for providing sentence punctuation}

본 발명은 문장 구두점 제공 시스템에 관한 것으로, 더욱 상세하게는 문자 패턴 별로 데이터베이스를 저장하고, 문자 패턴을 분석하여 구두점을 결정할 수 있는 문장 구두점 제공 시스템에 관한 것이다.

교육, 문화, 취미 등 한국어로 된 다양한 컨텐츠가 세계적으로 인기를 끌면서 한국어 또한 여러 관심을 받고 있다. 이에 따라 컨텐츠 안의 한국어 내용들을 외국어로 번역하여 제공하는 것 또한 중요한 일이 되었다.

한국어 음성으로 나오는 내용들을 텍스트화 하는 과정은 필수적인 요소가 되었으며, 이를 위하여 음성을 텍스트(Text)로 변환하는 기술을 STT(Speech-to-Text)라고 한다. STT는 컨텐츠 속 음성을 텍스트화하는 것뿐만 아니라, 원격 회의와 같이 음성 대화를 주고받는 시스템에서 대화 내용을 기록하고 정리하는 일에 중요한 역할을 한다. 기계학습의 발전과 함께 음성처리 그리고 자연어처리 기술 수준이 높아지면서 STT의 성능이 점점 개선되고 있다.

그러나 문장 그리고 문서화 완성도가 인간이 기대한 바에 아직 미치지 못하고 있으며 특히, 마침표나 물음표와 같은 구두점(문장부호)에 대한 표시는 많이 미흡하다. 구두점은 평서문, 감탄문, 의문문, 명령문, 청유형 등의 문장 유형을 결정하는 중요한 요소이다.

종래의 STT 텍스트 변환 결과로 텍스트화된 문장들에 구두점을 제공하는 대표적인 방법은 종결어미 분석 알고리즘에 의해 구두점에 따른 종결 어미들을 구분하여 해당 문장에서 특정 종결 어미가 등장할 때마다 종결 어미와 연결되는 해당 구두점을 삽입하는 것이다. 예를 들어, '-ㄴ다', '-니라', '-아요'와 같은 종결 어미가 등장할 경우 마침표를 삽입하고 '-나', '-ㄴ가', '-ㄹ까'와 같은 종결 어미가 등장할 경우 물음표를 삽입하는 것이다.

최근의 유튜브(YOUTUBE), 비메오(VIMEO)와 같은 동영상 컨텐츠 제공 플랫폼 그리고 ZOOM, 웹엑스(Webex), 스카이프(Skype)와 같은 화상 회의 플랫폼에서는 대화형 문체가 많은 부분을 차지하고 있으며, 그 속에서는 도치, 단답, 말흐림, 말끊기 등 다양한 형태의 문장들이 등장하지만, 기존의 종결 어미 분류를 통한 구두점 제공 방법으로는 다양한 경우들에 대해서 해결할 수 없다.

따라서, 전술한 문제를 해결하기 위하여 문자 패턴별로 데이터베이스를 저장하고, 문자 패턴을 분석하여 구두점을 결정할 수 있는 문장 구두점 제공 시스템 및 방법에 대한 연구가 필요하게 되었다.

한국등록특허 제10-1259558호(2013년04월24일 등록)

본 발명의 목적은 서적, 인터넷 백과사전, 라디오 스크립트, 동영상 컨텐츠 스크립트 등 여러 대화체 텍스트(문서) 속에서의 구두점 전의 2-gram, 3-gram 또는 그 이상 문자 단위의 문자 패턴 자료 수집과 분석을 통해 올바른 구두점을 삽입 또는 보정하도록 하는 문장 구두점 제공 시스템 및 방법을 제공하는 것이다.

본 발명의 일 실시예에 따른 문장 구두점 제공 시스템은, 텍스트 문장을 추출하기 위한 음성파일을 입력받는 음성파일입력부; 상기 음성파일입력부를 통하여 입력된 음성파일을 인식하여, 해당 음성에 해당하는 텍스트를 추출하는 STT 엔진; 상기 STT 엔진을 통하여 추출된 텍스트를 사용자가 확인할 수 있도록 출력하는 텍스트출력부; 상기 추출된 텍스트의 구두점을 결정하기 위해 문자 패턴 데이터베이스를 기반으로 구두점 결정 알고리즘을 수행하는 구두점결정부; 문자 패턴을 기반으로 한 구두점 결정에 의해 해당 구두점을 상기 추출된 텍스트에 삽입하는 구두점삽입부를 포함한다.

상기 구두점결정부는 종결어미 분석 알고리즘을 통해 구두점을 결정하는 종결어미분석부와, 문자 패턴을 기반으로 구두점을 결정하도록 문자 패턴 데이터를 제공하는 문자 패턴 데이터베이스를 더 포함하며, 상기 구두점결정부는 상기 종결어미분석부를 통해 삽입할 구두점을 우선적으로 결정하고, 구두점을 결정하지 못하거나, 올바르지 못한 구두점이 결정되는 경우 상기 문자 패턴 데이터베이스를 활용하여 구두점을 결정하는 것을 특징으로 한다.

상기 구두점결정부는 전체 구두점을 기준으로 특정 구두점의 비중을 계산하여, 구두점 결정 기준값인 임계값을 초과하는지 여부에 따라 임계값 초과시 해당 구두점을 삽입하도록 결정하는 것을 특징으로 한다.

본 발명의 일 실시예에 따른 문장 구두점 제공 방법은, 종결 어미 분석 알고리즘을 통한 구두점 결정을 이용하여, 음성파일로부터 STT 엔진을 통해 추출된 텍스트에 포함된 종결 어미에 상호 연결되는 구두점 삽입을 수행하는 단계; 상기 구두점 삽입시, 종결 어미가 모호하여 구두점이 삽입되지 않거나 문장 구조상 올바르지 않은 구두점이 삽입되는 경우 문자 패턴을 기반으로 하는 구두점 결정을 수행하는 단계; 상기 구두점 결정에 의해 추출된 텍스트에 구두점 삽입을 수행하는 단계를 포함한다.

상기 구두점 결정시 전체 구두점을 기준으로 특정 구두점의 비중을 계산하여, 구두점 결정 기준값인 임계값을 초과하는지 여부에 따라 임계값 초과시 해당 구두점을 결정하는 것을 특징으로 한다.

상기 임계값은 구두점을 삽입하도록 결정하기 위한 설정값이며, 구두점 삽입의 정확도 또는 실시간 구두점 제공의 속도를 고려하여 설정하는 것을 특징으로 한다.

본 발명의 문장 구두점 제공 시스템은 대량의 문서들로부터 구두점 전의 문자들의 패턴을 분석하여 데이터베이스화하고, 이를 기반으로 적절한 구두점을 제공할 수 있다.

또한, 다양한 형태의 문장이 존재하는 STT 변환 결과에서 기존의 종결 어미 분류를 통해 구두점을 삽입하는 과정을 선행한 뒤에, 이 과정에서 해결하지 못하는 경우들에 대하여 수집한 데이터베이스 기반으로 삽입 또는 보정할 수 있다.

본 발명의 구두점 제공 기술은 해당 문서 내용의 분야(경제, 컴퓨터, 정치 등) 또는 목적(강의, 회의 등)에 따라 데이터베이스를 한정시켜 구두점 제공의 정확도 및 구두점 삽입 속도의 성능을 높일 수 있다.

도 1은 본 발명의 일 실시예에 따른 문장 구두점 제공 시스템의 개념을 전체적으로 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 문장 구두점 제공 방법의 N-gram 문자 패턴 데이터베이스 기반 구두점 삽입 과정을 나타낸 순서도이다.

이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.

도 1은 본 발명의 일 실시예에 따른 문장 구두점 제공 시스템의 개념을 전체적으로 설명하기 위한 블록도이다.

본 발명의 문장 구두점 제공 시스템은, 한국어 음성파일의 STT 텍스트 변환 결과로 텍스트 파일이 생성되면 기존의 종결 어미 분류 알고리즘을 통해 구두점을 삽입하는 과정을 선행한다. 선행 과정에서 해결하지 못한, 종결 어미가 모호하여 구두점이 삽입되지 않거나 올바르지 않을 경우에는 분석한 문자 패턴 데이터베이스를 바탕으로 구두점을 결정하여 삽입 또는 보정한다.

한국어를 외국어로 번역하는 과정에서 가장 영향을 미치는 구두점은 물음표이다. 문자 패턴 데이터베이스를 바탕으로 물음표의 가능성이 높은 문자 패턴부터 물음표를 삽입하고 그 이외에 구두점에 대해서는 마침표를 삽입하여 구두점을 제공한다.

상술한 기능을 수행하기 위해 문장 구두점 제공 시스템은, 구체적으로 도 1을 참조하면, 음성파일입력부(100), STT 엔진(200), 텍스트출력부(300), 구두점결정부(400), 구두점삽입부(500)를 더 포함한다.

음성파일입력부(100)는 텍스트 문장을 추출하기 위한 음성파일을 입력받는 역할을 수행한다.

STT 엔진(200)은 음성파일입력부(100)를 통하여 입력된 음성파일을 인식하여, 해당 음성에 해당하는 텍스트(문장)를 추출한다.

텍스트출력부(300)는 STT 엔진(200)을 통하여 추출된 텍스트를 사용자가 확인할 수 있도록 디스플레이 수단(미도시) 등을 통하여 표시(출력)할 수 있다.

구두점결정부(400)는 추출된 텍스트의 구두점을 결정하기 위해 문자 패턴 데이터베이스를 기반으로 후술할 구두점 결정 알고리즘을 수행한다.

이를 위해 구두점결정부(400)는 종결어미 분석 알고리즘을 통해 구두점을 결정하는 종결어미분석부(410)와, 문자 패턴을 기반으로 구두점을 결정하도록 문자 패턴 데이터를 제공하는 문자 패턴 데이터베이스(420)를 더 포함한다.

여기서 종결어미 분석 알고리즘은 구두점에 따른 종결 어미들을 구분하여 해당 문장에서 특정 종결 어미가 등장할 때마다 종결 어미와 연결되는 해당 구두점을 삽입하도록 결정하는 것이 될 수 있다.

또한 구두점결정부(400)는 종결어미분석부(410)를 통해 삽입할 구두점을 우선적으로 결정하고, 구두점을 결정하지 못하거나, 올바르지 못한 구두점이 결정되는 경우 문자 패턴 데이터베이스(420)를 활용하여 구두점을 결정하도록 한다.

또한 문자 패턴 데이터베이스(420)에는 N-gram 문자 패턴에 대해서 2문자, 3문자 등에 대해서 각각 구분하여, 해당 문자 패턴들을 저장하고, 구두점결정부(400)에서 문자 패턴을 기반으로 하는 구두점 결정 알고리즘 수행시 활용된다.

구두점결정부(400)는 문자 패턴을 기반으로 하는 구두점 결정시, 전체 구두점을 기준으로 특정 구두점의 비중(확률)을 계산하여, 구두점 결정 기준값인 임계값(THRESHOLD)을 초과하는지 여부에 따라 초과하는 경우에 해당 구두점을 삽입하도록 결정할 수 있다.

구두점삽입부(500)는 종결어미 분석을 통한 구두점 결정 또는 문자 패턴 기반 구두점 결정에 의해 결정된 해당 구두점을 추출된 텍스트(문장)에 삽입한다.

도 2는 본 발명의 일 실시예에 따른 문장 구두점 제공 방법의 N-gram 문자 패턴 데이터베이스 기반 구두점 삽입 과정을 나타낸 순서도이다.

도 2를 참조하면, 먼저 종래의 종결 어미 분석 알고리즘을 통한 구두점 결정을 이용하여, 추출된 텍스트(문장)에서 종결 어미에 상호 연결되는 구두점 삽입을 수행한다(S10).

S10 과정에서 결정된 구두점이 제대로 삽입되지 않았다면 N-gram 문자 패턴을 기반으로 하는 구두점 결정 알고리즘에 의해 구두점 삽입을 위한 구두점 결정 과정을 수행한다(S12~S22).

여기서, 제대로 구두점이 삽입되지 않은 경우는 예를 들어 종결 어미가 모호하여 구두점이 삽입되지 않거나 문장 구조상 올바르지 않은 구두점이 삽입되는 경우가 될 수 있다.

즉, S12 단계에서는 구두점 삽입이 제대로 수행되었는지 여부를 판단하는 단계로서, 구두점이 삽입되지 않거나 문장 구조상 올바르지 않은 구두점이 삽입되는 경우에 대해서 판단할 수 있다.

표 1을 참조하면 문자 단위(음절) 수에 해당하는 N은 초기값을 1로 설정하고, 1을 증가시켜, 2-gram 문자 패턴 데이터베이스(420)를 시작으로 특정 문자 패턴에 해당하는 물음표 또는 마침표의 문장 삽입 횟수가 전체 구두점 중에서 얼마나 해당 구두점(물음표, 마침표 등) 패턴 비중으로 치우쳐져 있는지 확인한다(S14, S16).

2-gram 문자	마침표 횟수	물음표 횟수
혹시	27	148
님은	35	91
짜요	...	...
말요	...	...
씨는	...	...
아예	...	...
...	...	...

전체 구두점을 기준으로 특정 구두점의 비중(확률)을 계산하여, 구두점 결정 기준값인 임계값을 초과하는지 여부는 다음 수학식 1을 통해 계산될 수 있다(S18).

여기서, Q_COUNT는 물음표가 나온 경우의 수(횟수)를 나타내고, P_COUNT는 마침표가 나온 경우의 수(횟수)를 나타낸다.

전체 구두점 중에서 특정 구두점의 비중이 설정된 기준치를 나타내는 임계값을 초과한다면 해당 구두점을 삽입한다(S20, S22).

여기서 임계값은 해당 구두점을 삽입하도록 결정하기 위한 설정값이며, 구두점 삽입의 정확도 또는 실시간 구두점 제공의 속도 등을 고려하여 유연하게 설정할 수 있다.

해당 N-gram 문자 패턴 분석에서 임계값을 넘지 않았다면 S16 단계로 복귀하여 문자 패턴을 N+1로 확장하여 다시 물음표와 마침표의 가중치(임계값)를 확인한다. 설정한 임계값을 넘을 때까지 이 과정을 반복하여 구두점 삽입을 완료한다.

즉, 본 실시예에서는 2-gram 문자 패턴 데이터베이스(420)를 기반으로 구두점을 결정하여 삽입하는 과정을 설명하였으나, 3-gram 이상의 문자 패턴 데이터베이스(420)를 활용할 수 있으며, 특히 2-gram 문자 패턴만으로 구두점을 결정하기 어려운 경우에 다음 프로세스로 3-gram, 4-gram 문자 패턴 순으로 구두점 결정을 하기 위해 문자 패턴 데이터베이스(420)를 활용할 수 있다.

구체적으로, 3-gram, 4-gram 등의 문자 패턴에 대해서도 수학식 1을 응용하여 활용하고, 해당 문자 패턴에 대해 설정된 임계값을 비교하여 임계값을 초과하는 경우에 해당 구두점을 삽입하도록 결정할 수 있다.

또한 본 실시예에서는 구두점의 예시로 문장을 끝낼 때 사용하는 대표적인 물음표와 마침표를 예를 들어 구두점을 결정하는 과정을 설명하였지만, 느낌표, 줄임표, 쉼표 등 다양한 구두점에 대해서 경우의 수를 도출하여, 문자 패턴 데이터베이스(420)에 저장하고, 상술한 과정을 통하여 텍스트에 삽입할 구두점을 결정할 수 있다.

나아가 문자 패턴 데이터베이스(420)는 통계적인 수치를 저장하고 있으며, 문장 구두점 결정 횟수가 많을수록 구두점 경우의 수에 대한 통계 데이터가 정확할 수 있으며, 이를 빅데이터화하고, 인공지능 알고리즘을 기반으로 결정된 구두점의 정확도, 구두점 결정 속도 등을 학습 및 예측하고, 예측 결과에 따라 상술한 임계값을 결정하거나, 미세 조정할 수 있다.

여기서 인공지능 알고리즘은 예컨대, SVM(Support Vector Machine), RNN(Recurrent neural network), CNN(Convolution neural network) 알고리즘 등을 활용할 수 있다.

나아가 구두점 삽입 결정을 하기 위해 N-gram의 문자 패턴이 보유하고 있는 데이터베이스(420)를 초과하여 프로세스가 진행할 경우, 모든 N-gram의 문자 패턴 가중치(임계값)의 합산을 비교하여 삽입할 구두점을 결정할 수도 있다.

100 ; 음성파일입력부 200 ; STT 엔진
300 ; 텍스트출력부 400 ; 구두점결정부
410 ; 종결어미분석부 420 ; 문자 패턴 데이터베이스
500 ; 구두점삽입부

Claims

텍스트 문장을 추출하기 위한 음성파일을 입력받는 음성파일입력부;
상기 음성파일입력부를 통하여 입력된 음성파일을 인식하여, 해당 음성에 해당하는 텍스트를 추출하는 STT 엔진;
상기 STT 엔진을 통하여 추출된 텍스트를 사용자가 확인할 수 있도록 출력하는 텍스트출력부;
상기 추출된 텍스트의 구두점을 결정하기 위해 문자 패턴 데이터베이스를 기반으로 구두점 결정 알고리즘을 수행하는 구두점결정부;
문자 패턴을 기반으로 한 구두점 결정에 의해 해당 구두점을 상기 추출된 텍스트에 삽입하는 구두점삽입부
를 포함하는 문장 구두점 제공 시스템.
제1항에 있어서,
상기 구두점결정부는
종결어미 분석 알고리즘을 통해 구두점을 결정하는 종결어미분석부와, 문자 패턴을 기반으로 구두점을 결정하도록 문자 패턴 데이터를 제공하는 문자 패턴 데이터베이스를 더 포함하며,
상기 구두점결정부는
상기 종결어미분석부를 통해 삽입할 구두점을 우선적으로 결정하고, 구두점을 결정하지 못하거나, 올바르지 못한 구두점이 결정되는 경우 상기 문자 패턴 데이터베이스를 활용하여 구두점을 결정하는 것을 특징으로 하는 문장 구두점 제공 시스템.
제2항에 있어서,
상기 구두점결정부는
전체 구두점을 기준으로 특정 구두점의 비중을 계산하여, 구두점 결정 기준값인 임계값을 초과하는지 여부에 따라 임계값 초과시 해당 구두점을 삽입하도록 결정하는 것을 특징으로 하는 문장 구두점 제공 시스템.
제1항 내지 제3항 중 어느 한 항의 문장 구두점 제공 시스템을 이용한 문장 구두점 제공 방법에 있어서,
종결 어미 분석 알고리즘을 통한 구두점 결정을 이용하여, 음성파일로부터 STT 엔진을 통해 추출된 텍스트에 포함된 종결 어미에 상호 연결되는 구두점 삽입을 수행하는 단계;
상기 구두점 삽입시, 종결 어미가 모호하여 구두점이 삽입되지 않거나 문장 구조상 올바르지 않은 구두점이 삽입되는 경우 문자 패턴을 기반으로 하는 구두점 결정을 수행하는 단계;
상기 구두점 결정에 의해 추출된 텍스트에 구두점 삽입을 수행하는 단계
를 포함하는 문장 구두점 제공 방법.
제4항에 있어서,
상기 구두점 결정시
전체 구두점을 기준으로 특정 구두점의 비중을 계산하여, 구두점 결정 기준값인 임계값을 초과하는지 여부에 따라 임계값 초과시 해당 구두점을 결정하는 것을 특징으로 하는 문장 구두점 제공 방법.
제5항에 있어서,
상기 임계값은
구두점을 삽입하도록 결정하기 위한 설정값이며, 구두점 삽입의 정확도 또는 실시간 구두점 제공의 속도를 고려하여 설정하는 것을 특징으로 하는 문장 구두점 제공 방법.