KR102562692B1 - 문장 구두점 제공 시스템 및 방법 - Google Patents

문장 구두점 제공 시스템 및 방법 Download PDF

Info

Publication number
KR102562692B1
KR102562692B1 KR1020200129818A KR20200129818A KR102562692B1 KR 102562692 B1 KR102562692 B1 KR 102562692B1 KR 1020200129818 A KR1020200129818 A KR 1020200129818A KR 20200129818 A KR20200129818 A KR 20200129818A KR 102562692 B1 KR102562692 B1 KR 102562692B1
Authority
KR
South Korea
Prior art keywords
punctuation
punctuation mark
marks
mark
text
Prior art date
Application number
KR1020200129818A
Other languages
English (en)
Other versions
KR102562692B9 (ko
KR20220046771A (ko
Inventor
이현빈
조지훈
송수근
김미경
강태근
백민호
Original Assignee
(주)에어사운드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)에어사운드 filed Critical (주)에어사운드
Priority to KR1020200129818A priority Critical patent/KR102562692B1/ko
Publication of KR20220046771A publication Critical patent/KR20220046771A/ko
Application granted granted Critical
Publication of KR102562692B1 publication Critical patent/KR102562692B1/ko
Publication of KR102562692B9 publication Critical patent/KR102562692B9/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 일 실시예에 따른 문장 구두점 제공 시스템은, 텍스트 문장을 추출하기 위한 음성파일을 입력받는 음성파일입력부; 상기 음성파일입력부를 통하여 입력된 음성파일을 인식하여, 해당 음성에 해당하는 텍스트를 추출하는 STT 엔진; 상기 STT 엔진을 통하여 추출된 텍스트를 사용자가 확인할 수 있도록 출력하는 텍스트출력부; 상기 추출된 텍스트의 구두점을 결정하기 위해 문자 패턴 데이터베이스를 기반으로 구두점 결정 알고리즘을 수행하는 구두점결정부; 문자 패턴을 기반으로 한 구두점 결정에 의해 해당 구두점을 상기 추출된 텍스트에 삽입하는 구두점삽입부를 포함할 수 있다.

Description

문장 구두점 제공 시스템 및 방법{System and method for providing sentence punctuation}
본 발명은 문장 구두점 제공 시스템에 관한 것으로, 더욱 상세하게는 문자 패턴 별로 데이터베이스를 저장하고, 문자 패턴을 분석하여 구두점을 결정할 수 있는 문장 구두점 제공 시스템에 관한 것이다.
교육, 문화, 취미 등 한국어로 된 다양한 컨텐츠가 세계적으로 인기를 끌면서 한국어 또한 여러 관심을 받고 있다. 이에 따라 컨텐츠 안의 한국어 내용들을 외국어로 번역하여 제공하는 것 또한 중요한 일이 되었다.
한국어 음성으로 나오는 내용들을 텍스트화 하는 과정은 필수적인 요소가 되었으며, 이를 위하여 음성을 텍스트(Text)로 변환하는 기술을 STT(Speech-to-Text)라고 한다. STT는 컨텐츠 속 음성을 텍스트화하는 것뿐만 아니라, 원격 회의와 같이 음성 대화를 주고받는 시스템에서 대화 내용을 기록하고 정리하는 일에 중요한 역할을 한다. 기계학습의 발전과 함께 음성처리 그리고 자연어처리 기술 수준이 높아지면서 STT의 성능이 점점 개선되고 있다.
그러나 문장 그리고 문서화 완성도가 인간이 기대한 바에 아직 미치지 못하고 있으며 특히, 마침표나 물음표와 같은 구두점(문장부호)에 대한 표시는 많이 미흡하다. 구두점은 평서문, 감탄문, 의문문, 명령문, 청유형 등의 문장 유형을 결정하는 중요한 요소이다.
종래의 STT 텍스트 변환 결과로 텍스트화된 문장들에 구두점을 제공하는 대표적인 방법은 종결어미 분석 알고리즘에 의해 구두점에 따른 종결 어미들을 구분하여 해당 문장에서 특정 종결 어미가 등장할 때마다 종결 어미와 연결되는 해당 구두점을 삽입하는 것이다. 예를 들어, '-ㄴ다', '-니라', '-아요'와 같은 종결 어미가 등장할 경우 마침표를 삽입하고 '-나', '-ㄴ가', '-ㄹ까'와 같은 종결 어미가 등장할 경우 물음표를 삽입하는 것이다.
최근의 유튜브(YOUTUBE), 비메오(VIMEO)와 같은 동영상 컨텐츠 제공 플랫폼 그리고 ZOOM, 웹엑스(Webex), 스카이프(Skype)와 같은 화상 회의 플랫폼에서는 대화형 문체가 많은 부분을 차지하고 있으며, 그 속에서는 도치, 단답, 말흐림, 말끊기 등 다양한 형태의 문장들이 등장하지만, 기존의 종결 어미 분류를 통한 구두점 제공 방법으로는 다양한 경우들에 대해서 해결할 수 없다.
따라서, 전술한 문제를 해결하기 위하여 문자 패턴별로 데이터베이스를 저장하고, 문자 패턴을 분석하여 구두점을 결정할 수 있는 문장 구두점 제공 시스템 및 방법에 대한 연구가 필요하게 되었다.
한국등록특허 제10-1259558호(2013년04월24일 등록)
본 발명의 목적은 서적, 인터넷 백과사전, 라디오 스크립트, 동영상 컨텐츠 스크립트 등 여러 대화체 텍스트(문서) 속에서의 구두점 전의 2-gram, 3-gram 또는 그 이상 문자 단위의 문자 패턴 자료 수집과 분석을 통해 올바른 구두점을 삽입 또는 보정하도록 하는 문장 구두점 제공 시스템 및 방법을 제공하는 것이다.
본 발명의 일 실시예에 따른 문장 구두점 제공 시스템은, 텍스트 문장을 추출하기 위한 음성파일을 입력받는 음성파일입력부; 상기 음성파일입력부를 통하여 입력된 음성파일을 인식하여, 해당 음성에 해당하는 텍스트를 추출하는 STT 엔진; 상기 STT 엔진을 통하여 추출된 텍스트를 사용자가 확인할 수 있도록 출력하는 텍스트출력부; 상기 추출된 텍스트의 구두점을 결정하기 위해 문자 패턴 데이터베이스를 기반으로 구두점 결정 알고리즘을 수행하는 구두점결정부; 문자 패턴을 기반으로 한 구두점 결정에 의해 해당 구두점을 상기 추출된 텍스트에 삽입하는 구두점삽입부를 포함한다.
상기 구두점결정부는 종결어미 분석 알고리즘을 통해 구두점을 결정하는 종결어미분석부와, 문자 패턴을 기반으로 구두점을 결정하도록 문자 패턴 데이터를 제공하는 문자 패턴 데이터베이스를 더 포함하며, 상기 구두점결정부는 상기 종결어미분석부를 통해 삽입할 구두점을 우선적으로 결정하고, 구두점을 결정하지 못하거나, 올바르지 못한 구두점이 결정되는 경우 상기 문자 패턴 데이터베이스를 활용하여 구두점을 결정하는 것을 특징으로 한다.
상기 구두점결정부는 전체 구두점을 기준으로 특정 구두점의 비중을 계산하여, 구두점 결정 기준값인 임계값을 초과하는지 여부에 따라 임계값 초과시 해당 구두점을 삽입하도록 결정하는 것을 특징으로 한다.
본 발명의 일 실시예에 따른 문장 구두점 제공 방법은, 종결 어미 분석 알고리즘을 통한 구두점 결정을 이용하여, 음성파일로부터 STT 엔진을 통해 추출된 텍스트에 포함된 종결 어미에 상호 연결되는 구두점 삽입을 수행하는 단계; 상기 구두점 삽입시, 종결 어미가 모호하여 구두점이 삽입되지 않거나 문장 구조상 올바르지 않은 구두점이 삽입되는 경우 문자 패턴을 기반으로 하는 구두점 결정을 수행하는 단계; 상기 구두점 결정에 의해 추출된 텍스트에 구두점 삽입을 수행하는 단계를 포함한다.
상기 구두점 결정시 전체 구두점을 기준으로 특정 구두점의 비중을 계산하여, 구두점 결정 기준값인 임계값을 초과하는지 여부에 따라 임계값 초과시 해당 구두점을 결정하는 것을 특징으로 한다.
상기 임계값은 구두점을 삽입하도록 결정하기 위한 설정값이며, 구두점 삽입의 정확도 또는 실시간 구두점 제공의 속도를 고려하여 설정하는 것을 특징으로 한다.
본 발명의 문장 구두점 제공 시스템은 대량의 문서들로부터 구두점 전의 문자들의 패턴을 분석하여 데이터베이스화하고, 이를 기반으로 적절한 구두점을 제공할 수 있다.
또한, 다양한 형태의 문장이 존재하는 STT 변환 결과에서 기존의 종결 어미 분류를 통해 구두점을 삽입하는 과정을 선행한 뒤에, 이 과정에서 해결하지 못하는 경우들에 대하여 수집한 데이터베이스 기반으로 삽입 또는 보정할 수 있다.
본 발명의 구두점 제공 기술은 해당 문서 내용의 분야(경제, 컴퓨터, 정치 등) 또는 목적(강의, 회의 등)에 따라 데이터베이스를 한정시켜 구두점 제공의 정확도 및 구두점 삽입 속도의 성능을 높일 수 있다.
도 1은 본 발명의 일 실시예에 따른 문장 구두점 제공 시스템의 개념을 전체적으로 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 문장 구두점 제공 방법의 N-gram 문자 패턴 데이터베이스 기반 구두점 삽입 과정을 나타낸 순서도이다.
이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.
도 1은 본 발명의 일 실시예에 따른 문장 구두점 제공 시스템의 개념을 전체적으로 설명하기 위한 블록도이다.
본 발명의 문장 구두점 제공 시스템은, 한국어 음성파일의 STT 텍스트 변환 결과로 텍스트 파일이 생성되면 기존의 종결 어미 분류 알고리즘을 통해 구두점을 삽입하는 과정을 선행한다. 선행 과정에서 해결하지 못한, 종결 어미가 모호하여 구두점이 삽입되지 않거나 올바르지 않을 경우에는 분석한 문자 패턴 데이터베이스를 바탕으로 구두점을 결정하여 삽입 또는 보정한다.
한국어를 외국어로 번역하는 과정에서 가장 영향을 미치는 구두점은 물음표이다. 문자 패턴 데이터베이스를 바탕으로 물음표의 가능성이 높은 문자 패턴부터 물음표를 삽입하고 그 이외에 구두점에 대해서는 마침표를 삽입하여 구두점을 제공한다.
상술한 기능을 수행하기 위해 문장 구두점 제공 시스템은, 구체적으로 도 1을 참조하면, 음성파일입력부(100), STT 엔진(200), 텍스트출력부(300), 구두점결정부(400), 구두점삽입부(500)를 더 포함한다.
음성파일입력부(100)는 텍스트 문장을 추출하기 위한 음성파일을 입력받는 역할을 수행한다.
STT 엔진(200)은 음성파일입력부(100)를 통하여 입력된 음성파일을 인식하여, 해당 음성에 해당하는 텍스트(문장)를 추출한다.
텍스트출력부(300)는 STT 엔진(200)을 통하여 추출된 텍스트를 사용자가 확인할 수 있도록 디스플레이 수단(미도시) 등을 통하여 표시(출력)할 수 있다.
구두점결정부(400)는 추출된 텍스트의 구두점을 결정하기 위해 문자 패턴 데이터베이스를 기반으로 후술할 구두점 결정 알고리즘을 수행한다.
이를 위해 구두점결정부(400)는 종결어미 분석 알고리즘을 통해 구두점을 결정하는 종결어미분석부(410)와, 문자 패턴을 기반으로 구두점을 결정하도록 문자 패턴 데이터를 제공하는 문자 패턴 데이터베이스(420)를 더 포함한다.
여기서 종결어미 분석 알고리즘은 구두점에 따른 종결 어미들을 구분하여 해당 문장에서 특정 종결 어미가 등장할 때마다 종결 어미와 연결되는 해당 구두점을 삽입하도록 결정하는 것이 될 수 있다.
또한 구두점결정부(400)는 종결어미분석부(410)를 통해 삽입할 구두점을 우선적으로 결정하고, 구두점을 결정하지 못하거나, 올바르지 못한 구두점이 결정되는 경우 문자 패턴 데이터베이스(420)를 활용하여 구두점을 결정하도록 한다.
또한 문자 패턴 데이터베이스(420)에는 N-gram 문자 패턴에 대해서 2문자, 3문자 등에 대해서 각각 구분하여, 해당 문자 패턴들을 저장하고, 구두점결정부(400)에서 문자 패턴을 기반으로 하는 구두점 결정 알고리즘 수행시 활용된다.
구두점결정부(400)는 문자 패턴을 기반으로 하는 구두점 결정시, 전체 구두점을 기준으로 특정 구두점의 비중(확률)을 계산하여, 구두점 결정 기준값인 임계값(THRESHOLD)을 초과하는지 여부에 따라 초과하는 경우에 해당 구두점을 삽입하도록 결정할 수 있다.
구두점삽입부(500)는 종결어미 분석을 통한 구두점 결정 또는 문자 패턴 기반 구두점 결정에 의해 결정된 해당 구두점을 추출된 텍스트(문장)에 삽입한다.
도 2는 본 발명의 일 실시예에 따른 문장 구두점 제공 방법의 N-gram 문자 패턴 데이터베이스 기반 구두점 삽입 과정을 나타낸 순서도이다.
도 2를 참조하면, 먼저 종래의 종결 어미 분석 알고리즘을 통한 구두점 결정을 이용하여, 추출된 텍스트(문장)에서 종결 어미에 상호 연결되는 구두점 삽입을 수행한다(S10).
S10 과정에서 결정된 구두점이 제대로 삽입되지 않았다면 N-gram 문자 패턴을 기반으로 하는 구두점 결정 알고리즘에 의해 구두점 삽입을 위한 구두점 결정 과정을 수행한다(S12~S22).
여기서, 제대로 구두점이 삽입되지 않은 경우는 예를 들어 종결 어미가 모호하여 구두점이 삽입되지 않거나 문장 구조상 올바르지 않은 구두점이 삽입되는 경우가 될 수 있다.
즉, S12 단계에서는 구두점 삽입이 제대로 수행되었는지 여부를 판단하는 단계로서, 구두점이 삽입되지 않거나 문장 구조상 올바르지 않은 구두점이 삽입되는 경우에 대해서 판단할 수 있다.
표 1을 참조하면 문자 단위(음절) 수에 해당하는 N은 초기값을 1로 설정하고, 1을 증가시켜, 2-gram 문자 패턴 데이터베이스(420)를 시작으로 특정 문자 패턴에 해당하는 물음표 또는 마침표의 문장 삽입 횟수가 전체 구두점 중에서 얼마나 해당 구두점(물음표, 마침표 등) 패턴 비중으로 치우쳐져 있는지 확인한다(S14, S16).
2-gram 문자 마침표 횟수 물음표 횟수
혹시 27 148
님은 35 91
짜요 ... ...
말요 ... ...
씨는 ... ...
아예 ... ...
... ... ...
전체 구두점을 기준으로 특정 구두점의 비중(확률)을 계산하여, 구두점 결정 기준값인 임계값을 초과하는지 여부는 다음 수학식 1을 통해 계산될 수 있다(S18).
Figure 112020106323494-pat00001
여기서, QCOUNT는 물음표가 나온 경우의 수(횟수)를 나타내고, PCOUNT는 마침표가 나온 경우의 수(횟수)를 나타낸다.
전체 구두점 중에서 특정 구두점의 비중이 설정된 기준치를 나타내는 임계값을 초과한다면 해당 구두점을 삽입한다(S20, S22).
여기서 임계값은 해당 구두점을 삽입하도록 결정하기 위한 설정값이며, 구두점 삽입의 정확도 또는 실시간 구두점 제공의 속도 등을 고려하여 유연하게 설정할 수 있다.
해당 N-gram 문자 패턴 분석에서 임계값을 넘지 않았다면 S16 단계로 복귀하여 문자 패턴을 N+1로 확장하여 다시 물음표와 마침표의 가중치(임계값)를 확인한다. 설정한 임계값을 넘을 때까지 이 과정을 반복하여 구두점 삽입을 완료한다.
즉, 본 실시예에서는 2-gram 문자 패턴 데이터베이스(420)를 기반으로 구두점을 결정하여 삽입하는 과정을 설명하였으나, 3-gram 이상의 문자 패턴 데이터베이스(420)를 활용할 수 있으며, 특히 2-gram 문자 패턴만으로 구두점을 결정하기 어려운 경우에 다음 프로세스로 3-gram, 4-gram 문자 패턴 순으로 구두점 결정을 하기 위해 문자 패턴 데이터베이스(420)를 활용할 수 있다.
구체적으로, 3-gram, 4-gram 등의 문자 패턴에 대해서도 수학식 1을 응용하여 활용하고, 해당 문자 패턴에 대해 설정된 임계값을 비교하여 임계값을 초과하는 경우에 해당 구두점을 삽입하도록 결정할 수 있다.
또한 본 실시예에서는 구두점의 예시로 문장을 끝낼 때 사용하는 대표적인 물음표와 마침표를 예를 들어 구두점을 결정하는 과정을 설명하였지만, 느낌표, 줄임표, 쉼표 등 다양한 구두점에 대해서 경우의 수를 도출하여, 문자 패턴 데이터베이스(420)에 저장하고, 상술한 과정을 통하여 텍스트에 삽입할 구두점을 결정할 수 있다.
나아가 문자 패턴 데이터베이스(420)는 통계적인 수치를 저장하고 있으며, 문장 구두점 결정 횟수가 많을수록 구두점 경우의 수에 대한 통계 데이터가 정확할 수 있으며, 이를 빅데이터화하고, 인공지능 알고리즘을 기반으로 결정된 구두점의 정확도, 구두점 결정 속도 등을 학습 및 예측하고, 예측 결과에 따라 상술한 임계값을 결정하거나, 미세 조정할 수 있다.
여기서 인공지능 알고리즘은 예컨대, SVM(Support Vector Machine), RNN(Recurrent neural network), CNN(Convolution neural network) 알고리즘 등을 활용할 수 있다.
나아가 구두점 삽입 결정을 하기 위해 N-gram의 문자 패턴이 보유하고 있는 데이터베이스(420)를 초과하여 프로세스가 진행할 경우, 모든 N-gram의 문자 패턴 가중치(임계값)의 합산을 비교하여 삽입할 구두점을 결정할 수도 있다.
100 ; 음성파일입력부 200 ; STT 엔진
300 ; 텍스트출력부 400 ; 구두점결정부
410 ; 종결어미분석부 420 ; 문자 패턴 데이터베이스
500 ; 구두점삽입부

Claims (6)

  1. 텍스트 문장을 추출하기 위한 음성파일을 입력받는 음성파일입력부;
    상기 음성파일입력부를 통하여 입력된 음성파일을 인식하여, 해당 음성에 해당하는 텍스트를 추출하는 STT 엔진;
    상기 STT 엔진을 통하여 추출된 텍스트를 사용자가 확인할 수 있도록 출력하는 텍스트출력부;
    상기 추출된 텍스트의 구두점을 결정하기 위해 문자 패턴 데이터베이스를 기반으로 구두점 결정 알고리즘을 수행하는 구두점결정부;
    문자 패턴을 기반으로 한 구두점 결정에 의해 해당 구두점을 상기 추출된 텍스트에 삽입하는 구두점삽입부;를 포함하며,
    상기 구두점결정부는,
    종결어미 분석 알고리즘을 통해 구두점을 결정하는 종결어미분석부와, 문자 패턴을 기반으로 구두점을 결정하도록 문자 패턴 데이터를 제공하는 문자 패턴 데이터베이스를 포함하고,
    상기 문자 패턴 데이터베이스는 N-gram 문자 패턴에 대해서 각각 구분하여 해당 문자 패턴들을 저장하며,
    상기 구두점결정부는,
    전체 구두점을 기준으로 특정 구두점의 비중을 계산하여, 구두점 결정 기준값인 임계값을 초과하는지 여부에 따라 임계값 초과시 해당 구두점을 삽입하도록 결정하되, 상기 전체 구두점의 횟수를 합산한 값과 감산한 값의 비율을 상기 임계값과 비교하는 방식으로 상기 특정 구두점의 비중을 계산하고,
    상기 N-gram 문자 패턴이 보유하고 있는 상기 문자 패턴 데이터베이스를 초과하여 프로세스가 진행할 경우, 모든 N-gram의 문자 패턴 가중치의 합산을 비교하여 삽입할 상기 구두점을 결정하는 문장 구두점 제공 시스템.
  2. 제1항에 있어서,
    상기 구두점결정부는,
    상기 종결어미분석부를 통해 삽입할 구두점을 우선적으로 결정하고, 구두점을 결정하지 못하거나, 올바르지 못한 구두점이 결정되는 경우 상기 문자 패턴 데이터베이스를 활용하여 구두점을 결정하는 것을 특징으로 하는 문장 구두점 제공 시스템.
  3. 삭제
  4. 제1항 또는 제2항의 문장 구두점 제공 시스템을 이용한 문장 구두점 제공 방법에 있어서,
    종결 어미 분석 알고리즘을 통한 구두점 결정을 이용하여, 음성파일로부터 STT 엔진을 통해 추출된 텍스트에 포함된 종결 어미에 상호 연결되는 구두점 삽입을 수행하는 단계;
    상기 구두점 삽입시, 종결 어미가 모호하여 구두점이 삽입되지 않거나 문장 구조상 올바르지 않은 구두점이 삽입되는 경우 문자 패턴을 기반으로 하는 구두점 결정을 수행하는 단계;
    상기 구두점 결정에 의해 추출된 텍스트에 구두점 삽입을 수행하는 단계
    를 포함하는 문장 구두점 제공 방법.
  5. 제4항에 있어서,
    상기 구두점 결정시
    전체 구두점을 기준으로 특정 구두점의 비중을 계산하여, 구두점 결정 기준값인 임계값을 초과하는지 여부에 따라 임계값 초과시 해당 구두점을 결정하는 것을 특징으로 하는 문장 구두점 제공 방법.
  6. 제5항에 있어서,
    상기 임계값은
    구두점을 삽입하도록 결정하기 위한 설정값이며, 구두점 삽입의 정확도 또는 실시간 구두점 제공의 속도를 고려하여 설정하는 것을 특징으로 하는 문장 구두점 제공 방법.
KR1020200129818A 2020-10-08 2020-10-08 문장 구두점 제공 시스템 및 방법 KR102562692B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200129818A KR102562692B1 (ko) 2020-10-08 2020-10-08 문장 구두점 제공 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200129818A KR102562692B1 (ko) 2020-10-08 2020-10-08 문장 구두점 제공 시스템 및 방법

Publications (3)

Publication Number Publication Date
KR20220046771A KR20220046771A (ko) 2022-04-15
KR102562692B1 true KR102562692B1 (ko) 2023-08-02
KR102562692B9 KR102562692B9 (ko) 2024-07-24

Family

ID=81212227

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200129818A KR102562692B1 (ko) 2020-10-08 2020-10-08 문장 구두점 제공 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102562692B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102446966B1 (ko) * 2022-05-12 2022-09-23 김경철 웹브라우저 번역 시스템 및 이를 제공하는 방법
KR102705393B1 (ko) * 2024-03-04 2024-09-11 주식회사 리턴제로 문장 내 상태 정보를 이용한 음성 인식 후처리를 수행하는 전자 장치 및 그의 학습 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012508903A (ja) * 2008-11-12 2012-04-12 エスシーティアイ ホールディングス、インク 自動音声テキスト変換のためのシステムと方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101259558B1 (ko) * 2009-10-08 2013-05-07 한국전자통신연구원 문장경계 인식 장치 및 방법
KR20120042381A (ko) * 2010-10-25 2012-05-03 한국전자통신연구원 음성인식 문장의 문형식별 장치 및 방법
KR102015454B1 (ko) * 2018-01-25 2019-08-28 경희대학교 산학협력단 문서 자동 편집 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012508903A (ja) * 2008-11-12 2012-04-12 エスシーティアイ ホールディングス、インク 自動音声テキスト変換のためのシステムと方法

Also Published As

Publication number Publication date
KR102562692B9 (ko) 2024-07-24
KR20220046771A (ko) 2022-04-15

Similar Documents

Publication Publication Date Title
US11113234B2 (en) Semantic extraction method and apparatus for natural language, and computer storage medium
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
US10176804B2 (en) Analyzing textual data
CN112417102B (zh) 一种语音查询方法、装置、服务器和可读存储介质
KR20180048624A (ko) 질의 응답 시스템의 훈련 장치 및 그것을 위한 컴퓨터 프로그램
CN111753531A (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
US20170308526A1 (en) Compcuter Implemented machine translation apparatus and machine translation method
KR102100951B1 (ko) 기계 독해를 위한 질의응답 데이터 생성 시스템
CN112101010B (zh) 一种基于bert的电信行业oa办公自动化文稿审核的方法
JP2008216341A (ja) 誤り傾向学習音声認識装置及びコンピュータプログラム
CN110717021B (zh) 人工智能面试中获取输入文本和相关装置
KR102562692B1 (ko) 문장 구두점 제공 시스템 및 방법
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
CN114547274B (zh) 多轮问答的方法、装置及设备
CN111613214A (zh) 一种用于提升语音识别能力的语言模型纠错方法
KR20180062003A (ko) 음성 인식 오류 교정 방법
KR101836996B1 (ko) 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
CN110222168A (zh) 一种数据处理的方法及相关装置
KR20230061001A (ko) 문서 교정 장치 및 방법
WO2020199590A1 (zh) 情绪检测分析方法及相关装置
CN110738056A (zh) 用于生成信息的方法和装置
CN117271736A (zh) 一种问答对的生成方法和系统、电子设备及存储介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN114896966B (zh) 一种中文文本语法错误定位方法、系统、设备及介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right