KR100381013B1 - 음성인식기를 이용한 자막 입력장치 및 그 방법과 그 기록매체 - Google Patents

음성인식기를 이용한 자막 입력장치 및 그 방법과 그 기록매체 Download PDF

Info

Publication number
KR100381013B1
KR100381013B1 KR10-2000-0077824A KR20000077824A KR100381013B1 KR 100381013 B1 KR100381013 B1 KR 100381013B1 KR 20000077824 A KR20000077824 A KR 20000077824A KR 100381013 B1 KR100381013 B1 KR 100381013B1
Authority
KR
South Korea
Prior art keywords
voice
text data
speech
reliability
recognizer
Prior art date
Application number
KR10-2000-0077824A
Other languages
English (en)
Other versions
KR20020048612A (ko
Inventor
김정세
양재우
이영직
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2000-0077824A priority Critical patent/KR100381013B1/ko
Publication of KR20020048612A publication Critical patent/KR20020048612A/ko
Application granted granted Critical
Publication of KR100381013B1 publication Critical patent/KR100381013B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/025Systems for the transmission of digital non-picture data, e.g. of text during the active part of a television frame
    • H04N7/035Circuits for the digital non-picture data signal, e.g. for slicing of the data signal, for regeneration of the data-clock signal, for error detection or correction of the data signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야
본 발명은 음성인식기를 이용한 자막 입력장치 및 그 방법과 그 기록매체에 관한 것임.
2. 발명이 해결하고자 하는 기술적 과제
본 발명은, 음성인식기를 통해 1차적으로 음성인식을 한 결과인 문자 정보와 신뢰도, 대화자의 변경유무 및 대화 주제의 변경유무 등의 정보를 속기사의 컴퓨터로 보내주고, 속기사로부터 수정정보를 입력받아 방송국의 컴퓨터로 전송하여 비록 인식율이 저하되더라도 생방송중인 다양한 프로그램에 문자 자막의 처리가 가능하도록 한 음성인식기를 이용한 자막 입력장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 음성인식기를 이용한 자막 입력장치에 있어서, 출력수단을 통해 전달되는 음성신호의 주파수 성분을 분석하여 화자별로 음성의 특성을 분류하기 위한 화자 분류수단; 상기 출력수단을 통해 전달되는 음성신호를 인식하여 문자 데이터를 추출하고, 그에 따른 신뢰도를 산출하는 음성 인식수단; 상기 음성인식수단을 통해 전달되는 문자 데이터를 이용해 키워드를 추출하여 주제를 분류하기 위한 주제 분류수단; 상기 음성 인식수단을 통해 인식된 문자 데이터를 신뢰도에 따라 화자별/주제별 특성을 반영하여 출력하고, 운용자의 수정사항을 반영하여 출력하기 위한 문자 데이터 편집수단; 및 상기 문자 데이터 편집수단을 통해 수정된 문자 데이터를 문자 코드화하여 자막 방송 시스템으로 전송하기 위한 문자 데이터 전송수단을 포함함.
4. 발명의 중요한 용도
본 발명은 멀티미디어 통신 등에 이용됨.

Description

음성인식기를 이용한 자막 입력장치 및 그 방법과 그 기록매체{Apparatus and Method for caption input using speech recognizer and recording media}
본 발명은 음성인식기를 이용한 자막 입력장치 및 그 방법에 관한 것으로, 보다 상세하게는 방송 프로그램의 음성을 음성인식기를 거치고 인식기의 인식결과인 문자데이터와 함께 음성에 의한 화자정보 및 문자에 의한 주제정보를 참조하여 수정된 문자정보를 자막방송으로 출력하는 자막 입력장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
종래의 자막방송 입력은 녹화 프로그램에 미리 자막을 입력하는 사전제작 방송과 동시에 속기사가 자막을 입력하는 생방송으로 크게 나뉜다. 사전제작 방송은 속기사가 사전에 번역된 원고를 단순히 삽입함으로서 자막 작업에 큰 어려움이 없었으나, 생방송의 경우 실시간으로 발생할 수 있는 프로그램의 특성상 많은 속기사가 필요하다. 보통, 생방송에서 자막 작업은 속기사 네사람이 한 조를 이루어 작업을 하는 경우가 많은데, 나란히 앉은 네 사람 가운데 중앙의 두 속기사는 생방송시 오디오를 모니터하여 타자를 치며, 바깥에 앉아있는 두 사람은 타자된 자막 문자의 교정을 맡는 경우다. 이 경우에는 두 사람이 3초씩 번갈아 가며 오디오에 해당하는 문자를 전면에 비치된 키보드를 통해 입력하면, 두사람은 즉시 교정을 보는 것인데, 이때, 두 어절전의 문자들은 자동으로 자막서버로 전송된다. 여기서, 자막서버는 두대의 PC에서 교정이 완료된 문자들을 모아 순서에 맞게 정렬한 후, 전용선을 통해 방송국의 서버로 전송한다. 따라서, 방송국의 서버에서는 입력된 문자를 클로즈드 캡션 형태의 자막신호로 바꾸어서 송신기를 거쳐 자막방송을 출력한다.
여기서, 클로즈드 캡션 방식의 자막방송은 수화없이는 화면의 대화내용을 알 수 없는 청각장애인을 위하여 개발된 것으로, 현재 일본에서는 음성인식기만을 이용한 실시간 자막방송 시스템을 개발하였으며, 현재 뉴스에 한해서 이 시스템은 운영되고 있다.
그러나, 현재의 음성인식기는 앵커의 목소리만 인식할 경우 인식율이 95-98% 정도이나, 현장에서 전송되는 리포터의 음성은 현장에 따른 잡음으로 인해 인식율이 현저하게 떨어지는 문제점이 있어, 다양한 프로그램 즉, 교양, 스포츠, 쇼 프프로그램에는 적용하기 어려운 문제점이 있었다.
본 발명은, 상기한 바와 같은 문제점을 해결하기 위하여 제안된 것으로, 음성인식기를 통해 1차적으로 음성인식을 한 결과인 문자 정보와 신뢰도, 대화자의 변경유무 및 대화 주제의 변경유무 등의 정보를 속기사의 컴퓨터로 보내주고, 속기사로부터 수정정보를 입력받아 방송국의 컴퓨터로 전송하여 비록 인식율이 저하되더라도 생방송중인 다양한 프로그램에 문자 자막의 처리가 가능하도록 한 음성인식기를 이용한 자막 입력장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공함에 그 목적이 있다.
도 1은 본 발명에 따른 음성 인식기를 이용한 자막 입력장치의 일실시예 구성도.
도 2a 내지 도 2c는 본 발명에 따른 음성인식, 음성 분류 및 주제분류 정보의 일실시예 전송 구조도.
도 3은 본 발명에 따른 음성분류 과정에 대한 일실시예 흐름도.
도 4는 본 발명에 따른 음성인식 과정에 대한 일실시예 흐름도.
도 5는 본 발명에 따른 주제분류 과정에 대한 일실시예 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
110 : TV음성 출력부 120 : 음성 분류부
130 : 음성 인식부 140 : 주제 분류부
150 : 자막 입력 및 수정부 160 : 문자데이터 전송부
상기 목적을 달성하기 위한 본 발명은, 음성인식기를 이용한 자막 입력장치에 있어서, 출력수단을 통해 전달되는 음성신호의 주파수 성분을 분석하여 화자별로 음성의 특성을 분류하기 위한 화자 분류수단; 상기 출력수단을 통해 전달되는 음성신호를 인식하여 문자 데이터를 추출하고, 그에 따른 신뢰도를 산출하는 음성 인식수단; 상기 음성인식수단을 통해 전달되는 문자 데이터를 이용해 키워드를 추출하여 주제를 분류하기 위한 주제 분류수단; 상기 음성 인식수단을 통해 인식된 문자 데이터를 신뢰도에 따라 화자별/주제별 특성을 반영하여 출력하고, 운용자의 수정사항을 반영하여 출력하기 위한 문자 데이터 편집수단; 및 상기 문자 데이터 편집수단을 통해 수정된 문자 데이터를 문자 코드화하여 자막 방송 시스템으로 전송하기 위한 문자 데이터 전송수단을 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명은, 음성인식기를 이용한 자막 입력장치에 적용되는 자막 입력방법에 있어서, 음성 출력부를 통해 전달되는 음성신호의 주파수 성분을 분석하여 화자별로 음성의 특성을 분류하는 제 1 단계; 상기 음성 출력부를 통해 전달되는 음성신호를 인식하기 위하여, 음성 인식기를 통해 문자 데이터를 추출하고, 그에 따른 신뢰도를 산출하는 제 2 단계; 상기 음성 인식기로부터 전달되는 문자 데이터를 이용해 키워드를 추출하여 주제를 분류하는 제 3 단계; 상기 음성 인식기를 통해 인식된 문자 데이터를 신뢰도에 따라 화자별/주제별 특성을 반영하여 출력하고, 운용자의 수정사항을 반영하여 자막입력 및 수정부로 출력하는 제 4 단계; 및 상기 자막입력 및 수정부를 통해 수정된 문자 데이터를 문자 코드화하여 자막 방송 시스템으로 전송하는 제 5 단계를 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명은, 프로세서를 구비한 음성인식기를 이용한 자막 입력장치에, 음성 출력부를 통해 전달되는 음성신호의 주파수 성분을 분석하여 화자별로 음성의 특성을 분류하는 제 1 기능; 상기 음성 출력부를 통해 전달되는 음성신호를 인식하기 위하여, 음성 인식기를 통해 문자 데이터를 추출하고, 그에 따른 신뢰도를 산출하는 제 2 기능; 상기 음성 인식기로부터 전달되는 문자 데이터를 이용해 키워드를 추출하여 주제를 분류하는 제 3 기능; 상기 음성 인식기를 통해 인식된 문자 데이터를 신뢰도에 따라 화자별/주제별 특성을 반영하여 출력하고, 운용자의 수정사항을 반영하여 자막입력 및 수정부로 출력하는 제 4 기능; 및 상기 자막입력 및 수정부를 통해 수정된 문자 데이터를 문자 코드화하여 자막 방송 시스템으로 전송하는 제 5 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
여기서 상술된 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1은 본 발명에 따른 음성 인식기를 이용한 자막 입력장치의 일실시예 구성도이다.
도 1에 도시된 바와같이, 본 발명에 따른 음성인식기를 이용한 자막입력 장치는, TV 음성 출력부(110)를 통해 전달되는 음성신호의 주파수 성분을 분석하여 화자별로 음성의 특성을 분류하기 위한 음성 분류부(120)와, TV 음성출력부(110)를 통해 전달되는 음성신호를 인식하여 문자 데이터를 추출하고 그에 따른 신뢰도를 산출하는 음성 인식부(130)와, 음성 인식부(130)를 통해 전달되는 문자 데이터를 이용해 키워드를 추출하여 주제를 분류하기 위한 주제 분류부(140)와, 음성인식부(130)를 통해 인식된 문자 정보를 신뢰도에 따라 화자별/주제별 특성을 반영하여 출력하고, 운용자의 수정사항을 반영하여 출력하기 위한 자막입력 및 수정부(150) 및 자막입력 및 수정부(150)를 통해 수정된 문자 데이터를 문자 코드화하여 방송국 서버로 전송하기 위한 문자 데이터 송신부(160)를 포함한다.
한편, 상기와 같은 구성으로 이루어진 자막 입력장치의 동작을 살펴보면 다음과 같다.
먼저, TV 음성출력부(110)에서 출력된 연속적인 음성신호는 제 1 음성신호 입력기(121)로 입력된다. 그러면, 상기 제 1 음성신호 입력기(121)는 입력된 음성신호를 음성분류 처리기(122)로 전송한다. 그러면, 음성분류 처리기(122)는 입력받은 음성과 그 전에 입력받은 음성을 비교하여 화자의 변경 유무를 판단하고, 해당 결과를 화자변경 전송기(123)로 전송한다. 즉, 상기 음성분류 처리기(122)는 현재 입력되는 음성 신호를 음성의 주파수 성분, 음레벨, 음색 등을 참조하여 정해진 화자로 분류하고, 이어서 입력되는 음성신호도 동일한 과정을 통해 화자로 분류하는데, 이때 분류된 두 화자의 일치여부는 화자변경 전송기(123)로 전송된다. 상기 화자변경 전송기(123)는 화자의 변경여부를 자막 입력 및 수정부(150)의 표시부(151)로 전송한다.
한편, 제 2음성신호 입력기(131)는 TV 음성출력부(110)에서 출력된 음성신호를 연속적으로 입력받아 음성인식 처리기(132)로 전송한다. 상기 음성인식 처리기(132)는 입력받은 음성신호를 기 저장된 사전을 이용하여 현재의 음성과 적합한 문자데이터 및 그 문자데이터의 신뢰도를 추출하여 인식결과 전송기(133)로 제공한다.
즉, 상기 음성인식 처리기(132)는 확률적으로 계산한 값 중에서 가장 적합한문자 데이터를 추출하며, 이를 백분율(신뢰도)로 환산하여 인식결과 전송기(133)로 전송한다. 여기서, 상기 음성인식 처리기(132)는 추출된 문자 데이터의 신뢰도가 설정된 값 이하이면 즉, 음성인식에 실패할 경우에는 해당 문자데이터를 인식결과 전송기(133)로 송신하지 않는 것이 바람직하다.
상기 인식결과 전송부(133)는 상기 음성인식 처리기(132)로부터 전송된 문자데이터 및 신뢰도를 입력받고, 이를 주제 분류부(140)의 주제분류 처리기(141) 및 자막입력 및 수정부(150)로 각각 전송한다.
상기 주제분류 처리기(141)는 음성 인식 결과인 문자 데이터를 이용하여 주제를 추출하여, 이를 주제변경 전송기(142)로 제공한다. 즉, 상기 주제분류 처리기(141)는 문자 데이터에서 추출한 키워드를 통해 지금 방송하고 있는 내용이 시사 내용인지 아니면 경제내용인지 등을 판단하여 해당 주제를 분류하고, 이 분류된 주제 정보를 주제변경 전송기(142)로 제공한다. 상기 주제변경 전송기(142)는 주제의 변경 여부를 표시부(151) 및 문자데이터 입력 및 수정기(152)로 각각 전송한다.
상기 자막 입력 및 수정부(150)는 주제변경 전송기(142)로부터의 주제 변경정보, 인식결과 전송기(133)로부터의 음성인식 문자 데이터 및 음성 신뢰도 정보 그리고 상기 화자변경 전송기(123)로부터의 화자 변경정보를 표시부(151)를 통해 출력하여 속기사로 하여금 확인하도록 한다.
즉, 상기 음성 인식부(130)로부터 출력되는 음성 인식 데이터 및 음성신뢰도 정보는 표시부(151)로 제공되며, 이때 음성 인식 데이터 즉, 문자정보는 음성 신뢰도에 따라 색으로 구분되어 표시부(151)로 출력된다. 예를들어, 신뢰도가 좋을 경우(90% 이상)에 문자 또는 문장은 파란색, 신뢰도가 나쁠 경우(50%이하)에 문자 또는 문장이 빨간색, 신뢰도가 중간 정도일 경우(50%초과-90미만)에 문자 또는 문장은 노란색으로 출력된다. 따라서, 속기사는 해당 방송의 신뢰도를 용이하게 인지할 수 있다.
또한, 속기사는 표시부(151)로 출력되는 신뢰도의 확인이 가능한 문자정보와 함께 음성 분류부(120)로부터 제공되는 화자의 변경정보 및 주제 분류부(140)로부터 제공되는 주제의 변경정보를 참조하여 음성인식에 따른 오류 상황을 종합적으로 판단한다. 그리고, 상기 음성 인식부(130)에서 출력되는 음성 인식 데이터 즉, 문자정보는 문자데이터 입력 및 수정기(152)로 입력되는데, 이때, 속기사는 표시부(151)를 통해 확인한 오류 문자의 수정결과를 문자데이터 입력 및 수정기(152)로 입력한다.
그러면, 상기 문자데이터 입력 및 수정기(152)는 수정결과에 따른 오류 문자를 수정한 최종적인 문자데이터(자막데이터)를 문자데이터 전송기(153)를 통해 문자데이터 입력기(161)로 전송한다. 그러면, 문자데이터 입력기(161)는 입력된 문자 데이터를 문자코드 발생기(162)로 전달한다. 그러면, 문자코드 발생기(162)가 문자 데이터를 코드로 변경하여 문자코드 전송기(163)로 제공한다. 이에, 상기 문자코드 전송기(163)는 코드화 된 문자 데이터를 방송국으로 전송한다.
도 2a 내지 도 2c는 본 발명에 따른 음성인식, 음성 분류 및 주제분류 정보의 일실시예 전송 구조도이다.
도 2a에 도시된 바와같이, 상기 음성 인식부(130)의 전송데이터 구조는 음성인식 시작 비트, 문자 데이터, 문자데이터 끝 비트, 인식계산값 및 음성인식 끝 비트로 구성된다.
그리고, 도 2b에 도시된 바와같이, 음성 분류부(120)의 전송데이터 구조는 음성분류 시작 비트, 음성분류 구분 비트, 분류 비트 및 음성분류 끝 비트로 구성된다. 여기서, 분류 비트는 음성이 바뀌었는지 않았는지를 구분하는 비트로서, 최초 입력된 음성을 토대로 구분한 음성분류와 차후에 입력되는 음성을 토대로 분류한 음성분류가 동일한지를 나타내는 비트이다.
그리고, 도 2c에 도시된 바와같이, 상기 주제 분류부(140)의 전송데이터 구조는 주제분류 시작 비트, 주제분류 구분 비트, 주제바뀜 비트 및 주제분류 끝 비트로 구성된다. 여기서, 주제바뀜 비트는 주제 분류부(140)에서의 계산 결과인 주제어가 그 전에 계산한 주제어와 동일한지 여부를 나타내는 비트이다.
도 3은 본 발명에 따른 음성분류 과정에 대한 일실시예 흐름도이다.
먼저, 자막 입력장치가 초기화된 상태에서, 티브이의 음성출력부나 마이크를 통해 음성신호를 입력받는다(310, 311). 그리고, 이 입력받은 음성신호를 음레벨, 주파수 성분 등을 참조하여 화자를 분류하는데, 이때 분류된 화자를 "제1음성화자"라 한다(312). 그리고, 티브이의 음성출력부 또는 마이크로부터 계속해서 입력되는 음성신호를 음레벨, 주파수 성분등을 참조하여 화자를 분류하는데, 이때 분류된 화자를 "제2음성화자"라고 설정한다(313). 여기서, "제1음성화자"는 티브이 음성출력부로부터 먼저 출력된 음성신호에서 추출된 정보를 의미하고, "제2음성화자"는"제1음성화자"의 음성신호보다 일정시간 간격을 두고 나중에 입력되는 음성신호에서 추출된 정보를 의미한다.
따라서, 다음과 같이 음성신호의 입력으로 "제1음성화자" 및 "제2음성화자"가 설정되면 두 화자가 동일한지를 판단한다(314). 즉, 계속적으로 입력되는 음성신호의 주파수 성분 및 음레벨을 참조하여 동일한 사람의 음성인지 아닌지를 판단한다. 상기 과정(314)에서 판단한 결과, "제1음성화자"와 "제2음성화자"가 동일한 화자로 판단될 경우에는 동일화자 정보를 자막입력 및 수정부(150)로 전송하고(315), 최근의 음성신호 즉, 최초 "제2음성화자"를 "제1음성화자"로 변경 설정한 후(317)에 음성신호가 계속적으로 입력되는지를 판단하는 과정(318)로 진행한다.
한편, 상기 과정(314)에서 판단한 결과, "제1음성화자"와 "제2음성화자"가 동일한 화자가 아닐 경우에는 화자의 바뀜정보를 자막입력 및 수정부(150)로 전송하고(316), 음성신호가 계속적으로 입력되는지를 판단하며(318), 감지되지 않으면 본 루프를 종료하고, 티브이 음성출력부 또는 마이크로부터 출력되는 음성신호가 감지될 경우에는 상기 과정(313)으로 진행한다.
따라서, 계속적으로 "제1음성화자"와 "제2음성화자"를 비교하여 화자의 변경유무 정보를 자막입력 및 수정부(150)로 제공할 수 있다.
도 4는 본 발명에 따른 음성인식 과정에 대한 일실시예 흐름도이다.
먼저, 자막 입력장치가 초기화된 상태(410)에서 티브이 음성출력부나 외부 마이크로부터 음성신호가 입력되면(411), 내부의 저장된 사전을 이용하여 상기 입력신호와 가장 근접한 문자 데이터를 추출한다(412). 그리고, 이 추출된 문자 데이터가 저장된 사전에 근접한 정도 즉, 음성 신뢰도를 산출한다(413). 상기 단계(413)에서 산출된 문자 데이터에 대한 음성 신뢰도가 설정된 값 이상인지를 판단한다(414).
이때, 상기 과정(414)에서 판단한 결과, 음성 신뢰도가 설정된 값 이상일 경우에는 추출된 문자데이터와 그 문자 데이터에 대한 음성 신뢰도를 자막입력 및 수정부(150)로 전송하고(415), 음성 신뢰도가 설정된 값 이상이 아닐 경우에는 추출된 문자 데이터는 전송하지 않고 해당 음성 신뢰도만을 자막입력 및 수정부(150)로 전송한다(416).
여기서, 음성 신뢰도가 설정된 이하일 경우 음성 신뢰도만을 전송하는 이유는 잘못된 음성인식으로 속기사가 불필요하게 많은 오류 문자를 수정하는 것을 방지하기 위함이다. 따라서, 문자데이터가 입력되지 않을 경우 속기사는 음성 신뢰도가 매우 나쁜 상태를 확인하고, 방송음성을 청취하고 바로 자막을 입력함으로써 업무의 효율성을 높일 수 있다.
한편, 자막입력 및 수정부(150)로 전송되는 문자데이터를 그 음성 신뢰도에 따라 상이한 색상으로 전송하여 자막입력 및 수정부(150)를 통해 자막을 수정하고자 하는 속기사에게 표시한다. 즉, 음성 신뢰도가 좋을때는 파란색, 나쁠때는 빨간색으로, 그 중간일때는 노란색으로 출력하면, 속기사는 표시부(151)를 통해 출력되는 문자 데이터의 색상을 토대로 출력되는 문자 또는 문장의 신뢰도를 용이하게 확인할 수 있다. 따라서, 속기사는 문자 데이터를 수정함에 있어 파란색인 문자 데이터에서는 문자 데이터 오류만을 체크하다가 자막입력 및 수정부(150)로부터 출력되는 문자 데이터정보가 점점 노란색으로 바뀌면 방송음성을 들으면서 타이핑을 할 준비를 하고, 빨간색일 경우가 되면 현재의 음성 신뢰도가 낮음을 인지하고 빠르게 수정할 수 있다.
도 5는 본 발명에 따른 주제분류 과정에 대한 일실시예 흐름도이다.
먼저, 자막 입력장치가 초기화된 상태(510)에서, 음성 인식부(130)로부터 문자정보를 입력받는다(511). 그리고, 이 입력받은 문자정보에서 키워드를 추출하여 이를 "제1주제어"로 설정한다(512). 그리고, 일정시간을 두고 입력되는 문자 정보에서 재차 키워드를 추출하여 이를 "제2주제어"로 설정한다(513). 그리고, 다음과 같이 문자정보를 토대로 추출한 "제1주제어" 및 제2주제어"가 동일한 주제분류에 속하는지를 판단한다(514). 여기서, 주제분류는 기 저장된 분류목록을 이용하여 상기 키워드를 정치, 경제, 시사 등으로 구분하는 것을 의미한다. 또한, 상기 "제1주제어"는 음성 인식부(130)로부터 먼저 출력된 음성신호에서 추출된 정보를 의미하고, "제2주제어"는 "제1주제어"로 지정된 문자 정보보다 일정시간 간격을 두고 나중에 입력되는 문자정보에서 추출된 정보를 의미한다.
따라서, 상기 과정(514)에서 판단한 결과, "제1주제어"와 "제2주제어"가 동일한 주제분류에 속한 키워드인 경우에는 일정시간을 두고 입력되는 두개의 문자 데이터가 동일한 주제임을 자막입력 및 수정부(150)로 전송하고(515), 최근의 "제2주제어"를 "제1주제어"로 변경 설정 한 후(517) 문자정보가 계속 입력되는지를 판단하는 과정(518)로 진행하다.
한편, 상기 과정(514)에서 판단한 결과, "제1주제어"와 "제2주제어"가 동일한 주제분류에 속하지 않을 경우에는 상이한 주제정보로 바뀜을 자막입력 및 수정부(150)로 전송하고(516), 문자정보가 계속 입력되는지를 판단하는 과정(518)으로 진행한다. 따라서, 상기 자막입력 및 수정부(150)의 운용자인 속기사는 현재 입력되는 문자 데이터 및 음성화자 정보와 함께 주제 변경유무를 확인하고 정확한 자막 수정이 가능하게 된다.
이후, 음성 인식부(130)로부터 계속적으로 문자 정보의 입력이 감지되는지를 판단하여(518), 감지되지 않으면 종료하고, 음성 인식부(130)로부터 문자 정보가 입력될 경우, 상기 과정(513)으로 진행한다. 따라서, 기존에 설정된 "제1주제어"와 "제2주제어"의 반복적인 비교를 통해 주제의 변경유무 정보를 계속적으로 자막입력 및 수정부(150)로 제공할 수 있다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 진술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진자에게 있어 명백할 것 이다.
상기와 같은 본 발명은, 음성인식기를 이용하여 1차적으로 음성인식을 한 결과인 문자정보와 함께 음성화자의 변경유무 및 문자정보를 토대로 산출한 문자의 주제 변경유무를 속기사에게 함께 제공함으로써 단순히 인간의 입력에만 의존하는 기존의 자막시스템 보다 안정성을 향상시킬 수 있고, 비용을 절감할 수 있어 음성 인식기만을 이용하는 기존의 시스템에 비해 음성인식에 따른 자막방송의 확장성 및 정확성을 높일 수 있는 효과가 있다.

Claims (7)

  1. 음성인식기를 이용한 자막 입력장치에 있어서,
    출력수단을 통해 전달되는 음성신호의 주파수 성분을 분석하여 화자별로 음성의 특성을 분류하기 위한 화자 분류수단;
    상기 출력수단을 통해 전달되는 음성신호를 인식하여 문자 데이터를 추출하고, 그에 따른 신뢰도를 산출하는 음성 인식수단;
    상기 음성인식수단을 통해 전달되는 문자 데이터를 이용해 키워드를 추출하여 주제를 분류하기 위한 주제 분류수단;
    상기 음성 인식수단을 통해 인식된 문자 데이터를 신뢰도에 따라 화자별/주제별 특성을 반영하여 출력하고, 운용자의 수정사항을 반영하여 출력하기 위한 문자 데이터 편집수단; 및
    상기 문자 데이터 편집수단을 통해 수정된 문자 데이터를 문자 코드화하여 자막 방송 시스템으로 전송하기 위한 문자 데이터 전송수단
    을 포함하는 음성인식기를 이용한 자막 입력장치.
  2. 제 1 항에 있어서,
    상기 음성 인식수단은,
    상기 문자 신뢰도가 기 설정된 임계치 이하일 경우, 상기 추출된 문자 데이터가 상기 문자 데이터 편집수단으로 출력되지 않도록 하는 것을 특징으로 하는 음성인식기를 이용한 자막 입력장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 음성 인식수단은,
    상기 신뢰도에 따라 문자 데이터를 색으로 구분하여 상기 문자 데이터 편집수단으로 전송하는 것을 특징으로 하는 음성인식기를 이용한 자막 입력장치.
  4. 음성인식기를 이용한 자막 입력장치에 적용되는 자막 입력방법에 있어서,
    음성 출력부를 통해 전달되는 음성신호의 주파수 성분을 분석하여 화자별로 음성의 특성을 분류하는 제 1 단계;
    상기 음성 출력부를 통해 전달되는 음성신호를 인식하기 위하여, 음성 인식기를 통해 문자 데이터를 추출하고, 그에 따른 신뢰도를 산출하는 제 2 단계;
    상기 음성 인식기로부터 전달되는 문자 데이터를 이용해 키워드를 추출하여 주제를 분류하는 제 3 단계;
    상기 음성 인식기를 통해 인식된 문자 데이터를 신뢰도에 따라 화자별/주제별 특성을 반영하여 출력하고, 운용자의 수정사항을 반영하여 자막입력 및 수정부로 출력하는 제 4 단계; 및
    상기 자막입력 및 수정부를 통해 수정된 문자 데이터를 문자 코드화하여 자막 방송 시스템으로 전송하는 제 5 단계
    를 포함하는 음성인식기를 이용한 자막 입력방법.
  5. 제 4 항에 있어서,
    상기 음성 인식기는,
    상기 문자 신뢰도가 기 설정된 임계치 이하일 경우, 상기 추출된 문자 데이터가 상기 자막입력 및 수정부로 출력되지 않도록 하는 것을 특징으로 하는 음성인식기를 이용한 자막 입력방법.
  6. 제 4 항 또는 제 5 항에 있어서,
    상기 음성 인식기는,
    상기 신뢰도에 따라 문자 데이터를 색으로 구분하여 상기 문자 데이터 편집수단으로 전송하는 것을 특징으로 하는 음성인식기를 이용한 자막 입력방법.
  7. 프로세서를 구비한 음성인식기를 이용한 자막 입력장치에,
    음성 출력부를 통해 전달되는 음성신호의 주파수 성분을 분석하여 화자별로 음성의 특성을 분류하는 제 1 기능;
    상기 음성 출력부를 통해 전달되는 음성신호를 인식하기 위하여, 음성 인식기를 통해 문자 데이터를 추출하고, 그에 따른 신뢰도를 산출하는 제 2 기능;
    상기 음성 인식기로부터 전달되는 문자 데이터를 이용해 키워드를 추출하여 주제를 분류하는 제 3 기능;
    상기 음성 인식기를 통해 인식된 문자 데이터를 신뢰도에 따라 화자별/주제별 특성을 반영하여 출력하고, 운용자의 수정사항을 반영하여 자막입력 및 수정부로 출력하는 제 4 기능; 및
    상기 자막입력 및 수정부를 통해 수정된 문자 데이터를 문자 코드화하여 자막 방송 시스템으로 전송하는 제 5 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR10-2000-0077824A 2000-12-18 2000-12-18 음성인식기를 이용한 자막 입력장치 및 그 방법과 그 기록매체 KR100381013B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2000-0077824A KR100381013B1 (ko) 2000-12-18 2000-12-18 음성인식기를 이용한 자막 입력장치 및 그 방법과 그 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2000-0077824A KR100381013B1 (ko) 2000-12-18 2000-12-18 음성인식기를 이용한 자막 입력장치 및 그 방법과 그 기록매체

Publications (2)

Publication Number Publication Date
KR20020048612A KR20020048612A (ko) 2002-06-24
KR100381013B1 true KR100381013B1 (ko) 2003-04-26

Family

ID=27682822

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0077824A KR100381013B1 (ko) 2000-12-18 2000-12-18 음성인식기를 이용한 자막 입력장치 및 그 방법과 그 기록매체

Country Status (1)

Country Link
KR (1) KR100381013B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101014661B1 (ko) * 2003-10-30 2011-02-16 삼성전자주식회사 멀티미디어 콘텐츠 관리 시스템 및 그 방법
KR101890141B1 (ko) 2017-09-12 2018-08-21 숭실대학교산학협력단 자막 신뢰성 검증 장치 및 방법, 이를 수행하기 위한 기록 매체

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9236047B2 (en) * 2010-05-21 2016-01-12 Microsoft Technology Licensing, Llc Voice stream augmented note taking
KR102044689B1 (ko) * 2017-04-24 2019-12-04 주식회사 소리보기 방송자막 제작 시스템 및 방법
KR102334310B1 (ko) 2018-12-19 2021-12-03 주식회사 딕토 전사작업 매칭서버 및 그 동작방법
KR102185183B1 (ko) * 2019-04-24 2020-12-01 주식회사 한국스테노 방송 자막 제작 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990037776A (ko) * 1999-01-19 1999-05-25 고정현 음성인식자동번역및통역장치
KR20000033518A (ko) * 1998-11-24 2000-06-15 정선종 네트워크를 이용한 음성 언어 번역 시스템 및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000033518A (ko) * 1998-11-24 2000-06-15 정선종 네트워크를 이용한 음성 언어 번역 시스템 및 그 방법
KR19990037776A (ko) * 1999-01-19 1999-05-25 고정현 음성인식자동번역및통역장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101014661B1 (ko) * 2003-10-30 2011-02-16 삼성전자주식회사 멀티미디어 콘텐츠 관리 시스템 및 그 방법
KR101890141B1 (ko) 2017-09-12 2018-08-21 숭실대학교산학협력단 자막 신뢰성 검증 장치 및 방법, 이를 수행하기 위한 기록 매체

Also Published As

Publication number Publication date
KR20020048612A (ko) 2002-06-24

Similar Documents

Publication Publication Date Title
US9762963B2 (en) Method and apparatus for controlling play of an audio signal
US10304458B1 (en) Systems and methods for transcribing videos using speaker identification
US6332122B1 (en) Transcription system for multiple speakers, using and establishing identification
JP3953886B2 (ja) 字幕抽出装置
US20070011012A1 (en) Method, system, and apparatus for facilitating captioning of multi-media content
US8538753B2 (en) Generating representations of group interactions
CN102937972B (zh) 一种视听字幕制作系统及方法
KR102044689B1 (ko) 방송자막 제작 시스템 및 방법
WO2008050649A1 (fr) Système, procédé et programme de récapitulation de contenu
JP2005503590A (ja) 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正
CN109257547A (zh) 中文在线音视频的字幕生成方法
KR100381013B1 (ko) 음성인식기를 이용한 자막 입력장치 및 그 방법과 그 기록매체
JP3873926B2 (ja) 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
JPH11352992A (ja) 複数ワ―ドを表示する方法および装置
González-Carrasco et al. Sub-sync: Automatic synchronization of subtitles in the broadcasting of true live programs in spanish
JP4934090B2 (ja) 番組登場人物抽出装置及び番組登場人物抽出プログラム
JP5022193B2 (ja) 字幕監視装置及び字幕監視プログラム
KR101072347B1 (ko) 동영상 상황정보 어노테이션 방법 및 장치
JP2000206987A (ja) 音声認識装置
JP2003186491A (ja) 電子化テキスト作成支援システム
JP2000010578A (ja) 音声メッセージ送受信システム、及び音声メッセージ処理方法
JP2020178262A (ja) 生字幕整形処理装置及びプログラム
CN116233540B (zh) 基于视频图像识别的并行信号处理方法及系统
CN116645954B (zh) 一种采用ai拟声的ip广播系统
JPH10224520A (ja) マルチメディア公衆電話システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120330

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20130325

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20160406

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20170405

Year of fee payment: 15

LAPS Lapse due to unpaid annual fee