KR20220121455A - Stt를 활용한 화자구분 시스템 - Google Patents

Stt를 활용한 화자구분 시스템 Download PDF

Info

Publication number
KR20220121455A
KR20220121455A KR1020210025544A KR20210025544A KR20220121455A KR 20220121455 A KR20220121455 A KR 20220121455A KR 1020210025544 A KR1020210025544 A KR 1020210025544A KR 20210025544 A KR20210025544 A KR 20210025544A KR 20220121455 A KR20220121455 A KR 20220121455A
Authority
KR
South Korea
Prior art keywords
speakers
text
unit
voice
conversation
Prior art date
Application number
KR1020210025544A
Other languages
English (en)
Other versions
KR102666826B1 (ko
Inventor
박서현
이용재
Original Assignee
박서현
이용재
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박서현, 이용재 filed Critical 박서현
Priority to KR1020210025544A priority Critical patent/KR102666826B1/ko
Priority claimed from KR1020210025544A external-priority patent/KR102666826B1/ko
Publication of KR20220121455A publication Critical patent/KR20220121455A/ko
Application granted granted Critical
Publication of KR102666826B1 publication Critical patent/KR102666826B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 STT를 활용한 화자구분 시스템에 관한 것으로, 보다 상세하게는 STT를 활용하여 화자들간의 대화내용을 텍스트로 저장하고 이를 구분하는 화자구분 시스템에 관한 것이다.
본 발명의 일 실시예에 따른 화자구분 시스템은, 복수의 화자로부터 발생되는 음성신호가 입력되는 음성신호입력부와, 상기 음성신호입력부로부터 입력된 복수의 화자의 음성 주파수를 각각 추출하고, 주파수 대역을 분석하여 복수의 화자를 구분하는 화자구분부와, 상기 화자구분부로부터 구분된 화자들간의 대화를 STT를 활용하여 텍스트로 변환하는 STT변환부 및 상기 STT변환부를 통해 구분된 화자들간의 대화 텍스트를 사용자들의 휴대단말기로 제공하는 출력부를 포함한다.

Description

STT를 활용한 화자구분 시스템{Speaker classification system using STT}
본 발명은 STT를 활용한 화자구분 시스템에 관한 것으로, 보다 상세하게는 STT를 활용하여 화자들간의 대화내용을 텍스트로 저장하고 이를 구분하는 화자구분 시스템에 관한 것이다.
본 명세서에서 달리 표시되지 않는 한, 이 섹션에 설명되는 내용들은 이 출원의 청구항들에 대한 종래 기술이 아니며, 이 섹션에 포함된다고 하여 종래 기술이라고 인정되는 것은 아니다.
이동통신 기술의 발달과 함께 기지국으로부터 전파가 수신되는 위치에서는 얼마든지 음성통화가 가능하게 되었고, 현재는 휴대단말기가 단순한 전화기능뿐만 아니라 영상통화나 그룹통화 등과 같이 여러명의 화자가 동시에 통화할 수 있으며,이렇게 통화한 내용을 녹음하고 다시듣는 기능까지도 제공되고 있다. 휴대단말기를 통해 전화통화하는 경우, 단말기 자체에 형성된 녹음버튼을 눌러 통화내용을 녹음하거나 별도의 녹음관련 어플리케이션을 사용하여 통화내용을 녹음해 파일로 저장할 수 있다.
그러나 이러한 녹음파일은 하나의 단일파일로 저장되므로, 특정시간의 대화내용이나 특정 화자가 언급한 대화내용만을 선택해서 듣는 것에는 한계가 존재하고, 녹음파일 중간의 특정단어나 문장을 찾기 위해서는 녹음파일을 처음부터 들어야 하는 문제점이 있었다. 이런 문제를 해결하기 위하여, 화자들이 서로 통화하는 내용을 텍스트로 변환하여 저장하고, 변환된 텍스트파일을 통해 통화내용을 검색하여 원하는 대화내용이나 문구를 찾을 수 있는 기술이 개시되어 있다. 그에 대한 일 예로, 대한민국 등록특허 제10-2136393호에서는 "통화 음성으로부터 변환된 텍스트를 관리하는 장치 및 방법"을 개시하는데, 보다 상세하게는 서비스 가입자의 통화 음성을 텍스트 변환하고, 변환된 텍스트를 관리하는 장치는, 서비스 가입자가 발신자 또는 수신자가 되는 통화의 음성 데이터를 수신하는 수신부; 수신된 음성 데이터를 발신 음성 데이터 및 수신 음성 데이터로 각각 분류하는 분류부; 분류된 음성 데이터를 발신 텍스트 및 수신 텍스트의 데이터로 각각 변환하는 변환부; 변환된 발신자의 발신 텍스트 및 수신자의 수신 텍스트를 구분하고 시간순으로 나열하여 통화 텍스트를 생성하는 통화 텍스트부; 및 서비스 가입자의 요청에 의해, 생성된 통화 텍스트를 조회하여 서비스 가입자의 단말로 제공하는 제공부를 포함한다.
그러나 상기와 같이 통화 음성으로부터 텍스트로 변환한 데이터는 우선 통화를 종료한 이후 통화 데이터로부터 발신통화데이터와 수신통화데이터를 분류하고 이를 텍스트로 변환하여 저장한 이후 통화내용을 텍스트로 제공해줄 수 있는 것이고, 통화가 이루어지는 중에 특정 화자가 언급한 내용이 텍스트로 변환되어 실시간으로 확인할 수 있는 것은 아니므로, 특히 다중통화 도중에 필요한 대화내용을 검색하여 확인할 수 없다는 단점이 있다.
뿐만 아니라, 다국적인들의 통화가 진행되는 경우에 각각의 언어를 사용하여 의사소통할 수 없으므로 보통 영어를 사용하여 의사소통하게 되지만 모국어가 아닌 이상 의사소통에 한계가 존재하게 된다. 이를 극복하기 위하여 통화중에 자동으로 번역이 이루어지는 자동번역 프로그램 등이 존재하긴 하지만, 이러한 번역 프로그램들은 통화내용을 실시간으로 번역해서 제공해줄 뿐 어떤 화자가 어떤 말을 하였는지 알기 쉽지 않으며, 대화에 대한 기록이 남지 않아 이후 특정 화자가 사용한 특정 단어나 문장을 검색해 확인할 수 없다는 단점이 있다.
1. 한국 특허등록 제10-2136393호(2020.07.21 공고)
통화가 이루어지는 중에 실시간으로 화자가 구분되어 통화내용이 저장될 수 있으며, 특히 다국적 대화중에 실시간으로 구분되는 화자의 통화내용이 번역되어 제공될 수 있는 화자구분 시스템을 제공하고자 한다.
또한, 상술한 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 설명으로부터 또 다른 기술적 과제가 도출될 수도 있음은 자명하다.
본 발명의 일 실시예에 따른 화자구분 시스템은, 복수의 화자로부터 발생되는 음성신호가 입력되는 음성신호입력부와, 상기 음성신호입력부로부터 입력된 복수의 화자의 음성 주파수를 각각 추출하고, 주파수 대역을 분석하여 복수의 화자를 구분하는 화자구분부와, 상기 화자구분부로부터 구분된 화자들간의 대화를 STT를 활용하여 텍스트로 변환하는 STT변환부 및 상기 STT변환부를 통해 구분된 화자들간의 대화 텍스트를 사용자들의 휴대단말기로 출력하는 출력부를 포함한다.
본 발명의 바람직한 특징에 따르면, 상기 출력부를 통해 출력된 대화 텍스트는 통화 종료 후 음성대화에 포함되어 저장되되, 복수의 화자가 구분되어 제공되는 상기 대화 텍스트를 시계열적으로 나열하여 출력부를 통해 사용자들의 휴대단말기로 제공되는 것을 특징으로 한다.
본 발명의 바람직한 특징에 따르면, 상기 화자구분부는, 상기 음성신호입력부를 통해 복수의 화자로부터 다중언어가 입력되는 경우 언어의 종류에 따라 화자들을 선분류하고, 분류된 화자들간의 음성 주파수를 추출 및 주파수 대역을 분석하여 화자를 후분류하는 것을 특징으로 한다.
본 발명의 바람직한 특징에 따르면, 상기 분류된 화자들간의 대화 텍스트로부터 기 설정된 언어가 아닌 언어로 인식되는 경우, 해당 언어를 기 설정된 언어로 번역하여 대화 텍스트와 함께 제공해주는 것을 특징으로 한다.
본 발명의 바람직한 특징에 따르면, 상기 시계열적으로 나열된 대화 텍스트로부터 각 문장별로 구분하여 출력부를 통해 휴대단말기로 제공되는 것을 특징으로 한다.
본 발명의 바람직한 특징에 따르면, 상기 STT변환부를 통해 변환된 화자들간의 대화 텍스트중에서 반복 사용된 단어를 추출하고, 상기 추출된 단어를 카테고리화하여 저장하는 저장부를 더 포함하는 것을 특징으로 한다.
본 발명의 바람직한 특징에 따르면, 상기 대화 텍스트를 머신러닝시켜 반복 사용되는 단어를 추출하고, 상기 추출된 단어를 카테고리화하여 저장부에 저장하는 것을 특징으로 한다.
본 발명의 바람직한 특징에 따르면, 통화 종료 후 음성대화에 포함되어 저장된 대화 텍스트는, 이후 녹음파일 재생시에 사용자의 휴대단말기를 통해 함께 제공되되, 재생되는 음성에 매칭되는 대화 텍스트가 확대되어 제공되는 것을 특징으로 한다.
본 발명의 실시예에 의하면, 다수의 화자로부터 발생되는 대화를 화자별로 구분하여 텍스트로 저장되어 실시간으로 화자들의 휴대단말기 등을 통해 구분된 대화내용을 제공해줌으로써, 원하는 단어나 문장을 쉽게 찾아볼 수 있다는 장점이 있다.
또한, 본 발명의 실시예에 의하면, 외국인들과의 대화에 있어서도 번역된 대화내용을 함께 휴대단말기를 통해 확인함으로써 외국인들과의 대화를 쉽게 이해할 수 있다는 장점이 있다.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 화자구분 시스템의 개념도.
도 2는 본 발명의 일 실시예에 따른 화자구분 시스템의 블럭도.
도 3은 본 발명의 일 실시예에 따른 화자구분 시스템의 상세블럭도.
이하, 첨부된 도면을 참조하여 바람직한 실시예에 따른 화자구분 시스템의 구성, 동작 및 작용효과에 대하여 살펴본다. 참고로, 이하 도면에서, 각 구성요소는 편의 및 명확성을 위하여 생략되거나 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 반영하는 것은 아니다. 또한, 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭하며 개별 도면에서 동일 구성에 대한 도면 부호는 생략하기로 한다.
본 발명의 일 실시예에 따른 화자구분 시스템(100)은, 복수의 화자로부터 발생되는 음성신호가 입력되는 음성신호입력부(100)와, 상기 음성신호입력부(100)로부터 입력된 복수의 화자의 음성 주파수를 각각 추출하고, 주파수 대역을 분석하여 복수의 화자를 구분하는 화자구분부(120)와, 상기 화자구분부(120)로부터 구분된 화자들간의 대화를 STT를 활용하여 텍스트로 변환하는 STT변환부(130) 및 상기 STT변환부(130)를 통해 구분된 화자들간의 대화 텍스트를 사용자들의 휴대단말기로 출력하는 출력부(140)를 포함한다.
상기 화자구분 시스템(100)은 다수의 화자가 대화할 경우에 어떤 화자가 어떤 대화내용을 말했는지를 알 수 있도록 실시간으로 확인할 수 있는 시스템에 관한 것이다. 우선, 복수의 화자로부터 발생되는 음성신호가 입력되는 음성신호입력부(100)를 포함한다. 상기 음성신호입력부(100)는 사용자의 휴대단말기를 통해 복수의 화자가 서로 대화를 진행하는 경우 대화로부터 발생되는 음성신호가 음성신호입력부(100)를 통해 입력된다. 여기서, 상기 음성신호입력부(100)는 다양한 주파수를 포함하는 음성신호 입력이 가능하도록 이루어지며, 음성신호가 입력되면 음성 신호를 데이터 값으로 변환하게 된다.
이렇게 음성신호입력부(110)를 통해 입력된 음성신호는 데이터값으로 변환되어 저장되고, 이를 기초로 하여 화자구분부(120)에서 복수의 화자의 음성 주파수를 각각 추출하여 주파수 대역을 분석하여 복수의 화자를 구분하게 된다. 상기 화자구분부(120)는 음성신호입력부(110)를 통해 입력된 음성신호의 음성 주파수를 추출하여 주파수 대역을 분석하는데, 이는 음의 길이나 피치, 파워 등의 요소들로부터 주파수 대역을 분석함으로써 화자를 구분할 수 있다. 상기 방식을 통해 복수의 화자를 상호 구분하게 되고, 이렇게 구분된 화자들간의 대화는 STT변환부(130)를 통해 텍스트로 변환된다.
상기 STT변환부(130)는 Speech-to-Text를 통해 음성을 문자로 변환해주는 구성으로, 음성데이터의 발음이나 억양, 길이 등의 정보를 분석하여 이를 문자정보로 변환해준다. 상기 화자구분부(120)로부터 화자가 구분된 대화는 STT변환부(130)를 통해 대화를 문자로 변환하여 이를 문장으로 나열하여 제공하게 된다. 마지막으로, 상기 STT변환부(130)를 통해 구분된 화자들간의 대화 텍스트를 사용자들의 휴대단말기로 제공하는 출력부(140)를 포함한다. 상기 출력부(140)는 사용자의 휴대단말기 등과 같이 디스플레이 기기를 포함한 그 어떤 장치도 가능하며, 상기 출력부(140)를 통해 출력되는 대화 텍스트는 여러명의 화자가 서로 구분된 상태에서 각 화자가 언급한 내용이 대화 텍스트로 변환되어 제공된다.
본 발명의 바람직한 특징에 따르면, 상기 출력부(140)를 통해 출력된 대화 텍스트는 통화 종료 후 음성대화에 포함되어 저장되되, 복수의 화자가 구분되어 제공되는 상기 대화 텍스트를 시계열적으로 나열하여 출력부(140)를 통해 사용자들의 휴대단말기로 제공되는 것을 특징으로 한다.
본 발명의 바람직한 특징에 따르면, 상기 시계열적으로 나열된 대화 텍스트로부터 각 문장별로 구분하여 출력부(140)를 통해 휴대단말기로 제공되는 것을 특징으로 한다.
상기 출력부(140)를 통해 휴대단말기로 제공되는 대화 텍스트는 음성녹음된 파일에 함께 포함되어 저장될 수 있으며, 통화가 종료된 이후 해당 음성파일을 다시 재생하게 되면 녹음된 대화내용이 재생됨과 동시에, 대화내용에 매칭되는 대화 텍스트가 휴대단말기 화면을 통해 함께 제공된다. 여기서 제공되는 대화 텍스트는 복수의 화자가 구분되어 각 화자가 언급한 대화내용에 대응하는 대화 텍스트가 구분되고 시계열적으로 나열되어 출력이 이루어진다.
본 발명의 바람직한 특징에 따르면, 상기 화자구분부(120)는, 상기 음성신호입력부(110)를 통해 복수의 화자로부터 다중언어가 입력되는 경우 언어의 종류에 따라 화자들을 선분류하고, 분류된 화자들간의 음성 주파수를 추출 및 주파수 대역을 분석하여 화자를 후분류하는 것을 특징으로 한다.
상기 음성신호입력부(110)를 통해 복수의 화자로부터 음성신호가 입력될 수 있는데, 국제통화와 같이 여러 국가에 거주중인 서로 다른 국적의 사람들이 본 화자구분 시스템(100)을 통해 통화가 이루어지는 경우, 복수의 화자로부터 한국어와 영어, 일어, 중국어 등과 같이 다중언어가 입력될 수 있다. 이렇게 다중언어가 입력되는 경우, 우선적으로 언어의 종류에 따라 화자들을 선분류하는 작업이 이루어질 수 있는데, 예를 들어 한국어를 사용하는 사람들과 영어를 사용하는 사람들, 일어를 사용하는 사람들로 구성된 그룹원이 그룹통화를 진행하는 경우에 있어서, 입력되는 음성신호로부터 다중언어임을 인식한 화자구분부(120)는 우선 언어의 종류에 따라 화자들을 선분류하고(한국어, 영어, 일어별로), 이렇게 분류된 화자들간의 음성 주파수를 추출하고 주파수 대역을 분석하여 선분류된 화자들을 다시 각 화자별로 구분하는 후분류 작업이 이루어지게 된다. 이렇게 화자를 구분하게 되면, 다국적 대화가 이루어지는 경우에 있어서, 우선 언어의 종류에 따라 화자간 구분이 우선적으로 이루어지면서, 이후 사용자의 필요에 따라, 특정 언어에 대한 대화내용만을 추출하여 검색 및 확인할 수 있다는 장점이 있다.
본 발명의 바람직한 특징에 따르면, 상기 분류된 화자들간의 대화 텍스트로부터 기 설정된 언어가 아닌 언어로 인식되는 경우, 해당 언어를 기 설정된 언어로 번역하여 대화 텍스트와 함께 제공해주는 것을 특징으로 한다.
통화가 이루어지는 중에 혹은 통화가 종료된 이후에, 상기 출력부(140)를 통해 사용자의 휴대단말기로 대화 텍스트가 제공되는데, 특정 대화내용을 검색하거나 다시 확인하기 위하여 대화 텍스트를 찾는 경우 모국어가 아닐 때에는 검색에 한계가 존재하게 된다. 그에 따라, 사용자의 휴대단말기를 통해 특정 언어를 기 설정하고 해당 언어가 아닌 언어가 상기 음성신호입력부(110)를 통해 입력되어 인식된 경우, 해당 언어를 기 설정된 언어로 번역하여 번역된 대화 텍스트가 함께 제공될 수 있다. 상기 번역된 대화 텍스트는, 실시간으로 대화 텍스트를 제공함과 동시에 함께 제공될 수 있으며, 통화가 종료된 이후 녹음파일이 재생되면서 해당 언어에 대한 대화 텍스트와 함께 번역된 대화 텍스트까지 제공해주어 대화내용을 보다 용이하게 검색할 수 있게 된다.
본 발명의 바람직한 특징에 따르면, 상기 STT변환부(130)를 통해 변환된 화자들간의 대화 텍스트중에서 반복 사용된 단어를 추출하고, 상기 추출된 단어를 카테고리화하여 저장하는 저장부(150)를 더 포함하는 것을 특징으로 한다.
상기 저장부(150)는 대화 텍스트로부터 통화녹음된 파일을 카테고리화하여 저장하기 위한 구성으로, 여러 사람들과 다수의 대화가 이루어지는 경우 이를 카테고리별로 구분하여 저장할 필요가 있다. 예를 들어, 자주 통화하는 사람이나 자주 언급되는 단어나 주제를 중심으로 카테고리화 하여 저장하는 경우, 상기 STT변환부(130)를 통해 변환된 화자들간의 대화 텍스트로부터 반복 사용된 단어(예를 들어, 특정 장소나 이름, 부동산 등)를 추출하고, 추출된 반복 사용된 단어를 카테고리화하여 저장할 수 있다. 그에 따라, 통화가 종료된 이후 녹음파일과 함께 저장된 대화 텍스트를 검색하려는 경우, 다수의 녹음파일 중에서 업무, 친구, 취미와 같이 카테고리화 되어서 분류된 녹음파일을 보다 쉽게 찾아서 원하는 대화 텍스트를 검색할 수 있다는 장점이 있다.
본 발명의 바람직한 특징에 따르면, 상기 대화 텍스트를 머신러닝시켜 반복 사용되는 단어를 추출하고, 상기 추출된 단어를 카테고리화하여 저장부(150)에 저장하는 것을 특징으로 한다.
상기 대화 텍스트로부터 반복 사용되는 단어로부터 카테고리화할 때 보다 정확하고 빠르게 카테고리화하기 위하여, 머신러닝 기능을 활용할 수 있다. 머신러닝 기능은 데이터를 분석하고 자체적으로 학습한 정보를 바탕으로 결정을 내리기 위해 학습한 내용을 적용하는 알고리즘으로 정의되며, 본 발명에서는 다수의 대화로부터 출력되는 대화 텍스트를 분석하고 자체적인 학습을 통해 자주 사용되는 단어를 추출하여, 이렇게 추출된 단어를 카테고리화하여 저장부(150)에 저장할 수 있다. 머신러닝 기능을 통해 자주 사용되는 단어를 보다 정확하게 빠르게 추출하여 카테고리로 저장됨으로써 사용자가 원하는 대화 텍스트를 보다 빠르고 쉽게 찾을 수 있다는 장점이 있다.
본 발명의 바람직한 특징에 따르면, 통화 종료 후 음성대화에 포함되어 저장된 대화 텍스트는, 이후 녹음파일 재생시에 사용자의 휴대단말기를 통해 함께 제공되되, 재생되는 음성에 매칭되는 대화 텍스트가 확대되어 제공되는 것을 특징으로 한다.
상기 대화 텍스트가 녹음파일 재생 시에 휴대단말기를 통해 함께 제공됨으로써 대화내용을 텍스트로 함께 확인할 수 있는데, 장시간의 대화가 이루어지는 경우, 대화 텍스트의 어느 부분이 재생되는지를 확인하기 어렵다는 문제가 있다. 그에 따라, 휴대단말기를 통해 제공되는 대화 텍스트에 있어서 현재 재생되는 음성에 매칭되는 대화 텍스트가 확대되어 제공되도록 함으로써 현재 재생되는 대화내용과 그에 대한 텍스트를 쉽게 확인할 수 있게 된다.
이상 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 설명하였지만, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해되어야 하고, 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 화자구분 시스템
110 : 음성신호입력부
120 : 화자구분부
130 : STT변환부
140 : 출력부
150 : 저장부

Claims (8)

  1. 복수의 화자로부터 발생되는 음성신호가 입력되는 음성신호입력부;
    상기 음성신호입력부로부터 입력된 복수의 화자의 음성 주파수를 각각 추출하고, 주파수 대역을 분석하여 복수의 화자를 구분하는 화자구분부;
    상기 화자구분부로부터 구분된 화자들간의 대화를 STT를 활용하여 텍스트로 변환하는 STT변환부; 및
    상기 STT변환부를 통해 구분된 화자들간의 대화 텍스트를 사용자들의 휴대단말기로 출력하는 출력부;
    를 포함하는 화자구분 시스템.
  2. 제1항에 있어서,
    상기 출력부를 통해 출력된 대화 텍스트는 통화 종료 후 음성대화에 포함되어 저장되되,
    복수의 화자가 구분되어 제공되는 상기 대화 텍스트를 시계열적으로 나열하여 출력부를 통해 사용자들의 휴대단말기로 제공되는 것을 특징으로 하는 화자구분 시스템.
  3. 제2항에 있어서,
    상기 시계열적으로 나열된 대화 텍스트로부터 각 문장별로 구분하여 출력부를 통해 휴대단말기로 제공되는 것을 특징으로 하는 화자구분 시스템.
  4. 제1항에 있어서,
    상기 화자구분부는, 상기 음성신호입력부를 통해 복수의 화자로부터 다중언어가 입력되는 경우 언어의 종류에 따라 화자들을 선분류하고, 분류된 화자들간의 음성 주파수를 추출 및 주파수 대역을 분석하여 화자를 후분류하는 것을 특징으로 하는 화자구분 시스템.
  5. 제4항에 있어서,
    상기 분류된 화자들간의 대화 텍스트로부터 기 설정된 언어가 아닌 언어로 인식되는 경우, 해당 언어를 기 설정된 언어로 번역하여 대화 텍스트와 함께 제공해주는 것을 특징으로 하는 화자구분 시스템.
  6. 제1항에 있어서,
    상기 STT변환부를 통해 변환된 화자들간의 대화 텍스트중에서 반복 사용된 단어를 추출하고, 상기 추출된 단어를 카테고리화하여 저장하는 저장부를 더 포함하는 것을 특징으로 하는 화자구분 시스템.
  7. 제6항에 있어서,
    상기 대화 텍스트를 머신러닝시켜 반복 사용되는 단어를 추출하고, 상기 추출된 단어를 카테고리화하여 저장부에 저장하는 것을 특징으로 하는 화자구분 시스템.
  8. 제2항에 있어서,
    통화 종료 후 음성대화에 포함되어 저장된 대화 텍스트는, 이후 녹음파일 재생시에 사용자의 휴대단말기를 통해 함께 제공되되,
    재생되는 음성에 매칭되는 대화 텍스트가 확대되어 제공되는 것을 특징으로 하는 화자구분 시스템.
KR1020210025544A 2021-02-25 Stt를 활용한 화자구분 시스템 KR102666826B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210025544A KR102666826B1 (ko) 2021-02-25 Stt를 활용한 화자구분 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210025544A KR102666826B1 (ko) 2021-02-25 Stt를 활용한 화자구분 시스템

Publications (2)

Publication Number Publication Date
KR20220121455A true KR20220121455A (ko) 2022-09-01
KR102666826B1 KR102666826B1 (ko) 2024-05-20

Family

ID=

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102604277B1 (ko) 2023-04-18 2023-11-23 퓨렌스 주식회사 다자간 통화의 화자분리 stt를 이용한 복합 감정 분석 방법 및 이를 실행하는 시스템
KR102613862B1 (ko) * 2022-12-27 2023-12-14 주식회사 에이치엠씨네트웍스 자연어 처리를 통한 간병 상담 내역 자동 분류 방법 및 그 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102136393B1 (ko) 2018-07-19 2020-07-21 주식회사 케이티 통화 음성으로부터 변환된 텍스트를 관리하는 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102136393B1 (ko) 2018-07-19 2020-07-21 주식회사 케이티 통화 음성으로부터 변환된 텍스트를 관리하는 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102613862B1 (ko) * 2022-12-27 2023-12-14 주식회사 에이치엠씨네트웍스 자연어 처리를 통한 간병 상담 내역 자동 분류 방법 및 그 장치
KR102604277B1 (ko) 2023-04-18 2023-11-23 퓨렌스 주식회사 다자간 통화의 화자분리 stt를 이용한 복합 감정 분석 방법 및 이를 실행하는 시스템

Similar Documents

Publication Publication Date Title
US11990135B2 (en) Methods and apparatus for hybrid speech recognition processing
CN110049270B (zh) 多人会议语音转写方法、装置、系统、设备及存储介质
KR101149135B1 (ko) 음성 대화형 메시징을 위한 방법 및 장치
JP5598998B2 (ja) 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
JP5119055B2 (ja) 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
US20150227510A1 (en) System for speaker diarization based multilateral automatic speech translation system and its operating method, and apparatus supporting the same
US8990071B2 (en) Telephony service interaction management
CN107886951B (zh) 一种语音检测方法、装置及设备
US9401145B1 (en) Speech analytics system and system and method for determining structured speech
JP2018017936A (ja) 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム
EP2680165A1 (en) System and method to peform textual queries on voice communications
KR20090111825A (ko) 언어 독립적인 음성 인덱싱 및 검색 방법 및 장치
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
US20030050772A1 (en) Apparatus and method for an automated grammar file expansion tool
KR20140123369A (ko) 음성인식 질의응답 시스템 및 그것의 운용방법
US8126703B2 (en) Method, spoken dialog system, and telecommunications terminal device for multilingual speech output
JP2020071676A (ja) 対話要約生成装置、対話要約生成方法およびプログラム
EP1317749A1 (en) Method of and system for improving accuracy in a speech recognition system
KR20190143116A (ko) 대화 자동 저장 장치 및 방법
KR20220121455A (ko) Stt를 활용한 화자구분 시스템
KR20220121456A (ko) 대화 텍스트를 카테고리화하여 저장 가능한 화자구분 시스템
KR102666826B1 (ko) Stt를 활용한 화자구분 시스템
KR20220122099A (ko) 다중언어의 종류에 따른 화자구분 시스템
KR20220122098A (ko) 실시간 화자구분 시스템
JPH10173769A (ja) 音声メッセージ検索装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant