KR20220122099A - Speaker classification system according to the type of multiple languages - Google Patents
Speaker classification system according to the type of multiple languages Download PDFInfo
- Publication number
- KR20220122099A KR20220122099A KR1020210026292A KR20210026292A KR20220122099A KR 20220122099 A KR20220122099 A KR 20220122099A KR 1020210026292 A KR1020210026292 A KR 1020210026292A KR 20210026292 A KR20210026292 A KR 20210026292A KR 20220122099 A KR20220122099 A KR 20220122099A
- Authority
- KR
- South Korea
- Prior art keywords
- speakers
- text
- unit
- speaker
- voice
- Prior art date
Links
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
본 발명은 다중언어의 종류에 따른 화자구분 시스템에 관한 것으로, 보다 상세하게는 다중언어 입력시 화자들간의 대화를 언어별로 구분하고 이후 대화 텍스트를 화자별로 구분하는 화자구분 시스템에 관한 것이다.The present invention relates to a speaker classification system according to the type of multiple languages, and more particularly, to a speaker classification system for classifying conversations between speakers by language when inputting multiple languages and then separating dialog texts for each speaker.
본 명세서에서 달리 표시되지 않는 한, 이 섹션에 설명되는 내용들은 이 출원의 청구항들에 대한 종래 기술이 아니며, 이 섹션에 포함된다고 하여 종래 기술이라고 인정되는 것은 아니다.Unless otherwise indicated herein, the material described in this section is not prior art to the claims of this application, and inclusion in this section is not an admission that it is prior art.
이동통신 기술의 발달과 함께 기지국으로부터 전파가 수신되는 위치에서는 얼마든지 음성통화가 가능하게 되었고, 현재는 휴대단말기가 단순한 전화기능뿐만 아니라 영상통화나 그룹통화 등과 같이 여러명의 화자가 동시에 통화할 수 있으며,이렇게 통화한 내용을 녹음하고 다시듣는 기능까지도 제공되고 있다. 휴대단말기를 통해 전화통화하는 경우, 단말기 자체에 형성된 녹음버튼을 눌러 통화내용을 녹음하거나 별도의 녹음관련 어플리케이션을 사용하여 통화내용을 녹음해 파일로 저장할 수 있다.With the development of mobile communication technology, voice calls have become possible at any location where radio waves are received from the base station, and now, a mobile terminal can not only have a simple phone function, but also multiple speakers can make a call at the same time, such as a video call or a group call. , A function to record and listen back to the conversation is also provided. When making a phone call through a mobile terminal, the content of the call can be recorded by pressing the record button formed on the terminal itself, or the content of the call can be recorded and saved as a file by using a separate recording-related application.
그러나 이러한 녹음파일은 하나의 단일파일로 저장되므로, 특정시간의 대화내용이나 특정 화자가 언급한 대화내용만을 선택해서 듣는 것에는 한계가 존재하고, 녹음파일 중간의 특정단어나 문장을 찾기 위해서는 녹음파일을 처음부터 들어야 하는 문제점이 있었다. 이런 문제를 해결하기 위하여, 화자들이 서로 통화하는 내용을 텍스트로 변환하여 저장하고, 변환된 텍스트파일을 통해 통화내용을 검색하여 원하는 대화내용이나 문구를 찾을 수 있는 기술이 개시되어 있다. 그에 대한 일 예로, 대한민국 등록특허 제10-2136393호에서는 "통화 음성으로부터 변환된 텍스트를 관리하는 장치 및 방법"을 개시하는데, 보다 상세하게는 서비스 가입자의 통화 음성을 텍스트 변환하고, 변환된 텍스트를 관리하는 장치는, 서비스 가입자가 발신자 또는 수신자가 되는 통화의 음성 데이터를 수신하는 수신부; 수신된 음성 데이터를 발신 음성 데이터 및 수신 음성 데이터로 각각 분류하는 분류부; 분류된 음성 데이터를 발신 텍스트 및 수신 텍스트의 데이터로 각각 변환하는 변환부; 변환된 발신자의 발신 텍스트 및 수신자의 수신 텍스트를 구분하고 시간순으로 나열하여 통화 텍스트를 생성하는 통화 텍스트부; 및 서비스 가입자의 요청에 의해, 생성된 통화 텍스트를 조회하여 서비스 가입자의 단말로 제공하는 제공부를 포함한다.However, since these recorded files are saved as one single file, there is a limit to select and listen to only the conversation contents of a specific time or the conversation contents mentioned by a specific speaker. There was a problem that I had to listen to it from the beginning. In order to solve this problem, there is disclosed a technology that converts and stores the contents of conversations between speakers into text, and searches the contents of the conversation through the converted text file to find the desired conversation contents or phrases. As an example thereof, Korean Patent Registration No. 10-2136393 discloses "an apparatus and method for managing text converted from a call voice," and in more detail, converts a call voice of a service subscriber into text, and uses the converted text. The managing device includes: a receiver for receiving voice data of a call in which a service subscriber becomes a caller or a receiver; a classification unit for classifying the received voice data into outgoing voice data and received voice data, respectively; a converter for converting the classified voice data into data of an outgoing text and a received text, respectively; a call text unit for generating a call text by dividing the converted caller's outgoing text and the receiver's incoming text and listing them in chronological order; and a providing unit that inquires the generated call text at the request of the service subscriber and provides it to the terminal of the service subscriber.
그러나 상기와 같이 통화 음성으로부터 텍스트로 변환한 데이터는 우선 통화를 종료한 이후 통화 데이터로부터 발신통화데이터와 수신통화데이터를 분류하고 이를 텍스트로 변환하여 저장한 이후 통화내용을 텍스트로 제공해줄 수 있는 것이고, 통화가 이루어지는 중에 특정 화자가 언급한 내용이 텍스트로 변환되어 실시간으로 확인할 수 있는 것은 아니므로, 특히 다중통화 도중에 필요한 대화내용을 검색하여 확인할 수 없다는 단점이 있다.However, as described above, the data converted from voice to text is first, after the end of the call, the outgoing call data and incoming call data are classified from the call data, and the call contents can be provided as text after converting it into text and storing it. , since the content mentioned by a specific speaker during a call is not converted into text and cannot be checked in real time, there is a disadvantage in that it is not possible to search and check the necessary conversation details during a multi-call.
뿐만 아니라, 다국적인들의 통화가 진행되는 경우에 각각의 언어를 사용하여 의사소통할 수 없으므로 보통 영어를 사용하여 의사소통하게 되지만 모국어가 아닌 이상 의사소통에 한계가 존재하게 된다. 이를 극복하기 위하여 통화중에 자동으로 번역이 이루어지는 자동번역 프로그램 등이 존재하긴 하지만, 이러한 번역 프로그램들은 통화내용을 실시간으로 번역해서 제공해줄 뿐 어떤 화자가 어떤 말을 하였는지 알기 쉽지 않으며, 대화에 대한 기록이 남지 않아 이후 특정 화자가 사용한 특정 단어나 문장을 검색해 확인할 수 없다는 단점이 있다.In addition, in the case of a call between multinationals, since it is impossible to communicate using each language, communication is usually conducted using English, but there is a limit to communication unless it is the mother tongue. To overcome this, there are automatic translation programs that automatically translate during a call, but these translation programs only translate the content of the call in real time, and it is not easy to know which speaker said what, and there is no record of the conversation. There is a disadvantage in that it is not possible to search for and check specific words or sentences used by a specific speaker later.
통화가 이루어지는 중에 실시간으로 화자가 구분되어 통화내용이 저장될 수 있으며, 특히 다국적 대화중에 실시간으로 구분되는 화자의 통화내용이 번역되어 제공될 수 있는 화자구분 시스템을 제공하고자 한다.An object of the present invention is to provide a speaker identification system in which the speaker can be distinguished in real time during a call and the contents of the call can be stored.
또한, 상술한 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 설명으로부터 또 다른 기술적 과제가 도출될 수도 있음은 자명하다.In addition, it is not limited to the technical problems as described above, and it is obvious that another technical problem may be derived from the following description.
본 발명의 일 실시예에 따른 화자구분 시스템은, 복수의 화자로부터 발생되는 음성신호가 입력되는 음성신호입력부와, 상기 음성신호입력부로부터 입력된 복수의 화자의 음성 주파수를 각각 추출하고, 주파수 대역을 분석하여 복수의 화자를 구분하는 화자구분부와, 상기 화자구분부로부터 구분된 화자들간의 대화를 STT를 활용하여 텍스트로 변환하는 STT변환부 및 상기 STT변환부를 통해 구분된 화자들간의 대화 텍스트를 사용자들의 휴대단말기로 출력하는 출력부를 포함한다.A speaker classification system according to an embodiment of the present invention comprises a voice signal input unit to which voice signals generated from a plurality of speakers are input, and a plurality of speakers input from the voice signal input unit, respectively, and extracts the frequency bands. A speaker classification unit that analyzes and separates a plurality of speakers, an STT conversion unit that converts the conversation between the speakers separated from the speaker classification unit into text using STT, and the dialogue text between the speakers separated through the STT conversion unit It includes an output unit for outputting to the user's mobile terminal.
본 발명의 바람직한 특징에 따르면, 상기 출력부를 통해 출력된 대화 텍스트는 통화 종료 후 음성대화에 포함되어 저장되되, 복수의 화자가 구분되어 제공되는 상기 대화 텍스트를 시계열적으로 나열하여 출력부를 통해 사용자들의 휴대단말기로 제공되는 것을 특징으로 한다.According to a preferred feature of the present invention, the dialogue text output through the output unit is stored after being included in the voice conversation after the call is ended, and the dialogue text provided by a plurality of speakers is arranged in time series so that users can communicate with each other through the output unit. It is characterized in that it is provided as a mobile terminal.
본 발명의 바람직한 특징에 따르면, 상기 화자구분부는, 상기 음성신호입력부를 통해 복수의 화자로부터 다중언어가 입력되는 경우 언어의 종류에 따라 화자들을 선분류하고, 분류된 화자들간의 음성 주파수를 추출 및 주파수 대역을 분석하여 화자를 후분류하는 것을 특징으로 한다.According to a preferred feature of the present invention, the speaker classification unit pre-classifies speakers according to the type of language when multiple languages are input from a plurality of speakers through the voice signal input unit, and extracts and It is characterized in that the speaker is post-classified by analyzing the frequency band.
본 발명의 바람직한 특징에 따르면, 상기 분류된 화자들간의 대화 텍스트로부터 기 설정된 언어가 아닌 언어로 인식되는 경우, 해당 언어를 기 설정된 언어로 번역하여 대화 텍스트와 함께 제공해주는 것을 특징으로 한다.According to a preferred feature of the present invention, when a language other than a preset language is recognized from the conversation text between the classified speakers, the language is translated into a preset language and provided together with the dialog text.
본 발명의 바람직한 특징에 따르면, 상기 시계열적으로 나열된 대화 텍스트로부터 각 문장별로 구분하여 출력부를 통해 휴대단말기로 제공되는 것을 특징으로 한다.According to a preferred feature of the present invention, each sentence is separated from the dialogue texts listed in time series and provided to the portable terminal through an output unit.
본 발명의 바람직한 특징에 따르면, 상기 STT변환부를 통해 변환된 화자들간의 대화 텍스트중에서 반복 사용된 단어를 추출하고, 상기 추출된 단어를 카테고리화하여 저장하는 저장부를 더 포함하는 것을 특징으로 한다.According to a preferred feature of the present invention, it is characterized in that it further comprises a storage unit for extracting repeatedly used words from the dialogue text between the speakers converted through the STT conversion unit, and categorizes and stores the extracted words.
본 발명의 바람직한 특징에 따르면, 상기 대화 텍스트를 머신러닝시켜 반복 사용되는 단어를 추출하고, 상기 추출된 단어를 카테고리화하여 저장부에 저장하는 것을 특징으로 한다.According to a preferred feature of the present invention, repeated words are extracted by machine learning the dialogue text, and the extracted words are categorized and stored in a storage unit.
본 발명의 바람직한 특징에 따르면, 통화 종료 후 음성대화에 포함되어 저장된 대화 텍스트는, 이후 녹음파일 재생시에 사용자의 휴대단말기를 통해 함께 제공되되, 재생되는 음성에 매칭되는 대화 텍스트가 확대되어 제공되는 것을 특징으로 한다.According to a preferred feature of the present invention, the conversation text included in the voice conversation after the end of the call is provided together through the user's portable terminal when the recorded file is played back, and the conversation text matching the reproduced voice is enlarged and provided. characterized.
본 발명의 실시예에 의하면, 다수의 화자로부터 발생되는 대화를 화자별로 구분하여 텍스트로 저장되어 실시간으로 화자들의 휴대단말기 등을 통해 구분된 대화내용을 제공해줌으로써, 원하는 단어나 문장을 쉽게 찾아볼 수 있다는 장점이 있다.According to an embodiment of the present invention, conversations generated by a plurality of speakers are stored as text by dividing them by speaker, and the divided conversation contents are provided through the speakers' mobile terminals in real time, so that a desired word or sentence can be easily found There is an advantage that
또한, 본 발명의 실시예에 의하면, 외국인들과의 대화에 있어서도 번역된 대화내용을 함께 휴대단말기를 통해 확인함으로써 외국인들과의 대화를 쉽게 이해할 수 있다는 장점이 있다.In addition, according to the embodiment of the present invention, even in conversation with foreigners, there is an advantage in that conversations with foreigners can be easily understood by checking the translated conversation contents together through a mobile terminal.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.The effects of the present invention are not limited to the above effects, and it should be understood to include all effects that can be inferred from the configuration of the invention described in the detailed description or claims of the present invention.
도 1은 본 발명의 일 실시예에 따른 화자구분 시스템의 개념도.
도 2는 본 발명의 일 실시예에 따른 화자구분 시스템의 블럭도.
도 3은 본 발명의 일 실시예에 따른 화자구분 시스템의 상세블럭도.1 is a conceptual diagram of a speaker classification system according to an embodiment of the present invention;
2 is a block diagram of a speaker classification system according to an embodiment of the present invention;
3 is a detailed block diagram of a speaker classification system according to an embodiment of the present invention;
이하, 첨부된 도면을 참조하여 바람직한 실시예에 따른 화자구분 시스템의 구성, 동작 및 작용효과에 대하여 살펴본다. 참고로, 이하 도면에서, 각 구성요소는 편의 및 명확성을 위하여 생략되거나 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 반영하는 것은 아니다. 또한, 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭하며 개별 도면에서 동일 구성에 대한 도면 부호는 생략하기로 한다.Hereinafter, the configuration, operation, and effect of the speaker classification system according to a preferred embodiment will be described with reference to the accompanying drawings. For reference, in the following drawings, each component is omitted or schematically illustrated for convenience and clarity, and the size of each component does not reflect the actual size. In addition, the same reference numerals refer to the same components throughout the specification, and reference numerals for the same components in individual drawings will be omitted.
본 발명의 일 실시예에 따른 화자구분 시스템(100)은, 복수의 화자로부터 발생되는 음성신호가 입력되는 음성신호입력부(100)와, 상기 음성신호입력부(100)로부터 입력된 복수의 화자의 음성 주파수를 각각 추출하고, 주파수 대역을 분석하여 복수의 화자를 구분하는 화자구분부(120)와, 상기 화자구분부(120)로부터 구분된 화자들간의 대화를 STT를 활용하여 텍스트로 변환하는 STT변환부(130) 및 상기 STT변환부(130)를 통해 구분된 화자들간의 대화 텍스트를 사용자들의 휴대단말기로 출력하는 출력부(140)를 포함한다.The
상기 화자구분 시스템(100)은 다수의 화자가 대화할 경우에 어떤 화자가 어떤 대화내용을 말했는지를 알 수 있도록 실시간으로 확인할 수 있는 시스템에 관한 것이다. 우선, 복수의 화자로부터 발생되는 음성신호가 입력되는 음성신호입력부(100)를 포함한다. 상기 음성신호입력부(100)는 사용자의 휴대단말기를 통해 복수의 화자가 서로 대화를 진행하는 경우 대화로부터 발생되는 음성신호가 음성신호입력부(100)를 통해 입력된다. 여기서, 상기 음성신호입력부(100)는 다양한 주파수를 포함하는 음성신호 입력이 가능하도록 이루어지며, 음성신호가 입력되면 음성 신호를 데이터 값으로 변환하게 된다.The
이렇게 음성신호입력부(110)를 통해 입력된 음성신호는 데이터값으로 변환되어 저장되고, 이를 기초로 하여 화자구분부(120)에서 복수의 화자의 음성 주파수를 각각 추출하여 주파수 대역을 분석하여 복수의 화자를 구분하게 된다. 상기 화자구분부(120)는 음성신호입력부(110)를 통해 입력된 음성신호의 음성 주파수를 추출하여 주파수 대역을 분석하는데, 이는 음의 길이나 피치, 파워 등의 요소들로부터 주파수 대역을 분석함으로써 화자를 구분할 수 있다. 상기 방식을 통해 복수의 화자를 상호 구분하게 되고, 이렇게 구분된 화자들간의 대화는 STT변환부(130)를 통해 텍스트로 변환된다.In this way, the voice signal input through the voice
상기 STT변환부(130)는 Speech-to-Text를 통해 음성을 문자로 변환해주는 구성으로, 음성데이터의 발음이나 억양, 길이 등의 정보를 분석하여 이를 문자정보로 변환해준다. 상기 화자구분부(120)로부터 화자가 구분된 대화는 STT변환부(130)를 통해 대화를 문자로 변환하여 이를 문장으로 나열하여 제공하게 된다. 마지막으로, 상기 STT변환부(130)를 통해 구분된 화자들간의 대화 텍스트를 사용자들의 휴대단말기로 제공하는 출력부(140)를 포함한다. 상기 출력부(140)는 사용자의 휴대단말기 등과 같이 디스플레이 기기를 포함한 그 어떤 장치도 가능하며, 상기 출력부(140)를 통해 출력되는 대화 텍스트는 여러명의 화자가 서로 구분된 상태에서 각 화자가 언급한 내용이 대화 텍스트로 변환되어 제공된다.The
본 발명의 바람직한 특징에 따르면, 상기 출력부(140)를 통해 출력된 대화 텍스트는 통화 종료 후 음성대화에 포함되어 저장되되, 복수의 화자가 구분되어 제공되는 상기 대화 텍스트를 시계열적으로 나열하여 출력부(140)를 통해 사용자들의 휴대단말기로 제공되는 것을 특징으로 한다.According to a preferred feature of the present invention, the dialogue text output through the
본 발명의 바람직한 특징에 따르면, 상기 시계열적으로 나열된 대화 텍스트로부터 각 문장별로 구분하여 출력부(140)를 통해 휴대단말기로 제공되는 것을 특징으로 한다.According to a preferred feature of the present invention, each sentence is separated from the dialogue texts listed in time series and provided to the portable terminal through the
상기 출력부(140)를 통해 휴대단말기로 제공되는 대화 텍스트는 음성녹음된 파일에 함께 포함되어 저장될 수 있으며, 통화가 종료된 이후 해당 음성파일을 다시 재생하게 되면 녹음된 대화내용이 재생됨과 동시에, 대화내용에 매칭되는 대화 텍스트가 휴대단말기 화면을 통해 함께 제공된다. 여기서 제공되는 대화 텍스트는 복수의 화자가 구분되어 각 화자가 언급한 대화내용에 대응하는 대화 텍스트가 구분되고 시계열적으로 나열되어 출력이 이루어진다.Conversation text provided to the portable terminal through the
본 발명의 바람직한 특징에 따르면, 상기 화자구분부(120)는, 상기 음성신호입력부(110)를 통해 복수의 화자로부터 다중언어가 입력되는 경우 언어의 종류에 따라 화자들을 선분류하고, 분류된 화자들간의 음성 주파수를 추출 및 주파수 대역을 분석하여 화자를 후분류하는 것을 특징으로 한다.According to a preferred feature of the present invention, the
상기 음성신호입력부(110)를 통해 복수의 화자로부터 음성신호가 입력될 수 있는데, 국제통화와 같이 여러 국가에 거주중인 서로 다른 국적의 사람들이 본 화자구분 시스템(100)을 통해 통화가 이루어지는 경우, 복수의 화자로부터 한국어와 영어, 일어, 중국어 등과 같이 다중언어가 입력될 수 있다. 이렇게 다중언어가 입력되는 경우, 우선적으로 언어의 종류에 따라 화자들을 선분류하는 작업이 이루어질 수 있는데, 예를 들어 한국어를 사용하는 사람들과 영어를 사용하는 사람들, 일어를 사용하는 사람들로 구성된 그룹원이 그룹통화를 진행하는 경우에 있어서, 입력되는 음성신호로부터 다중언어임을 인식한 화자구분부(120)는 우선 언어의 종류에 따라 화자들을 선분류하고(한국어, 영어, 일어별로), 이렇게 분류된 화자들간의 음성 주파수를 추출하고 주파수 대역을 분석하여 선분류된 화자들을 다시 각 화자별로 구분하는 후분류 작업이 이루어지게 된다. 이렇게 화자를 구분하게 되면, 다국적 대화가 이루어지는 경우에 있어서, 우선 언어의 종류에 따라 화자간 구분이 우선적으로 이루어지면서, 이후 사용자의 필요에 따라, 특정 언어에 대한 대화내용만을 추출하여 검색 및 확인할 수 있다는 장점이 있다.Voice signals may be input from a plurality of speakers through the voice
본 발명의 바람직한 특징에 따르면, 상기 분류된 화자들간의 대화 텍스트로부터 기 설정된 언어가 아닌 언어로 인식되는 경우, 해당 언어를 기 설정된 언어로 번역하여 대화 텍스트와 함께 제공해주는 것을 특징으로 한다.According to a preferred feature of the present invention, when a language other than a preset language is recognized from the conversation text between the classified speakers, the language is translated into a preset language and provided together with the dialog text.
통화가 이루어지는 중에 혹은 통화가 종료된 이후에, 상기 출력부(140)를 통해 사용자의 휴대단말기로 대화 텍스트가 제공되는데, 특정 대화내용을 검색하거나 다시 확인하기 위하여 대화 텍스트를 찾는 경우 모국어가 아닐 때에는 검색에 한계가 존재하게 된다. 그에 따라, 사용자의 휴대단말기를 통해 특정 언어를 기 설정하고 해당 언어가 아닌 언어가 상기 음성신호입력부(110)를 통해 입력되어 인식된 경우, 해당 언어를 기 설정된 언어로 번역하여 번역된 대화 텍스트가 함께 제공될 수 있다. 상기 번역된 대화 텍스트는, 실시간으로 대화 텍스트를 제공함과 동시에 함께 제공될 수 있으며, 통화가 종료된 이후 녹음파일이 재생되면서 해당 언어에 대한 대화 텍스트와 함께 번역된 대화 텍스트까지 제공해주어 대화내용을 보다 용이하게 검색할 수 있게 된다.During a call or after the call is terminated, the conversation text is provided to the user's mobile terminal through the
본 발명의 바람직한 특징에 따르면, 상기 STT변환부(130)를 통해 변환된 화자들간의 대화 텍스트중에서 반복 사용된 단어를 추출하고, 상기 추출된 단어를 카테고리화하여 저장하는 저장부(150)를 더 포함하는 것을 특징으로 한다.According to a preferred feature of the present invention, a
상기 저장부(150)는 대화 텍스트로부터 통화녹음된 파일을 카테고리화하여 저장하기 위한 구성으로, 여러 사람들과 다수의 대화가 이루어지는 경우 이를 카테고리별로 구분하여 저장할 필요가 있다. 예를 들어, 자주 통화하는 사람이나 자주 언급되는 단어나 주제를 중심으로 카테고리화 하여 저장하는 경우, 상기 STT변환부(130)를 통해 변환된 화자들간의 대화 텍스트로부터 반복 사용된 단어(예를 들어, 특정 장소나 이름, 부동산 등)를 추출하고, 추출된 반복 사용된 단어를 카테고리화하여 저장할 수 있다. 그에 따라, 통화가 종료된 이후 녹음파일과 함께 저장된 대화 텍스트를 검색하려는 경우, 다수의 녹음파일 중에서 업무, 친구, 취미와 같이 카테고리화 되어서 분류된 녹음파일을 보다 쉽게 찾아서 원하는 대화 텍스트를 검색할 수 있다는 장점이 있다.The
본 발명의 바람직한 특징에 따르면, 상기 대화 텍스트를 머신러닝시켜 반복 사용되는 단어를 추출하고, 상기 추출된 단어를 카테고리화하여 저장부(150)에 저장하는 것을 특징으로 한다.According to a preferred feature of the present invention, repeated words are extracted by machine learning the dialogue text, and the extracted words are categorized and stored in the
상기 대화 텍스트로부터 반복 사용되는 단어로부터 카테고리화할 때 보다 정확하고 빠르게 카테고리화하기 위하여, 머신러닝 기능을 활용할 수 있다. 머신러닝 기능은 데이터를 분석하고 자체적으로 학습한 정보를 바탕으로 결정을 내리기 위해 학습한 내용을 적용하는 알고리즘으로 정의되며, 본 발명에서는 다수의 대화로부터 출력되는 대화 텍스트를 분석하고 자체적인 학습을 통해 자주 사용되는 단어를 추출하여, 이렇게 추출된 단어를 카테고리화하여 저장부(150)에 저장할 수 있다. 머신러닝 기능을 통해 자주 사용되는 단어를 보다 정확하게 빠르게 추출하여 카테고리로 저장됨으로써 사용자가 원하는 대화 텍스트를 보다 빠르고 쉽게 찾을 수 있다는 장점이 있다.When categorizing from words that are repeatedly used from the dialogue text, a machine learning function may be utilized to more accurately and quickly categorize. The machine learning function is defined as an algorithm that analyzes data and applies what it learns to make a decision based on self-learning information. By extracting frequently used words, the extracted words may be categorized and stored in the
본 발명의 바람직한 특징에 따르면, 통화 종료 후 음성대화에 포함되어 저장된 대화 텍스트는, 이후 녹음파일 재생시에 사용자의 휴대단말기를 통해 함께 제공되되, 재생되는 음성에 매칭되는 대화 텍스트가 확대되어 제공되는 것을 특징으로 한다.According to a preferred feature of the present invention, the conversation text included in the voice conversation after the end of the call is provided together through the user's portable terminal when the recorded file is played back, and the conversation text matching the reproduced voice is enlarged and provided. characterized.
상기 대화 텍스트가 녹음파일 재생 시에 휴대단말기를 통해 함께 제공됨으로써 대화내용을 텍스트로 함께 확인할 수 있는데, 장시간의 대화가 이루어지는 경우, 대화 텍스트의 어느 부분이 재생되는지를 확인하기 어렵다는 문제가 있다. 그에 따라, 휴대단말기를 통해 제공되는 대화 텍스트에 있어서 현재 재생되는 음성에 매칭되는 대화 텍스트가 확대되어 제공되도록 함으로써 현재 재생되는 대화내용과 그에 대한 텍스트를 쉽게 확인할 수 있게 된다.Since the dialogue text is provided together through the portable terminal when the recorded file is reproduced, the contents of the conversation can be checked together as text. However, there is a problem in that it is difficult to ascertain which part of the dialogue text is reproduced in the case of a long conversation. Accordingly, in the dialogue text provided through the portable terminal, the dialogue text matching the currently reproduced voice is enlarged and provided, so that the currently reproduced dialogue content and the text thereof can be easily checked.
이상 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 설명하였지만, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해되어야 하고, 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Although the preferred embodiment of the present invention has been described with reference to the accompanying drawings, the embodiments described in the present specification and the configuration shown in the drawings are only the most preferred embodiment of the present invention and represent all of the technical spirit of the present invention. Therefore, it should be understood that there may be various equivalents and modifications that can be substituted for them at the time of filing the present application. Therefore, the embodiments described above are to be understood as illustrative and not restrictive in all respects, and the scope of the present invention is indicated by the following claims rather than the detailed description, and the meaning and scope of the claims and their All changes or modifications derived from the concept of equivalents should be construed as being included in the scope of the present invention.
100 : 화자구분 시스템
110 : 음성신호입력부
120 : 화자구분부
130 : STT변환부
140 : 출력부
150 : 저장부100: speaker identification system
110: voice signal input unit
120: speaker division
130: STT conversion unit
140: output unit
150: storage
Claims (4)
상기 음성신호입력부로부터 입력된 복수의 화자의 음성 주파수를 각각 추출하고, 주파수 대역을 분석하여 복수의 화자를 구분하는 화자구분부;
상기 화자구분부로부터 구분된 화자들간의 대화를 STT를 활용하여 텍스트로 변환하는 STT변환부; 및
상기 STT변환부를 통해 구분된 화자들간의 대화 텍스트를 사용자들의 휴대단말기로 출력하는 출력부;
를 포함하는 화자구분 시스템.a voice signal input unit to which voice signals generated from a plurality of speakers are input;
a speaker classification unit for extracting voice frequencies of a plurality of speakers input from the voice signal input unit, respectively, and analyzing frequency bands to classify the plurality of speakers;
an STT conversion unit for converting the conversation between the speakers separated from the speaker classification unit into text using STT; and
an output unit for outputting the dialogue text between the speakers divided through the STT conversion unit to the user's portable terminal;
A speaker identification system that includes.
상기 화자구분부는, 상기 음성신호입력부를 통해 복수의 화자로부터 다중언어가 입력되는 경우 언어의 종류에 따라 화자들을 선분류하고, 분류된 화자들간의 음성 주파수를 추출 및 주파수 대역을 분석하여 화자를 후분류하는 것을 특징으로 하는 화자구분 시스템.According to claim 1,
The speaker classification unit, when multiple languages are input from a plurality of speakers through the voice signal input unit, pre-classifies speakers according to the type of language, extracts voice frequencies between the classified speakers, and analyzes the frequency band to select the speakers. Speaker classification system, characterized in that the classification.
상기 분류된 화자들간의 대화 텍스트로부터 기 설정된 언어가 아닌 언어로 인식되는 경우, 해당 언어를 기 설정된 언어로 번역하여 대화 텍스트와 함께 제공해주는 것을 특징으로 하는 화자구분 시스템.3. The method of claim 2,
When a language other than a preset language is recognized from the conversation text between the classified speakers, the corresponding language is translated into a preset language and provided together with the dialog text.
통화 종료 후 음성대화에 포함되어 저장된 대화 텍스트는, 이후 녹음파일 재생시에 사용자의 휴대단말기를 통해 함께 제공되되,
재생되는 음성에 매칭되는 대화 텍스트가 확대되어 제공되는 것을 특징으로 하는 화자구분 시스템.According to claim 1,
After the call ends, the conversation text included in the voice conversation and stored is provided together through the user's mobile terminal when the recorded file is played back.
A speaker identification system, characterized in that the dialogue text matching the reproduced voice is provided in an enlarged manner.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210026292A KR20220122099A (en) | 2021-02-26 | 2021-02-26 | Speaker classification system according to the type of multiple languages |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210026292A KR20220122099A (en) | 2021-02-26 | 2021-02-26 | Speaker classification system according to the type of multiple languages |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220122099A true KR20220122099A (en) | 2022-09-02 |
Family
ID=83280712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210026292A KR20220122099A (en) | 2021-02-26 | 2021-02-26 | Speaker classification system according to the type of multiple languages |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20220122099A (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102136393B1 (en) | 2018-07-19 | 2020-07-21 | 주식회사 케이티 | Apparatus and Method for managing text changed from voice in call |
-
2021
- 2021-02-26 KR KR1020210026292A patent/KR20220122099A/en not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102136393B1 (en) | 2018-07-19 | 2020-07-21 | 주식회사 케이티 | Apparatus and Method for managing text changed from voice in call |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110049270B (en) | Multi-person conference voice transcription method, device, system, equipment and storage medium | |
KR101149135B1 (en) | Method and apparatus for voice interactive messaging | |
JP5119055B2 (en) | Multilingual voice recognition apparatus, system, voice switching method and program | |
US20120197629A1 (en) | Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server | |
US20150227510A1 (en) | System for speaker diarization based multilateral automatic speech translation system and its operating method, and apparatus supporting the same | |
US8812314B2 (en) | Method of and system for improving accuracy in a speech recognition system | |
US8990071B2 (en) | Telephony service interaction management | |
CN107886951B (en) | Voice detection method, device and equipment | |
US20030040907A1 (en) | Speech recognition system | |
JP2018017936A (en) | Voice interactive device, server device, voice interactive method, voice processing method and program | |
US9401145B1 (en) | Speech analytics system and system and method for determining structured speech | |
KR20090111825A (en) | Method and apparatus for language independent voice indexing and searching | |
US20060129393A1 (en) | System and method for synthesizing dialog-style speech using speech-act information | |
JP2020071675A (en) | Speech summary generation apparatus, speech summary generation method, and program | |
JP2020071676A (en) | Speech summary generation apparatus, speech summary generation method, and program | |
KR20190143116A (en) | Talk auto-recording apparatus method | |
KR20220122099A (en) | Speaker classification system according to the type of multiple languages | |
KR20220121456A (en) | Speaker classification system that categorizes and stores conversation text | |
KR102666826B1 (en) | Speaker classification system using STT | |
KR20220121455A (en) | Speaker classification system using STT | |
CN111354350A (en) | Voice processing method and device, voice processing equipment and electronic equipment | |
KR20220122098A (en) | Real-time speaker classification system | |
CN116110370A (en) | Speech synthesis system and related equipment based on man-machine speech interaction | |
JPH10173769A (en) | Voice message retrieval device | |
KR102376552B1 (en) | Voice synthetic apparatus and voice synthetic method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |