KR102076565B1 - 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법 - Google Patents

화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR102076565B1
KR102076565B1 KR1020180121064A KR20180121064A KR102076565B1 KR 102076565 B1 KR102076565 B1 KR 102076565B1 KR 1020180121064 A KR1020180121064 A KR 1020180121064A KR 20180121064 A KR20180121064 A KR 20180121064A KR 102076565 B1 KR102076565 B1 KR 102076565B1
Authority
KR
South Korea
Prior art keywords
identification
talker
speech
voice
noise
Prior art date
Application number
KR1020180121064A
Other languages
English (en)
Inventor
최보람
Original Assignee
주식회사 한글과컴퓨터
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 한글과컴퓨터 filed Critical 주식회사 한글과컴퓨터
Priority to KR1020180121064A priority Critical patent/KR102076565B1/ko
Application granted granted Critical
Publication of KR102076565B1 publication Critical patent/KR102076565B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법이 개시된다. 본 발명은 음성 데이터상에 음성을 발화한 발화자에 대응되는 음성 식별용 노이즈 신호를 인위적으로 삽입함으로써, 상기 음성 데이터를 재생할 때, 재생 시점에서의 음성 신호에 삽입되어 있는 음성 식별용 노이즈 신호를 기초로 음성을 발화한 발화자가 누구인지를 손쉽게 식별할 수 있도록 지원하는 음성 처리 장치 및 그 동작 방법에 대한 것이다.

Description

화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법{SPEECH PROCESSING APPARATUS WHICH ENABLES IDENTIFICATION OF A SPEAKING PERSON THROUGH INSERTION OF SPEAKER IDENTIFICATION NOISE AND OPERATING METHOD THEREOF}
본 발명은 음성 데이터에서 음성을 발화한 발화자가 누구인지를 식별할 수 있도록 지원하기 위한 음성 처리 장치 및 그 동작 방법에 대한 것이다.
발화자의 음성을 녹음하고 재생하는 장치는 회의나 모임에서 관련 내용을 문서로 기록하는 방식보다 정확한 정보를 기록할 수 있어서, 회의록 작성에 유용하게 사용된다.
하지만, 기존의 음성 녹음 재생 장치에서는 다양한 발화자들의 음성이 혼합되어 있는 음성 데이터를 재생하였을 때, 각 발화자의 음성이 누구의 것인지를 식별할 수 있는 기능이 도입되어 있지 않아서, 누가 음성을 발화하였는지를 구분하는데 한계가 존재하였다.
발화자의 음성을 식별하는 기법으로는 발화자의 음성 특징을 파악하고 이를 기초로 해당 음성의 발화자를 식별하는 성문 분석 방식이 있지만, 이러한 방식은 고도의 음성 분석 칩이 장치에 내장되어야 하고, 그 정확도가 높지 않다는 점에서 일반적인 회의록 작성에 사용하기 위한 음성 녹음 재생 장치에서 활용하기에 적합하지 않은 측면이 있다.
관련해서, 음성을 녹음하는 과정에서 발화자의 특징을 음성 데이터에 인위적으로 포함시킬 수 있다면, 녹음된 음성을 재생하는 과정에서 음성 데이터에 포함되어 있는 발화자의 특징을 확인할 수 있어서, 보다 정확하게 발화자를 식별할 수 있을 것이다. 따라서, 음성 데이터에 대해 발화자의 특징을 인위적으로 포함시킴으로써, 각 음성에 대한 발화자를 식별할 수 있도록 지원하는 음성 처리 기술에 대한 연구가 필요하다.
본 발명은 음성 데이터상에 음성을 발화한 발화자에 대응되는 음성 식별용 노이즈 신호를 인위적으로 삽입함으로써, 상기 음성 데이터를 재생할 때, 재생 시점에서의 음성 신호에 삽입되어 있는 음성 식별용 노이즈 신호를 기초로 음성을 발화한 발화자가 누구인지를 손쉽게 식별할 수 있도록 지원하는 음성 처리 장치 및 그 동작 방법을 제공하고자 한다.
본 발명의 일실시예에 따른 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치는 복수의 발화자들 각각에 대응되는 서로 다른 노이즈 신호 삽입용 주파수 대역을 결정하는 주파수 대역 결정부, 상기 복수의 발화자들 각각에 대한 식별 정보와 상기 복수의 발화자들 각각에 대해서 결정된 노이즈 신호 삽입용 주파수 대역을 서로 대응시켜 기록한 식별 테이블을 생성하는 식별 테이블 생성부, 상기 복수의 발화자들 각각에 대응되는 노이즈 신호 삽입용 주파수 대역에 포함되는 주파수를 갖는 노이즈 신호를 각 발화자에 대한 음성 식별용 노이즈 신호로 생성하는 노이즈 생성부, 상기 복수의 발화자들 각각의 음성을 녹음한 음성 데이터에서 각 발화자의 음성 신호가 존재하는 구간에 대해, 대응되는 발화자의 음성 식별용 노이즈 신호를 삽입함으로써, 상기 복수의 발화자들 각각에 대한 음성 데이터의 보정을 수행하는 노이즈 삽입부 및 상기 복수의 발화자들 각각에 대한 보정된 음성 데이터를 서로 혼합하여 혼합 음성 데이터를 생성하는 혼합부를 포함한다.
또한, 본 발명의 일실시예에 따른 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치의 동작 방법은 복수의 발화자들 각각에 대응되는 서로 다른 노이즈 신호 삽입용 주파수 대역을 결정하는 단계, 상기 복수의 발화자들 각각에 대한 식별 정보와 상기 복수의 발화자들 각각에 대해서 결정된 노이즈 신호 삽입용 주파수 대역을 서로 대응시켜 기록한 식별 테이블을 생성하는 단계, 상기 복수의 발화자들 각각에 대응되는 노이즈 신호 삽입용 주파수 대역에 포함되는 주파수를 갖는 노이즈 신호를 각 발화자에 대한 음성 식별용 노이즈 신호로 생성하는 단계, 상기 복수의 발화자들 각각의 음성을 녹음한 음성 데이터에서 각 발화자의 음성 신호가 존재하는 구간에 대해, 대응되는 발화자의 음성 식별용 노이즈 신호를 삽입함으로써, 상기 복수의 발화자들 각각에 대한 음성 데이터의 보정을 수행하는 단계 및 상기 복수의 발화자들 각각에 대한 보정된 음성 데이터를 서로 혼합하여 혼합 음성 데이터를 생성하는 단계를 포함한다.
본 발명은 음성 데이터상에 음성을 발화한 발화자에 대응되는 음성 식별용 노이즈 신호를 인위적으로 삽입함으로써, 상기 음성 데이터를 재생할 때, 재생 시점에서의 음성 신호에 삽입되어 있는 음성 식별용 노이즈 신호를 기초로 음성을 발화한 발화자가 누구인지를 손쉽게 식별할 수 있도록 지원하는 음성 처리 장치 및 그 동작 방법을 제공할 수 있다.
도 1은 본 발명의 일실시예에 따른 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치의 동작 방법을 도시한 순서도이다.
이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
본 문서에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 본 발명의 다양한 실시예들에 있어서, 각 구성요소들, 기능 블록들 또는 수단들은 하나 또는 그 이상의 하부 구성요소로 구성될 수 있고, 각 구성요소들이 수행하는 전기, 전자, 기계적 기능들은 전자회로, 집적회로, ASIC(Application Specific Integrated Circuit) 등 공지된 다양한 소자들 또는 기계적 요소들로 구현될 수 있으며, 각각 별개로 구현되거나 2 이상이 하나로 통합되어 구현될 수도 있다.
한편, 첨부된 블록도의 블록들이나 흐름도의 단계들은 범용 컴퓨터, 특수용 컴퓨터, 휴대용 노트북 컴퓨터, 네트워크 컴퓨터 등 데이터 프로세싱이 가능한 장비의 프로세서나 메모리에 탑재되어 지정된 기능들을 수행하는 컴퓨터 프로그램 인스트럭션들(instructions)을 의미하는 것으로 해석될 수 있다. 이들 컴퓨터 프로그램 인스트럭션들은 컴퓨터 장치에 구비된 메모리 또는 컴퓨터에서 판독 가능한 메모리에 저장될 수 있기 때문에, 블록도의 블록들 또는 흐름도의 단계들에서 설명된 기능들은 이를 수행하는 인스트럭션 수단을 내포하는 제조물로 생산될 수도 있다. 아울러, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 가능한 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 정해진 순서와 달리 실행되는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 실질적으로 동시에 수행되거나, 역순으로 수행될 수 있으며, 경우에 따라 일부 블록들 또는 단계들이 생략된 채로 수행될 수도 있다.
도 1은 본 발명의 일실시예에 따른 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치의 구조를 도시한 도면이다.
도 1을 참조하면, 본 발명에 따른 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치(110)는 주파수 대역 결정부(111), 식별 테이블 생성부(112), 노이즈 생성부(113), 노이즈 삽입부(114) 및 혼합부(115)를 포함한다.
주파수 대역 결정부(111)는 복수의 발화자들 각각에 대응되는 서로 다른 노이즈 신호 삽입용 주파수 대역을 결정한다.
이때, 본 발명의 일실시예에 따르면, 주파수 대역 결정부(111)는 기설정된(predetermined) 기준 주파수 대역 내에서 서로 동일한 대역폭을 가짐과 동시에 서로 주파수 대역이 겹치지 않도록 상기 복수의 발화자들 각각에 대응되는 노이즈 신호 삽입용 주파수 대역을 결정할 수 있다.
일반적으로, 사람이 들을 수 있는 소리의 가청주파수 대역은 20~20,000Hz이고, 이 중 음성 대역의 주파수 대역은 통상 300~3,400Hz이다. 그래서, 6,000Hz 이상의 주파수는 음성에 있어 큰 의미가 없는 주파수라는 점에서, 본 발명은 6,000Hz 이상의 주파수 대역에 각 발화자를 식별하기 위한 소정의 노이즈 신호를 인위적으로 추가함으로써, 추후 음성 재생 과정에서 각 발화자를 식별할 수 있도록 지원한다.
이러한 점을 고려하여, 상기 기준 주파수 대역은 6,000Hz 이상의 주파수 영역에서 사용자에 의해 미리 설정될 수 있는 대역을 의미한다. 예컨대, 상기 기준 주파수 대역은 6,000~9,000Hz으로 설정될 수 있다.
이때, 상기 복수의 발화자들이 총 3명이라고 하는 경우, 주파수 대역 결정부(111)는 상기 기준 주파수 대역인 6,000~9,000Hz 내에서 서로 동일한 대역폭을 가짐과 동시에 서로 주파수 대역이 겹치지 않도록 3명의 발화자들 각각에 대응되는 노이즈 신호 삽입용 주파수 대역을 결정할 수 있다. 관련해서, 주파수 대역 결정부(111)는 3명의 발화자들 각각에 대응되는 노이즈 신호 삽입용 주파수 대역을 하기의 표 1의 예와 같이 결정할 수 있다.
발화자 노이즈 신호 삽입용 주파수 대역
발화자 A 6,000~7,000Hz
발화자 B 7,000~8,000Hz
발화자 C 8,000~9,000Hz
식별 테이블 생성부(112)는 상기 복수의 발화자들 각각에 대한 식별 정보와 상기 복수의 발화자들 각각에 대해서 결정된 노이즈 신호 삽입용 주파수 대역을 서로 대응시켜 기록한 식별 테이블을 생성한다.
여기서, 상기 복수의 발화자들 각각에 대한 식별 정보란 각 발화자의 이름, 아이디 등과 같이 각 발화자를 구분하기 위한 정보를 의미한다. 관련해서, 상기 표 1과 같이 3명의 발화자들 각각에 대한 노이즈 신호 삽입용 주파수 대역이 결정되었다고 하는 경우, 식별 테이블 생성부(112)는 하기의 표 2와 같은 식별 테이블을 생성할 수 있다.
발화자들의 식별 정보 노이즈 신호 삽입용 주파수 대역
발화자 A의 식별 정보 6,000~7,000Hz
발화자 B의 식별 정보 7,000~8,000Hz
발화자 C의 식별 정보 8,000~9,000Hz
노이즈 생성부(113)는 상기 복수의 발화자들 각각에 대응되는 노이즈 신호 삽입용 주파수 대역에 포함되는 주파수를 갖는 노이즈 신호를 각 발화자에 대한 음성 식별용 노이즈 신호로 생성한다.
관련해서, 상기 표 1에서 나타낸 예시와 같이 3명의 발화자들 각각에 대한 노이즈 신호 삽입용 주파수 대역이 생성되었다고 하는 경우, 노이즈 생성부(113)는 '발화자 A'에 대해 6,000~7,000Hz에 포함되는 주파수를 갖는 노이즈 신호를 생성함으로써, 해당 노이즈 신호를 '발화자 A'에 대한 음성 식별용 노이즈 신호로 생성할 수 있고, '발화자 B'에 대해 7,000~8,000Hz에 포함되는 주파수를 갖는 노이즈 신호를 생성함으로써, 해당 노이즈 신호를 '발화자 B'에 대한 음성 식별용 노이즈 신호로 생성할 수 있으며, '발화자 C'에 대해 8,000~9,000Hz에 포함되는 주파수를 갖는 노이즈 신호를 생성함으로써, 해당 노이즈 신호를 '발화자 C'에 대한 음성 식별용 노이즈 신호로 생성할 수 있다.
이렇게, 상기 복수의 발화자들 각각에 대한 음성 식별용 노이즈 신호의 생성이 완료되면, 노이즈 삽입부(114)는 상기 복수의 발화자들 각각의 음성을 녹음한 음성 데이터에서 각 발화자의 음성 신호가 존재하는 구간에 대해, 대응되는 발화자의 음성 식별용 노이즈 신호를 삽입함으로써, 상기 복수의 발화자들 각각에 대한 음성 데이터의 보정을 수행한다.
예컨대, 3명의 발화자들 각각의 음성 데이터에서 각 발화자의 음성 신호가 존재하는 구간이 하기의 표 3과 같이 존재한다고 가정하자.
발화자 발화 구간
발화자 A 0.2초~1.1초, 4.6초~5.5초, 8초~10.2초, ...
발화자 B 1.4초~1.9초, 3.3초~4.4초, ...
발화자 C 2.2초~3.0초, 6.1초~7.3초, ...
이때, 노이즈 삽입부(114)는 '발화자 A'의 음성 데이터에서 상기 표 3에서 나타낸 '발화자 A'에 대한 발화 구간에서의 음성 신호에 대해 '발화자 A'에 대해서 생성된 음성 식별용 노이즈 신호를 삽입할 수 있고, '발화자 B'의 음성 데이터에서 상기 표 3에서 나타낸 '발화자 B'에 대한 발화 구간에서의 음성 신호에 대해 '발화자 B'에 대해서 생성된 음성 식별용 노이즈 신호를 삽입할 수 있으며, '발화자 C'의 음성 데이터에서 상기 표 3에서 나타낸 '발화자 C'에 대한 발화 구간에서의 음성 신호에 대해 '발화자 C'에 대해서 생성된 음성 식별용 노이즈 신호를 삽입할 수 있다.
이때, 본 발명의 일실시예에 따르면, 노이즈 삽입부(114)는 상기 복수의 발화자들 각각의 음성을 녹음한 음성 데이터에 각 발화자의 음성 식별용 노이즈 신호를 삽입하기 전에, 상기 복수의 발화자들 각각의 음성을 녹음한 음성 데이터에서 상기 기준 주파수 대역 상의 음성 신호를 모두 소거(clear)할 수 있고, 그 이후 노이즈 삽입부(114)는 상기 복수의 발화자들 각각의 음성을 녹음한 음성 데이터에서 각 발화자의 음성 신호가 존재하는 구간에 대해, 대응되는 발화자의 음성 식별용 노이즈 신호를 삽입함으로써, 상기 복수의 발화자들 각각에 대한 음성 데이터의 보정을 수행할 수 있다.
관련해서, 앞서 설명한 예시와 같이, 상기 기준 주파수 대역이 6,000~9,000Hz라고 하는 경우, 노이즈 삽입부(114)는 발화자 A, B, C 각각에 대한 음성 데이터에서 상기 기준 주파수 대역인 6,000~9,000Hz에 해당되는 신호를 모두 소거한 후 발화자 A, B, C 각각의 발화 구간에서의 음성 신호에 대해 각 발화자에 대한 음성 식별용 노이즈 신호를 삽입할 수 있다.
이렇게, 각 발화자의 음성 데이터에서 상기 기준 주파수 대역의 신호에 대한 소거 처리를 수행하게 되면, 각 발화자의 음성 데이터에 음성 식별용 노이즈 신호가 깨끗하게 삽입될 수 있어서, 추후 각 발화자의 음성 데이터로부터 음성 식별용 노이즈 신호를 검출할 때, 보다 정확하게 음성 식별용 노이즈 신호를 검출할 수 있게 된다.
이렇게, 노이즈 삽입부(114)가 상기 복수의 발화자들 각각에 대해 음성 식별용 노이즈 신호를 삽입함으로써, 각 발화자의 음성 데이터가 보정되면, 혼합부(115)는 상기 복수의 발화자들 각각에 대한 보정된 음성 데이터를 서로 혼합하여 혼합 음성 데이터를 생성한다.
즉, 본 발명에 따른 음성 처리 장치(110)는 회의에서의 음성을 녹음한 음성 회의록을 만든다고 하였을 때, 회의에 참석한 각 발화자의 음성을 각각 녹음해서 각 발화자의 음성 데이터를 획득하고, 각 발화자에 대응하는 음성 식별용 노이즈 신호를 생성하여 각 발화자의 음성 데이터에 삽입한 후 각 발화자의 음성 데이터를 하나의 음성 데이터로 혼합함으로써, 음성 회의록을 만들 수 있다.
이때, 본 발명의 일실시예에 따르면, 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치(110)는 상기 혼합 음성 데이터가 생성된 이후 상기 혼합 음성 데이터의 재생 명령이 인가되었을 때, 상기 혼합 음성 데이터를 재생하면서, 각 음성의 발화자를 식별하기 위한 구성을 더 포함할 수 있는데, 음성 처리 장치(110)는 테이블 확인부(116), 식별 정보 확인부(117) 및 발화자 출력부(118)를 더 포함할 수 있다.
테이블 확인부(116)는 상기 혼합 음성 데이터가 생성된 이후 상기 혼합 음성 데이터에 대한 재생 명령이 인가되면, 상기 식별 테이블을 참조하여 상기 복수의 발화자들 각각에 대한 식별 정보와 노이즈 신호 삽입용 주파수 대역을 확인한다.
식별 정보 확인부(117)는 상기 혼합 음성 데이터를 재생하여 스피커를 통해 혼합 음성을 출력하고, 상기 혼합 음성 데이터의 재생에 따른 음성 신호상에서 상기 기준 주파수 대역에 포함되는 주파수를 갖는 음성 식별용 노이즈 신호를 추출하며, 상기 추출된 음성 식별용 노이즈 신호의 주파수가 상기 복수의 발화자들 각각에 대응되는 노이즈 신호 삽입용 주파수 대역 중 어느 주파수 대역에 포함되는지 여부를 확인함으로써, 상기 혼합 음성이 출력되는 시점에 대응하는 발화자의 식별 정보를 확인한다.
발화자 출력부(118)는 디스플레이를 통해 상기 혼합 음성이 출력되는 시점에 대응되어 확인된 발화자의 식별 정보를 출력한다.
관련해서, 표 2의 예와 같이 상기 식별 테이블이 생성되었다고 하는 경우, 테이블 확인부(116)는 상기 혼합 음성 데이터에 대한 재생 명령이 인가되면, 상기 표 2와 같은 식별 테이블을 확인해서 3명의 발화자들 각각에 대한 식별 정보와 노이즈 신호 삽입용 주파수 대역을 확인할 수 있다.
그리고, 식별 정보 확인부(117)는 상기 혼합 음성 데이터를 재생하여 스피커를 통해 혼합 음성을 출력하고, 이와 동시에 상기 혼합 음성 데이터의 재생에 따른 음성 신호상에서 상기 기준 주파수 대역인 6,000~9,000Hz에 포함되는 주파수를 갖는 음성 식별용 노이즈 신호를 추출할 수 있다.
그리고, 식별 정보 확인부(117)는 상기 추출된 음성 식별용 노이즈 신호의 주파수가 3명의 발화자들 각각에 대응되는 노이즈 신호 삽입용 주파수 대역 중 어느 주파수 대역에 포함되는지 여부를 확인함으로써, 상기 혼합 음성이 출력되는 시점에 대응하는 발화자의 식별 정보를 확인할 수 있다.
예컨대, 상기 혼합 음성 데이터가 재생되는 현재 시점이 '0.8초'라고 하는 경우, '0.8초'의 시점에서는 상기 표 3에 따르면 상기 혼합 음성 데이터에서 '발화자 A'의 음성에 대응하는 음성 신호가 존재하는 구간이기 때문에, 식별 정보 확인부(117)가 상기 혼합 음성 데이터의 재생에 따른 음성 신호로부터 상기 기준 주파수 대역에 포함되는 주파수를 갖는 음성 식별용 노이즈 신호를 추출하게 되면, '발화자 A'의 음성 식별용 노이즈 신호가 추출된다. 이때, 식별 정보 확인부(117)는 '발화자 A'의 음성 식별용 노이즈 신호의 주파수가 '발화자 A'의 노이즈 신호 삽입용 주파수 대역에 포함되는 노이즈 신호인 것으로 확인할 수 있기 때문에 '0.8초'라는 혼합 음성이 출력되는 시점에서의 발화자의 식별 정보로 '발화자 A'의 식별 정보를 확인할 수 있다.
그 이후, 발화자 출력부(118)는 디스플레이를 통해 '0.8초'라는 상기 혼합 음성이 출력되는 시점에 대응되어 확인된 발화자의 식별 정보인 '발화자 A'의 식별 정보를 출력할 수 있다.
본 발명의 일실시예에 따르면, 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치(110)는 사전 데이터베이스(119), 색상 저장부(120), 음성 인식부(121), 단어 추출부(122), 감성 지수 연산부(123) 및 색상 정보 추출부(124)를 더 포함할 수 있다.
사전 데이터베이스(119)에는 복수의 단어들과 상기 복수의 단어들 각각에 대한 미리 설정된 서로 다른 감성 값이 대응되어 저장되어 있다.
여기서, 감성 값은 상기 복수의 단어들 각각에 대해서 사용자에 의해 임의로 설정된 값으로, 사용자는 각 단어들의 특징을 고려하여 각 단어에 대해 적절한 감성 값을 설정할 수 있다. 예컨대, 상기 감성 값은 '0'~'10'사이의 값으로 설정될 수 있으며, '0'에 가까울수록 나쁨을 의미하고, '10'에 가까울수록 좋음을 의미하도록 설정될 수 있다.
이러한 점을 고려하면, 사전 데이터베이스(119)에는 하기의 표 4와 같이 데이터가 저장되어 있을 수 있다.
복수의 단어들 감성 값
실패 0
사랑 10
성공 8
어머니 9
복수 2
... ...
색상 저장부(120)에는 복수의 색상들에 대한 정보와 상기 복수의 색상들에 대한 정보 각각에 대응하는 미리 설정된 감성 지수의 범위 값이 저장되어 있다.
이때, 색상 저장부(120)에는 하기의 표 5와 같이 데이터가 저장되어 있을 수 있다.
복수의 색상들에 대한 정보 감성 지수의 범위 값
빨간색 8~10
파란색 4~6
검은색 0~3
... ...
음성 인식부(121)는 상기 혼합 음성 데이터가 재생되어 상기 스피커를 통해 상기 혼합 음성이 출력되면, 기설정된 시간 동안 음성인식기를 통해 상기 혼합 음성을 인식하여 상기 혼합 음성에 대한 텍스트를 생성한다.
단어 추출부(122)는 상기 인식된 텍스트에 대해 형태소 분석을 수행하여 상기 인식된 텍스트로부터 복수의 제1 단어들을 추출한다.
감성 지수 연산부(123)는 사전 데이터베이스(119)를 참조하여 상기 복수의 제1 단어들 각각에 대응하는 감성 값들을 확인한 후 상기 복수의 제1 단어들 각각에 대응하는 감성 값들의 평균 값을 상기 혼합 음성에 대한 제1 감성 지수로 연산한다.
예컨대, 상기 복수의 제1 단어들이 '사랑', '어머니', '성공'이라고 하는 경우, 감성 지수 연산부(123)는 상기 표 4과 같은 사전 데이터베이스(119)를 참조하여 '사랑', '어머니', '성공' 각각에 대응하는 감성 값들을 확인한 후 각 감성 값의 평균 값인 '9'를 상기 혼합 음성에 대한 제1 감성 지수로 연산한다.
이때, 본 발명의 일실시예에 따르면, 감성 지수 연산부(123)는 상기 복수의 제1 단어들 중 상기 복수의 제1 단어들 사이에서 기설정된 중복 횟수 이상 중복해서 존재하는 적어도 하나의 제1 단어가 존재하는 경우, 사전 데이터베이스(119)를 참조하여 상기 복수의 제1 단어들 각각에 대응하는 감성 값들의 확인이 완료되면, 상기 적어도 하나의 제1 단어에 대해서 확인된 감성 값에 대해서는 기설정된 중복 가중치를 곱하여 감성 값 보정을 수행한 후 상기 복수의 제1 단어들 각각에 대응하는 감성 값들의 평균 값을 상기 혼합 음성에 대한 제1 감성 지수로 연산할 수 있다.
예컨대, 음성 인식에 기반하여 생성한 텍스트로부터 상기 복수의 제1 단어들을 추출한 결과, 상기 복수의 제1 단어들에서 '사랑'이라는 단어가 상기 기설정된 중복 횟수 이상 중복해서 존재하는 경우, 감성 지수 연산부(123)는 '사랑'에 대한 감성 값인 '10'에 대해 상기 기설정된 중복 가중치를 곱하여 '사랑'에 대한 감성 값에 대한 보정을 수행한 후 상기 복수의 제1 단어들 각각에 대응하는 감성 값들의 평균 값을 상기 혼합 음성에 대한 상기 제1 감성 지수로 연산할 수 있다.
이때, 상기 기설정된 중복 가중치는 '1'을 초과하는 값일 수 있다.
색상 정보 추출부(124)는 상기 제1 감성 지수가 연산되면, 상기 제1 감성 지수를 기초로 색상 저장부(120)로부터 상기 제1 감성 지수가 속한 감성 지수의 범위 값에 대응되어 저장되어 있는 제1 색상에 대한 정보를 추출한다.
이때, 발화자 출력부(118)는 상기 제1 색상에 대한 정보를 기초로 상기 혼합 음성이 출력되는 시점에 대응되어 확인된 발화자의 식별 정보를 지시하는 문자열의 색상을 상기 제1 색상으로 구성하여 상기 디스플레이를 통해 출력할 수 있다.
예컨대, 상기 제1 감성 지수가 '9'라고 하는 경우, 색상 정보 추출부(124)는 상기 표 5와 같은 색상 저장부(120)로부터 '9'가 속해있는 감성 지수의 범위 값인 '8~10'에 대응되어 저장되어 있는 '빨간색'이라는 색상 정보를 추출할 수 있다.
그러고 나서, 발화자 출력부(118)는 상기 혼합 음성이 출력되는 시점에 대응되어 확인된 발화자의 식별 정보를 지시하는 문자열의 색상을 '빨간색'으로 구성하여 상기 디스플레이를 통해 출력할 수 있다.
이때, 본 발명의 일실시예에 따르면, 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치(110)는 이미지 저장부(125), 이미지 추출부(126), 섬네일 출력부(127) 및 이미지 출력부(128)를 더 포함할 수 있다.
이미지 저장부(125)에는 복수의 이미지들과 상기 복수의 이미지들 각각에 대응하는 미리 설정된 감성 지수가 저장되어 있다.
예컨대, 이미지 저장부(125)에는 하기의 표 6과 같이 데이터가 저장되어 있을 수 있다.
복수의 이미지들 감성 지수
이미지 1 0
이미지 2 1
이미지 3 2
이미지 4 3
이미지 5 4
... ...
이미지 추출부(126)는 상기 제1 감성 지수가 연산되면, 상기 제1 감성 지수에 대해 기설정된 제1 기준 값을 차감한 제1 경계 값과 상기 제1 감성 지수에 대해 상기 제1 기준 값을 합산한 제2 경계 값을 연산한 후 이미지 저장부(125)로부터 상기 제1 경계 값과 상기 제2 경계 값 사이에 존재하는 감성 지수에 대응되어 저장되어 있는 적어도 하나의 제1 이미지를 추출한다.
여기서, 상기 제1 경계 값과 상기 제2 경계 값 사이에 존재하는 감성 지수란 상기 제1 경계 값을 초과하고 상기 제2 경계 값 미만에 해당되는 감성 지수를 의미한다.
예컨대, 상기 제1 감성 지수가 '5'로 연산되었고, 상기 제1 기준 값이 '2.4'라고 하는 경우, 이미지 추출부(126)는 상기 제1 감성 지수인 '5'에 상기 제1 기준 값인 '2.4'를 차감하여 제1 경계 값인 '2.6'을 연산하고, 상기 제1 감성 지수인 '5'에 상기 제2 기준 값인 '2.4'를 합산하여 제2 경계 값인 '7.4'를 연산할 수 있다.
그 이후, 이미지 추출부(126)는 상기 표 6과 같은 이미지 저장부(125)로부터 상기 제1 경계 값인 '2.6'과 상기 제2 경계 값인 '7.4' 사이에 존재하는 감성 지수에 대응되어 저장되어 있는 적어도 하나의 제1 이미지를 추출할 수 있다.
섬네일 출력부(127)는 상기 적어도 하나의 제1 이미지에 대한 섬네일(thumbnail)을 생성하여 상기 적어도 하나의 제1 이미지에 대한 섬네일을 상기 디스플레이를 통해 출력한다.
그리고, 이미지 출력부(128)는 상기 디스플레이를 통해서 출력되고 있는 상기 적어도 하나의 제1 이미지에 대한 섬네일 중 제2 이미지에 대한 섬네일에 대해서 선택 출력 명령이 인가되면, 상기 적어도 하나의 제1 이미지 중 상기 제2 이미지를 상기 디스플레이를 통해 출력한다.
본 명세서에서 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치(110)를 구성하는 주파수 대역 결정부(111), 식별 테이블 생성부(112), 노이즈 생성부(113), 노이즈 삽입부(114), 혼합부(115), 테이블 확인부(116), 식별 정보 확인부(117), 발화자 출력부(118), 음성 인식부(121), 단어 추출부(122), 감성 지수 연산부(123), 색상 정보 추출부(124), 이미지 추출부(126), 섬네일 출력부(127) 및 이미지 출력부(128)는 특정 인스트럭션을 수행하는 모듈을 의미하기 위해 사용되었으며, 상기 모듈들을 통해 수행되는 인스트럭션들은 음성 처리 장치(110)에 구비된 프로세서(미도시)에 의해 수행될 수 있는 것으로 이해될 수 있음을 밝혀둔다.
도 2는 본 발명의 일실시예에 따른 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치의 동작 방법을 도시한 순서도이다.
단계(S210)에서는 복수의 발화자들 각각에 대응되는 서로 다른 노이즈 신호 삽입용 주파수 대역을 결정한다.
단계(S220)에서는 상기 복수의 발화자들 각각에 대한 식별 정보와 상기 복수의 발화자들 각각에 대해서 결정된 노이즈 신호 삽입용 주파수 대역을 서로 대응시켜 기록한 식별 테이블을 생성한다.
단계(S230)에서는 상기 복수의 발화자들 각각에 대응되는 노이즈 신호 삽입용 주파수 대역에 포함되는 주파수를 갖는 노이즈 신호를 각 발화자에 대한 음성 식별용 노이즈 신호로 생성한다.
단계(S240)에서는 상기 복수의 발화자들 각각의 음성을 녹음한 음성 데이터에서 각 발화자의 음성 신호가 존재하는 구간에 대해, 대응되는 발화자의 음성 식별용 노이즈 신호를 삽입함으로써, 상기 복수의 발화자들 각각에 대한 음성 데이터의 보정을 수행한다.
이때, 본 발명의 일실시예에 따르면, 단계(S240)에서는 상기 복수의 발화자들 각각의 음성을 녹음한 음성 데이터에 각 발화자의 음성 식별용 노이즈 신호를 삽입하기 전에, 상기 복수의 발화자들 각각의 음성을 녹음한 음성 데이터에서 상기 기준 주파수 대역 상의 음성 신호를 모두 소거한 후 상기 복수의 발화자들 각각의 음성을 녹음한 음성 데이터에서 각 발화자의 음성 신호가 존재하는 구간에 대해, 대응되는 발화자의 음성 식별용 노이즈 신호를 삽입함으로써, 상기 복수의 발화자들 각각에 대한 음성 데이터의 보정을 수행할 수 있다.
단계(S250)에서는 상기 복수의 발화자들 각각에 대한 보정된 음성 데이터를 서로 혼합하여 혼합 음성 데이터를 생성한다.
이때, 본 발명의 일실시예에 따르면, 단계(S210)에서는 기설정된 기준 주파수 대역 내에서 서로 동일한 대역폭을 가짐과 동시에 서로 주파수 대역이 겹치지 않도록 상기 복수의 발화자들 각각에 대응되는 노이즈 신호 삽입용 주파수 대역을 결정할 수 있다.
이때, 본 발명의 일실시예에 따르면, 상기 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치의 동작 방법은 상기 혼합 음성 데이터가 생성된 이후 상기 혼합 음성 데이터에 대한 재생 명령이 인가되면, 상기 식별 테이블을 참조하여 상기 복수의 발화자들 각각에 대한 식별 정보와 노이즈 신호 삽입용 주파수 대역을 확인하는 단계, 상기 혼합 음성 데이터를 재생하여 스피커를 통해 혼합 음성을 출력하고, 상기 혼합 음성 데이터의 재생에 따른 음성 신호상에서 상기 기준 주파수 대역에 포함되는 주파수를 갖는 음성 식별용 노이즈 신호를 추출하며, 상기 추출된 음성 식별용 노이즈 신호의 주파수가 상기 복수의 발화자들 각각에 대응되는 노이즈 신호 삽입용 주파수 대역 중 어느 주파수 대역에 포함되는지 여부를 확인함으로써, 상기 혼합 음성이 출력되는 시점에 대응하는 발화자의 식별 정보를 확인하는 단계 및 디스플레이를 통해 상기 혼합 음성이 출력되는 시점에 대응되어 확인된 발화자의 식별 정보를 출력하는 단계를 더 포함할 수 있다.
이대, 본 발명의 일실시예에 따르면, 상기 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치의 동작 방법은 복수의 단어들과 상기 복수의 단어들 각각에 대한 미리 설정된 서로 다른 감성 값이 대응되어 저장되어 있는 사전 데이터베이스를 유지하는 단계, 복수의 색상들에 대한 정보와 상기 복수의 색상들에 대한 정보 각각에 대응하는 미리 설정된 감성 지수의 범위 값이 저장되어 있는 색상 저장부를 유지하는 단계, 상기 혼합 음성 데이터가 재생되어 상기 스피커를 통해 상기 혼합 음성이 출력되면, 기설정된 시간 동안 음성인식기를 통해 상기 혼합 음성을 인식하여 상기 혼합 음성에 대한 텍스트를 생성하는 단계, 상기 인식된 텍스트에 대해 형태소 분석을 수행하여 상기 인식된 텍스트로부터 복수의 제1 단어들을 추출하는 단계, 상기 사전 데이터베이스를 참조하여 상기 복수의 제1 단어들 각각에 대응하는 감성 값들을 확인한 후 상기 복수의 제1 단어들 각각에 대응하는 감성 값들의 평균 값을 상기 혼합 음성에 대한 제1 감성 지수로 연산하는 단계 및 상기 제1 감성 지수가 연산되면, 상기 제1 감성 지수를 기초로 상기 색상 저장부로부터 상기 제1 감성 지수가 속한 감성 지수의 범위 값에 대응되어 저장되어 있는 제1 색상에 대한 정보를 추출하는 단계를 더 포함할 수 있다.,
이때, 상기 발화자의 식별 정보를 출력하는 단계는 상기 제1 색상에 대한 정보를 기초로 상기 혼합 음성이 출력되는 시점에 대응되어 확인된 발화자의 식별 정보를 지시하는 문자열의 색상을 상기 제1 색상으로 구성하여 상기 디스플레이를 통해 출력할 수 있다.
이때, 본 발명의 일실시예에 따르면, 상기 제1 감성 지수로 연산하는 단계는 상기 복수의 제1 단어들 중 상기 복수의 제1 단어들 사이에서 기설정된 중복 횟수 이상 중복해서 존재하는 적어도 하나의 제1 단어가 존재하는 경우, 상기 사전 데이터베이스를 참조하여 상기 복수의 제1 단어들 각각에 대응하는 감성 값들의 확인이 완료되면, 상기 적어도 하나의 제1 단어에 대해서 확인된 감성 값에 대해서는 기설정된 중복 가중치를 곱하여 감성 값 보정을 수행한 후 상기 복수의 제1 단어들 각각에 대응하는 감성 값들의 평균 값을 상기 혼합 음성에 대한 제1 감성 지수로 연산할 수 있다.
또한, 본 발명의 일실시예에 따르면, 상기 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치의 동작 방법은 복수의 이미지들과 상기 복수의 이미지들 각각에 대응하는 미리 설정된 감성 지수가 저장되어 있는 이미지 저장부를 유지하는 단계, 상기 제1 감성 지수가 연산되면, 상기 제1 감성 지수에 대해 기설정된 제1 기준 값을 차감한 제1 경계 값과 상기 제1 감성 지수에 대해 상기 제1 기준 값을 합산한 제2 경계 값을 연산한 후 상기 이미지 저장부로부터 상기 제1 경계 값과 상기 제2 경계 값 사이에 존재하는 감성 지수에 대응되어 저장되어 있는 적어도 하나의 제1 이미지를 추출하는 단계, 상기 적어도 하나의 제1 이미지에 대한 섬네일을 생성하여 상기 적어도 하나의 제1 이미지에 대한 섬네일을 상기 디스플레이를 통해 출력하는 단계 및 상기 디스플레이를 통해서 출력되고 있는 상기 적어도 하나의 제1 이미지에 대한 섬네일 중 제2 이미지에 대한 섬네일에 대해서 선택 출력 명령이 인가되면, 상기 적어도 하나의 제1 이미지 중 상기 제2 이미지를 상기 디스플레이를 통해 출력하는 단계를 더 포함할 수 있다.
이상, 도 2를 참조하여 본 발명의 일실시예에 따른 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치의 동작 방법은 도 1을 이용하여 설명한 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.
본 발명의 일실시예에 따른 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
또한, 본 발명의 일실시예에 따른 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
110: 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치
111: 주파수 대역 결정부 112: 식별 테이블 생성부
113: 노이즈 생성부 114: 노이즈 삽입부
115: 혼합부 116: 테이블 확인부
117: 식별 정보 확인부 118: 발화자 출력부
119: 사전 데이터베이스 120: 색상 저장부
121: 음성 인식부 122: 단어 추출부
123: 감성 지수 연산부 124: 색상 정보 추출부
125: 이미지 저장부 126: 이미지 추출부
127: 섬네일 출력부 128: 이미지 출력부

Claims (14)

  1. 복수의 단어들과 상기 복수의 단어들 각각에 대한 미리 설정된 서로 다른 감성 값이 대응되어 저장되어 있는 사전 데이터베이스;
    복수의 색상들에 대한 정보와 상기 복수의 색상들에 대한 정보 각각에 대응하는 미리 설정된 감성 지수의 범위 값이 저장되어 있는 색상 저장부;
    기설정된(predetermined) 기준 주파수 대역 내에서 서로 동일한 대역폭을 가짐과 동시에 서로 주파수 대역이 겹치지 않도록 복수의 발화자들 각각에 대응되는 서로 다른 노이즈 신호 삽입용 주파수 대역을 결정하는 주파수 대역 결정부;
    상기 복수의 발화자들 각각에 대한 식별 정보와 상기 복수의 발화자들 각각에 대해서 결정된 노이즈 신호 삽입용 주파수 대역을 서로 대응시켜 기록한 식별 테이블을 생성하는 식별 테이블 생성부;
    상기 복수의 발화자들 각각에 대응되는 노이즈 신호 삽입용 주파수 대역에 포함되는 주파수를 갖는 노이즈 신호를 각 발화자에 대한 음성 식별용 노이즈 신호로 생성하는 노이즈 생성부;
    상기 복수의 발화자들 각각의 음성을 녹음한 음성 데이터에서 각 발화자의 음성 신호가 존재하는 구간에 대해, 대응되는 발화자의 음성 식별용 노이즈 신호를 삽입함으로써, 상기 복수의 발화자들 각각에 대한 음성 데이터의 보정을 수행하는 노이즈 삽입부;
    상기 복수의 발화자들 각각에 대한 보정된 음성 데이터를 서로 혼합하여 혼합 음성 데이터를 생성하는 혼합부;
    상기 혼합 음성 데이터가 생성된 이후 상기 혼합 음성 데이터에 대한 재생 명령이 인가되면, 상기 식별 테이블을 참조하여 상기 복수의 발화자들 각각에 대한 식별 정보와 노이즈 신호 삽입용 주파수 대역을 확인하는 테이블 확인부;
    상기 혼합 음성 데이터를 재생하여 스피커를 통해 혼합 음성을 출력하고, 상기 혼합 음성 데이터의 재생에 따른 음성 신호상에서 상기 기준 주파수 대역에 포함되는 주파수를 갖는 음성 식별용 노이즈 신호를 추출하며, 상기 추출된 음성 식별용 노이즈 신호의 주파수가 상기 복수의 발화자들 각각에 대응되는 노이즈 신호 삽입용 주파수 대역 중 어느 주파수 대역에 포함되는지 여부를 확인함으로써, 상기 혼합 음성이 출력되는 시점에 대응하는 발화자의 식별 정보를 확인하는 식별 정보 확인부;
    상기 혼합 음성 데이터가 재생되어 상기 스피커를 통해 상기 혼합 음성이 출력되면, 기설정된 시간 동안 음성인식기를 통해 상기 혼합 음성을 인식하여 상기 혼합 음성에 대한 텍스트를 생성하는 음성 인식부;
    상기 인식된 텍스트에 대해 형태소 분석을 수행하여 상기 인식된 텍스트로부터 복수의 제1 단어들을 추출하는 단어 추출부;
    상기 사전 데이터베이스를 참조하여 상기 복수의 제1 단어들 각각에 대응하는 감성 값들을 확인한 후 상기 복수의 제1 단어들 각각에 대응하는 감성 값들의 평균 값을 상기 혼합 음성에 대한 제1 감성 지수로 연산하는 감성 지수 연산부;
    상기 제1 감성 지수가 연산되면, 상기 제1 감성 지수를 기초로 상기 색상 저장부로부터 상기 제1 감성 지수가 속한 감성 지수의 범위 값에 대응되어 저장되어 있는 제1 색상에 대한 정보를 추출하는 색상 정보 추출부; 및
    디스플레이를 통해 상기 혼합 음성이 출력되는 시점에 대응되어 확인된 발화자의 식별 정보를 출력하되, 상기 제1 색상에 대한 정보를 기초로 상기 혼합 음성이 출력되는 시점에 대응되어 확인된 발화자의 식별 정보를 지시하는 문자열의 색상을 상기 제1 색상으로 구성하여 상기 디스플레이를 통해 출력하는 발화자 출력부
    를 포함하는 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 감성 지수 연산부는
    상기 복수의 제1 단어들 중 상기 복수의 제1 단어들 사이에서 기설정된 중복 횟수 이상 중복해서 존재하는 적어도 하나의 제1 단어가 존재하는 경우, 상기 사전 데이터베이스를 참조하여 상기 복수의 제1 단어들 각각에 대응하는 감성 값들의 확인이 완료되면, 상기 적어도 하나의 제1 단어에 대해서 확인된 감성 값에 대해서는 기설정된 중복 가중치를 곱하여 감성 값 보정을 수행한 후 상기 복수의 제1 단어들 각각에 대응하는 감성 값들의 평균 값을 상기 혼합 음성에 대한 제1 감성 지수로 연산하는 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치.
  6. 제1항에 있어서,
    복수의 이미지들과 상기 복수의 이미지들 각각에 대응하는 미리 설정된 감성 지수가 저장되어 있는 이미지 저장부;
    상기 제1 감성 지수가 연산되면, 상기 제1 감성 지수에 대해 기설정된 제1 기준 값을 차감한 제1 경계 값과 상기 제1 감성 지수에 대해 상기 제1 기준 값을 합산한 제2 경계 값을 연산한 후 상기 이미지 저장부로부터 상기 제1 경계 값과 상기 제2 경계 값 사이에 존재하는 감성 지수에 대응되어 저장되어 있는 적어도 하나의 제1 이미지를 추출하는 이미지 추출부;
    상기 적어도 하나의 제1 이미지에 대한 섬네일(thumbnail)을 생성하여 상기 적어도 하나의 제1 이미지에 대한 섬네일을 상기 디스플레이를 통해 출력하는 섬네일 출력부; 및
    상기 디스플레이를 통해서 출력되고 있는 상기 적어도 하나의 제1 이미지에 대한 섬네일 중 제2 이미지에 대한 섬네일에 대해서 선택 출력 명령이 인가되면, 상기 적어도 하나의 제1 이미지 중 상기 제2 이미지를 상기 디스플레이를 통해 출력하는 이미지 출력부
    를 더 포함하는 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치.
  7. 복수의 단어들과 상기 복수의 단어들 각각에 대한 미리 설정된 서로 다른 감성 값이 대응되어 저장되어 있는 사전 데이터베이스를 유지하는 단계;
    복수의 색상들에 대한 정보와 상기 복수의 색상들에 대한 정보 각각에 대응하는 미리 설정된 감성 지수의 범위 값이 저장되어 있는 색상 저장부를 유지하는 단계;
    기설정된(predetermined) 기준 주파수 대역 내에서 서로 동일한 대역폭을 가짐과 동시에 서로 주파수 대역이 겹치지 않도록 복수의 발화자들 각각에 대응되는 서로 다른 노이즈 신호 삽입용 주파수 대역을 결정하는 단계;
    상기 복수의 발화자들 각각에 대한 식별 정보와 상기 복수의 발화자들 각각에 대해서 결정된 노이즈 신호 삽입용 주파수 대역을 서로 대응시켜 기록한 식별 테이블을 생성하는 단계;
    상기 복수의 발화자들 각각에 대응되는 노이즈 신호 삽입용 주파수 대역에 포함되는 주파수를 갖는 노이즈 신호를 각 발화자에 대한 음성 식별용 노이즈 신호로 생성하는 단계;
    상기 복수의 발화자들 각각의 음성을 녹음한 음성 데이터에서 각 발화자의 음성 신호가 존재하는 구간에 대해, 대응되는 발화자의 음성 식별용 노이즈 신호를 삽입함으로써, 상기 복수의 발화자들 각각에 대한 음성 데이터의 보정을 수행하는 단계;
    상기 복수의 발화자들 각각에 대한 보정된 음성 데이터를 서로 혼합하여 혼합 음성 데이터를 생성하는 단계;
    상기 혼합 음성 데이터가 생성된 이후 상기 혼합 음성 데이터에 대한 재생 명령이 인가되면, 상기 식별 테이블을 참조하여 상기 복수의 발화자들 각각에 대한 식별 정보와 노이즈 신호 삽입용 주파수 대역을 확인하는 단계;
    상기 혼합 음성 데이터를 재생하여 스피커를 통해 혼합 음성을 출력하고, 상기 혼합 음성 데이터의 재생에 따른 음성 신호상에서 상기 기준 주파수 대역에 포함되는 주파수를 갖는 음성 식별용 노이즈 신호를 추출하며, 상기 추출된 음성 식별용 노이즈 신호의 주파수가 상기 복수의 발화자들 각각에 대응되는 노이즈 신호 삽입용 주파수 대역 중 어느 주파수 대역에 포함되는지 여부를 확인함으로써, 상기 혼합 음성이 출력되는 시점에 대응하는 발화자의 식별 정보를 확인하는 단계;
    상기 혼합 음성 데이터가 재생되어 상기 스피커를 통해 상기 혼합 음성이 출력되면, 기설정된 시간 동안 음성인식기를 통해 상기 혼합 음성을 인식하여 상기 혼합 음성에 대한 텍스트를 생성하는 단계;
    상기 인식된 텍스트에 대해 형태소 분석을 수행하여 상기 인식된 텍스트로부터 복수의 제1 단어들을 추출하는 단계;
    상기 사전 데이터베이스를 참조하여 상기 복수의 제1 단어들 각각에 대응하는 감성 값들을 확인한 후 상기 복수의 제1 단어들 각각에 대응하는 감성 값들의 평균 값을 상기 혼합 음성에 대한 제1 감성 지수로 연산하는 단계;
    상기 제1 감성 지수가 연산되면, 상기 제1 감성 지수를 기초로 상기 색상 저장부로부터 상기 제1 감성 지수가 속한 감성 지수의 범위 값에 대응되어 저장되어 있는 제1 색상에 대한 정보를 추출하는 단계; 및
    디스플레이를 통해 상기 혼합 음성이 출력되는 시점에 대응되어 확인된 발화자의 식별 정보를 출력하되, 상기 제1 색상에 대한 정보를 기초로 상기 혼합 음성이 출력되는 시점에 대응되어 확인된 발화자의 식별 정보를 지시하는 문자열의 색상을 상기 제1 색상으로 구성하여 상기 디스플레이를 통해 출력하는 단계
    를 포함하는 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치의 동작 방법.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 제7항에 있어서,
    상기 제1 감성 지수로 연산하는 단계는
    상기 복수의 제1 단어들 중 상기 복수의 제1 단어들 사이에서 기설정된 중복 횟수 이상 중복해서 존재하는 적어도 하나의 제1 단어가 존재하는 경우, 상기 사전 데이터베이스를 참조하여 상기 복수의 제1 단어들 각각에 대응하는 감성 값들의 확인이 완료되면, 상기 적어도 하나의 제1 단어에 대해서 확인된 감성 값에 대해서는 기설정된 중복 가중치를 곱하여 감성 값 보정을 수행한 후 상기 복수의 제1 단어들 각각에 대응하는 감성 값들의 평균 값을 상기 혼합 음성에 대한 제1 감성 지수로 연산하는 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치의 동작 방법.
  12. 제7항에 있어서,
    복수의 이미지들과 상기 복수의 이미지들 각각에 대응하는 미리 설정된 감성 지수가 저장되어 있는 이미지 저장부를 유지하는 단계;
    상기 제1 감성 지수가 연산되면, 상기 제1 감성 지수에 대해 기설정된 제1 기준 값을 차감한 제1 경계 값과 상기 제1 감성 지수에 대해 상기 제1 기준 값을 합산한 제2 경계 값을 연산한 후 상기 이미지 저장부로부터 상기 제1 경계 값과 상기 제2 경계 값 사이에 존재하는 감성 지수에 대응되어 저장되어 있는 적어도 하나의 제1 이미지를 추출하는 단계;
    상기 적어도 하나의 제1 이미지에 대한 섬네일(thumbnail)을 생성하여 상기 적어도 하나의 제1 이미지에 대한 섬네일을 상기 디스플레이를 통해 출력하는 단계; 및
    상기 디스플레이를 통해서 출력되고 있는 상기 적어도 하나의 제1 이미지에 대한 섬네일 중 제2 이미지에 대한 섬네일에 대해서 선택 출력 명령이 인가되면, 상기 적어도 하나의 제1 이미지 중 상기 제2 이미지를 상기 디스플레이를 통해 출력하는 단계
    를 더 포함하는 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치의 동작 방법.
  13. 제7항, 제11항 또는 제12항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  14. 제7항, 제11항 또는 제12항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.
KR1020180121064A 2018-10-11 2018-10-11 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법 KR102076565B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180121064A KR102076565B1 (ko) 2018-10-11 2018-10-11 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180121064A KR102076565B1 (ko) 2018-10-11 2018-10-11 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법

Publications (1)

Publication Number Publication Date
KR102076565B1 true KR102076565B1 (ko) 2020-02-12

Family

ID=69569870

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180121064A KR102076565B1 (ko) 2018-10-11 2018-10-11 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR102076565B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220133743A (ko) * 2021-03-25 2022-10-05 주식회사 한컴코드게이트 음성에 대한 진위 확인이 가능한 디지털 유언 서비스를 제공하기 위한 서비스 제공 서버 및 그 동작 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140128279A (ko) * 2014-07-30 2014-11-05 유한회사 밸류스트릿 가청 구분에 의한 사용자 인증 방법 및 장치
KR101818980B1 (ko) * 2016-12-12 2018-01-16 주식회사 소리자바 다중 화자 음성 인식 수정 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140128279A (ko) * 2014-07-30 2014-11-05 유한회사 밸류스트릿 가청 구분에 의한 사용자 인증 방법 및 장치
KR101818980B1 (ko) * 2016-12-12 2018-01-16 주식회사 소리자바 다중 화자 음성 인식 수정 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220133743A (ko) * 2021-03-25 2022-10-05 주식회사 한컴코드게이트 음성에 대한 진위 확인이 가능한 디지털 유언 서비스를 제공하기 위한 서비스 제공 서버 및 그 동작 방법
KR102559493B1 (ko) * 2021-03-25 2023-07-25 주식회사 한컴위드 음성에 대한 진위 확인이 가능한 디지털 유언 서비스를 제공하기 위한 서비스 제공 서버 및 그 동작 방법

Similar Documents

Publication Publication Date Title
US11042616B2 (en) Detection of replay attack
CN108780643B (zh) 自动配音方法和装置
US8150687B2 (en) Recognizing speech, and processing data
CN110675886B (zh) 音频信号处理方法、装置、电子设备及存储介质
US20160021334A1 (en) Method, Apparatus and System For Regenerating Voice Intonation In Automatically Dubbed Videos
KR20170069258A (ko) 성문 정보 관리 방법 및 장치, 및 신원 인증 방법 및 시스템
CN104123115A (zh) 一种音频信息处理方法及电子设备
US8620670B2 (en) Automatic realtime speech impairment correction
KR100659212B1 (ko) 어학 학습 시스템 및 어학 학습용의 음성 데이터 제공 방법
US20210327446A1 (en) Method and apparatus for reconstructing voice conversation
KR101996551B1 (ko) 음성인식 및 대본을 이용하는 자막 생성 장치 및 방법
KR101877559B1 (ko) 모바일 단말기를 이용한 언어 자가학습 서비스 제공방법, 이를 실행하는 모바일 단말기 및 이를 실행하기 위한 애플리케이션을 저장하는 기록매체
JP2004343488A (ja) 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
KR102036721B1 (ko) 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법
KR102076565B1 (ko) 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법
CN114842858A (zh) 一种音频处理方法、装置、电子设备及存储介质
JP2000206987A (ja) 音声認識装置
CN114446304A (zh) 语音交互方法、数据处理方法、装置和电子设备
KR20170051759A (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
CN113763921B (zh) 用于纠正文本的方法和装置
KR20150055921A (ko) 동영상 재생 제어 방법 및 장치
JP2015036826A (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP2008286921A (ja) キーワード抽出装置、キーワード抽出方法及びそのプログラム、記録媒体
KR20200004176A (ko) 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법
US12026241B2 (en) Detection of replay attack

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant