KR20220026958A - 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치 - Google Patents

음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치 Download PDF

Info

Publication number
KR20220026958A
KR20220026958A KR1020200108140A KR20200108140A KR20220026958A KR 20220026958 A KR20220026958 A KR 20220026958A KR 1020200108140 A KR1020200108140 A KR 1020200108140A KR 20200108140 A KR20200108140 A KR 20200108140A KR 20220026958 A KR20220026958 A KR 20220026958A
Authority
KR
South Korea
Prior art keywords
recognition result
section
sound signal
user
speaker
Prior art date
Application number
KR1020200108140A
Other languages
English (en)
Other versions
KR102472921B1 (ko
Inventor
김영국
권혜용
김윤호
진보필
Original Assignee
주식회사 카카오엔터프라이즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 카카오엔터프라이즈 filed Critical 주식회사 카카오엔터프라이즈
Priority to KR1020200108140A priority Critical patent/KR102472921B1/ko
Publication of KR20220026958A publication Critical patent/KR20220026958A/ko
Application granted granted Critical
Publication of KR102472921B1 publication Critical patent/KR102472921B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치에 관한 것이다. 실시예는 복수의 화자들의 음성을 포함하는 음향 신호를 수신하는 단계, 음향 신호 내 화자 별 음성 신호에 대응하는 화자의 식별 정보 및 화자 별 음성 신호에 대응하는 텍스트 데이터를 포함하는 인식 결과를 획득하는 단계, 인식 결과를 사용자 인터페이스에 시각적 기호로 표시하는 단계, 사용자 인터페이스에 표시된 시각적 기호에 기초하여, 음향 신호 내 적어도 일부 구간에 대한 사용자의 선택을 수신하는 단계, 선택된 구간의 처리에 관한 명령을 수신하는 단계, 및 수신된 명령에 반응하여, 선택된 구간에 대응하는 인식 결과 및 선택된 구간에 대응하는 음향 신호를 처리하는 단계를 포함한다.

Description

음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치{USER INTERFACING METHOD FOR VISUALLY DISPLAYING ACOUSTIC SIGNAL AND APPARATUS THEREOF}
음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치에 관한 것이다.
음성 인식(Speech Recognition) 기술은 발화에 의하여 발생한 음성 신호를 텍스트 데이터로 전환하여 처리하는 기술로, STT(Speech-to-Text)라고도 한다. 음성 인식 기술로 인해 음성이 장치의 신규한 입력 방식으로 이용 가능해지면서, 음성을 통한 기기 제어 및 정보 검색 등 다양한 기술 분야에 음성 인식 기술이 응용되고 있다. 최근 음성 인식의 성능을 향상시키기 위한 머신 러닝을 이용한 음성 인식 알고리즘에 대한 연구 및 복수의 화자들의 음성이 포함된 음성 신호에서 화자 별 음성을 분리하는 기술, 음성 신호에서 화자를 식별하는 기술 등 음성 인식 기술의 응용을 보완하기 위한 연구도 활발히 진행되고 있다.
실시예들은 사용자의 단말에 제공되는 사용자 인터페이스에 음성 인식 결과를 표시하고, 인터페이스를 통해 음성 신호의 일부 구간을 선택하고, 선택된 구간에 처리를 수행하는 기술을 제공할 수 있다.
실시예들은 인터페이스를 통해 선택된 일부 구간에 대응하는 음향 신호 및 인식 결과를 다른 사용자와 공유할 수 있는 기술을 제공할 수 있다.
실시예들은 인터페이스를 통해 선택된 일부 구간에 대응하는 음향 신호 및 인식 결과를 자연어 처리하여, 변경된 인식 결과를 인터페이스에 표시하는 기술을 제공할 수 있다.
일 측에 따른 사용자 인터페이싱 방법은 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법에 있어서, 복수의 화자들의 음성을 포함하는 상기 음향 신호를 수신하는 단계; 상기 음향 신호 내 화자 및 음성을 인식한 인식 결과를 획득하는 단계; 상기 인식 결과를 상기 사용자 인터페이스에 시각적 기호로 표시하는 단계; 상기 시각적 기호 중 적어도 일부에 대한 사용자의 선택을 수신하는 단계; 선택된 시각적 기호에 대응하는 상기 음향 신호 내 적어도 일부 구간의 공유를 지시하는 명령을 수신하는 단계; 및 상기 명령에 반응하여, 상기 구간에 대응하는 인식 결과 및 상기 구간에 대응하는 음향 신호 중 적어도 하나를 공유하는 단계를 포함한다.
상기 공유하는 단계는 상기 음향 신호가 저장된 서버에 상기 구간에 대응하는 음향 신호에 접근하기 위한 하이퍼링크를 요청하는 단계; 및 상기 서버로부터 수신된 상기 하이퍼링크를 공유하는 단계를 포함할 수 있다.
상기 하이퍼링크를 요청하는 단계는 상기 서버에 상기 구간에 관한 정보를 전송하는 단계를 더 포함할 수 있다.
상기 구간에 관한 정보는 상기 음향 신호의 식별 정보; 및 상기 음향 신호 내 상기 구간의 위치에 관한 정보를 포함할 수 있다.
상기 사용자 인터페이싱 방법은 상기 공유된 하이퍼링크를 통해 연결되는 음향 신호 내 특정 구간을 재생하는 단계; 및 상기 특정 구간의 인식 결과를 사용자 인터페이스에 시각적 기호로 표시하는 단계 중 적어도 하나를 더 포함할 수 있다.
상기 사용자의 선택을 수신하는 단계는 상기 인식 결과에 포함된 텍스트 데이터를 표시하는 상기 사용자 인터페이스 내 시각적 기호 중 적어도 일부에 대한 사용자의 선택을 수신하는 단계를 포함할 수 있다.
상기 인식 결과는 상기 음향 신호 내 화자 별 음성 신호에 대응하는 화자의 식별 정보; 상기 화자 별 음성 신호에 대응하는 텍스트 데이터; 및 상기 음향 신호 내 화자 별 음성 신호에 해당하지 않는 비음성 신호에 대응하는 유형 정보 중 적어도 하나를 포함할 수 있다.
상기 사용자의 선택을 수신하는 단계는 상기 복수의 화자들 중 제1 화자의 식별 정보를 표시하는 시각적 기호에 대한 사용자의 선택을 수신하는 단계를 포함할 수 있다.
상기 표시하는 단계는 상기 사용자 인터페이스에서 상기 인식 결과에 대응하는 음향 신호를 재생하는 경우, 상기 인식 결과를 상기 사용자 인터페이스에 상기 시각적 기호로 표시하는 단계를 포함할 수 있다.
상기 표시하는 단계는 상기 사용자 인터페이스의 표시 모드에 대한 사용자의 입력을 수신하는 단계; 상기 표시 모드가 제1 표시 모드인 경우, 상기 인식 결과에 대응하는 음향 신호의 시계열적 정보에 기초하여, 상기 인식 결과를 시간 순서에 따라 상기 사용자 인터페이스에 시각적 기호로 표시하는 단계; 및 상기 표시 모드가 제2 표시 모드인 경우, 상기 인식 결과에 대응하는 음향 신호의 시계열적 정보 및 상기 인식 결과에 대응하는 화자의 위치 정보에 기초하여, 상기 인식 결과를 시간 순서에 따라 상기 사용자 인터페이스 내 특정 위치에 시각적 기호로 표시하는 단계를 포함할 수 있다.
일 측에 따른 사용자 인터페이싱 방법은 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법에 있어서, 복수의 화자들의 음성을 포함하는 상기 음향 신호를 수신하는 단계; 상기 음향 신호 내 화자 및 음성을 인식한 인식 결과를 획득하는 단계; 상기 인식 결과를 상기 사용자 인터페이스에 시각적 기호로 표시하는 단계; 상기 시각적 기호 중 적어도 일부에 대한 사용자의 선택을 수신하는 단계; 선택된 시각적 기호에 대응하는 상기 음향 신호 내 적어도 일부 구간의 자연어 처리에 관한 명령을 수신하는 단계; 상기 명령에 기초하여, 상기 구간에 대응하는 인식 결과를 변경하는 단계; 및 변경된 인식 결과에 기초하여, 선택된 시각적 기호를 변경하는 단계를 포함한다.
상기 변경하는 단계는 상기 구간에 대응하는 음향 신호를 다른 언어로 음성 인식하여, 상기 구간에 대응하는 인식 결과에 포함된 텍스트 데이터를 상기 다른 언어로 변경하는 단계를 포함할 수 있다.
상기 구간에 대응하는 인식 결과는 상기 구간에 대응하는 음향 신호를 제1 언어로 음성 인식하여 획득된 제1 언어의 텍스트 데이터를 포함할 수 있다.
상기 다른 언어로 변경하는 단계는 사용자로부터 변경할 제2 언어에 대한 입력을 수신하는 단계; 상기 구간에 대응하는 음향 신호를 상기 제2 언어로 음성 인식하여, 상기 제2 언어의 텍스트 데이터를 획득하는 단계; 및 상기 구간에 대응하는 인식 결과에 포함된 제1 언어의 텍스트 데이터를 상기 제2 언어의 텍스트 데이터로 변경하는 단계를 포함할 수 있다.
상기 변경하는 단계는 상기 구간에 대응하는 인식 결과에 포함된 텍스트 데이터를 다른 언어로 번역하여, 번역 결과를 포함하도록 상기 구간에 대응하는 인식 결과를 변경하는 단계를 포함할 수 있다.
상기 구간에 대응하는 인식 결과는 상기 구간에 대응하는 음향 신호를 제1 언어로 음성 인식하여 획득된 제1 언어의 텍스트 데이터를 포함할 수 있다.
상기 구간에 대응하는 인식 결과를 변경하는 단계는 사용자로부터 번역할 제2 언어에 대한 입력을 수신하는 단계; 상기 제1 언어의 텍스트 데이터를 상기 제2 언어로 번역하여, 상기 제2 언어의 텍스트 데이터를 획득하는 단계; 및 상기 제2 언어의 텍스트 데이터를 포함하도록 상기 구간에 대응하는 인식 결과를 변경하는 단계를 포함할 수 있다.
일 측에 따른 사용자 인터페이싱 장치는 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 장치에 있어서, 복수의 화자들의 음성을 포함하는 상기 음향 신호를 수신하고, 상기 음향 신호 내 화자 및 음성을 인식한 인식 결과를 획득하고, 상기 인식 결과를 상기 사용자 인터페이스에 시각적 기호로 표시하고, 상기 시각적 기호 중 적어도 일부에 대한 사용자의 선택을 수신하고, 선택된 시각적 기호에 대응하는 상기 음향 신호 내 적어도 일부 구간의 공유를 지시하는 명령을 수신하며, 상기 명령에 반응하여, 상기 구간에 대응하는 인식 결과 및 상기 구간에 대응하는 음향 신호 중 적어도 하나를 공유하는, 적어도 하나의 프로세서를 포함한다.
상기 프로세서는 상기 공유함에 있어서, 상기 음향 신호가 저장된 서버에 상기 구간에 대응하는 음향 신호에 접근하기 위한 하이퍼링크를 요청하고, 상기 서버로부터 수신된 상기 하이퍼링크를 공유할 수 있다.
상기 프로세서는 상기 공유된 하이퍼링크를 통해 연결되는 음향 신호를 재생할 수 있다.
일 측에 따른 사용자 인터페이싱 장치는 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 장치에 있어서, 복수의 화자들의 음성을 포함하는 상기 음향 신호를 수신하고, 상기 음향 신호 내 화자 및 음성을 인식한 인식 결과를 획득하고, 상기 인식 결과를 상기 사용자 인터페이스에 시각적 기호로 표시하고, 상기 시각적 기호 중 적어도 일부에 대한 사용자의 선택을 수신하고, 선택된 시각적 기호에 대응하는 상기 음향 신호 내 적어도 일부 구간의 자연어 처리에 관한 명령을 수신하고, 상기 명령에 기초하여, 상기 구간에 대응하는 인식 결과를 변경하며, 변경된 인식 결과에 기초하여, 선택된 시각적 기호를 변경하는, 적어도 하나의 프로세서를 포함한다.
상기 프로세서는 상기 인식 결과를 변경함에 있어서, 상기 구간에 대응하는 음향 신호를 다른 언어로 음성 인식하여, 상기 구간에 대응하는 인식 결과에 포함된 텍스트 데이터를 상기 다른 언어로 변경할 수 있다.
상기 프로세서는 상기 구간에 대응하는 인식 결과를 변경함에 있어서, 상기 인식 결과에 포함된 텍스트 데이터를 다른 언어로 번역하여, 번역 결과를 포함하도록 상기 선택된 구간에 대응하는 인식 결과를 변경할 수 있다.
도 1은 일실시예에 따른 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법의 순서도를 도시한 도면.
도 2는 일실시예에 따른 음향 신호에 대응하는 인식 결과의 예시를 도시한 도면.
도 3은 일실시예에 따른 음향 신호의 인식 결과를 인식 단위 별로 인터페이스에 표시한 예를 도시한 도면.
도 4 및 도 5는 음향 신호 내 적어도 일부 선택된 구간에 대한 명령을 처리하는 과정을 설명하기 위한 도면들.
도 6 및 도 7은 하이퍼링크를 이용하여 선택된 구간의 공유 명령을 처리하는 과정을 설명하기 위한 도면들.
도 8은 일실시예에 따른 자연어 처리에 관한 명령을 처리하는 과정을 도시한 도면.
도 9는 선택된 구간에 대한 언어 변경을 지시하는 명령을 수행하는 실시예를 도시한 도면.
도 10은 선택된 구간에 대한 번역을 지시하는 명령을 수행하는 실시예를 도시한 도면.
도 11a 및 도 11b는 화자의 위치를 고려하지 않고 인식 결과를 표시하는 인터페이스의 표시 모드의 예를 도시한 도면들.
도 12a 내지 도 12c는 화자의 위치를 고려하여 인식 결과를 표시하는 인터페이스의 표시 모드의 예를 도시한 도면들.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
또한, 실시 예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
어느 하나의 실시 예에 포함된 구성요소와, 공통적인 기능을 포함하는 구성요소는, 다른 실시 예에서 동일한 명칭을 사용하여 설명하기로 한다. 반대되는 기재가 없는 이상, 어느 하나의 실시 예에 기재한 설명은 다른 실시 예에도 적용될 수 있으며, 중복되는 범위에서 구체적인 설명은 생략하기로 한다.
도 1은 일실시예에 따른 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법의 순서도를 도시한 도면이다. 이하에서, 일실시예에 따른 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법은 간략하게 일실시예에 따른 사용자 인터페이싱 방법으로 지칭하고, 사용자 인터페이스는 간략하게 인터페이스로 지칭한다.
도 1을 참조하면, 일실시예에 따른 사용자 인터페이싱 방법은 복수의 화자들의 음성을 포함하는 음향 신호를 수신하는 단계(110), 음향 신호 내 화자 및 음성을 인식한 인식 결과를 획득하는 단계(120), 인식 결과를 사용자 인터페이스에 시각적 기호로 표시하는 단계(130), 일부 시각적 기호에 대한 사용자의 선택 및 음향 신호 내 일부 구간의 처리에 관한 명령을 수신하는 단계(140), 및 명령에 반응하여, 선택된 시각적 기호에 대응하는 구간을 처리하는 단계(150)를 포함한다.
일실시예에 따른 사용자 인터페이싱 방법은 적어도 하나의 프로세서 및 메모리를 포함하는 서버 또는 장치에 의해 수행될 수 있다. 예를 들어, 사용자 인터페이싱 방법을 수행하는 서버는 어플리케이션 서버를 포함할 수 있고, 사용자 인터페이싱 방법을 수행하는 장치는 사용자 단말을 포함할 수 있다. 보다 구체적으로 사용자 인터페이싱 방법의 각 단계는 서버의 적어도 하나의 프로세서에 의해 수행될 수도 있고, 장치의 적어도 하나의 프로세서에 의해 수행될 수도 있다. 또한, 일실시예에 따른 인터페이싱 방법의 단계들 중 일부는 서버의 적어도 하나의 프로세서에 의하여 수행되고, 나머지 일부는 사용자 단말의 적어도 하나의 프로세서에 의하여 수행될 수도 있다. 이 경우, 서버와 사용자 단말은 네트워크를 통해 데이터를 송수신할 수 있다. 이하, 설명의 편의를 위하여 사용자 인터페이싱 방법이 서버에 의하여 수행되는 실시예들을 설명하나, 해당 실시예들은 사용자 단말에 의하여 수행되는 것이나 서버와 사용자 단말의 연동을 통하여 수행되는 것으로 변형되어 적용될 수 있다.
일실시예에 따른 단계(110)에서 수신되는 음향 신호는 복수의 화자들의 음성을 포함하는 음향 신호로, 복수의 화자들의 발화를 실시간으로 디지털 형태로 변환하여 전송되는 데이터, 복수의 화자들의 발화를 녹음한 음성 파일을 포함할 수 있다. 예를 들어, 일실시예에 따른 음향 신호는 복수의 사람들이 참여한 회의의 내용을 녹음한 음성 파일을 포함할 수 있다. 일실시예에 따른 음향 신호는 복수의 화자에 대응하는 음성 신호를 포함할 수 있다. 예를 들어, 음향 신호의 일부인 제1 구간에는 제1 화자에 대응하는 음성 신호가, 음향 신호의 또 다른 일부인 제2 구간에는 제2 화자에 대응하는 음성 신호가 포함될 수 있다. 일실시예에 따른 음향 신호는 한 사람의 음성 신호가 포함된 구간 및/또는 여러 사람의 음성 신호가 포함된 구간을 포함할 수 있다. 예를 들어, 음성 파일의 제1 구간은 한 사람만 발화하는 구간에 해당하여 한 사람의 음성 신호만을 포함할 수 있고, 제2 구간은 두 사람 이상이 동시에 발화하는 구간에 해당하여, 여러 사람의 음성 신호를 포함할 수 있다. 또한, 음향 신호에는 발화에 관한 음성 신호 외에 다른 소리가 포함될 수 있으며, 음향 신호 내 특정 구간에는 음성 신호 외의 다른 소리만 포함된 구간이 존재할 수 있다.
이하에서 상술하겠으나, 주파수의 특성 등을 이용하여 음성 신호의 화자를 인식할 수 있으며, 음향 신호에 여러 사람의 음성 신호가 포함된 경우, 주파수의 특성 등을 이용하여 화자 별로 음성 신호를 분리할 수 있다. 또한, 동일한 구간에 복수의 화자의 음성 신호가 포함된 경우, 해당 구간의 음성 신호를 각 화자에 대응하는 음성 신호로 분리하여, 제1 화자에 대응하는 제1 음성 신호 및 제2 화자에 대응하는 제2 음성 신호가 획득될 수 있다.
일실시예에 따른 음향 신호는 음향 수신 장치에 의해 사람들의 발화를 수신하여 디지털 데이터로 생성 및 저장될 수 있다. 일실시예에 따른 음향 수신 장치는 소리 형태의 신호를 수신하여 디지털 데이터로 변환하는 장치로, 예를 들어 녹음 장치, 마이크 등을 포함할 수 있다. 일실시예에 따른 음향 수신 장치는 방향 감지 기술이 적용된 음향 수신 장치를 포함할 수 있다. 방향 감지 기술이 적용된 음향 수신 장치는 음향 신호를 수신하는 센서를 복수 개 이용하여, 음향 신호가 복수의 센서에 도달된 시간의 차이 및 복수의 센서가 배치된 기하학 등을 이용하여 수신된 음향 신호의 위치 정보를 추정할 수 있다. 예를 들어, 4개의 마이크로폰에서 획득된 음원에 대해 ESL 설계 기법으로 해당 음원이 발생된 방향을 추정할 수 있는 4채널 마이크어레이, 음원의 방향을 추정하기 위한 지향성 마이크(directional microphone), 및 복수의 마이크를 내장하여 음향의 방향을 추정할 수 있는 휴대폰 등이 방향 감지 기술이 적용된 음향 수신 장치에 해당할 수 있다. 일실시예에 따른 음향 신호를 생성하는 음향 수신 장치는 사용자 단말과 독립된 별도의 장치에 해당할 수 있고, 인터페이스가 표시되는 사용자 단말에 내장되어 있을 수 있다. 이하에서 상술하겠으나, 수신된 음향 신호가 방향 감지 기술이 적용된 음향 수신 장치를 이용하여 생성된 경우, 음향 신호로부터 음향 신호가 발생한 위치를 추정할 수 있다. 예를 들어, 음향 신호에 포함된 음성을 발화한 화자의 위치를 추정할 수 있다.
일실시예에 따른 음향 신호는 파일 형태로 사용자의 단말에 저장될 수 있으며, 서버에 저장될 수도 있다. 일실시예에 따른 음향 신호를 기록한 파일이 사용자의 단말에 저장된 경우, 사용자의 단말로부터 음향 신호가 수신될 수 있으며, 음향 신호를 기록한 파일이 서버에 저장된 경우, 서버로부터 음향 신호가 수신될 수 있다. 즉, 일실시예에 따를 때, 인터페이스가 제공될 사용자의 단말과 음향 신호가 전송되는 장치는 반드시 일치하는 것은 아니다. 또한, 일실시예에 따를 때, 음향 신호는 서버(예를 들어, 클라우드 서버 등) 또는 서버 내 데이터베이스에 저장될 수 있으며, 일실시예에 따른 음향 신호가 저장된 서버와 일실시예에 따른 인터페이싱 방법을 수행하는 서버는 서로 다른 서버에 해당할 수 있다. 일실시예에 따른 인터페이싱 방법을 수행하는 프로세서는 인터페이스가 제공될 사용자의 단말로부터 특정 음향 신호의 재생 요청에 반응하여, 해당 음향 신호를 수신할 수 있다. 예를 들어, 프로세서는 사용자의 단말에 저장된 음향 신호를 기록한 파일에 대한 사용자의 재생 요청에 반응하여, 해당 파일을 사용자의 단말로부터 네트워크 등을 통해 수신할 수 있다.
일실시예에 따른 단계(120)는 단계(110)에서 수신된 음향 신호 내 화자 별 음성 신호에 대응하는 화자의 식별 정보 및 화자 별 음성 신호에 대응하는 텍스트 데이터를 포함하는 인식 결과를 획득하는 단계를 포함할 수 있다.
일실시예에 따른 단계(120)는 음향 신호에 대한 화자 인식을 수행하는 단계 및 음향 신호에 대한 음성 인식을 수행하는 단계를 포함할 수 있다. 일실시예에 따른 단계(120)는 음향 신호에 대한 화자 인식을 수행하여, 음향 신호를 화자 별 음성 신호로 분리하고, 화자 별 음성 신호에 대응하는 화자의 식별 정보를 획득하는 단계를 포함할 수 있다. 또한, 일실시예에 따른 단계(120)는 음향 신호에 대한 음성 인식을 수행하여, 음향 신호에 대응하는 텍스트 데이터를 획득하는 단계를 포함할 수 있다. 일실시예에 따를 때, 음성 신호의 화자를 인식하는 동작 및 음성 신호를 텍스트 데이터로 변환하는 동작은 병렬적으로 수행될 수도 있고, 단계적으로 수행될 수도 있다. 예를 들어, 음성 신호의 화자를 인식하는 동작은 화자 인식 모듈에 의해, 음성 신호를 텍스트 데이터로 변환하는 동작은 음성 인식 모듈에 의해 병렬적으로 수행될 수 있다. 또는 적어도 하나의 프로세서에 의해 음성 신호의 화자를 인식하는 동작 및 음성 신호를 텍스트 데이터로 변환하는 동작이 단계적으로 수행될 수 있으며, 이 경우 동작들이 수행되는 순서는 변경될 수 있다.
일실시예에 따른 사용자 인터페이싱 방법을 수행하는 프로세서는 수신된 음향 신호에 복수의 화자들의 음성 신호가 포함된 경우, 화자 인식(speaker recognition) 기술, 목소리 인식(voice recognition) 기술 등을 이용하여 음성 신호를 화자 별로 분리하여 인식할 수 있으며, 화자 인식 결과 음향 신호 내 화자 별 음성 신호에 대응하는 화자의 식별 정보가 획득될 수 있다. 예를 들어, 일실시예에 따른 프로세서는 주파수의 특성을 분석한 결과 음향 신호의 제1 구간 및 제2 구간에 포함된 음성 신호의 화자가 서로 다른 것으로 판단된 경우, 음향 신호를 각각의 화자에 대응하는 구간으로 분리하여, 제1 구간에 포함된 음성 신호는 제1 화자의 음성 신호로 인식할 수 있고, 제2 구간에 포함된 음성 신호는 제2 화자의 음성 신호로 인식할 수 있다. 또한, 일실시예에 따른 음향 신호의 특정 구간에 복수의 화자들의 음성 신호가 포함된 경우, 프로세서는 화자 분리 기술 등을 이용하여 특정 구간에 포함된 음성 신호를 화자 별로 분리하여 화자 별 음성 신호를 획득할 수 있다.
또한, 일실시예에 따른 사용자 인터페이싱 방법을 수행하는 프로세서는 음성 인식 기술을 이용하여, 음향 신호에 포함된 음성 신호를 텍스트 데이터로 변환할 수 있으며, 음성 인식 결과 음향 신호 내 화자 별 음성 신호에 대응하는 텍스트 데이터가 획득될 수 있다. 일실시예에 따를 때, 음향 신호의 음성을 인식한다는 것은 소리 형태의 음향 신호에 포함된 음성 신호를 대응되는 텍스트 데이터로 변환하는 것을 의미할 수 있다. 즉, 일실시예에 따른 음성 신호를 인식하는 단계는 수신된 음향 신호에 포함된 음성 신호에 대응하는 텍스트 데이터를 획득하는 단계를 포함할 수 있다. 일실시예에 따를 때, 음성 인식에 의해 획득된 텍스트 데이터는 수신된 음향 신호를 분리하여 획득된 화자 별 음성 신호에 대응될 수 있다. 일실시예에 따른 사용자 인터페이싱 방법을 수행하는 프로세서는 음성 인식 기술을 이용하여, 음향 신호에 포함된 음성 신호를 텍스트 데이터로 변환할 수 있다. 음성 인식 기술은 소리 형태의 음성 신호를 문자로 변환하는 기술로, 예를 들어 HMM 기반 음성 인식 기술, 딥러닝 기반 음성 인식 기술 등 다양한 알고리즘을 이용한 음성 인식 기술을 포함한다. 일실시예에 따른 사용자 인터페이싱 방법을 수행하는 프로세서는 음성 인식 기술을 이용하여 음성 신호를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 화자 별 음성 신호에 매핑하여 데이터베이스에 저장할 수 있다.
일실시예에 따를 때, 수신된 음향 신호는 발화에 대응하는 음성 신호가 아닌 음향 신호를 포함할 수 있다. 다시 말해, 수신된 음향 신호에 발화에 대응하는 음성 신호, 즉 말소리 외에 다른 음향 신호가 포함될 수 있다. 예를 들어, 웃음 소리, 박수 소리, 차 소리, 음악 소리 등이 음향 신호에 포함될 수 있다. 이하에서, 음향 신호 중 발화에 대응하는 음향 신호를 음성 신호라고 지칭하고, 음향 신호 중 음성 신호가 아닌 음향 신호를 비음성 신호라고 지칭한다.
일실시예에 따른 사용자 인터페이싱 방법은 수신된 음향 신호를 음성 신호 및 비음성 신호로 분류하는 단계를 더 포함할 수 있다. 일실시예에 따른 인터페이싱 방법을 수행하는 프로세서는 음향 신호를 분류하는 다양한 방법을 이용하여 음향 신호를 음성 신호 및 비음성 신호로 분류할 수 있다. 예를 들어, 주파수의 특성을 이용하여 음향 신호에서 음성 신호를 추출하는 방법 등을 이용할 수 있다.
일실시예에 따를 때, 비음성 신호 중 적어도 일부는 미리 정해진 유형에 해당하는 음향 신호로 분류될 수 있다. 일실시예에 따른 단계(120)는 수신된 음향 신호를 분리하여 비음성 신호를 획득하는 단계 및 획득된 비음성 신호의 유형을 인식하는 단계를 더 포함할 수 있다. 일실시예에 따른 비음성 신호의 유형은 감정에 관한 유형, 음악에 관한 유형, 노이즈에 관한 유형 등을 포함할 수 있다. 예를 들어, 비음성 신호의 유형은 감정에 관한 유형으로 웃음 등을 포함할 수 있고, 노이즈에 관한 유형으로 차 소리, 박수 소리 등을 포함할 수 있다. 일실시예에 따를 때, 노이즈에 관한 유형은 차 소리 등 음성 신호 외의 추가적인 노이즈에 관한 유형 및 신호의 전송 과정에서 발생하는 채널 노이즈에 관한 유형으로 구분될 수 있다.
일실시예에 따른 인식 결과는 음성 신호에 대응하는 화자의 식별 정보 및 텍스트 데이터를 포함할 수 있으며, 비음성 신호에 대응하는 유형에 관한 정보를 포함할 수 있다. 일실시예에 따른 음향 신호에 대응하는 인식 결과는 인식 단위 별로 생성될 수 있다. 일실시예에 따른 인식 단위는 화자 인식 및 음성 인식이 수행되는 단위 또는 유형 인식이 수행되는 단위로, 수신된 음향 신호의 적어도 일부에 대응될 수 있다. 예를 들어, 동일한 화자가 연속적으로 발화한 음성 신호, 또는 동일한 유형에 해당하는 연속적인 비음성 신호가 인식 단위에 해당할 수 있다. 일실시예에 따를 때, 동일한 화자가 연속적으로 발화한 음성 신호에 해당하더라도 2 이상의 인식 단위로 나뉠 수 있다. 예를 들어, 제1 화자가 연속하여 4 문장을 발화한 경우, 앞의 2 문장에 대응하는 음성 신호가 하나의 인식 단위를 구성하고, 뒤의 2 문장에 대응하는 음성 신호가 다른 하나의 인식 단위를 구성할 수 있다.
일실시예에 따른 음향 신호에 대응하는 인식 결과의 예시는 도 2를 참조할 수 있다. 도 2는 시간 순서대로 001 내지 005의 id가 부여된 제1 인식 단위 내지 제5 인식 단위에 대응하는 인식 결과를 도시한다. 일실시예에 따른 시간 순서는 음향 신호의 시계열적 정보에 따른 순서로, 음향 신호가 기록된 순서에 대응될 수 있다. 일실시예에 따를 때, 음향 신호의 시계열적 정보는 음향 신호가 기록된 시간 정보를 의미할 수 있다. 도 2를 참조하면, 001 id가 부여된 제1 인식 단위는 화자 A의 음성 신호, 002 id가 부여된 제2 인식 단위는 화자 B의 음성 신호, 003 id가 부여된 제3 인식 단위는 화자 C의 음성 신호, 004 id가 부여된 제 4 인식 단위는 '웃음' 유형의 비음성 신호에 해당한다. 화자 별 음성 신호에 해당하는 인식 단위의 인식 결과에는 해당 음성 신호의 화자 인식 결과인 화자의 식별 정보 및 음성 인식 결과인 텍스트 데이터가 포함될 수 있다. 비음성 신호에 해당하는 인식 단위의 인식 결과에는 해당 비음성 신호의 유형 인식 결과인 유형에 관한 정보가 포함될 수 있다. 일실시예에 따른 인식 결과에는 인식 단위의 시간 정보가 포함될 수 있다. 예를 들어, 제1 인식 단위에 대응되는 음성 신호가 녹음된 시각이 14시 01분 02초에서 14시 01분 15초인 경우, 제1 인식 단위의 인식 결과에 시간 정보로 음성 신호가 녹음된 시각 정보가 포함될 수 있다. 도 2는 인식 결과에 포함된 시간 정보가 해당 음향 신호가 녹음된 시각인 경우를 도시하고 있으나, 일실시예에 따를 때, 인식 결과의 시간 정보로 전체 음향 신호에서 해당 음향 신호의 시간적 위치가 포함될 수도 있다. 예를 들어, 특정 인식 단위의 음향 신호가 녹음 시작 후 01 분 05초부터 01분 10초까지에 해당하는 경우, 01 분 05초 내지 01분 10초의 시간이 해당 인식 단위의 시간 정보로 인식 결과에 포함될 수 있다.
일실시예에 따른 인식 결과는 음향 신호에 대응하여 데이터베이스, 서버 등에 저장될 수 있다. 일실시예에 따를 때, 재생 요청된 음향 신호에 대응되는 인식 결과가 데이터베이스에 저장된 경우, 데이터베이스에 저장된 인식 결과가 인터페이스에 표시될 수 있다. 다시 말해, 재생 요청된 음향 신호에 대응되는 인식 결과가 데이터베이스에 저장된 경우, 음향 신호에 대한 사용자의 재생 요청에 반응하여, 해당 음향 신호의 화자 인식, 음성 인식, 유형 인식 등의 인식 과정을 반복할 필요없이, 데이터베이스에 저장된 인식 결과가 인터페이스에 표시될 수 있다. 즉, 데이터베이스에 인식 결과를 저장하여, 동일한 음향 신호에 대한 재생 요청이 있는 경우 저장된 인식 결과를 이용함으로써, 음성 인식 등의 동작의 반복을 방지하고, 효율적으로 음향 신호에 대응하는 인식 결과를 사용자에게 제공할 수 있다.
다시 도 1을 참조하면, 일실시예에 따른 단계(130)는 단계(120)에서 획득된 화자 별 음성 신호에 대응하는 화자의 식별 정보 및 화자 별 음성 신호에 대응하는 텍스트 데이터를 포함하는 인식 결과를 인터페이스에 시각적 기호로 표시하는 단계에 해당할 수 있다. 일실시예에 따를 때, 시각적 기호는 인식 결과를 표시하기 위한 도형, 문자, 이모티콘 등을 포함할 수 있다. 일실시예에 따를 때, 인식 결과에 포함된 화자의 식별 정보는 대응하는 도형, 문자 등의 시각적 기호로 인터페이스에 표시될 수 있고, 인식 결과에 포함된 텍스트 데이터는 대응하는 문자 등의 시각적 기호로 인터페이스에 표시될 수 있다.
또한, 일실시예에 따른 단계(130)는 비음성 신호가 특정 유형에 해당하는 것으로 인식된 경우, 해당 유형에 대응하는 시각적 기호를 인터페이스에 표시하는 단계를 더 포함할 수 있다. 일실시예에 따른 특정 유형에 대응하는 시각적 기호는 특정 유형에 대응하는 텍스트, 이모티콘, 아이콘 및 도형을 포함할 수 있다. 예를 들어, 웃음 유형에 대응하는 시각적 기호는 '웃음'의 텍스트 데이터, 웃는 얼굴의 이모티콘 등을 포함할 수 있으며, 박수 유형에 대응하는 시각적 기호는 '박수'의 텍스트 데이터, 박수 모양의 아이콘 등을 포함할 수 있다.
일실시예에 따를 때, 음성 신호도 미리 정해진 유형으로 구분될 수 있다. 예를 들어, 녹음 장치에 사람의 말소리가 직접 입력되어 생성된 음성 신호와 라디오, 휴대폰 등 다른 소리의 출력 장치를 통해 출력된 음성 신호가 녹음 장치에 입력되어 생성된 음성 신호는 주파수 특성 등에 의해 다른 유형으로 구분될 수 있다. 이 경우, 다른 유형으로 구분된 음성 신호는 인터페이스에서 구분되어 표시될 수 있다. 예를 들어, 사람의 말소리 유형의 음성 신호에 대응하는 텍스트 데이터가 표시되는 인터페이스 내 영역의 색상 및 라디오 유형의 음성 신호에 대응하는 텍스트 데이터가 표시되는 인터페이스 내 영역의 색상이 서로 구분되도록 인터페이스에 표시될 수 있다.
일실시예에 따를 때, 인터페이스에 표시하는 단계(130)는 일실시예에 따른 음향 신호의 인식 결과를 인식 단위 별로 인터페이스에 표시하는 단계를 포함할 수 있다. 일실시예에 따른 인식 결과를 인식 단위 별로 인터페이스에 표시하는 것은 특정 화자의 음성 신호에 해당하는 인식 단위의 경우, 인식 단위의 음성 신호에 대응되는 텍스트 데이터, 즉 음성 신호를 음성 인식하여 획득된 텍스트 데이터를 인터페이스에 표시하는 것을 의미하고, 특정 유형의 비음성 신호에 해당하는 인식 단위의 경우, 인식 단위의 비음성 신호의 유형에 대응하는 시각적 기호를 인터페이스에 표시하는 것을 의미할 수 있다. 일실시예에 따를 때, 인식 단위에 대응하는 음향 신호가 사용자의 단말에서 재생됨에 따라 인식 단위에 대응하는 인식 결과가 인터페이스에 표시될 수 있다.
일실시예에 따른 인터페이스에 시각적 기호가 표시되는 시점은 대응되는 음향 신호가 재생되는 시점에 해당할 수 있다. 일실시예에 따른 인터페이스에 표시된 시각적 기호가 사라지는 시점은 인터페이스 표시 정책에 따라 다양하게 결정될 수 있다. 예를 들어, 인터페이스에 표시된 시각적 기호는 대응되는 음성 신호의 재생이 완료된 시점에 사라지도록 설정될 수 있으며, 일정 시간이 지난 후 사라지도록 설정될 수 있다. 일실시예에 따를 때, 텍스트 데이터에 대응되는 음성 신호의 재생이 완료된 경우에도 인터페이스에 표시된 텍스트 데이터는 남아있을 수 있으며, 일실시예에 따를 때, 음향 신호가 재생되는 순서대로 인터페이스의 상단부터 음향 신호의 인식 결과에 대응하는 시각적 기호가 차례대로 표시될 수 있다. 예를 들어, 인터페이스의 상단부터 인식 결과에 대응되는 시각적 기호가 차례대로 표시되어 인터페이스 하단까지 시각적 기호가 표시되면, 자동 스크롤 기능으로 전에 표시되었던 시각적 기호를 일정 비율 위로 이동시켜 빈 공간을 확보한 후, 다음 인식 결과에 대응하는 시각적 기호가 표시될 수 있다. 일실시예에 따를 때, 다양한 인터페이스 표시 정책에 따라 음향 신호가 재생되는 순서대로 음향 신호의 인식 결과가 인터페이스에 표시될 수 있다.
도 3은 일실시예에 따른 음향 신호의 인식 결과를 인식 단위 별로 인터페이스에 표시한 예를 도시한 도면이다. 보다 구체적으로, 도 3은 도 2에 도시된 인식 단위 별로 인식 결과에 대응되는 시각적 기호를 시간 순서대로 인터페이스에 표시한 것이다. 도 3을 참조하면, 화자 A, B, C 각각에 대응되는 시각적 기호(301, 302, 303), 음성 신호의 인식 결과에 포함된 텍스트 데이터에 대응되는 시각적 기호(311, 312, 313, 314)를 포함하며, 비음성 신호의 인식 결과에 포함된 유형에 관한 정보에 대응되는 시각적 기호(321)를 포함한다. 일실시예에 따를 때, 음향 신호가 재생되는 순서대로 인터페이스의 상단부터 음향 신호의 인식 결과에 대응하는 시각적 기호가 차례대로 표시될 수 있다. 예를 들어, 제1 인식 단위에 대응하는 음향 신호가 재생됨에 따라, 제1 인식 단위의 인식 결과에 대응되는 시각적 기호(301, 311)가 인터페이스 상단부터 표시될 수 있다. 제1 인식 단위에 대응하는 음향 신호가 재생된 후, 제2 인식 단위에 대응하는 음향 신호가 재생되는 경우, 제2 인식 단위에 대응하는 음향 신호가 재생됨에 따라, 제2 인식 단위의 인식 결과에 대응되는 시각적 기호(302, 312)가 인터페이스에 표시된 제1 인식 단위의 인식 결과에 대응하는 시각적 표시(301, 311)의 하단에 표시될 수 있다.
일실시예에 따를 때, 인터페이스에 인식 결과가 표시되는 형태는 다양하게 구성될 수 있다. 일실시예에 따른 사용자 인터페이싱 방법을 수행하는 프로세서는 복수의 인터페이스 표시 모드를 사용자에게 제공할 수 있으며, 사용자는 인터페이스 표시 모드를 설정할 수 있다. 일실시예에 따른 프로세서는 사용자의 인터페이스 표시 모드 설정에 관한 입력을 수신하여, 인터페이스 표시 모드에 따라 인터페이스에 인식 결과가 표시되는 형태를 결정할 수 있다.
일실시예에 따른 인터페이스 표시 모드는 화자의 위치를 고려하지 않고 인식 결과를 표시하는 제1 표시 모드 및 화자의 위치를 고려하여 인식 결과를 표시하는 제2 표시 모드를 포함할 수 있다. 즉, 일실시예에 따른 제1 표시 모드는 음향 신호의 시계열적 정보에 기초하여, 인식 결과를 재생되는 순서에 따라 인터페이스에 표시하는 모드로, 예를 들어, 대화형 모드, 텍스트 모드를 포함할 수 있다. 일실시예에 따른 제2 표시 모드는 시계열적 정보 뿐만 아니라, 인식 결과에 대응되는 음성 신호의 화자의 위치에 기초하여, 인식 결과를 재생되는 순서에 따라, 인터페이스 내 특정 위치에 표시하는 모드로, 예를 들어, 회의실 모드를 포함할 수 있다. 다시 말해, 일실시예에 따른 인식 결과는 기본적으로 음향 신호의 시계열적 정보를 고려하여, 재생되는 순서에 따라 인터페이스에 표시되며, 제2 표시 모드가 선택된 경우 음향 신호의 위치 정보를 더 고려하여, 인터페이스 내 화자의 위치 또는 인터페이스 내 화자의 위치에 인접하여 표시될 수 있다. 화자의 위치를 고려하는 제2 표시 모드에 따라 인식 결과를 사용자 인터페이스에 표시하는 실시예는 이하에서 상술한다.
다시 도 1을 참조하면, 일실시예에 따른 단계(140)는 사용자 인터페이스에 표시된 시각적 기호 중 적어도 일부에 대한 사용자의 선택을 수신하는 단계, 및 선택된 시각적 기호에 대응하는 상기 음향 신호 내 적어도 일부 구간의 처리를 지시하는 명령을 수신하는 단계를 포함할 수 있다. 일실시예에 따른 일부 시각적 기호에 대한 선택 및 선택된 시각적 기호에 대응하는 구간의 처리를 지시하는 명령은 동시에 수신될 수도 있고, 단계적으로 수신될 수도 있다.
일실시예에 따른 음향 신호 내 일부 구간은 적어도 하나의 인식 단위를 포함하는 단위에 해당할 수 있다. 일실시예에 따를 때, 사용자는 인터페이스에 표시된 시각적 기호 중 적어도 일부를 선택함으로써, 선택된 시각적 기호에 대응하는 음향 신호 내 적어도 일부 구간을 선택할 수 있다. 예를 들어, 사용자는 사용자 인터페이스에 표시된 시각적 기호 중 일부를 클릭, 드래그 등의 입력을 통해 선택함으로써, 선택된 시각적 기호에 대응하는 음향 신호 내 구간을 선택할 수 있다. 또한, 사용자는 복수의 시각적 기호들을 선택함으로써, 선택된 시각적 기호들에 대응하는 음향 신호를 포함하는 구간들을 선택할 수 있다. 일실시예에 따른 음향 신호 내 일부 구간은 선택된 시각적 기호에 대응하는 인식 단위를 포함할 수 있다. 예를 들어, 사용자가 텍스트 데이터에 대응하는 시각적 기호를 선택한 경우, 선택된 텍스트 데이터를 인식 결과로 포함하는 인식 단위가 구간에 포함될 수 있다. 또 다른 예를 들어, 사용자가 화자의 식별 정보에 대응하는 시각적 기호를 선택한 경우, 선택된 화자의 식별 정보와 동일한 화자의 식별 정보를 갖는 인식 단위가 구간에 포함될 수 있다.
일실시예에 따른 구간은 특정 시간 구간에 해당될 수도 있고, 특정 화자 구간에 해당될 수도 있다. 일실시예에 따를 때, 시간 구간과 화자 구간은 사용자가 선택한 인터페이스 내 시각적 기호에 따라 결정될 수 있다. 예를 들어, 사용자가 인식 결과에 포함된 텍스트 데이터에 대응하는 시각적 기호를 선택한 경우, 시각적 기호에 대응하는 음향 신호를 포함하는 구간은 시간 구간에 해당될 수 있고, 사용자가 인식 결과에 포함된 화자의 식별 정보에 대응하는 시각적 기호를 선택한 경우, 시각적 기호에 대응하는 화자의 음성 신호를 포함하는 구간은 화자 구간에 해당될 수 있다.
일실시예에 따른 시간 구간은 음향 신호 내에서 시간 순서에 따른 연속하는 범위에 해당하는 음향 신호를 포함하는 구간으로, 사용자가 선택될 구간의 시작 시간과 종료 시간을 지시하는 정보를 설정함으로써 결정될 수 있다. 예를 들어, 사용자가 선택될 구간의 시작 시간을 10초, 종료 시간을 20초로 설정한 경우, 음향 신호 내 10초에서 20초 사이의 범위에 해당하는 음향 신호를 포함하는 구간이 사용자가 선택한 시간 구간에 해당할 수 있다. 일실시예에 따를 때, 시간 구간은 설정된 시간 범위 내에 포함되는 적어도 하나의 인식 단위를 포함할 수 있다. 일실시예에 따를 때, 사용자는 인식 결과에 포함된 텍스트 데이터에 대응하는 시각적 기호를 선택함으로써, 구간의 시작 시간 및 종료 시간을 설정할 수 있다. 예를 들어, 사용자가 선택한 시각적 기호에 대응하는 음향 신호의 시작 시간이 구간의 시작 시간으로, 사용자가 선택한 시각적 기호에 대응하는 음향 신호의 종료 시간이 구간의 종료 시간으로 설정될 수 있다. 또 다른 예를 들어, 사용자가 2개의 시각적 기호를 선택한 경우, 각각의 시각적 기호에 대응하는 음성 신호 중 시간 순서 상 먼저 위치한 음향 신호의 시작 시간이 선택될 구간의 시작 시간으로, 뒤에 위치한 음향 신호의 종료 시간이 선택될 구간의 종료 시간으로 설정될 수 있다. 이 외에도 구간의 시작 시간 및 종료 시간을 지시하는 정보는 다양한 방식으로 입력될 수 있다.
일실시예에 따른 시간 구간은 일실시예에 따른 화자 구간은 음향 신호 내에서 특정 화자에 대응하는 음성 신호를 포함하는 구간으로, 사용자가 선택될 구간의 화자를 지시하는 정보를 설정함으로써 결정될 수 있다. 예를 들어, 사용자가 선택될 구간의 화자를 화자 A로 설정한 경우, 음향 신호 내 화자 A의 음성 신호에 해당하는 3초에서 5초에 해당하는 제1 구간 및 7초에서 10초에 해당하는 제2 구간이 사용자가 선택한 화자 구간에 해당될 수 있다. 일실시예에 따를 때, 화자 구간은 설정된 화자의 식별 정보를 갖는 적어도 하나의 인식 단위를 포함할 수 있다. 일실시예에 따를 때, 사용자는 인식 결과에 포함된 화자의 식별 정보에 대응하는 시각적 기호를 선택함으로써, 선택될 구간의 화자를 지시하는 정보를 설정할 수 있다. 이 외에도 화자를 지시하는 정보는 다양한 방식으로 입력될 수 있다.
일실시예에 따를 때, 사용자는 선택된 시각적 기호에 대응하는 음향 신호 내 구간의 처리를 지시하는 명령을 입력할 수 있다. 일실시예에 따른 명령은 재생을 지시하는 명령, 편집을 지시하는 명령, 공유를 지시하는 명령, 자연어 처리에 관한 명령 등을 포함할 수 있다. 이하에서 상술하겠으나, 자연어 처리에 관한 명령은 음성 인식의 언어를 변경하는 언어 변경을 지시하는 명령 및 텍스트 데이터를 다른 언어로 번역하는 번역을 지시하는 명령을 포함할 수 있다.
일실시예에 따른 단계(150)는 수신된 명령에 반응하여, 선택된 시각적 기호에 대응하는 음향 신호 내 일부 구간을 처리하는 단계에 해당할 수 있다. 이하에서, 선택된 시각적 기호에 대응하는 음향 신호 내 일부 구간은 선택된 구간으로 지칭한다. 예를 들어, 공유를 지시하는 명령이 수신된 경우, 선택된 구간에 대응하는 인식 결과 및 선택된 구간에 대응하는 음향 신호 중 적어도 하나를 공유하는 단계를 포함할 수 있다. 일실시예에 따를 때, 공유하는 단계는 선택된 구간에 대응하는 인식 결과 및 음향 신호를 다른 사용자에게 전달하는 단계, 또는, 별도의 서버에 저장된 선택된 구간에 대응하는 인식 결과 및 음향 신호에 접근할 수 있는 하이퍼링크를 다른 사용자에게 전달하는 단계를 포함할 수 있다.
또 다른 예를 들어, 자연어 처리에 관한 명령이 수신된 경우, 선택된 구간에 대응하는 인식 결과를 자연어 처리를 통해 변경하는 단계를 포함할 수 있다. 일실시예에 따를 때, 자연어 처리에 관한 명령이 언어 변경을 지시하는 명령인 경우, 일실시예에 따른 단계(150)는 선택된 구간의 음성 신호를 다른 언어로 인식하여, 선택된 구간에 대응하는 인식 결과에 포함된 텍스트 데이터를 해당 언어로 변경하는 단계를 포함할 수 있다. 일실시예에 따를 때, 자연어 처리에 관한 명령이 번역을 지시하는 명령인 경우, 일실시예에 따른 단계(150)는 선택된 구간에 대응하는 인식 결과에 포함된 텍스트 데이터를 다른 언어로 번역하여, 번역 결과를 포함하도록 선택된 구간에 대응하는 인식 결과를 변경하는 단계를 포함할 수 있다.
일실시예에 따를 때, 재생을 지시하는 명령이 수신된 경우, 선택된 구간에 대응하는 음향 신호를 재생하는 단계를 포함할 수 있으며, 음향 신호의 재생에 따라 선택된 구간에 대응하는 인식 결과를 인터페이스에 표시하는 단계를 포함할 수 있다.
일실시예에 따를 때, 편집을 지시하는 명령이 수신된 경우, 선택된 구간에 대응하는 음향 신호 및/또는 선택된 구간에 대응하는 인식 결과가 사용자의 입력에 따라 편집될 수 있다. 일실시예에 따를 때, 사용자 인터페이스에 음향 신호 및 인식 결과의 편집에 관한 툴이 제공될 수 있으며, 사용자는 제공된 편집에 관한 툴을 이용하여 편집에 관한 명령을 입력할 수 있다.
도 4 및 도 5는 음향 신호 내 적어도 일부 선택된 구간에 대한 명령을 처리하는 과정을 설명하기 위한 도면들이다.
도 4는 일실시예에 따른 선택된 구간이 시간 구간에 해당하는 경우를 도시한 것이다. 도 4를 참조하면, 사용자는 인터페이스에 표시된 텍스트 데이터에 대응하는 시각적 기호(401, 402)를 선택함으로써, 선택된 시각적 기호에 대응하는 인식 단위가 포함된 구간(410)을 선택할 수 있다. 예를 들어, 시각적 기호(401)는 제1 인식 단위에 대응하고, 시각적 기호(402)는 제2 인식 단위에 대응하는 경우, 선택된 구간(410)은 제1 인식 단위 및 제2 인식 단위를 포함할 수 있다. 일실시예에 따른 선택된 구간(410)에 대응하는 음향 신호는 제1 인식 단위 및 제2 인식 단위에 대응하는 연속적인 음향 신호(411)에 해당할 수 있다. 일실시예에 따른 선택된 구간(410)에 대응하는 인식 결과는 선택된 구간에 대응하는 음향 신호의 화자 인식 및 음성 인식 등의 결과로, 예를 들어 음향 신호의 인식 단위 별 화자 인식에 따른 화자의 식별 정보, 음성 인식에 따른 텍스트 데이터 등을 포함할 수 있다. 즉, 선택된 구간에 대응하는 인식 결과는 제1 인식 단위의 인식 결과 및 제2 인식 단위의 인식 결과를 포함할 수 있다.
도 5는 일실시예에 따른 선택된 구간이 화자 구간에 해당하는 경우를 도시한 것이다. 도 5를 참조하면, 사용자는 인터페이스에 표시된 화자의 식별 정보에 대응하는 시각적 기호(501)를 선택함으로써, 선택된 시각적 기호에 대응하는 화자의 음성 신호에 해당하는 인식 단위가 포함된 구간(510, 520)을 선택할 수 있다. 예를 들어, 시각적 기호(501)에 대응하는 화자의 식별 정보가 A이고, 제3 인식 단위 및 제4 인식 단위의 화자의 식별 정보가 A인 경우, 구간(510)은 제3 인식 단위를 포함하고, 구간(520)은 제4 인식 단위를 포함할 수 있다. 일실시예에 따른 선택된 구간(510, 520)에 대응하는 음향 신호는 시각적 기호(501)에 대응하는 화자의 연속적이지 않은 음성 신호(511, 521)에 해당할 수 있다. 일실시예에 따른 선택된 구간(510, 520)에 대응하는 인식 결과는 제3 인식 단위의 인식 결과 및 제 4 인식 단위의 인식 결과를 포함할 수 있다.
도 4 및 도 5를 참조하면, 선택된 구간의 처리에 관한 명령(420, 530)은 예를 들어, 재생, 공유, 언어 변경 및 번역 중 어느 하나를 지시하는 명령을 포함할 수 있다. 일실시예에 따른 인터페이싱 방법을 수행하는 프로세서는 사용자로부터 선택된 구간의 처리에 관한 명령을 수신하여, 수신된 명령에 따라 선택된 구간을 처리할 수 있다.
도 4를 참조하면, 선택된 구간에 대하여 재생을 지시하는 명령이 수신된 경우, 선택된 구간에 대응하는 음향 신호가 사용자의 인터페이스(440)에서 재생될 수 있으며, 음향 신호의 재생에 따라 사용자의 인터페이스(440)에 선택된 구간에 대응하는 인식 결과가 표시될 수 있다.
도 5를 참조하면, 선택된 구간에 대하여 공유를 지시하는 명령이 수신된 경우, 선택된 구간에 대응하는 음향 신호 및 선택된 구간에 대응하는 인식 결과가 다른 사용자에게 공유될 수 있다. 일실시예에 따를 때, 선택된 구간에 대응하는 음향 신호는 선택된 구간을 공유 받은 다른 사용자의 인터페이스(550)에서 재생될 수 있으며, 음향 신호의 재생에 따라 다른 사용자의 인터페이스(550)에 선택된 구간에 대응하는 인식 결과가 표시될 수 있다. 즉, 구간의 선택 및 공유 명령이 수신된 사용자의 인터페이스(540)는 선택된 구간이 공유된 다른 사용자의 인터페이스(550)와 구분된다. 이와 비교하여, 도 4를 참조하면, 구간의 선택 및 재생 명령이 수신된 사용자의 인터페이스(430)는 선택된 구간이 재생되는 사용자의 인터페이스(440)와 동일하다.
도 6 및 도 7은 하이퍼링크를 이용하여 선택된 구간의 공유 명령을 처리하는 과정을 설명하기 위한 도면들이다.
도 6을 참조하면, 일실시예에 따른 선택된 구간을 공유하는 단계는 음향 신호 내 일부 구간에 대한 사용자의 선택 및 공유를 지시하는 명령을 수신하는 단계(610), 음향 신호 및 음향 신호에 대응하는 인식 결과가 저장된 서버에 선택된 구간에 관한 정보를 전송하여, 선택된 구간에 대응하는 음향 신호에 접근하기 위한 하이퍼링크를 서버에 요청하고, 이를 수신하는 단계(620), 및 수신된 하이퍼링크를 다른 사용자와 공유하는 단계를 포함할 수 있다.
일실시예에 따른 서버로 전송되는 선택된 구간에 관한 정보는 선택된 구간을 포함하는 음향 신호의 식별 정보 및 선택된 구간의 음향 신호 내 위치에 관한 정보를 포함할 수 있다. 다시 말해, 선택된 구간에 관한 정보는 선택된 구간을 포함하는 음향 신호가 기록된 파일의 식별 정보를 포함할 수 있다. 또한, 선택된 구간에 관한 정보는 음향 신호 내에서 선택된 구간의 위치를 지시하는 정보를 포함할 수 있다. 예를 들어, 음향 신호 내에서 선택된 구간의 위치를 지시하는 정보는 선택된 구간의 시간 정보를 포함할 수 있다.
일실시예에 따른 서버는 선택된 구간에 관한 정보에 기초하여, 서버에 저장된 선택된 구간에 대응하는 음향 신호에 접근할 수 있는 하이퍼링크를 생성할 수 있다. 즉, 선택된 구간에 대응하여 생성된 하이퍼링크는 서버 내 상기 선택된 구간에 대응하는 음향 신호가 저장된 위치에 관한 정보를 포함할 수 있다.
일실시예에 따른 인터페이싱 방법을 수행하는 프로세서는 서버로부터 선택된 구간에 대응하는 하이퍼링크를 수신하여 사용자에게 제공할 수 있다. 일실시예에 따른 사용자는 하이퍼링크를 다른 사용자와 공유함으로써, 선택된 구간에 대응하는 음향 신호 및 인식 결과를 공유할 수 있다.
일실시예에 따른 특정 구간에 대응하는 하이퍼링크를 공유 받은 다른 사용자는 하이퍼링크를 클릭하여 특정 구간에 대응하는 음향 신호 및/또는 인식 결과를 수신할 수 있다. 도 7을 참조하면, 일실시예에 따른 인터페이싱 방법을 수행하는 프로세서는 공유된 하이퍼링크에 관한 연결 요청을 수신(710)할 수 있고, 하이퍼링크를 통해 서버의 저장 위치에 접근하여 특정 구간에 대응하는 음향 신호 및/또는 인식 결과를 수신(720)할 수 있다. 일실시예에 따른 특정 구간에 대응하는 음향 신호는 하이퍼링크에 관한 연결을 요청한 다른 사용자 단말의 사용자 인터페이스를 통해 재생될 수 있다. 특정 구간이 재생되는 경우, 특정 구간의 인식 결과가 다른 사용자 단말의 인터페이스에 시각적 기호로 표시될 수 있다. 다시 말해, 일실시예에 따른 인터페이싱 방법을 수행하는 프로세서는 공유된 하이퍼링크를 통해 연결되는 음향 신호 내 특정 구간을 재생할 수 있으며, 특정 구간에 대응하는 인식 결과를 사용자 인터페이스에 시각적 기호로 표시할 수 있다. 일실시예에 따른 하이퍼링크는 특정 구간에 대응하는 음향 신호를 재생할 수 있고, 특정 구간에 대응하는 음향 신호가 재생되는 경우, 특정 구간에 대응하는 인식 결과를 시각적 기호로 표시하는 사용자 인터페이스로 연결되는 특징을 포함할 수 있다.
일실시예에 따른 하이퍼링크는 특정 구간에 대응하는 인식 결과가 저장된 위치에 관한 정보를 포함할 수 있다. 예를 들어, 하이퍼링크는 선택된 구간에 대응하는 인식 결과가 저장된 주소에 관한 정보를 포함할 수 있다. 이 경우, 인터페이싱 방법을 수행하는 프로세서는 하이퍼링크를 통해 연결되는 특정 구간에 대응하는 인식 결과를 사용자 인터페이스에 시각적 기호로 표시할 수 있다.
도 8은 일실시예에 따른 자연어 처리에 관한 명령을 처리하는 과정을 도시한 도면이다.
도 8을 참조하면, 자연어 처리에 관한 명령을 처리하는 단계는 자연어 처리에 관한 명령에 기초하여, 선택된 구간에 대응하는 인식 결과를 변경하는 단계(810), 및 선택된 구간에 대응하는 변경된 인식 결과에 기초하여, 사용자 인터페이스에 표시된 시각적 기호를 변경하는 단계를(820) 포함할 수 있다.
일실시예에 따른 자연어 처리에 관한 명령은 언어 변경을 지시하는 명령을 포함할 수 있다. 일실시예에 따른 언어 변경을 지시하는 명령은 음성 신호를 텍스트 데이터로 변환하는 음성 인식의 언어를 변경하는 것을 지시하는 명령에 해당할 수 있다. 일실시예에 따를 때, 언어 변경을 지시하는 명령은 어떤 언어로 언어 변경을 할 것인지에 관한 정보를 포함할 수 있다. 예를 들어, 일실시예에 따른 인터페이싱 방법을 수행하는 프로세서는 한국어로 음성을 인식하는 음성 인식 모듈을 사용하여 인식 결과를 획득한 경우, 영어로의 언어 변경 명령에 따라 영어로 음성을 인식하는 음성 인식 모듈을 사용하여 인식 결과를 다시 획득할 수 있다. 한국어로 음성을 인식하는 음성 인식 모듈은 음성 인식 결과 한국어에 해당하는 텍스트 데이터를 출력하고, 영어로 음성을 인식하는 음성 인식 모듈은 음성 인식 결과 영어에 해당하는 텍스트 데이터를 출력한다. 선택된 구간에 대하여 언어 변경을 지시하는 명령을 수행한 결과, 선택된 구간에 대응하는 인식 결과는 변경될 수 있다. 다시 말해, 선택된 구간에 대응하는 인식 결과에 포함된 특정 언어에 해당하는 텍스트 데이터는 선택된 구간에 대하여 언어 변경을 지시하는 명령을 수행한 결과, 변경된 언어에 해당하는 텍스트 데이터로 변경될 수 있다.
일실시예에 따른 자연어 처리에 관한 명령이 언어 변경을 지시하는 명령인 경우, 선택된 구간에 대응하는 인식 결과를 변경하는 단계는 선택된 구간에 대응하는 음향 신호를 다른 언어로 인식하여, 선택된 구간에 대응하는 인식 결과에 포함된 텍스트 데이터를 다른 언어로 변경하는 단계를 포함할 수 있다. 구간에 대응하는 인식 결과에 음향 신호를 제1 언어로 음성 인식하여 획득된 제1 언어의 텍스트 데이터가 포함된 경우, 다른 언어로 변경하는 단계는 사용자로부터 변경할 제2 언어에 대한 입력을 수신하는 단계, 및 사용자의 입력에 따른 제2 언어에 기초하여, 선택된 구간에 대응하는 음향 신호를 제2 언어로 음성 인식하여, 제2 언어의 텍스트 데이터를 획득하는 단계, 및 선택된 구간에 대응하는 인식 결과에 포함된 제1 언어의 텍스트 데이터를 제2 언어의 텍스트 데이터로 변경하는 단계를 포함할 수 있다. 이 경우, 제2 언어는 변경 전 선택된 구간에 대응하는 인식 결과를 획득하기 위한 제1 언어와 구분될 수 있다.
선택된 구간에 대한 언어 변경을 지시하는 명령을 수행하는 실시예는 도 9를 참조할 수 있다. 도 9는 일실시예에 따른 인식 결과가 대응되는 시각적 기호로 인터페이스에 표시된 화면을 도시하고 있으나, 인터페이스에 표시된 텍스트 형태의 시각적 기호(911, 912, 921, 922)가 인식 결과에 포함된 텍스트 데이터와 동일한 것으로 가정하여, 텍스트의 시각적 기호(911, 912, 921, 922)를 대응하는 인식 결과에 포함된 텍스트 데이터인 것으로 설명한다. 도 9를 참조하면, 사용자는 인터페이스를 통해 선택된 구간(901)에 대하여 언어 변경을 지시하는 명령을 입력(910)할 수 있으며, 변경할 언어를 지정(920)하여 언어 변경을 지시하는 명령을 입력할 수 있다. 일실시예에 따른 선택된 구간(901)에 대응하는 인식 결과는 대응하는 음성 신호를 한국어로 음성 인식하여 획득한 한국어의 텍스트 데이터(911, 912)를 포함하고 있었으나, 영어로의 언어 변경을 수행한 결과, 선택된 구간(902)에 대응하는 음성 신호를 영어로 음성 인식하여 획득된 영어의 텍스트 데이터(921, 922)로 인식 결과가 변경될 수 있다. 일실시예에 따를 때, 변경된 인식 결과에 따라, 인터페이스에 표시된 시각적 기호도 변경될 수 있다.
일실시예에 따른 자연어 처리에 관한 명령은 번역을 지시하는 명령을 포함할 수 있다. 일실시예에 따른 번역을 지시하는 명령은 인식 결과에 포함된 텍스트 데이터를 다른 언어의 텍스트 데이터로 번역하는 것을 지시하는 명령에 해당할 수 있다. 일실시예에 따를 때, 번역을 지시하는 명령은 인식 결과에 포함된 텍스트 데이터를 어떤 언어로 번역할 것인지에 관한 정보를 포함할 수 있다. 예를 들어, 일실시예에 따른 인터페이싱 방법을 수행하는 프로세서는 인식 결과에 포함된 한국어의 텍스트 데이터를 영어로 번역하라는 명령에 따라 한국어의 텍스트 데이터를 영어로 번역한 텍스트 데이터를 획득할 수 있다. 일실시예에 따를 때, 선택된 구간에 대하여 특정 언어로의 번역을 지시하는 명령을 수행한 결과, 선택된 구간에 대응하는 인식 결과에 특정 언어로 번역된 텍스트 데이터가 포함될 수 있다. 다시 말해, 선택된 구간에 대하여 번역을 지시하는 명령이 수행된 결과, 선택된 구간에 대응하는 인식 결과는 텍스트 데이터가 번역된 텍스트 데이터로 교체되거나, 번역된 텍스트 데이터가 더 추가됨으로써 변경될 수 있다.
일실시예에 따른 자연어 처리에 관한 명령이 번역을 지시하는 명령인 경우, 선택된 구간에 대응하는 인식 결과를 변경하는 단계는 선택된 구간에 대응하는 인식 결과에 포함된 텍스트 데이터를 다른 언어로 번역하여, 번역 결과를 포함하도록 선택된 구간에 대응하는 인식 결과를 변경하는 단계를 포함할 수 있다. 구간에 대응하는 인식 결과에 음향 신호를 제1 언어로 음성 인식하여 획득된 제1 언어의 텍스트 데이터가 포함된 경우, 선택된 구간에 대응하는 인식 결과를 변경하는 단계는 사용자로부터 번역할 제2 언어에 대한 입력을 수신하는 단계, 선택된 구간에 대응하는 인식 결과에 포함된 제1 언어의 텍스트 데이터를 제2 언어로 번역하여, 제2 언어의 텍스트 데이터를 획득하는 단계 및 제2 언어의 텍스트 데이터를 포함하도록 선택된 구간에 대응하는 인식 결과를 변경하는 단계를 포함할 수 있다. 이 경우, 제2 언어는 변경 전 선택된 구간에 대응하는 인식 결과를 획득하기 위한 제1 언어와 구분될 수 있다.
선택된 구간에 대한 번역을 지시하는 명령을 수행하는 실시예는 도 10을 참조할 수 있다. 도 10은 일실시예에 따른 인식 결과가 대응되는 시각적 기호로 인터페이스에 표시된 화면을 도시하고 있으나, 인터페이스에 표시된 텍스트 형태의 시각적 기호(1011, 1012, 1021, 1022)가 인식 결과에 포함된 텍스트 데이터와 동일한 것으로 가정하여, 텍스트의 시각적 기호(1011, 1012, 1021, 1022)를 대응하는 인식 결과에 포함된 텍스트 데이터인 것으로 설명한다. 도 10을 참조하면, 사용자는 인터페이스를 통해 선택된 구간(1001)에 대하여 번역을 지시하는 명령을 입력(1010)할 수 있으며, 번역할 언어를 지정(1020)하여 번역을 지시하는 명령을 입력할 수 있다. 일실시예에 따른 선택된 구간(1001)에 대응하는 인식 결과는 대응하는 음성 신호를 한국어로 음성 인식하여 획득한 한국어의 텍스트 데이터(1011, 1012)를 포함하고 있었으나, 영어로의 번역을 수행한 결과, 한국어의 텍스트 데이터 및 영어로 번역한 텍스트 데이터를 포함하도록 인식 결과가 변경될 수 있다. 일실시예에 따를 때, 변경된 인식 결과에 따라, 인터페이스에 표시된 시각적 기호도 변경될 수 있다. 예를 들어, 일실시예에 따른 변경된 인식 결과에 대응하는 변경된 시각적 기호(1021, 1022)는 번역 대상의 텍스트 데이터에 번역된 텍스트 데이터를 병기한 형태를 포함할 수 있다.
도 11a 내지 도 12c는 일실시예에 따른 인터페이스의 표시 모드를 설명하기 위한 도면들이다.
도 11a 및 도 11b는 화자의 위치를 고려하지 않고 인식 결과를 표시하는 인터페이스의 제1 표시 모드의 예를 도시한 도면들이다. 보다 구체적으로, 도 11a는 제1 표시 모드 중 텍스트 모드가 선택된 경우의 인식 결과가 표시된 인터페이스의 예를 도시한 도면, 도 11b는 제1 표시 모드 중 대화형 모드가 선택된 경우의 인식 결과가 표시된 인터페이스의 예를 도시한 도면이다.
도 11a 및 도 11b를 참조하면, 일실시예에 따른 인식 결과는 재생 요청된 음향 신호의 시계열적 정보에 기초하여, 재생되는 순서대로 인터페이스에 표시될 수 있다. 도 11a 및 도 11b는 도 2에 도시된 인식 결과를 재생되는 순서대로 표시한 것으로, 음성 신호에 대응하는 텍스트 데이터가 화자의 식별 정보와 함께 표시될 수 있고, 비음성 신호의 유형에 대응하는 시각적 기호가 표시될 수 있다. 일실시예에 따른 비음성 신호의 유형에 대응하는 시각적 기호는 텍스트 데이터, 이모티콘, 도형 등을 포함할 수 있다. 예를 들어, 비음성 신호의 웃음 유형에 대응하는 시각적 기호는 도 11a를 참조하면, "(웃음)"의 텍스트 데이터를 포함할 수 있고, 도 11b를 참조하면, 웃는 얼굴의 이모티콘(1101)을 포함할 수도 있으며, 그 밖의 비음성 신호의 유형을 구분하기 위한 시각적 도형 등을 포함할 수 있다. 상술한 바와 같이, 인터페이스의 상단부터 재생되는 순서대로 인식 단위에 대응하는 시각적 기호가 차례대로 표시될 수 있다.
일실시예에 따른 화자의 음성 신호에 대응하는 텍스트 데이터는 화자의 식별 정보와 함께 인터페이스에 표시될 수 있다. 도 11a를 참조하면, 화자의 식별 정보는 화자 A, 화자 B와 같이 화자 별로 부여된 텍스트 데이터로 표시될 수 있다. 도 11b를 참조하면, 화자의 식별 정보는 화자 별로 다른 색상이 부여된 도형(1110, 1120, 1130)으로 표시될 수 있으며, 화자가 인터페이스가 표시되는 단말의 사용자인 경우 인터페이스의 우측에 화자에 대응하는 도형(1130)이 표시되고, 그 외의 화자인 경우 인터페이스의 좌측에 화자에 대응하는 도형(1110, 1120)이 표시될 수 있다. 도 11a에 도시되진 않았으나, 화자의 식별 정보에 인터페이스가 표시되는 단말의 사용자임을 지시하는 정보가 표시될 수 있다. 예를 들어, 도 11a에서 화자 A가 사용자에 해당하는 경우, 화자 A의 텍스트 데이터가 다른 색상으로 표시되거나, "화자 A(사용자)"의 텍스트 데이터가 표시될 수 있다. 또한, 도 11b를 참조하면, 인식 단위의 텍스트 데이터 및 화자의 식별 정보와 함께 시간 정보가 인터페이스에 표시될 수 있다.
도 12a 내지 도 12c는 화자의 위치를 고려하여 인식 결과를 표시하는 인터페이스의 제2 표시 모드의 예를 도시한 도면들이다.
일실시예에 따른 인터페이싱 방법은 화자의 위치를 고려하여 인식 결과를 표시하기 위하여, 복수의 화자들의 음성을 포함하는 음향 신호를 수신하는 단계, 음향 신호 내 화자 별 음성 신호에 대응하는 화자의 식별 정보, 화자 별 음성 신호에 대응하는 텍스트 데이터, 및 화자 별 음성 신호에 대응하는 화자의 위치 정보를 포함하는 인식 결과를 획득하는 단계, 화자의 위치 정보에 기초하여, 사용자 인터페이스 내 화자의 위치를 결정하는 단계, 및 사용자 인터페이스 내 화자의 위치에 기초하여, 인식 결과를 사용자 인터페이스에 시각적 기호로 표시하는 단계를 포함할 수 있다. 즉, 일실시예에 따른 인식 결과는 수신된 음향 신호의 위치 인식에 따른 위치 정보를 더 포함할 수 있다. 일실시예에 따를 때, 음향 신호의 위치를 인식한다는 것은 방향 감지 기술이 적용된 음향 수신 장치로부터 생성된 음향 신호에 기초하여, 음향 신호가 발생한 방향, 음향 신호가 발생한 위치와 음향 수신 장치와의 거리 등의 위치의 정보를 획득하는 것을 의미할 수 있다. 일실시예에 따를 때, 음향 신호에 포함된 음성 신호가 발생한 위치는 음성 신호에 대응하는 화자의 위치에 대응될 수 있다. 즉, 일실시예에 따른 음향 신호에 대응하는 인식 결과를 획득하는 단계는 수신된 음향 신호의 위치를 인식하는 단계 및 화자 별 음성 신호에 대응하는 화자의 위치 정보를 획득하는 단계를 포함할 수 있다.
방향 감지 기술이 적용된 음향 수신 장치에서 생성된 음향 신호는 음향 수신 장치에 포함된 복수의 센서에 소리가 도달한 시간의 차이 및 복수의 센서가 배치된 기하학 등에 기초하여 음향 신호가 발생한 위치 정보가 추정될 수 있다. 일실시예에 따를 때, 음향 신호의 위치 정보는 서로 다른 발원지를 갖는 복수의 음향 신호들 사이의 상대적인 위치 정보를 포함할 수 있다. 일실시예에 따른 사용자 인터페이싱 방법을 수행하는 프로세서는 방향 감지 기술이 적용된 음향 수신 장치에서 복수의 화자들의 음성을 수신하여 생성된 음향 신호로부터 화자들의 위치 정보를 획득할 수 있으며, 화자 별 음성 신호 및 화자 별 위치 정보를 매핑하여 데이터베이스에 저장할 수 있다.
일실시예에 따른 인터페이싱 방법은 획득된 화자 별 위치 정보에 기초하여, 사용자 인터페이스 내 화자 별 위치를 결정하는 단계를 포함할 수 있다. 일실시예에 따를 때, 사용자 인터페이스 내 화자 별 위치는 화자 별 음성 신호에 대응하는 시각적 기호가 표시되는 인터페이스 내 위치를 결정하기 위해 이용될 수 있다. 일실시예에 따른 사용자 인터페이싱 방법을 수행하는 프로세서는 음향 신호가 녹음될 당시의 화자들의 위치 정보를 반영하여 인터페이스 내에 복수의 화자들이 배치될 수 있도록 화자 별 위치 정보에 기초하여, 인터페이스 내 화 별 위치를 결정할 수 있다. 예를 들어, 녹음 장치를 기준으로 화자들의 상대적인 위치 정보가 획득된 경우, 화자들의 상대적인 위치 정보를 인터페이스의 크기를 고려하여 일정 비율로 축소함으로써, 인터페이스 내 화자의 위치를 결정할 수 있다. 일실시예에 따를 때, 인터페이스 내에 화자를 배치한다는 것은 화자들 각각의 인터페이스 내 위치를 결정하는 것을 의미할 수 있다. 일실시예에 따를 때, 특정 화자의 위치 정보가 획득되지 않은 경우, 해당 화자의 인터페이스 내 위치는 미리 정해진 위치로 결정될 수 있다. 일실시예에 따를 때, 화자의 인터페이스 내 위치를 결정하는 단계는 화자의 인터페이스 내 위치에 화자에 대응되는 시각적 기호를 표시하는 단계를 반드시 포함하는 것은 아니다.
일실시예에 따른 인식 결과에 대응하는 시각적 기호는 인터페이스 내 특정 위치에 표시될 수 있다. 일실시예에 따른 인식 결과에 대응하는 시각적 기호가 표시되는 특정 위치는 인식 결과에 대응되는 음성 신호의 화자의 위치에 기초하여 결정될 수 있으며, 보다 구체적으로 화자의 인터페이스 내 위치에 기초하여 결정될 수 있다. 이 경우, 일실시예에 따른 인식 결과를 사용자 인터페이스에 시각적 기호로 표시하는 단계는 인식 결과에 대응되는 음성 신호의 화자의 인터페이스 내 위치에 인식 결과를 시각적 기호로 표시하는 단계를 포함할 수 있다. 일실시예에 따를 때, 화자의 인터페이스 내 위치에 텍스트 데이터를 표시하는 것은 화자의 인터페이스 내 위치에 인접하여 텍스트 데이터를 표시하는 것을 포함할 수 있다.
도 12a를 참조하면, 화자의 위치 정보에 기초하여 결정된 화자의 인터페이스 내 위치에 화자를 식별하는 시각적 기호(1201, 1202, 1203, 1204)가 표시될 수 있다. 또한 인터페이스에 디폴트로 다른 구성이 포함될 수 있다. 예를 들어, 테이블 형태의 도형(1205)이 인터페이스의 특정 위치에 디폴트로 표시될 수 있다. 일실시예에 따를 때, 인터페이스 내 디폴트로 포함된 구성의 위치는 음향 수신 장치에 대응되는 위치로 결정될 수 있다. 이 경우, 일실시예에 따른 화자들의 인터페이스 내 위치는 인터페이스 내 음향 수신 장치에 대응되는 위치를 기준으로, 화자들의 위치 정보에 기초하여 결정될 수 있다. 일실시예에 따른 화자들을 식별하는 시각적 기호들(1201, 1202, 1203, 1204)은 디폴트로 포함된 테이블(1205)을 기준으로 화자들의 위치 정보에 따라 결정된 화자들의 인터페이스 내 위치에 표시될 수 있다. 예를 들어, 화자들을 식별하는 시각적 기호들(1201, 1202, 1203, 1204)이 표시되는 화자들의 인터페이스 내 위치는 음향 수신 장치를 기준으로 획득된 화자들의 위치 정보를 인터페이스 내 디폴트로 포함된 테이블(1205)을 기준으로 인터페이스의 크기를 고려하여 일정 비율로 축소시켜 결정될 수 있다.
일실시예에 따를 때, 화자들의 위치 정보는 화자들과 음향 수신 장치 사이의 상대적인 위치 정보에 해당할 수 있다. 이 경우, 화자들의 인터페이스 내 위치를 결정하기 위하여, 기준이 되는 기준 화자를 결정할 수 있다. 일실시예에 따른 기준 화자의 인터페이스 내 위치는 미리 정해진 위치로 결정되며, 기준 화자의 인터페이스 내 위치를 기준으로, 나머지 화자들의 인터페이스 내 위치가 결정될 수 있다. 다시 말해, 음향 수신 장치의 인터페이스 내 위치 및 기준 화자의 인터페이스 내 위치를 미리 정해진 특정 위치로 고정하고, 고정된 기준 화자의 인터페이스 내 위치 및 음향 수신 장치의 인터페이스 내 위치를 기준으로, 화자들과 음향 수신 장치 사이의 상대적인 위치 정보에 기초하여, 나머지 화자들의 인터페이스 내 위치가 결정될 수 있다.
일실시예에 따른 기준 화자를 결정하는 방법은 다양한 방법이 적용될 수 있으며, 예를 들어 발화량이 가장 많은 화자를 기준 화자로 결정하는 방법, 가장 처음 인식된 화자를 기준 화자로 결정하는 방법, 인터페이스가 표시될 단말의 사용자를 기준 화자로 결정하는 방법 등이 있을 수 있다.
일실시예에 따른 화자의 인터페이스 내 위치는 사용자의 입력에 따라 변경될 수 있다. 일실시예에 따른 화자의 인터페이스 내 위치를 변경하는 사용자의 입력은 예를 들어, 인터페이스의 특정 위치를 기준으로 시계 방향 또는 시계 반대 방향으로 돌리는 입력, 보다 구체적으로 인터페이스에 표시된 테이블을 터치하여 시계 방향 또는 시계 반대 방향으로 회전시키는 입력을 포함할 수 있고, 인터페이스에 포함된 특정 방향으로 특정 각도의 회전을 지시하는 버튼을 누르는 입력 등을 포함할 수 있으며, 이 외에 위치 변경에 관한 다양한 형식의 입력을 포함할 수 있다.
일실시예에 따를 때, 인터페이스 내에서 화자 배치의 형태는 다양하게 구성될 수 있다. 예를 들어, 각각의 화자의 위치 정보에 기초하여, 각각의 화자의 인터페이스 내 위치를 결정하는 배치 형태가 있을 수 있고, 화자들의 위치 정보에 기초하여 복수의 화자들을 그룹화하여, 그룹을 기준으로 화자들의 인터페이스 내 위치를 결정하는 배치 형태가 있을 수 있다. 일실시예에 따른 사용자 인터페이싱 방법을 수행하는 프로세서는 복수의 화자 배치 모드를 사용자에게 제공할 수 있으며, 사용자는 화자 배치 모드를 설정할 수 있다. 일실시예에 따른 사용자 인터페이싱 방법을 수행하는 프로세서는 사용자의 화자 배치 모드에 관한 입력을 수신하여, 인터페이스에 화자가 배치되는 형태를 결정할 수 있다.
일실시예에 따른 프로세서는 화자 배치 모드를 구분하여 표시하기 위하여, 화자 배치 모드에 따라 인터페이스 내 특정 구성 요소를 다르게 표시할 수 있다. 예를 들어, 일실시예에 따른 프로세서는 제1 배치 모드 및 제2 배치 모드를 구분하여 표시하기 위하여, 제1 배치 모드가 선택된 경우 인터페이스 내 테이블의 형태를 원형으로, 제2 배치 모드가 선택된 경우 인터페이스 내 테이블의 형태를 사각형으로 표시할 수 있다.
일실시예에 따를 때, 입력된 화자 배치 모드가 제1 배치 모드인 경우, 화자의 인터페이스 내 위치를 결정하는 단계는 복수의 화자들 중 어느 하나의 기준 화자를 결정하는 단계, 인터페이스 내 미리 정해진 위치를 기준 화자의 인터페이스 내 위치로 결정하는 단계 및 기준 화자의 인터페이스 내 위치를 기준으로 화자를 배치하는 단계를 포함할 수 있다. 일실시예에 따를 때, 기준 화자의 인터페이스 내 위치를 기준으로 화자를 배치하는 단계는 기준 화자의 인터페이스 내 위치를 기준으로, 복수의 화자들 중 기준 화자를 제외한 나머지 화자의 위치 정보에 기초하여, 나머지 화자의 인터페이스 내 위치를 결정하는 단계를 포함할 수 있다.
일실시예에 따를 때, 입력된 화자 배치 모드가 제2 배치 모드인 경우, 화자의 인터페이스 내 위치를 결정하는 단계는 복수의 화자들을 화자들의 위치 정보에 기초하여 그룹화하는 단계, 그룹화에 기초하여, 동일한 그룹에 속한 화자들이 서로 가깝게 위치하도록 화자들의 위치 정보를 조정하는 단계, 그룹화에 따라 생성된 복수의 그룹들 중 어느 하나를 기준 그룹으로 결정하는 단계, 인터페이스 내 미리 정해진 위치를 기준 그룹에 속한 화자들의 인터페이스 내 위치로 결정하는 단계 및 기준 그룹 내 화자들의 인터페이스 내 위치를 기준으로 화자를 배치하는 단계를 포함할 수 있다. 일실시예에 따를 때, 기준 그룹 내 화자들의 인터페이스 내 위치를 기준으로 화자를 배치하는 단계는 기준 그룹에 속한 화자들의 인터페이스 내 위치를 기준으로, 복수의 그룹들 중 기준 그룹을 제외한 나머지 그룹에 속한 화자들의 위치 정보에 기초하여, 나머지 그룹에 속한 화자들의 인터페이스 내 위치를 결정하는 단계를 포함할 수 있다.
일실시예에 따른 인식 결과에 포함된 텍스트 데이터는 대응되는 화자의 위치에 표시되거나 대응되는 화자의 위치에 인접하여 표시될 수 있다. 도 12b 및 도 12c를 참조하면, 일실시예에 따를 때, 화자를 식별하는 시각적 기호가 인터페이스에 표시된 경우, 인식 단위에 대응하는 화자를 식별하는 시각적 기호에 인접하여 인식 단위에 대응하는 인식 결과 내 텍스트 데이터가 표시될 수 있다. 일실시예에 따른 텍스트 데이터는 재생되는 음성 신호의 시계열적 정보에 따른 재생되는 순서에 따라 표시될 수 있다. 예를 들어, 도 12b의 시각적 기호(1210)에 대응하는 화자 A의 음성 신호가 도 12c의 시각적 기호(1220)에 대응하는 화자 B의 음성 신호보다 시간 순서 상 먼저 기록된 경우, 도 12b의 시각적 기호(1210)에 대응하는 화자 A의 음성 신호가 재생되면서 도 12b의 인터페이스와 같이 화자 A를 식별하는 시각적 기호(1211)에 인접하여 시각적 기호(1210)가 표시되고, 이후 도 12c의 시각적 기호(1220)에 대응하는 화자 B의 음성 신호가 재생되면서 도 12c의 인터페이스와 같이 화자 B를 식별하는 시각적 기호(1221)에 인접하여 시각적 기호(1220)가 표시될 수 있다. 또한, 각 인식 단위에 대응하는 시간 정보가 텍스트 데이터와 함께 인터페이스에 표시될 수 있다. 일실시예에 따를 때, 화자의 발화에 대응하는 음성 신호가 재생되면서, 화자를 식별하는 시각적 기호에 인접하여 음성 신호의 텍스트 데이터가 표시되는 인터페이스가 사용자에게 제공됨으로써, 사용자는 화자들의 발화 내용이 녹음될 당시의 화자들의 위치를 상기하며 녹음 파일을 청취할 수 있다.
일실시예에 따른 비음성 신호의 유형에 대응하는 시각적 기호는 인터페이스 내 특정 위치에 표시될 수 있다. 일실시예에 따를 때, 음향 신호가 발생한 위치 추정이 가능한 경우, 음향 신호의 일부인 비음성 신호도 음성 신호와 마찬가지로, 소리가 발생한 위치 정보가 획득될 수 있다. 일실시예에 따를 때, 비음성 신호가 발생한 위치 정보를 추정할 수 있는 경우, 비음성 신호의 위치 정보에 기초하여, 인터페이스 내 특정 위치에 비음성 신호에 대응하는 시각적 기호가 표시될 수 있다. 예를 들어, 웃음 소리 유형으로 분류된 비음성 신호의 위치 정보가 특정 화자의 위치 정보에 해당하는 경우, 해당 화자의 인터페이스 내 위치에 웃음 소리 유형에 대응하는 시각적 기호가 표시될 수 있다. 또한, 차 소리 유형으로 분류된 비음성 신호의 위치 정보가 화자 별 음성 신호에 대응하는 화자 별 위치 정보와 함께 획득된 경우, 비음성 신호의 위치 정보에 기초하여 결정된 인터페이스 내 위치에 비음성 신호에 대응하는 시각적 기호가 표시될 수 있다.
일실시예에 따를 때, 비음성 신호가 발생한 위치 정보를 획득할 수 없는 경우, 또는 비음성 신호에 대응되는 화자를 특정할 수 없는 경우, 비음성 신호에 대응되는 시각적 기호는 비음성 신호의 위치 정보와 관계없이 인터페이스에 표시될 수 있다. 예를 들어, '웃음' 유형으로 분류된 비음성 신호가 여러 화자의 웃음 소리를 포함하고 있어 특정 화자에 대응되지 않는 경우, '웃음' 유형에 대응하는 시각적 기호는 화자와 관계없이 인터페이스 내 고정된 특정 위치에 표시될 수 있다. 또한, 다른 요인으로 인하여 비음성 신호가 발생한 위치를 특정할 수 없는 경우, 비음성 신호의 유형에 대응하는 시각적 기호는 인터페이스 내 미리 정해진 특정 위치에 표시될 수 있다. 예를 들어, 비음성 신호의 위치 정보가 획득되지 않은 경우, 인터페이스의 중앙에 비음성 신호에 대응하는 시각적 기호가 표시될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims (21)

  1. 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법에 있어서,
    복수의 화자들의 음성을 포함하는 상기 음향 신호를 수신하는 단계;
    상기 음향 신호 내 화자 및 음성을 인식한 인식 결과를 획득하는 단계;
    상기 인식 결과를 상기 사용자 인터페이스에 시각적 기호로 표시하는 단계;
    상기 시각적 기호 중 적어도 일부에 대한 사용자의 선택을 수신하는 단계;
    선택된 시각적 기호에 대응하는 상기 음향 신호 내 적어도 일부 구간의 공유를 지시하는 명령을 수신하는 단계; 및
    상기 명령에 반응하여, 상기 구간에 대응하는 인식 결과 및 상기 구간에 대응하는 음향 신호 중 적어도 하나를 공유하는 단계
    를 포함하는,
    사용자 인터페이싱 방법.
  2. 제1항에 있어서,
    상기 공유하는 단계는
    상기 음향 신호가 저장된 서버에 상기 구간에 대응하는 음향 신호에 접근하기 위한 하이퍼링크를 요청하는 단계; 및
    상기 서버로부터 수신된 상기 하이퍼링크를 공유하는 단계
    를 포함하는,
    사용자 인터페이싱 방법.
  3. 제2항에 있어서,
    상기 하이퍼링크를 요청하는 단계는
    상기 서버에 상기 구간에 관한 정보를 전송하는 단계를 더 포함하고,
    상기 구간에 관한 정보는
    상기 음향 신호의 식별 정보; 및
    상기 음향 신호 내 상기 구간의 위치에 관한 정보
    를 포함하는,
    사용자 인터페이싱 방법.
  4. 제2항에 있어서,
    상기 공유된 하이퍼링크를 통해 연결되는 음향 신호 내 특정 구간을 재생하는 단계; 및
    상기 특정 구간의 인식 결과를 사용자 인터페이스에 시각적 기호로 표시하는 단계
    중 적어도 하나를 더 포함하는,
    사용자 인터페이싱 방법.
  5. 제1항에 있어서,
    상기 사용자의 선택을 수신하는 단계는
    상기 인식 결과에 포함된 텍스트 데이터를 표시하는 상기 사용자 인터페이스 내 시각적 기호 중 적어도 일부에 대한 사용자의 선택을 수신하는 단계
    를 포함하는,
    사용자 인터페이싱 방법.
  6. 제1항에 있어서,
    상기 인식 결과는
    상기 음향 신호 내 화자 별 음성 신호에 대응하는 화자의 식별 정보;
    상기 화자 별 음성 신호에 대응하는 텍스트 데이터; 및
    상기 음향 신호 내 화자 별 음성 신호에 해당하지 않는 비음성 신호에 대응하는 유형 정보
    중 적어도 하나를 포함하는,
    사용자 인터페이싱 방법.
  7. 제1항에 있어서,
    상기 사용자의 선택을 수신하는 단계는
    상기 복수의 화자들 중 제1 화자의 식별 정보를 표시하는 시각적 기호에 대한 사용자의 선택을 수신하는 단계를 포함하는,
    사용자 인터페이싱 방법.
  8. 제1항에 있어서,
    상기 표시하는 단계는
    상기 사용자 인터페이스에서 상기 인식 결과에 대응하는 음향 신호를 재생하는 경우, 상기 인식 결과를 상기 사용자 인터페이스에 상기 시각적 기호로 표시하는 단계
    를 포함하는,
    사용자 인터페이싱 방법.
  9. 제1항에 있어서,
    상기 표시하는 단계는
    상기 사용자 인터페이스의 표시 모드에 대한 사용자의 입력을 수신하는 단계;
    상기 표시 모드가 제1 표시 모드인 경우, 상기 인식 결과에 대응하는 음향 신호의 시계열적 정보에 기초하여, 상기 인식 결과를 시간 순서에 따라 상기 사용자 인터페이스에 시각적 기호로 표시하는 단계; 및
    상기 표시 모드가 제2 표시 모드인 경우, 상기 인식 결과에 대응하는 음향 신호의 시계열적 정보 및 상기 인식 결과에 대응하는 화자의 위치 정보에 기초하여, 상기 인식 결과를 시간 순서에 따라 상기 사용자 인터페이스 내 특정 위치에 시각적 기호로 표시하는 단계
    를 포함하는,
    사용자 인터페이싱 방법.
  10. 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법에 있어서,
    복수의 화자들의 음성을 포함하는 상기 음향 신호를 수신하는 단계;
    상기 음향 신호 내 화자 및 음성을 인식한 인식 결과를 획득하는 단계;
    상기 인식 결과를 상기 사용자 인터페이스에 시각적 기호로 표시하는 단계;
    상기 시각적 기호 중 적어도 일부에 대한 사용자의 선택을 수신하는 단계;
    선택된 시각적 기호에 대응하는 상기 음향 신호 내 적어도 일부 구간의 자연어 처리에 관한 명령을 수신하는 단계;
    상기 명령에 기초하여, 상기 구간에 대응하는 인식 결과를 변경하는 단계; 및
    변경된 인식 결과에 기초하여, 선택된 시각적 기호를 변경하는 단계
    를 포함하는,
    사용자 인터페이싱 방법.
  11. 제10항에 있어서,
    상기 변경하는 단계는
    상기 구간에 대응하는 음향 신호를 다른 언어로 음성 인식하여, 상기 구간에 대응하는 인식 결과에 포함된 텍스트 데이터를 상기 다른 언어로 변경하는 단계
    를 포함하는,
    사용자 인터페이싱 방법.
  12. 제11항에 있어서,
    상기 구간에 대응하는 인식 결과는 상기 구간에 대응하는 음향 신호를 제1 언어로 음성 인식하여 획득된 제1 언어의 텍스트 데이터를 포함하고,
    상기 다른 언어로 변경하는 단계는
    사용자로부터 변경할 제2 언어에 대한 입력을 수신하는 단계;
    상기 구간에 대응하는 음향 신호를 상기 제2 언어로 음성 인식하여, 상기 제2 언어의 텍스트 데이터를 획득하는 단계; 및
    상기 구간에 대응하는 인식 결과에 포함된 제1 언어의 텍스트 데이터를 상기 제2 언어의 텍스트 데이터로 변경하는 단계
    를 포함하는,
    사용자 인터페이싱 방법.
  13. 제10항에 있어서,
    상기 변경하는 단계는
    상기 구간에 대응하는 인식 결과에 포함된 텍스트 데이터를 다른 언어로 번역하여, 번역 결과를 포함하도록 상기 구간에 대응하는 인식 결과를 변경하는 단계
    를 포함하는,
    사용자 인터페이싱 방법.
  14. 제13항에 있어서,
    상기 구간에 대응하는 인식 결과는 상기 구간에 대응하는 음향 신호를 제1 언어로 음성 인식하여 획득된 제1 언어의 텍스트 데이터를 포함하고,
    상기 구간에 대응하는 인식 결과를 변경하는 단계는
    사용자로부터 번역할 제2 언어에 대한 입력을 수신하는 단계;
    상기 제1 언어의 텍스트 데이터를 상기 제2 언어로 번역하여, 상기 제2 언어의 텍스트 데이터를 획득하는 단계; 및
    상기 제2 언어의 텍스트 데이터를 포함하도록 상기 구간에 대응하는 인식 결과를 변경하는 단계
    를 포함하는,
    사용자 인터페이싱 방법.
  15. 하드웨어와 결합되어 제1항 내지 제14항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  16. 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 장치에 있어서,
    복수의 화자들의 음성을 포함하는 상기 음향 신호를 수신하고,
    상기 음향 신호 내 화자 및 음성을 인식한 인식 결과를 획득하고,
    상기 인식 결과를 상기 사용자 인터페이스에 시각적 기호로 표시하고,
    상기 시각적 기호 중 적어도 일부에 대한 사용자의 선택을 수신하고,
    선택된 시각적 기호에 대응하는 상기 음향 신호 내 적어도 일부 구간의 공유를 지시하는 명령을 수신하며,
    상기 명령에 반응하여, 상기 구간에 대응하는 인식 결과 및 상기 구간에 대응하는 음향 신호 중 적어도 하나를 공유하는,
    적어도 하나의 프로세서
    를 포함하는,
    사용자 인터페이싱 장치.
  17. 제16항에 있어서,
    상기 프로세서는
    상기 공유함에 있어서,
    상기 음향 신호가 저장된 서버에 상기 구간에 대응하는 음향 신호에 접근하기 위한 하이퍼링크를 요청하고,
    상기 서버로부터 수신된 상기 하이퍼링크를 공유하는,
    사용자 인터페이싱 장치.
  18. 제17항에 있어서,
    상기 프로세서는
    상기 공유된 하이퍼링크를 통해 연결되는 음향 신호를 재생하는,
    사용자 인터페이싱 장치.
  19. 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 장치에 있어서,
    복수의 화자들의 음성을 포함하는 상기 음향 신호를 수신하고,
    상기 음향 신호 내 화자 및 음성을 인식한 인식 결과를 획득하고,
    상기 인식 결과를 상기 사용자 인터페이스에 시각적 기호로 표시하고,
    상기 시각적 기호 중 적어도 일부에 대한 사용자의 선택을 수신하고,
    선택된 시각적 기호에 대응하는 상기 음향 신호 내 적어도 일부 구간의 자연어 처리에 관한 명령을 수신하고,
    상기 명령에 기초하여, 상기 구간에 대응하는 인식 결과를 변경하며,
    변경된 인식 결과에 기초하여, 선택된 시각적 기호를 변경하는,
    적어도 하나의 프로세서
    를 포함하는,
    사용자 인터페이싱 장치.
  20. 제19항에 있어서,
    상기 프로세서는
    상기 인식 결과를 변경함에 있어서,
    상기 구간에 대응하는 음향 신호를 다른 언어로 음성 인식하여, 상기 구간에 대응하는 인식 결과에 포함된 텍스트 데이터를 상기 다른 언어로 변경하는,
    사용자 인터페이싱 장치.
  21. 제19항에 있어서,
    상기 프로세서는
    상기 구간에 대응하는 인식 결과를 변경함에 있어서,
    상기 인식 결과에 포함된 텍스트 데이터를 다른 언어로 번역하여, 번역 결과를 포함하도록 상기 선택된 구간에 대응하는 인식 결과를 변경하는,
    사용자 인터페이싱 장치.
KR1020200108140A 2020-08-26 2020-08-26 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치 KR102472921B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200108140A KR102472921B1 (ko) 2020-08-26 2020-08-26 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200108140A KR102472921B1 (ko) 2020-08-26 2020-08-26 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20220026958A true KR20220026958A (ko) 2022-03-07
KR102472921B1 KR102472921B1 (ko) 2022-12-01

Family

ID=80817656

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200108140A KR102472921B1 (ko) 2020-08-26 2020-08-26 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102472921B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11972756B2 (en) 2022-06-29 2024-04-30 Actionpower Corp. Method for recognizing the voice of audio containing foreign languages

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007003669A (ja) * 2005-06-22 2007-01-11 Murata Mach Ltd 文書作成装置
KR20120126649A (ko) * 2011-05-12 2012-11-21 주식회사 유피아이케이 통화 내용 제공 방법, 그 제공 시스템 및 그 제공 방법을 기록한 기록매체
JP2013222347A (ja) * 2012-04-17 2013-10-28 Canon Inc 議事録生成装置及び議事録生成方法
KR20170044386A (ko) * 2015-10-15 2017-04-25 삼성전자주식회사 전자기기 및 전자기기의 제어방법
KR20200011198A (ko) * 2018-07-24 2020-02-03 주식회사 리턴제로 대화형 메시지 구현 방법, 장치 및 프로그램
KR20200087514A (ko) * 2019-01-11 2020-07-21 주식회사 액션파워 대화록 서비스를 제공하는 컴퓨팅 장치
JP2020113150A (ja) * 2019-01-16 2020-07-27 西村 豊 音声翻訳対話システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007003669A (ja) * 2005-06-22 2007-01-11 Murata Mach Ltd 文書作成装置
KR20120126649A (ko) * 2011-05-12 2012-11-21 주식회사 유피아이케이 통화 내용 제공 방법, 그 제공 시스템 및 그 제공 방법을 기록한 기록매체
JP2013222347A (ja) * 2012-04-17 2013-10-28 Canon Inc 議事録生成装置及び議事録生成方法
KR20170044386A (ko) * 2015-10-15 2017-04-25 삼성전자주식회사 전자기기 및 전자기기의 제어방법
KR20200011198A (ko) * 2018-07-24 2020-02-03 주식회사 리턴제로 대화형 메시지 구현 방법, 장치 및 프로그램
KR20200087514A (ko) * 2019-01-11 2020-07-21 주식회사 액션파워 대화록 서비스를 제공하는 컴퓨팅 장치
JP2020113150A (ja) * 2019-01-16 2020-07-27 西村 豊 音声翻訳対話システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11972756B2 (en) 2022-06-29 2024-04-30 Actionpower Corp. Method for recognizing the voice of audio containing foreign languages
JP7475589B2 (ja) 2022-06-29 2024-04-30 アクションパワー コーポレイション 外国語を含むオーディオの音声認識方法

Also Published As

Publication number Publication date
KR102472921B1 (ko) 2022-12-01

Similar Documents

Publication Publication Date Title
US11699456B2 (en) Automated transcript generation from multi-channel audio
JP6463825B2 (ja) 多重話者音声認識修正システム
WO2021083071A1 (zh) 语音转换、文件生成、播音、语音处理方法、设备及介质
US20150373455A1 (en) Presenting and creating audiolinks
US20210243528A1 (en) Spatial Audio Signal Filtering
US10409547B2 (en) Apparatus for recording audio information and method for controlling same
US8972265B1 (en) Multiple voices in audio content
CN107507615A (zh) 界面智能交互控制方法、装置、系统及存储介质
US20210232776A1 (en) Method for recording and outputting conversion between multiple parties using speech recognition technology, and device therefor
CN108012173A (zh) 一种内容识别方法、装置、设备和计算机存储介质
US11049490B2 (en) Audio playback device and audio playback method thereof for adjusting text to speech of a target character using spectral features
TWI807428B (zh) 一同管理與語音檔有關的文本轉換記錄和備忘錄的方法、系統及電腦可讀記錄介質
KR20200027331A (ko) 음성 합성 장치
JP2000207170A (ja) 情報処理装置および情報処理方法
KR102472921B1 (ko) 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치
JP7417272B2 (ja) 端末装置、サーバ装置、配信方法、学習器取得方法、およびプログラム
KR102471678B1 (ko) 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN113889081A (zh) 语音识别方法、介质、装置和计算设备
KR102376552B1 (ko) 음성 합성 장치 및 음성 합성 방법
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
JP7183316B2 (ja) 音声記録検索方法、コンピュータ装置およびコンピュータプログラム
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
JP2008250066A (ja) 音声データ処理システム、音声データ処理方法、及びプログラム
WO2021102647A1 (zh) 数据处理方法、装置和存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant