KR102583986B1 - 목소리에 기반한 감정 분류가 반영된 음성 메시지의 말풍선 표현 방법 및 시스템 - Google Patents

목소리에 기반한 감정 분류가 반영된 음성 메시지의 말풍선 표현 방법 및 시스템 Download PDF

Info

Publication number
KR102583986B1
KR102583986B1 KR1020210035129A KR20210035129A KR102583986B1 KR 102583986 B1 KR102583986 B1 KR 102583986B1 KR 1020210035129 A KR1020210035129 A KR 1020210035129A KR 20210035129 A KR20210035129 A KR 20210035129A KR 102583986 B1 KR102583986 B1 KR 102583986B1
Authority
KR
South Korea
Prior art keywords
information
speech bubble
emotional
received voice
voice data
Prior art date
Application number
KR1020210035129A
Other languages
English (en)
Other versions
KR20220130353A (ko
Inventor
석현정
유춘 얀
첸 친유에
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020210035129A priority Critical patent/KR102583986B1/ko
Publication of KR20220130353A publication Critical patent/KR20220130353A/ko
Application granted granted Critical
Publication of KR102583986B1 publication Critical patent/KR102583986B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • G06Q50/30
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/50Business processes related to the communications industry
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Operations Research (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

목소리에 기반한 감정 분류가 반영된 음성 메시지의 말풍선 표현 방법 및 시스템이 개시된다. 일 실시예에 따른 말풍선 표현 시스템에 의해 수행되는 음성 메시지의 말풍선 표현 방법은, 음성 데이터를 수신하는 단계; 상기 수신된 음성 데이터에 포함된 음향적 속성 정보를 이용하여 감정 정보를 분류하는 단계; 및 상기 분류된 감정 정보에 따라 상기 수신된 음성 데이터에 대응되는 부가 정보를 표현하는 단계를 포함할 수 있다.

Description

목소리에 기반한 감정 분류가 반영된 음성 메시지의 말풍선 표현 방법 및 시스템{SPEECH BALLOON EXPRESSION METHOD AND SYSTEM FOR VOICE MESSAGES REFLECTING EMOTION CLASSIFICATION BASED ON VOICE}
아래의 설명은 음성 데이터에 기반하여 감정 분류를 수행하는 기술에 관한 것으로, 말풍선을 통해 음성 메시지에 내포된 감정적 특징을 표현하는 방법 및 시스템에 관한 것이다.
인스턴트 메신저를 통해 다른 사용자와 메시지를 주고 받는 서비스의 이용이 폭발적으로 증가되고 있다. 사용자들은 다른 사용자들과 음성 메시지 또는 텍스트 메시지를 송수신하며, 자신의 감정을 표현하기 위해 별도로 이모티콘이나 스티커를 사용하고 있다.
한국인들의 경우 음성 메시지를 사용하는 빈도가 높은 편이 아니지만, 중국과 같이 문자를 기입하는 과정이 복잡한 문화권에서는 음성 메시지를 사용하는 빈도가 빈번하다.
이와 같이, 사용자로부터 입력된 음성 메시지를 텍스트 메시지로 변환하여 사용자의 의견과 감정을 공유하기에는 번거로움이 있다. 이에, 메시지 말풍선의 변화를 통해 음성 메시지에 내포된 감정적 특징을 직관적으로 표현하기 위한 기술이 요구된다.
음성 데이터에 기반한 감정 분류가 반영된 음성 메시지의 말풍선 색상 및 말풍선 내 시그널 표시의 두께 변화를 통해 음성 메시지에 내포된 감정적 특징을 표현하는 방법 및 시스템을 제공할 수 있다.
말풍선 표현 시스템에 의해 수행되는 음성 메시지의 말풍선 표현 방법은, 음성 데이터를 수신하는 단계; 상기 수신된 음성 데이터에 포함된 음향적 속성 정보를 이용하여 감정 정보를 분류하는 단계; 및 상기 분류된 감정 정보에 따라 상기 수신된 음성 데이터에 대응되는 부가 정보를 표현하는 단계를 포함할 수 있다.
상기 감정 정보를 분류하는 단계는, 감정 인식을 위한 학습 모델을 이용하여 상기 수신된 음성 데이터에 대한 감정 정보를 분류하는 단계를 포함하고, 상기 감정 정보는, 중립, 화남, 흥분 및 절망, 고요함, 슬픔 중 어느 하나 이상을 포함할 수 있다.
상기 학습 모델은, 사용자마다 동일 문장이 발화되도록 하여 학습 결과를 판단하기 위한 기준선을 설정하고, 상기 설정된 기준선을 기준으로 상기 수신된 음성 메시지가 기 설정된 기준 이상의 변화를 보이는 경우 상기 수신된 음성 메시지로부터 인식된 감정 정보가 분류되도록 학습될 수 있다.
상기 학습 모델은, 상기 수신된 음성 메시지로부터 분류된 감정 정보가 상기 설정된 기준선과 비교되어 상기 분류된 감정 정보의 정도가 도출되도록 학습된 것일 수 있다.
상기 표현하는 단계는, 상기 수신된 음성 데이터에 대한 음향적 분석을 통해 상기 수신된 음성 데이터에 대한 음의 크기를 획득하고, 상기 획득된 음의 크기에 기초하여 말풍선 내 시그널 표시의 굵기 정보를 조절하여 상기 수신된 음성 데이터에 대한 음의 크기를 반영하는 단계를 포함할 수 있다.
상기 표현하는 단계는, 상기 획득된 음의 크기가 기 설정된 값 이상일 경우, 말풍선 내 시그널 표시의 굵기 정보를 두껍게 시각화하는 단계를 포함할 수 있다.
상기 표현하는 단계는, 상기 분류된 감정 정보에 기초하여 상기 분류된 감정 정보에 따라 미리 설정된 색상 정보를 상기 수신된 음성 데이터에 대한 말풍선의 배경색에 매핑하고, 상기 매핑된 말풍선의 배경색을 시각화하는 단계를 포함할 수 있다.
상기 표현하는 단계는, 상기 분류된 감정 정보에 따라 미리 설정된 색상 정보를 기준으로 색상값 범위에 기초하여 상기 수신된 음성 데이터에 대한 말풍선의 배경색을 조절하는 단계를 포함할 수 있다.
상기 수신하는 단계는, 인스턴트 메시지 서비스를 제공하는 메신저 또는 상기 인스턴트 메시지 서비스를 제공하는 메신저 기능이 포함된 SNS에서 송수신되는 음성 데이터 기반의 인스턴트 메시지를 수신하는 단계를 포함할 수 있다.
말풍선 표현 시스템에 의해 수행되는 음성 메시지의 말풍선 표현 방법을 실행시키기 위해 컴퓨터 판독가능한 저장 매체에 저장된 컴퓨터 프로그램은, 음성 데이터를 수신하는 단계; 상기 수신된 음성 데이터에 포함된 음향적 속성 정보를 이용하여 감정 정보를 분류하는 단계; 및 상기 분류된 감정 정보에 따라 상기 수신된 음성 데이터에 대응되는 부가 정보를 표현하는 단계를 포함할 수 있다.
말풍선 표현 시스템은, 음성 데이터를 수신하는 음성 수신부; 상기 수신된 음성 데이터에 포함된 음향적 속성 정보를 이용하여 감정 정보를 분류하는 감정 분류부; 및 상기 분류된 감정 정보에 따라 상기 수신된 음성 데이터에 대응되는 부가 정보를 표현하는 감정 표현부를 포함할 수 있다.
상기 감정 분류부는, 감정 인식을 위한 학습 모델을 이용하여 상기 수신된 음성 데이터에 대한 감정 정보를 분류하는 것을 포함하고, 상기 감정 정보는, 중립, 화남, 흥분 및 절망, 고요함, 슬픔 중 어느 하나 이상을 포함할 수 있다.
상기 감정 표현부는, 상기 수신된 음성 데이터에 대한 음향적 분석을 통해 상기 수신된 음성 데이터에 대한 음의 크기를 획득하고, 상기 획득된 음의 크기에 기초하여 말풍선 내 시그널 표시의 굵기 정보를 조절하여 상기 수신된 음성 데이터에 대한 음의 크기를 반영할 수 있다.
상기 감정 표현부는, 상기 획득된 음의 크기가 기 설정된 값 이상일 경우, 말풍선 내 시그널 표시의 굵기 정보를 두껍게 시각화할 수 있다.
상기 감정 표현부는, 상기 분류된 감정 정보에 기초하여 상기 분류된 감정 정보에 따라 미리 설정된 색상 정보를 상기 수신된 음성 데이터에 대한 말풍선의 배경색에 매핑하고, 상기 매핑된 말풍선의 배경색을 시각화할 수 있다.
상기 감정 표현부는, 상기 분류된 감정 정보에 따라 미리 설정된 색상 정보를 기준으로 색상값 범위에 기초하여 상기 수신된 음성 데이터에 대한 말풍선의 배경색을 조절할 수 있다.
상기 음성 수신부는, 인스턴트 메시지 서비스를 제공하는 메신저 또는 상기 인스턴트 메시지 서비스를 제공하는 메신저 기능이 포함된 SNS에서 송수신되는 음성 데이터 기반의 인스턴트 메시지를 수신할 수 있다.
사용자로부터 입력된 음성 메시지로부터 해석된 감정 분류에 따라 미리 설정된 색상 정보가 말풍선의 배경 정보에 입혀지고, 텍스트 대신 말풍선 내의 시그널 표시의 굵기로 음성의 크기를 반영함으로써 보다 직관적으로 사용자의 음성 데이터를 포함하는 감정 정보를 파악할 수 있다. 이에, 사용자의 개인 정보를 침해하지 않아 사용자들의 선호도가 높아질 수 있다.
음성 데이터를 텍스트 데이터로 변환하거나 문맥을 읽어내는 기술과는 달리, 음성 데이터의 음향적 속성 정보를 기반으로 말풍선의 배경색 및 말풍선 내의 시그널 표시를 변화하여 시각화함으로써 보다 단순한 연산을 통해 메신저나 SNS에 손쉽게 적용할 수 있다.
도 1은 일 실시예에 따른 말풍선 표현 시스템에서 말풍선 표현 동작을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 말풍선 표현 시스템의 구성을 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 말풍선 표현 시스템에서 음성 메시지의 말풍선 표현 방법을 설명하기 위한 흐름도이다.
도 4는 일 실시예에 있어서, 학습 모델을 이용하여 수신된 음성 데이터에 대한 감정 정보를 분류하는 동작을 설명하기 위한 예이다.
도 5는 일 실시예에 있어서, 감정 정보에 따라 말풍선을 시각화하는 것을 설명하기 위한 예이다.
도 6은 일 실시예에 있어서, 음성 메시지를 이용하여 판단된 감정 정보에 따라 말풍선을 시각화하는 것을 설명하기 위한 예이다.
도 7은 일 실시예에 있어서, 음성 메시지를 이용하여 감정을 분석하기 위한 인터페이스를 설명하기 위한 예이다.
도 8은 일 실시예에 있어서, 감정 정보를 분류하는 동작을 설명하기 위한 예이다.
도 9는 일 실시예에 있어서, 학습 모델을 이용하여 사용자의 감정을 판단하고 감정 정도를 표시하는 것을 설명하기 위한 예이다.
이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
실시예에서는 음성 메시지로 의사소통을 하는 경우에, 음성 메시지의 음향적 속성 정보에 기초하여 화자의 감정적 상태를 파악하는 동작에 대하여 설명하기로 한다. 이때, 파악된 감정적 상태에 따라 음성 메시지의 말풍선 배경색이 감정의 종류에 따라 매핑될 수 있으며, 추가적으로 목소리가 큰 경우에 말풍선 내 포함된 시그널 신호 표시가 두껍게(bold) 시각화되는 동작에 대하여 상세하게 설명하기로 한다.
도 1은 일 실시예에 따른 말풍선 표현 시스템에서 말풍선 표현 동작을 설명하기 위한 도면이다.
말풍선 표현 시스템은 사용자로부터 음성 메시지(101)가 입력됨을 수신할 수 있다. 일례로, 인스턴트 메시지 서비스를 제공하는 메신저 또는 인스턴트 메시지 서비스를 제공하는 메신저 기능이 포함된 SNS에서 동작하는 환경을 설명하기로 한다. 메신저 또는 메신저 기능이 포함된 SNS에서 사용자로부터 음성 메시지가 입력됨을 수신할 수 있고, 사용자들 간 음성 메시지가 송수신될 수 있다. 말풍선 표현 시스템은 사용자로부터 음성 메시지가 입력됨을 수신할 수 있다. 사용자는 메신저 내에서 음성 메시지를 입력할 수 있고, 또는 사용자는 SNS 내에서 음성 데이터를 통해 댓글을 포스팅할 수 있다. 이와 같이 사용자로부터 입력된 음성 메시지가 녹음될 수 있다.
도 7은 음성 메시지를 이용하여 감정을 분석하기 위한 인터페이스를 설명하기 위한 예이다. 도 7을 참고하면, 왼쪽 그림은 흥분된 감정을 타겟으로 하는 대화 시나리오를 나타낸 예이다. 사용자(참가자)는 대화를 확인하고 메시지를 녹음할 수 있다. 오른쪽 그림은 쌍별 평가 설문 조사를 나타낸 것이다. 사용자(참가자)는 자신의 목소리를 재생하고 감정 전달 및 사용 의향에 관한 현재 서비스를 비교할 수 있다.
예를 들면, 말풍선 표현 시스템은 가이드보기, 녹음보기 및 평가보기를 포함하는 인터페이스를 제공할 수 있다. 가이드보기는 작업에 대한 기본 설명을 제공할 수 있다. 사용자는 제공된 기본 설명을 확인 후에 사용자의 이름을 입력할 수 있다. 녹음보기는 음성 메시지를 전송하는데 필요한 모든 기능을 제공할 수 있다. 사용자는 녹음 내용을 자유롭게 녹음하고 재생할 수 있다. 사용자로부터 '전송하기'가 선택됨에 따라 녹음이 학습 모델로 입력될 수 있고 감정 인식이 완료될 수 있다. 평가보기는 사용자에게 기본 채팅 화면 및 말풍선의 배경색이 있는 채팅 화면을 포함하는 한 쌍의 메시지 화면을 제공할 수 있다. 사용자는 결과를 평가하기 전에 자신의 음성 메시지를 재생할 수 있다.
말풍선 표현 시스템은 사용자들이 메시지 발신자로서 서비스를 체험하고, 서비스와 비교하여 평가할 수 있는 테스트 플랫폼을 제공할 수 있다. 예를 들면, 말풍선 표현 시스템은 사용자의 음성 데이터로부터 흥분, 화남(분노), 슬픔, 고요함을 포함하는 4가지의 감정 데이터를 분류할 수 있다. 도 8을 참고하면, 쾌락과 각성은 감정의 처음 두 개의 독립적인 축이며, 각 축이 직각으로 교차됨으로써 circumplex model 모델에 따라 2차원 감정 공간이 생성될 수 있다. 그런 다음 4개의 사분면을 식별하고 흥분, 분노, 슬픔, 고요함으로 분류할 수 있다.
말풍선 표현 시스템은 테스트 플랫폼을 통해 각 감정 데이터에 대해 하나의 대화 시나리오를 생성하여 사용자들이 대화 분위기와 발신자의 감정을 명확하게 이해할 수 있도록 할 수 있다. 또한, 말풍선 표현 시스템은 테스트 플랫폼을 통해 음성 데이터와 피드백을 녹음하고 재생할 수 있다.
말풍선 표현 시스템은 음성 메시지에 대한 말풍선 색상의 감정 효과를 조사하기 위해 사용자를 연구할 수 있다. 사용자(참가자)는 메시지 발신자의 역할을 수행할 수 있다. 먼저 제공된 대화를 확인하고 메시지 발신자의 감정을 이해할 수 있다. 사용자는 녹음된 음성 메시지를 검색하고, 녹음이 만족할 때까지 다시 시도할 수 있다. 이와 같이, 음성 녹음이 수행된 후, 오른쪽 그림과 같이 기본의 채팅 메시지 화면과 말풍선의 색상이 표현된 채팅 메시지 화면이 표시될 수 있다. 사용자는 감정 전달 및 사용 의향과 관련하여 음성 메시지를 평가할 수 있다. 말풍선 표현 시스템은 리커트 척도의 각 기준 아래 양극 척도를 제안할 수 있다. 여기서, -2는 기본 버전을 확실히 선호하고, 0은 기본 버전과 말풍선 색상 버전이 동일하고, +2는 말풍선 색상을 선호하는 것을 의미한다. 말풍선 표현 시스템은 녹음된 음성 데이터와 설문 응답을 함께 보관하여 저장할 수 있다.
말풍선 표현 시스템은 음성 메시지에 대한 감정 인식(110)을 수행할 수 있다. 말풍선 표현 시스템은 감정 인식을 위한 학습 모델을 이용하여 수신된 음성 데이터에 대한 감정 정보를 분류할 수 있다. 말풍선 표현 시스템은 학습 모델을 이용하여 수신된 음성 메시지로부터 중립, 화남, 흥분, 절망, 고요함, 슬픔을 포함하는 감정 정보를 분류할 수 있다.
도 4를 참고하면, 학습 모델을 이용하여 수신된 음성 데이터에 대한 감정 정보를 분류하는 동작을 설명하기 위한 예이다. 말풍선 표현 시스템은 감정 인식을 위한 학습 모델(400)을 이용하여 음성 메시지에 대한 감정 정보를 분류할 수 있다. 이때, 학습 모델(400)은 감정 인식을 위한 데이터셋을 이용하여 학습됨으로써 구축된 것일 수 있다. 학습 모델(400)은 LSTM, CNN, DN, RNN 등 다양한 네트워크 기반의 학습 모델로 구성될 수 있다. 실시예에서는 LSTM 기반의 학습 모델(400)이라고 가정하여 설명하기로 한다. 도 9를 참고하면, LSTM 기반의 학습 모델(400)을 나타낸 도면이다.
이와 같이 구축된 학습 모델(400)에 음성 메시지가 입력될 수 있다. 말풍선 표현 시스템은 학습 모델(400)를 통해 음성 메시지에 대한 감정 정보를 분류할 수 있다. 감정 정보는 중립, 화남, 흥분 및 절망, 고요함, 슬픔 중 어느 하나 이상을 포함할 수 있다. 이외에도 감정 정보는 기쁨, 슬픔 등이 더 포함될 수 있다. 예를 들면, 사용자의 음성 메시지로부터 복수 개의 감정 정보(예를 들면, 화남과 흥분)가 인식될 수 있다. 또한, 동일한 내용의 음성 메시지일지라도 시간 정보에 따라 감정 정보가 다르게 분류될 수 있다. 사용자로부터 새벽에 입력된 음성 메시지가 낮 시간대에 입력된 음성 메시지보다 더욱 감성적일 수 있다.
음성 메시지가 학습 모델(400)에 입력됨에 따라 음성 메시지에 대한 특징 정보가 추출될 수 있고, 추출된 특징 정보에 기초하여 감정 정보가 판단될 수 있다. 음성 메시지는 openSMILE toolkit을 사용하여 특징 벡터로 변환될 수 있다. 이때, 음성 메시지로부터 음파의 세기, 음파의 높이, 음색을 포함하는 소리의 3요소에 기초하여 특징 정보가 추출될 수 있다. 또한, 소리의 3요소 이외에도 말투, 억양, 전파속도, 위상 등이 더 고려되어 특징 정보가 추출될 수도 있다. 추출된 특징 정보에 기초하여 판단된 감정 정보에 따라 색상 정보가 결정될 수 있다. 이때, 판단된 감정 정보 및 판단된 감정 정보의 값이 학습 결과로서 획득될 수 있다.
상세하게는, 예를 들면, 훈련 데이터 셋은 900개의 영어 음성 오디오 파일을 포함하는 RAVDESS의 하위 집합이 이용될 수 있다. 200개의 오디오는 '중립'을 제외하고 각 감정에 속한다. 다중 클래스 분류는 이산 가중치 추정에 사용될 수 있다. 학습 모델(400)의 출력은 복수 개의 감정 클래스에 대한 확률 분포를 제공할 수 있다. 이때, 예를 들면, 음성 메시지에 대한 감정을 강화하기 위하여 사용자마다 서로 다른 셋팅이 필요할 수 있다. 이에, 사용자 개별의 음성 조건에 기초하여 사용자마다 서로 다른 셋팅이 설정될 수 있다. 일례로, 평상시 원래 좀 졸리는 말투의 사람은 정말 발악하지 않는 이상 '절망'이라고 판단될 수 있다. 이에, 사용자마다 동일 문장을 발화하도록 하여 기준선(baseline)을 잡아준 후, 기준선보다 현격한 차이가 있는 경우, 그리고 현격한 차이 중 가장 두드러진 변화를 보이는 경우에 특정 감정인 것으로 판단할 수 있다. 예를 들면, 사용자가 음성 데이터를 입력할 때 중립적인 분위기에서 문장을 복수 번 반복하여 녹음하도록 하여, 그 평균 LSTM 판단을 기준으로 고려할 수 있다. 이에, 음성 메시지를 입력할 때 LSTM 판단을 위한 기준선과의 일치 여부를 판단에 사용할 수 있다. 말풍선 표현 시스템은 음성 메시지로부터 분류된 감정 정보를 기준선과 비교하여 감정 정보의 정도(강도 수준)을 표시할 수 있다. 기준선 변화율이 가장 큰 감정 범주를 최종 예측 결과로 간주될 수 있다. 또한, 변화율을 미리 결정된 두 개의 임계값과 비교하고 그에 따라 강도 레이블이 할당될 수 있다. 예를 들면, 변화율이 상한 임계값보다 클 경우 강도는 '높음'으로 간주될 수 있다. 이때, 훈련 데이터 셋에 따라 반복 수정을 통해 임계값이 수정될 수 있다. 여기서, 상한 임계값을 10, 하한 임계값이 0.1로 설정될 수 있다. 기본의 말풍선을 '중립'적인 감정으로 시각화하고 다른 감정의 말풍선에 색상이 추가될 수 있다. 색 구성표에 기초하여 각 감정 수준에 대해 복수 개(예를 들면, 2색) 그라데이션이 사용될 수 있다. 예를 들면, 주황색-노란색, 빨간색-갈색, 회색-파란색, 민트색-파란색의 그라이데션은 각 흥분, 분노, 슬픔, 고요함 등의 감정을 위해 선택될 수 있다. 다른 강도 수준에 대해 색상 강도가 변경되어 색상 정보가 변경될 수 있다. 하이 레벨(High-level)의 경우, 더 많은 채도 또는 대비 색상을 사용하고, 로우 레벨(Low-level)의 경우 옅은 색상이 더 많이 사용될 수 있다.
말풍선 표현 시스템은 분류된 감정 정보에 따라 수신된 음성 메시지에 대응되는 부가 정보를 표현할 수 있다. 부가 정보란, 음성 메시지와 관련하여 감정 정보를 표현하기 위한 추가적인 정보를 의미할 수 있다. 예를 들면, 감정 정보에 따라 채팅창, 메시지의 말풍선 등에 특수효과, 색상 변경, 두께 변경 등이 부가 정보로 표현될 수 있다. 말풍선 표현 시스템은 말풍선을 통해 인스턴트 메시지(음성 메시지)로부터 판단된 사용자의 감정을 강화시킬 수 있다.
말풍선 표현 시스템은 각각의 분류된 감정 정보에 대응하는 색상 정보를 수신된 음성 메시지에 대한 말풍선의 배경색에 매핑할 수 있다. 이때, 각각의 감정 정보, 즉, 중립, 화남, 흥분, 절망, 고요함, 슬픔에 대한 각각의 색상 정보가 설정되어 있을 수 있다. 더 나아가, 감정 정보에 설정된 색상 정보의 범위 내에서 감정 정보의 정도에 따라 말풍선 배경색의 색상이 조절될 수 있다. 색상 정보는 색을 구성하는 색상, 명도 및 채도를 포함할 수 있다. 또한, 말풍선 표현 시스템은 말풍선의 배경색뿐만 아니라 말풍선을 포함하는 채팅 서비스의 배경색을 변경할 수 있다. 예를 들면, 각 채팅 서비스마다 대표하는 색상이 존재할 수 있다. 말풍선 표현 시스템은 사용자의 감정을 강화시키기 위하여 채팅방의 색상 정보를 채팅 서비스를 대표하는 색상으로 변경하고, 변경된 채팅방의 색상 정보에 기초하여 말풍선의 배경색을 극대화시킬 수 있다.
예를 들면, 말풍선 표현 시스템은 음성 메시지에 대하여 분류된 감정 정보가 중립일 경우, 중립에 대응하는 말풍선의 배경색에 설정된 기본값을 반영할 수 있다. 말풍선 표현 시스템은 음성 메시지에 대하여 분류된 감정 정보가 화남일 경우, 화남에 대응되는 말풍선의 배경색으로 빨간색을 반영할 수 있다. 이때, 말풍선 표현 시스템은 말풍선의 배경색이 빨간색인지 판단할 수 있다. 말풍선 표현 시스템은 말풍선의 배경색이 빨간색이 아니라면, 선홍색(빨간색)으로 변경할 수 있고, 빨간색이라면 270°>색상>90°의 색상 정보로 반영할 수 있다. 말풍선 표현 시스템은 음성 메시지에 대하여 분류된 감정 정보가 흥분일 경우, 말풍선의 배경색을 270°>색상>90°, 채도(S)>90, 명도(L)>40을 포함하는 색상 정보로 반영할 수 있다. 말풍선 표현 시스템은 음성 메시지에 대하여 분류된 감정 정보가 절망일 경우, 채도<30, 명도<30의 색상 정보를 반영할 수 있고, 텍스트의 명도>70이면, 부정적 극성(Negative polarity)을 표현할 수 있다.
말풍선 표현 시스템은 수신된 음성 메시지에 대한 음향적 분석(120)을 수행할 수 있다. 음향적 분석(Acoustic analysis)은 발성의 질을 주파수, 강도, 시간의 측면에서 측정하여 분석하는 것으로, 말소리의 발호와 인지를 이해할 수 있게 해준다. 음향적 분석(Acoustic analysis)은 음성 데이터로부터 발생되는 음성 신호를 컴퓨터 등을 이용하여 음성 파형과 스펙트럼 및 스펙트로그램 등으로 시각화하여 이들을 분석함으로써 음성 데이터에 대한 진단과 치료에 이용하는 것을 의미한다. 예를 들면, 여러 가지 음의 물리적 성질을 나타내는 것을 주파수 분석을 이용하여 여러 가지 음의 물리적 성질이 분석될 수 있다.
예를 들면, 말풍선 표현 시스템은 수신된 음성 메시지에 대한 음의 크기, 높이, 음색 등을 포함하는 음향적 속성 정보를 이용하여 음향적 분석(120)을 수행할 수 있다. 말풍선 표현 시스템은 음향적 분석(120)을 수행한 결과, 음성 메시지에 대한 음의 크기가 기 설정된 기준 이상인지 판단할 수 있다. 말풍선 표현 시스템은 음성 메시지에 대한 음의 크기가 80dB을 초과하는지 여부를 판단할 수 있다. 말풍선 표현 시스템은 음성 메시지에 대한 음의 크기가 80dB을 초과하지 않을 경우, 말풍선 내 시그널 표시를 위한 굵기 정보에 설정된 기본값을 반영할 수 있다. 말풍선 표현 시스템은 음성 메시지에 대한 음의 크기가 80dB을 초과하는 것으로 판단됨에 따라 말풍선 내 시그널 표시의 굵기 정보를 두껍게 반영할 수 있다.
말풍선 표현 시스템은 감정 인식(110)을 통해 결정된 말풍선의 배경색 색상 정보와 음향적 분석(120)을 통해 결정된 말풍선 내 시그널 표시의 굵기 정보를 반영하여 시각화할 수 있다. 말풍선 표현 시스템은 분류된 감정 정보에 따라 미리 설정된 색상 정보를 기준으로 각 색상 정보에 설정된 색상값 범위에 기초하여 수신된 음성 메시지에 대한 말풍선의 배경색을 조절할 수 있다. 말풍선 표현 시스템은 음의 크기에 기초하여 말풍선 내 시그널 표시의 굵기 정보를 조절하여 수신된 음성 데이터에 대한 음의 크기를 반영할 수 있다.
실시예에 따르면, 메신저 또는 SNS 플랫폼에서 사용자 선택 옵션으로 말풍선 표현을 설정하도록 제공할 수 있으며 흥미를 유발할 뿐만 아니라 자신의 말투에 대한 모니터링도 할 수 있어 사용 목적에 따라 차별화된 서비스로 사용자의 관심과 편의를 유도할 수 있다.
실시예에 따르면, 음성의 내용이나 문자 메시지의 맥락적 흐름을 기반으로 사용자의 감성을 파악하는 종래의 기술과 비교하여, 개인 정보가 침해되지 않는 점이 있어 사용자들의 선호가 기대된다. 또한, 음성을 문자로 변환하거나 문맥을 읽어내는 연산과는 달리 음성의 음향적 속성 정보를 기반으로 단순한 연산을 적용할 수 있어 간단한 플랫폼에서도 손쉽게 탑재가 가능하다는 장점이 있다.
실시예에 따르면, 음향적 속성 정보의 로우 레벨(low level) 특징을 추출하여 프론트 엔드에 설치된 감정 분류 알고리즘으로부터 출력된 결과를 반영할 수 있어 적은 투자로 강한 임팩트를 기대할 수 있다.
도 5를 참고하면, 감정 정보에 따라 말풍선을 시각화하는 것을 설명하기 위한 예이다. 도 5는 A 메신저, B 메신저, C 메신저를 나타낸 예이다. 이러한 각각의 메신저는 전자 기기 내에서 동작될 수 있다. 전자 기기는 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 전자 기기의 예를 들면, 스마트폰(smart phone), 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 태블릿 PC, 게임 콘솔(game console), 웨어러블 디바이스(wearable device), IoT(internet of things) 디바이스, VR(virtual reality) 디바이스, AR(augmented reality) 디바이스, 디지털 사이니지 등이 있다. 전자 기기는 무선 또는 유선 통신 방식을 이용하여 네트워크를 통해 다른 전자 기기들 및/또는 서버와 통신할 수 있다. 전자 기기에서 메신저 또는 메신저 기능을 포함하는 SNS 어플리케이션이 실행되거나, 메신저 또는 SNS플랫폼을 통해 메신저 또는 SNS이 구동될 수 있고, 구동되는 메신저 또는 SNS 내에서 메시지를 송수신할 수 있게 된다.
각 메신저에서 송수신되는 음성 메시지를 통해 분류된 감정 정보에 따라 말풍선이 시각화될 수 있다. 감정 정보에 포함된 중립, 흥분, 화남, 절망, 고요함, 슬픔에 대응하는 색상 정보가 말풍선의 배경색에 시각화될 수 있고, 음성 메시지의 음의 크기에 따라 말풍선 내 시그널 표시의 굵기 정보가 조절되어 시각화될 수 있다. 이때, 각 메신저에 따라 감정 정보에 대응하는 색상 정보, 음의 크기에 따른 굵기 정보를 다르게 설정하여 말풍선의 배경색 및 말풍선 내 시그널 표시를 다르게 시각화할 수 있다. 예를 들면, 사용자는 각 메신저에서 제공되는 편집 정보에 기초하여 사용자가 원하는 시그널 표시(UI)를 선택할 수 있고, 선택된 시그널 표시가 말풍선 내에 표시되도록 설정할 수 있다. 이때, 시그널 표시는 다양한 형태로 리스트화될 수 있으며, 이 중 사용자가 시그널 표시를 선택할 수 있다. 또는, 사용자가 시그널 표시를 그릴 수도 있다. 또한, 사용자는 각 메신저 또는 사용자마다 감정 정보에 대응하는 색상 정보를 다르게 설정할 수 있다. 예를 들면, A사용자는 화남에 빨간색으로 설정할 수 있고, B 사용자는 흥분에 빨간색으로 설정할 수 있다. 또는, A 사용자는 A메신저에서 화남에 빨간색, B메신저에서 흥분에 빨간색으로 설정할 수도 있다. 이와 같이, 편집 정보는 사용자에 의해 변경될 수 있다.
도 6를 참고하면, 음성 메시지를 이용하여 판단된 감정 정보에 따라 말풍선을 시각화하는 것을 설명하기 위한 예이다.
예를 들면, 메신저 내 채팅방을 통해 1:1, 1:N으로 음성 메시지 또는 텍스트 메시지가 송수신될 수 있다. 이러한 채팅방에 적어도 하나 이상의 멤버가 구성될 수 있다. 메신저 내의 채팅방은 일반 채팅방, 비밀 채팅방, 오픈 채팅방 등을 포함할 수 있다. 이러한 메신저 내 채팅방에서 사용자의 상황에 따라 음성 메시지 또는 텍스트 메시지가 혼용되어 입력될 수 있다.
말풍선 표현 시스템은 수신된 음성 데이터를 텍스트 데이터로 표현하는 대신, 말풍선을 시각화할 수 있다. 말풍선 시스템은 수신된 음성 데이터로부터 분류된 감정 정보에 따라 미리 설정된 색상 정보를 수신된 음성 메시지에 대한 말풍선의 배경색에 매핑하고, 매핑된 말풍선의 배경색을 시각화할 수 있다. 말풍선 표현 시스템은 수신된 음성 메시지의 음의 크기에 따라 말풍선 내 시그널 표시의 두께를 시각화할 수 있다.
사용자 이외의 상대방 사용자(채팅방의 다른 멤버)는 사용자의 음성 메시지에 대하여 표시된 말풍선의 배경색 및 말풍선 내 시그널 표시에 기초하여 음성 메시지를 듣지 않아도, 사용자의 감정 정보를 파악할 수 있다. 상대방 사용자도 음성 메시지 또는 텍스트 메시지(이모티콘)로 응답할 수 있다. 이때, 상대방 사용자로부터 텍스트 메시지가 입력됨에 따라, 텍스트 메시지가 음성 메시지로 생성될 수 있으며, 텍스트 데이터 또는 음성 메시지의 분석을 통해 분류된 감정 정보에 설정된 색상 정보에 대응되는 감정이 음성 메시지에 반영될 수 있다.
도 2는 일 실시예에 따른 말풍선 표현 시스템의 구성을 설명하기 위한 블록도이고, 도 3은 일 실시예에 따른 말풍선 표현 시스템에서 음성 메시지의 말풍선 표현 방법을 설명하기 위한 흐름도이다.
말풍선 표현 시스템(100)의 프로세서는 음성 수신부(210), 감정 분류부(220) 및 감정 표현부(230)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 말풍선 표현 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 3의 음성 메시지의 말풍선 표현 방법이 포함하는 단계들(310 내지 330)을 수행하도록 말풍선 표현 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.
프로세서는 음성 메시지의 말풍선 표현 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 말풍선 표현 시스템에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 말풍선 표현 시스템을 제어할 수 있다. 이때, 음성 수신부(210), 감정 분류부(220) 및 감정 표현부(230) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(310 내지 330)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.
단계(310)에서 음성 수신부(210)는 음성 데이터를 수신할 수 있다. 예를 들면, 음성 수신부(210)는 현재 화자로부터 발화되는 음성 데이터가 입력됨을 수신하거나, 과거에 화자에 의해 녹음된 음성 데이터가 입력됨을 수신할 수 있다. 일례로, 메신저에서 사용자들이 음성 데이터를 통해 메시지를 송수신할 수 있다. 이때, 사용자가 실시간으로 음성 데이터를 입력함에 따라 음성 데이터가 생성되어 상대방 사용자에게 전달될 수 있다. 또는, 사용자는 전자 기기에 사전에 녹음된 음성 데이터를 선택함에 따라 음성 데이터가 생성되어 상대방 사용자에게 전달될 수 있다. 음성 수신부(210)는 인스턴트 메시지 서비스를 제공하는 메신저 또는 인스턴트 메시지 서비스를 제공하는 메신저 기능이 포함된 SNS에서 송수신되는 음성 데이터 기반의 인스턴트 메시지를 수신할 수 있다. 이러한 메신저 또는 SNS에서 송수신된 음성 데이터는 기 설정된 기간 이후에는 삭제될 수 있다.
단계(320)에서 감정 분류부(220)는 수신된 음성 데이터에 포함된 음향적 속성 정보를 이용하여 감정 정보를 분류할 수 있다. 감정 분류부(220)는 감정 인식을 위한 학습 모델을 이용하여 수신된 음성 데이터에 대한 감정 정보를 분류할 수 있다. 예를 들면, 말풍선 표현 시스템은 1차적으로 음성 메시지로부터 긍정 감정 또는 부정 감정을 분류할 수 있고, 분류된 긍정 감정 또는 부정 감정에 기초하여 2차적으로 중립, 화남, 흥분 및 절망, 고요함, 슬픔, 기쁨, 슬픔 등의 감정 정보를 판단할 수 있다.
단계(330)에서 감정 표현부(230)는 분류된 감정 정보에 따라 수신된 음성 데이터에 대응하는 부가 정보를 표현할 수 있다. 감정 표현부(230)는 수신된 음성 데이터에 대한 음향적 분석을 통해 수신된 음성 데이터에 대한 음의 크기를 획득하고, 획득된 음의 크기에 기초하여 말풍선 내 시그널 표시의 굵기 정보를 조절하여 수신된 음성 데이터에 대한 음의 크기를 반영할 수 있다. 감정 표현부(230)는 획득된 음의 크기가 기 설정된 값 이상일 경우, 말풍선 내 시그널 표시의 굵기 정보를 두껍게 시각화할 수 있다. 감정 표현부(230)는 분류된 감정 정보에 기초하여 분류된 감정 정보에 따라 미리 설정된 색상 정보를 상기 수신된 음성 메시지에 대한 말풍선의 배경색에 매핑하고, 매핑된 말풍선의 배경색을 시각화할 수 있다. 감정 표현부(230)는 분류된 감정 정보에 따라 미리 설정된 색상 정보를 기준으로 색상값 범위에 기초하여 수신된 음성 메시지에 대한 말풍선의 배경색을 조절할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (15)

  1. 말풍선 표현 시스템에 의해 수행되는 음성 메시지의 말풍선 표현 방법에 있어서,
    음성 데이터를 수신하는 단계;
    상기 수신된 음성 데이터에 포함된 음향적 속성 정보를 이용하여 감정 정보를 분류하는 단계; 및
    상기 분류된 감정 정보에 따라 상기 수신된 음성 데이터에 대응되는 부가 정보를 표현하는 단계
    를 포함하고,
    상기 음향적 속성 정보는, 음의 크기, 음의 높이, 음색을 포함하고,
    상기 음성 데이터를 수신하는 단계는,
    상기 수신된 음성 메시지를 이용하여 감정 정보를 분석하기 위해 제공된 인터페이스를 통해 상기 수신된 음성 메시지를 재생하여 사용자의 감정 전달 및 의향과 관련하여 사용자의 피드백을 반영하는 단계
    를 포함하고,
    상기 감정 정보를 분류하는 단계는,
    감정 인식을 위한 학습 모델을 이용하여 상기 수신된 음성 데이터에 대한 감정 정보를 분류하는 단계
    를 포함하고,
    상기 학습 모델은,
    상기 수신된 음성 메시지로부터 분류된 감정 정보가 사용자의 기준선과 비교되어 상기 분류된 감정 정보의 정도가 도출되도록 구축된 것으로, 사용자마다 중립 감정으로 동일 문장이 복수 번 반복하여 발화되도록 하여 학습 결과를 판단하기 위한 사용자의 기준선을 설정하고, 상기 설정된 사용자의 기준선을 기준으로 상기 수신된 음성 메시지가 기 설정된 기준 이상의 변화를 보이는 경우 상기 수신된 음성 메시지로부터 추출된 특징 정보에 기초하여 인식된 감정 정보가 분류되도록 학습된 것이고,
    상기 표현하는 단계는,
    상기 분류된 감정 정보의 감성 수준에 대해 색 구성표에 기초하여 색상, 명도 및 채도를 포함하는 복수 개의 색상 정보의 그라데이션을 사용하여 말풍선 색상 및 말풍선 내 시그널 표시의 두께 변화를 시각화하여 상기 수신된 음성 메시지에 내포된 감정적 특징을 표현하는 단계
    를 포함하는 음성 메시지의 말풍선 표현 방법.
  2. 제1항에 있어서,
    상기 감정 정보는, 중립, 화남, 흥분 및 절망, 고요함, 슬픔 중 어느 하나 이상을 포함하는
    것을 특징으로 하는 음성 메시지의 말풍선 표현 방법.
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 표현하는 단계는,
    상기 수신된 음성 데이터에 대한 음향적 분석을 통해 상기 수신된 음성 데이터에 대한 음의 크기를 획득하고, 상기 획득된 음의 크기에 기초하여 말풍선 내 시그널 표시의 굵기 정보를 조절하여 상기 수신된 음성 데이터에 대한 음의 크기를 반영하는 단계
    를 포함하는 음성 메시지의 말풍선 표현 방법.
  6. 제5항에 있어서,
    상기 표현하는 단계는,
    상기 획득된 음의 크기가 기 설정된 값 이상일 경우, 말풍선 내 시그널 표시의 굵기 정보를 두껍게 시각화하는 단계
    를 포함하는 음성 메시지의 말풍선 표현 방법.
  7. 제1항에 있어서,
    상기 표현하는 단계는,
    상기 분류된 감정 정보에 기초하여 상기 분류된 감정 정보에 따라 미리 설정된 색상 정보를 상기 수신된 음성 데이터에 대한 말풍선의 배경색에 매핑하고, 상기 매핑된 말풍선의 배경색을 시각화하는 단계
    를 포함하는 음성 메시지의 말풍선 표현 방법.
  8. 제7항에 있어서,
    상기 표현하는 단계는,
    상기 분류된 감정 정보에 따라 미리 설정된 색상 정보를 기준으로 색상값 범위에 기초하여 상기 수신된 음성 데이터에 대한 말풍선의 배경색을 조절하는 단계
    를 포함하는 음성 메시지의 말풍선 표현 방법.
  9. 제1항에 있어서,
    상기 수신하는 단계는,
    인스턴트 메시지 서비스를 제공하는 메신저 또는 상기 인스턴트 메시지 서비스를 제공하는 메신저 기능이 포함된 SNS에서 송수신되는 음성 데이터 기반의 인스턴트 메시지를 수신하는 단계
    를 포함하는 음성 메시지의 말풍선 표현 방법.
  10. 말풍선 표현 시스템에 의해 수행되는 음성 메시지의 말풍선 표현 방법을 실행시키기 위해 컴퓨터 판독가능한 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
    음성 데이터를 수신하는 단계;
    상기 수신된 음성 데이터에 포함된 음향적 속성 정보를 이용하여 감정 정보를 분류하는 단계; 및
    상기 분류된 감정 정보에 따라 상기 수신된 음성 데이터에 대응되는 부가 정보를 표현하는 단계
    를 포함하고,
    상기 음향적 속성 정보는, 음의 크기, 음의 높이, 음색을 포함하고,
    상기 음성 데이터를 수신하는 단계는,
    상기 수신된 음성 메시지를 이용하여 감정 정보를 분석하기 위해 제공된 인터페이스를 통해 상기 수신된 음성 메시지를 재생하여 사용자의 감정 전달 및 의향과 관련하여 사용자의 피드백을 반영하는 단계
    를 포함하고,
    상기 감정 정보를 분류하는 단계는,
    감정 인식을 위한 학습 모델을 이용하여 상기 수신된 음성 데이터에 대한 감정 정보를 분류하는 단계
    를 포함하고,
    상기 학습 모델은,
    상기 수신된 음성 메시지로부터 분류된 감정 정보가 사용자의 기준선과 비교되어 상기 분류된 감정 정보의 정도가 도출되도록 구축된 것으로, 사용자마다 중립 감정으로 동일 문장이 복수 번 반복하여 발화되도록 하여 학습 결과를 판단하기 위한 사용자의 기준선을 설정하고, 상기 설정된 사용자의 기준선을 기준으로 상기 수신된 음성 메시지가 기 설정된 기준 이상의 변화를 보이는 경우 상기 수신된 음성 메시지로부터 추출된 특징 정보에 기초하여 인식된 감정 정보가 분류되도록 학습된 것이고,
    상기 표현하는 단계는,
    상기 분류된 감정 정보의 감성 수준에 대해 색 구성표에 기초하여 색상, 명도 및 채도를 포함하는 복수 개의 색상 정보의 그라데이션을 사용하여 말풍선 색상 및 말풍선 내 시그널 표시의 두께 변화를 시각화하여 상기 수신된 음성 메시지에 내포된 감정적 특징을 표현하는 단계
    를 포함하는 컴퓨터 판독 가능한 저장매체에 저장된 컴퓨터 프로그램.
  11. 말풍선 표현 시스템에 있어서,
    음성 데이터를 수신하는 음성 수신부;
    상기 수신된 음성 데이터에 포함된 음향적 속성 정보를 이용하여 감정 정보를 분류하는 감정 분류부; 및
    상기 분류된 감정 정보에 따라 상기 수신된 음성 데이터에 대응되는 부가 정보를 표현하는 감정 표현부
    를 포함하고,
    상기 음향적 속성 정보는, 음의 크기, 음의 높이, 음색을 포함하고,
    상기 음성 수신부는,
    상기 수신된 음성 메시지를 이용하여 감정 정보를 분석하기 위해 제공된 인터페이스를 통해 상기 수신된 음성 메시지를 재생하여 사용자의 감정 전달 및 의향과 관련하여 사용자의 피드백을 반영하는 것을 포함하고,
    상기 감정 분류부는,
    감정 인식을 위한 학습 모델을 이용하여 상기 수신된 음성 데이터에 대한 감정 정보를 분류하는 것을 포함하고,
    상기 학습 모델은,
    상기 수신된 음성 메시지로부터 분류된 감정 정보가 사용자의 기준선과 비교되어 상기 분류된 감정 정보의 정도가 도출되도록 구축된 것으로, 사용자마다 중립 감정으로 동일 문장이 복수 번 반복하여 발화되도록 하여 학습 결과를 판단하기 위한 사용자의 기준선을 설정하고, 상기 설정된 사용자의 기준선을 기준으로 상기 수신된 음성 메시지가 기 설정된 기준 이상의 변화를 보이는 경우 상기 수신된 음성 메시지로부터 추출된 특징 정보에 기초하여 인식된 감정 정보가 분류되도록 학습된 것이고,
    상기 감정 표현부는,
    상기 분류된 감정 정보의 감성 수준에 대해 색 구성표에 기초하여 색상, 명도 및 채도를 포함하는 복수 개의 색상 정보의 그라데이션을 사용하여 말풍선 색상 및 말풍선 내 시그널 표시의 두께 변화를 시각화하여 상기 수신된 음성 메시지에 내포된 감정적 특징을 표현하는 것
    을 포함하는 말풍선 표현 시스템.
  12. 제11항에 있어서,
    상기 감정 정보는, 중립, 화남, 흥분 및 절망, 고요함, 슬픔 중 어느 하나 이상을 포함하는
    것을 특징으로 하는 말풍선 표현 시스템.
  13. 제11항에 있어서,
    상기 감정 표현부는,
    상기 수신된 음성 데이터에 대한 음향적 분석을 통해 상기 수신된 음성 데이터에 대한 음의 크기를 획득하고, 상기 획득된 음의 크기에 기초하여 말풍선 내 시그널 표시의 굵기 정보를 조절하여 상기 수신된 음성 데이터에 대한 음의 크기를 반영하고, 상기 획득된 음의 크기가 기 설정된 값 이상일 경우, 말풍선 내 시그널 표시의 굵기 정보를 두껍게 시각화하는
    것을 특징으로 하는 말풍선 표현 시스템.
  14. 제11항에 있어서,
    상기 감정 표현부는,
    상기 분류된 감정 정보에 기초하여 상기 분류된 감정 정보에 따라 미리 설정된 색상 정보를 상기 수신된 음성 데이터에 대한 말풍선의 배경색에 매핑하고, 상기 매핑된 말풍선의 배경색을 시각화하고, 상기 분류된 감정 정보에 따라 미리 설정된 색상 정보를 기준으로 색상값 범위에 기초하여 상기 수신된 음성 데이터에 대한 말풍선의 배경색을 조절하는
    것을 특징으로 하는 말풍선 표현 시스템.
  15. 제11항에 있어서,
    상기 음성 수신부는,
    인스턴트 메시지 서비스를 제공하는 메신저 또는 상기 인스턴트 메시지 서비스를 제공하는 메신저 기능이 포함된 SNS에서 송수신되는 음성 데이터 기반의 인스턴트 메시지를 수신하는
    것을 특징으로 하는 말풍선 표현 시스템.
KR1020210035129A 2021-03-18 2021-03-18 목소리에 기반한 감정 분류가 반영된 음성 메시지의 말풍선 표현 방법 및 시스템 KR102583986B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210035129A KR102583986B1 (ko) 2021-03-18 2021-03-18 목소리에 기반한 감정 분류가 반영된 음성 메시지의 말풍선 표현 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210035129A KR102583986B1 (ko) 2021-03-18 2021-03-18 목소리에 기반한 감정 분류가 반영된 음성 메시지의 말풍선 표현 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20220130353A KR20220130353A (ko) 2022-09-27
KR102583986B1 true KR102583986B1 (ko) 2023-10-06

Family

ID=83452251

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210035129A KR102583986B1 (ko) 2021-03-18 2021-03-18 목소리에 기반한 감정 분류가 반영된 음성 메시지의 말풍선 표현 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102583986B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111106995A (zh) * 2019-12-26 2020-05-05 腾讯科技(深圳)有限公司 一种消息显示方法、装置、终端及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101916107B1 (ko) * 2011-12-18 2018-11-09 인포뱅크 주식회사 통신 단말 및 그 통신 단말의 정보처리 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111106995A (zh) * 2019-12-26 2020-05-05 腾讯科技(深圳)有限公司 一种消息显示方法、装置、终端及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Venkataramanan, Kannan, and Haresh Rengaraj Rajamohan, Emotion recognition from speech, arXiv preprint arXiv:1912.10458, 2019*

Also Published As

Publication number Publication date
KR20220130353A (ko) 2022-09-27

Similar Documents

Publication Publication Date Title
CN110473525B (zh) 获取语音训练样本的方法和装置
US10726836B2 (en) Providing audio and video feedback with character based on voice command
CN108962282A (zh) 语音检测分析方法、装置、计算机设备及存储介质
JP2019527371A (ja) 声紋識別方法及び装置
JP7283496B2 (ja) 情報処理方法、情報処理装置およびプログラム
KR20160108348A (ko) 흉내 및 풍부한 멀티미디어로 응답하는 디지털 개인용 어시스턴트 상호작용 기법
US11398218B1 (en) Dynamic speech output configuration
US11511200B2 (en) Game playing method and system based on a multimedia file
US10104227B2 (en) Automatically altering characteristics of audio alerts
KR20100129122A (ko) 텍스트 기반 데이터를 애니메이션으로 재생하는 애니메이션 시스템
JP2021101252A (ja) 情報処理方法、情報処理装置およびプログラム
CN111739556A (zh) 一种语音分析的系统和方法
US10692498B2 (en) Question urgency in QA system with visual representation in three dimensional space
CN115083434A (zh) 一种情绪识别方法、装置、计算机设备及存储介质
KR102583986B1 (ko) 목소리에 기반한 감정 분류가 반영된 음성 메시지의 말풍선 표현 방법 및 시스템
CN112883181A (zh) 会话消息的处理方法、装置、电子设备及存储介质
US11238846B2 (en) Information processing device and information processing method
US20220319516A1 (en) Conversation method, conversation system, conversation apparatus, and program
JP2018049140A (ja) 音声分析プログラム、音声分析装置、及び音声分析方法
CN111445925A (zh) 用于生成差异信息的方法和装置
EP3846164B1 (en) Method and apparatus for processing voice, electronic device, storage medium, and computer program product
US11857877B2 (en) Automatic in-game subtitles and closed captions
WO2023019517A1 (zh) 推荐指令的方法及其装置
KR101785686B1 (ko) 사용자 맞춤형 외국어 학습 방법 및 이를 실행하는 서버
KR20230143808A (ko) 음성 기록을 시각화하여 재연하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)