KR102073979B1 - 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 서버 및 방법 - Google Patents

음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 서버 및 방법 Download PDF

Info

Publication number
KR102073979B1
KR102073979B1 KR1020190055563A KR20190055563A KR102073979B1 KR 102073979 B1 KR102073979 B1 KR 102073979B1 KR 1020190055563 A KR1020190055563 A KR 1020190055563A KR 20190055563 A KR20190055563 A KR 20190055563A KR 102073979 B1 KR102073979 B1 KR 102073979B1
Authority
KR
South Korea
Prior art keywords
emotional
user terminal
diary
text
voice data
Prior art date
Application number
KR1020190055563A
Other languages
English (en)
Other versions
KR20190108523A (ko
Inventor
윤준호
Original Assignee
윤준호
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤준호 filed Critical 윤준호
Priority to KR1020190055563A priority Critical patent/KR102073979B1/ko
Publication of KR20190108523A publication Critical patent/KR20190108523A/ko
Application granted granted Critical
Publication of KR102073979B1 publication Critical patent/KR102073979B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법이 제공되며, 사용자 단말로부터 일기를 작성하는 음성 데이터를 수신하는 단계, 음성 데이터가 수신된 사용자 단말의 위치정보, 사용자 단말이 위치한 장소의 날씨정보 및 사용자 단말에서 촬영한 사진 및 동영상을 추출하는 단계, 수신된 음성 데이터를 실시간으로 스트리밍받아 STT(Speech To Text)를 통하여 실시간으로 텍스트 변환을 실시하여 사용자 단말의 감성일기 레이아웃 내에 출력시키는 단계, 음성 데이터의 수신이 종료되는 경우, 음성 데이터의 음성 신호로부터 감정상태를 분석하는 단계, 및 분석된 감정상태에 대한 정보를 사용자 단말의 감성분석 결과 레이아웃 내에 출력시키는 단계를 포함한다.

Description

음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 서버 및 방법{SERVER AND METHOD FOR PROVIDING FEELING ANALYSIS BASED EMOTIONAL DIARY SERVICE USING ARTIFICIAL INTELLIGENCE BASED ON SPEECH SIGNAL}
본 발명은 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법에 관한 것으로, 감성어휘 텍스트와 음성신호를 분석하여 일기를 기록함과 동시에 사용자의 감정상태를 분석하여 공감 콘텐츠를 제공할 수 있는 방법을 제공한다.
최근 컴퓨팅 기술의 발전으로 컴퓨터의 형태는 점점 소형화되었고, 항상 지니고 다닐 수 있는 각종 웨어러블 디바이스들이 생겨났는데, 컴퓨터의 형태가 변함에 따라서 필요한 휴먼 인터랙션 작용의 종류도 다양해 졌고, 다양한 지능형 서비스가 요구되고 있으며, 지능형 서비스를 위한 인공지능에 관한 연구가 활발하게 진행되면서 사람의 감정정보를 기기가 인식하여 사람과 적절한 인터랙션 작용을 하는 것 또한 중요해지고 있다. 인간은 상대방에게 자신의 감정을 얼굴표정, 음성, 몸짓 등을 통한 다양한 방법으로 표현하는 이유로 영상, 음성, 생체신호 등의 매체를 통해 인간의 감정정보를 인식, 판별하기 위한 여러 분야에서의 연구가 활발히 진행되고 있다.
이때, 감정콘텐츠를 제공하는 방법은 일기의 텍스트 형태의 콘텐츠 내용을 단어별로 구분하여 각 단락에 감정 레벨을 계산하는 방법으로 이루어지는데, 이와 관련하여, 선행기술인 한국공개특허 제2009-0017149호(2009년02월18일 공개)에는, 온라인 신문기사, 메일 또는 일기 등 텍스트 형태의 콘텐츠의 내용을 텍스트 형태로 저장하고, 저장된 내용을 단어별로 구분하여 각 단락에 감정 레벨(평가)과 관계되는 각 단어를 추출하며, 각 단어와 일치하는 단어에 대하여 저장된 단어 데이터를 찾아 각 단어에 대한 감정값을 읽어 들어 단락별로 단락의 감정수치를 계산한 후, 다양한 형태의 아바타를 가입자에게 제공하는 구성이 개시되어 있다.
다만, 상술한 구성을 이용한다고 할지라도 일기는 텍스트로 사용자가 자판을 통하여 직접 입력하여야 하며, 텍스트를 분석하여 감정을 추정한다고 할지라도 이는 추정에 그칠 뿐, 그 정확도가 높지 않다. 또한, 음성신호를 통하여 감정을 분석하는 방법에 대하여 전혀 개시되어 있지 않고, 음성신호만을 이용한다고 할지라도 텍스트와의 의미관계를 복합하여 분석하지 않는 한 그 정확도는 현저히 떨어져 사용자가 일기쓰기를 기피하는 요인으로 작용하게 할 뿐이다.
본 발명의 일 실시예는, 음성을 통하여 일기를 쓰도록 함과 동시에, 음성을 텍스트로 변환한 후 그 의미를 감정어휘분석을 통하여 파악하고, 정확도를 높이기 위하여 음성의 피치를 특징벡터로 커스터마이징함으로써 사용자의 감정을 소리와 의미단어를 통하여 정확하게 분석하고, 분석된 결과를 이용하여 사용자의 감정 상태를 공감하는 코멘트와 추천 콘텐츠를 제공함으로써 사용자는 일기를 기록으로 남기는 것 뿐만 아니라, 공감작용(Sympathy Function)으로 인간의 희노애락을 나눌 수 있는 감성일기를 제공할 수 있는, 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 사용자 단말로부터 음성녹음이 시작되는 경우, 감지되는 음성을 실시간으로 스트리밍받아 실시간으로 텍스트로 변환하도록 제어하고, 변환된 텍스트 및 음성과 텍스트로부터 분석된 감정상태를 사용자 단말로 실시간으로 전송하는 RTM(Real-Time Text Middleware), RTM으로부터 음성을 실시간으로 텍스트로 변환하도록 제어하는 명령을 수신하면, 스트리밍된 음성을 텍스트로 변환하는 모듈인 STT(Speech To Text), 및 STT로부터 변환된 텍스트 및 음성을 통하여 분석되어 텍스트화된 분석 텍스트를 음성으로 실시간으로 변환하는 TTS(Text To Speech)를 포함하는 모듈인 IVR(Interactive Voice Response)을 포함한다. 이때, 사용자 단말에서 음성녹음을 시작하는 위치, 날씨, 음성녹음이 시작된 날짜에 촬영된 사진 및 동영상은, 사용자 단말의 감성일기 페이지에 삽입되도록 제어되는 것을 특징으로 한다.
본 발명의 다른 실시예는, 사용자 단말로부터 일기를 작성하는 음성 데이터를 수신하는 단계, 음성 데이터가 수신된 사용자 단말의 위치정보, 사용자 단말이 위치한 장소의 날씨정보 및 사용자 단말에서 촬영한 사진 및 동영상을 추출하는 단계, 수신된 음성 데이터를 실시간으로 스트리밍받아 STT(Speech To Text)를 통하여 실시간으로 텍스트 변환을 실시하여 사용자 단말의 감성일기 레이아웃 내에 출력시키는 단계, 음성 데이터의 수신이 종료되는 경우, 음성 데이터의 음성 신호로부터 감정상태를 분석하는 단계, 및 분석된 감정상태에 대한 정보를 사용자 단말의 감성분석 결과 레이아웃 내에 출력시키는 단계를 포함한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 음성을 통하여 일기를 쓰도록 함과 동시에, 음성을 텍스트로 변환한 후 그 의미를 감정어휘분석을 통하여 파악하고, 정확도를 높이기 위하여 음성의 피치를 특징벡터로 커스터마이징함으로써 사용자의 감정을 소리와 의미단어를 통하여 정확하게 분석하고, 분석된 결과를 이용하여 사용자의 감정 상태를 공감하는 코멘트와 추천 콘텐츠를 제공함으로써 사용자는 일기를 기록으로 남기는 것 뿐만 아니라, 공감작용(Sympathy Function)으로인간의 희노애락을 나눌 수 있는 감성일기를 제공할 수 있어 사용자의 감성품질을 높일 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 감성일기 서비스 제공 서버를 설명하기 위한 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스가 구현된 다른 실시예를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 도 1의 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다.
도 6는 본 발명의 일 실시예에 따른 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.
본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Matching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 시스템을 설명하기 위한 도면이다. 도 1을 참조하면, 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 시스템(1)은, 사용자 단말(100), 감성일기 서비스 제공 서버(300), 적어도 하나의 콘텐츠 제공 서버(400)를 포함할 수 있다. 다만, 이러한 도 1의 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통하여 본 발명이 한정 해석되는 것은 아니다.
이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 사용자 단말(100)은 네트워크(200)를 통하여 감성일기 서비스 제공 서버(300)와 연결될 수 있다. 그리고, 감성일기 서비스 제공 서버(300)는, 네트워크(200)를 통하여 사용자 단말(100), 적어도 하나의 콘텐츠 제공 서버(400)와 연결될 수 있다. 또한, 적어도 하나의 콘텐츠 제공 서버(400)는, 네트워크(200)를 통하여 감성일기 서비스 제공 서버(300)와 연결될 수 있다.
여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 RF, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5GPP(5rd Generation Partnership Project) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, NFC 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.
하기에서, 적어도 하나의 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경가능하다 할 것이다.
사용자 단말(100)은, 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 감성일기를 작성하는 사용자의 단말일 수 있다. 또한, 사용자 단말(100)은, 감성일기 작성을 위하여 마이크를 구동시키고, 구동된 마이크를 통하여 녹음 또는 감지되는 음성신호를 감성일기 서비스 제공 서버(300)로 실시간 스트리밍하며, 스트리밍된 음성신호를 텍스트로 분석 및 감정분석을 감성일기 서비스 제공 서버(300)로부터 수신하여 출력하는 단말일 수 있다. 또한, 사용자 단말(100)은, 감성일기 서비스 제공 서버(300)로부터 인공지능에 의해 분석된 감정 및 사용자의 취향을 반영한 콘텐츠를 수신하여 출력하는 단말일 수 있다. 그리고, 사용자 단말(100)은, 사용자의 필기체를 감성일기 서비스 제공 서버(300)로 전송하여 학습하도록 하고, 학습된 결과로 생성된 사용자의 필기체로 텍스트를 출력하는 단말일 수 있다.
여기서, 사용자 단말(100)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 사용자 단말(100)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 사용자 단말(100)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
감성일기 서비스 제공 서버(300)는, 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다. 그리고, 감성일기 서비스 제공 서버(300)는, 사용자 단말(100)로부터 음성신호를 스트리밍받고, 스트리밍받은 음성신호를 텍스트로 변환하고, 음성신호의 피치 등을 분석하여 감정상태를 출력하고, 자연어로 이루어진 텍스트를 분석하여 음성신호의 감정상태의 결과값을 조정하는 서버일 수 있다. 또한, 감성일기 서비스 제공 서버(300)는, 콘텐츠 제공 서버(400)로부터 콘텐츠를 수신하고, 사용자의 감정상태에 따라 추천 콘텐츠를 필터링하되, 사용자의 취향을 반영하여 추천 콘텐츠를 필터링하고, 필터링된 추천 콘텐츠를 사용자 단말(100)에서 출력될 수 있도록 사용자 단말(100)로 전송하는 서버일 수 있다.
여기서, 감성일기 서비스 제공 서버(300)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.
적어도 하나의 콘텐츠 제공 서버(400)는, 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하는 콘텐츠를 감성일기 서비스 제공 서버(300)로 전송하는 서버일 수 있다. 또한, 적어도 하나의 콘텐츠 서버(400)는, 사용자 단말(100)에서 주문 또는 구매 등의 결제 이벤트가 발생한 경우, 결제 이벤트에 대응하는 발주 데이터를 생성하여 주문을 하는 서버일 수 있다. 그리고, 적어도 하나의 콘텐츠 서버(400)는, 주문 결과에 정보를 사용자 단말(100)로 전송하거나, 결제한 콘텐츠가 사용자 단말(100)에서 출력될 수 있도록 콘텐츠를 제공하는 서버일 수 있다.
여기서, 적어도 하나의 콘텐츠 제공 서버(400)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.
도 2는 도 1의 시스템에 포함된 감성일기 서비스 제공 서버를 설명하기 위한 블록 구성도이고, 도 3은 본 발명의 일 실시예에 따른 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스가 구현된 일 실시예를 설명하기 위한 도면이고, 도 4는 본 발명의 일 실시예에 따른 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스가 구현된 다른 실시예를 설명하기 위한 도면이다.
도 2를 참조하면, (a) 감성일기 서비스 제공 서버(300)는, RTM(Real-Time Text Middleware, 310), STT(Speech To Text, 311), 챗봇(312), TA(Text Analytics, 313), TTS(Text To Speech, 314), IVR(Interactive Voice Response, 315), 광고 API(316)를 포함할 수 있다.
RTM(310)은, 사용자 단말(100)로부터 음성녹음이 시작되는 경우, 녹음 또는 감지되는 음성을 실시간으로 스트리밍받아 실시간으로 텍스트로 변환하도록 제어하고, 변환된 텍스트 및 음성과 텍스트로부터 분석된 감정상태를 사용자 단말(100)로 실시간으로 전송할 수 있다. 이때, RTM(310)은, 사용자 단말(100)로부터 음성 신호가 스트리밍되는 경우, 스트리밍되는 데이터를 컴퓨터와 결합하여 효율적으로 분산 및 관리한다.
STT(311)는, RTM(310)으로부터 음성을 실시간으로 텍스트로 변환하도록 제어하는 명령을 수신하면, 스트리밍된 음성을 텍스트로 변환하는 모듈일 수 있다. 이때, STT(311)는, RTM(310)에서 보이스 신호를 최적화시키게 되므로 높은 인식률로 음성신호를 텍스트로 변환할 수 있게 된다.
챗봇(312)은, STT(311)로부터 변환된 텍스트에 대응하는 감정 분석 내용에 대한 응답을 텍스트로 RTM(310)으로 전송할 수 있다. 이때, 챗봇(312)은, 자체적(Back-end)으로 인공지능을 통해 사용자의 감정을 분석한 뒤 앱 또는 웹(Front-end)으로 서비스를 제공하고, 메세지 트래픽을 처리하기 위하여 하둡 등과 같은 분산 컴퓨팅 환경을 이용할 수도 있으며, 챗봇(312)에서는 사용자의 감정에 적절한 응답 또는 코멘트를 제공하기 위해 자연어처리, 상황인식, 빅데이터 분석 기술 등을 사용할 수 있다.
TA(Text Analytics, 350)는, 챗봇(340)으로부터 수신된 답변 텍스트와 상담 내용이 텍스트로 변환된 데이터를 이용하여 상담 내용을 종합적으로 분석하는 텍스트 분석 엔진일 수 있다. 즉, TA(313)는, 문서화된 전화상담 내용 및 모바일 채팅(톡)상담과 이메일 상담 등에서 키워드를 분석하는 방식이다. 예를 들어 상담 분석에서 민원을 유발할 수 있는 키워드를 찾아내 고객들의 불만요소를 사전 예방하는 방식일 수 있다. 여기서, TA(313)는, 대규모의 문서(Text)에서 의미있는 정보를 추출할 수 있는데, 분석 대상이 비구조적인 문서정보라는 점에서 데이터 마이닝과 차이가 있다. 즉, TA(313)는, 정보 검색, 데이터 마이닝, 기계 학습(machine learning), 통계학, 컴퓨터 언어학(computational linguistics) 등이 결합되는데, 텍스트 마이닝은 분석 대상이 형태가 일정하지 않고 다루기 힘든 비정형 데이터이므로 인간의 언어를 컴퓨터가 인식해 처리하는 자연어 처리(NLP, natural language processing) 방법을 이용할 수 있다.
상세하게는, 문서 분류(document classification), 문서 군집(document clustering), 메타데이터 추출(metedata extraction), 정보 추출(information extraction) 등으로 구분하는데, 문서 분류는 도서관에서 주제별로 책을 분류하듯이 문서의 내용에 따라 분류하는 것을 말한다. 문서 군집은 성격이 비슷한 문서끼리 같은 군집으로 묶어주는 방법이다. 이는 통계학의 방법론인 판별분석(discriminant analysis)과 군집분석(clustering)과 유사한 개념으로 분석 대상이 숫자가 아닌 텍스트라는 점에서 차이가 있다. 통상 문서 분류는 사전에 분류 정보를 알고 있는 상태에서 주제에 따라 분류하는 방법이며 문서 군집은 분류 정보를 모르는 상태에서 수행하는 방법이다. 이를 지도 학습(supervised learning), 자율 학습(unsupervised learning)이라고 부르는데, 데이터 마이닝에서도 동일한 의미로 사용하고 있다. 한편 정보추출은 문서에서 중요한 의미를 지닌 정보를 자동으로 추출하는 방법론을 말한다
IVR(315)는, STT(311)로부터 변환된 텍스트 및 음성을 통하여 분석되어 텍스트화된 분석 텍스트를 음성으로 실시간으로 변환하는 TTS(314)를 포함할 수 있다. 이때, IVR(315)은, 챗봇(312)으로부터 RTM(310)을 경유하여 수신된 답변 텍스트를 수신하고, RTM(310)으로부터 답변 텍스트를 수신하여 음성으로 변환하도록 제어하는 명령을 수신하면, 답변 텍스트를 음성으로 실시간으로 변환하는 TTS(314)를 포함하는 모듈일 수 있다
이때, 사용자 단말(100)에서 음성녹음을 시작하는 위치, 날씨, 음성녹음이 시작된 날짜에 촬영된 사진 및 동영상은, 사용자 단말(100)의 감성일기 페이지에 삽입되도록 제어될 수 있고, 감성일기 서비스 제공 서버(300)는, 음성으로부터 텍스트로 변환된 일기 텍스트를 이용하여 사용자 단말(100)의 일기 내용을 분석하는 텍스트 분석 엔진인 TA(313)을 더 포함할 수 있다. 이때, TA(313)는 상술한 구성 및 동작 이외에도, 일기 텍스트에서 감정언어에 대응하는 기 저장된 키워드를 추출하고, 기 저장된 키워드는, 사용자의 음성으로부터 분석된 감정상태에 따라 적응적으로 학습되어 업데이트될 수 있다. 이때, 감성일기 서비스 제공 서버(300)는 클라우드 서버를 포함할 수 있다. 다만, 클라우드 서버에 한정되는 것은 아님은 자명하다 할 것이다.
도 2를 참조하면, (b) 감성일기 서비스 제공 서버(300)는, 수신부(320), 추출부(330), 출력부(340), 분석부(350), 디스플레이부(360), 필기부(370), 부가제공부(380) 및 동기화부(390)를 포함할 수 있다.
본 발명의 일 실시예에 따른 감성일기 서비스 제공 서버(300)나 연동되어 동작하는 다른 서버(미도시)가 사용자 단말(100), 및 적어도 하나의 콘텐츠 제공 서버(400)로 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 사용자 단말(100), 및 적어도 하나의 콘텐츠 제공 서버(400)는, 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 사용자 단말(100), 및 적어도 하나의 콘텐츠 제공 서버(400)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: world wide web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(hyper text mark-up language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(app)을 포함한다.
도 2를 참조하면, 수신부(320)는, 사용자 단말(100)로부터 일기를 작성하는 음성 데이터를 수신할 수 있다. 이때, 음성 데이터는 사용자 단말(100)에서 마이크를 통하여 수신되는 음성이 실시간으로 스트리밍되어 수신될 수 있다.
추출부(330)는, 음성 데이터가 수신된 사용자 단말(100)의 위치정보, 사용자 단말(100)이 위치한 장소의 날씨정보 및 사용자 단말(100)에서 촬영한 사진 및 동영상을 추출할 수 있다. 이때, 위치 정보는 사용자가 그 날 하루에 어느 곳을 가고 어느 곳에서 몇 시간을 머물렀는지를 알려주는 정보일 수 있고, GPS 위치 좌표와 위치 좌표에 위치하는 적어도 하나의 상점, 백화점, 관광지 등의 장소명과 함께 매핑하여 저장할 수도 있고, 지도 상에 하루 동안의 루트를 표시할 수도 있다. 또한, 촬영한 사진이나 동영상은 썸네일로 표시하되, 썸네일 내에서 동영상의 경우에는 직접 플레이하지 않더라도 재생되는 방식으로 출력될 수도 있다. 다만, 추출부(330)는 상술한 정보에 한정하지 않고 복수의 센서로부터 수집되는 정보를 추출할 수 있음은 자명하다 할 것이다.
출력부(340)는, 수신된 음성 데이터를 실시간으로 스트리밍받아 STT(Speech To Text)를 통하여 실시간으로 텍스트 변환을 실시하여 사용자 단말(100)의 감성일기 레이아웃 내에 출력시킬 수 있다.
분석부(350)는, 음성 데이터의 수신이 종료되는 경우, 음성 데이터의 음성 신호로부터 감정상태를 분석할 수 있다. 우선, 영상분야에서는 인간의 시각체계를 모사하여 인간의 감정을 인식하기 위해 인간의 얼굴 표정에서 여러 가지 특징(눈썹, 눈, 코, 입)의 움직임을 이용하여 감정을 인식하는데, 생체신호 기반의 감정인식 분야에서 가장 많이 사용되는 생체 신호인 EEG신호가 대뇌의 감정조절 영역에 관련이 있다는 것이 밝혀지면서 EEG 신호를 이용한 감정인식 연구가 진행되고 있는데, 더 정확한 감정인식을 위해서 EEG신호와 몸짓데이터를 통합해서 연구가 진행되기도 했다. 이때, 본 발명의 일 실시예에 따른 분석부(350)는, 영상, 생체신호와 더불어 음성 신호 또한 인간의 감정 정보를 많이 가지고 있기 때문에, 감정별로 다른 음성의 주파수대역, 감정 별로 다른 음성의 크기 등으로 인간은 상대방의 감정을 인식하도록 한다. 다만, 영상이나 심박수 등을 이용하여 감정을 인식하는 방법을 배제하는 것은 아님은 자명하다 할 것이다.
이때, 분석부(350)는, 감정인식 정확도를 높이기 위하여 정확한 분류엔진과 적절한 특징벡터를 선택하는데, 음성 신호기반의 감정을 분석하기 위한 가장 적절한 특징벡터를 선택할 수 있다. 즉, 사람의 감정을 보통, 기쁨, 슬픔, 화남 등으로 분류한 뒤, 방송매체를 통하여 각각의 감정에 대한 음성을 녹음하여 데이터베이스를 구성하도록 한다. 또한, 수집한 감정데이터들은 피치(Pitch), MFCC(Mel-Frequency Cepstral Coefficients), LPC(Linear Prediction Coefficients), LPCC(Linear Prediction Cepstral Coefficients)와 같은 4가지 특징벡터를 사용하여 분석할 수 있는데, 특징벡터들의 감정분류에의 적합도를 측정하기 위해 분리도를 측정하고, 분리도는 Bhattacharyya 거리 측정을 이용하고 이를 통해 가장 적합한 특징벡터를 제시할 수 있다. 이렇게 데이터베이스화된 일반적인 감정데이터들은 사용자 각각의 특성에 맞도록 커스터마이징될 수 있고, 오차를 줄이기 위하여 인공신경학습을 실시하여 오차율을 피드백하도록 할 수 있다.
이때, 특징벡터 중 피치(Pitch)는 주기신호의 기본주파수를 의미하는데, 피치를 검출하기 전 전처리 과정을 거칠 수 있다. 음성신호는 사람의 발음에서 나오는 파열음, 파찰음, 마찰음, 경음 등 피치와 관련 없는 고주파 성분인 무성음 구간이 존재하게 되는데, 이는 피치 검출에서 반드시 제거해 주어야 정확도를 높일 수 있으며 이 부분은 전체 시스템 정확도를 떨어뜨릴 수 있는 부분이다. 따라서 무성음은 자기상관 값을 정규화 한 값이 임계값보다 작으면 주기성이 약한 신호이기 때문에 무성음이라 정의하도록 한다.
디스플레이부(360)는, 분석된 감정상태에 대한 정보를 사용자 단말(100)의 감성분석 결과 레이아웃 내에 출력시킬 수 있다. 이때, 분석부(350)에서는 음성신호의 피치 등으로 특징벡터를 이용하여 사용자의 감정을 분석했다면, 디스플레이부(360)는 텍스트에 포함된 감정어휘를 통하여 분석된 감정값을 조정할 수 있다.
우선, 극성은 감정경험의 핵심이 되는 요소로서, 긍정적 감정(혹은 쾌)과 부정적 감정(혹은 불쾌)을 경험하는 정도를 말하며, 외부 세계에 대한 정보(삶에 득이 되는지 해가 되는지, 혹은 보상적인지 처벌적인지)가 내적 감정신호나 상태로 변환되어 대상이나 상황에 적절하게 대응(접근 혹은 회피)하도록 하는 과정을 핵심 감정(core affect)이라고 정의할 수 있는데, 동기화(motivation)의 측면에서 쾌는 삶에 득이 되는 것에 대한 접근동기에 기반한 감정경험으로, 불쾌는 해가 되는 것에 대한 회피동기에 기반한 감정경험으로 정의된다.
쾌-불쾌가 감정경험의 핵심인 이유는 모든 사람이 보편적으로 경험하는 감정이며, 특별한 학습이 필요치 않은 원초적 감정이기 때문이며, 이 경험은 주관적인 언어의 표현에서 얼굴, 음성, 몸 등 객관적 지표를 통해 일관되게 나타난다는 특성을 갖고 있다. 일상의 어휘들을 극성과 각성의 두 차원에서 분석한 선행연구들의 결과를 보면, 감정표현어휘들이 부정에서부터 긍정에 이르는 연속선상에 골고루 분포되기보다는, 긍정과 부정으로 양극화하는 경향을 보한다. 이에 따라, 본 발명의 일 실시예에 있어서, 한국어 감정어휘의 차원을 분석한 결과, 감정표현 대표 어휘들의 측정치로 형용사는 물론 동사와 명사까지를 포함한 어휘들에 대해 도출된 데이터베이스를 이용하도록 한다.
이러한 감정어휘사전을 만들기 위해서는, 감성어휘들을 추출하고, 추출된 감성어휘에 대하여 극성값을 도출해야 하는데, 감성어휘를 추출하기 위해서는 3 단계의 처리작업을 수행할 수 있다. 우선, 영어, 숫자, 한글자 어휘, 특수문자 등의 불용어 제거작업이 선행되며, 남은 어휘에 대하여 TF, TF-IDF 값을 기준으로 일정 기준 이하의 값을 가진 단어들을 제거할 수 있고, 마지막으로 동일성을 부여하는 작업을 통하여 감성사전에 사용될 어휘를 최종 확정할 수 있다. 이렇게 추출된 어휘에 대한 감성극성값은 감성어휘가 출현한 긍정/부정 회수비율로 정의될 수 있다.
이렇게 음성과 텍스트로 감정이 분석되고 정의된 경우, 상술한 바와 같이 사용자 적응(Adaptive)과정이 실행된다. 아무리 빅데이터를 이용하여 객관적으로 감정을 분석했다고 할지라도, 개인편차가 발생할 수 있기 때문에, 적응과정 및 학습과정을 거치게 된다. 개인편차를 피드백 및 인공신경망으로 학습한 후, 학습결과를 사전에 업데이트하여 어휘와 피치의 특징벡터를 학습 및 업데이트할 수 있다.
필기부(370)는, 수신부(320)에서 사용자 단말(100)로부터 일기를 작성하는 음성 데이터를 수신하기 전에, 사용자 단말(100)로부터 촬영되거나 입력된 필기체를 수신하고, 수신된 필기체를 누적하여 딥러닝(Deep Learning)으로 학습시키고, 학습되어 업데이트된 필기체를 사용자 단말(100)의 필기체로 매핑하여 저장할 수 있다. 이를 통하여, 사용자가 직접 펜을 이용하여 손으로 쓰지 않더라도, 음성텍스트변환 및 필기체 인식을 통하여 텍스트를 사용자의 필기체로 출력할 수 있다.
이에 따라, 감성일기 서비스 제공 서버(300)는, 사용자 단말(100)과 매핑되어 저장된 필기체로 사용자 단말(100)의 감성일기 레이아웃 내 출력된 텍스트를 변환하여 출력시킬 수 있다.
부가제공부(380)는, 출력부(340)에서 분석된 감정상태에 대한 정보를 사용자 단말(100)의 감성분석 결과 레이아웃 내에 출력시킨 후, 감정상태에 대한 정보에 기반하여 추출된 배경음악, 배경이미지, 추천 요리, 추천 콘텐츠, 및 추천 상품을 포함하는 추천 정보를 사용자 단말(100)로 제공할 수 있다. 즉, 우울할 때에는 다른 사람과 나누면 반이 된다는 말은, 우울한 기분을 달래줄 수 있는 코멘트나 음악을 들려주거나 하는 등의 제스쳐가 있기 때문인데, 이를 감성일기 서비스에서 분석하여 사용자의 기분에 따른 음식, 음악, 콘텐츠 등을 제공함으로써 사람의 공감능력을 인공지능적으로 제공할 수 있도록 한다.
이때, 대부분의 기존 자동 음악 무드 분류는 스펙트럼이나 리듬 같은 음악 특성을 사용한다. 음악 무드 분류(Audio Mood Classification)은 MIREX(Music Information Retrieval Evaluation eXchange)에서 활발하게 다루어지고 있다. MIREX의 음악 무드 분류 실험 중에서는 스펙트럼 특성을 이용한 무드 분류와 SVM을 이용한 무드 분류기가 가장 널리 사용되고 있는데, 가사 특성을 이용한 음악 무드 분류에서는 bag-ofwords(BOW) 특성이 널리 사용된다. BOW는 unigram, bigram, trigram과 대해 결합하면 더 효과적이며 심리 언어학의 단어 리스트에서도 사용된다.
한편, 멀티 모달 음악 분류 기법은 오디오 특성을 이용한 무드 분류나 가사 특성을 이용한 무드 분류 기법보다 정확도가 높은데, BOW 특성과 182개의 심리 언어 특성을 오디오 특성과 결합하여 음악 무드를 분류했다. 따라서, 본 발명의 일 실시예에서는, 멀티 모달 음악 무드 분류를 위해 오디오 특성과 가사 특성 그리고 태그 정보를 활용할 수 있다. 우선 오디오 특성을 얻기 위해 MARSYAS 시스템을 이용하여 MFCC(eans and variances of Spectral Centroid, Rolloff, Flux, Mel-Frequency Cepstral Coefficients)등의 63개의 스펙트럼 특성을 사용한다. 음악 가사를 분석하기 위해 음악 무드 태그와 가사를 TF-IDF 알고리즘을 이용한 무드 분류기를 이용할 수 있으며, 무드 태그를 이용할 수 있다. 그리고, 11가지 무드에 해당하는 태그를 가진 음악 50곡씩 550곡의 가사를 수집할 수 있는데, 웹에서 얻은 노래가사는 여러 형태의 노이즈가 포함되어 있으므로 노이즈 목록을 이용하여 의미없는 단어를 제거하고, 후렴구 반복을 의미하는 주석의 경우 제거함과 동시에 반복구를 반복되는 횟수만큼 노래 가사에 포함시킬 수 있다. 이렇게 수집한 가사를 이용해, 각 무드에 해당하는 가사의 TF값을 구하고 11가지 무드에 대한 IDF값을 구하여, 이를 통해 얻은 무드 키워드 중 각 감정에서 큰 TF-IDF값을 가지는 단어들을 분석할 수 있다. 이때, 상술한 방법이 아닐지라도 사용자의 감정으로부터 음악 콘텐츠를 선정하는 방법이라면 어느 것이든 사용될 수 있음은 자명하다 할 것이다. 또한, 별도의 광고나 콘텐츠 제공도 마찬가지일 수 있다.
동기화부(390)는, 디스플레이부(360)에서 수신된 음성 데이터를 실시간으로 스트리밍받아 STT(Speech To Text)를 통하여 실시간으로 텍스트 변환을 실시하여 사용자 단말(100)의 감성일기 레이아웃 내에 출력시킨 후, 사용자 단말(100)에서 음성 데이터를 재생하는 경우, 재생되고 있는 음성 데이터에 대응하는 감성일기 레이아웃 내에 출력된 텍스트를 하이라이트 출력되도록 제어할 수 있다. 이때, 재생되는 음성 데이터와 하이라이트되는 텍스트는 시간 동기화되어 기 매핑되어 저장될 수 있다.
이하, 상술한 도 2의 감성일기 서비스 제공 서버의 구성에 따른 동작 과정을 도 3 및 도 4를 예로 들어 상세히 설명하기로 한다. 다만, 실시예는 본 발명의 다양한 실시예 중 어느 하나일 뿐, 이에 한정되지 않음은 자명하다 할 것이다.
도 3을 참조하면, 감성일기의 페이지는 도 3과 같이 구성될 수 있는데, 저장날짜시간, 위치정보, 날씨, 감성일기기록(음성), 사진올리기 등의 인터페이스가 구성될 수 있다. 그리고, 감성일기가 음성으로 입력될 때, 자동으로 감성일기 레이아웃에 텍스트로 변환된 결과가 출력될 수 있는데, 음성으로부터 분석된 감정의 정보가 텍스트화되어 출력될 수 있다. 예를 들어, 음성의 피치나 크기가 커진 경우 텍스트의 크기를 증가시키거나 색상을 달리 변화시킬 수도 있고, 그 반대의 경우에는 반대로 텍스트의 크기를 감소시키는 등의 변화를 줄 수도 있다. 그리고, 감성일기가 장문인 경우에는 키워드를 추출하여 자연어처리를 한 후 문장으로 요약을 제시할 수도 있고, 감성 분석 결과를 제시하며, 현재 사용자와 같은 기분인 다른 사용자의 퍼센트를 제공할 수도 있다.
또한, 분석된 감정상태에 기반하여 추천 케어방법을 제시할 수도 있고, 추천 아이템을 제공할 수도 있으며, 추천 음식 등을 매개할 수도 있다. 물론, 이는 빅데이터에만 기반하는 것은 아니며, 사용자의 정보로부터 학습된 결과로 커스터마이징된 결과를 제공할 수 있다.
그리고, 본 발명의 일 실시예는, 음성을 통하여 일기를 남기고 일기의 내용은 음성 뿐만 아니라 텍스트로 변환하여 글자로도 남기는 기본적이며 핵심적인 기능 이외에도, 일기를 녹음하여 저장하는 시점의 위치정보를 이용하여 시간, 날씨정보를 기록하고, 저장된 음성을 들을 때 시간에 동기화된(Time Sync) 텍스트가 하이라이트 되어 디스플레이되도록 하고, 저장된 텍스트를 분석하여 감정 및 감성상태를 알려주고, 일기 내용이 기 설정된 글자수를 초과하면 요약본을 제공하고, 일기 내용에 따라 앞으로의 일을 가이드 해주며, 글자의 필체는 기본형이 아닌 자신의 글자를 딥러닝 하여 본인의 필체를 인식하여 그 글씨로 보여줄 수 있다.
또한, 본 발명의 일 실시예는, 동영상을 이용하여 일기를 생성할 수도 있으며, 사용자의 일기 데이터가 기 설정된 수로 누적되면 예를 들어, 연단위로 자서전을 오프라인 북 형태로 제공할 수 있으며, 감정을 분석하여 백그라운드 음악이 나오면서 재생되고, 감정을 분석하여 백그라운드 이미지를 변경하고, 감정을 분석하여 추천 이미지 및 추천 글을 제공하며, 감정을 분석하여 오늘의 추천 요리를 팝업시키고, 감정 및 내용분석을 하여 추천 상품을 제공할 수 있다. 이때, 주문요리와 같은 경우에는 상술한 바와 같이, 현재 영업을 하고, 사용자의 위치에 배달이 가능하며, 사용자의 기호를 반영한 결과를 필터링시킨 결과만을 출력할 수도 있다.
그리고, 본 발명의 일 실시예는, 녹음을 함으로써 작성자 고유의 감정을 느낄 수 있는 목소리가 저장되므로, 영유아의 육아 일기, 아이들의 목소리를 저장할 수 있어 자식에게 유산으로 남겨줄 수도 있으며, 음성 및 글자로 남긴 내용은 타인과 공유하여 음성편지도 제공할 수 있다. 그리고, 인식률이 떨어지는 글자에 대한 텍스트를 보정하고, 일기를 공유하도록 하며, 음성일기로 초등학교의 일기 숙제를 대신할 수도 있으며, 타임머신 기능을 이용하여 미래에 개봉되는 일기, 타인에게 또는 자신에게 전송할 수도 있다. 도 3에 도시된 상표명은 본 발명의 일 실시예로 기재했을 뿐, 상술한 것에 한정되는 것은 아니다.
도 4를 참조하면, (a) 사용자가 "휴..오늘 일진이 안좋네"라고 혼잣말을 중얼거렸다고 가정하자. 이때, 사용자 단말(100)은, 이를 녹음하고 실시간으로 텍스트로 제공하며, (b) 텍스트를 디스플레이한다. 또한, (c) 감정을 분석한 결과를 이용하여 추천 콘텐츠를 생성한 결과를 사용자 단말(100)은, 감성일기 서비스 제공 서버(300)로부터 수신하여 출력하고, (d) 음식을 사용자 단말(100)에서 주문한 경우, (e) 주문 경과를 디스플레이한다. 또한, (f) 감성일기 서비스 제공 서버(300)는, 감정분석결과에 대한 피드백을 사용자로부터 수신할 수 있으며, 피드백 결과로 딥러닝 및 오차가 발생하는 경우에는 인공신경망을 통한 학습을 시작하여 그 결과를 데이터베이스에 재반영할 수 있으며, 이러한 과정은 오차율을 제로화할 때까지 지속적으로 반영시킨다. 또한, 사용자가 동일한 감정에 대한 다른 표현을 할 수도 있는데, 이러한 변화 상황을 그래프나 표 등으로 사용자에게 제시할 수도 있어 사람이 나이가 들어감에 따른 반응을 히스토리 로그로 제공할 수도 있다.
이와 같은 도 2 내지 도 4의 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 5는 본 발명의 일 실시예에 따른 도 1의 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다. 이하, 도 5를 통해 각 구성들 상호간에 데이터가 송수신되는 과정의 일 예를 설명할 것이나, 이와 같은 실시예로 본원이 한정 해석되는 것은 아니며, 앞서 설명한 다양한 실시예들에 따라 도 5에 도시된 데이터가 송수신되는 과정이 변경될 수 있음은 기술분야에 속하는 당업자에게 자명하다.
도 5를 참조하면, 감성일기 서비스 제공 서버(300)는, 사용자 단말(100)로부터 음성 데이터를 스트리밍받고(S5100), 음성을 텍스트로 변환하고(S5200), 텍스트를 기록하며(S5300), 사용자 단말(100)에서 텍스트가 실시간으로 출력되도록 한다(S5400).
또한, 감성일기 서비스 제공 서버(300)는, 음성 및 텍스트를 통하여 사용자의 감정상태를 분석하고(S5500), 분석한 결과를 사용자에게 제공함과 동시에(S5600), 사용자의 취향과 감정분석결과를 AND 조건으로 추천가능한 아이템을 추출하고(S5700), 해당 아이템을 콘텐츠 제공 서버(400)로 요청을 하며(S5800), 콘텐츠 제공 서버(400)로부터 아이템이 수신되면(S5810), 현재 제공가능한 콘텐츠인지를 확인하고(S5830), 이를 사용자 단말(100)로 제공한다(S5860). 이때, 현재 제공가능한 콘텐츠가 아니라면 감성일기 서비스 제공 서버(300)는 콘텐츠 제공 서버(400)에 재요청을 할 수도 있다. 물론, S5100 단계에서 콘텐츠를 요청할 때 현재 제공가능한 콘텐츠만 요청하는 것도 가능함은 자명하다 할 것이다.
그리고, 감성일기 서비스 제공 서버(300)는, 사용자 단말(100)에서 주문이나 구매가 발생하는 경우(S5900), 결제 이벤트를 콘텐츠 제공 서버(400)로 전송하고, 결제한 콘텐츠가 사용자 단말(100)에 저장되도록 한다(S5940). 이에 따라, 사용자 단말(100)은 구매한 콘텐츠를 출력하거나(S5920), 배달을 시킨 경우에는 배달결과에 대한 실시간 모니터링 결과를 감성일기 서비스 제공 서버(300)로부터 수신하게 된다.
상술한 단계들(S5100~S5920)간의 순서는 예시일 뿐, 이에 한정되지 않는다. 즉, 상술한 단계들(S5100~S5920)간의 순서는 상호 변동될 수 있으며, 이중 일부 단계들은 동시에 실행되거나 삭제될 수도 있다.
이와 같은 도 5의 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 4를 통해 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 6는 본 발명의 일 실시예에 따른 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법을 설명하기 위한 동작 흐름도이다. 도 6를 참조하면, 감성일기 서비스 제공 서버는, 사용자 단말로부터 일기를 작성하는 음성 데이터를 수신하고(S6100), 음성 데이터가 수신된 사용자 단말의 위치정보, 사용자 단말이 위치한 장소의 날씨정보 및 사용자 단말에서 촬영한 사진 및 동영상을 추출한다(S6200).
또한, 감성일기 서비스 제공 서버는, 수신된 음성 데이터를 실시간으로 스트리밍받아 STT(Speech To Text)를 통하여 실시간으로 텍스트 변환을 실시하여 사용자 단말의 감성일기 레이아웃 내에 출력시키고(S6300), 음성 데이터의 수신이 종료되는 경우, 음성 데이터의 음성 신호로부터 감정상태를 분석한다(S6400).
마지막으로, 감성일기 서비스 제공 서버는, 분석된 감정상태에 대한 정보를 사용자 단말의 감성분석 결과 레이아웃 내에 출력시킨다(S6500).
이와 같은 도 6의 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 5를 통해 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 6를 통해 설명된 일 실시예에 따른 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 일 실시예에 따른 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (3)

  1. 감성일기 서비스 제공 서버에서 실행되는 감성일기 서비스 제공 방법에 있어서,
    사용자 단말로부터 촬영되거나 입력된 필기체를 수신하는 단계;
    상기 수신된 필기체를 누적하여 딥러닝(Deep Learning)으로 학습시키는 단계;
    상기 학습되어 업데이트된 필기체를 상기 사용자 단말의 필기체로 매핑 및 저장하는 단계;
    상기 사용자 단말로부터 일기를 작성하는 음성 데이터를 수신하는 단계;
    상기 음성 데이터가 수신된 상기 사용자 단말의 위치정보, 상기 사용자 단말이 위치한 장소의 날씨정보 및 상기 사용자 단말에서 촬영한 사진 및 동영상을 추출하는 단계;
    상기 수신된 음성 데이터를 실시간으로 스트리밍받아 STT(Speech To Text)를 통하여 실시간으로 텍스트 변환을 실시하여 상기 사용자 단말의 감성일기 레이아웃 내에 출력시키는 단계;
    상기 사용자 단말에서 상기 음성 데이터를 재생하는 경우에 상기 재생되고 있는 음성 데이터에 대응하는 상기 감성일기 레이아웃 내에 출력된 텍스트가 상기 음성 데이터의 크기에 따라 크기가 조절되면서 하이라이트 처리되도록 출력하는 단계-상기 재생되는 음성 데이터와 상기 하이라이트 처리되는 텍스트는 시간 동기화되어 매핑 및 저장되고, 상기 하이라이트 처리되는 텍스트는 상기 매핑 및 저장된 사용자 단말의 필기체로 변환되어 출력됨-;
    상기 음성 데이터의 수신이 종료되는 경우, 상기 음성 데이터의 음성 신호로부터 감정상태를 분석하는 단계;
    상기 분석된 감정상태에 대한 정보를 상기 사용자 단말의 감성분석 결과 레이아웃 내에 출력시키는 단계;
    콘텐츠 제공 서버로부터 콘텐츠를 수신하고, 상기 수신된 콘텐츠에서 상기 분석된 감정상태에 대한 정보 및 상기 사용자 단말의 사용자의 취향을 반영한 추천 콘텐츠를 필터링하는 단계; 및
    상기 필터링된 추천 콘텐츠를 상기 사용자 단말로 제공하는 단계를 포함하되,
    상기 사용자 단말로 제공하는 단계는,
    상기 사용자 단말의 사용자와 동일한 감정상태에 대한 정보를 갖는 사용자의 비율을 제공하는 것이고,
    상기 사용자 단말에 의해 작성되는 일기를 녹음하여 저장하는 시점의 위치정보를 이용하여 시간 및 날씨 정보를 기록하고, 일기 내용이 기 설정된 글자수를 초과하면 요약본을 제공하며,
    동영상을 이용하여 일기를 생성하고, 감정상태를 분석하여 백그라운드 음악이 나오면서 재생되도록 하며, 감정상태를 분석하여 백그라운드 이미지를 변경하고, 감정상태를 분석하여 추천 이미지 및 추천 글을 제공하며, 감정상태를 분석하여 오늘의 추천 요리를 팝업시키고, 주문 요리의 경우에는 현재 영업중이고 상기 사용자 단말의 위치에 배달이 가능하며 사용자의 기호를 반영한 결과를 필터링시킨 결과만을 출력하는 것을 특징으로 하는 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법.
  2. 제 1 항에 있어서,
    상기 분석하는 단계는, 피치(Pitch), MFCC(Mel-Frequency Cepstral Coefficients), LPC(Linear Prediction Coefficients) 및 LPCC(Linear Prediction Cepstral Coefficients)를 포함하는 특징벡터를 이용하여 사용자의 감정을 분석하는 단계를 포함하고,
    상기 피치는 무성음 구간이 제거된 것이고,
    상기 감정분석 결과 레이아웃 내에 출력시키는 단계는, 상기 하이라이트 처리되는 텍스트에 포함된 감정어휘를 통해 분석된 감정값을 조정하는 단계를 포함하는 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법.
  3. 제 2 항에 있어서,
    상기 감정어휘는,
    불용어가 제거되고, 기 설정된 기준값 미만의 값을 갖는 단어가 제거되고, 동일성이 부여된 감정어휘인 것을 특징으로 하는 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 방법.
KR1020190055563A 2019-05-13 2019-05-13 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 서버 및 방법 KR102073979B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190055563A KR102073979B1 (ko) 2019-05-13 2019-05-13 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 서버 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190055563A KR102073979B1 (ko) 2019-05-13 2019-05-13 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 서버 및 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020180029923 Division 2018-03-14

Publications (2)

Publication Number Publication Date
KR20190108523A KR20190108523A (ko) 2019-09-24
KR102073979B1 true KR102073979B1 (ko) 2020-02-05

Family

ID=68068840

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190055563A KR102073979B1 (ko) 2019-05-13 2019-05-13 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 서버 및 방법

Country Status (1)

Country Link
KR (1) KR102073979B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210135379A (ko) 2020-05-04 2021-11-15 인하대학교 산학협력단 서사 자동생성을 위한 콘텐츠 정보 추출 및 분류 시스템
KR102396209B1 (ko) 2021-11-25 2022-05-12 (주)펜타유니버스 인공지능 기반의 사용자 음성 분석 결과에 따른 콘텐츠 제공 시스템
KR102646654B1 (ko) 2023-11-13 2024-03-12 액티부키 주식회사 사용자가 생성한 음성의 의미 분석을 통해 공간을 분석하기 위한 장치 및 방법
KR20240065335A (ko) 2022-10-31 2024-05-14 주식회사 모몽스튜디오 인공지능 기반의 지능형 감성 완구 서비스 제공 시스템

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102130750B1 (ko) * 2020-03-23 2020-07-06 이병관 빅데이터 및 인공지능 기반 양방향 가상현실 콘텐츠를 이용한 심리상담 서비스 제공 방법
KR102268005B1 (ko) * 2020-10-27 2021-06-21 이강희 감성 인공지능 큐레이션 시스템 및 방법
KR102556972B1 (ko) * 2021-09-02 2023-07-18 전남대학교산학협력단 딥러닝 기반의 그래프 융합을 이용한 시청자 감정 예측 시스템 및 방법
KR102618683B1 (ko) * 2021-09-23 2023-12-29 동국대학교 산학협력단 노래 가사 분석을 이용한 배경 스타일 변환 장치 및 그 방법
KR20230071053A (ko) 2021-11-15 2023-05-23 배영식 메타버스 및 인공지능에 기반한 인적성 분석 방법
KR102606862B1 (ko) * 2022-01-20 2023-11-29 주식회사 유비온 메타버스 공간에서 사용자의 감정에 근거한 인터렉션 처리수행을 위한 서비스 운영서버 및 동작방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058607A (ja) * 2001-08-16 2003-02-28 Taiheiyo Printing Co Ltd 郵便物作成発送システムおよびそのシステムを利用した郵便物懸賞くじシステム
KR101754093B1 (ko) * 2016-09-01 2017-07-05 성기봉 기록이 자동으로 분류되어 저장되는 개인기록 관리 시스템

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100605143B1 (ko) * 2005-01-14 2006-07-31 (주)필링크 멀티미디어메시지 생성 시스템 및 방법
KR102023157B1 (ko) * 2012-07-06 2019-09-19 삼성전자 주식회사 휴대 단말기의 사용자 음성 녹음 및 재생 방법 및 장치
KR102222122B1 (ko) * 2014-01-21 2021-03-03 엘지전자 주식회사 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058607A (ja) * 2001-08-16 2003-02-28 Taiheiyo Printing Co Ltd 郵便物作成発送システムおよびそのシステムを利用した郵便物懸賞くじシステム
KR101754093B1 (ko) * 2016-09-01 2017-07-05 성기봉 기록이 자동으로 분류되어 저장되는 개인기록 관리 시스템

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210135379A (ko) 2020-05-04 2021-11-15 인하대학교 산학협력단 서사 자동생성을 위한 콘텐츠 정보 추출 및 분류 시스템
KR102396209B1 (ko) 2021-11-25 2022-05-12 (주)펜타유니버스 인공지능 기반의 사용자 음성 분석 결과에 따른 콘텐츠 제공 시스템
KR20240065335A (ko) 2022-10-31 2024-05-14 주식회사 모몽스튜디오 인공지능 기반의 지능형 감성 완구 서비스 제공 시스템
KR102646654B1 (ko) 2023-11-13 2024-03-12 액티부키 주식회사 사용자가 생성한 음성의 의미 분석을 통해 공간을 분석하기 위한 장치 및 방법

Also Published As

Publication number Publication date
KR20190108523A (ko) 2019-09-24

Similar Documents

Publication Publication Date Title
KR102073979B1 (ko) 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 서버 및 방법
US10977452B2 (en) Multi-lingual virtual personal assistant
US11500917B2 (en) Providing a summary of a multimedia document in a session
CN108334583B (zh) 情感交互方法及装置、计算机可读存储介质、计算机设备
CN108227932B (zh) 交互意图确定方法及装置、计算机设备及存储介质
US20210081056A1 (en) Vpa with integrated object recognition and facial expression recognition
US11159767B1 (en) Proactive in-call content recommendations for assistant systems
US20220245354A1 (en) Automated classification of emotio-cogniton
CN111033494A (zh) 用于多个搜索机器人和行为机器人的计算体系架构以及相关的设备和方法
US20240020942A1 (en) Providing emotional care in a session
Griol et al. Combining speech-based and linguistic classifiers to recognize emotion in user spoken utterances
US20240079011A1 (en) Interpreting words prior to vocalization
Pessanha et al. A computational look at oral history archives
US20240127824A1 (en) Identifying silent speech using recorded speech
Evangeline A survey on Artificial Intelligent based solutions using Augmentative and Alternative Communication for Speech Disabled
Wang et al. Advancements and challenges in speech emotion recognition: a comprehensive review
Reddy et al. Fusion Based AER System Using Deep Learning Approach for Amplitude and Frequency Analysis
US20230260533A1 (en) Automated segmentation of digital presentation data
Shah COMPUTATIONAL INFERENCE OF TRUSTWORTHINESS IN SOCIAL FIGURES THROUGH ANALYSIS OF SPEECH ACOUSTIC, TEXTUAL, AND VISUAL SIGNALS
Shoumy Multimodal emotion recognition using data augmentation and fusion
AlHammadi Automatic personality recognition from non-verbal acoustic cues: bridging the gap between psychology and computer science
Zhang et al. Deep Emotion Recognition in Dynamic Data using Facial, Speech and Textual Cues: A Survey
WO2023118967A1 (en) Apparatus and methods for assisting in reading
RBB et al. Deliverable 5.1

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction