KR20220048463A - 인공지능 서비스를 인터페이싱하는 장치 및 방법 - Google Patents
인공지능 서비스를 인터페이싱하는 장치 및 방법 Download PDFInfo
- Publication number
- KR20220048463A KR20220048463A KR1020220036715A KR20220036715A KR20220048463A KR 20220048463 A KR20220048463 A KR 20220048463A KR 1020220036715 A KR1020220036715 A KR 1020220036715A KR 20220036715 A KR20220036715 A KR 20220036715A KR 20220048463 A KR20220048463 A KR 20220048463A
- Authority
- KR
- South Korea
- Prior art keywords
- text
- voice
- artificial intelligence
- terminal
- providing server
- Prior art date
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004891 communication Methods 0.000 claims abstract description 37
- 230000004044 response Effects 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 19
- 230000008451 emotion Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000036651 mood Effects 0.000 description 11
- 238000010295 mobile communication Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/04—Real-time or near real-time messaging, e.g. instant messaging [IM]
- H04L51/046—Interoperability with other network applications or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
- H04L65/1069—Session establishment or de-establishment
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Telephonic Communication Services (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
Abstract
일 실시예에 따른 인공지능 서비스의 인터페이싱 장치는 통화망과 연결되는 통화망 인터페이싱부와, 데이터망과 연결되는 데이터망 인터페이싱부와, 인공지능 서비스 제공 서버와 연결되는 인공지능망 인터페이싱부와, 상기 통화망과 연결된 제1 단말로부터 수신받은 제1 음성이 상기 인공지능 서비스 제공 서버에게 전달되도록 제어하고, 상기 제1 음성을 텍스트 변환한 제1 텍스트가 상기 인공지능 서비스 제공 서버로부터 수신되면 상기 제1 텍스트가 상기 데이터망과 연결된 제2 단말에게 전달되도록 제어하며, 상기 제2 단말로부터 수신받은 제2 텍스트가 상기 인공지능 서비스 제공 서버에게 전달되도록 제어하고, 상기 제2 텍스트를 음성 변환한 제2 음성이 상기 인공지능 서비스 제공 서버로부터 수신되면 상기 제2 음성이 상기 제1 단말에게 전달되도록 제어하는 프로세서를 포함한다.
Description
본 발명은 인공지능 서비스를 인터페이싱하는 장치 및 방법에 관한 것이다.
스마트폰 또는 스마트 패드와 같은 스마트 기기는 음성/영상 통화 기능, 그리고 데이터 통신 기능을 제공한다. 사용자는 스마트 기기가 제공하는 데이터 통신 기능을 통해서, 상대방과 메시지를 이용한 채팅을 할 수 있으며, 또한 실시간으로 지도, 음악, 뉴스 또는 사진과 같은 컨텐츠를 공유할 수도 있다.
한편 최근에는 인공지능 서비스를 제공하는 서버가 등장하고 있다. 이러한 인공지능 서비스 제공 서버는 학습 기능을 갖추고 있기에, 사용될수록 수준 높은 서비스를 제공할 수 있다.
스마트 기기는 인공지능 서비스 제공 서버에 데이터 통신 기능을 이용하여 접속하여서 다양한 서비스를 제공받을 수 있다. 예컨대, 사용자는 스마트 기기를 통해 인공지능 서비스 제공 서버에게 날씨나 개인 스케쥴에 대한 간단한 질문 뿐 아니라 보다 복잡하고 고도한 정보에 대한 질의까지도 할 수 있으며, 이에 대한 응답을 제공받을 수 있다.
사용자가 스마트 기기를 통해 상대방과 음성 또는 영상 통화를 시도하거나 진행함에 있어서, 상황에 따라 통화가 곤란한 상황이 발생될 수 있다. 예컨대 영화가 상영 중인 극장 내에서 또는 어린 아기가 자고 있는 방에서, 사용자는 상대방과 음성 또는 영상 통화를 하기가 곤란할 수 있다.
이 때 사용자와 상대방과 통화를 종료하고 메시지를 통한 채팅을 수행할 수 있다. 그런데 통화를 하기 곤란한 대상은 사용자이지 상대방은 아니다. 상대방으로서는 메시지를 통한 채팅보다 통화가 편함에도 불구하고, 사용자가 겪는 곤란함으로 인해 메시지를 통해 채팅을 해야 하는 상황일 수도 있다.
이에, 본 발명의 해결하고자 하는 과제는, 사용자가 스마트 기기를 통해 상대방과 통화를 시도하거나 통화를 진행함에 있어서, 상황에 따라 통화가 곤란한 상황이 발생되었을 때, 사용자는 통화를 종료하지 않고도 메시지를 통한 채팅으로 상대방과 대화를 수행할 수 있을 뿐 아니라, 상대방 역시 통화를 종료하지 않음은 물론 메시지를 통한 채팅이 아닌 통화를 그대로 수행할 수 있도록 하는 기술을 제공하는 것이다.
또한, 이러한 기술이 제공되도록 하는 데에 있어서, 스마트 기기만에 구현되어 있는 시스템이 아닌, 공중망에 구현되어 있는 시스템을 통해 이러한 기술이 제공되도록 하는 것이 본 발명의 해결하고자 하는 과제에 포함될 수 있다.
다만, 본 발명의 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
일 예에 따른 인공지능 서비스의 인터페이싱 장치는 통화망과 연결되는 통화망 인터페이싱부와, 데이터망과 연결되는 데이터망 인터페이싱부와, 인공지능 서비스 제공 서버와 연결되는 인공지능망 인터페이싱부와, 상기 통화망과 연결된 제1 단말로부터 수신받은 제1 음성이 상기 인공지능 서비스 제공 서버에게 전달되도록 제어하고, 상기 제1 음성을 텍스트 변환한 제1 텍스트가 상기 인공지능 서비스 제공 서버로부터 수신되면 상기 제1 텍스트가 상기 데이터망과 연결된 제2 단말에게 전달되도록 제어하며, 상기 제2 단말로부터 수신받은 제2 텍스트가 상기 인공지능 서비스 제공 서버에게 전달되도록 제어하고, 상기 제2 텍스트를 음성 변환한 제2 음성이 상기 인공지능 서비스 제공 서버로부터 수신되면 상기 제2 음성이 상기 제1 단말에게 전달되도록 제어하는 프로세서를 포함한다.
일 예에 따른 인공지능 서비스의 인터페이싱 방법은 인공지능 서비스의 인터페이싱 장치가 수행하며, 통화망과 연결된 제1 단말로부터 제1 음성이 수신되면, 상기 제1 음성을 인공지능 서비스 제공 서버에게 전달하는 단계와, 상기 제1 음성을 텍스트 변환한 제1 텍스트가 상기 인공지능 서비스 제공 서버로부터 수신되면, 데이터망과 연결된 제2 단말에게 상기 제1 텍스트를 전달하는 단계와, 상기 제2 단말로부터 제2 텍스트가 수신되면, 상기 제2 텍스트를 상기 인공지능 서비스 제공 서버에게 전달하는 단계와, 상기 제2 텍스트를 음성 변환한 제2 음성이 상기 인공지능 서비스 제공 서버로부터 수신되면, 상기 제2 음성을 상기 제1 단말에게 전달하는 단계를 포함하여 수행된다.
일 실시예에 따르면 단말 장치와 단말 장치가 서로 간에 음성 또는 영상 통화를 시도하거나 진행하는 중에, 어느 하나의 단말 장치는 음성 또는 영상 통화를 유지하지만 다른 하나의 단말 장치는 메시지를 통한 채팅 방식으로 단말 장치와 소통을 할 수 있다.
도 1은 일 실시예에 따른 인공지능 인터페이싱 장치가 적용된 이동통신망을 개념적으로 도시한 도면이다.
도 2는 도 1에 도시된 인공지능 서비스 제공 서버의 구성을 도시한 도면이다.
도 3은 도 1에 도시된 호처리망의 구성을 도시한 도면이다.
도 4는 도 1에 도시된 인공지능 인터페이싱 장치의 구성을 도시한 도면이다.
도 5는 일 실시예에 따른 인공지능 인터페이싱 방법의 절차를 도시한 도면이다.
도 6은 일 실시예에 따른 인공지능 인터페이싱 방법의 흐름을 도시한 도면이다.
도 7과 8 각각은 일 실시예에서 단말 장치의 화면에 대한 예시이다.
도 9는 텍스트 타입의 통화 서비스에서 텍스트 입력이 지연될 때 이를 보완하기 위해 채용되는 알고리즘을 설명하기 위한 도면이다.
도 10은 일 실시예에 따른 인공지능 인터페이싱 방법의 흐름을 도시한 도면이다.
도 2는 도 1에 도시된 인공지능 서비스 제공 서버의 구성을 도시한 도면이다.
도 3은 도 1에 도시된 호처리망의 구성을 도시한 도면이다.
도 4는 도 1에 도시된 인공지능 인터페이싱 장치의 구성을 도시한 도면이다.
도 5는 일 실시예에 따른 인공지능 인터페이싱 방법의 절차를 도시한 도면이다.
도 6은 일 실시예에 따른 인공지능 인터페이싱 방법의 흐름을 도시한 도면이다.
도 7과 8 각각은 일 실시예에서 단말 장치의 화면에 대한 예시이다.
도 9는 텍스트 타입의 통화 서비스에서 텍스트 입력이 지연될 때 이를 보완하기 위해 채용되는 알고리즘을 설명하기 위한 도면이다.
도 10은 일 실시예에 따른 인공지능 인터페이싱 방법의 흐름을 도시한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 일 실시예에 따른 인공지능 인터페이싱 장치(100)가 적용된 이동통신망(10)을 개념적으로 도시한 도면이다. 다만, 도 1은 예시적인 것에 불과하므로, 인공지능 인터페이싱 장치(100)(이하, 인터페이싱 장치라고 지칭)가 도 1에 도시된 이동통신망(10)에만 적용되는 것으로 한정 해석되지는 않는다.
도 1을 참조하면, 이동통신망(10)은 인터페이싱 장치(100), 인공지능 서비스 제공 서버(200), 통화망(410) 및 데이터망(420)을 포함할 수 있다. 제1 단말 장치(300/1)와 제2 단말 장치(300/2)는 각각 이러한 이동통신망(10)(의 통화망(410)이나 데이터망(420))에 접속하는 단말을 예시적으로 도시한 것이며, 각 단말 장치(300/1,300/2)는 이들 이동통신망(10)에 접속하여서 음성/영상 통화나, 또는 인공지능 서비스와 같은 데이터 서비스를 제공받을 수 있다.
먼저, 인공지능 서비스 제공 서버(200)는 인공지능 서비스를 제공하는 서버를 지칭한다. 인공지능 서비스 제공 서버(200)는 단말 장치(300/1,300/2) 이외에도 다양한 단말이나 서버와 연결될 수 있으며, 이들 각각에게 다양한 인공지능 서비스를 제공할 수 있다.
이러한 인공지능 서비스 제공 서버(200)의 구성은 도 2에 도시되어 있다. 도 2를 참조하면, 인공지능 서비스 제공 서버(200)는 인공지능 처리를 수행하는 인공지능 처리부(intelligence workflow, IWF)(210), 자연어를 처리하는 자연어 처리부(natural language understand)(220), 음성 합성을 수행하는 음성 합성부(text to speech, TTS) 모듈(230) 및 텍스트 합성을 수행하는 텍스트 합성부(speech to text, STT)(240)를 포함할 수 있다. 아울러, 이러한 인공지능 서비스 제공 서버(200)는 복수 개의 서버로 이루어진 서버군으로서 형성될 수 있다.
이 중, 인공지능 처리부(210)는 인간의 사고 처리 방식을 모방해서 인공지능 서비스를 제공하도록 마련된 구성이다. 예컨대 인공지능 처리부(210)는 이미지 인식, 이미지 캡션, 언어 인식 또는 대화 등와 같은 기능을 수행할 수 있으며, 이를 위해 머신러닝이나 딥러닝와 같은 방식에 의해 사전에 학습된 것일 수 있다.
다음으로, 자연어 처리부는, 질문을 입력받으면 이를 인지하고 분석한 뒤, 그에 대한 추천 응답을 제공하는 알고리즘을 채용할 수 있다. 여기서 추천 응답이란, 예컨대 과거에 동일 사용자가 동일 또는 유사한 질문에 대답한 사례의 빈도에 기반한 것이거나 또는 타 사용자라고 하더라도 동일 또는 유사한 질문에 대답한 다양한 사례를 기반으로 추천된 응답일 수 있다.
다음으로, TTS 모듈(230)은 사용자가 입력한 텍스트를 음성으로 합성 내지 변환해서 제공하는 모듈이다. 이 때, 텍스트를 음성으로 변환하는 알고리즘으로는 공지된 다양한 것들이 채용될 수 있다.
한편, 이러한 TTS 모듈(230)은 음성을 합성할 때, 사용자에 대해 획득된 감정이나 기분 등을 반영할 수 있다. 예컨대 동일한 '안녕하세요'라는 음성이라도 기쁘거나 반가운 감정인 경우는 소리의 크기나 톤을 상대적으로 높인다던가, 슬프거나 우울한 경우는 소리의 크기나 톤을 상대적으로 낮춘다던가 등의 방법으로, TTS 모듈(230)은 음성을 합성할 수 있다.
이를 위해, TTS 모듈(230)은 사용자의 감정이나 기분 등을 파악할 수 있어야 하는데, 이는 이하에서의 실시예 중 어느 하나를 채용함으로써 구현 가능하다.
첫째, TTS 모듈(230)은 사람의 감정이나 기분 등을 반영하는 이모티콘 등을 인지 내지 해석하는 모듈을 추가로 구비할 수 있다. 예컨대 TTS 모듈(230)에는 각각의 이모티콘마다 감정이 매핑되어 있는 테이블이 구비되어 있을 수 있다. 텍스트와 함께 웃는 이모티콘, 우는 이모티콘, 화내는 이모티콘 또는 당황한 이모티콘 등이 수신되면, TTS 모듈(230)은 이러한 이모티콘에 대응되는 감정을 전술한 테이블로부터 획득할 수 있다.
둘째, TTS 모듈(230)은 사람의 감정이나 기분 등을 나타내는 별도의 정보를, 단말 장치로부터 획득할 수도 있다. 이를 위해, 예컨대, 단말 장치(300/2)에는 사용자 자신의 감정이나 기분 등을 입력하는 별도의 버튼 등이 마련되어 있을 수 있다. 만약 사용자가 소정의 텍스트를 입력하면서 자신의 감정이나 기분 등을 나타내는 버튼을 누르면, 눌러진 버튼에 해당되는 그 사용자의 감정이나 기분 등에 대한 정보가 TTS 모듈(230)에게 전달될 수 있다.
셋째, TTS 모듈(230)은 텍스트에 나타난 맥락이나 분위기를 인지하는 별도의 모듈을 포함할 수도 있다. 이를 위해 TTS 모듈(230)에는 자연어를 이해하고 인지하는 알고리즘이 채용되어 있을 수 있다.
한편, 이러한 TTS 모듈(230)은 채팅의 당사자로부터 텍스트가 입력되기 시작했는데 소정 시간 동안 텍스트의 입력이 종료, 즉 완료가 되지 않을 경우, 이러한 텍스트의 입력 완료가 지연되고 있음을 나타내는 소리를 음성 사이에 또는 음성 중간에 삽입할 수 있다. 이러한 소리의 종류에는 예컨대 '음...', '그러니까....', '잠깐만....'과 같이, 대화에서 일반적으로 지연을 나타내는 단어가 포함될 수 있다.
다음으로, STT 모듈(240)은 사용자가 발한 음성을 텍스트로 합성 내지 변환해서 제공하는 모듈이다. 이 때, 음성을 텍스트로 변환하는 알고리즘으로는 공지된 다양한 것들이 채용될 수 있다.
한편, 일 실시예에 따른 STT 모듈(240)은 사용자가 입력한 음성으로부터 사용자의 감정이나 기분 등을 판단하도록 학습된 모듈을 포함할 수 있다. 예컨대 STT 모듈(240)은 사용자의 음성의 주파수나 높낮이, 단어와 단어 사이의 간격 또는 음성으로부터 파악된 문맥(context) 등에 기초해서, 음성을 발하고 있는 사용자의 상태를 기쁨, 슬픔, 우울함, 화남, 즐거움, 당황함 또는 흥분함 등으로 분류할 수 있다.
아울러, 이러한 STT 모듈(240)은 텍스트를 합성할 때, 사용자에 대해 판단된 전술한 감정이나 기분 등을 반영할 수 있다. 예컨대 합성된 '안녕하세요'라는 텍스트에 대해, 사용자가 기쁘거나 반가운 감정인 경우에 그에 대응되는 이모티콘 등을 텍스트의 앞이나 중간 또는 끝에 부가할 수 있고, 또한 슬프거나 우울한 감정이 경우에 그에 대응되는 이모티콘 등을 텍스트에 동일/유사한 방식으로 부가할 수도 있다.
다시 도 1을 참조하면, 통화망(410)과 데이터망(420)은 단말 장치(300/1,300/2)들이 접속하는 통신망이다. 도 3은 통화망(410)과 데이터망(420)에 대한 구성을 개념적으로 도시한 도면이다.
도 3을 참조하면, 통화망(410)은 지능망이라고 지칭될 수 있으며, 예컨대 IMS(IP multimedia subsystem)일 수 있다.
이러한 통화망(410)은 교환기망(Call Session Control Function,CSCF)(411), 응용 서비스 노드(telephony application server, TAS)(412) 또는 미디어 리소스 서버(media resource function, MRF)(413)를 포함하며, 그 외에 HLR(Home Location Register)(414), MGCF(Media Gateway Control Function)(415), MGW(Media Gateway)(416), SCC AS(Service Centralization and Continuity Application Server)(417) 등을 포함할 수 있다. 아울러, 이하에서 설명할 각 구성들이 수행하는 기능은 예시적인 것에 불과하다. 따라서, 각 구성들은 이하에서 기술되는 기능 이외의 다른 기능들을 추가적으로 수행할 수 있다.
이 중 교환기망(411)은 각 단말 장치(300/1,300/2)의 위치, 즉 해당 단말 장치가 어떠한 기지국에 연결되어 있는지에 대한 정보를 획득한다.
응용 서비스 노드(412)는 전화와 관련된 기본 기능 및 전화와 관련된 부가 서비스(call hold, swap, forward) 등을 처리한다. 예컨대 응용 서비스 노드(412)는 단말 장치(300/2)로부터 수신된 '텍스트 타입의 통화 서비스에 대한 요청'을 처리할 수 있다. 텍스트 타입의 통화 서비스란, 단말 장치(300/1)와 단말 장치(300/2)가 서로 간에 음성 또는 영상 통화를 시도하거나 진행하는 중에, 어느 하나의 단말 장치(300/1)는 음성 또는 영상 통화를 유지하지만 다른 하나의 단말 장치(300/2)는 메시지를 통한 채팅 방식으로 단말 장치(300/1)와 소통을 하는 서비스를 지칭한다. 이에 대해서는 뒤에 보다 자세하게 살펴보기로 한다.
또한, 응용 서비스 노드(412)는 단말 장치 상호 간에 통화가 연결되거나 끊긴 경우, 이를 이하에서 설명할 인터페이싱 장치(100)에게 통보할 수 있다.
미디어 리소스 서버(413)는 코덱 변환을 수행한다. 코덱 변환을 통해, 서로 상이한 사양의 단말 장치 간의 패킷 교환이 가능하다. 이를 위해, 미디어 리소스 서버(413)는 코덱 변환 모듈을 포함할 수 있다.
미디어 리소스 서버(413)는 미디어 데이터를 전달(forking)한다. 예컨대 미디어 리소스 서버(413)는 제1 단말 장치(300/1)와 제2 단말 장치(300/2) 간에 음성/영상이 전달되도록 할 수 있다. 또한 미디어 리소스 서버(413)는 각 단말 장치(300/1,300/2)로부터 전달받은 미디어 데이터를 인터페이싱 장치(100)에게 전달할 수 있으며, 또한 반대 방향으로 전달할 수도 있다. 이를 위해, 미디어 리소스 서버(413)는 각 단말 장치(300/1,300/2) 또는 인터페이싱 장치(100)와의 통신을 위한 통신 모듈을 포함할 수 있다.
미디어 리소스 서버(413)는 미디어 데이터를 믹싱(mixing)(또는 먹싱(muxing))한다. 미디어 데이터란 각 단말 장치(300/1,3002)에게 제공되는 음성/영상 통화, 데이터 패킷 또는 DTMF(dual tone multiple frequency) 신호 등을 포함할 수 있으며 다만 이에 한정되는 것은 아니다.
믹싱에 있어서, 미디어 리소스 서버(413)는 다양한 객체로부터 전달받은 음원들을 서로 믹싱할 수 있다. 예컨대, 미디어 리소스 서버(413)는 각 단말 장치(300/1,300/2)에게 전달될 음성/영상에 인공지능 서비스 제공 서버(200)로부터 전달받은 음성 신호를 믹싱할 수 있으며, 또한 각 단말 장치(300/1,300/2)에게 전달될 음성/영상에 기 정의된 음원이나 영상(이하에서는 대기 음원 또는 대기 영상이라고 지칭)을 믹싱할 수 있다. 아울러, 미디어 리소스 서버(413)는 믹싱되는 음원들의 크기를 조절할 수 있는데, 이러한 조절은 응용 서비스 노드(412)로부터 전달받은 명령에 의해 수행 가능하다. 이를 위해, 미디어 리소스 서버(413)는 믹싱 모듈을 포함할 수 있다.
한편, 도시된 HLR(Home Location Register)(414), MGCF(Media Gateway Control Function)(415), MGW(Media Gateway)(416), SCC AS(Service Centralization and Continuity Application Server)(417)의 경우 이미 공지된 구성과 동일하므로 이에 대한 설명은 생략하기로 한다.
다음으로, 데이터망(430)은 레거시 호처리망이라고도 지칭되며, 예컨대 WCDMA와 같은 이동통신망을 의미할 수 있다. 이러한 데이터망(430)은 각 단말 장치(300/1,300/2)에게 음성/영상 서비스를 제공할 수 있다. 또한 이러한 데이터망(430)은 각 단말 장치(300/1,300/2)에게 앱 기반의 소정의 서비스를 제공할 수도 있다.
데이터망(430)은 MSC(mobile switching center)(421) 또는 홈 위치 등록기(home location register, HLR)(422)를 포함하고, 그 외에 GGSN(Gateway General packet radio service Support Node)(423), NodeB(424), RNC(Radio Network Controller)(425), SGSN(Serving General packet radio service Support Node)(426), CGS(Cellular Gateway Switch)(427), MME(mobility management entity)(431), PGW(packet data network gateway)(432)를 포함하며, 이외에도 eNodeB(433), SGW(Serving Gateway)(434), PCRF(Policy & Charging Rule Function)(435), HSS(Home Subscriber Server)(436) 등을 포함하거나 이들과 연결될 수 있다. 이러한 데이터망(430)은 공지된 망과 동일한 구성을 가질 수 있는 바, 이러한 데이터망(430)에 대한 자세한 설명은 생략하기로 한다.
다시 도 1을 참조하면, 각 단말 장치(300/1,300/2)는 통화망(410)이나 데이터망(420)을 구성하는 복수 개의 셀 중의 어느 하나(또는 둘 이상)의 셀에 위치하여서 음성/영상 통화 또는 인공지능 서비스와 같은 데이터 서비스를 제공받을 수 있다. 이러한 단말 장치(300/1,300/2)는 스마트폰이나 스마트 패드 또는 태블릿 패드와 같이 다양한 형태로 구현 가능하다. 도 1에 도시된 단말 장치(300/1,300/2) 중 어느 하나의 단말 장치가 발신 단말이면 다른 하나의 단말 장치는 수신 단말일 수 있다.
도 4는 도 1에 도시된 인터페이싱 장치(100)의 구성을 도시한 도면이다. 먼저, 인터페이싱 장치(100)는 이하에서 설명할 기능을 수행하는 서버군에서 구현 가능하다. 아울러, 인터페이싱 장치(100)는 ACS(Augmented Communication System) 또는 ACP(Augmented Communicatin Platform)라고 지칭될 수도 있다.
이러한 인터페이싱 장치(100)는 전술한 메시지를 통한 채팅 방식의 통화 서비스(이하, '텍스트 타입의 통화 서비스'라고 지칭될 수도 있음)를 지원할 수 있다. 즉, 인터페이싱 장치(100)는, 단말 장치(300/1)와 단말 장치(300/2)가 서로 간에 음성 또는 영상 통화를 시도하거나 진행하는 중에, 어느 하나의 단말 장치(300/1)는 음성 또는 영상 통화를 유지하지만 다른 하나의 단말 장치(300/2)는 메시지를 통한 채팅 방식으로 단말 장치(300/1)와 소통을 하도록 지원할 수 있다. 이를 위해, 인터페이싱 장치(100)는 단말 장치(300/1)로부터의 음성을 인공지능 서비스 제공 서버(200)에게 제공하여서 그에 대응되는 텍스트를 제공받을 수 있고, 이렇게 제공받은 텍스트를 단말 장치(300/2)에게 제공할 수 있다. 뿐만 아니라, 인터페이싱 장치(100)는 단말 장치(300/2)로부터의 텍스트를 인공지능 서비스 제공 서버(200)에게 제공하여서 그에 대응되는 음성을 제공받을 수 있고, 이렇게 제공받은 음성을 단말 장치(300/1)에게 제공할 수 있다.
이러한 인터페이싱 장치(100)는, 도 4를 참조하면 인공지능망 인터페이싱부(110), 통화망 인터페이싱부(120), 데이터망 인터페이싱부(130) 및 프로세서(140)를 포함한다. 다만, 도 4는 예시적인 것에 불과한 바, 인터페이싱 장치(100)는 도 4에 도시된 것으로 한정 해석되지 않는다. 예컨대 인터페이싱 장치(100)는 메모리를 더 포함할 수도 있고, 또는 도 4에 도시된 구성 중 적어도 하나를 포함하지 않을 수도 있다.
인공지능망 인터페이싱부(110), 통화망 인터페이싱부(120) 및 데이터망 인터페이싱부(130) 각각은 음성이나 영상 데이터 또는 채팅 메시지와 같은 패킷 데이터를 인공지능 서비스 제공 서버(200), 통화망(410) 및 데이터망(420) 각각과 송수신한다. 이를 위해, 각각의 인터페이싱부(110 내지 130)는 유선 또는 무선 통신 모듈을 포함할 수 있다.
프로세서(140)는 이하에서 설명할 기능을 수행하도록 프로그램된 명령어를 저장하는 메모리와, 이러한 명령어를 실행하는 마이크로프로세서에 의해 구현 가능하다.
보다 구체적으로 살펴보면, 프로세서(140)는 통화망(410)이나 데이터망(420) 각각에 대한 설정을 수행할 수 있다. 또한 프로세서(140)는 통화망(410)으로부터 수신받은 음성, 또는 데이터망(420)으로부터 수신받은 텍스트와 같은 패킷이 인공지능 서비스 제공 서버(200)에게 전달되도록 제어할 수 있다. 또한 프로세서(140)는 인공지능 서비스 제공 서버(200)로부터 수신받은 음성이나 텍스트와 같은 패킷이 통화망(410)이나 데이터망(240)에게 전달되도록 제어할 수 있다.
또한. 프로세서(140)는 각 단말 장치(300/1,300/2) 중 어느 한 단말 장치, 예컨대 단말 장치(300/1)에게 전달된 음성이 해당 단말 장치(300/1)에서 출력이 완료되었는지 여부를 추정할 수 있고, 출력 완료된 것으로 추정되면 이를 타 단말 장치(300/2)에게 알림이 전달되도록 제어할 수 있다. 이를 위해 프로세서(140)는 단말 장치(300/1)에게 전달된 음성이, 단말 장치(300/1)에서 출력 완료되기까지 소요되는 시간을 계산하는 알고리즘을 채용하고 있을 수 있다. 이를 통해, 어느 단말 장치의 사용자는 타 단말 장치에게 음성이 출력 중인지 아니면 출력이 완료되었는지 여부를 인식할 수 있다.
또한, 프로세서(140)는 전술한 TTS 모듈(230)에 채용되어 있는 알고리즘, 즉 텍스트의 입력이 시작되었는데 소정 시간 동안 완료가 되지 않을 경우, 이러한 텍스트의 입력 완료가 지연되고 있음을 나타내는 소리를 음성 사이에 또는 음성 중간에 삽입하는 알고리즘을 채용하고 있을 수도 있다. 여기서, 실시예에 따라, 만약 TTS 모듈(230)에 전술한 알고리즘이 채용되어 있지 않다면 프로세서(140)가 이러한 알고리즘을 채용할 수 있고, 이와 달리 TTS 모듈(230)에 전술한 알고리즘이 채용되어 있다면 프로세서(140)는 이러한 알고리즘을 채용하지 않을 수 있다.
이상에서 살펴본 바와 같이, 일 실시예에 따르면 단말 장치(300/1)와 단말 장치(300/2)가 서로 간에 음성 또는 영상 통화를 시도하거나 진행하는 중에, 어느 하나의 단말 장치(300/1)는 음성 또는 영상 통화를 유지하지만 다른 하나의 단말 장치(300/2)는 메시지를 통한 채팅 방식으로 단말 장치(300/1)와 소통을 할 수 있다.
도 5는 일 실시예에 따른 인공지능 인터페이싱 방법의 절차를 도시한 도면이다. 이러한 인터페이싱 방법은 도 4에 도시된 인터페이싱 장치(100)에 의해 수행 가능하다. 아울러, 도 5에 도시된 인터페이싱 방법은 예시적인 것에 불과한 바, 본 발명의 사상이 도 5에 도시된 것으로 한정 해석되는 것은 아니다.
도 5를 참조하면, 통화망과 연결된 제1 단말로부터 제1 음성이 수신되면, 상기 제1 음성을 인공지능 서비스 제공 서버에게 전달하는 단계(S100)가 수행된다.
또한, 상기 제1 음성을 텍스트 변환한 제1 텍스트가 상기 인공지능 서비스 제공 서버로부터 수신되면, 데이터망과 연결된 제2 단말에게 상기 제1 텍스트를 전달하는 단계(S110)가 수행된다.
또한, 상기 제2 단말로부터 제2 텍스트가 수신되면, 상기 제2 텍스트를 상기 인공지능 서비스 제공 서버에게 전달하는 단계(S120)가 수행된다.
또한, 상기 제2 텍스트를 음성 변환한 제2 음성이 상기 인공지능 서비스 제공 서버로부터 수신되면, 상기 제2 음성을 상기 제1 단말에게 전달하는 단계(S13)가 수행된다.
이하 도 6을 참조해서, 단말 장치들(300/1,300/2)이 서로 음성 또는 영상 통화 중에, 전술한 텍스트 타입의 통화 서비스에 대한 요청이 단말 장치(300/2)로부터 있을 경우에 대한 동작 흐름에 대해 살펴보기로 하자.
도 6을 참조하면, 단말 장치들(300/1,300/2) 간에는 음성 또는 영상 통화가 통화망(410)을 통해 수행된다(①,②).
수행 중 단말 장치(300/2)로부터 텍스트 타입의 통화 서비스에 대한 요청이 통화망(410)에 수신될 수 있다(③). 이러한 요청은 도 7에 도시된 것과 같이 단말 장치(300/2)의 화면(310) 상에서, 소정의 아이콘(311)을 사용자가 터치할 경우, 단말 장치(300/2)로부터 통화망(410)으로 전달된 것일 수 있으며, 다만 이외의 상황에서도 이러한 요청이 수신될 수 있는데, 이에 대해서는 후술하기로 한다.
다시 도 6을 참조하면, 통화망(410)의 응용 서비스 노드, 즉 TAS(412)는 이러한 요청을 인터페이싱 장치(100)에게 전달한다(④).
그러면 인터페이싱 장치(100)는 프로세서(140)를 통해서, 단말 장치(300/1)로부터의 음성이 텍스트로 변환되어서 단말 장치(300/2)에게 전달되도록 제어할 뿐 아니라, 단말 장치(300/2)로부터의 텍스트가 음성으로 변환되어서 단말 장치(300/1)에게 전달되도록 제어를 수행한다. 이에 대해서는 도 6에 도시된 ⑤ 내지 ⑭를 참조해서 살펴보기로 하자.
앞서 살펴본 바와 같이, ④에 대응되는 요청이 TAS(412)로부터 인터페이싱 장치(100)에 수신되었다고 전제하자.
이 후부터, 단말 장치(300/1)의 사용자의 음성이 통화망(410)을 통해 인터페이싱 장치(100)에게 전달되면(⑤, ⑥), 인터페이싱 장치(100)는 이러한 음성을 인공지능 서비스 제공 서버(200)에게 전달한다(⑦).
인공지능 서비스 제공 서버(200)는 STT 모듈(240)를 이용해서 ⑦에서 전달받은 음성을 텍스트로 변환한 뒤, 이러한 텍스트를 인터페이싱 장치(100)에게 전달한다(⑧). 이 때, 이러한 텍스트에는 단말 장치(300/1)의 사용자에 대해 STT 모듈(240)이 파악한 전술한 기분이나 감정 등을 나타내는 이모티콘 등이 포함될 수 있다.
그러면 인터페이싱 장치(100)는 ⑧에서 전달받은 텍스트를 데이터망(420)을 통해 단말 장치(300/2)에게 전달한다(⑨,⑩). 이로써 단말 장치(300/2)의 사용자는 단말 장치(300/1)의 사용자가 발한 음성에 대응되는 텍스트를 채팅 방식의 메시지로서 수신받을 수 있다.
한편, ⑩에서 수신받은 텍스트를 근거로, 단말 장치(300/2)의 사용자는 그러한 텍스트에 대한 응답 메시지를 단말 장치(300/2)에 입력할 수 있다. 이렇게 입력된 응답 메시지에 대한 텍스트는 데이터망(420)을 통해 인터페이싱 장치(100)에게 전달된다(⑪, ⑫).
그러면 인터페이싱 장치(100)는 ⑫에서 전달받은 텍스트를 인공지능 서비스 제공 서버(200)에게 전달한다(⑬).
그러면, 인공지능 서비스 제공 서버(200)는 TTS 모듈(230)를 이용해서 ⑬에서 전달받은 텍스트를 음성으로 변환한 뒤, 이러한 음성을 인터페이싱 장치(100)에게 전달한다(⑭). 이 때, 이렇게 변환된 음성에는, TTS 모듈(230)에 의해 획득된, 단말 장치(300/2)의 사용자의 기분이나 감정 등이 반영되어 있을 수 있으며, 이에 따라 그 음성의 톤이나 크기 등이 변환되어 있을 수 있다.
그러면 인터페이싱 장치(100)는 ⑭에서 전달받은 음성을 통화망(410)을 통해 단말 장치(300/1)에게 전달한다(⑮,16). 이로써 단말 장치(300/21의 사용자는 단말 장치(300/2)의 사용자가 입력한 텍스트에 대응되는 음성을 수신받을 수 있다.
즉, 일 실시예에 따르면, 단말 장치(300/1)와 단말 장치(300/2)가 서로 간에 음성 또는 영상 통화를 시도하거나 진행하는 중에, 어느 하나의 단말 장치(300/1)는 음성 또는 영상 통화를 유지하지만 다른 하나의 단말 장치(300/2)는 메시지를 통한 채팅 방식으로 단말 장치(300/1)와 소통을 할 수 있다.
한편, 도 7에서 살펴본 바로는 단말 장치(300/2)의 사용자가 직접 단말 장치(300/2)의 화면(310)에서 소정의 아이콘(311)을 터치한 경우에 전술한 텍스트 타입의 통화 서비스가 가능하지만, 텍스트 타입의 통화 서비스는 다른 방식에 의해서도 시작될 수 있다. 예컨대 단말 장치(300/2)의 사용자가 단말 장치(300/2)를 '휴식 모드(무음, 무진동 모드 등)'로서 설정한 경우, 단말 장치(300/2)가 음성 또는 영상 통화를 소정의 시간 동안 수행한 이후에는, 사용자가 아이콘(311)을 터치하지 않아도 자동으로 전술한 텍스트 타입의 통화 서비스가 시작될 수 있다.
다른 한편, 단말 장치(300/2)의 사용자는 ⑪에서 텍스트를 전달받을 뿐 아니라, 단말 장치(300/1)의 사용자가 발한 음성, 즉 ⑤와 ⑥의 과정을 통해 인터페이싱 장치(100)에게 전달된 음성까지도 이러한 텍스트와 함께 전달받을 수 있다.
이 때, 단말 장치(300/2)의 사용자는 텍스트만 받고 음성은 받지 않길 원할 수도 있다. 이를 위해, 단말 장치(300/2)의 화면에는 텍스트만 수신되도록 하고 음성은 수신되지 않도록, 즉 음소거를 하는 토글 버튼이 배치되어 있을 수 있으며, 이는 도 8에서 식별번호 312로 도시되어 있다. 사용자가 이러한 토글 버튼을 누를 때마다, 단말 장치(300/1)의 사용자의 음성이 출력되거나 출력되지 않을 수 있다.
또 다른 한편으로, 인공지능 서비스 제공 서버(200)의 자연어 처리부(또는 자연언어 처리부)(220)는 ⑦에서 전달받은 질문을 인지하고 분석한 뒤, 그에 대한 추천 응답을 제공할 수 있다. 이렇게 제공되는 추천 응답은, 인터페이싱 장치(100)를 거쳐서 데이터망(420)을 통해 단말 장치(300/2)에게 제공된다. 그러면, 단말 장치(300/2)의 사용자는 이러한 추천 응답을 선택하는 것만으로도, 자신이 원하는 텍스트가 상대방인 단말 장치(300/1)의 사용자에게 전달되도록 할 수 있다. 즉, 단말 장치(300/2)의 사용자가 텍스트를 입력하는데에 시간이 소요되는 바, 이러한 시간을 단축하기 위해 단말 장치(300/2)의 사용자에게 추천 응답 텍스트가 제공될 수 있는 것이다. 이를 통해 보다 원활하게 단말 장치(300/2)의 사용자는 텍스트 타입의 통화 서비스를 제공받을 수 있다.
또한, 실시예에 따라 단말 장치(300/2)의 화면에는 텍스트 타입의 통화 서비스와 음성/영상 방식의 통화 서비스 사이에서 서로 간에 전환이 가능한 방식 토글 버튼이 마련되어 있을 수 있으며, 이는 도 8에서 식별번호 313으로 도시되어 있다. 사용자가 이러한 토글 버튼을 누를 때마다, 단말 장치(300/2)에서는 텍스트 타입의 통화 서비스가 제공되거나 또는 음성/영상 방식의 통화 서비스가 제공될 수 있다.
또 한편, 텍스트 타입의 통화 서비스가 단말 장치(300/2)에 제공되는 상황을 가정해보면, 단말 장치(300/2)의 사용자가 텍스트를 입력하는 속도가, 단말 장치(300/1)의 사용자가 음성을 발하는 속도보다 상대적으로 느린 경우가 많다. 이에, 인공지능 서비스 제공 서버(200)의 TTS 모듈(230)은, 텍스트의 입력이 시작되었는데 소정 시간 동안 완료가 되지 않을 경우, 이러한 텍스트의 입력이 지연되고 있음을 나타내는 소리를 음성 사이에 또는 음성 중간에 삽입할 수 있다. 도 9를 참조하면, 텍스트의 입력이 시작된 시점부터 소정 시간이 경과되어도 종점이 오지 않았으면, 이러한 소정 시간이 경과된 이후부터 종점의 직전까지 소정의 소리가 상대방의 단말 장치에서 출력될 수 있다. 여기서, 이러한 소리의 종류에는 예컨대 '음...', '그러니까....', '잠깐만....'과 같이, 대화에서 일반적으로 지연을 나타내는 단어가 포함될 수 있다.
도 10은 일 실시예에 따른 인공지능 인터페이싱 방법의 흐름을 도시한 도면이다. 다만, 도 10은 예시적인 것에 불과한 바, 본 발명의 사상이 도 10에 도시된 것으로 한정 해석되지는 않는다.
도 10을 참조하면, 단말 장치들(300/1,300/2) 간에는 음성 또는 영상 통화가 통화망(410)을 통해 수행된다(S10).
수행 중 단말 장치(300/2)로부터 텍스트 타입의 통화 서비스에 대한 요청이 통화망 인터페이싱부(120) 또는 데이터망 인터페이싱부(130)에 수신될 수 있다. 이러한 요청은 도 7에 도시된 것과 같이 단말 장치(300/2)의 화면(310) 상에서, 소정의 아이콘(311)을 사용자가 터치할 경우, 단말 장치(300/2)로부터 전달된 것일 수 있다.
이 후, 데이터망 인터페이싱부(130)에 수신된 S11에서의 요청은 프로세서(140)에게 전달된다(S12). 그러면 프로세서(140)는 통화망 인터페이싱부(120)를 통해 단말 장치(300/1)와 단말 장치(300/2) 각각에게 re-invite를 요청한다(S13 내지 S15). 각 단말 장치(300/1,300/2)는 re-invite가 완료되면, 완료되었다는 응답을 준다(S16,S17)
이후부터 인터페이싱 장치(100)는 프로세서(140)를 통해서, 단말 장치(300/1)로부터의 음성이 텍스트로 변환되어서 단말 장치(300/2)에게 전달되도록 제어할 뿐 아니라, 단말 장치(300/2)로부터의 텍스트가 음성으로 변환되어서 단말 장치(300/1)에게 전달되도록 제어를 수행한다. 이에 대해서는 도 10에 도시된 S20 내지 S43을 참조해서 살펴보기로 하자.
단말 장치(300/1)의 사용자의 음성, 예컨대 '여보세요'가 단말 장치(300/1)로부터 통화망 인터페이싱부(120)를 거쳐서 인공지능망 인터페이싱부(110)를 통해 인공지능 서비스 제공 서버(200)의 STT 모듈(240)에게 전달된다(S20 내지 S22). 그러면 STT 모듈(240)은 이러한 음성 '여보세요'에 대응되는 텍스트를 출력한다. 출력된 텍스트는 인공지능망 인터페이싱부(110)에게 전달된다(S24)한다.
뿐만 아니라 자연언어 처리부(220)는 S22에서 수신된 음성에 대한 추천 응답 텍스트를 도출한 뒤 인공지능망 인터페이싱부(110)에게 전달한다(S23, S25)
그러면 S24와 S25에서 전달받은 텍스트는 데이터망 인터페이싱부(130)를 통해 단말 장치(300/2)에게 전달된다(S27). 이로써 단말 장치(300/2)에는 단말 장치(300/1)의 사용자가 발한 음성에 대응되는 텍스트가 표시된다(S28). 이 때, 단말 장치(300/2)에는 추천 응답 텍스트도 표시된다. 단말 장치(300/2)의 사용자는 이러한 추천 응답 텍스트를 선택하는 것만으로도, 자신이 원하는 응답을 상대방에게 전달할 수 있다.
한편, S28에서 표시된 텍스트를 근거로, 단말 장치(300/2)의 사용자는 그러한 텍스트에 대한 응답 메시지를 단말 장치(300/2)에 입력할 수 있다. 이렇게 입력된 응답 메시지에 대한 텍스트는 데이터망 인터페이싱부(130)를 거쳐서 인공지능망 인터페이싱부(110)에게 전달된다(S30, S31). 아울러, 이러한 텍스트는 인공지능망 인터페이싱부(110)를 통해 인공지능 서비스 제공 서버(200)의 TTS 모듈(230)에게 전달된다(S32).
그러면 TTS 모듈(230)은 이러한 텍스트에 대응되는 음성을 출력한다. 출력된 음성은 인공지능망 인터페이싱부(110)에게 전달된다(S33)한다.
S33에서 전달받은 음성은, 인공지능망 인터페이싱부(110)로부터 통화망 인터페이싱부(120)를 거쳐서 단말 장치(300/1)에게 전달된다(S34 내지 S35). 이로써 단말 장치(300/1)에는 단말 장치(300/2)의 사용자가 입력한 텍스트에 대응되는 음성이 출력된다(S36).
이 후, S36에서의 음성의 출력이 완료되었음이 인터페이싱 장치(100)에서 인식되는데, 이러한 인식은 단말 장치(300/1)로부터 수신받은 정보를 기초로 되거나 또는 프로세서(140)가 이를 계산할 수도 있다. 이 후, S36에서의 음성의 출력이 완료되었음이 데이터망 인터페이싱부(130)를 통해서 단말 장치(300/2)에게 전달된다(S42). 그러면 단말 장치(300/2)에서는, 단말 장치(300/2)의 사용자가 입력한 텍스트가, 상대방에게 음성의 형태로 출력이 완료되었음이 소정의 방식으로 표시된다(S43).
이상에서 살펴본 바와 같이, 일 실시예에 따르면 단말 장치(300/1)와 단말 장치(300/2)가 서로 간에 음성 또는 영상 통화를 시도하거나 진행하는 중에, 어느 하나의 단말 장치(300/1)는 음성 또는 영상 통화를 유지하지만 다른 하나의 단말 장치(300/2)는 메시지를 통한 채팅 방식으로 단말 장치(300/1)와 소통을 할 수 있다. 또한, 이 경우 단말 장치(300/2)의 사용자가 채팅을 입력하는데에 시간이 소요되는 바, 이러한 시간을 단축하기 위해 단말 장치(300/2)의 사용자에게는 추천 응답 텍스트가 제공될 수도 있다. 이를 통해 보다 원활하게 단말 장치(300/2)의 사용자는 텍스트 타입의 통화 서비스를 제공받을 수 있다.
한편, 본 발명의 사상에 따른 전술한 방법은, 이러한 방법에 포함된 각 단계를 수행하도록 프로그램된 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능한 기록매체, 또는 이러한 컴퓨터 판독가능한 기록매체에 저장된 컴퓨터 프로그램에 의해 구현 가능하다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다
일 실시예에 따르면, 사용자는 자신이 원할 때 텍스트 타입의 통화 서비스를 제공받을 수 있다.
100: 인공지능의 인터페이싱 장치
200: 인공지능 서비스 제공 서버
300/1,2: 단말 장치
200: 인공지능 서비스 제공 서버
300/1,2: 단말 장치
Claims (8)
- 통화망과 연결되는 통화망 인터페이싱부와,
데이터망과 연결되는 데이터망 인터페이싱부와,
인공지능 서비스 제공 서버와 연결되는 인공지능망 인터페이싱부와,
상기 통화망과 연결된 제1 단말로부터 수신받은 제1 음성이 상기 인공지능 서비스 제공 서버에게 전달되도록 제어하고, 상기 제1 음성을 텍스트 변환한 제1 텍스트가 상기 인공지능 서비스 제공 서버로부터 수신되면 상기 제1 텍스트가 상기 데이터망과 연결된 제2 단말에게 전달되도록 제어하며, 상기 제2 단말로부터 수신받은 제2 텍스트가 상기 인공지능 서비스 제공 서버에게 전달되도록 제어하고, 상기 제2 텍스트를 음성 변환한 제2 음성이 상기 인공지능 서비스 제공 서버로부터 수신되면 상기 제2 음성이 상기 제1 단말에게 전달되도록 제어하는 프로세서를 포함하고,
상기 제1 음성, 상기 제1 텍스트, 상기 제2 음성 및 상기 제2 텍스트 각각의 전달에 대한 상기 프로세서의 제어는,
상기 통화망을 통해 상기 제1 단말과 상기 제2 단말이 음성 통화를 수행하는 중, 상기 제2 단말로부터 텍스트 타입의 통화 서비스에 대해 요청이 있으면 수행되고,
상기 제2 음성은 상기 제1 음성의 수신에 따른 응답이고,
상기 제2 텍스트는 상기 제1 텍스트의 수신에 따른 응답인
인공지능 서비스의 인터페이싱 장치. - 제 1 항에 있어서,
상기 제1 텍스트는,
상기 제1 음성과 함께 상기 제2 단말에게 전달되는
인공지능 서비스의 인터페이싱 장치. - 제 1 항에 있어서,
상기 인공지능망 인터페이싱부는 상기 제1 텍스트에 대한 상기 제2 단말 입장에서의 추천 응답 텍스트를 상기 인공지능 서비스 제공 서버로부터 수신하고,
상기 프로세서는 상기 추천 응답 텍스트가 상기 제2 단말에게 전달되도록 제어하는
인공지능 서비스의 인터페이싱 장치. - 제 3 항에 있어서,
상기 추천 응답 텍스트는,
상기 제2 단말이 상기 제1 텍스트에 대응하여 응답했었던 각 사례의 빈도에 기반한 것이거나 또는 상기 인공지능 서비스 제공 서버가 상기 제1 텍스트에 기반한 복수 개의 사례를 바탕으로 추천한 것인
인공지능 서비스의 인터페이싱 장치. - 제 1 항에 있어서,
상기 프로세서는,
상기 제2 음성이 상기 제1 단말에서 출력 완료되었는지 여부에 대해 추정하고, 출력 완료된 것으로 추정되면 상기 제2 단말에게 알림이 전달되도록 제어하는
인공지능 서비스의 인터페이싱 장치. - 제 1 항에 있어서,
상기 프로세서는,
상기 제2 텍스트가 상기 제2 단말에서 입력 시작된 시점과 입력 종료된 종점에 대한 정보를 획득하고, 상기 시점으로부터 소정 시간이 경과된 이후부터 상기 종점까지는, 상기 제2 텍스트가 입력 중임을 나타내는 소정의 사운드가 상기 제1 단말에서 출력되도록 제어하는
인공지능 서비스의 인터페이싱 장치. - 인공지능 서비스의 인터페이싱 장치가 수행하는 인공지능 서비스의 인터페이싱 방법으로서,
통화망과 연결된 제1 단말로부터 제1 음성이 수신되면, 상기 제1 음성을 인공지능 서비스 제공 서버에게 전달하는 단계와,
상기 제1 음성을 텍스트 변환한 제1 텍스트가 상기 인공지능 서비스 제공 서버로부터 수신되면, 데이터망과 연결된 제2 단말에게 상기 제1 텍스트를 전달하는 단계와,
상기 제2 단말로부터 제2 텍스트가 수신되면, 상기 제2 텍스트를 상기 인공지능 서비스 제공 서버에게 전달하는 단계와,
상기 제2 텍스트를 음성 변환한 제2 음성이 상기 인공지능 서비스 제공 서버로부터 수신되면, 상기 제2 음성을 상기 제1 단말에게 전달하는 단계를 포함하고,
상기 제1 음성을 전달하는 단계와, 상기 제1 텍스트을 전달하는 단계와, 상기 제2 음성을 전달하는 단계와, 상기 제2 텍스트를 전달하는 단계는,
상기 통화망을 통해 상기 제1 단말과 상기 제2 단말이 음성 통화를 수행하는 중, 상기 제2 단말 입장에서 텍스트 타입의 통화 서비스에 대해 요청이 있으면 수행되고,
상기 제2 음성은 상기 제1 음성의 수신에 따른 응답이고,
상기 제2 텍스트는 상기 제1 텍스트의 수신에 따른 응답인
인공지능 서비스의 인터페이싱 방법. - 컴퓨터 판독가능한 기록매체에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은, 인공지능 서비스의 인터페이싱 장치에 포함된 프로세서에 의해 수행되면,
통화망과 연결된 제1 단말로부터 제1 음성이 수신된 경우, 상기 제1 음성이 인공지능 서비스 제공 서버에게 전달되도록 제어하는 단계와,
상기 제1 음성을 텍스트 변환한 제1 텍스트가 상기 인공지능 서비스 제공 서버로부터 수신되면, 데이터망과 연결된 제2 단말에게 상기 제1 텍스트가 전달되도록 제어하는 단계와,
상기 제2 단말로부터 제2 텍스트가 수신되면, 상기 제2 텍스트가 상기 인공지능 서비스 제공 서버에게 전달되도록 제어하는 단계와,
상기 제2 텍스트를 음성 변환한 제2 음성이 상기 인공지능 서비스 제공 서버로부터 수신되면, 상기 제2 음성이 상기 제1 단말에게 전달되도록 제어하는 단계를 포함하고,
상기 제1 음성을 전달하는 단계와, 상기 제1 텍스트을 전달하는 단계와, 상기 제2 음성을 전달하는 단계와, 상기 제2 텍스트를 전달하는 단계는,
상기 통화망을 통해 상기 제1 단말과 상기 제2 단말이 음성 통화를 수행하는 중, 상기 제2 단말 입장에서 텍스트 타입의 통화 서비스에 대해 요청이 있으면 수행되고,
상기 제2 음성은 상기 제1 음성의 수신에 따른 응답이고,
상기 제2 텍스트는 상기 제1 텍스트의 수신에 따른 응답인
인공지능 서비스의 인터페이싱 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는
컴퓨터 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220036715A KR102477900B1 (ko) | 2020-10-12 | 2022-03-24 | 인공지능 서비스를 인터페이싱하는 장치 및 방법 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200131144A KR102380557B1 (ko) | 2020-10-12 | 2020-10-12 | 인공지능 서비스를 인터페이싱하는 장치 및 방법 |
KR1020220036715A KR102477900B1 (ko) | 2020-10-12 | 2022-03-24 | 인공지능 서비스를 인터페이싱하는 장치 및 방법 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200131144A Division KR102380557B1 (ko) | 2020-10-12 | 2020-10-12 | 인공지능 서비스를 인터페이싱하는 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220048463A true KR20220048463A (ko) | 2022-04-19 |
KR102477900B1 KR102477900B1 (ko) | 2022-12-15 |
Family
ID=80934797
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200131144A KR102380557B1 (ko) | 2020-10-12 | 2020-10-12 | 인공지능 서비스를 인터페이싱하는 장치 및 방법 |
KR1020220036715A KR102477900B1 (ko) | 2020-10-12 | 2022-03-24 | 인공지능 서비스를 인터페이싱하는 장치 및 방법 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200131144A KR102380557B1 (ko) | 2020-10-12 | 2020-10-12 | 인공지능 서비스를 인터페이싱하는 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (2) | KR102380557B1 (ko) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006140748A (ja) * | 2004-11-11 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 通信端末装置、コミュニケーション方法およびそのプログラム |
KR20110041322A (ko) | 2009-10-15 | 2011-04-21 | 주식회사 엘지유플러스 | 패킷 통화 중 데이터를 전송하는 단말기 및 이를 포함하는 서비스 시스템 |
KR20200026166A (ko) * | 2018-08-31 | 2020-03-10 | 주식회사 케이티 | 발신 부가 서비스 제공 방법 및 그 시스템 |
KR102147619B1 (ko) * | 2020-01-20 | 2020-08-25 | 아틀라스 가이드, 인코퍼레이션. | 전화 통화를 관리하는 방법 및 이러한 방법을 실행하는 인공지능 비서 시스템 |
-
2020
- 2020-10-12 KR KR1020200131144A patent/KR102380557B1/ko active IP Right Grant
-
2022
- 2022-03-24 KR KR1020220036715A patent/KR102477900B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006140748A (ja) * | 2004-11-11 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 通信端末装置、コミュニケーション方法およびそのプログラム |
KR20110041322A (ko) | 2009-10-15 | 2011-04-21 | 주식회사 엘지유플러스 | 패킷 통화 중 데이터를 전송하는 단말기 및 이를 포함하는 서비스 시스템 |
KR20200026166A (ko) * | 2018-08-31 | 2020-03-10 | 주식회사 케이티 | 발신 부가 서비스 제공 방법 및 그 시스템 |
KR102147619B1 (ko) * | 2020-01-20 | 2020-08-25 | 아틀라스 가이드, 인코퍼레이션. | 전화 통화를 관리하는 방법 및 이러한 방법을 실행하는 인공지능 비서 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR102477900B1 (ko) | 2022-12-15 |
KR102380557B1 (ko) | 2022-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8285257B2 (en) | Emotion recognition message system, mobile communication terminal therefor and message storage server therefor | |
EP2494546B1 (en) | Method, server and system for transcription of spoken language | |
US9648469B2 (en) | Text alternative to established voice call session | |
US9614969B2 (en) | In-call translation | |
US20150347399A1 (en) | In-Call Translation | |
US20080151786A1 (en) | Method and apparatus for hybrid audio-visual communication | |
JPH09214486A (ja) | 情報処理装置および情報処理方法 | |
CN104539871B (zh) | 多媒体通话方法及装置 | |
CN109728994B (zh) | 通话方法、装置及计算机可读存储介质 | |
CN112887194B (zh) | 实现听障人士通话的交互方法、装置、终端及存储介质 | |
JP2013009434A (ja) | サービスサーバ装置、サービス提供方法、サービス提供プログラム | |
KR102380557B1 (ko) | 인공지능 서비스를 인터페이싱하는 장치 및 방법 | |
KR100994889B1 (ko) | 영상 채팅 시스템 및 영상 채팅 서비스 제공 방법 | |
KR102160744B1 (ko) | 인공지능 서비스를 인터페이싱하는 장치 및 방법 | |
JP2013009366A (ja) | サービスサーバ装置、サービス提供方法、サービス提供プログラム | |
KR20220051690A (ko) | 단말 장치, 이에 의해 수행되는 방법 및 인터페이싱 장치 | |
KR100723707B1 (ko) | 착신 이동통신 단말기로 이미지 콜 서비스를 제공하는 방법및 시스템 | |
CN105306656B (zh) | 呼叫留言方法、装置及系统 | |
KR102318296B1 (ko) | 인공지능 서비스를 인터페이싱하는 장치 및 방법 | |
WO2024070550A1 (ja) | システム、電子機器、システムの制御方法、及びプログラム | |
EP3697069A1 (en) | Method for providing a digital assistant in a communication session and associated communication network | |
KR20110030985A (ko) | 영상 채팅 방식을 이용한 텍스트-음성 통화 서비스 방법 및 시스템 | |
CN118433306A (zh) | 视频彩铃交互式媒体处理方法、装置、系统、设备及介质 | |
KR101172295B1 (ko) | 다자간 통화 서비스 장치 및 방법 | |
CN109548181A (zh) | 信息获取方法、装置、存储介质及移动终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |