KR20190007934A

KR20190007934A - 통신 장치, 서버 및 동작 방법

Info

Publication number: KR20190007934A
Application number: KR1020170089606A
Authority: KR
Inventors: 안상일; 최혁
Original assignee: 주식회사 하이퍼커넥트
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2019-01-23
Also published as: KR102283972B1

Abstract

전자 장치의 동작 방법은 제1 단말기 및 제2 단말기 사이에 영상 통화가 실행되는 단계, 제1 단말기에 의해, 제2 단말기로부터 음성을 수신하는 단계, 수신된 음성을 녹음하는 단계, 녹음된 음성을 기반으로 생성된 텍스트를 획득하는 단계, 수신된 텍스트에 부적절한(abusive) 요소가 포함되어 있는지 여부에 대한 예측 결과를 준비하는 단계, 및 예측 결과에 기초하여 제2 단말기의 사용자를 불량 사용자로서 신고할지 여부를 판단하는 단계를 포함한다.

Description

통신 장치, 서버 및 동작 방법{COMMUNICATION DEVICE, SERVER AND METHOD OF OPERATION THEREOF}

기재된 실시 예는 상대방과 영상 통화 중인 사용자가 상대방으로부터의 부적절한(abusive) 음성에 노출되는 것을 방지할 수 있는 장치, 서버 및 동작 방법에 관한 것이다.

통신 기술이 발전하고 전자 장치가 소형화됨에 따라 개인용 단말기는 일반 소비자에게 널리 보급되고 있다. 특히 최근에는 스마트폰 또는 스마트 태블릿과 같은 휴대용 개인 단말기가 널리 보급되고 있다. 단말기의 대부분은 통신 기능을 포함하고 있다. 사용자는 단말기를 이용하여 인터넷에서 검색을 수행하거나 다른 사용자와 메시지를 주고받을 수 있다.

또한, 소형 카메라 기술, 소형 마이크 기술, 소형 디스플레이 기술 및 소형 스피커 기술의 발전에 따라 스마트폰과 같은 대부분의 단말기에는 카메라, 마이크, 디스플레이 및 스피커가 포함되어 있다. 사용자는 단말기를 이용하여 음성을 녹음하거나 음성이 포함된 동영상을 촬영할 수 있다. 사용자는 단말기에 포함된 스피커를 통해 녹음된 음성을 확인하거나 디스플레이를 통해 촬영된 동영상을 확인할 수 있다.

또한, 사용자는 단말기의 통신 기능을 이용하여 녹음된 음성 또는 촬영된 동영상을 다른 사용자와 공유할 수 있다. 사용자는 이전에 녹음된 음성 또는 이전에 촬영된 동영상을 다른 사용자에게 전송할 수 있다. 또한, 사용자는 단말에 의해 현재 녹음되고 있는 음성 또는 현재 촬영되고 있는 동영상을 실시간으로 다른 사용자에게 전송할 수 있다.

동시에, 다른 사용자는 자신의 단말기에 의해 현재 녹음되고 있는 음성 또는 현재 촬영되고 있는 동영상을 실시간으로 사용자에게 전송할 수 있다. 사용자의 단말기에 포함된 디스플레이는 사용자의 단말기에 의해 현재 촬영되고 있는 동영상 및 다른 사용자의 단말기에 의해 현재 촬영되고 있는 동영상을 동시에 표시할 수 있다. 또한, 사용자의 단말기에 포함된 스피커는 다른 사용자의 단말에 의해 현재 녹음되고 있는 음성을 동시에 재생할 수 있다. 다시 말해서, 사용자 및 다른 사용자는 각자의 단말기를 이용하여 서로 영상 통화(video call)를 할 수 있다.

사용자 및 다른 사용자는 서로 이미 아는 관계일 수도 있고, 서로 모르는 관계일 수도 있다. 사용자의 단말기 및 다른 사용자의 단말기를 포함한 복수의 단말기는 서버에 연결될 수 있다. 서버는 사용자의 단말 및 다른 사용자의 단말기 사이를 중개할 수 있다. 따라서, 사용자 및 다른 사용자는 서로 모르는 관계였다고 하더라도 서버의 중개를 통해 서로 영상 통화를 할 수 있다.

사용자가 상대방과 서로 영상 통화를 하는 도중에, 사용자는 상대방으로부터의 부적절한 음성에 노출될 수 있다. 예를 들어, 상대방의 단말기에 의해 상대방의 욕설과 같은 부적절한 음성이 사용자의 단말기에 수신될 수 있다. 사용자의 단말기가 수신된 음성을 출력함으로써 사용자는 부적절한 음성에 노출될 수 있다. 사용자가 자신이 원하지 않는 음성을 듣는 경우 사용자는 성적 수치심 또는 불쾌함을 느낄 수 있다.

기재된 실시 예에 따르면 사용자 간의 건전한 영상 통화를 유도할 수 있는 통신 장치, 서버 및 동작 방법이 제공될 수 있다.

또한, 영상 통화 중인 사용자가 상대방으로부터의 부적절한 음성에 노출되는 것을 방지할 수 있는 통신 장치, 서버 및 동작 방법이 제공될 수 있다.

또한, 영상 통화 중인 사용자가 상대방의 음성에 의해 느낄 수 있는 성적 수치심 또는 불쾌함을 방지할 수 있는 통신 장치, 서버 및 동작 방법이 제공될 수 있다.

본 발명의 실시 예에 따른 전자 장치의 동작 방법은 제1 단말기 및 제2 단말기 사이에 영상 통화가 실행되는 단계, 제1 단말기에 의해, 제2 단말기로부터 음성을 수신하는 단계, 수신된 음성을 녹음하는 단계, 녹음된 음성을 기반으로 생성된 텍스트를 획득하는 단계, 수신된 텍스트에 부적절한(abusive) 요소가 포함되어 있는지 여부에 대한 예측 결과를 준비하는 단계, 및 예측 결과에 기초하여 제2 단말기의 사용자를 불량 사용자로서 신고할지 여부를 판단하는 단계를 포함한다.

몇몇 실시 예로서, 수신된 음성을 녹음하는 단계는 외부로부터의 녹취 명령에 응답하여 수신된 음성을 녹음하는 단계를 포함한다.

몇몇 실시 예로서, 수신된 텍스트에 부적절한 요소가 포함되어 있는지 여부에 대한 예측 결과를 준비하는 단계는 특정 텍스트 및 특정 텍스트에 부적절한 요소가 포함되어 있는지 여부에 대한 정보를 이용하여 학습된 기계 학습 모델을 준비하는 단계, 및 수신된 텍스트가 부적절한 요소를 포함하는지 여부를 기계 학습 모델을 이용하여 예측하는 단계를 포함한다.

몇몇 실시 예로서, 예측 결과에 기초하여 제2 단말기의 사용자를 불량 사용자로서 신고할지 여부를 판단하는 단계는 기계 학습 모델을 이용하여 예측한 결과로서 수신된 텍스트가 부적한 요소를 포함하는 것으로 예측되는 경우, 신고를 제안하는 메시지를 표시하는 단계, 신고를 제안하는 메시지에 대한 응답으로 신고 입력을 수신하는 단계, 및 신고 입력에 대한 응답으로 제2 단말기의 사용자를 불량 사용자로서 신고하기 위해 부적절한 요소를 포함하는 텍스트를 서버에 전송하는 단계를 포함한다.

몇몇 실시 예로서, 예측 결과에 기초하여 제2 단말기의 사용자를 불량 사용자로서 신고할지 여부를 판단하는 단계는 기계 학습 모델을 이용하여 수신된 텍스트가 부적한 요소를 포함하는 것으로 예측되는 경우, 신고 입력에 대한 응답으로 제2 단말기의 사용자를 불량 사용자로서 신고하기 위해 부적절한 요소를 포함하는 텍스트를 자동으로 서버에 전송하는 단계를 포함한다.

몇몇 실시 예로서, 수신된 텍스트가 부적절한 요소를 포함하는지 여부를 기계 학습 모델을 이용하여 예측하는 단계는 기계 학습 모델을 이용하여 욕설, 협박성(intimidatory) 발언, 혐오성 발언, 반사회적 발언, 반인류적 발언, 성적인 발언, 범죄성(criminality) 발언 또는 모욕적인 발언 중 적어도 하나에 대응하는 부적절한 요소를 검출하는 단계를 포함한다.

몇몇 실시 예로서, 수신된 텍스트에 부적절한 요소가 포함되어 있는지 여부에 대한 예측 결과를 준비하는 단계는 수신된 텍스트를 서버에 전송하는 단계, 및 서버로부터 텍스트를 기반으로 생성되는 예측 결과를 수신하는 단계를 포함한다.

몇몇 실시 예로서, 수신된 음성을 녹음하는 단계는 영상 통화의 시작과 동시에 녹음을 실행하는 단계를 포함한다.

본 발명의 실시 예에 따른 서버의 동작 방법은 제1 단말기 및 제2 단말기가 서로 영상 통화를 수행하도록 중개하는 단계, 제1 단말기로부터 제2 단말기와의 영상 통화 중 녹음된 음성을 변환하여 생성된 텍스트를 수신하는 단계, 및 수신된 텍스트가 부적절한(abusive) 요소를 포함하는지 여부를 기계 학습 모델을 이용하여 예측하는 단계를 포함한다.

몇몇 실시 예로서, 제1 단말기 및 제2 단말기가 영상 통화를 수행하도록 중개하는 단계 이전에 특정 텍스트 및 특정 텍스트에 부적절한 요소가 포함되어 있는지 여부에 대한 정보를 이용하여 학습된 기계 학습 모델을 준비하는 단계를 더 포함한다.

몇몇 실시 예로서, 예측 결과에 의해 수신된 텍스트가 부적절한 요소를 포함하는 것으로 예측되는 경우, 제1 단말기로 신고를 제안하는 메시지를 전송하는 단계, 제1 단말기로부터 신고를 제안하는 메시지에 대한 응답으로 신고 입력을 수신하는 단계, 및 신고 입력에 대한 응답으로 기준 기간동안 제2 단말기로부터 수신되는 영상 통화 중개 요청을 차단하는 단계를 더 포함한다.

몇몇 실시 예로서, 예측 결과를 기반으로 수신된 텍스트가 부적절한 요소를 포함하는지 여부를 판단하는 단계, 및 수신된 텍스트가 부적절한 요소를 포함하는 것으로 예측되는 경우, 기준 기간동안 제2 단말기로부터 수신되는 영상 통화 중개 요청을 차단하는 단계를 더 포함한다.

본 발명의 실시 예에 따른 전자 장치는 음성을 수신하는 입력부, 수신된 음성을 인코딩하는 제어부, 및 인코딩된 음성을 제1 서버에 전송하고, 제1 서버로부터 음성을 기반으로 생성되는 텍스트를 수신하는 통신부를 포함하고, 제어부는 특정 텍스트 및 특정 텍스트에 부적절한(abusive) 요소가 포함되어 있는지 여부에 대한 정보를 이용하여 학습된 기계 학습 모델을 기반으로 수신된 텍스트가 부적절한 요소를 포함하는지 여부를 예측한다.

몇몇 실시 예로서, 제어부에 의해 수신된 텍스트가 부적절한 요소를 포함하는 것을 예측되는 경우, 통신부는 텍스트를 제2 서버에 전송한다

몇몇 실시 예로서, 제어부는 기계 학습 모델을 학습시키고, 학습된 기계 학습 모델을 저장하기 위한 저장부를 더 포함한다.

몇몇 실시 예로서, 제어부에 의해 수신된 텍스트가 부적절한 요소를 포함하는 것으로 예측되는 경우, 수신된 텍스트를 신고할 것을 제안하는 메시지를 출력하는 출력부를 더 포함한다.

몇몇 실시 예로서, 입력부를 통해 신고에 동의하는 신고 입력이 수신되는 경우, 통신부는 텍스트를 제2 서버에 전송한다.

기재된 실시 예에 따르면 사용자 간의 건전한 영상 통화가 유도될 수 있다.

또한, 실시 예에 따르면 영상 통화 중인 사용자가 상대방으로부터의 부적절한 음성에 노출되는 것이 방지될 수 있다.

또한, 실시 예에 따르면 영상 통화 중인 사용자가 상대방의 음성에 의해 느낄 수 있는 성적 수치심 또는 불쾌함이 방지될 수 있다.

도 1은 본 발명의 실시 예에 따른 복수의 전자 장치(100, 150)가 동작하는 환경을 나타내는 네트워크 구성도이다.
도 2는 본 발명의 실시 예에 따른 전자 장치의 구성을 나타내는 블록도이다.
도 3은 본 발명의 실시 예에 따른 전자 장치가 영상 통화를 수행하는 방법을 보여주는 순서도이다.
도 4는 본 발명의 실시 예에 따른 녹취 명령을 수신하기 위해 제1 단말기에 디스플레이되는 화면을 보여주는 참고도이다.
도 5는 본 발명의 다른 실시 예에 따른 전자 장치가 영상 통화를 수행하는 방법을 보여주는 순서도이다.
도 6은 본 발명의 실시 예에 따른 제1 단말기가 예측 결과를 생성하는 방법을 보여주는 순서도이다.
도 7은 본 발명의 실시 예에 따른 제1 단말기가 판정 결과를 생성하는 방법을 보여주는 순서도이다.
도 8은 본 발명의 실시 예에 따른 제1 단말기가 신고를 제안하는 메시지를 표시하는 방법을 보여주는 참고도이다.
도 9는 본 발명의 다른 실시 예에 따른 제1 단말기가 신고를 제안하는 메시지를 표시하는 방법을 보여주는 참고도이다.
도 10은 본 발명의 다른 실시 예에 따른 제1 단말기가 예측 결과를 생성하는 방법을 보여주는 순서도이다.
도 11은 본 발명의 또 다른 실시 예에 따른 전자 장치가 영상 통화를 수행하는 방법을 보여주는 순서도이다.
도 12는 본 발명의 실시 예에 따른 제2 서버의 동작 방법을 보여주는 순서도이다.
도 13은 본 발명의 실시 예에 따른 제2 서버가 판정 결과를 생성하는 방법을 보여주는 순서도이다.
도 14는 본 발명의 다른 실시 예에 따른 제2 서버가 판정 결과를 생성하는 방법을 보여주는 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

비록 "제1" 또는 "제2" 등이 다양한 구성요소를 서술하기 위해서 사용되나, 이러한 구성요소는 상기와 같은 용어에 의해 제한되지 않는다. 상기와 같은 용어는 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용될 수 있다. 따라서, 이하에서 언급되는 제1구성요소는 본 발명의 기술적 사상 내에서 제2구성요소일 수도 있다.

본 명세서에서 사용된 용어는 실시 예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소 또는 단계가 하나 이상의 다른 구성요소 또는 단계의 존재 또는 추가를 배제하지 않는다는 의미를 내포한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 해석될 수 있다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

도 1은 본 발명의 실시 예에 따른 복수의 전자 장치(100, 150)가 동작하는 환경을 나타내는 네트워크 구성도이다. 도 1을 참조하면, 복수의 전자 장치들(100, 150)가 동작하는 환경은 복수의 전자 장치(100, 150) 및 복수의 전자 장치(100, 150)를 서로 연결하는 적어도 하나 이상의 서버(200, 300)를 포함할 수 있다.

도 1에서는 편의상 두 개의 전자 장치(100, 150) 및 두 개의 서버(200, 300)만이 도시되어 있으나, 전자 장치의 개수 및 서버의 개수는 다양하게 정해질 수 있다. 복수의 전자 장치(100, 150) 각각은 데스크탑 컴퓨터, 랩탑 컴퓨터, 스마트폰, 스마트 태블릿, 스마트 워치, 이동 단말, 디지털 카메라, 웨어러블 디바이스(wearable device), 또는 휴대용 전자기기 중 하나로 구현될 수 있다.

제1 전자 장치(100)는 제1 서버(200) 또는 제2 서버(300)의 중개를 통해 제2 전자 장치(150)와 서로 연결될 수 있다. 제1 전자 장치(100)는 제2 전자 장치(150)에 데이터를 전송하거나 제2 전자 장치(150)로부터 데이터를 수신할 수 있다. 서로 연결된 제1 전자 장치(100) 및 제2 전자 장치(150)는 서로 메시지, 파일, 데이터, 영상, 동영상, 소리, 또는 음성 등을 주고 받을 수 있다.

제1 전자 장치(100)는 제2 전자 장치(150)와의 음성 통화 세션 또는 영상 통화 세션을 수립할 수 있다. 예를 들어, 영상 통화 세션은 TCP(Transmission Control Protocol), UDP(User Datagram Protocol), 또는 WebRTC(Web Real-Time Communication) 등을 이용하여 수립될 수 있다. 제1 전자 장치(100)의 사용자 및 제2 전자 장치(150)의 사용자는 음성 통화 세션 또는 영상 통화 세션을 이용하여 서로 음성 통화 또는 영상 통화를 할 수 있다.

영상 통화 세션은 제1 전자 장치(100) 및 제2 전자 장치(150) 사이에 직접적으로 수립될 수 있다. 다른 실시 예에 따르면, 적어도 하나 이상의 다른 장치를 경유하여 제1 전자 장치(100) 및 제2 전자 장치(150) 사이에 영상 통화 세션이 수립될 수 있다. 예를 들어, 영상 통화 세션은 제1 전자 장치(100)과 제1 서버(200) 또는 제2 서버(300) 사이에 수립된 세션 및 제1 서버(200) 또는 제2 서버(300)와 제2 전자 장치(150) 사이에 수립된 세션을 포함할 수 있다.

제1 전자 장치(100) 및 제2 전자 장치(150)는 서로 직접 데이터를 주고 받을 수 있다. 또한, 제1 전자 장치(100) 및 제2 전자 장치(150)는 제1 서버(200) 또는 제2 서버(300)를 경유하여 서로 데이터를 주고 받을 수 있다.

제1 서버(200)는 음성 인식 서버일 수 있다. 제1 서버(200)는 제1 단말기(100) 또는 제2 단말기(150)로부터 인코딩된 음성을 수신할 수 있다. 제1 서버(200)는 인코딩된 음성을 인식하고, 인식된 음성을 텍스트로 변환할 수 있다. 예를 들어, 제1 서버(100)는 STT(Speech to Text) 기능을 이용하여 인식된 음성을 텍스트로 변환할 수 있다. 그리고, 제1 서버(200)는 변환된 텍스트를 제1 단말기(100) 또는 제2 단말기(150)에 전송할 수 있다.

제2 서버(300)는 복수의 전자 장치(100, 150)가 서로 통신을 수행할 수 있도록 연결시킬 수 있다. 본 발명의 다른 실시 예에 따르면, 제2 서버(300)는 복수의 전자 장치(100, 150)가 서로 통신을 수행할 수 있도록 연결시킬 수 있다. 도 1을 참조하면, 두 개의 서버(200, 300)가 도시되어 있다. 하지만, 서버의 개수는 두 개로 한정되지 않는다. 복수의 전자 장치(100, 150)가 동작하는 환경에는 적어도 하나 이상의 서버를 포함할 수 있다. 예를 들어, 제1 서버(200)는 제2 서버(300)에 포함될 수 있다. 또는, 제2 서버(300)는 제1 서버(200)에 포함될 수 있다. 이에 한정되지 않고, 복수의 전자 장치(100, 150)가 동작하는 환경에는 서버가 하나도 포함되지 않을 수 있다.

복수의 서버(200, 300)와 연결된 통신망은 유선 통신망, 무선 통신망, 또는 복합 통신망을 포함할 수 있다. 통신망은 3G, LTE, 또는 LTE-A 등과 같은 이동 통신망을 포함할 수 있다. 통신망은 와이파이(Wi-Fi), UMTS/GPRS, 또는 이더넷(Ethernet) 등과 같은 유선 또는 무선 통신망을 포함할 수 있다. 통신망은 마그네틱 보안 전송(MST, Magnetic Secure Transmission), RFID(Radio Frequency IDentification), NFC(Near Field Communication), 지그비(ZigBee), Z-Wave, 블루투스(Bluetooth), 저전력 블루투스(BLE, Bluetooth Low Energy), 또는 적외선 통신(IR, InfraRed communication) 등과 같은 근거리 통신망을 포함할 수 있다. 통신망은 근거리 네트워크(LAN, Local Area Network), 도시권 네트워크(MAN, Metropolitan Area Network), 또는 광역 네트워크(WAN, Wide Area Network) 등을 포함할 수 있다.

복수의 서버(200, 300)는 각각 통신망을 통해 각각의 복수의 전자 장치(100, 150)와 서로 연결될 수 있다. 복수의 서버(200, 300) 각각이 제1 전자 장치(100)와 서로 연결된 경우, 복수의 서버(200, 300)는 각각 제1 전자 장치(100)와 통신망을 통해 서로 데이터를 주고 받을 수 있다. 복수의 서버(200, 300) 각각이 제2 전자 장치(150)와 서로 연결된 경우, 복수의 서버(200, 300)는 각각 제2 전자 장치(150)와 통신망을 통해 서로 데이터를 주고 받을 수 있다.

복수의 전자 장치(100, 150)는 각각 단말기일 수 있다. 이하에서는 설명의 편의를 위해 제1 전자 장치(100)를 가리키는 용어로서 제1 단말기(100)를 혼용하기로 한다. 그리고, 제2 전자 장치(150)를 가리키는 용어로서 제2 단말기(150)를 혼용하기로 한다.

도 2는 본 발명의 실시 예에 따른 전자 장치의 구성을 나타내는 블록도이다. 도 2를 참조하면, 제1 전자 장치(100)는 입력부(101), 제어부(102), 저장부(103), 통신부(104), 및 출력부(105)를 포함할 수 있다. 도 1을 참조하면, 제2 전자 장치(150)는 제1 전자 장치(100)와 유사 또는 동일하게 구현될 수 있다.

입력부(101)는 외부로부터 신호를 수신할 수 있다. 입력부(101)는 제1 전자 장치(100)의 사용자로부터 신호를 수신할 수 있다. 또한, 입력부(101)는 외부 장치로부터 신호를 수신할 수 있다. 입력부(101)는 예를 들어, 마이크, 카메라, 키보드, 마우스, 트랙볼, 터치스크린, 버튼, 스위치, 센서, 네트워크 인터페이스, 또는 기타 입력 장치 등을 포함할 수 있다. 입력부(101)는 입력부(101)에 포함된 마이크를 통해 외부로부터 음성을 수신할 수 있다. 입력부(101)는 제1 전자 장치(100)의 사용자로부터 음성을 수신할 수 있다. 또한, 입력부(101)는 외부의 음성 재생 장치로부터 음성을 수신할 수 있다.

제어부(102)는 제1 전자 장치(100)의 동작을 제어할 수 있다. 제어부(102)는 제1 전자 장치(100)에 포함된 각각의 구성요소와 서로 연결될 수 있다. 제어부(102)는 제1 전자 장치(100)에 포함된 각각의 구성요소의 동작을 제어할 수 있다. 제어부(102)는 입력부(101)에 의해 수신된 신호에 대한 응답으로, 제1 전자 장치(100)의 동작을 제어할 수 있다.

또한, 제어부(102)는 신호를 처리할 수 있다. 제어부(102)는 입력부(101)에 의해 수신된 신호를 처리할 수 있다. 예를 들어, 제어부(102)는 입력부(101)에 포함된 마이크를 통해 수신된 음성을 처리할 수 있다.

또한, 제어부(102)는 연산을 수행할 수 있다. 제어부(102)는 입력부(101)에 의해 수신된 신호에 따라 연산을 수행할 수 있다. 제어부(102)는 입력부(101)에 의해 수신된 신호 또는 저장부(103)에 저장된 데이터를 이용하여 연산을 수행할 수 있다. 예를 들어, 제어부(102)는 입력부(101)에 포함된 마이크를 통해 수신된 음성을 인코딩할 수 있다. 제어부(102)는 연산 결과가 저장부(103)에 저장되도록 제어할 수 있다. 제어부(102)는 연산 결과가 출력부(105)에 의해 표시되도록 제어할 수 있다.

제어부(102)는 예를 들어, 중앙 처리 장치(Central Processing Unit, CPU), 그래픽 처리 장치(Graphic Processing Unit, GPU), 마이크로컨트롤러유닛(Micro Controller Unit, MCU), 또는 마이크로프로세서(microprocessor) 중 적어도 하나를 포함할 수 있다.

제어부(102)는 중앙 처리 장치, 그래픽 처리 장치, 마이크로컨트롤러유닛, 또는 마이크로프로세서 중 적어도 하나에 의해 구동되는 펌웨어, 운영 체제, 응용과 같은 소프트웨어의 형태로 구현될 수 있다. 다른 예로서, 제어부(102)는 그래픽 처리 장치, 마이크로컨트롤러유닛, 또는 마이크로프로세서 중 적어도 하나의 내부에서 회로망(circuitry) 또는 지식 자산(IP, Intellectual Property)과 같은 하드웨어로 구현될 수 있다. 또 다른 예로서, 제어부(102)는 그래픽 처리 장치, 마이크로컨트롤러유닛, 또는 마이크로프로세서 중 적어도 하나와 연관되어 하드웨어 및 소프트웨어가 조합된 형태로 구현될 수 있다. 또 다른 예로서, 제어부(102)는 그래픽 처리 장치, 마이크로컨트롤러유닛, 또는 마이크로프로세서 중 적어도 하나와 분리된 별도의 모듈로 제공될 수 있다.

저장부(103)는 데이터를 저장할 수 있다. 저장부(103)는 제어부(102)에 의해 수행된 연산 결과를 저장할 수 있다. 예를 들어, 저장부(103)는 제어부(102)에 의해 인코딩된 음성을 저장할 수 있다. 저장부(103)는 통신부(104)를 통해 외부에 전송할 데이터를 저장하거나 통신부(104)를 통해 외부로부터 수신된 데이터를 저장할 수 있다.

저장부(103)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 하나를 포함할 수 있다. 저장부(103)는 예를 들어, 플래시(flash) 메모리, ROM(Read Only Memory), RAM(Random Access Memory), EEROM(Electrically Erasable ROM), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 하드디스크 드라이브(HDD, Hard Disk Drive), 또는 레지스터(register) 중 적어도 하나를 포함할 수 있다. 저장부(103)는 예를 들어, 파일 시스템, 데이터베이스, 또는 임베디드 데이터베이스 등을 포함할 수 있다.

통신부(104)는 외부에 데이터를 전송하거나 외부로부터 데이터를 수신할 수 있다. 통신부(104)는 제2 전자 장치(150), 제1 서버(200), 또는 제2 서버(300)에 데이터를 전송할 수 있다. 통신부(104)는 제2 전자 장치(150), 제1 서버(200), 또는 제2 서버(300)로부터 데이터를 수신할 수 있다. 통신부(104)는 제어부(102)에 의해 수행된 연산 결과를 외부에 전송할 수 있다. 또한, 통신부(104)는 저장부(103)에 저장된 데이터를 외부에 전송할 수 있다.

통신부(104)에 의해 전송될 데이터 또는 통신부(104)에 의해 수신된 데이터는 저장부(103)에 저장될 수 있다. 예를 들어, 통신부(104)는 저장부(103)에 저장된 인코딩된 음성을 제1 서버(200)에 전송할 수 있다. 또한, 통신부(104)는 전송에 대한 응답으로써, 제1 서버(200)로부터 인코딩된 음성에 대한 음성 인식 결과를 수신할 수 있다. 음성 인식 결과는 텍스트일 수 있다. 통신부(104)는 제1 서버(200)로부터 음성을 변환하여 생성된 텍스트를 수신할 수 있다.

통신부(104)는 예를 들어, 3G 모듈, LTE 모듈, LTE-A 모듈, Wi-Fi 모듈, 와이기그(WiGig) 모듈, UWB(Ultra Wide Band) 모듈, 또는 랜카드 등과 같은 원거리용 네트워크 인터페이스를 포함할 수 있다. 또한, 통신부(104)는 마그네틱 보안 전송(MST, Magnetic Secure Transmission) 모듈, 블루투스 모듈, NFC 모듈, RFID 모듈, 지그비(ZigBee) 모듈, Z-Wave 모듈, 또는 적외선 모듈 등과 같은 근거리용 네트워크 인터페이스를 포함할 수 있다. 또한, 통신부(104)는 기타 네트워크 인터페이스를 포함할 수 있다.

출력부(105)는 화면을 표시할 수 있다. 제어부(102)는 출력부(105)가 화면을 표시하도록 출력부(105)를 제어할 수 있다. 출력부(105)는 사용자 인터페이스를 표시할 수 있다. 출력부(105)는 사용자로부터의 입력에 대한 응답으로 다른 화면을 표시할 수 있다.

출력부(105)는 데이터를 표시할 수 있다. 출력부(105)는 제어부(102)에 의해 수행된 연산 결과를 표시할 수 있다. 출력부(105)는 저장부(103)에 저장된 데이터를 표시할 수 있다. 출력부(105)는 통신부(104)에 의해 수신된 데이터를 표시할 수 있다. 예를 들어, 출력부(105)는 제1 서버(200)로부터 수신된 음성 인식 결과를 표시할 수 있다.

출력부(105)는 예를 들어, LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diode), 또는 PDP(Plasma Display Panel) 등의 평판 표시 장치를 포함할 수 있다. 출력부(105)는 곡면 디스플레이 또는 플렉서블 디스플레이(flexible display)를 포함할 수 있다. 출력부(105)는 터치스크린을 포함할 수 있다.

또는, 출력부(105)는 다른 전자 장치로부터 수신된 음성을 출력할 수 있다. 출력부(105)는 입력부(101)를 통해 수신된 음성을 출력할 수 있다. 출력부(105)는 예를 들어, 스피커(speaker)를 포함할 수 있다. 출력부(105)는 스피커를 통해 입력부(101)로부터 수신된 음성 및 다른 전자 장치로부터 수신된 음성을 출력할 수 있다.

도 3은 본 발명의 실시 예에 따른 전자 장치가 영상 통화를 수행하는 방법을 보여주는 순서도이다. 도 1 내지 도 3을 참조하면, S110 단계에서, 제1 단말기(100)는 제2 단말기(150)와 영상 통화를 실행할 수 있다. 예를 들어, 제2 서버(300)의 중개를 통해 제1 단말기(100) 및 제2 단말기(150) 사이의 영상 통화가 수행될 수 있다. 제1 단말기(100)는 제2 서버(300)로부터 제2 단말기(150)에 대한 연결 정보를 수신할 수 있다. 또는, 제1 단말기(100)는 제2 단말기(150)로부터 직접 연결 정보를 수신할 수 있다.

제1 단말기(100)의 입력부(101)는 연결 정보를 이용하여 제2 단말기(150)와 연결을 시도할 수 있다. 연결 시도가 성공됨으로써, 제1 단말기(100)는 제2 단말기(150)와 영상 통화를 실행할 수 있다. 예를 들어, 연결 정보는 제2 단말기(150)의 아이피(IP) 주소 및 포트(port) 번호를 포함할 수 있다.

S120 단계에서, 제1 단말기(100)가 음성을 연속으로 수신할 수 있다. 예를 들어, 제1 단말기(100) 및 제2 단말기(150) 사이에 영상 통화가 실행되는 경우, 제1 단말기(100)의 입력부(101)는 제2 단말기(150)로부터 영상 스트림을 수신할 수 있다. 영상 스트림은 제2 단말기(150)에 의해 실시간으로 촬영된 영상 및 녹음된 소리를 포함할 수 있다. 녹음된 소리는 제2 단말기(150)의 사용자의 음성일 수 있다. 뿐만 아니라, 녹음된 소리는 제2 단말기(150) 주변에서 발생하는 모든 소리를 포함할 수 있다.

영상 스트림은 WebRTC(Web Real-Time Communication)의 프로토콜 및 인터페이스를 이용하여 수신될 수 있다. 영상 스트림은 인코딩된 영상 또는 소리를 포함할 수 있다. 제1 단말기(100)의 제어부(102)는 인코딩된 영상 또는 소리를 디코딩할 수 있다. 제1 단말기(100)의 출력부(105)는 디코딩된 영상 또는 소리를 출력할 수 있다.

S130 단계에서, 디코딩된 영상 또는 소리가 출력되는 도중에, 제1 단말기(100)의 사용자로부터 녹취 명령을 수신할 수 있다. 예를 들어, 수신된 소리에 부적절한(abusive) 음성이 포함되어 있는 경우, 제1 단말기(100)의 사용자는 부적절한 음성을 녹음하기 위해 녹취 명령을 제1 단말기(100)에 제공할 수 있다. 부적절한 요소는 협박성(intimidatory) 발언, 혐오성 발언, 반사회적 발언, 반인류적 발언, 성적인 발언, 범죄성(criminality) 발언 또는 모욕적인 발언 중 적어도 하나에 대응할 수 있다. 도 제1 단말기(100)의 사용자는 음성 또는 터치 등의 방식을 이용하여 제1 단말기(100)로 녹취 명령을 제공할 수 있다. 제1 단말기(100)의 사용자가 녹취 명령을 제공하는 방법은 도 4를 참조하여 설명될 수 있다.

도 4는 본 발명의 실시 예에 따른 녹취 명령을 수신하기 위해 제1 단말기에 디스플레이되는 화면을 보여주는 참고도이다. 도 3 및 도 4를 참조하면, 제1 단말기(100) 및 제2 단말기(150) 사이에 영상 통화가 수행되는 경우, 제1 단말기(100)는 제2 단말기(150)로부터 수신한 영상을 디스플레이할 수 있다. 그리고, 제1 단말기(100)는 영상과 함께 ‘녹취’ 항목을 표시할 수 있다. 제1 단말기(100)의 사용자는 영상과 함께 부적절한 음성이 수신되는 경우, ‘녹취’ 항목을 선택할 수 있다.

다시 도 3을 참조하면, 녹취 명령이 수신된 경우, S140 단계에서, 제1 단말기(100)는 수신된 음성을 연속으로 녹음할 수 있다. 예를 들어, 제1 단말기(100)는 녹취 명령이 수신된 시점부터 영상 통화가 완료될 때까지 녹음을 수행할 수 있다. 또는, 제1 단말기(100)는 녹취 명령이 수신된 시점부터 제1 단말기(100)의 사용자로부터 녹취 완료 명령이 수신될 때까지 녹음을 수행할 수 있다. 녹음이 완료되는 경우, 제1 단말기(100)는 녹음된 음성을 인코딩할 수 있다.

S150 단계에서, 제1 단말기(100)는 인코딩된 음성을 제1 서버(200)에 전송할 수 있다. 도 1을 참조하면, 제1 서버(200)는 음성 인식 서버일 수 있다. 인코딩된 음성이 제1 서버(200)로 수신되는 경우, 제1 서버(200)는 수신된 음성을 인식하고, 인식된 음성을 텍스트로 변환할 수 있다. S160 단계에서, 제1 단말기(100)의 통신부(104)는 제1 서버(200)로부터 인코딩된 음성을 기반으로 생성된 텍스트를 수신할 수 있다. 제1 단말기(100)는 수신된 텍스트를 출력부(105)를 통해 출력할 수 있다.

S170 단계에서, 제1 단말기(100)는 제1 단말기(100)의 사용자로부터 신고 명령을 수신할 수 있다. 예를 들어, 제1 단말기(100)의 사용자는 출력부(105)를 통해 출력된 텍스트를 확인하고, 제2 단말기(150)의 사용자를 신고할지 여부를 결정할 수 있다. 만약, 제1 단말기(100)의 사용자가 신고를 원하는 경우, 제1 단말기(100)의 사용자는 제1 단말기(100)의 입력부(101)를 통해 신고 명령을 제공할 수 있다. 예를 들어, 제1 단말기(100)의 사용자는 음성 또는 터치 등의 방식을 이용하여 제1 단말기(100)로 신고 명령을 제공할 수 있다. 제1 단말기(100)로 신고 명령이 수신되는 경우, 제1 단말기(100)는 텍스트를 인코딩할 수 있다. S180 단계에서, 제1 단말기(100)는 인코딩된 텍스트를 제2 서버(300)에 전송할 수 있다.

도 3을 참조하여 설명된 바와 같이 제1 단말기(100)는 영상 통화를 수행하는 중에 부적절한 음성이 수신되는 경우, 제1 단말기(100)의 사용자의 명령에 응답하여 부적절한 음성을 녹음할 수 있다. 그리고, 제1 단말기(100)는 녹음된 음성에 기초하여 생성된 텍스트를 이용하여, 상대 단말기의 사용자를 신고할 수 있다. 이와 같은 방법을 통해, 제1 단말기(100)의 사용자는 부적절한 음성에 노출되는 것을 방지할 수 있다.

도 5는 본 발명의 다른 실시 예에 따른 단말기가 영상 통화를 수행하는 방법을 보여주는 순서도이다. 도 1 내지 도 5를 참조하면, S210 단계에서, 제1 단말기(100)는 제2 단말기(150)와 영상 통화를 실행할 수 있다. 예를 들어, 제2 서버(300)의 중개를 통해 제1 단말기(100) 및 제2 단말기(150) 사이의 영상 통화가 수행될 수 있다. 제1 단말기(100)는 제2 서버(300)로부터 제2 단말기(150)에 대한 연결 정보를 수신할 수 있다. 또는, 제1 단말기(100)는 제2 단말기(150)로부터 직접 연결 정보를 수신할 수 있다.

S220 단계에서, 제1 단말기(100)가 음성을 연속으로 수신할 수 있다. 예를 들어, 제1 단말기(100) 및 제2 단말기(150) 사이에 영상 통화가 실행되는 경우, 제1 단말기(100)의 입력부(101)는 제2 단말기(150)로부터 영상 스트림을 수신할 수 있다. 영상 스트림은 제2 단말기(150)에 의해 실시간으로 촬영된 영상 및 녹음된 소리를 포함할 수 있다. 녹음된 소리는 제2 단말기(150)의 사용자의 음성일 수 있다. 뿐만 아니라, 녹음된 소리는 제2 단말기(150) 주변에서 발생하는 모든 소리를 포함할 수 있다.

영상 스트림은 인코딩된 영상 또는 소리를 포함할 수 있다. 제1 단말기(100)의 제어부(102)는 인코딩된 영상 또는 소리를 디코딩할 수 있다. 제1 단말기(100)의 출력부(105)는 디코딩된 영상 또는 소리를 출력할 수 있다.

S230 단계에서, 디코딩된 영상 또는 소리가 출력되는 도중에, 제1 단말기(100)의 사용자로부터 녹취 명령을 수신할 수 있다. 예를 들어, 수신된 소리에 부적절한 음성이 포함되어 있는 경우, 제1 단말기(100)의 사용자는 부적절한 음성을 녹음하기 위해 녹취 명령을 제1 단말기(100)에 제공할 수 있다. 제1 단말기(100)의 사용자는 제1 단말기(100)의 입력부(101)를 통해 녹취 명령을 제공할 수 있다. 제1 단말기(100)의 사용자는 음성 또는 터치 등의 방식을 이용하여 제1 단말기(100)로 녹취 명령을 제공할 수 있다.

녹취 명령이 수신된 경우, S240 단계에서, 제1 단말기(100)는 수신된 음성을 연속으로 녹음할 수 있다. 예를 들어, 제1 단말기(100)는 녹취 명령이 수신된 시점부터 영상 통화가 완료될 때까지 녹음을 수행할 수 있다. 또는, 제1 단말기(100)는 녹취 명령이 수신된 시점부터 제1 단말기(100)의 사용자로부터 녹취 완료 명령이 수신될 때까지 녹음을 수행할 수 있다. 녹음이 완료되는 경우, 제1 단말기(100)는 녹음된 음성을 인코딩할 수 있다.

S250 단계에서, 제1 단말기(100)는 인코딩된 음성을 제1 서버(200)에 전송할 수 있다. 도 1을 참조하면, 제1 서버(200)는 음성 인식 서버일 수 있다. 인코딩된 음성이 제1 서버(200)에 수신되는 경우, 제1 서버(200)는 수신된 음성을 인식하고, 인식된 음성을 텍스트로 변환할 수 있다. S260 단계에서, 제1 단말기(100)는 제1 서버(200)로부터 인코딩된 음성을 기반으로 생성된 텍스트를 수신할 수 있다.

S270 단계에서, 제1 단말기(100)는 수신된 텍스트에 부적절한 요소가 포함되어 있는지 여부에 대한 예측 결과를 준비할 수 있다. 제1 단말기(100)가 예측 결과를 준비하는 과정은 도 6 및 도 10을 참조하여 더 자세히 설명될 수 있다. S280 단계에서, 제1 단말기(100)는 예측 결과에 기초하여 제2 단말기(150)의 사용자를 불량 사용자로서 신고할지 여부를 판단할 수 있다. 제1 단말기(100) 의 판단하는 과정은 도 9 및 도 11을 참조하여 더 자세히 설명될 것이다.

도 6은 본 발명의 실시 예에 따른 제1 단말기가 예측 결과를 생성하는 방법을 보여주는 순서도이다. 도 5 및 도 6을 참조하면, S271 단계에서, 특정 텍스트 및 특정 텍스트에 부적절한 요소가 포함되어 있는지 여부에 대한 정보를 이용하여 학습된 기계 학습(machine learning) 모델(model)을 준비할 수 있다. 제1 단말기(100)의 저장부(103)는 기계 학습 모델을 포함할 수 있다. 예를 들어, 기계 학습 모델은 임의의 텍스트에 포함된 적어도 하나 이상의 음절(syllable) 및 특정 텍스트가 부적절한 요소를 포함하는지 여부 사이의 상관관계에 대응할 수 있다.

기계 학습 모델은 적어도 둘 이상의 레이어(layer)를 포함하는 뉴럴 네트워크(neural network)일 수 있다. 기계 학습 모델은 입력 레이어(input layer) 및 출력 레이어(output layer)를 포함할 수 있다. 기계 학습 모델은 적어도 하나 이상의 은닉 레이어(hidden layer)를 더 포함할 수 있다.

또는 기계 학습 모델은 특정 텍스트 및 특정 텍스트에 부적절한 요소가 포함되어 있는지 여부에 대한 분류 정보를 이용하여 학습(train)된 분류 모델(classification model)일 수 있다. 특정 텍스트는 다른 영상 통화 세션 또는 다른 출처를 통해 미리 수집될 수 있다. 특정 텍스트는 부적절한 요소를 포함하는 부적절한 텍스트 또는 부적절한 요소를 포함하지 않는 정상적인 텍스트 중 적어도 하나를 포함할 수 있다. 분류 정보는 각각의 특정 텍스트가 부적절한 텍스트인지 또는 정상적인 텍스트인지 여부에 대응하는 태그(tag) 정보일 수 있다.

제1 단말기(100)는 통신부(104)를 통해 기계 학습 모델을 제2 서버(300) 또는 별개의 서버로부터 수신할 수 있다. 수신된 기계 학습 모델은 제1 단말기(100)의 저장부(103)에 저장될 수 있다.

다른 실시 예에 따르면, 제1 단말기(100)의 제어부(102)는 기계 학습 모델을 스스로 학습시킬 수 있다. 예를 들어, 제1 단말기(100)의 저장부(3는 특정 텍스트 및 특성 텍스트에 대한 분류 정보를 준비할 수 있다. 제어부(102)는 준비된 텍스트 및 분류 정보를 이용하여 기계 학습 모델을 학습시킬 수 있다. 제1 단말기(100)의 저장부(103)는 학습된 기계 학습 모델을 저장할 수 있다.

제어부(102)는 딥 러닝(deep learning) 알고리즘을 이용하여 기계 학습 모델을 학습시킬 수 있다. 기계학습 모델은 심층 신경망(Deep Neural Network, DNN), 합성곱 신경망(Convolutional Neural Network, CNN), 순환 신경망(Recurrent Neural Network, RNN), R-CNN(Region-based Convolutional Neural Networks), 제한 볼츠만 머신 (Restricted Boltzmann Machine, RBM), 심층 신뢰 신경망 (Deep Belief Network, DBN), 또는 심층 큐 네트워크(Deep Q-Networks) 중에서 적어도 하나 이상을 포함할 수 있다.

기계 학습 모델은 합성곱 신경망(Convolutional Neural Network, CNN)일 수 있다. 기계학습 모델은 AlexNet, ZFNet, GoogLeNet, VGGNet, ResNet, Inception-ResNet, Inception-v2, Inception-v3, 또는 Inception-v4를 포함할 수 있다.

다음으로 S272 단계에서, 제1 단말기(100)는 수신된 텍스트가 부적절한 요소를 포함하는지 여부를 기계 학습 모델을 이용하여 예측할 수 있다. 기계 학습 모델은 수신된 텍스트에 포함된 적어도 하나 이상의 음절을 입력값으로서 취할 수 있다. 제1 단말기(100)의 제어부(102)는 기계 학습 모델을 이용하여 적어도 하나 이상의 음절로 이루어진 텍스트가 정상적인 요소를 포하는지 또는 부적절한 요소를 포함하는지 여부를 예측할 수 있다.

도 7은 본 발명의 실시 예에 따른 제1 단말기가 판정 결과를 생성하는 방법을 보여주는 순서도이다. 도 5 내지 도 7을 참조하면, S281 단계에서, 기계 학습 모델을 이용하여 예측한 결과 수신된 텍스트가 부적절한 요소를 포함하는 것으로 예측되는 경우, 제1 단말기(100)의 출력부(105)는 신고를 제안하는 메시지를 표시할 수 있다. 신고를 제안하는 메시지는 도 8에 도시된 것과 같이 표시될 수 있다.

도 8은 본 발명의 실시 예에 따른 제1 단말기가 신고를 제안하는 메시지를 표시하는 방법을 보여주는 참고도이다. 도 8을 참조하면, 제1 단말기(100)의 출력부(105)는 ‘녹취를 신고 하시겠습니까?’와 같은 텍스트를 표시할 수 있다. 그리고, ‘신고’ 및 ‘취소’와 같은 신고 여부를 선택할 수 있는 텍스트를 함께 표시할 수 있다. 제1 단말기(100)의 사용자의 선택에 의해 부적절한 요소를 포함하는 텍스트의 신고 여부가 결정될 수 있다.

다시 도 7을 참조하면, S283 단계에서, 제1 단말기(100)의 사용자로부터 메시지에 대한 응답으로 신고 입력을 수신할 수 있다. 다음으로 S285 단계에서, 신고 입력이 수신되는 경우, 제1 단말기(100)는 신고 입력에 대한 응답으로 제2 단말기(150)의 사용자를 불량 사용자로서 신고하기 위해 부적절한 요소를 포함하는 텍스트를 제2 서버(300)에 전송할 수 있다.

도 9는 본 발명의 다른 실시 예에 따른 제1 단말기가 신고를 제안하는 메시지를 표시하는 방법을 보여주는 참고도이다. 도 5, 도 6 및 도 9를 참조하면, S282 단계에서, 기계 학습 모델을 이용하여 예측한 결과 제1 단말기(100)는 수신된 텍스트가 부적절한 요소를 포함하는 것으로 판단되는 경우, 제2 단말기(150)의 사용자를 불량 사용자로서 신고하기 위해 부적절한 요소를 포함하는 텍스트를 자동으로 제2 서버(300)에 전송할 수 있다. 제1 단말기(100)는 통신부(104)를 통해 신고 메시지 및 부적절한 요소를 포함하는 텍스트를 자동으로 제2 서버(300)에 전송할 수 있다.

도 7을 참조하여 설명된 실시 예에서, 제1 단말기(100)는 제1 단말기(100)의 사용자의 신고 의사에 따라 부적절한 요소를 포함하는 텍스트를 제2 서버(300)에 전송할지 여부가 결정될 수 있다. 반면, 도 9를 참조하여 설명된 실시 예에서, 제1 단말기(100)는 수신된 텍스트가 부적절한 요소를 포함하는 것으로 판단되는 경우, 자동으로 부적절한 요소를 포함하는 텍스트를 제2 서버(300)에 전송할 수 있다. 이로 인해, 부적절한 요소를 포함하는 텍스트에 대해 빠른 신고를 수행할 수 있다.

도 10은 본 발명의 다른 실시 예에 따른 제1 단말기가 예측 결과를 생성하는 방법을 보여주는 순서도이다. 도 5 및 도 10을 참조하면, S272 단계에서, 제1 단말기(100)는 수신된 텍스트를 인코딩하고 인코딩된 텍스트를 제2 서버(300)에 전송할 수 있다.

S274 단계에서, 제1 단말기(100)는 제2 서버(300)로부터 예측 결과를 수신할 수 있다. 제2 서버(300)는 예측 결과를 생성하기 위해 기계 학습 모델을 이용할 수 있다. 제2 서버(300)는 기계 학습 모델을 준비할 수 있다. 제2 서버(300) 기계 학습 모델을 이용하여 적어도 하나 이상의 음절로 이루어진 텍스트가 정상적인 요소를 포하는지 또는 부적절한 요소를 포함하는지 여부를 예측할 수 있다. 이와 같이, 기계 학습 모델을 이용하여 예측된 결과는 제1 단말기(100)에 전송될 수 있다. 제1 단말기(100)는 통신부(104)를 통해 예측 결과를 수신할 수 있다.

도 6을 참조하여 설명된 본 발명의 실시 예에서는 제1 단말기(100)가 기계 학습 모델을 이용하여 예측 결과를 생성할 수 있다. 반면, 도 10을 참조하여 설명된 본 발명의 실시 예에서는 제2 서버(300)가 기계 학습 모델을 이용하여 예측 결과를 생성할 수 있다. 제2 서버(300)가 생성된 예측 결과를 제1 단말기(100)에 전송하는 경우, 제1 단말기(100)는 예측 결과를 기반으로 판정 결과를 생성할 수 있다. 제1 단말기(100)가 판정 결과를 생성하는 방법은 도 7 및 도 9를 참조하여 설명된 방법과 유사 또는 동일할 수 있다.

도 11은 본 발명의 또 다른 실시 예에 따른 전자 장치가 영상 통화를 수행하는 방법을 보여주는 순서도이다. 도 3, 도 5 및 도 11을 참조하면, S310 단계에서, 제1 단말기(100)는 제2 단말기(150)와 영상 통화를 실행할 수 있다. 제1 단말기(100)가 제2 단말기(150)와 영상 통화를 실행하는 방법은 도 5의 S210 단계를 참조하여 설명된 방법과 유사 또는 동일할 수 있다.

S320 단계에서, 제1 단말기(100)가 음성을 연속으로 수신할 수 있다. 제1 단말기(100)가 제2 단말기(150)로부터 음성을 연속으로 수신하는 방법은 도 5의 S220 단계를 참조하여 설명된 방법과 유사 또는 동일할 수 있다.

S330 단계에서, 제1 단말기(100)는 영상 통화의 시작과 동시에 수신되는 음성을 연속으로 녹음할 수 있다. 그리고, 제1 단말기(100)는 녹음된 음성을 인코딩할 수 있다. 그 다음에 S340 단계에서, 제1 단말기(100)는 통신부(104)를 통해 인코딩된 음성을 제1 서버(200)에 전송할 수 있다. 도 1을 참조하면, 제1 서버(200)는 음성 인식 서버일 수 있다. 인코딩된 음성이 제1 서버(200)에 수신되는 경우, 제1 서버(200)는 수신된 음성을 인식하고, 텍스트로 변환할 수 있다. S350 단계에서, 제1 단말기(100)는 통신부(104)를 통해 제1 서버(200)로부터 인코딩된 음성을 기반으로 생성된 텍스트를 수신할 수 있다.

S360 단계에서, 제1 단말기(100)는 수신된 텍스트에 부적절한 요소가 포함되어 있는지 여부에 대한 예측 결과를 준비할 수 있다. 제1 단말기(100)가 예측 결과를 준비하는 과정은 도 6 및 도 10을 참조하여 설명된 방법과 유사 또는 동일할 수 있다. 그 다음에 S370 단계에서, 제1 단말기(100)는 예측 결과에 기초하여 판정 결과를 준비할 수 있다. 제1 단말기(100)가 판정 결과를 준비하는 과정은 도 9 및 도 11을 참조하여 설명된 방법과 유사 또는 동일할 수 있다.

도 3 및 도 5를 참조하여 설명된 실시 예에서, 제1 단말기(100)는 제1 단말기(100)의 사용자로부터 녹취 명령이 수신되는 경우, 음성을 녹음하기 위한 동작을 수항할 수 있다. 반면, 도 11을 참조하여 설명된 실시 예에서, 제1 단말기(100)는 영상 통화의 시작과 동시에 수신되는 음성에 대한 녹음을 수행할 수 있다. 영상 통화의 시작과 동시에 녹음을 수행하는 경우, 제1 단말기(100)의 사용자 및 제2 단말기(150)의 사용자 사이의 모든 대화 내용이 녹음될 수 있다. 따라서, 수신되는 음성에 부적절한 요소가 포함되어 있는지 여부에 대해 더욱 정확하게 판별할 수 있다.

도 12는 본 발명의 실시 예에 따른 제2 서버의 동작 방법을 보여주는 순서도이다. 도 1, 도 3, 도 5 내지 도 7, 도 9 내지 도 12를 참조하면, S410 단계에서, 제2 서버(300)는 특정 텍스트 및 특정 텍스트에 부적절한 요소가 포함되어 있는지 여부에 대한 정보를 이용하여 학습된 기계 학습 모델을 준비할 수 있다. 기계 학습 모델은 임의의 텍스트에 포함된 적어도 하나 이상의 음절 및 특정 텍스트가 부적절한 요소를 포함하는지 여부 사이의 상관관계에 대응할 수 있다.

기계 학습 모델은 적어도 둘 이상의 레이어를 포함하는 뉴럴 네트워크일 수 있다. 기계 학습 모델은 입력 레이어 및 출력 레이어를 포함할 수 있다. 기계 학습 모델은 적어도 하나 이상의 은닉 레이어를 더 포함할 수 있다. 또는 기계 학습 모델은 특정 텍스트 및 특정 텍스트에 부적절한 요소가 포함되어 있는지 여부에 대한 분류 정보를 이용하여 학습된 분류 모델일 수 있다.

다른 실시 예에 따르면, 제2 서버(300)는 딥 러닝 알고리즘을 이용하여 기계 학습 모델을 학습시킬 수 있다. 기계학습 모델은 심층 신경망, 합성곱 신경망, 순환 신경망, R-CNN, 제한 볼츠만 머신, 심층 신뢰 신경망, 또는 심층 큐 네트워크 중에서 적어도 하나 이상을 포함할 수 있다.

기계 학습 모델은 합성곱 신경망일 수 있다. 기계 학습 모델은 AlexNet, ZFNet, GoogLeNet, VGGNet, ResNet, Inception-ResNet, Inception-v2, Inception-v3, 또는 Inception-v4를 포함할 수 있다.

S420 단계에서, 제2 서버(300)는 제1 단말기(100) 및 제2 단말기(150)가 영상 통화를 수행하도록 중개할 수 있다. 예를 들어, 제2 서버(300)가 제1 단말기(100)로부터 중개 요청을 수신한 경우, 제2 서버(300)는 제1 단말기(100)의 중개 요청에 대한 응답으로, 제2 단말기(150)를 선택할 수 있다. 중개 장치(100)는 제1 단말기(100) 및 제2 단말기(150)가 영상 통화를 수행할 수 있도록 중개할 수 있다.

제1 단말기(100) 및 제2 단말기(150) 사이에 영상 통화가 실행되는 경우, 제1 단말기(100)의 입력부(101)는 제2 단말기(150)로부터 영상 스트림을 수신할 수 있다. 영상 스트림은 제2 단말기(150)에 의해 실시간으로 촬영된 영상 및 녹음된 소리를 포함할 수 있다.

S430 단계에서, 제2 서버(300)는 제1 단말기(100)로부터 인코딩된 텍스트를 수신할 수 있다. 예를 들어, 제1 단말기(100)가 제2 단말기(150)로부터 수신되는 음성을 녹음하고, 제1 서버(200)를 통해 녹음된 음성을 기초로 생성되는 텍스트를 수신할 수 있다. 제2 서버(300)는 제1 단말기(100)로부터 녹음된 음성에 기초하여 생성된 텍스트를 수신할 수 있다.

S440 단계에서, 제2 서버(300)는 수신된 텍스트가 부적절한 요소를 포함하는지 여부를 기계 학습 모델을 이용하여 예측할 수 있다. 기계 학습 모델은 수신된 텍스트에 포함된 적어도 하나 이상의 음절을 입력값으로서 취할 수 있다. 제2 서버(300)는 기계 학습 모델을 이용하여 적어도 하나 이상의 음절로 이루어진 텍스트가 정상적인 요소를 포하는지 또는 부적절한 요소를 포함하는지 여부를 예측할 수 있다.

마지막으로 S450 단계에서, 제2 서버(300)는 예측 결과를 기반으로 제2 단말기(150)로부터 수신되는 중개 서비스 요청을 차단할지 여부를 판단할 수 있다. 제2 서버(300)가 차단 여부를 판단하는 방법은 도 13 및 도 14를 참조하여 설명될 것이다.

제2 서버(300)는 프로세서를 포함할 수 있다. 구체적으로, 프로세서는 하나 이상의 컴퓨터들에 포함될 수 있다. 하나 이상의 컴퓨터들은 스토리지(storage)를 포함할 수 있고, 스토리지는 하나 이상의 컴퓨터들을 동작시키기 위한 명령어 코드를 포함하는 소프트웨어를 저장할 수 있다. 그리고, 프로세서는 소트프웨어를 실행시킬 수 있다. 소프트웨어의 실행에 따라, 도 12를 참조하여 설명된 제2 서버(300)의 기능들이 동작할 수 있다

도 13은 본 발명의 실시 예에 따른 제2 서버가 판정 결과를 생성하는 방법을 보여주는 순서도이다. 도 12 및 도 13을 참조하면, S451 단계에서, 수신된 텍스트가 부적절한 요소를 포함하는 것으로 예측되는 경우, 제2 서버(300)는 신고를 제안하는 메시지를 제1 단말기(100)에 전송할 수 있다. 제2 서버(300)가 제1 단말기(100)에 신고를 제안하는 메시지를 전송하는 경우, 신고를 제안하는 메시지는 도 8에 도시된 것과 같이 제1 단말기(100)에서 표시될 수 있다.

S453 단계에서, 제2 서버(300)가 제1 단말기(100)로부터 신고를 제안하는 메시지에 대한 응답으로 신고 입력을 수신할 수 있다. 그 다음에 S455 단계에서, 제2 서버(300)는 신고 입력에 대한 응답으로 기준 기간동안 제2 단말기(150)로부터 수신되는 영상 통화 중개 요청을 차단할 수 있다.

도 14는 본 발명의 다른 실시 예에 따른 제2 서버가 판정 결과를 생성하는 방법을 보여주는 순서도이다. 도 12 및 도 14를 참조하면, S452 단계에서, 제2 서버(300)는 수신된 텍스트가 부적절한 요소를 포함하는지 여부를 직접 판단할 수 있다. 그리고, S454 단계에서, 수신된 텍스트가 부적절한 요소를 포함하는 것으로 판단되는 경우, 제2 서버(300)는 기준 기간동안 제2 단말기(150)로부터 수신되는 영상 통화 중개 요청을 차단할 수 있다.

이상에서 설명된 실시 예에 따르면, 사용자 간의 건전한 영상 통화가 유도될 수 있다. 또한, 영상 통화 중인 사용자가 상대방으로부터의 부적절한 음성에 노출되는 것이 방지될 수 있다. 또한, 영상 통화 중인 사용자가 상대방으로부터의 음성에 의해 느낄 수 있는 성적 수치심 또는 불쾌함이 방지될 수 있다.

이상에서 설명된 실시 예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있다. 또한, 컴퓨터 판독 가능 매체는 휘발성 매체, 비휘발성 매체, 분리형 매체, 및 비분리형 매체를 모두 포함할 수 있다.

또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 또는 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 통신 매체는 전형적으로 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함할 수 있다.

이상에서 첨부된 도면을 참조하여 본 발명의 실시 예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

100, 150: 전자 장치, 단말기
101: 입력부
102: 제어부
103: 저장부
104: 통신부
105: 출력부

Claims

제1 단말기 및 제2 단말기 사이에 영상 통화가 실행되는 단계;
상기 제1 단말기에 의해, 상기 제2 단말기로부터 음성을 수신하는 단계;
상기 수신된 음성을 녹음하는 단계;
상기 녹음된 음성을 기반으로 생성된 텍스트를 획득하는 단계;
상기 수신된 텍스트에 부적절한(abusive) 요소가 포함되어 있는지 여부에 대한 예측 결과를 준비하는 단계; 및
상기 예측 결과에 기초하여 상기 제2 단말기의 사용자를 불량 사용자로서 신고할지 여부를 판단하는 단계를 포함하는 동작 방법.
제 1 항에 있어서,
상기 수신된 음성을 녹음하는 단계는,
외부로부터의 녹취 명령에 응답하여 상기 수신된 음성을 녹음하는 단계를 포함하는 동작 방법.
제 1 항에 있어서,
상기 수신된 텍스트에 상기 부적절한 요소가 포함되어 있는지 여부에 대한 상기 예측 결과를 준비하는 단계는,
특정 텍스트 및 상기 특정 텍스트에 상기 부적절한 요소가 포함되어 있는지 여부에 대한 정보를 이용하여 학습된 기계 학습 모델을 준비하는 단계; 및
상기 수신된 텍스트가 상기 부적절한 요소를 포함하는지 여부를 상기 기계 학습 모델을 이용하여 예측하는 단계를 포함하는 동작 방법.
제 3 항에 있어서,
상기 예측 결과에 기초하여 상기 제2 단말기의 상기 사용자를 상기 불량 사용자로서 신고할지 여부를 판단하는 단계는,
상기 기계 학습 모델을 이용하여 예측한 결과로서 상기 수신된 텍스트가 부적한 요소를 포함하는 것으로 예측되는 경우, 신고를 제안하는 메시지를 표시하는 단계;
상기 신고를 제안하는 메시지에 대한 응답으로 신고 입력을 수신하는 단계; 및
상기 신고 입력에 대한 응답으로 상기 제2 단말기의 상기 사용자를 상기 불량 사용자로서 신고하기 위해 상기 부적절한 요소를 포함하는 상기 텍스트를 서버에 전송하는 단계를 포함하는 동작 방법.
제 3 항에 있어서,
상기 예측 결과에 기초하여 상기 제2 단말기의 상기 사용자를 상기 불량 사용자로서 신고할지 여부를 판단하는 단계는,
상기 기계 학습 모델을 이용하여 상기 수신된 텍스트가 부적한 요소를 포함하는 것으로 예측되는 경우, 상기 신고 입력에 대한 응답으로 상기 제2 단말기의 상기 사용자를 상기 불량 사용자로서 신고하기 위해 상기 부적절한 요소를 포함하는 상기 텍스트를 자동으로 서버에 전송하는 단계를 포함하는 동작 방법.
제 5 항에 있어서,
상기 수신된 텍스트가 상기 부적절한 요소를 포함하는지 여부를 상기 기계 학습 모델을 이용하여 예측하는 단계는,
상기 기계 학습 모델을 이용하여 욕설, 협박성(intimidatory) 발언, 혐오성 발언, 반사회적 발언, 반인류적 발언, 성적인 발언, 범죄성(criminality) 발언 또는 모욕적인 발언 중 적어도 하나에 대응하는 상기 부적절한 요소를 검출하는 단계를 포함하는 동작 방법.
제 1 항에 있어서,
상기 수신된 텍스트에 상기 부적절한 요소가 포함되어 있는지 여부에 대한 상기 예측 결과를 준비하는 단계는,
상기 수신된 텍스트를 서버에 전송하는 단계; 및
상기 서버로부터 상기 텍스트를 기반으로 생성되는 상기 예측 결과를 수신하는 단계를 포함하는 동작 방법.
제 1 항에 있어서,
상기 수신된 음성을 녹음하는 단계는
상기 영상 통화의 시작과 동시에 상기 녹음을 실행하는 단계를 포함하는 동작 방법.
제 1 항의 영상 통화 방법을 컴퓨터에서 실행시키는 프로그램이 기록된 컴퓨터 판독 가능 기록 매체.
서버의 동작 방법에 있어서,
제1 단말기 및 제2 단말기가 서로 영상 통화를 수행하도록 중개하는 단계;
상기 제1 단말기로부터 상기 제2 단말기와의 영상 통화 중 녹음된 음성을 변환하여 생성된 텍스트를 수신하는 단계; 및
상기 수신된 텍스트가 부적절한(abusive) 요소를 포함하는지 여부를 기계 학습 모델을 이용하여 예측하는 단계를 포함하는 동작 방법.
제 10 항에 있어서,
상기 제1 단말기 및 상기 제2 단말기가 상기 영상 통화를 수행하도록 중개하는 단계 이전에,
특정 텍스트 및 상기 특정 텍스트에 상기 부적절한 요소가 포함되어 있는지 여부에 대한 정보를 이용하여 학습된 상기 기계 학습 모델을 준비하는 단계를 더 포함하는 동작 방법.
제 10 항에 있어서,
상기 예측 결과에 의해 상기 수신된 텍스트가 상기 부적절한 요소를 포함하는 것으로 예측되는 경우, 상기 제1 단말기로 신고를 제안하는 메시지를 전송하는 단계;
상기 제1 단말기로부터 상기 신고를 제안하는 메시지에 대한 응답으로 신고 입력을 수신하는 단계; 및
상기 신고 입력에 대한 응답으로 기준 기간동안 상기 제2 단말기로부터 수신되는 영상 통화 중개 요청을 차단하는 단계를 더 포함하는 동작 방법.
제 10 항에 있어서,
상기 예측 결과를 기반으로 상기 수신된 텍스트가 부적절한 요소를 포함하는지 여부를 판단하는 단계; 및
상기 수신된 텍스트가 상기 부적절한 요소를 포함하는 것으로 예측되는 경우, 기준 기간동안 상기 제2 단말기로부터 수신되는 영상 통화 중개 요청을 차단하는 단계를 더 포함하는 동작 방법.
음성을 수신하는 입력부;
상기 수신된 음성을 인코딩하는 제어부; 및
상기 인코딩된 음성을 제1 서버에 전송하고, 상기 제1 서버로부터 상기 음성을 기반으로 생성되는 텍스트를 수신하는 통신부를 포함하고,
상기 제어부는 특정 텍스트 및 상기 특정 텍스트에 부적절한(abusive) 요소가 포함되어 있는지 여부에 대한 정보를 이용하여 학습된 기계 학습 모델을 기반으로 상기 수신된 텍스트가 상기 부적절한 요소를 포함하는지 여부를 예측하는 전자 장치.
제 14 항에 있어서,
상기 제어부에 의해 상기 수신된 텍스트가 상기 부적절한 요소를 포함하는 것을 예측되는 경우, 상기 통신부는 상기 텍스트를 제2 서버에 전송하는 전자 장치.
제 14 항에 있어서,
상기 제어부는 상기 기계 학습 모델을 학습시키고,
상기 학습된 기계 학습 모델을 저장하기 위한 저장부를 더 포함하는 전자 장치.
제 14 항에 있어서,
상기 제어부에 의해 상기 수신된 텍스트가 상기 부적절한 요소를 포함하는 것으로 예측되는 경우, 상기 수신된 텍스트를 신고할 것을 제안하는 메시지를 출력하는 출력부를 더 포함하는 전자 장치.
제 17 항에 있어서,
상기 입력부를 통해 상기 신고에 동의하는 신고 입력이 수신되는 경우, 상기 통신부는 상기 텍스트를 제2 서버에 전송하는 전자 장치.