KR20140013606A

KR20140013606A - 음성 처리장치 및 방법

Info

Publication number: KR20140013606A
Application number: KR1020120081345A
Authority: KR
Inventors: 김강열; 김미향; 윤근혁; 정광수; 황호철
Original assignee: 삼성전자주식회사
Priority date: 2012-07-25
Filing date: 2012-07-25
Publication date: 2014-02-05

Abstract

본 발명에 따른 송수화 음성 처리 장치는, 휴대용 단말의 프로파일을 확인하고, 단말의 이어폰을 통해 입력되는 입력음성으로부터 상기 프로파일에 의해 발생되는 소음을 제거하는 프로파일 소음 제거부와, 미리 정해진 음성신호와, 상기 입력음성을 사용하여 송수신 음성신호의 음질을 예측하는 음질 예측부와, 상기 음질 예측부를 통해 확인된 음질을 고려하여, 통화시에 사용할 통화모드를 결정 및 제공하는 통화 가이드부를 포함한다.

Description

음성 처리장치 및 방법{APPARATUS FOR PROCESSING AUDIO SIGNAL AND METHOD FOR THE SAME}

본 발명은 이동통신 단말의 음성과 관련된 잡음을 처리하는 기술에 관한 것으로써, 특히 송수화시 발생되는 음성 신호의 잡음을 최소화할 수 있는 방법 및 장치에 관한 것이다.

이동통신 단말에서 사용자가 영상통화 또는 음성통화를 진행함에 있어서, 다양한 환경이 존재하게 될 수 있으며 다양한 음성 노이즈가 발생될 수 있다.

음성 통화에 사용되는 음파는 발생된 음원으로부터 멀어 질수록 에너지는 거리의 제곱으로 감소하게 된다. 일반적인 음성 통화를 진행 시에는, 마이크와 사용자의 입 즉 음원 간의 거리가 짧기 때문에 실제로 마이크에 입력되는 음성은 매우 크게 입력되게 된다. 반면, 주변 잡음의 경우는 아무리 커도 음원이 멀리 떨어져 있기 때문에 마이크에 입력되는 크기는 상대적으로 적게 입력되게 된다.

한편, 스피커폰 모드로 음성통화를 진행하거나, 영상 통화모드로 통화를 진행하는 등과 같이 사용자의 입과 마이크 간의 거리가 수십cm 이상 떨어져 통화가 이루어지는 환경에서는, 음성의 크기는 상당히 감소하게 되며 음성의 크기 확보를 하기 위해 마이크 게인을 상승시키게 된다. 이때 주변 잡음의 영향이 더욱 커져 잡음 심한 환경에서는 통화 자체가 어렵게 되는 문제가 발생된다.

본 발명은 전술한 문제점을 고려하여 안출된 것으로써, 통화가 이루어지는 다양한 환경을 고려하여 통화시 발생되는 잡음을 최소화하는 방법 및 장치를 제공하는데 그 목적이 있다.

또한, 본 발명은 통화시 발생되는 잡음을 고려한 최적화된 통화모드를 가이드하고, 최적의 통화모드의 환경을 반영함으로써 통화시 발생되는 노이즈를 최소화하는데 또 다른 목적이 있다.

본 발명의 일 측면에 따른 송수화 음성 처리장치는, 휴대용 단말의 프로파일을 확인하고, 단말의 이어폰을 통해 입력되는 입력음성으로부터 상기 프로파일에 의해 발생되는 소음을 제거하는 프로파일 소음 제거부와, 미리 정해진 음성신호와, 상기 입력음성을 사용하여 송수신 음성신호의 음질을 예측하는 음질 예측부와, 상기 음질 예측부를 통해 확인된 음질을 고려하여, 통화시에 사용할 통화모드를 결정 및 제공하는 통화 가이드부를 포함한다.

본 발명의 다른 측면에 따른 송수화 음성 처리 방법은, 휴대용 단말의 프로파일을 확인하고, 단말의 이어폰을 통해 입력되는 입력음성으로부터 상기 프로파일에 의해 발생되는 소음을 제거하는 과정과, 미리 정해진 음성신호와, 상기 입력음성을 사용하여 송수신 음성신호의 음질을 예측하는 과정과, 상기 확인된 음질을 고려하여, 통화시에 사용할 통화모드를 결정 및 제공하는 과정을 포함한다.

본 발명에 따르면, 통화가 이루어지는 다양한 환경을 고려하여 통화시 발생되는 잡음을 최소화할 수 있다.

또한, 본 발명은 통화시 발생되는 잡음을 고려한 최적화된 통화모드를 가이드하고, 최적의 통화모드의 환경을 반영함으로써 통화시 발생되는 노이즈를 최소화할 수 있다.

도 1은 본 발명의 일 실시예에 따른 모바일 장치를 나타내는 개략적인 블록도,
도 2는 본 발명의 일 실시예에 따른 휴대용 단말의 사시도,
도 3은 본 발명의 일 실시예에 따른 송수화 음성 처리 장치의 구성을 도시하는 블록도,
도 4는 본 발명의 일 실시예에 따른 송수화 음성 처리 장치에 따라, 송수화음질의 상태를 매핑하는 테이블의 일 예시도,
도 5는 도 3의 음질 예측부의 상세 구성을 도시하는 블록도,
도 6은 본 발명의 일 실시예에 따른 송수화 음성 처리 방법을 동작 순서를 도시하는 흐름도,
도 7은 도 6의 604단계의 상세 동작 순서를 도시하는 흐름도,
도 8은 도 6의 605단계의 상세 동작 순서를 도시하는 흐름도,
도 9a 내지 9e는 본 발명의 일 실시예에 따른 송수화 음성 처리 방법에 의해 통화모드를 가이드 하는 UI의 예시도.

이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 예시적 실시예를 상세하게 설명한다. 다만, 본 발명이 예시적 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 실질적으로 동일한 기능을 수행하는 부재를 나타낸다.

도 1은 본 발명의 일 실시예에 따른 모바일 장치를 나타내는 개략적인 블록도이다.

도 1을 참조하면, 장치(100)는 이동통신 모듈(120), 서브통신 모듈(130) 및 커넥터(165)를 이용하여 외부장치(도시되지 아니함)와 연결될 수 있다. “외부장치”는 다른 장치(도시되지 아니함), 휴대폰(도시되지 아니함), 스마트폰(도시되지 아니함), 태블릿PC(도시되지 아니함) 및 서버(도시되지 아니함)를 포함한다.

도 1을 참조하면, 장치(100)는 터치스크린(190) 및 터치스크린 컨트롤러(195)를 포함한다. 또한, 장치(100)는 제어부(110), 이동통신 모듈(120), 서브통신 모듈(130), 멀티미디어 모듈(140), 카메라 모듈(150), GPS모듈(155), 입/출력 모듈(160), 센서 모듈(170), 저장부(175) 및 전원공급부(180)를 포함한다. 서브통신 모듈(130)은 무선랜 모듈(131) 및 근거리통신 모듈(132) 중 적어도 하나를 포함하고, 멀티미디어 모듈(140)은 방송통신 모듈(141), 오디오재생 모듈(142) 및 동영상재생 모듈(143) 중 적어도 하나를 포함한다. 카메라 모듈(150)은 제1 카메라(151) 및 제2 카메라(152) 중 적어도 하나를 포함하고, 입/출력 모듈(160)은 버튼(161), 마이크(162), 스피커(163), 진동모터(164), 커넥터(165), 및 키패드(166) 중 적어도 하나를 포함한다.

제어부(110)는 CPU(111), 장치(100)의 제어를 위한 제어프로그램이 저장된 롬(ROM, 112) 및 장치(100)의 외부로부터 입력되는 신호 또는 데이터를 기억하거나, 장치(100)에서 수행되는 작업을 위한 기억영역으로 사용되는 램(RAM, 113)을 포함할 수 있다. CPU(111)는 싱글 코어, 듀얼 코어, 트리플 코어, 또는 쿼드 코어를 포함할 수 있다. CPU(111), 롬(112) 및 램(113)은 내부버스(bus)를 통해 상호 연결될 수 있다.

제어부(110)는 이동통신 모듈(120), 서브통신 모듈(130), 멀티미디어 모듈(140), 카메라 모듈(150), GPS 모듈(155), 입/출력 모듈(160), 센서 모듈(170), 저장부(175), 전원공급부(180), 제1 터치스크린(190a), 제2 터치스크린(190b) 및 터치스크린 컨트롤러(195)를 제어할 수 있다.

이동통신 모듈(120)은 제어부(110)의 제어에 따라 적어도 하나-하나 또는 복수-의 안테나(도시되지 아니함)를 이용하여 이동 통신을 통해 장치(100)가 외부 장치와 연결되도록 한다. 이동통신 모듈(120)은 장치(100)에 입력되는 전화번호를 가지는 휴대폰(도시되지 아니함), 스마트폰(도시되지 아니함), 태블릿PC 또는 다른 장치(도시되지 아니함)와 음성 통화, 화상 통화, 문자메시지(SMS) 또는 멀티미디어 메시지(MMS)를 위한 무선 신호를 송/수신한다.

서브통신 모듈(130)은 무선랜 모듈(131)과 근거리통신 모듈(132) 중 적어도 하나를 포함할 수 있다. 예를 들어, 무선랜 모듈(131)만 포함하거나, 근거리통신 모듈(132)만 포함하거나 또는 무선랜 모듈(131)과 근거리통신 모듈(132)을 모두 포함할 수 있다.

무선랜 모듈(131)은 제어부(110)의 제어에 따라 무선 AP(access point)(도시되지 아니함)가 설치된 장소에서 인터넷에 연결될 수 있다. 무선랜 모듈(131)은 미국전기전자학회(IEEE)의 무선랜 규격(IEEE802.11x)을 지원한다. 근거리통신 모듈(132)은 제어부(110)의 제어에 따라 장치(100)와 화상형성장치(도시되지 아니함) 사이에 무선으로 근거리 통신을 할 수 있다. 근거리 통신방식은 블루투스(bluetooth), 적외선 통신(IrDA, infrared data association) 등이 포함될 수 있다.

장치(100)는 성능에 따라 이동통신 모듈(120), 무선랜 모듈(131), 및 근거리통신 모듈(132) 중 적어도 하나를 포함할 수 있다. 예를 들어, 장치(100)는 성능에 따라 이동통신 모듈(120), 무선랜 모듈(131), 및 근거리통신 모듈(132)들의 조합을 포함할 수 있다.

멀티미디어 모듈(140)은 방송통신 모듈(141), 오디오재생 모듈(142) 또는 동영상재생 모듈(143)을 포함할 수 있다. 방송통신 모듈(141)은 제어부(110)의 제어에 따라 방송통신 안테나(도시되지 아니함)를 통해 방송국에서부터 송출되는 방송 신호(예, TV방송 신호, 라디오방송 신호 또는 데이터방송 신호) 및 방송부가 정보(예, EPS(Electric Program Guide) 또는 ESG(Electric Service Guide))를 수신할 수 있다. 오디오재생 모듈(142)는 제어부(110)의 제어에 따라 저장되거나 또는 수신되는 디지털 오디오 파일(예, 파일 확장자가 mp3, wma, ogg 또는 wav인 파일)을 재생할 수 있다. 동영상재생 모듈(143)은 제어부(110)의 제어에 따라 저장되거나 또는 수신되는 디지털 동영상 파일(예, 파일 확장자가 mpeg, mpg, mp4, avi, mov, 또는 mkv인 파일)을 재생할 수 있다. 동영상재생 모듈(143)은 디지털 오디오 파일을 재생할 수 있다.

멀티미디어 모듈(140)은 방송통신 모듈(141)을 제외하고 오디오재생 모듈(142)과 동영상재생 모듈(143)을 포함할 수 있다. 또한, 멀티미디어 모듈(140)의 오디오재생 모듈(142) 또는 동영상재생 모듈(143)은 제어부(100)에 포함될 수 있다.

카메라 모듈(150)은 제어부(110)의 제어에 따라 정지이미지 또는 동영상을 촬영하는 제1 카메라(151) 및 제2 카메라(152) 중 적어도 하나를 포함할 수 있다. 또한, 제1 카메라(151) 또는 제2 카메라(152)는 촬영에 필요한 광량을 제공하는 보조 광원(예, 플래시(도시되지 아니함))를 포함할 수 있다. 제1 카메라(151)는 상기 장치(100) 전면에 배치되고, 제2 카메라(152)는 상기 장치(100)의 후면에 배치될 수 있다. 달리 취한 방식으로, 제1 카메라(151)와 제2 카메라(152)는 인접(예, 제1 카메라(151)와 제2 카메라(152)의 간격이 1 cm 보다 크고, 8 cm 보다는 작은)하게 배치되어 3차원 정지이미지 또는 3차원 동영상을 촬영할 수 있다.

GPS 모듈(155)은 지구 궤도상에 있는 복수의 GPS위성(도시되지 아니함)에서부터 전파를 수신하고, GPS위성(도시되지 아니함)에서부터 장치(100)까지 전파도달시간(Time of Arrival)을 이용하여 장치(100)의 위치를 산출할 수 있다.

입/출력 모듈(160)은 복수의 버튼(161), 마이크(162), 스피커(163), 진동모터(164), 커넥터(165), 및 키패드(166) 중 적어도 하나를 포함할 수 있다.

버튼(161)은 상기 장치(100)의 하우징의 전면, 측면 또는 후면에 형성될 수 있으며, 전원/잠금 버튼(도시되지 아니함), 볼륨버튼(도시되지 아니함), 메뉴 버튼, 홈 버튼, 돌아가기 버튼(back button) 및 검색 버튼(161) 중 적어도 하나를 포함할 수 있다.

마이크(162)는 제어부(110)의 제어에 따라 음성(voice) 또는 사운드(sound)를 입력 받아 전기적인 신호를 생성한다.

스피커(163)는 제어부(110)의 제어에 따라 이동통신 모듈(120), 서브통신 모듈(130), 멀티미디어 모듈(140) 또는 카메라 모듈(150)의 다양한 신호(예, 무선신호, 방송신호, 디지털 오디오 파일, 디지털 동영상 파일 또는 사진 촬영 등)에 대응되는 사운드를 장치(100) 외부로 출력할 수 있다. 스피커(163)는 장치(100)가 수행하는 기능에 대응되는 사운드(예, 전화 통화에 대응되는 버튼 조작음, 또는 통화 연결음)를 출력할 수 있다. 스피커(163)는 상기 장치(100)의 하우징의 적절한 위치 또는 위치들에 하나 또는 복수로 형성될 수 있다.

진동모터(164)는 제어부(110)의 제어에 따라 전기적 신호를 기계적 진동으로 변환할 수 있다. 예를 들어, 진동 모드에 있는 장치(100)는 다른 장치(도시되지 아니함)로부터 음성통화가 수신되는 경우, 진동모터(164)가 동작한다. 상기 장치(100)의 하우징 내에 하나 또는 복수로 형성될 수 있다. 진동모터(164)는 터치스크린(190) 상을 터치하는 사용자의 터치 동작 및 터치스크린(190) 상에서의 터치의 연속적인 움직임에 응답하여 동작할 수 있다.

커넥터(165)는 장치(100)와 외부장치(도시되지 아니함) 또는 전원소스(도시되지 아니함)를 연결하기 위한 인터페이스로 이용될 수 있다. 제어부(110)의 제어에 따라 커넥터(165)에 연결된 유선 케이블을 통해 장치(100)의 저장부(175)에 저장된 데이터를 외부 장치(도시되지 아니함)로 전송하거나 또는 외부 장치(도시되지 아니함)에서부터 데이터를 수신할 수 있다. 커넥터(165)에 연결된 유선 케이블을 통해 전원소스(도시되지 아니함)에서부터 전원이 입력되거나 배터리(도시되지 아니함)를 충전할 수 있다.

키패드(166)는 장치(100)의 제어를 위해 사용자로부터 키 입력을 수신할 수 있다. 키패드(166)는 장치(100)에 형성되는 물리적인 키패드(도시되지 아니함) 또는 터치스크린(190)에 표시되는 가상의 키패드(도시되지 아니함)를 포함한다. 장치(100)에 형성되는 물리적인 키패드(도시되지 아니함)는 장치(100)의 성능 또는 구조에 따라 제외될 수 있다.

센서 모듈(170)은 장치(100)의 상태를 검출하는 적어도 하나의 센서를 포함한다. 예를 들어, 센서모듈(170)은 사용자의 장치(100)에 대한 접근여부를 검출하는 근접센서, 장치(100) 주변의 빛의 양을 검출하는 조도센서(도시되지 아니함), 또는 장치(100)의 동작(예, 장치(100)의 회전, 장치(100)에 가해지는 가속도 또는 진동)을 검출하는 모션센서(도시되지 아니함)를 포함할 수 있다. 적어도 하나의 센서는 상태를 검출하고, 검출에 대응되는 신호를 생성하여 제어부(110)로 전송할 수 있다. 센서모듈(170)의 센서는 장치(100)의 성능에 따라 추가되거나 삭제될 수 있다.

저장부(175)는 제어부(110)의 제어에 따라 이동통신 모듈(120), 서브통신 모듈(130), 멀티미디어 모듈(140), 카메라 모듈(150), GPS모듈(155), 입/출력 모듈(160), 센서 모듈(170), 터치스크린(190)의 동작에 대응되게 입/출력되는 신호 또는 데이터를 저장할 수 있다. 저장부(175)는 장치(100) 또는 제어부(110)의 제어를 위한 제어 프로그램 및 어플리케이션들을 저장할 수 있다.

“저장부”라는 용어는 저장부(175), 제어부(110)내 롬(112), 램(113) 또는 장치(100)에 장착되는 메모리 카드(도시되지 아니함)(예, SD 카드, 메모리 스틱)를 포함한다. 저장부는 비휘발성메모리, 휘발성메모리, 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD)를 포함할 수 있다.

전원공급부(180)는 제어부(110)의 제어에 따라 장치(100)의 하우징에 배치되는 하나 또는 복수의 배터리(도시되지 아니함)에 전원을 공급할 수 있다. 하나 또는 복수의 배터리(도시되지 아니함)는 장치(100)에 전원을 공급한다. 또한, 전원공급부(180)는 커넥터(165)와 연결된 유선 케이블을 통해 외부의 전원소스(도시되지 아니함)에서부터 입력되는 전원을 장치(100)로 공급할 수 있다.

터치스크린(190)은 사용자에게 다양한 서비스(예, 통화, 데이터 전송, 방송, 사진촬영)에 대응되는 유저 인터페이스를 제공할 수 있다. 터치스크린(190)은 유저 인터페이스에 입력되는 적어도 하나의 터치에 대응되는 아날로그 신호를 터치스크린 컨트롤러(195)로 전송할 수 있다. 터치스크린(190)은 사용자의 신체(예, 엄지를 포함하는 손가락) 또는 터치가능한 입력 수단(예, 스타일러스 펜)을 통해 적어도 하나의 터치를 입력받을 수 있다. 또한, 터치스크린(190)은 적어도 하나의 터치 중에서, 하나의 터치의 연속적인 움직임을 입력받을 수 있다. 터치스크린(190)은 입력되는 터치의 연속적인 움직임에 대응되는 아날로그 신호를 터치스크린 컨트롤러(195)로 전송할 수 있다.

본 발명에서 터치는 터치스크린(190)과 사용자의 신체 또는 터치 가능한 입력 수단과의 접촉에 한정되지 않고, 비접촉(예, 터치스크린(190)과 사용자의 신체 또는 터치 가능한 입력 수단과 검출가능한 간격이 1 mm 이하)을 포함할 수 있다. 터치스크린(190)에서 검출가능한 간격은 장치(100)의 성능 또는 구조에 따라 변경될 수 있다.

터치스크린(190)은 예를 들어, 저항막(resistive) 방식, 정전용량(capacitive) 방식, 적외선(infrared) 방식 또는 초음파(acoustic wave) 방식으로 구현될 수 있다.

터치스크린 컨트롤러(195)는 터치스크린(190)에서부터 수신된 아날로그 신호를 디지털 신호(예, X와 Y좌표)로 변환하여 제어부(110)로 전송한다. 제어부(110)는 터치스크린 컨트롤러(195)로부터 수신된 디지털 신호를 이용하여 터치스크린(190)을 제어할 수 있다. 예를 들어, 제어부(110)는 터치에 응답하여 터치스크린(190)에 표시된 단축 아이콘(도시되지 아니함)이 선택되게 하거나 또는 단축 아이콘(도시되지 아니함)을 실행할 수 있다. 또한, 터치스크린 컨트롤러(195)는 제어부(110)에 포함될 수도 있다.

도 2는 본 발명의 일 실시예에 따른 휴대용 단말의 사시도이다.

도 2를 참조하면, 장치(100)의 전면(100a) 중앙에는 터치스크린(190)이 배치된다. 상기 터치스크린(190)은 장치(100)의 전면(100a)의 대부분을 차지하도록 크게 형성된다. 장치(100)의 전면(100a) 가장자리에는 제1 카메라(151)와 조도 센서(170a)가 배치될 수 있다. 장치(100)의 측면(100b)에는 예를 들어 전원/리셋 버튼(160a), 음량 버튼(161b), 스피커(163), 방송 수신을 위한 지상파 DMB 안테나(141a), 마이크(미도시), 커넥터(미도시) 등이 배치되고, 장치(100)의 후면(미도시)에는 제2 카메라(미도시)가 배치될 수 있다.

상기 터치스크린(190)은 메인 화면(210) 및 하단 바(220)를 포함한다.

상기 메인 화면(210)은 하나 또는 복수의 어플리케이션들이 실행되는 영역이다. 도 2에서는, 상기 터치스크린(190)에 홈 화면이 표시된 예를 나타낸다. 홈 화면은 장치(100)의 전원을 켰을 때 상기 터치스크린(190) 상에 표시되는 첫 화면이다. 홈 화면에는 장치(100)에 저장된 다수의 어플리케이션을 실행하기 위한 실행키들(212)이 행들과 열들로 정렬되어 표시된다. 상기 실행키들(212)은 아이콘들, 버튼들, 또는 텍스트 등으로 형성될 수 있다. 각 실행키(212)가 터치되면, 터치된 실행키(212)에 대응하는 어플리케이션이 실행되어 상기 메인 화면(210)에 표시된다.

상기 하단 바(220)는 터치스크린(190)의 하단에서 수평방향으로 길게 신장되며(elongated), 표준 기능 버튼들(222 내지 228)을 포함한다.

또한, 상기 터치스크린(190)의 상단에는 배터리 충전상태, 수신신호의 세기, 현재 시각과 같은 장치(100)의 상태를 표시하는 상단 바(미도시)가 형성될 수 있다.

도 3은 본 발명의 일 실시예에 따른 송수화 음성 처리 장치의 구성을 도시하는 블록도 이다. 도 3을 참조하면, 본 발명의 일 실시예에 따른 송수화 음성 처리 장치는 휴대용 단말이 통화모드로 전환됨에 따라 구동을 개시하게 되며, 프로파일 소음 제거부(310), 음질 예측부(320), 및 통화 가이드부(330)를 포함한다. 상기 통화모드는 외부로부터 호를 수신할 경우 또는 사용자에 의해 호 발신이 요청되는 경우에 동작할 수 있다,

프로파일 소음 제거부(310)는 상기 통화모드에서 마이크를 통해 수신되는 외부 음성신호를 우선적으로 처리하게 되며, 특히 현재 휴대용 단말의 프로파일 설정을 확인한 후, 상기 설정된 프로파일에 의해 발생되는 노이즈를 예측하고, 상기 예측되는 노이즈를 제거하는 동작을 수행한다.

예컨대, 상기 휴대용 단말의 프로파일은, 무음 모드, 벨소리 모드, 진동 모드 중, 하나 또는 둘이 상이 조합되는 것으로 설정될 수 있는바, 상기 프로파일 소음 제거부(310)는 휴대용 단말의 프로파일이 벨소리 모드로 설정되어 있을 경우, 상기 벨소리 모드에 의해 발생되는 벨소리에 의한 음성 신호를 확인한다. 그리고, 상기 외부 음성신호로부터 상기 벨소리에 의한 음성 신호를 제거하는 동작을 수행한다. 이때, 상기 프로파일 소음 제거부(310)는 휴대용 단말에 설정된 상기 벨소리의 주파수 스펙트럼을 분석하고, 상기 분석된 주파수 스펙트럼에 대응하는 음성 신호의 주파수 영역을 제거하도록 구현될 수 있다.

마찬가지로, 휴대용 단말의 프로파일이 진동 모드로 설정되어 있을 경우, 상기 진동 모드에 의해 발생되는 진동 주파수에 대응하는 진동 음성과, 상긴 진동 모드에 의해 휴대용 단말이 외부의 물체와 접촉되는 외부 진동 음성을 확인하고, 상기 외부 음성신호로부터 상기 진동 음성 및 외부 진동 음성을 제거하는 동작을 수행하게 된다. 즉, 프로파일 소음 제거부(310)는 휴대용 단말에 설정된 상기 진동 주파수의 동작 주기와, 주파수 스펙트럼을 분석하고, 상기 분석된 결과에 대응하는 동작 주기에 기초하여 해당되는 주파수 영역을 제거하도록 구현될 수 있다.

음질 예측부(320)는 상기 프로파일 소음 제거부(310)에서 출력되는 제1보정음성을, 음질측정을 위해 미리 정해진 음성신호와 비교하여 송신 및 수신되는 음성신호의 상태를 예측한다. 상기 음질 예측부(320)는 음성신호의 유사도, PESQ(preceptual Evaluation of Speech Quality), SNR(signal to noise ratio)측정 등을 사용하여 음성신호의 질을 수치화함으로써, 음성신호의 상태를 예측할 수 있다.

통화 가이드부(330)는 음성신호의 상태를 고려하여, 유효한 통화모드를 확인하고, 확인된 통화모드를 사용자에게 가이드한다. 예컨대, 통화 가이드부(330)는 음성신호의 상태에 따라 유효하게 적용될 수 있는 통화모드를 테이블화(도 4a, 4b참조)하여 미리 저장하고, 상기 음성신호의 상태에 대응하는 통화모드를 선택하여 가이드할 수 있다. 예컨대, 음성신호 상태의 수치화된 값(dB, PESQ, 유사도 등급 등)을 기준으로, 가장 적합한 통화모드를 추천 상태로 설정하고, 각 통화모드의 사용 가능 여부를 설정한다. 추가적으로, 통화 가이드부(330)는 송신 음성신호 상태의 수치화된 값(dB, PESQ, 유사도 등급 등)을 기준으로, 소음 제거 기능의 추천 또는 사용 가능 여부 등을 더 가이드할 수 있고, 수신 음성신호 상태의 수치화된 값(dB, PESQ, 유사도 등급 등)을 기준으로, 추가 음량 제공 기능의 추천 또는 사용 가능 여부 등을 더 가이드할 수 있다.

또한, 통화 가이드부(330)는 상기 선택된 통화모드를 디스플레이 상에 팝업, 하이라이트 표시 등을 통해 통화모드를 가이드할 수 있는데, 상기 통화모드 가이드에 대해서는, 통화 가이드부(330)의 동작을 설명하면서 그에 대한 다양한 동작을 예시한다.

나아가, 본 발명의 일 실시예에 따른 송수화 음성 처리 장치는 음성 처리부(340)를 더 포함할 수 있다. 음성 처리부(340)는 통화 가이드부(330)로부터 선택된 통화모드에 대한 정보를 제공받으며, 상기 제공받은 통화모드에 맞게 송수신 음성을 보정한다. 예컨대, 상기 선택된 통화모드가 소근소근 모드일 경우, 통화자 음성의 주파수 스펙트럼을 분석하고, 상기 통화자 음성의 주파수 대역을 증폭하는 반면 그외의 주파수 대역을 감쇄시켜, 통화자가 작은 소리로 말을 하더라도 통화자 음성이 크게 증폭되어 출력될 수 있도록 한다.

도 5는 도 3의 음질 예측부의 상세 구성을 도시하는 블록도이다. 도 5를 참조하면, 상기 음질 예측부(320)는, 음성신호 삽입부(321), 통화모드 보정부(322), 잡음 크기 측정부(323), SNR 계산부(324), 잡음 제거부(325), 수화음질 예측부(326), 및 송화음질 예측부(327)를 포함할 수 있다.

음성신호 삽입부(321)는 음성 신호의 질을 측정하기 위해 미리 마련된 음성신호를 출력한다. 예컨대, 상기 미리 마련된 음성신호는 ITU-T. P.862.3 등의 표준에서 제시하고 있는 음성 신호를 포함할 수 있다.

통화모드 보정부(322)는 상기 음성 신호 삽입부(321)에서 출력되는 음성신호를 각각의 통화모드(예컨대, LoudSPK 모드, 블루투스 헤드셋 모드, 이어셋 모드, 리시버 모드, 소근소근 모드 등)의 통화 환경을 고려하여, 각 모드에 맞게 음성신호의 이득(Gain) 및 주파수 특성을 반영하여 보정하고, 이렇게 보정된 '통화모드별 기준음성'을 출력한다. 상기 제1보정음성 및 통화모드별 기준음성은 신호합성기(325)를 통해 합성되어, 조합음성신호를 형성하게 된다.

한편, 잡음 크기 측정부(323)는 상기 제1보정음성을 프레임 단위의 에너지를 연산하여, 잡음의 크기를 측정하고, 그 결과를 SNR 계산부(324)에 제공하며, SNR 계산부(324)는 상기 잡음의 크페림별 크기를 기초로 신호대 잡음비(SNR)를 연산하게 된다. 이렇게 연산된 SNR 값은 수화음질 예측부(327) 및 송화음질 예측부(328)에 제공된다.

수화음질 예측부(327)는 상기 조합음성신호와, SNR 값을 사용하여, 상기 조합음성신호의 상태를 측정함으로써, 수화음질의 상태를 예측한다. 즉, 상기 조합음성신호의 기준음성과의 유사도, PESQ 등급, SNR의 크기 등을 수치화하여 출력한다.

잡음제거부(326)는 상기 조합음성신호의 잡음을 제거하여 출력하게 되며, 송화음질 예측부(328)는 잡음제거부(326)에서 출력된 송신음성과 SNR 계산부(324)에서 제공되는 SNR 값을 사용하여, 상기 송신음성의 상태를 측정함으로써, 송화음질의 상태를 예측한다. 송화음질의 상태예측은 입력되는 신호의 차이만 있을 뿐, 수화음질 예측부(327)와 마찬가지로, 상기 송신음성의 기준음성과의 유사도, PESQ 등급, SNR의 크기 등을 수치화하는 동작을 진행한다.

도 6은 본 발명의 일 실시예에 따른 송수화 음성 처리 방법을 동작 순서를 도시하는 흐름도이다.

본 발명의 일 실시예에 따른 송수화 음성 처리 방법은 전술한 송수화 음성 처리 장치에 의해 수행될 수 있으므로, 이하 전술한 송수화 음성 처리 장치의 동작과 함께 본 발명의 일 실시예에 따른 송수화 음성 처리 방법을 상세히 설명한다.

우선 본 발명의 송수화 음성 처리 방법은 휴대용 단말의 통화 기능이 활성화됨에 따라 그 동작을 개시할 수 있다. 즉, 사용자가 휴대용 단말에 마련된 키를 통해 수신자의 전화번호를 입력한 후 통화 버튼을 입력함에 따라, 통화 발신 모드로 전환된 후 동작이 개시되거나, 휴대용 단말이 연결된 네트워크로부터 호 연결 요청 신호가 인입됨에 따라, 통화 수신 모드로 전환된 후 동작이 개시될 수 있다.

휴대용 단말의 통화 기능이 활성화되면, 통화 발신 모드인지 또는 통화 수신 모드인지를 확인하게 되고, 통화 수신모드인 경우 602단계를 진행하고, 통화 발신 모드인 경우 602 및 603단계를 생략하고, 바로 604단계를 진행한다.

602단계는 프로파일 소음 제거부(310)에 의해 동작할 수 있다. 구체적으로, 프로파일 소음 제거부(310)는 현재 휴대용 단말의 프로파일 설정을 확인(602단계)한 후, 상기 설정된 프로파일에 의해 발생되는 노이즈를 예측하고, 상기 예측되는 노이즈를 제거(603단계)하는 동작을 수행한다. 예컨대, 상기 휴대용 단말의 프로파일이 벨소리 모드로 설정되어 있을 경우, 상기 벨소리 모드에 의해 발생되는 벨소리에 의한 음성 신호를 확인한 후, 휴대용 단말에 설정된 상기 벨소리의 주파수 스펙트럼을 분석하고, 상기 분석된 주파수 스펙트럼에 대응하는 음성 신호의 주파수 영역을 제거함으로써 프로파일에 의한 노이즈를 제거하게 된다. 마찬가지로, 휴대용 단말의 프로파일이 진동 모드로 설정되어 있는 경우에는, 상기 진동 모드에서 진동모터의 동작 주기와, 진동 주파수 스펙트럼, 상긴 진동 모드에 의해 휴대용 단말이 외부의 물체와 접촉되는 외부 진동 음성 등을 고려하여, 상기 외부 음성신호로부터 상기 진동 음성 및 외부 진동 음성을 제거하는 동작을 수행하게 된다.

이렇게 프로파일 소음 제거부(310)에 의해 프로파일 소음이 제거되면, 다음으로 송수화음성의 상태 예측을 수행하게 된다(604단계). 송수화음성의 상태 예측은 음질 예측부(320)에 의해 수행된다.

이렇게 송수화음성의 상태가 예측되면, 송수화음성의 상태, 즉 송수화음성의 음질은 통화모드 가이드부(330)로 제공되고, 통화모드 가이드부(330)는 송수화음성의 음질의 특성에 맞는 통화모드를 선정하고, 선정된 통화모드를 사용자에게 가이드한다(605단계).

추가적으로, 본 발명의 일 실시예에 따른 송수화 음성 처리 방법은 통화 가이드부(330)로부터 선택된 통화모드에 대한 정보를 제공받고, 상기 제공받은 통화모드에 맞게 송수신 음성을 보정하는 동작을 더 수행(606단계)할 수 있으며, 이러한 606단계는 음성 처리부(340)를 통해 수행될 수 있다. 예컨대, 상기 605단계에서 선택된 통화모드가 소근소근 모드일 경우, 통화자 음성의 주파수 스펙트럼을 분석하고, 상기 통화자 음성의 주파수 대역을 증폭하는 반면 그외의 주파수 대역을 감쇄시켜, 통화자가 작은 소리로 말을 하더라도 통화자 음성이 크게 증폭되어 출력될 수 있도록 한다.

도 7은 도 6의 604단계의 상세 동작 순서를 도시하는 흐름도이다. 도 7을 참조하면, 우선, 701단계에서, 음성신호 삽입부(321)가 음성 신호의 질을 측정하기 위해 미리 마련된 표준음성신호를 입력하게 되다.

상기 표준음성신호는 통화모드 보정부(322)에 제공되며, 통화모드 보정부(322)는 상기 표준음성신호를 각각의 통화모드(예컨대, LoudSPK 모드, 블루투스 헤드셋 모드, 이어셋 모드, 리시버 모드, 소근소근 모드 등)의 통화 환경을 고려하여, 각 모드에 맞게 음성신호의 이득(Gain) 및 주파수 특성을 반영하여 보정하고, 이렇게 보정된 '통화모드별 기준음성'을 출력한다(702단계).

다음으로, 703단계에서는, 상기 제1보정음성 및 통화모드별 기준음성은 신호합성기(325)를 통해 합성되어, 조합음성신호를 형성 및 출력하게 된다.

한편, 잡음 크기 측정부(323)는 상기 제1보정음성을 프레임 단위의 에너지를 연산하여, 잡음의 크기를 측정하고, 그 결과를 SNR 계산부(324)에 제공하며(704단계), SNR 계산부(324)는 상기 잡음의 프페림별 크기를 기초로 신호대 잡음비(SNR)를 연산하게 된다(705단계). 이렇게 연산된 SNR 값은 수화음질 예측부(327) 및 송화음질 예측부(328)에 제공된다. SNR 값은 수화음질 및 송화음질을 예측하는데 사용되는 값으로써, 상기 제1보정음성으로부터 추출되므로, 704 및 705단계는 상기 701 내지 703단계의 동작과는 독립적으로 수행될 수 있다. 따라서, 상기 704 및 705단계는 상기 701 내지 702단계와 병렬적으로 진행되거나, 상기 701 내지 703단계의 수행에 앞서 진행될 수 있다.

다음으로, 수화음질 예측부(327)의 동작에 의해 수화음질 예측이 진행된다(706단계). 구체적으로, 수화음질 예측부(327)는 상기 조합음성신호와, SNR 값을 사용하여, 상기 조합음성신호의 상태를 측정함으로써, 수화음질의 상태를 예측한다. 즉, 상기 조합음성신호의 기준음성과의 유사도, PESQ 등급, SNR의 크기 등을 수치화하여 출력한다.

그리고, 707단계에서는, 수화음질 예측부(327)의 동작에 의해 수화음질 예측이 진행된다. 707단계의 동작 과정에서는, 우선, 잡음제거부(326)가 상기 조합음성신호의 잡음을 제거하여 출력하게 되며, 송화음질 예측부(328)는 잡음제거부(326)에서 출력된 송신음성과 상기 SNR 계산부(324)에서 제공되는 SNR 값을 사용하여, 상기 송신음성의 상태를 측정함으로써, 송화음질의 상태를 예측한다. 송화음질의 상태예측은 입력되는 신호의 차이만 있을 뿐, 수화음질 예측부(327)와 마찬가지로, 상기 송신음성의 기준음성과의 유사도, PESQ 등급, SNR의 크기 등을 수치화하는 동작을 진행한다.

도 8은 도 6의 605단계의 상세 동작 순서를 도시하는 흐름도이다. 통화모드를 가이드 하는 605단계는 통화 가이드부(330)의 동작에 의해 진행된다.

우선, 801단계에서, 최적 통화모드를 설정할 것인지 여부를 확인한다.

최적 통화모드 설정 여부는 사용자에게 최적 통화모드를 설정할 것인지 여부를 확인하기 위한 팝업 메시지를 디스플레이하고(도 9a 참조), 그에 대한 응답을 수신함으로써 확인할 수 있다. 또는, 사용자가 최적 통화모드의 사용 여부를 사전에 설정할 수 있는 메뉴를 제공하고, 사용자에 의해 미리, 최적 통화모드의 사용 여부를 설정할 수 있도록 하여, 최적 통화모드 설정 여부를 확인할 수 있다.

나아가, 최적 통화모드 설정 여부를 확인하기 전까지는 통화모드 가이드하는 동작이 반영되지 않은 일반모드(도 9b)로 동작되는 것이 바람직하다.

최적 통화모드 설정 여부의 확인 결과, 최적 통화모드를 사용하는 것으로 확인되면(801-예), 802단계를 진행하고, 최적 통화모드를 사용하지 않는 것으로 확인되면(801-아니오), 803단계를 진행한다.

802단계에서는, 전술한 604단계에서 확인된 음성신호의 상태를 고려하여, 미리 테이블화된 통화모드를 확인하고, 상기 음성신호의 상태에 대응하는 통화모드 중, 가장 적합한 모드로서 추천되는 통화모드를 선택한다(802).

반면, 803단계에서는, 전술한 604단계에서 확인된 음성신호의 상태를 고려하여, 미리 테이블화된 통화모드를 확인하고, 통화모드 중, 사용자 선택을 위한 모드를 제공한다. 사용자 선택을 위한 모드의 제공은 다양한 실시예로 구성될 수 있다. 일 예로, 가장 적합한 모드로서 추천되는 통화모드를 팝업 메시지를 통해 표시하거나(도 9c 참조), 사용 가능한 모드들의 리스트를 아이콘이나 텍스트 형태로 표시하거나(도 9d 참조), 다양한 통화모드사 디스플레이된 상태에서 사용 가능한 모드들을 디스플레이 상에 활성화하여 표시(도 9e 참조) 할 수 있다.

본 발명의 일 실시예에서 사용자 선택을 위한 모드 제공을 일부 예시하고 있으나, 본 발명이 이를 한정하는 것은 아니며, 본 발명의 일 실시예에서 예시한 UI이외에 다양한 형태로 변경되어 준용될 수 있음은 물론이다.

나아가, 803단계에서, 사용 가능한 모드의 선정시, 확인된 음성신호의 상태뿐 아니라, 통화모드와 관련된 장치(예컨대, 블루투스, 이어셋 등)의 연결 여부를 반영하여 사용 가능한 모드를 결정할 수 있음은 물론이다. 또한, 통화모드와 관련된 장치(예컨대, 블루투스, 이어셋 등)의 연결 여부를 반영하지 않은 상태에서, 사용 가능한 모드를 선정한 후 통화모드와 관련된 장치(예컨대, 블루투스, 어셋 등)의 연결을 요청하는 것도 가능하다.

다음으로, 804단계에서, 사용자로부터 통화모드가 선택되면(804-예), 805단계를 진행한다. 그리고, 805단계에서는 현재 설정된 일반모드를, 상기 802 또는 804단계에서 선택된 통화모드로 전환하게 된다.

본 발명의 실시예들에 따른 3송수화 음성 처리 방법은 하드웨어, 소프트웨어 또는 하드웨어 및 소프트웨어의 조합의 형태로 실현 가능하다는 것을 알 수 있을 것이다. 이러한 임의의 소프트웨어는 예를 들어, 삭제 가능 또는 재기록 가능 여부와 상관없이, ROM 등의 저장 장치와 같은 휘발성 또는 비휘발성 저장 장치, 또는 예를 들어, RAM, 메모리 칩, 장치 또는 집적 회로와 같은 메모리, 또는 예를 들어 CD, DVD, 자기 디스크 또는 자기 테이프 등과 같은 광학 또는 자기적으로 기록 가능함과 동시에 기계(예를 들어, 컴퓨터)로 읽을 수 있는 저장 매체에 저장될 수 있다. 본 발명의 송수화 음성 처리 방법은 제어부 및 메모리를 포함하는 컴퓨터 또는 휴대 단말에 의해 구현될 수 있고, 상기 메모리는 본 발명의 실시 예들을 구현하는 지시들을 포함하는 프로그램 또는 프로그램들을 저장하기에 적합한 기계로 읽을 수 있는 저장 매체의 한 예임을 알 수 있을 것이다. 따라서, 본 발명은 본 명세서의 임의의 청구항에 기재된 장치 또는 방법을 구현하기 위한 코드를 포함하는 프로그램 및 이러한 프로그램을 저장하는 기계(컴퓨터 등)로 읽을 수 있는 저장 매체를 포함한다. 또한, 이러한 프로그램은 유선 또는 무선 연결을 통해 전달되는 통신 신호와 같은 임의의 매체를 통해 전자적으로 이송될 수 있고, 본 발명은 이와 균등한 것을 적절하게 포함한다.

Claims

송수화 음성 처리장치에 있어서,
휴대용 단말의 프로파일을 확인하고, 단말의 이어폰을 통해 입력되는 입력음성으로부터 상기 프로파일에 의해 발생되는 소음을 제거하는 프로파일 소음 제거부와,
미리 정해진 음성신호와, 상기 입력음성을 사용하여 송수신 음성신호의 음질을 예측하는 음질 예측부와,
상기 음질 예측부를 통해 확인된 음질을 고려하여, 통화시에 사용할 통화모드를 결정 및 제공하는 통화 가이드부를 포함함을 특징으로 하는 송수화 음성 처리장치.
제1항에 있어서, 상기 음질 예측부는,
미리 정해진 음성신호를 입력하는 표준음성신호 삽입부와,
상기 통화모드의 환경에서 발생되는 노이즈 특성을 고려하여, 상기 통화모드의 노이즈를 보정하여 출력하는 통화모드 보정부를 포함함을 특징으로 하는 송수화 음성 처리장치.
제2항에 있어서, 상기 음질 예측부는,
상기 프로파일 소음 제거부를 통해 소음이 제거된 제1보정음성과, 상기 통화모드 보정부를 통해 출력되는 음성신호가 조합된 조합음성신호를 사용하여 송화 음질 및 수화 음질을 예측하는 것을 특징으로 하는 송수화 음성 처리장치.
제3항에 있어서, 상기 음질 예측부는,
상기 표준음성신호와, 상기 제1보정음성과의 유사도를 확인하여 송수신음성신호의 상태를 예측하는 수화음질 예측부와,
상기 조합음성신호로부터 잡음을 검출 및 제거하여 송신음성을 출력하는 잡음 제거부와,
상기 노이즈 검출부를 통해 검출된 노이즈를 상기 송신음성에 적용하고, 상기 표준음성신호와, 상기 송신음성을 비교하여 사 송신음성의 상태를 예측하는 송화음질 예측부를 포함함을 특징으로 하는 송수화 음성 처리장치.
제4항에 있어서, 상기 음질 예측부는,
상기 제1보정음성의 프레임 단위의 에너지를 확인하는 잡음크기 검출부와,
상기 프레임 단위의 에너지를 사용하여 상기 제1보정음성의 노이즈를 확인하는 노이즈 확인부를 포함함을 특징으로 하는 송수화 음성 처리장치.
제1항에 있어서, 상기 통화 가이드부는,
결정된 상기 통화모드로의 자동 전환하는 것을 특징으로 하는 송수화 음성 처리장치.
제1항에 있어서, 상기 통화 가이드부는,
결정된 상기 통화모드로의 전환 여부를 사용자 인터페이스를 통해 제공하고, 상기 사용자 인터페이스를 통해 입력되는 결과에 따라, 상기 통화모드로의 전환 또는 현재 동작하는 통화모드로의 동작을 진행하는 것을 특징으로 하는 송수화 음성 처리장치.
제1항에 있어서, 상기 통화 가이드부는,
적어도 하나의 상기 통화모드를 표시하는 사용자 인터페이스를 디스플레이를 통해 제공하고, 상기 사용자 인터페이스를 통해 선택되는 상기 통화모드로, 모드를 전환하는 것을 특징으로 하는 송수화 음성 처리장치.
제8항에 있어서, 상기 통화모드를 표시하는 사용자 인터페이스는,
결정된 상기 통화모드를 하이라이트화하여 표시하는 것을 특징으로 하는 송수화 음성 처리장치.
제8항에 있어서, 상기 통화모드를 표시하는 사용자 인터페이스는,
결정된 상기 통화모드의 리스트를 표시하는 것을 특징으로 하는 송수화 음성 처리장치.
송수화 음성 처리 방법에 있어서,
휴대용 단말의 프로파일을 확인하고, 단말의 이어폰을 통해 입력되는 입력음성으로부터 상기 프로파일에 의해 발생되는 소음을 제거하는 과정과,
미리 정해진 음성신호와, 상기 입력음성을 사용하여 송수신 음성신호의 음질을 예측하는 과정과,
상기 확인된 음질을 고려하여, 통화시에 사용할 통화모드를 결정 및 제공하는 과정을 포함함을 특징으로 하는 방법.
제11항에 있어서,
상기 프로파일 소음이 제거된 제1보정음성과, 미리 정해진 표준음성신호를 조합하여 조합음성신호를 사용하여 소와 음질 및 수화 음질을 예측하는 것을 특징으로 하는 방법.
제12항에 있어서,
상기 표준음성신호와, 상기 제1보정음성과의 유사도를 확인하여 송수신음성신호의 상태를 예측하는 것을 특징으로 하는 방법.
제12항에 있어서,
상기 표준음성신호와, 상기 조합음성신호의 PESQ(preceptual Evaluation of Speech Quality)를 확인하여 송수신음성신호의 상태를 예측하는 것을 특징으로 하는 방법.
제12항에 있어서,
상기 조합음성신호로부터 잡음을 검출 및 제거하고, 상기 잡음을 송신음성에 적용하고, 상기 표준음성신호와, 상기 송신음성을 비교하여 송신음성의 상태를 예측하는 것을 특징으로 하는 방법.
제11항에 있어서,
결정된 상기 통화모드로 자동 전환하는 과정을 더 포함하는 것을 특징으로 하는 방법.
제11항에 있어서,
결정된 상기 통화모드로의 전환 여부를 사용자 인터페이스를 통해 제공하고, 상기 사용자 인터페이스를 통해 입력되는 결과에 따라, 상기 통화모드로의 전환 또는 현재 동작하는 통화모드로의 동작을 진행하는 것을 특징으로 하는 방법.
제11항에 있어서,
적어도 하나의 상기 통화모드를 표시하는 사용자 인터페이스를 디스플레이를 통해 제공하고, 상기 사용자 인터페이스를 통해 선택되는 상기 통화모드로, 모드를 전환하는 것을 특징으로 하는 방법.
제18항에 있어서, 상기 통화모드를 표시하는 사용자 인터페이스는,
결정된 상기 통화모드를 하이라이트화하여 표시하는 것을 특징으로 하는 방법.
제18항에 있어서, 상기 통화모드를 표시하는 사용자 인터페이스는,
결정된 상기 통화모드의 리스트를 표시하는 것을 특징으로 하는 방법.