KR20090132631A

KR20090132631A - 텍스트 전용 애플리케이션들을 위한 사운드 효과를 가진 오디오 발생

Info

Publication number: KR20090132631A
Application number: KR1020097022343A
Authority: KR
Inventors: 올레 키르케비
Original assignee: 노키아 코포레이션
Priority date: 2007-04-28
Filing date: 2008-04-24
Publication date: 2009-12-30
Also published as: CN101295504A; JP2010529519A; WO2008132579A2; WO2008132579A3; JP2013101637A; EP2143100A2; US20100145705A1; CN101295504B; US8694320B2; EP2143100A4

Abstract

텍스트 전용 애플리케이션을 위한 오디오를 발생하는 방법은 사운드 효과를 발생된 오디오에 추가하기 위해 사용될 수 있는 태그를 입력 텍스트에 추가하는 단계; 태그를 처리하여 오디오를 발생하기 위한 명령어들을 형성하는 단계; 텍스트를 표시하면서 명령어들에 기초하여 상기 사운드 효과를 가지는 오디오를 발생하는 단계를 포함한다. 본 발명은 엔터테인먼트 값을 텍스트 애플리케이션들에 추가하고 기존의 멀티미디어에 비하여 매우 콤팩트한 포맷을 제공할 뿐 아니라 엔터테인먼트 사운드를 사용하여 SMS와 이메일과 같은 텍스트 전용 애플리케이션을 더욱 재미있고 즐겁게 만든다.

Description

텍스트 전용 애플리케이션들을 위한 사운드 효과를 가진 오디오 발생{Audio with sound effect generation for text only applications}

본 발명은 SMS, 이메일, 책, 및 신문과 같은 텍스트 전용 애플리케이션들에서 오디오의 사용 및 발생에 대체로 관련된다.

대다수의 텍스트 콘텐츠는 이동 기기들의 멀티미디어 성능들에 대한 관심이 증가함에도 불구하고 그래픽과 사운드를 담도록 업데이트될 거 같지 않다. 책과 신문과 같은 보존 포맷뿐 아니라 SMS 및 이메일과 같은 메시지 포맷은 매우 오랜 시간 동안 그것들의 현재의 형태로 인기를 유지할 것이다. 멀티미디어의 매력을 자체로는 별로 흥미롭지 않은 텍스트 포맷에 추가할 수 있는 기술이 현재 개화하고 있다.

이 문제에 관한 가장 명백한 해법은 추가된 멀티미디어 콘텐츠를 원본 텍스트 콘텐츠와 함께 저장하고 및/또는 전송하는 것이다. 그러나, 이것은 적어도 한 차수(order)의 크기만큼 데이터의 량을 증가시키는데 텍스트 포맷이 그래픽 및 사운드보다 훨씬 더 콤팩트하기 때문이다. 미국특허 제7103548호는 텍스트 메시지를 오디오 형태로 변환하는 시스템을 개시하였는데, 이 텍스트 메시지는 삽입된 감정 지시자들(emotion indicators) 및 특징 유형 지시들(feature-type indications)을 가지며, 특징 유형 지시들은 다수의 오디오-형태 표현 특징 유형들 중의 어느 것이 상기 감정 지시자들에 의해 지시된 감정들을 텍스트 메시지의 오디오 형태로 표현하는데 사용되는지를 결정하는데 이용된다. 그리고 현재 MSN 메신저는 송신자가 태그들을 텍스트에 기록하는 것과 그 다음 텍스트가 수신단에서 화상으로 번역되는 것을 허용한다. 그러나, 콘텐츠를 미리 준비하는 것은 정황(context) 의존성의 '놀라운 효과'의 가능성을 제거한다. 더욱이, 일정한 주위의 소리풍경(soundscape), 말하자면, 비와 바람이 음성에 부가되고 기존의 이동 기기에서 단일 라우드스피커를 통해 재생된다면, 그것은 방해가 되는 배경 잡음과 같은 소리가 될 것이고 명료도(intelligibility)를 감소시킨다.

멀티미디어 콘텐츠를 저장하고 표현하기에 적합한 몇 가지 포맷이 있다. 가장 잘 알려진 것은 동기식 멀티미디어 통합 언어(Synchronized Multimedia Integration Language; SMIL)이다. 월드 와이드 웹 상의 공개를 겨냥한 자료의 경우, 오디오 캐스케이드 스타일 시트들(Audio Cascaded Style Sheets; ACSS)이 사운드의 일부 특성들을 정의하는데 사용될 수 있다. 음성 합성 마크업 언어(Speech Synthesis Markup Language; SSML, W3에 의해 권고됨)와 비교하여, 사운드 및 음성의 얼마간의 기본적 실시간 랜더링을 하는 것이 가능하다.

따라서, 텍스트-기반 애플리케이션들에서 실시간 사운드 합성과 사운드 효과, 특히 스테레오 또는 3D 사운드의 랜더링을 수행하기에 적합한 마크업 언어 또는 상응하는 소프트웨어 아키텍처는 없다.

본 발명의 목적은 엔터테인먼트 사운드, 특히 스테레오 또는 3D 오디오를 사용하여 SMS와 이메일과 같은 텍스트 애플리케이션들을 더욱 재미있고 즐겁게 만드는 방법을 제공하는 것이다.

위의 목적을 달성하기 위하여, 본 발명은 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 방법을 제공하는데, 이 방법은 사운드 효과를 발생된 오디오에 추가하기 위해 사용될 수 있는 태그를 입력 텍스트에 추가하는 단계; 태그를 처리하여 오디오를 발생하기 위한 명령어들을 형성하는 단계; 텍스트를 표시하면서 명령어들에 기초하여 상기 사운드 효과를 가지는 오디오를 발생하는 단계를 포함한다.

본 발명은 또한 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 기기를 제공하는데, 이 기기는 사운드 효과를 발생된 오디오에 추가하기 위해 사용될 수 있는 태그를 입력 텍스트에 추가하는 태그 추가기; 태그를 처리하여 오디오를 발생하기 위한 명령어들을 형성하는 태그 처리기; 텍스트를 표시하면서 명령어들에 기초하여 상기 사운드 효과를 가지는 오디오를 발생하는 오디오 발생기를 포함한다.

본 발명은 또한 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 통신 단말을 제공하는데, 이 통신 단말은 입력 텍스트에 추가되어 있고 사운드 효과를 발생된 오디오에 추가하기 위해 사용될 수 있는 태그를 처리하여, 오디오를 발생하기 위한 명령어들을 형성하는 태그 처리기; 텍스트를 표시하면서 명령어들에 기초하여 사운드 효과를 가지는 오디오를 발생하는 오디오 발생기를 포함한다.

통신 단말은 태그를 입력 텍스트에 추가하기 위한 태그 추가기를 더 포함할 수 있다.

본 발명의 사용은 3D, 공간적 향상 및 효과의 형태로 오디오를 제공할 수 있다. 예를 들면, 스테레오 또는 3D 오디오의 사용은 또한 소리풍경(soundscape)이 스테레오 또는 3D 효과를 위해 처리되고 스테레오 헤드폰들 또는 2개의 근접이격된 라우드스피커들을 통해 재생될 경우 그 소리풍경이 음성과는 간섭하지 않는 그런 방식으로 공간화될 수 있도록 음성에 방해 없이 사운드가 추가되는 것을 허용한다. 예를 들면, 청취자가 측면의 비바람 소리와 중앙의 음성을 듣는다면 명료도는 영향을 받지 않는다.

또한, 본 발명은 무작위성을 발생된 오디오 효과에 추가함으로써 정황(context)-의존성의 '놀라운 효과 또는 값"을 증가시켜서, 예를 들면, 오디오가 비행 중에 발생할 때, 랜더링 알고리즘은 시간(아침/낮/저녁, 주중/주말/ 여름/겨울) 또는 사용자의 위치(자택/차/사무실, 국가)에 관한 정보를 고려할 수 있다.

더욱이, 본 발명은 맞춤화에 대한 탁월한 가능성을 허용하고 엔터테인먼트 값을 텍스트 애플리케이션들에 추가하고 멀티미디어 '클래스'를 평이한 텍스트에 추가한다. 본 발명은 또한 기존의 멀티미디어에 비해 매우 콤팩트한 포맷을 제공한다. 본 발명이 플랫폼 특화적이지 않기 때문에, 본 발명의 기기는 랜더링을 어떻게 할지를 결정한다.

본 발명의 위의 및 다른 목적들, 특징들 및 이점들은 다음의 첨부 도면들에 관련하여 다음의 예시적인 실시예들의 상세한 설명으로부터 명확하게 될 것이다:

도 1은 본 발명에 따른 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 방법의 흐름도이며;

도 2은 본 발명에 따른 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 기기의 블록도이다.

첨부 도면들을 참조하여, 본 발명이 이제 상세히 설명될 것이다.

도 1은 본 발명에 따른 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 방법의 흐름도를 보인다.

단계 100에서, 텍스트 애플리케이션들, 이를테면 SMS, 오디오북 등이 입력된다.

단계 110에서, 태그들이 입력 텍스트로부터 생성된다. 바람직하게는, 2 집합의 태그들이 오디오 처리(나중에 설명됨)를 위해 생성된다. 이들 태그는 특수한 경우들에서는 수동으로, 이를테면 사용자에 의해 삽입될 수 있거나 또는 이동 전화기, PDA(personal digital assistant), 랩톱 컴퓨터 및 태그들을 텍스트에 추가할 수 있는 임의의 다른 기기들을 포함한 단말에 의해 발생될 수 있다. 이 단계를 이행하기 위해, VoiceXML(웹 페이지들의 음성 UI및 오디오 랜더링용), JSML(JSpeech Markup Language (Java, by Sun)), STML(Spoken Text Markup Language), Sable(JSML 및 STML를 결합하는 시도), SSML(W3에 의해 권고된 음성 합성 마크업 언어(Speech Synthesis Markup Language)), SMIL(멀티미디어 프레젠테이션용 동기 식 멀티미디어 통합 언어(Synchronized Multimedia Integration Language))를 포함하지만 이것들에 한정되지는 않는 복수 개의 마크업 언어들이 사용될 수 있다. ACSS(Audio Cascaded Style Sheets)가 이 단계에 관계될 수도 있다. 그것은 사운드의 일부 특성들을 정의하며, 음성 합성 및 오디오 둘 다를 지정할 뿐 아니라 음성을 오디오와 중첩하는데 사용될 수 있다. 부가하여, ACSS는 얼마간의 공간적 오디오 특징들(예, 방위각, 고도)을 가진다. 본 발명에 의하면, 새로운 마크업 언어, 이를테면 음성, 음악, 및 오디오 효과에 적용하는 태그들을 구비한 오디오 XML 포맷이 스테레오 또는 3D 사운드 효과와 같은 사운드 효과를 오디오에 추가하는데 사용되기 위해 확립될 수 있다. 예컨대, 입력 메시지는 'Sorry I missed your call. I was playing tennis at the time. I won'이다. 예의 의사(pseudo) 태그들은 다음과 같다: <continuous play: background music> Sorry I missed your <audio substitute: call>. I was playing tennis <audio icon: tennis> at the time. I won! <audio icon: fireworks><end play: background music>.

단계 120에서, 단계 110에서 추가된 태그들은 사운드를 합성하는데 뿐 아니라 오디오 처리를 제어하며 오디오 처리의 입력으로서 사용될 수도 있는 메시지들을 생성하는데 사용될 수 있는 명령들로 변환된다. 사운드 합성을 위해, MIDI 메시지들이 사용될 수 있다. 음성 합성을 위해, SSML의 확장 버전이 사용될 수 있다(그래서 도 1의 SSML+를 참조한다). 단계 120은 랜덤화라는 특징을 포함할 수 있다. 사운드들의 정확한 반복은 매우 신속하게 청취자를 지루하게 하거나 또는 성가시게도 한다. 예컨대, 게임들의 오디오 디자인에서, 배우가 동일한 선을 여러 번 반복 하는 것을 기록하는 것이 통상적이라서 사용자는 정확히 동일한 샘플을 다수 회 청취하려고 하지 않는다. 무작위성은 많은 다른 방식들로 삽입될 수 있다. 일부 예들은 다음과 같다:

일반

낮은 레벨의 랜더링 매개변수들(음성, 악기)의 변화

'사운드 아이콘들'('스마일'에 상당하는 짧은 사운드)의 변화

공간적 효과 및 후처리의 변화

음성

분절(Articulation)

이벤트들(말의 리듬, 중지)의 타이밍의 변화

의미의 수정 없이 텍스트의 수정

음악

알고리듬적 음악 발생의 사용

사운드 샘플들의 피치 및/또는 템포의 수정

효과

유사한 사운드들을 상이하게 랜더링

오디오 랜더링은 일부 랜더링 매개변수들(예, MIDI 메시지들에 삽입된 값들)의 저-레벨 제어를 지원할 수 있어, 예컨대, 풋스텝들(footsteps)은 타이밍, 피치, 지속시간이 바뀔 수 있어, 오디오 랜더링은 항상 동일한 이벤트의 다른 발생처럼 소리가 나게 한다.

랜덤화의 이점은 그것이 놀라운 값을 추가하고 정확한 반복으로 인해 사용자가 지루함이나 성가심을 느끼는 것을 방지하고 랜더링된 오디오가 너무 빤해 보이는 것을 방지할 뿐 아니라 개별적인 선호도에 세팅을 조절하기 위한 우수한 가능성을 획득한다는 것임이 명백하다.

단계 130에서, 단계 120으로부터의 입력은 오디오를 출력하기 위해 처리된다. 음성 합성을 위해, TTS(Text-To-Speech) 엔진이 태그형 텍스트(예, SSML+)를 음성으로 변환하기 위해 채용될 수 있다. TTS 시스템은 근래 몇 년 동안 극적으로 개량되어 왔다. 아티팩트들이 음성 사운드를 '로봇식(robotic)' 보다는 '다져진(chopped up)' 소리로 되게 한다. 음성의 품질은 매우 자연스럽게 만들어질 수 있지만 양호한 품질의 TTS는 MIPS 및 메모리 둘 다에서의 집중적인 계산을 의미한다. 오디오 합성을 위해, 음악 및 효과(예, 풋스텝, 해변 및 새노랫소리)를 포함한 합성 오디오의 2 유형이 필요하다. 제어 언어로서 적합할 수 있는 MIDI는 효과 세팅들(잔향, 코러스 등), 우선순위(SP-MIDI), 타임스탬프들 및 사운드에 영향을 주는 얼마간의 저-레벨 매개변수들을 포함할 수 있다. MIDI에서 채용되는 웨이브테이블 합성은 음악 및 효과 둘 다를 합리적으로 잘 할 수 있다. 웨이브테이블 합성 엔진(오디오 합성 엔진)(도 1 참조)은 GMI 콤플라이언트(일반 MIDI)이고 GM2 콤플라이언트를 만들 수 있고, DLS(Downloadable Sounds) 포맷 및 모든 주요 샘플링 레이트들을 지원한다.

그 다음 흐름은 단계 140으로 진행하여, 단계 130으로부터의 출력 오디오는 더 처리된다.

이제 도 2를 참조하면, 그 도면은 도 1의 흐름도에 있는 방법을 수행하기 위한 본 발명에 따른 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 기기를 보인다. 텍스트 전용 애플리케이션의 수신에 의거하여, 태그 추가 수단은 입력 텍스트를 위한 태그들의 집합들을 생성한다. 이들 태그는 특수한 경우들에서는 수동으로, 이를테면 사용자에 의해 삽입될 수 있거나 또는 이동 전화기, PDA(personal digital assistant), 랩톱 컴퓨터 및 태그들을 텍스트에 추가할 수 있는 임의의 다른 기기들을 포함한 단말에 의해 발생될 수 있다. 바람직하게는, 2 집합이 태그 추가 수단에 의해 생성된다. 하나의 집합은 TTS 엔진을 위해 효과적이고, 이를 위해 SSML과 같은 포맷이 사용될 수 있다. 다른 하나의 집합은 사운드 효과 및 음악 둘 다를 발생할 수 있는 오디오 합성 엔진에 대해 효과적이다. 그런 포맷은 오디오 XML이라고도 불릴 수 있다(도 2 참조). SMS와 같은 애플리케이션의 경우 태그 추가 수단은 송신기나 수신기의 단말에서 실행될 수 있다.

그러면 태그 처리 수단은 태그를 사운드를 합성하고 오디오 처리를 제어할 뿐 아니라 '놀라운 값'을 추가하는데 사용될 수 있는 저-레벨 명령들로 변환한다. 사운드 합성을 위해, MIDI 메시지들이 사용될 수 있다. TTS를 위해, SSML의 약간 확장된 버전이 사용될 수 있다(그래서 도 2의 SSML+를 참조한다). 태그 처리 수단은 청취자의 단말에서 실행되어야만 한다. 태그 처리 수단은 랜덤화라는 특징을 포함할 수 있다. 사운드 합성 엔진을 이용하여 미묘한 변화가 저-레벨 명령들에서의 작은 변경들로써 이행될 수 있다. 예컨대, 풋스텝들은 타이밍, 피치 및 지속시간이 변할 수 있어, 그것은 항상 동일한 이벤트의 상이한 발생처럼 소리가 나게 한다.

오디오 발생 수단(도 2의 점선 부분 참조)은 태그 처리 수단으로부터의 출력을 수신한다. 음성 합성을 위해, TTS 엔진이 처리를 수행하기 위해 유익하게 채용된다. 오디오 합성을 위해, 웨이브테이블 합성 엔진이 음악 및 효과 둘 다를 합리적으로 잘 행하기 위해 유익하게 채용된다.

오디오 처리 수단은 이를 테면 3D 알고리즘들 및 후-효과를 TTS 및 오디오 합성 엔진들로부터의 출력을 이용하여 수행한다. 오디오 처리 수단은 다음 기능들 중 적어도 하나를 이행할 수 있다: 위치성 오디오(Positional audio), 모노-대-3D 공간적 향상(Mono-to-3D spatial enhancement), 스테레오 와이드닝(Stereo widening), 잔향(Reverberation), EQ(Equalizer) 및 DRC(Dynamic Range Control). 더욱이, 오디오 처리 수단은 옵션적으로는 샘플 레이트 변환, 믹싱, 매개변수들(3D 위치, 잔향용 T60)의 실시간 변경을 지원한다.

본 발명의 기기는 텍스트 전용 애플리케이션을 위한 오디오를 발생할 수 있는 통신 단말에 구현될 수 있는데, 그 통신 단말은 입력 텍스트에 추가되어 있고 사운드 효과를 발생된 오디오에 추가하는데 사용될 수 있는 태그를 처리하여, 오디오를 발생하기 위한 명령어들을 형성하는 태그 처리 수단; 텍스트가 표시되는 동안 명령어들에 기초하여 사운드 효과를 가지는 오디오를 발생하는 오디오 발생 수단을 포함한다. 대안으로, 통신 단말은 태그를 입력 텍스트에 추가하기 위한 태그 추가 수단을 더 포함할 수 있다. 통신 단말은 예컨대 이동 단말이다.

본 발명의 구체적인 실시예들이 개시되어 있지만, 당업자들은 본 발명의 사 상 및 범위로부터 벗어나지 않고서도 구체적은 실시예들에 대한 변경들이 만들어질 수 있다는 것을 이해할 것이다. 본 발명은 오디오에 초점을 맞추었지만 그래픽을 텍스트 애플리케이션에 추가하기 위해서도 동일하게 강력하게 사용될 수 있다. 본 발명의 범위는 그러므로 구체적인 실시예들로 한정되지 않고, 첨부의 청구항들이 본 발명의 범위 내에서 임의의 그리고 모든 그러한 응용들, 수정들 및 실시예들을 포함하도록 의도되고 있다.

Claims

텍스트 전용 애플리케이션을 위한 오디오를 발생하는 방법에 있어서,

사운드 효과를 발생된 오디오에 추가하기 위해 사용될 수 있는 태그를 입력 텍스트에 추가하는 단계;

태그를 처리하여 오디오를 발생하기 위한 명령어들을 형성하는 단계; 및

텍스트를 표시하면서 명령어들에 기초하여 상기 사운드 효과를 가지는 오디오를 발생하는 단계를 포함하는 방법.
제1항에 있어서, 상기 사운드 효과는 스테레오 효과인 것을 특징으로 하는 방법.
제1항에 있어서, 상기 사운드 효과는 3D사운드 효과인 것을 특징으로 하는 방법.
제1항에 있어서, 표시되는 텍스트는 디스플레이에 의해 또는 텍스트 대 음성 변환의 방식으로 표시되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 태그들은 입력 텍스트로부터 발생되거나, 또는 수동으로 삽입되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 태그들은 음성, 음악, 또는 오디오 효과에 적용되는 것을 특징으로 하는 방법.
제1항에 있어서, 사운드 효과를 가지는 오디오를 발생하는 단계에서, 상기 명령어들은 사운드를 합성하는데 뿐 아니라 오디오 처리를 제어하는데 사용되는 것을 특징으로 하는 방법.
제1항에 있어서, 태그를 처리하는 상기 단계는 무작위성(randomness)을 추가하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제8항에 있어서, 무작위성을 추가하는 상기 단계는 명령어들에서의 변경들에 의해 이행되고, 상기 변경들은 오디오를 발생하기 위한 방식들 또는 매개변수들을 변화시키는 것을 특징으로 하는 방법.
제9항에 있어서, 상기 방식들 또는 매개변수들은 저-레벨 랜더링 매개변수들, 사운드 아이콘들의 선택, 공간적 효과 및 후-처리, 분절(articulation), 이벤트들의 타이밍, 의미 수정 없는 텍스트 수정, 알고리즘적 음악 발생의 사용 및 유사한 사운드들의 상이한 랜더링 중 적어도 하나를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 사운드 효과를 가지는 오디오를 발생하는 상기 단계는 TTS 엔진을 사용하여 음성 합성을 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 사운드 효과를 가지는 오디오를 발생하는 상기 단계는 오디오 합성 엔진을 사용하여 오디오 합성을 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 사운드 효과를 가지는 오디오를 발생하는 상기 단계는 오디오 처리를 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
텍스트 전용 애플리케이션을 위한 오디오를 발생하는 기기에 있어서,

사운드 효과를 발생된 오디오에 추가하기 위해 사용될 수 있는 태그를 입력 텍스트에 추가하는 태그 추가기;

태그를 처리하여 오디오를 발생하기 위한 명령어들을 형성하는 태그 처리기; 및

텍스트를 표시하면서 명령어들에 기초하여 상기 사운드 효과를 가지는 오디오를 발생하는 오디오 발생기를 포함하는 기기.
제14항에 있어서, 상기 사운드 효과는 스테레오 효과인 것을 특징으로 하는 기기.
제14항에 있어서, 상기 사운드 효과는 3D사운드 효과인 것을 특징으로 하는 기기.
제14항에 있어서, 표시되는 텍스트는 디스플레이에 의해 또는 텍스트 대 음성 변환의 방식으로 표시되는 것을 특징으로 하는 기기.
제14항에 있어서, 상기 태그들은 입력 텍스트로부터 발생되거나, 또는 수동으로 삽입되는 것을 특징으로 하는 기기.
제14항에 있어서, 상기 태그들은 음성, 음악, 또는 오디오 효과에 적용되는 것을 특징으로 하는 기기.
제14항에 있어서, 오디오 발생기는 상기 명령어들을 사용하여 사운드를 합성할 뿐 아니라 오디오 처리를 제어하는 것을 특징으로 하는 기기.
제14항에 있어서, 상기 태그 처리기는 무작위성을 추가하는 것을 특징으로 하는 기기.
제21항에 있어서, 태그 처리기는 명령어들에서의 변경들에 상기 무작위성을 이행하고, 상기 변경들은 오디오를 발생하기 위한 방식들 또는 매개변수들을 변화시키는 것을 특징으로 하는 기기.
제22항에 있어서, 상기 방식들 또는 매개변수들은 저-레벨 랜더링 매개변수들, 사운드 아이콘들의 선택, 공간적 효과 및 후-처리, 분절(articulation), 이벤트들의 타이밍, 의미 수정 없는 텍스트 수정, 알고리즘적 음악 발생의 사용 및 유사한 사운드들의 상이한 랜더링 중 적어도 하나를 포함하는 것을 특징으로 하는 기기.
제14항에 있어서, 상기 오디오 발생기는 음성 합성을 수행하기 위한 TTS 엔진과 오디오 합성을 수행하기 위한 오디오 합성 엔진 중의 적어도 하나를 더 포함하는 것을 특징으로 하는 기기.
제14항에 있어서, 상기 오디오 발생기는 오디오 처리를 수행하기 위한 오디오 처리기를 더 포함하는 것을 특징으로 하는 기기.
텍스트 전용 애플리케이션을 위한 오디오를 발생하는 통신 단말에 있어서, 다음을 포함하는 통신 단말:

입력 텍스트에 추가되어 있고 사운드 효과를 발생된 오디오에 추가하기 위해 사용될 수 있는 태그를 처리하여, 오디오를 발생하기 위한 명령어들을 형성하는 태그 처리기; 및

텍스트를 표시하면서 명령어들에 기초하여 사운드 효과를 가지는 오디오를 발생하는 오디오 발생기.
제26항에 있어서, 통신 단말은 태그를 입력 텍스트에 추가하기 위한 태그 추가기를 더 포함하는 것을 특징으로 하는 통신 단말.