KR20090132631A - 텍스트 전용 애플리케이션들을 위한 사운드 효과를 가진 오디오 발생 - Google Patents

텍스트 전용 애플리케이션들을 위한 사운드 효과를 가진 오디오 발생 Download PDF

Info

Publication number
KR20090132631A
KR20090132631A KR1020097022343A KR20097022343A KR20090132631A KR 20090132631 A KR20090132631 A KR 20090132631A KR 1020097022343 A KR1020097022343 A KR 1020097022343A KR 20097022343 A KR20097022343 A KR 20097022343A KR 20090132631 A KR20090132631 A KR 20090132631A
Authority
KR
South Korea
Prior art keywords
audio
text
tag
sound
generating
Prior art date
Application number
KR1020097022343A
Other languages
English (en)
Inventor
올레 키르케비
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20090132631A publication Critical patent/KR20090132631A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72436User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. short messaging services [SMS] or e-mails

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)
  • Document Processing Apparatus (AREA)
  • Stereophonic System (AREA)

Abstract

텍스트 전용 애플리케이션을 위한 오디오를 발생하는 방법은 사운드 효과를 발생된 오디오에 추가하기 위해 사용될 수 있는 태그를 입력 텍스트에 추가하는 단계; 태그를 처리하여 오디오를 발생하기 위한 명령어들을 형성하는 단계; 텍스트를 표시하면서 명령어들에 기초하여 상기 사운드 효과를 가지는 오디오를 발생하는 단계를 포함한다. 본 발명은 엔터테인먼트 값을 텍스트 애플리케이션들에 추가하고 기존의 멀티미디어에 비하여 매우 콤팩트한 포맷을 제공할 뿐 아니라 엔터테인먼트 사운드를 사용하여 SMS와 이메일과 같은 텍스트 전용 애플리케이션을 더욱 재미있고 즐겁게 만든다.

Description

텍스트 전용 애플리케이션들을 위한 사운드 효과를 가진 오디오 발생{Audio with sound effect generation for text only applications}
본 발명은 SMS, 이메일, 책, 및 신문과 같은 텍스트 전용 애플리케이션들에서 오디오의 사용 및 발생에 대체로 관련된다.
대다수의 텍스트 콘텐츠는 이동 기기들의 멀티미디어 성능들에 대한 관심이 증가함에도 불구하고 그래픽과 사운드를 담도록 업데이트될 거 같지 않다. 책과 신문과 같은 보존 포맷뿐 아니라 SMS 및 이메일과 같은 메시지 포맷은 매우 오랜 시간 동안 그것들의 현재의 형태로 인기를 유지할 것이다. 멀티미디어의 매력을 자체로는 별로 흥미롭지 않은 텍스트 포맷에 추가할 수 있는 기술이 현재 개화하고 있다.
이 문제에 관한 가장 명백한 해법은 추가된 멀티미디어 콘텐츠를 원본 텍스트 콘텐츠와 함께 저장하고 및/또는 전송하는 것이다. 그러나, 이것은 적어도 한 차수(order)의 크기만큼 데이터의 량을 증가시키는데 텍스트 포맷이 그래픽 및 사운드보다 훨씬 더 콤팩트하기 때문이다. 미국특허 제7103548호는 텍스트 메시지를 오디오 형태로 변환하는 시스템을 개시하였는데, 이 텍스트 메시지는 삽입된 감정 지시자들(emotion indicators) 및 특징 유형 지시들(feature-type indications)을 가지며, 특징 유형 지시들은 다수의 오디오-형태 표현 특징 유형들 중의 어느 것이 상기 감정 지시자들에 의해 지시된 감정들을 텍스트 메시지의 오디오 형태로 표현하는데 사용되는지를 결정하는데 이용된다. 그리고 현재 MSN 메신저는 송신자가 태그들을 텍스트에 기록하는 것과 그 다음 텍스트가 수신단에서 화상으로 번역되는 것을 허용한다. 그러나, 콘텐츠를 미리 준비하는 것은 정황(context) 의존성의 '놀라운 효과'의 가능성을 제거한다. 더욱이, 일정한 주위의 소리풍경(soundscape), 말하자면, 비와 바람이 음성에 부가되고 기존의 이동 기기에서 단일 라우드스피커를 통해 재생된다면, 그것은 방해가 되는 배경 잡음과 같은 소리가 될 것이고 명료도(intelligibility)를 감소시킨다.
멀티미디어 콘텐츠를 저장하고 표현하기에 적합한 몇 가지 포맷이 있다. 가장 잘 알려진 것은 동기식 멀티미디어 통합 언어(Synchronized Multimedia Integration Language; SMIL)이다. 월드 와이드 웹 상의 공개를 겨냥한 자료의 경우, 오디오 캐스케이드 스타일 시트들(Audio Cascaded Style Sheets; ACSS)이 사운드의 일부 특성들을 정의하는데 사용될 수 있다. 음성 합성 마크업 언어(Speech Synthesis Markup Language; SSML, W3에 의해 권고됨)와 비교하여, 사운드 및 음성의 얼마간의 기본적 실시간 랜더링을 하는 것이 가능하다.
따라서, 텍스트-기반 애플리케이션들에서 실시간 사운드 합성과 사운드 효과, 특히 스테레오 또는 3D 사운드의 랜더링을 수행하기에 적합한 마크업 언어 또는 상응하는 소프트웨어 아키텍처는 없다.
본 발명의 목적은 엔터테인먼트 사운드, 특히 스테레오 또는 3D 오디오를 사용하여 SMS와 이메일과 같은 텍스트 애플리케이션들을 더욱 재미있고 즐겁게 만드는 방법을 제공하는 것이다.
위의 목적을 달성하기 위하여, 본 발명은 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 방법을 제공하는데, 이 방법은 사운드 효과를 발생된 오디오에 추가하기 위해 사용될 수 있는 태그를 입력 텍스트에 추가하는 단계; 태그를 처리하여 오디오를 발생하기 위한 명령어들을 형성하는 단계; 텍스트를 표시하면서 명령어들에 기초하여 상기 사운드 효과를 가지는 오디오를 발생하는 단계를 포함한다.
본 발명은 또한 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 기기를 제공하는데, 이 기기는 사운드 효과를 발생된 오디오에 추가하기 위해 사용될 수 있는 태그를 입력 텍스트에 추가하는 태그 추가기; 태그를 처리하여 오디오를 발생하기 위한 명령어들을 형성하는 태그 처리기; 텍스트를 표시하면서 명령어들에 기초하여 상기 사운드 효과를 가지는 오디오를 발생하는 오디오 발생기를 포함한다.
본 발명은 또한 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 통신 단말을 제공하는데, 이 통신 단말은 입력 텍스트에 추가되어 있고 사운드 효과를 발생된 오디오에 추가하기 위해 사용될 수 있는 태그를 처리하여, 오디오를 발생하기 위한 명령어들을 형성하는 태그 처리기; 텍스트를 표시하면서 명령어들에 기초하여 사운드 효과를 가지는 오디오를 발생하는 오디오 발생기를 포함한다.
통신 단말은 태그를 입력 텍스트에 추가하기 위한 태그 추가기를 더 포함할 수 있다.
본 발명의 사용은 3D, 공간적 향상 및 효과의 형태로 오디오를 제공할 수 있다. 예를 들면, 스테레오 또는 3D 오디오의 사용은 또한 소리풍경(soundscape)이 스테레오 또는 3D 효과를 위해 처리되고 스테레오 헤드폰들 또는 2개의 근접이격된 라우드스피커들을 통해 재생될 경우 그 소리풍경이 음성과는 간섭하지 않는 그런 방식으로 공간화될 수 있도록 음성에 방해 없이 사운드가 추가되는 것을 허용한다. 예를 들면, 청취자가 측면의 비바람 소리와 중앙의 음성을 듣는다면 명료도는 영향을 받지 않는다.
또한, 본 발명은 무작위성을 발생된 오디오 효과에 추가함으로써 정황(context)-의존성의 '놀라운 효과 또는 값"을 증가시켜서, 예를 들면, 오디오가 비행 중에 발생할 때, 랜더링 알고리즘은 시간(아침/낮/저녁, 주중/주말/ 여름/겨울) 또는 사용자의 위치(자택/차/사무실, 국가)에 관한 정보를 고려할 수 있다.
더욱이, 본 발명은 맞춤화에 대한 탁월한 가능성을 허용하고 엔터테인먼트 값을 텍스트 애플리케이션들에 추가하고 멀티미디어 '클래스'를 평이한 텍스트에 추가한다. 본 발명은 또한 기존의 멀티미디어에 비해 매우 콤팩트한 포맷을 제공한다. 본 발명이 플랫폼 특화적이지 않기 때문에, 본 발명의 기기는 랜더링을 어떻게 할지를 결정한다.
본 발명의 위의 및 다른 목적들, 특징들 및 이점들은 다음의 첨부 도면들에 관련하여 다음의 예시적인 실시예들의 상세한 설명으로부터 명확하게 될 것이다:
도 1은 본 발명에 따른 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 방법의 흐름도이며;
도 2은 본 발명에 따른 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 기기의 블록도이다.
첨부 도면들을 참조하여, 본 발명이 이제 상세히 설명될 것이다.
도 1은 본 발명에 따른 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 방법의 흐름도를 보인다.
단계 100에서, 텍스트 애플리케이션들, 이를테면 SMS, 오디오북 등이 입력된다.
단계 110에서, 태그들이 입력 텍스트로부터 생성된다. 바람직하게는, 2 집합의 태그들이 오디오 처리(나중에 설명됨)를 위해 생성된다. 이들 태그는 특수한 경우들에서는 수동으로, 이를테면 사용자에 의해 삽입될 수 있거나 또는 이동 전화기, PDA(personal digital assistant), 랩톱 컴퓨터 및 태그들을 텍스트에 추가할 수 있는 임의의 다른 기기들을 포함한 단말에 의해 발생될 수 있다. 이 단계를 이행하기 위해, VoiceXML(웹 페이지들의 음성 UI및 오디오 랜더링용), JSML(JSpeech Markup Language (Java, by Sun)), STML(Spoken Text Markup Language), Sable(JSML 및 STML를 결합하는 시도), SSML(W3에 의해 권고된 음성 합성 마크업 언어(Speech Synthesis Markup Language)), SMIL(멀티미디어 프레젠테이션용 동기 식 멀티미디어 통합 언어(Synchronized Multimedia Integration Language))를 포함하지만 이것들에 한정되지는 않는 복수 개의 마크업 언어들이 사용될 수 있다. ACSS(Audio Cascaded Style Sheets)가 이 단계에 관계될 수도 있다. 그것은 사운드의 일부 특성들을 정의하며, 음성 합성 및 오디오 둘 다를 지정할 뿐 아니라 음성을 오디오와 중첩하는데 사용될 수 있다. 부가하여, ACSS는 얼마간의 공간적 오디오 특징들(예, 방위각, 고도)을 가진다. 본 발명에 의하면, 새로운 마크업 언어, 이를테면 음성, 음악, 및 오디오 효과에 적용하는 태그들을 구비한 오디오 XML 포맷이 스테레오 또는 3D 사운드 효과와 같은 사운드 효과를 오디오에 추가하는데 사용되기 위해 확립될 수 있다. 예컨대, 입력 메시지는 'Sorry I missed your call. I was playing tennis at the time. I won'이다. 예의 의사(pseudo) 태그들은 다음과 같다: <continuous play: background music> Sorry I missed your <audio substitute: call>. I was playing tennis <audio icon: tennis> at the time. I won! <audio icon: fireworks><end play: background music>.
단계 120에서, 단계 110에서 추가된 태그들은 사운드를 합성하는데 뿐 아니라 오디오 처리를 제어하며 오디오 처리의 입력으로서 사용될 수도 있는 메시지들을 생성하는데 사용될 수 있는 명령들로 변환된다. 사운드 합성을 위해, MIDI 메시지들이 사용될 수 있다. 음성 합성을 위해, SSML의 확장 버전이 사용될 수 있다(그래서 도 1의 SSML+를 참조한다). 단계 120은 랜덤화라는 특징을 포함할 수 있다. 사운드들의 정확한 반복은 매우 신속하게 청취자를 지루하게 하거나 또는 성가시게도 한다. 예컨대, 게임들의 오디오 디자인에서, 배우가 동일한 선을 여러 번 반복 하는 것을 기록하는 것이 통상적이라서 사용자는 정확히 동일한 샘플을 다수 회 청취하려고 하지 않는다. 무작위성은 많은 다른 방식들로 삽입될 수 있다. 일부 예들은 다음과 같다:
Figure 112009065355197-PCT00001
일반
Figure 112009065355197-PCT00002
낮은 레벨의 랜더링 매개변수들(음성, 악기)의 변화
Figure 112009065355197-PCT00003
'사운드 아이콘들'('스마일'에 상당하는 짧은 사운드)의 변화
Figure 112009065355197-PCT00004
공간적 효과 및 후처리의 변화
Figure 112009065355197-PCT00005
음성
Figure 112009065355197-PCT00006
분절(Articulation)
Figure 112009065355197-PCT00007
이벤트들(말의 리듬, 중지)의 타이밍의 변화
Figure 112009065355197-PCT00008
의미의 수정 없이 텍스트의 수정
Figure 112009065355197-PCT00009
음악
Figure 112009065355197-PCT00010
알고리듬적 음악 발생의 사용
Figure 112009065355197-PCT00011
사운드 샘플들의 피치 및/또는 템포의 수정
Figure 112009065355197-PCT00012
효과
Figure 112009065355197-PCT00013
유사한 사운드들을 상이하게 랜더링
오디오 랜더링은 일부 랜더링 매개변수들(예, MIDI 메시지들에 삽입된 값들)의 저-레벨 제어를 지원할 수 있어, 예컨대, 풋스텝들(footsteps)은 타이밍, 피치, 지속시간이 바뀔 수 있어, 오디오 랜더링은 항상 동일한 이벤트의 다른 발생처럼 소리가 나게 한다.
랜덤화의 이점은 그것이 놀라운 값을 추가하고 정확한 반복으로 인해 사용자가 지루함이나 성가심을 느끼는 것을 방지하고 랜더링된 오디오가 너무 빤해 보이는 것을 방지할 뿐 아니라 개별적인 선호도에 세팅을 조절하기 위한 우수한 가능성을 획득한다는 것임이 명백하다.
단계 130에서, 단계 120으로부터의 입력은 오디오를 출력하기 위해 처리된다. 음성 합성을 위해, TTS(Text-To-Speech) 엔진이 태그형 텍스트(예, SSML+)를 음성으로 변환하기 위해 채용될 수 있다. TTS 시스템은 근래 몇 년 동안 극적으로 개량되어 왔다. 아티팩트들이 음성 사운드를 '로봇식(robotic)' 보다는 '다져진(chopped up)' 소리로 되게 한다. 음성의 품질은 매우 자연스럽게 만들어질 수 있지만 양호한 품질의 TTS는 MIPS 및 메모리 둘 다에서의 집중적인 계산을 의미한다. 오디오 합성을 위해, 음악 및 효과(예, 풋스텝, 해변 및 새노랫소리)를 포함한 합성 오디오의 2 유형이 필요하다. 제어 언어로서 적합할 수 있는 MIDI는 효과 세팅들(잔향, 코러스 등), 우선순위(SP-MIDI), 타임스탬프들 및 사운드에 영향을 주는 얼마간의 저-레벨 매개변수들을 포함할 수 있다. MIDI에서 채용되는 웨이브테이블 합성은 음악 및 효과 둘 다를 합리적으로 잘 할 수 있다. 웨이브테이블 합성 엔진(오디오 합성 엔진)(도 1 참조)은 GMI 콤플라이언트(일반 MIDI)이고 GM2 콤플라이언트를 만들 수 있고, DLS(Downloadable Sounds) 포맷 및 모든 주요 샘플링 레이트들을 지원한다.
그 다음 흐름은 단계 140으로 진행하여, 단계 130으로부터의 출력 오디오는 더 처리된다.
이제 도 2를 참조하면, 그 도면은 도 1의 흐름도에 있는 방법을 수행하기 위한 본 발명에 따른 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 기기를 보인다. 텍스트 전용 애플리케이션의 수신에 의거하여, 태그 추가 수단은 입력 텍스트를 위한 태그들의 집합들을 생성한다. 이들 태그는 특수한 경우들에서는 수동으로, 이를테면 사용자에 의해 삽입될 수 있거나 또는 이동 전화기, PDA(personal digital assistant), 랩톱 컴퓨터 및 태그들을 텍스트에 추가할 수 있는 임의의 다른 기기들을 포함한 단말에 의해 발생될 수 있다. 바람직하게는, 2 집합이 태그 추가 수단에 의해 생성된다. 하나의 집합은 TTS 엔진을 위해 효과적이고, 이를 위해 SSML과 같은 포맷이 사용될 수 있다. 다른 하나의 집합은 사운드 효과 및 음악 둘 다를 발생할 수 있는 오디오 합성 엔진에 대해 효과적이다. 그런 포맷은 오디오 XML이라고도 불릴 수 있다(도 2 참조). SMS와 같은 애플리케이션의 경우 태그 추가 수단은 송신기나 수신기의 단말에서 실행될 수 있다.
그러면 태그 처리 수단은 태그를 사운드를 합성하고 오디오 처리를 제어할 뿐 아니라 '놀라운 값'을 추가하는데 사용될 수 있는 저-레벨 명령들로 변환한다. 사운드 합성을 위해, MIDI 메시지들이 사용될 수 있다. TTS를 위해, SSML의 약간 확장된 버전이 사용될 수 있다(그래서 도 2의 SSML+를 참조한다). 태그 처리 수단은 청취자의 단말에서 실행되어야만 한다. 태그 처리 수단은 랜덤화라는 특징을 포함할 수 있다. 사운드 합성 엔진을 이용하여 미묘한 변화가 저-레벨 명령들에서의 작은 변경들로써 이행될 수 있다. 예컨대, 풋스텝들은 타이밍, 피치 및 지속시간이 변할 수 있어, 그것은 항상 동일한 이벤트의 상이한 발생처럼 소리가 나게 한다.
오디오 발생 수단(도 2의 점선 부분 참조)은 태그 처리 수단으로부터의 출력을 수신한다. 음성 합성을 위해, TTS 엔진이 처리를 수행하기 위해 유익하게 채용된다. 오디오 합성을 위해, 웨이브테이블 합성 엔진이 음악 및 효과 둘 다를 합리적으로 잘 행하기 위해 유익하게 채용된다.
오디오 처리 수단은 이를 테면 3D 알고리즘들 및 후-효과를 TTS 및 오디오 합성 엔진들로부터의 출력을 이용하여 수행한다. 오디오 처리 수단은 다음 기능들 중 적어도 하나를 이행할 수 있다: 위치성 오디오(Positional audio), 모노-대-3D 공간적 향상(Mono-to-3D spatial enhancement), 스테레오 와이드닝(Stereo widening), 잔향(Reverberation), EQ(Equalizer) 및 DRC(Dynamic Range Control). 더욱이, 오디오 처리 수단은 옵션적으로는 샘플 레이트 변환, 믹싱, 매개변수들(3D 위치, 잔향용 T60)의 실시간 변경을 지원한다.
본 발명의 기기는 텍스트 전용 애플리케이션을 위한 오디오를 발생할 수 있는 통신 단말에 구현될 수 있는데, 그 통신 단말은 입력 텍스트에 추가되어 있고 사운드 효과를 발생된 오디오에 추가하는데 사용될 수 있는 태그를 처리하여, 오디오를 발생하기 위한 명령어들을 형성하는 태그 처리 수단; 텍스트가 표시되는 동안 명령어들에 기초하여 사운드 효과를 가지는 오디오를 발생하는 오디오 발생 수단을 포함한다. 대안으로, 통신 단말은 태그를 입력 텍스트에 추가하기 위한 태그 추가 수단을 더 포함할 수 있다. 통신 단말은 예컨대 이동 단말이다.
본 발명의 구체적인 실시예들이 개시되어 있지만, 당업자들은 본 발명의 사 상 및 범위로부터 벗어나지 않고서도 구체적은 실시예들에 대한 변경들이 만들어질 수 있다는 것을 이해할 것이다. 본 발명은 오디오에 초점을 맞추었지만 그래픽을 텍스트 애플리케이션에 추가하기 위해서도 동일하게 강력하게 사용될 수 있다. 본 발명의 범위는 그러므로 구체적인 실시예들로 한정되지 않고, 첨부의 청구항들이 본 발명의 범위 내에서 임의의 그리고 모든 그러한 응용들, 수정들 및 실시예들을 포함하도록 의도되고 있다.

Claims (27)

  1. 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 방법에 있어서,
    사운드 효과를 발생된 오디오에 추가하기 위해 사용될 수 있는 태그를 입력 텍스트에 추가하는 단계;
    태그를 처리하여 오디오를 발생하기 위한 명령어들을 형성하는 단계; 및
    텍스트를 표시하면서 명령어들에 기초하여 상기 사운드 효과를 가지는 오디오를 발생하는 단계를 포함하는 방법.
  2. 제1항에 있어서, 상기 사운드 효과는 스테레오 효과인 것을 특징으로 하는 방법.
  3. 제1항에 있어서, 상기 사운드 효과는 3D사운드 효과인 것을 특징으로 하는 방법.
  4. 제1항에 있어서, 표시되는 텍스트는 디스플레이에 의해 또는 텍스트 대 음성 변환의 방식으로 표시되는 것을 특징으로 하는 방법.
  5. 제1항에 있어서, 상기 태그들은 입력 텍스트로부터 발생되거나, 또는 수동으로 삽입되는 것을 특징으로 하는 방법.
  6. 제1항에 있어서, 상기 태그들은 음성, 음악, 또는 오디오 효과에 적용되는 것을 특징으로 하는 방법.
  7. 제1항에 있어서, 사운드 효과를 가지는 오디오를 발생하는 단계에서, 상기 명령어들은 사운드를 합성하는데 뿐 아니라 오디오 처리를 제어하는데 사용되는 것을 특징으로 하는 방법.
  8. 제1항에 있어서, 태그를 처리하는 상기 단계는 무작위성(randomness)을 추가하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  9. 제8항에 있어서, 무작위성을 추가하는 상기 단계는 명령어들에서의 변경들에 의해 이행되고, 상기 변경들은 오디오를 발생하기 위한 방식들 또는 매개변수들을 변화시키는 것을 특징으로 하는 방법.
  10. 제9항에 있어서, 상기 방식들 또는 매개변수들은 저-레벨 랜더링 매개변수들, 사운드 아이콘들의 선택, 공간적 효과 및 후-처리, 분절(articulation), 이벤트들의 타이밍, 의미 수정 없는 텍스트 수정, 알고리즘적 음악 발생의 사용 및 유사한 사운드들의 상이한 랜더링 중 적어도 하나를 포함하는 것을 특징으로 하는 방법.
  11. 제1항에 있어서, 사운드 효과를 가지는 오디오를 발생하는 상기 단계는 TTS 엔진을 사용하여 음성 합성을 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  12. 제1항에 있어서, 사운드 효과를 가지는 오디오를 발생하는 상기 단계는 오디오 합성 엔진을 사용하여 오디오 합성을 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  13. 제1항에 있어서, 사운드 효과를 가지는 오디오를 발생하는 상기 단계는 오디오 처리를 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  14. 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 기기에 있어서,
    사운드 효과를 발생된 오디오에 추가하기 위해 사용될 수 있는 태그를 입력 텍스트에 추가하는 태그 추가기;
    태그를 처리하여 오디오를 발생하기 위한 명령어들을 형성하는 태그 처리기; 및
    텍스트를 표시하면서 명령어들에 기초하여 상기 사운드 효과를 가지는 오디오를 발생하는 오디오 발생기를 포함하는 기기.
  15. 제14항에 있어서, 상기 사운드 효과는 스테레오 효과인 것을 특징으로 하는 기기.
  16. 제14항에 있어서, 상기 사운드 효과는 3D사운드 효과인 것을 특징으로 하는 기기.
  17. 제14항에 있어서, 표시되는 텍스트는 디스플레이에 의해 또는 텍스트 대 음성 변환의 방식으로 표시되는 것을 특징으로 하는 기기.
  18. 제14항에 있어서, 상기 태그들은 입력 텍스트로부터 발생되거나, 또는 수동으로 삽입되는 것을 특징으로 하는 기기.
  19. 제14항에 있어서, 상기 태그들은 음성, 음악, 또는 오디오 효과에 적용되는 것을 특징으로 하는 기기.
  20. 제14항에 있어서, 오디오 발생기는 상기 명령어들을 사용하여 사운드를 합성할 뿐 아니라 오디오 처리를 제어하는 것을 특징으로 하는 기기.
  21. 제14항에 있어서, 상기 태그 처리기는 무작위성을 추가하는 것을 특징으로 하는 기기.
  22. 제21항에 있어서, 태그 처리기는 명령어들에서의 변경들에 상기 무작위성을 이행하고, 상기 변경들은 오디오를 발생하기 위한 방식들 또는 매개변수들을 변화시키는 것을 특징으로 하는 기기.
  23. 제22항에 있어서, 상기 방식들 또는 매개변수들은 저-레벨 랜더링 매개변수들, 사운드 아이콘들의 선택, 공간적 효과 및 후-처리, 분절(articulation), 이벤트들의 타이밍, 의미 수정 없는 텍스트 수정, 알고리즘적 음악 발생의 사용 및 유사한 사운드들의 상이한 랜더링 중 적어도 하나를 포함하는 것을 특징으로 하는 기기.
  24. 제14항에 있어서, 상기 오디오 발생기는 음성 합성을 수행하기 위한 TTS 엔진과 오디오 합성을 수행하기 위한 오디오 합성 엔진 중의 적어도 하나를 더 포함하는 것을 특징으로 하는 기기.
  25. 제14항에 있어서, 상기 오디오 발생기는 오디오 처리를 수행하기 위한 오디오 처리기를 더 포함하는 것을 특징으로 하는 기기.
  26. 텍스트 전용 애플리케이션을 위한 오디오를 발생하는 통신 단말에 있어서, 다음을 포함하는 통신 단말:
    입력 텍스트에 추가되어 있고 사운드 효과를 발생된 오디오에 추가하기 위해 사용될 수 있는 태그를 처리하여, 오디오를 발생하기 위한 명령어들을 형성하는 태그 처리기; 및
    텍스트를 표시하면서 명령어들에 기초하여 사운드 효과를 가지는 오디오를 발생하는 오디오 발생기.
  27. 제26항에 있어서, 통신 단말은 태그를 입력 텍스트에 추가하기 위한 태그 추가기를 더 포함하는 것을 특징으로 하는 통신 단말.
KR1020097022343A 2007-04-28 2008-04-24 텍스트 전용 애플리케이션들을 위한 사운드 효과를 가진 오디오 발생 KR20090132631A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2007101077195A CN101295504B (zh) 2007-04-28 2007-04-28 用于仅文本的应用的娱乐音频
CN200710107719.5 2007-04-28

Publications (1)

Publication Number Publication Date
KR20090132631A true KR20090132631A (ko) 2009-12-30

Family

ID=39926170

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097022343A KR20090132631A (ko) 2007-04-28 2008-04-24 텍스트 전용 애플리케이션들을 위한 사운드 효과를 가진 오디오 발생

Country Status (6)

Country Link
US (1) US8694320B2 (ko)
EP (1) EP2143100A4 (ko)
JP (2) JP2010529519A (ko)
KR (1) KR20090132631A (ko)
CN (1) CN101295504B (ko)
WO (1) WO2008132579A2 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5300074B2 (ja) * 2009-09-02 2013-09-25 Necカシオモバイルコミュニケーションズ株式会社 端末装置及びプログラム
US9164983B2 (en) 2011-05-27 2015-10-20 Robert Bosch Gmbh Broad-coverage normalization system for social media language
US9037467B2 (en) * 2012-01-02 2015-05-19 International Business Machines Corporation Speech effects
GB2501067B (en) * 2012-03-30 2014-12-03 Toshiba Kk A text to speech system
CN103516582A (zh) * 2012-06-28 2014-01-15 北京神州泰岳软件股份有限公司 一种即时通讯中进行信息提示的方法和系统
US9047784B2 (en) 2012-08-02 2015-06-02 International Business Machines Corporation Automatic eBook reader augmentation
CN103839550A (zh) * 2012-11-26 2014-06-04 阿尔卡特朗讯 一种用于对会话中的语音进行处理的方法、装置和系统
CN113257273A (zh) 2014-10-01 2021-08-13 杜比国际公司 高效drc配置文件传输
CN105791079B (zh) * 2014-12-24 2019-05-07 瞬联软件科技(北京)有限公司 基于动态图格的即时通信方法、客户端及系统
CN106547511B (zh) * 2015-09-16 2019-12-10 广州市动景计算机科技有限公司 一种语音播读网页信息的方法、浏览器客户端及服务器
CN106898341B (zh) * 2017-01-04 2021-03-09 清华大学 一种基于共同语义空间的个性化音乐生成方法及装置
CN107731219B (zh) * 2017-09-06 2021-07-20 百度在线网络技术(北京)有限公司 语音合成处理方法、装置及设备
CN110148393B (zh) * 2018-02-11 2023-12-15 阿里巴巴集团控股有限公司 音乐生成方法、装置和系统以及数据处理方法
CN108877766A (zh) * 2018-07-03 2018-11-23 百度在线网络技术(北京)有限公司 歌曲合成方法、装置、设备及存储介质
JP7252266B2 (ja) * 2018-07-19 2023-04-04 ドルビー・インターナショナル・アーベー オブジェクトベースのオーディオコンテンツを作成するための方法およびシステム
US11114085B2 (en) * 2018-12-28 2021-09-07 Spotify Ab Text-to-speech from media content item snippets
CN109933576B (zh) * 2019-03-04 2021-06-11 百度在线网络技术(北京)有限公司 音效sdk库建立方法及装置、电子设备和计算机可读介质
JP6935452B2 (ja) * 2019-05-29 2021-09-15 株式会社バンダイ システム、装置、方法及びプログラム
CN113903325B (zh) * 2021-05-31 2022-10-18 北京荣耀终端有限公司 文本转3d音频的方法及装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5561736A (en) 1993-06-04 1996-10-01 International Business Machines Corporation Three dimensional speech synthesis
US20020002458A1 (en) * 1997-10-22 2002-01-03 David E. Owen System and method for representing complex information auditorially
JP2000081892A (ja) * 1998-09-04 2000-03-21 Nec Corp 効果音付加装置および効果音付加方法
JP2000099074A (ja) * 1998-09-21 2000-04-07 Ricoh Co Ltd 文書読み上げ装置
JP2001127900A (ja) * 1999-10-26 2001-05-11 Matsushita Electric Ind Co Ltd 通信装置、電話機および通信処理プログラムを記録した記録媒体
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
JP2002221980A (ja) 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置
JP2002311979A (ja) 2001-04-17 2002-10-25 Sony Corp 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
GB0113570D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Audio-form presentation of text messages
JP2003030113A (ja) 2001-07-19 2003-01-31 Sharp Corp 通信端末装置およびプログラム記憶媒体
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
JP2003150522A (ja) * 2001-11-19 2003-05-23 Casio Comput Co Ltd 電子メールサーバ、電子メールサービス提供方法および電子メールサービス提供プログラム
JP2003295882A (ja) * 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
US8978090B2 (en) * 2003-03-12 2015-03-10 Qualcomm Incorporated Multimedia transcoding proxy server for wireless telecommunication system
JP2005092829A (ja) * 2003-09-22 2005-04-07 Yokogawa Electric Corp 測定システム
JP2005166039A (ja) * 2003-11-14 2005-06-23 Matsushita Electric Ind Co Ltd メールプログラム、電子メール装置、および電子メールの管理方法
US20050144002A1 (en) * 2003-12-09 2005-06-30 Hewlett-Packard Development Company, L.P. Text-to-speech conversion with associated mood tag
JP3822883B2 (ja) * 2004-04-27 2006-09-20 株式会社コナミデジタルエンタテインメント ゲームソフトウエア及びゲーム装置
KR100677319B1 (ko) 2004-04-29 2007-02-02 엘지전자 주식회사 이동통신단말기의 3d 사운드 구현장치
JP2006338335A (ja) * 2005-06-02 2006-12-14 Fujitsu Ltd 即時発声メール送受信機能を備えた携帯端末装置
KR100724868B1 (ko) * 2005-09-07 2007-06-04 삼성전자주식회사 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템
CN101046956A (zh) * 2006-03-28 2007-10-03 国际商业机器公司 交互式音效产生方法及系统
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech

Also Published As

Publication number Publication date
CN101295504A (zh) 2008-10-29
JP2010529519A (ja) 2010-08-26
WO2008132579A2 (en) 2008-11-06
WO2008132579A3 (en) 2009-02-12
JP2013101637A (ja) 2013-05-23
EP2143100A2 (en) 2010-01-13
US20100145705A1 (en) 2010-06-10
CN101295504B (zh) 2013-03-27
US8694320B2 (en) 2014-04-08
EP2143100A4 (en) 2012-03-14

Similar Documents

Publication Publication Date Title
US8694320B2 (en) Audio with sound effect generation for text-only applications
US10720145B2 (en) Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system
US7706510B2 (en) System and method for personalized text-to-voice synthesis
US7949109B2 (en) System and method of controlling sound in a multi-media communication application
US20160379611A1 (en) Systems and Method for Music Remixing
US9065931B2 (en) Systems and methods for portable audio synthesis
JP2009112000A (ja) 実時間対話型コンテンツを無線交信ネットワーク及びインターネット上に形成及び分配する方法及び装置
EP2016582A1 (en) Method and system for announcing audio and video content to a user of a mobile radio terminal
EP1703492B1 (en) System and method for personalised text-to-voice synthesis
KR101916107B1 (ko) 통신 단말 및 그 통신 단말의 정보처리 방법
JP2005062420A (ja) コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム
CN103200309A (zh) 用于仅文本的应用的娱乐音频
JP2006163280A (ja) 楽曲データおよび端末装置
KR20040093510A (ko) 단문 메시지를 이용한 음성 메시지 전송 방법
KR20090028151A (ko) 본인 음성 기반의 tts 서비스 제공 장치와 시스템 및 그방법
EP1563484A1 (en) Method for generating an audio file on a server upon a request from a mobile phone
JP4514513B2 (ja) 音楽メール出力方法、音楽メール出力システム、及び音楽出力装置
JP2005107320A (ja) 音声再生用データ生成装置
JP2006301063A (ja) コンテンツ提供システム、コンテンツ提供装置および端末装置
JP2002118624A (ja) 携帯移動端末における鳴動効果音声発生方式
JP2005107136A (ja) 音声および楽曲再生装置
KR20110094818A (ko) 콘텐츠 제작방법 및 서비스 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E601 Decision to refuse application