TW202224385A

TW202224385A - 多媒體內容生成方法、系統及電腦可讀記錄介質

Info

Publication number: TW202224385A
Application number: TW110145002A
Authority: TW
Inventors: 李俊聲; 高茂原; 黃靖雅; 陳正和; 張凱茹
Original assignee: 日商連股份有限公司
Priority date: 2020-12-08
Filing date: 2021-12-02
Publication date: 2022-06-16
Also published as: CN114666296A; KR20220081090A; US20220180893A1

Abstract

本發明關於多媒體內容生成方法、系統及電腦可讀記錄介質，該多媒體內容生成方法藉由使用者終端的至少一個處理器執行，該多媒體內容基於感情而生成。基於感情的多媒體內容生成方法包括如下的步驟：接收錄製使用者語音的語音數據；從使用者接收對於多個角色中的一個的選擇；以及向其他使用者傳輸以語音數據、從語音數據檢測的使用者的感情狀態及所選擇的角色為基礎生成的多媒體內容。

Description

多媒體內容生成方法、系統及電腦可讀記錄介質

本發明關於基於感情的多媒體內容生成方法、系統及電腦可讀記錄介質，具體地，關於可以在即時通訊應用上表現使用者的感情狀態之基於感情的多媒體內容生成方法、系統及電腦可讀記錄介質。

隨著如智慧手機的移動設備的普及和網路的發達，廣泛使用利用了移動設備的即時通訊服務。即時通訊服務的使用者在日常生活中可以自然地溝通並聊天。但是，在文字種類多的語言（例如，漢語）的情況下，很難用文字輸入需要的訊息。

另一方面，即時通訊服務藉由聊天室提供可傳輸使用者語音的語音訊息服務。藉此，使用者即使不輸入文字，也可以利用語音訊息服務單純與對方進行對話。但是，這種語音訊息服務僅傳輸單純錄音的使用者的語音，因此，存在無法提供視覺效果的問題。

本發明係提供用於解決上述問題之基於感情的多媒體內容生成方法、儲存電腦程式的電腦可讀記錄介質及系統（裝置）。

本發明可藉由包括方法、系統（裝置）或儲存電腦程式的電腦可讀記錄介質的多種方式實現。

根據本發明的一實施例，基於感情的多媒體內容生成方法藉由使用者終端的至少一個處理器執行，該方法包括如下的步驟：接收錄製使用者語音的語音數據；從使用者接收對於多個角色中的一個的選擇；以及向其他使用者傳輸以語音數據、從語音數據檢測的使用者的感情狀態及所選擇的角色為基礎生成之多媒體內容。

根據本發明的一實施例，所生成的多媒體內容藉由即時通訊應用上的聊天室向其他使用者傳輸。

根據本發明的一實施例，所選擇的角色與表現不同感情狀態的多個卡通化的圖形物件有關，多媒體內容包含語音數據和表現使用者的感情狀態的卡通化的圖形物件。

根據本發明的一實施例，以使用者的感情狀態為基礎，確定多媒體內容內所包含的所選擇的角色的動作。

根據本發明的一實施例，語音數據包含：第一時間區間，具有小於預設閾值的訊號強度；以及第二時間區間，具有預設閾值以上的訊號強度。多媒體內容包含語音數據和表現使用者的感情狀態的卡通化的圖形物件。多媒體內容內的卡通化的圖形物件在第一時間區間內維持靜止狀態，在第二時間區間內播放。

根據本發明的一實施例，語音數據包含與第一感情狀態有關的第一時間區間及與第二感情狀態有關的第二時間區間。所選擇的角色與表現第一感情狀態的第一卡通化的圖形物件及表現第二感情狀態的第二卡通化的圖形物件有關。多媒體內容在第一時間區間內一同播放第一卡通化的圖形物件和語音數據，在第二時間區間內一同播放第二卡通化的圖形物件和語音數據。

根據本發明的一實施例，使用者的感情狀態以語音數據的音訊特性為基礎來檢測。

根據本發明的一實施例，使用者的感情狀態以從語音數據檢測的字串為基礎來檢測。

根據本發明的一實施例，本發明還包括在顯示器上顯示多個角色的步驟。多個角色分別具有表現從語音數據檢測的使用者的感情狀態的卡通化的圖形物件。

根據本發明的一實施例，多個角色以使用者的過去使用履歷為基礎排列並顯示。

根據本發明的一實施例，多個角色為對於與使用者的感情狀態有關的、其他使用者頻繁使用之多個角色的推薦。

本發明提供記錄有用於在電腦中執行本發明一實施例的上述方法的電腦程式的電腦可讀記錄介質。

本發明一實施例的資訊處理系統包括：通訊模組；記憶體；以及至少一個處理器，與記憶體連接並被配置為用於執行在記憶體中所包含的電腦可讀的至少一個程式。至少一個套裝程式係包含指令，上述指令用於執行以下的操作：從第一使用者終端接收錄製第一使用者的語音之語音數據，從所接收的語音數據檢測第一使用者的感情狀態，從第一使用者終端接收對於多個角色中的一個的選擇，以語音數據、第一使用者的感情狀態及所選擇的角色為基礎生成多媒體內容。

根據本發明的一實施例，至少一個程式還包含用於向與第二使用者有關的第二使用者終端傳輸多媒體內容的指令，第二使用者與第一使用者包含在相同的即時通訊應用上的同一個聊天室中。

根據本發明的一實施例，所選擇的角色與表現不同感情狀態的多個卡通化的圖形物件有關。多媒體內容包含語音數據和與第一使用者的感情狀態有關的卡通化的圖形物件。

根據本發明的一實施例，以第一使用者的感情狀態為基礎，確定多媒體內容內所包含的所選擇的角色的動作。

根據本發明的一實施例，語音數據包含：第一時間區間，具有小於預設閾值的訊號強度；以及第二時間區間，具有預設閾值以上的訊號強度。多媒體內容包含語音數據和與第一使用者的感情狀態有關的卡通化的圖形物件。多媒體內容內的卡通化的圖形物件在第一時間區間內維持靜止狀態，在第二時間區間內播放。

根據本發明的一實施例，從所接收的語音數據檢測第一使用者的感情狀態的操作包括如下檢測操作：藉由分析語音數據的音訊特性來檢測第一使用者的感情狀態，藉此與語言和內容無關地檢測感情狀態。

根據本發明的一實施例，至少一個程式還包含用於藉由語音辨識從語音數據檢測字串的指令，第一使用者的感情狀態以所檢測的字串為基礎來檢測。

在本發明的多種實施例中，使用者並非單純向其他使用者傳輸語音訊息，而是可藉由傳輸語音數據與表示自己的感情狀態的角色結合的多媒體內容，從而可以有效地表現自己當前感情/情緒狀態。

在本發明的多種實施例中，基於感情的多媒體內容可以如根據實際使用者的語音發生動作一樣來生成，因此，可以向其他使用者直觀地表現使用者的感情狀態。

在本發明的多種實施例中，在一個語音數據中包含多個感情狀態的語音的情況下，使用者也能生成有效反映自己的感情狀態的多媒體內容，並向其他使用者傳輸所生成的多媒體內容。

本發明的效果並不局限於以上提及的效果，本發明所屬技術領域的通常知識者（稱之為「通常知識者」）可從申請專利範圍中的記載明確地理解未提及的其他效果。

以下，參照圖式，詳細說明用於實施本發明的具體內容。但是，在以下的說明中，於存在使本發明的主旨不清楚的情況下，將省略對於已知功能或結構的具體說明。

圖式中，對相同或對應的結構要素賦予相同的圖式標記。並且，在說明以下實施例的過程中，可以省略對於相同或對應結構要素的重複說明。但是，即使與結構要素有關的技術被省略，也不意味著這種結構要素並不包括在某種實施例中。

所公開的實施例的優點、特徵及實現這些優點和特徵的方法將參照圖式與一同後述的實施例變得更加明確。但是，本發明並不局限於以下公開的實施例，而是可實現為多種不同形態，本實施例只是為了使本發明變得完整，並為了向本發明所屬技術領域的通常知識者完整地說明發明的範疇而提供。

簡單地說明在本說明書中所使用的術語，具體說明所公開的實施例。在本說明書中所使用的術語選擇考慮了本發明中的功能且當前廣泛使用的一般術語，但這些術語可能會根據從事相關領域的通常知識者的意圖或案例、新技術的問世等而不同。並且，在特定情況下，可以存在申請人任意選擇的術語，在此情況下，將在相應的發明的說明部分中詳細記載其含義。因此，在本發明中所使用的術語並非單純的術語名稱，而是需要以該術語所具有的含義和本發明中的整體內容為基礎來定義。

只要在上下文中並未明確指出，則在本說明書中單數的表達包括複數的表達。並且，只要在上下文中並未明確限定為複數，則複數的表達包括單數的表達。在整個說明書中，當某部分包括某種結構要素時，只要沒有特別相反的記載，意味著還可包括其他結構要素，而並非排除其他結構要素。

並且，在說明書中所使用的「模組」或「部」等術語意味著軟體或硬體結構要素，「模組」或「部」執行某種作用。但是，「模組」或「部」的含義並不局限於軟體或硬體。「模組」或「部」可被配置為包括在能夠訪問的記錄儲存介質中，也可以被配置為播放一個或一個以上的處理器。因此，作為一例，「模組」或「部」可包括如軟體結構要素、物件導向的軟體結構要素、類元件及任務元件的結構要素、進程、函數、屬性、過程、副程式、程式碼段、驅動程式、韌體、微代碼、電路、數據、數據庫、數據結構、表、陣列或變數中的至少一種。結構要素和「模組」或「部」所提供的功能可以結合成更少數量的結構要素及「模組」或「部」，或者可分成追加的結構要素和「模組」或「部」。

根據本發明的一實施例，「模組」或「部」可實現為處理器及記憶體。「處理器」應被解釋為包括通用處理器、中央處理器（CPU）、微處理器、數位訊號處理器（DSP）、控制器、微控制器、狀態機等的廣泛的含義。在多種環境下，「處理器」也可以為特殊應用積體電路（ASIC）、可程式化邏輯裝置（PLD）、現場可程式化邏輯閘陣列（FPGA）等。例如，「處理器」也可以為如數位訊號處理器與微處理器的組合、多個微處理器的組合、與數位訊號處理器芯部結合的一個以上的微處理器的組合或任意其他這種結構的組合之處理設備的組合。並且，「記憶體」應被解釋為包括可儲存電子資訊的任意電子元件的廣泛的含義。「記憶體」也可以為如隨機存取記憶體（RAM）、唯讀記憶體（ROM）、非揮發性隨機存取記憶體（NVRAM）、可程式化唯讀記憶體（PROM）、可擦除可規畫式唯讀記憶體（EPROM）、電子抹除式可複寫唯讀記憶體（EEPROM）、快閃記憶體、磁或光數據儲存裝置、寄存器等的處理器可讀介質的多種類型。只要處理器可從記憶體讀取資訊和/或在記憶體中記錄資訊，則稱記憶體處於與處理器的電子通訊狀態。在處理器中集成的記憶體處於與處理器進行電子通訊的狀態。

在本發明中，「聊天室」可以為在安裝於計算裝置的即時通訊應用等中生成的一個以上的使用者（或使用者帳戶）能夠參與的虛擬空間或組。例如，一個以上的使用者帳戶可參與或包括在聊天室中並收發多種形態的消息、檔案等。並且，聊天室可提供網路協定語音通話（VoIP，Voice over Internet Protocol）功能、網路協定視頻通話功能、直播功能（網路協定直播發送功能）、多媒體內容生成功能，從而可執行使用者帳戶之間的語音通話、視頻通話、視頻流、多媒體內容傳輸等。

在本發明中，「使用者」可以為利用即時通訊應用的使用者或即時通訊應用的使用者帳戶。其中，使用者帳戶可以為使用者在即時通訊應用中生成並利用的帳戶或與此有關的數據。

圖1為示出本發明一實施例的藉由在使用者終端120中運行的即時通訊應用提供基於感情的多媒體內容132的例示的圖。使用者110可利用使用者終端120與加入即時通訊應用的其他使用者收發訊息。在一實施例中，使用者110可藉由即時通訊應用與其他使用者收發文字訊息、語音訊息、影片訊息、多媒體內容132等。

使用者110可以藉由聊天室介面130向其他使用者傳輸訊息或數據。在一實施例中，使用者110可藉由聊天室介面130向其他使用者傳輸錄製使用者的語音112的語音數據。例如，使用者110可藉由觸摸輸入等來選擇在即時通訊應用上提供的錄音按鈕並對使用者的語音112進行錄音，向其他使用者傳輸錄製的語音數據。在此情況下，使用者110可以在錄製的語音數據中結合角色（或貼圖、表情貼圖等）來向其他使用者傳輸。

使用者110可藉由聊天室介面130向其他使用者傳輸使用者的語音112與角色結合而成的多媒體內容132。其中，角色為了視覺傳遞使用者110的感情或感覺而使用，可包括表情包（emoticon）、表情符號（emoji）、貼圖、圖像、影片等。例如，使用者110為了生成多媒體內容132而可以選擇在應用上基本提供的角色或者在商店等中購買新的角色來使用。在此情況下，可存在用於生成多媒體內容132的專用角色，但並不局限於此，以往存在的表情包等也可以為了生成多媒體內容132而使用。

使用者110可以向其他使用者傳輸表示自己感情之基於感情的多媒體內容132。在此情況下，為了生成基於感情的多媒體內容132，可從錄製使用者的語音112的語音數據提取/檢測使用者110的感情狀態。例如，使用者110的感情狀態能夠以語音數據的音訊特性為基礎來檢測。在另一例中，使用者110的感情狀態能夠以從語音數據檢測的字串為基礎來檢測。在此情況下，多媒體內容132可藉由結合能夠表示所檢測的使用者110的感情狀態的動作的角色與語音數據來生成，並向其他使用者傳輸。

在圖1中示出使用者110利用使用者終端120來即時錄製使用者的語音112，但並不局限於此。例如，為了生成多媒體內容132可以使用預先儲存在使用者終端120中的語音數據，或者為了生成多媒體內容132也可以使用從其他計算裝置接收的語音數據。藉由上述結構，使用者110並非單純向其他使用者傳輸語音訊息，而是傳輸語音數據與表示自己的感情狀態的角色結合的多媒體內容132來有效表現出自己當前的感情/情緒狀態。

圖2為示出為了提供本發明一實施例的基於感情的多媒體內容生成服務，資訊處理系統230以可以與多個使用者終端210_1、210_2、210_3進行通訊的方式連接的結構的簡圖。資訊處理系統230可包括（多個）系統，上述系統可藉由網路220提供包含基於感情的多媒體內容生成服務的即時通訊服務。在一實施例中，資訊處理系統230可包括能夠儲存、提供及執行與即時通訊服務及基於感情的多媒體內容生成有關的電腦可執行程式（例如，可下載的應用程式）及數據的一個以上的伺服器裝置和/或數據庫或基於雲端計算服務的一個以上的分散式運算裝置和/或分散式數據庫。例如，資訊處理系統230可包括用於提供基於感情的多媒體內容生成服務和/或即時通訊服務的額外的系統（例如，伺服器）。

藉由資訊處理系統230提供的即時通訊服務可藉由設置於多個使用者終端210_1、210_2、210_3的即時通訊應用等向使用者提供。例如，即時通訊服務可包含即時通訊應用的使用者之間的文字短訊服務、語音短訊服務、影片通話服務、語音通話服務、影片串流服務、基於感情的多媒體內容生成/提供服務等。

多個使用者終端210_1、210_2、210_3可藉由網路220與資訊處理系統230進行通訊。網路220可被配置為使多個使用者終端210_1、210_2、210_3與資訊處理系統230之間進行通訊。例如，網路220可根據安裝環境，可由如乙太網（Ethernet）、電力通訊（Power Line Communication）、電話線通訊裝置及RS-serial通訊等的有線網路、移動通訊網、無線局域網（WLAN，Wireless LAN）、Wi-Fi、藍牙（Bluetooth）及紫蜂（ZigBee）等的無線網路或其組合所構成。通訊方式並未限制，可包括網路220能夠包括的使用通訊網（作為一例，移動通訊網、有線網路、無線網路、廣播網、衛星網等）的通訊方式和使用者終端210_1、210_2、210_3之間的近距離通訊。

圖2中，手機終端210_1、平板電腦終端210_2及PC終端210_3作為使用者終端的示例來示出，但並不局限於此，使用者終端210_1、210_2、210_3可以為能夠進行有線和/或無線通訊且安裝有即時通訊應用等並執行的任意計算裝置。例如，使用者終端可包括智慧手機、手機、導航儀、電腦、筆記型電腦、數位廣播終端、個人數位助理（PDA，Personal Digital Assistants）、可擕式多媒體播放機（PMP，Portable Multimedia Player）、平板電腦、遊戲機（game console）、可穿戴設備（wearable device）、物聯網（IoT，internet of things）設備、虛擬實境（VR，virtual reality）設備、擴增實境（AR，augmented reality）設備等。並且，圖2中示出三個使用者終端210_1、210_2、210_3藉由網路220與資訊處理系統230進行通訊，但並不局限於此，也可以有不同數量的使用者終端藉由網路220與資訊處理系統230進行通訊。

在一實施例中，資訊處理系統230可從使用者終端210_1、210_2、210_3接收錄製使用者語音的語音數據。並且，資訊處理系統230可從使用者終端210_1、210_2、210_3接收對於多個角色中的一個的選擇。在此情況下，資訊處理系統230可藉由安裝於使用者終端210_1、210_2、210_3的即時通訊應用等接收對於語音數據及角色的選擇。之後，資訊處理系統230可從所接收的語音數據檢測使用者的感情狀態，以語音數據、使用者的感情狀態及所選擇的角色為基礎生成多媒體內容並向其他使用者傳輸所生成的多媒體內容。

圖3為示出本發明一實施例的使用者終端210及資訊處理系統230的內部結構的框圖。使用者終端210可以為能夠執行即時通訊應用等並且可進行有線/無線通訊的任意計算裝置，例如，可包括圖2的手機終端210_1、平板電腦終端210_2、PC終端210_3等。如圖所示，使用者終端210可包括記憶體312、處理器314、通訊模組316及輸入輸出介面318。與此類似地，資訊處理系統230可包括記憶體332、處理器334、通訊模組336及輸入輸出介面338。如圖3所示，使用者終端210及資訊處理系統230可被配置為利用各自的通訊模組316、336，藉由網路220進行資訊和/或數據的通訊。並且，輸入輸出裝置320可被配置為藉由輸入輸出介面318向使用者終端210輸入資訊和/或數據，或者輸出從使用者終端210生成的資訊和/或數據。

記憶體312、332可包括非暫時性任意電腦可讀記錄介質。根據一實施例，記憶體312、332可包括如隨機存取記憶體（RAM，random access memory）、唯讀記憶體（ROM，read only memory）、硬碟驅動器、固態硬碟（SSD，solid state drive）、快閃記憶體（flash memory）等的永久性儲存大容量裝置（permanent mass storage device）。作為另一例，如唯讀記憶體、固態硬碟、快閃記憶體、硬碟驅動器等的永久性儲存大容量裝置作為與記憶體區分的額外的永久儲存裝置，可包括在使用者終端210或資訊處理系統230中。並且，記憶體312、332可儲存作業系統和至少一個程式碼（例如，用於安裝在使用者終端210並驅動的即時通訊應用等的代碼）。

這種軟體結構要素可以從獨立於記憶體312、332的電腦可讀記錄介質載入。這種獨立的電腦可讀記錄介質可以包括能夠直接與使用者終端210及資訊處理系統230連接的記錄介質，例如，可包括軟碟機、磁片、磁帶、DVD/CD-ROM驅動器、儲存卡等的電腦可讀記錄介質。作為另一例，軟體結構要素可藉由通訊模組316、336載入到記憶體312、332，而並非藉由電腦可讀記錄介質。例如，至少一個程式可基於藉由由開發人員或分配應用安裝檔的檔案分配系統，並藉由網路220提供的檔案安裝的電腦程式（例如，提供即時通訊服務或基於感情的多媒體內容生成/提供服務的應用）來載入到記憶體312、332。

處理器314、334可執行基本的算術、邏輯及輸入輸出運算，藉此可以處理電腦程式的指令。指令可藉由記憶體312、332或通訊模組316、336向處理器314、334提供。例如，處理器314、334可被配置為根據儲存於如記憶體312、332的記錄裝置中的程式碼執行所接收的指令。

通訊模組316、336可藉由網路220提供用於讓使用者終端210與資訊處理系統230進行通訊的結構或功能，可以提供用於讓使用者終端210和/或資訊處理系統230與其他使用者終端或其他系統（作為一例，額外的雲端系統等）進行通訊的結構或功能。作為一例，使用者終端210的處理器314根據儲存於如記憶體312等的記錄介質中的程式碼生成的請求或數據（例如，對於錄製使用者的語音之語音數據、多個角色中的一個的選擇等）可根據通訊模組316的控制，藉由網路220向資訊處理系統230傳輸。相反，根據資訊處理系統230的處理器334的控制提供的控制訊號或指令可經過通訊模組336和網路220，藉由使用者終端210的通訊模組316向使用者終端210傳輸。例如，使用者終端210可從資訊處理系統230接收以使用者的感情狀態及所選擇的角色為基礎生成的多媒體內容。

輸入輸出介面318可以為用於與輸入輸出裝置320接合的單元。作為一例，輸入裝置可以包括具有音訊感測器和/或圖像感測器的攝像頭、鍵盤、麥克風、滑鼠等的裝置，輸出裝置可包括如顯示器、揚聲器、觸覺回饋裝置（haptic feedback device）等的裝置。作為另一例，輸入輸出介面318可以為用於與如觸控式螢幕等的用於執行輸入和輸出的結構或功能合併為一個的裝置接合的單元。

圖3中示出輸入輸出裝置320並不包括在使用者終端210中，但並不局限於此，輸入輸出裝置320可以與使用者終端210構成為一個裝置。並且，資訊處理系統230的輸入輸出介面338可以為用於與同一資訊處理系統230連接或者資訊處理系統230可包括的輸入/輸出裝置（未圖示）之間接合的單元。圖3中，輸入輸出介面318、338被圖示為與處理器314、334分開構成的要素，但並不局限於此，輸入輸出介面318、338可以被配置為包括在處理器314、334中。

使用者終端210及資訊處理系統230可包括比圖3的結構要素更多的結構要素。但是，無需明確示出大部分的習知技術的結構要素。在一實施例中，使用者終端210可包括上述輸入輸出裝置320中的至少一部分。並且，使用者終端210還可包括如收發器（transceiver）、全球定位系統（GPS，Global Positioning system）模組、攝像頭、各種感測器、數據庫等的其他結構要素。例如，在使用者終端210為智慧手機的情況下，可包括智慧手機通常所包括的結構要素，例如，加速度感測器、陀螺儀感測器、攝像頭模組、各種物理按鈕、利用觸控板的按鈕、輸入輸出埠、用於振動的振動器等的多種結構要素還可包括在使用者終端210中。

根據一實施例，使用者終端210的處理器314可以被配置為使提供包含基於感情的多媒體內容生成服務之即時通訊服務的即時通訊應用或網頁瀏覽器應用運行。在此情況下，與相應的應用有關的程式碼可載入於使用者終端210的記憶體312。在應用運行期間，使用者終端210的處理器314可藉由輸入輸出介面318接收從輸入輸出裝置320提供的資訊和/或數據，或者藉由通訊模組316從資訊處理系統230接收資訊和/或數據，處理器314可處理所接收的資訊和/或數據並將其儲存在記憶體312中。並且，這種資訊和/或數據可藉由通訊模組316向資訊處理系統230提供。

在即時通訊應用運行期間，處理器314可以接收藉由與輸入輸出介面318連接的觸控式螢幕、鍵盤、包括音訊感測器和/或圖像感測器的攝像頭、麥克風等的輸入裝置輸入或者選擇的語音數據、文字、圖像、影像等，將所接收的語音數據、文字、圖像和/或影像等儲存在記憶體312中或者藉由通訊模組316及網路220向資訊處理系統230提供。在一實施例中，處理器314藉由輸入裝置接收錄製使用者語音的語音數據及使用者對多個角色中的一個的選擇，可藉由網路220及通訊模組316向資訊處理系統230提供相應的數據/請求。

資訊處理系統230的處理器334可以被配置為管理、處理和/或儲存從多個使用者終端和/或多個外部系統接收的資訊和/或數據。在一實施例中，處理器334可儲存、處理及傳輸從使用者終端210接收的語音數據、對角色的選擇資訊等。例如，處理器334可從所接收的語音數據檢測使用者的感情狀態，以語音數據、使用者的感情狀態及所選擇的角色為基礎來生成多媒體內容。如上所述所生成的多媒體內容可藉由即時通訊應用等向其他使用者提供。

圖4為示出本發明一實施例的生成多媒體內容的例示的圖。使用者可藉由即時通訊應用上的聊天室向其他使用者傳輸基於感情的多媒體內容。在一實施例中，使用者可藉由第一操作410、第二操作420及第三操作430傳輸表示自己感情的基於感情的多媒體內容。

第一操作410表示在顯示器（例如，聊天室介面）上顯示可錄製使用者的語音的錄音圖式412。在一實施例中，使用者可藉由觸摸輸入等選擇顯示在顯示器上的錄音圖式412來接收用於錄製使用者的語音的介面。圖4中示出錄音圖式412顯示在消息輸入視窗的右側，但並不局限於此，錄音圖式412可顯示在聊天室介面上的任意位置。

第二操作420表示回應使用者選擇的錄音圖式412，在顯示器上顯示多個角色及錄音按鈕424。其中，多個角色可以為貼圖組中的一個貼圖。在另一例中，多個角色可以分別為圖像，且可以與特定主題有關。在一實施例中，使用者持有的所有角色可顯示在顯示器上。代替性地，在使用者持有的角色中，具有表現從使用者的語音數據檢測的使用者的感情狀態之卡通化的圖形物件的角色，可顯示在顯示器上。

使用者可藉由觸摸輸入等選擇錄音按鈕424來執行使用者的語音錄音。並且，使用者可藉由觸摸輸入等選擇顯示在顯示器上的多個角色中的一個來確定用於生成多媒體內容的角色。例如，使用者可藉由觸摸輸入等來選擇顯示在顯示器上的「巴尼」角色422，以將「巴尼」角色422確定為用於生成多媒體內容的角色。在此情況下，使用者可以先選擇角色之後執行語音錄音或者在完成語音錄音之後選擇角色。

在一實施例中，顯示在顯示器上的多個角色能夠以使用者的過去使用履歷為基礎排列並顯示。例如，可按使用者最近使用的順序排列多個角色並顯示。在再一例中，可按使用者的過去使用次數高的順序排列多個角色並顯示。在另一例中，可綜合考慮使用者的過去使用次數、過去使用日期等來排列多個角色並顯示。在還有一實施例中，在使用者選擇角色之前先執行語音錄音的情況下，與在語音錄音中檢測的感情狀態有關地按使用者最近使用的順序排列角色並顯示。

在另一實施例中，多個角色可以為對於與使用者的感情狀態有關的、其他使用者頻繁使用的多個角色的推薦。即，在使用者持有的角色中，由即時通訊應用的其他使用者頻繁使用的角色可顯示在顯示器上。例如，能夠以其他使用者過去使用次數、過去使用日期等為基礎排列多個角色並顯示。在另一實施例中，在使用者選擇角色之前先執行語音錄音的情況下，可根據與在語音錄音中檢測的感情狀態有關的、其他使用者頻繁使用的順序排列角色並顯示。

第三操作430表示在使用者藉由觸摸輸入等選擇錄音按鈕424的情況下，執行使用者的語音錄音的過程。在使用者執行語音錄音的情況下，可即時顯示語音的音訊、錄音時間等。在執行完所有語音錄音的情況下，使用者可藉由觸摸輸入等選擇顯示在顯示器上的錄音完成按鈕432來完成語音錄音。在使用者選擇錄音完成按鈕432的情況下，錄製使用者語音的語音數據可以向用於生成基於感情的多媒體內容的系統（資訊處理系統）傳輸。在此情況下，與使用者選擇的角色有關的資訊可一同向系統傳輸。

圖4中示出四個角色顯示在顯示器上，但並不局限於此，任意數量的角色可顯示在顯示器上。並且，在圖4中，選擇角色的輸入和選擇錄音按鈕424的輸入區分，但並不局限於此，在使用者選擇一個角色的情況下，還可以自動開始進行語音錄音。相反，在使用者選擇語音錄音按鈕424或錄音完成按鈕432的情況下，還可以自動選擇使用者或其他使用者對檢測的感情狀態最偏好的角色。

圖5為示出本發明一實施例的與角色500中所包含的多種感情狀態有關的卡通化的圖形物件510、520、530、540的例示圖。角色500可以與表現不同感情狀態的多個卡通化的圖形物件510、520、530、540有關。如圖所示，角色500可包含表現傷心（Sadness）的圖形物件510、表現開心（Happiness）的圖形物件520、表現生氣（Anger）的圖形物件530、表現平靜（Neutral）的圖形物件540等。追加地，角色500還可包含表現恐懼（Fear）的圖形物件、表現蔑視（Contempt）的圖形物件、表現厭惡（Disgust）的圖形物件、表現驚訝（Surprise）的圖形物件等。

卡通化的圖形物件510、520、530、540可包含表示角色500的動作的多個預設（preset）圖像或影像。例如，表現傷心的卡通化的圖形物件510可以包含角色500的外形（例如，視線方向、嘴型、身體動作等）逐漸改變的五個預設圖像510_1、510_2、510_3、510_4、510_5。在一實施例中，在利用表現傷心的圖形物件510來生成多媒體內容的情況下，相應的多媒體內容可以被配置為使圖形物件510中所包含的預設圖像510_1、510_2、510_3、510_4、510_5按照預先確定的時間間隔（例如，0.1秒鐘）反復播放，或者可以被配置為按照根據使用者的語音所確定的時間間隔播放。

圖5示出圖形物件510包含五個預設圖像510_1、510_2、510_3、510_4、510_5，但並不局限於此，各個圖形物件可包含不同數量的預設圖像。並且，在圖5中，預先確定播放預設圖像的順序，但並不局限於此，還可以以使用者的語音數據為基礎確定使用者的嘴型之後，以表示與所確定的嘴型類似的嘴型的方式播放預設圖像。

圖6為示出本發明一實施例的根據語音數據610的區間的圖形物件的動作的例示圖。使用者可向其他使用者傳輸以語音數據、從語音數據檢測的使用者的感情狀態、所選擇的角色為基礎生成的多媒體內容。例如，多媒體內容可藉由結合使用者的語音及與使用者的感情狀態有關的角色的卡通化的圖形物件而成。在此情況下，卡通化的圖形物件可以包含多個預設圖像或影像。

在一實施例中，錄製使用者語音的語音數據610可包含具有小於預先確定的閾值的訊號強度的區間T1、T3和具有預先確定的閾值以上的訊號強度的區間T2。即，語音數據610可分為包含規定音量以上的使用者的語音的區間以及不包含使用者的語音的區間。其中，預先確定的閾值為用於判斷是否包含使用者的語音的基準值，相同地適用於利用基於感情的多媒體內容生成服務的所有使用者或者對每個使用者不同地適用。

具有小於預先確定的閾值的訊號強度的區間T1、T3例如可以與從使用者按壓錄音按鈕後到執行語音錄音之前的區間、從使用者完成語音錄音後到按壓錄音完成按鈕之前的區間、使用者在錄音過程中不說話的區間等對應。並且，具有預先確定的閾值以上的訊號強度的區間T2例如可以為包含使用者的語音的區間。

在一實施例中，在具有小於預先確定的閾值的訊號強度的區間T1、T3中，多媒體內容所包含的卡通化的圖形物件可維持靜止狀態。例如，在具有小於預先確定的閾值的訊號強度的區間T1、T3中，可以持續顯示卡通化的圖形物件中所包含的一個預設圖像620_1。即，判斷為在語音數據610的區間T1、T3中不包含使用者的語音，從而在多媒體內容的區間T1、T3內，可以持續顯示卡通化的圖形物件中所包含的一個預設圖像620_1。

在一實施例中，在具有預先確定的閾值以上的訊號強度的區間T2中，可以播放多媒體內容中所包含的卡通化的圖形物件。例如，在區間T2中，物件中所包含的多個預設圖像620_1、620_2、620_3、620_4、620_5可以每隔預先確定的時間間隔反復顯示。即，判斷為在語音數據610的區間T2中包含使用者的語音，從而在多媒體內容的區間T2內，可以播放卡通化的圖形物件。

圖6中示出語音數據610包含一個具有預先確定的閾值以上的訊號強度的區間T2以及兩個具有小於預先確定的閾值的訊號強度的區間T1、T3，但並不局限於此。例如，語音數據可以包含任意數量的具有預先確定的閾值以上的訊號強度的區間和任意數量的具有小於預先確定的閾值的訊號強度的區間。藉由這種結構，基於感情的多媒體內容可生成為角色根據實際使用者的語音產生動作，因此可以向其他使用者直觀地表現使用者的感情狀態。

圖7為示出本發明一實施例的基於包含兩個感情狀態的語音數據700的區間的卡通化的圖形物件710_1、720_1的動作的例示圖。使用者可向其他使用者傳輸以語音數據700、從語音數據檢測的使用者的感情狀態、所選擇的角色為基礎生成的多媒體內容。在此情況下，使用者為了生成多媒體內容而可以向用於生成/提供多媒體內容的資訊處理系統傳輸錄製使用者語音的語音數據700及對角色的選擇資訊。

資訊處理系統可從接收的語音數據700檢測使用者的感情狀態。在一實施例中，資訊處理系統可藉由分析語音數據700的音訊特性來檢測使用者的感情狀態，藉此與語音和內容無關地檢測感情狀態。追加性地或代替性地，資訊處理系統可藉由語音辨識從語音數據700檢測字串，以所檢測的字串為基礎來檢測使用者的感情狀態。即，資訊處理系統可利用語音辨識技術（例如，語音轉文字（STT，Speech-To-Text）技術等）來將語音數據700中所包含的語音轉換成文字。之後，資訊處理系統可從轉換的文字檢測表示使用者的感情的單詞和/或字串等，能夠以所檢測的單詞和/或字串為基礎來檢測使用者的感情狀態。

在一實施例中，可在一個語音數據700的每個時間區間檢測兩個以上的感情狀態。在所示的例子中，語音數據700可以包含使用者的兩個不同的感情狀態，可包含與各個感情狀態有關的時間區間。例如，語音數據700可以包含與平靜的感情狀態有關的時間區間T1和與開心的感情狀態有關的時間區間T2。

資訊處理系統可藉由結合使用者選擇的角色的卡通化的圖形物件與語音數據700來生成多媒體內容。在一實施例中，在語音數據700包含與兩個感情狀態有關的區間T1、T2的情況下，資訊處理系統可以以播放與在各個區間中檢測的感情狀態有關的卡通化的圖形物件的方式生成多媒體內容。例如，資訊處理系統可以如下方式生成多媒體內容：在語音數據700中與平靜的感情狀態有關的時間區間T1內播放表現平靜的感情狀態的卡通化的圖形物件710_1，在與開心的感情狀態有關的時間區間T2內，播放表現開心的感情狀態的卡通化的圖形物件720_1。在此情況下，多媒體內容在時間區間T1內可一同播放卡通化的圖形物件710_1和語音數據700，在時間區間T2內一同播放卡通化的圖形物件720_1和語音數據700。

圖7中示出語音數據700包含與兩個感情狀態有關的區間，但並不局限於此，可以包含與兩個以上的感情狀態有關的區間。並且，圖7中示出存在與一個感情狀態有關的一個區間，但並不局限於此，也可以存在與一個感情狀態有關的相互隔開的兩個以上的區間。藉由這種結構，在一個語音數據700包含多個感情狀態的語音的情況下，使用者也可以生成有效反映自己的感情狀態的多媒體內容，並向其他使用者傳輸所生成的多媒體內容。

圖8為示出本發明一實施例的傳輸多媒體內容810、820的即時通訊應用上的聊天室介面800的例示圖。如圖所示，使用者可向其他使用者傳輸以錄製使用者語音的語音數據、從語音數據檢測的感情狀態及所選擇的角色為基礎生成的多媒體內容810、820。例如，所生成的多媒體內容810、820可藉由即時通訊應用上的聊天室向其他使用者傳輸。

在一實施例中，聊天室中所包含的使用者及其他使用者可藉由觸摸輸入等選擇藉由聊天室傳輸的多媒體內容810、820並播放。例如，若在聊天室中所包含的其他使用者選擇多媒體內容810、820，則輸出傳輸的多媒體內容810、820的使用者所錄製的語音，並使表現使用者的感情狀態的角色在顯示器上產生動作。多媒體內容810、820可以利用不同的角色來生成，並用於視覺表現使用者的不同感情狀態。

在一實施例中，使用者可藉由觸摸輸入等選擇分享按鈕812、822並向即時通訊應用上的其他聊天室/使用者分享藉由聊天室向其他使用者傳輸的多媒體內容810、820，或者可以向文字應用等的其他應用分享。從使用者接收多媒體內容810、820的其他使用者也可以利用類似的分享按鈕來向其他使用者分享多媒體內容810、820。

圖8中示出在聊天室中所包含的使用者藉由觸摸輸入等選擇多媒體內容810、820的情況下，播放相應多媒體內容810、820，但並不局限於此。例如，在聊天室的使用者進入到相應聊天室的情況下，可以自動播放多媒體內容810、820。在另一例中，在聊天室的使用者藉由滾動輸入等向過去傳輸的多媒體內容810、820的位置移動的情況下，可以自動播放多媒體內容810、820。

圖9為示出本發明一實施例的多媒體內容傳輸方法900的流程圖。多媒體內容傳輸方法900可藉由使用者終端（例如，使用者終端的至少一個處理器）執行。多媒體內容傳輸方法900可藉由由處理器接收錄製使用者語音的語音數據來開始（步驟S910）。例如，處理器可藉由安裝於使用者終端的即時通訊應用接收語音數據。

並且，處理器可在顯示器上顯示多個角色。之後，處理器可以從使用者接收對於多個角色中的一個的選擇（步驟S920）。其中，角色可以與表現不同感情狀態的多個卡通化的圖形物件有關。在一實施例中，多個角色可分別具有表現從語音數據檢測的使用者的感情狀態的卡通化的圖形物件。例如，多個角色能夠以使用者的過去使用履歷為基礎排列並顯示。追加性地或代替性地，多個角色可以為對於與使用者的感情狀態有關的、其他使用者頻繁使用的角色的推薦。

處理器可以向其他使用者傳輸以語音數據、從語音數據檢測的使用者的感情狀態及所選擇的角色為基礎生成的多媒體內容（步驟S930）。例如，多媒體內容可藉由即時通訊應用上的聊天室向其他使用者傳輸。其中，多媒體內容可包含語音數據和表現使用者的感情狀態的卡通化的圖形物件。在此情況下，能夠以使用者的感情狀態為基礎來確定多媒體內容內所包含的所選擇的角色的動作。

圖10為示出本發明一實施例的多媒體內容生成方法1000的流程圖。多媒體內容生成方法1000可藉由資訊處理系統（例如，資訊處理系統的至少一個處理器）執行。多媒體內容生成方法1000可由處理器從第一使用者終端接收錄製第一使用者語音的語音數據來開始（步驟S1010）。在此情況下，處理器可從所接收的語音數據檢測第一使用者的感情狀態（步驟S1020）。例如，處理器可藉由分析語音數據的音訊特性來檢測第一使用者的感情狀態，藉此與語音和內容無關地檢測感情狀態。追加性地或代替性地，處理器可藉由語音辨識從語音數據檢測字串或者以所檢測字串為基礎來檢測第一使用者的感情狀態。

並且，處理器可從第一使用者終端接收對於多個角色中的一個的選擇（步驟S1030）。例如，角色可以與表現不同感情狀態的多個卡通化的圖形物件有關。之後，處理器能夠以第一使用者的感情狀態及所選擇的角色為基礎生成多媒體內容（步驟S1040）。其中，多媒體內容可包含語音數據和表現第一使用者的感情狀態的卡通化的圖形物件。例如，處理器能夠以使用者的感情狀態為基礎來確定多媒體內容內所包含的所選擇角色的動作。接著，向第二使用者終端傳輸多媒體內容，且上述第二使用者終端與第二使用者有關，並上述第二使用者與第一使用者被包含在同一個聊天室（步驟S1050）。

上述方法可由為了在電腦中執行而儲存在電腦可讀記錄介質中的電腦程式來提供。介質可以是用於持續儲存電腦可執行程式的介質，或者是為了執行或下載而暫時儲存電腦可執行程式的介質。並且，介質可以為單個或多個硬體結合的形態的多種記錄單元或儲存單元，並不局限於與某種電腦系統直接連接的介質，可以在網路上分散存在。作為介質的例示，可包括如硬碟、軟碟、磁帶的磁介質、如CD-ROM及DVD的光記錄介質、如光磁軟碟（floptical disk）的磁光介質（magneto-optical medium）及唯讀記憶體、隨機存取記憶體、快閃記憶體等，並可以被配置為儲存程式指令。並且，作為其他介質的例示，還可以列舉由分發應用程式的應用商店、提供或分發其他多種軟體的網站以及伺服器等中管理的記錄介質或儲存介質。

本發明的方法、操作或技術手段可藉由多種裝置實現。例如，這種技術手段還可以藉由硬體、韌體、軟體或它們的組合來實現。本發明所屬技術領域的通常知識者可以理解與本發明的內容相關說明的多種例示性邏輯塊、模組、電路及演算法步驟可藉由電子硬體、電腦軟體或兩者的組合來實現。為了明確說明硬體及軟體的這種相互替代，多種例示性結構要素、塊、模組、電路及步驟在它們的功能性觀點上已在上面說明。至於這些功能是藉由硬體實現還是藉由軟體實現，則根據向特定應用及整體系統附加的設計要求事項確定。本發明所屬技術領域的通常知識者為了各個特定應用而可以多種方式實現所說明的功能，這些實現不能被解釋成超出本發明的範圍。

在硬體實現中，在執行技術手段的過程中所利用的處理單元可以在一個以上的特殊應用積體電路、數位訊號處理器、數位訊號處理設備（digital signal processing devices，DSPD）、可程式化邏輯裝置（programmable logic devices，PLD）、現場可程式化邏輯閘陣列（field programmable gate arrays，FPGA）、處理器、控制器、微控制器、微處理器、電子設備、以執行在本發明中說明的功能的方式設計的其他電子單元、電腦或它們的組合內實現。

因此，與本發明相關而說明的多種例示性邏輯塊、模組及電路可藉由通用處理器、數位訊號處理器、特殊應用積體電路、現場可程式化邏輯閘陣列或其他可程式化邏輯裝置、離散門或電晶體邏輯、離散硬體元件、或以執行在本發明中說明的功能的方式設計的任意組合來實現或執行。通用處理器可以為微處理器，代替性地，處理器可以為任意種類的處理器、控制器、微控制器或狀態機。處理器也可藉由計算設備的組合，例如，數位訊號處理器和微處理器、多個微處理器、與數位訊號處理器芯連接的一個以上微處理器或任意其他結構的組合來實現。

在韌體和/或軟體實現中，技術手段可以作為儲存在如隨機存取記憶體（random access memory；RAM）、唯讀記憶體（read-only memory；ROM）、非揮發性隨機存取記憶體（non-volatile random access memory；NVRAM）、可程式化唯讀記憶體（PROM，programmable read-only memory）、可擦除可規畫式唯讀記憶體（EPROM，erasable programmable read-only memory）、電子抹除式可複寫唯讀記憶體（EEPROM，electrically erasable PROM）、快閃記憶體、光碟（compact disc；CD）、磁或光數據存放裝置等的電腦可讀介質中的指令實現。指令可藉由一個以上的處理器執行，使處理器執行本發明中說明的功能的特定實施方式。

以上說明的實施例中記載了在一個以上的獨立型電腦系統中使用當前發明的主題的實施方式，但本發明並不局限於此，也可以與如網路或分散計算環境的任意計算環境相關地實現。即，在本發明中，主題的實施方式可以在多個處理芯或裝置中實現，在多個裝置中存放裝置可能會受到類似的影響。這種裝置也可包括個人電腦、網路服務器及可擕式裝置。

在本說明書中，與一部分實施例相關地說明了本發明，在不超出本發明所屬技術領域的通常知識者可以理解的本發明的範圍內可進行多種變形及變更。並且，應理解這些變形及變更也屬於所附申請專利範圍的保護範圍內。

110:使用者 112:語音 120:使用者終端 130:聊天室介面 132:多媒體內容 210:使用者終端 210_1:手機終端 210_2:平板電腦終端 210_3:PC終端 220:網路 230:資訊處理系統 312:記憶體 314:處理器 316:通訊模組 318:輸入輸出介面 320:輸入輸出裝置 332:記憶體 334:處理器 336:通訊模組 338:輸入輸出介面 410:第一操作 412:錄音圖式 420:第二操作 422:角色 424:錄音按鈕 430:第三操作 432:錄音完成按鈕 500:角色 510:圖形物件 510_1~510-5:預設圖像 520:圖形物件 530:圖形物件 540:圖形物件 610:語音數據 620_1~620-5:預設圖像 T1~T3:區間 700:語音數據 710_1:圖形物件 720_1:圖形物件 800:聊天室介面 810:多媒體內容 812:分享按鈕 820:多媒體內容 822:分享按鈕 900:多媒體內容傳輸方法 S910~S930:步驟 1000:多媒體內容生成方法 S1010~S1050:步驟

參照以下說明的圖式，對本發明的實施例進行說明，其中，類似的圖式標記表示類似的結構要素，但並不局限於此。圖1係示出本發明一實施例的藉由在使用者終端中運行的即時通訊應用提供基於感情的多媒體內容的例示的圖。圖2係示出為了提供本發明一實施例的基於感情的多媒體內容生成服務，資訊處理系統以可以與多個使用者終端進行通訊的方式連接的結構的簡圖。圖3係示出本發明一實施例的使用者終端及資訊處理系統的內部結構的框圖。圖4係示出本發明一實施例的生成多媒體內容的例示的圖。圖5係示出本發明一實施例的與角色中所包含的多種感情狀態有關的卡通化的圖形物件的例示圖。圖6係示出本發明一實施例的根據語音數據區間的圖形物件的動作的例示圖。圖7係示出本發明一實施例的根據包含兩個感情狀態的語音數據區間的卡通化的圖形物件的動作的例示圖。圖8係示出本發明一實施例的傳輸多媒體內容的即時通訊應用上的聊天室介面的例示圖。圖9係示出本發明一實施例的多媒體內容傳輸方法的流程圖。圖10係示出本發明一實施例的多媒體內容生成方法的流程圖。

110:使用者

112:語音

120:使用者終端

130:聊天室介面

132:多媒體內容

Claims

一種基於感情的多媒體內容生成方法，藉由使用者終端的至少一個處理器執行，其特徵在於，包括如下的步驟：接收錄製使用者語音的語音數據；從上述使用者接收對於多個角色中的一個的選擇；以及向其他使用者傳輸以上述語音數據、從上述語音數據檢測的上述使用者的感情狀態及所選擇的上述角色為基礎生成之多媒體內容。
根據請求項1所述的基於感情的多媒體內容生成方法，其中，所生成的上述多媒體內容藉由即時通訊應用上的聊天室向上述其他使用者傳輸。
根據請求項1所述的基於感情的多媒體內容生成方法，其中，所選擇的上述角色與表現不同感情狀態的多個卡通化的圖形物件有關，上述多媒體內容包含上述語音數據和表現上述使用者的感情狀態的卡通化的圖形物件。
根據請求項1所述的基於感情的多媒體內容生成方法，其中，以上述使用者的感情狀態為基礎，確定上述多媒體內容內所包含的所選擇的上述角色的動作。
根據請求項1所述的基於感情的多媒體內容生成方法，其中，上述語音數據包含：第一時間區間，具有小於預設閾值的訊號強度；以及第二時間區間，具有上述預設閾值以上的訊號強度，上述多媒體內容包含上述語音數據和表現上述使用者的感情狀態的卡通化的圖形物件，上述多媒體內容內的上述卡通化的圖形物件在上述第一時間區間內維持靜止狀態，在上述第二時間區間內播放。
根據請求項1所述的基於感情的多媒體內容生成方法，其中，上述語音數據包含與第一感情狀態有關的第一時間區間及與第二感情狀態有關的第二時間區間，所選擇的上述角色與表現上述第一感情狀態的第一卡通化的圖形物件及表現上述第二感情狀態的第二卡通化的圖形物件有關，上述多媒體內容在上述第一時間區間內一同播放上述第一卡通化的圖形物件和上述語音數據，在上述第二時間區間內一同播放上述第二卡通化的圖形物件和上述語音數據。
根據請求項1所述的基於感情的多媒體內容生成方法，其中，上述使用者的感情狀態以上述語音數據的音訊特性為基礎來檢測。
根據請求項1所述的基於感情的多媒體內容生成方法，其中，上述使用者的感情狀態以從上述語音數據檢測的字串為基礎來檢測。
根據請求項1所述的基於感情的多媒體內容生成方法，其中，還包括在顯示器上顯示多個上述角色的步驟，多個上述角色分別具有表現從上述語音數據檢測的上述使用者的感情狀態的卡通化的圖形物件。
根據請求項9所述的基於感情的多媒體內容生成方法，其中，多個上述角色以上述使用者的過去使用履歷為基礎排列並顯示。
根據請求項9所述的基於感情的多媒體內容生成方法，其中，多個上述角色為對於與上述使用者的感情狀態有關的、其他使用者頻繁使用之多個角色的推薦。
一種電腦可讀記錄介質，其特徵在於，記錄有用於在電腦中執行根據請求項1至11中任一項所述的方法的電腦程式。
一種資訊處理系統，其特徵在於，包括：通訊模組；記憶體；以及至少一個處理器，與上述記憶體連接並被配置為執行在上述記憶體中所包含的電腦可讀的至少一個程式，至少一個上述套裝程式係包含指令，上述指令用於執行以下的操作：從第一使用者終端接收錄製第一使用者的語音之語音數據，從所接收的上述語音數據檢測上述第一使用者的感情狀態，從上述第一使用者終端接收對於多個角色中的一個的選擇，以上述語音數據、上述第一使用者的感情狀態及所選擇的上述角色為基礎生成多媒體內容。
根據請求項13所述的資訊處理系統，其中，至少一個上述程式還包含用於向與第二使用者有關的第二使用者終端傳輸上述多媒體內容的指令，上述第二使用者與上述第一使用者包含在相同的即時通訊應用上的同一個聊天室中。
根據請求項13所述的資訊處理系統，其中，所選擇的上述角色與表現不同感情狀態的多個卡通化的圖形物件有關，上述多媒體內容包含上述語音數據和與上述第一使用者的感情狀態有關的卡通化的圖形物件。
根據請求項13所述的資訊處理系統，其中，以上述第一使用者的感情狀態為基礎，確定上述多媒體內容內所包含的所選擇的上述角色的動作。
根據請求項13所述的資訊處理系統，其中，上述語音數據包含：第一時間區間，具有小於預設閾值的訊號強度；以及第二時間區間，具有上述預設閾值以上的訊號強度，上述多媒體內容包含上述語音數據和與上述第一使用者的感情狀態有關的卡通化的圖形物件，上述多媒體內容內的上述卡通化的圖形物件在上述第一時間區間內維持靜止狀態，在上述第二時間區間內播放。
根據請求項13所述的資訊處理系統，其中，上述語音數據包含與第一感情狀態有關的第一時間區間及與第二感情狀態有關的第二時間區間，所選擇的上述角色與表現上述第一感情狀態的第一卡通化的圖形物件及表現上述第二感情狀態的第二卡通化的圖形物件有關，上述多媒體內容在上述第一時間區間內一同播放上述第一卡通化的圖形物件和上述語音數據，在上述第二時間區間內一同播放上述第二卡通化的圖形物件和上述語音數據。
根據請求項13所述的資訊處理系統，其中，從所接收的上述語音數據檢測上述第一使用者的感情狀態的操作包括如下檢測操作：藉由分析上述語音數據的音訊特性來檢測上述第一使用者的感情狀態，藉此與語言和內容無關地檢測感情狀態。
根據請求項13所述的資訊處理系統，其中，至少一個上述程式還包含用於藉由語音辨識從上述語音數據檢測字串的指令，上述第一使用者的感情狀態以所檢測的上述字串為基礎來檢測。