TWI732240B

TWI732240B - 視頻檔案的生成方法、裝置及儲存媒體

Info

Publication number: TWI732240B
Application number: TW108123648A
Authority: TW
Inventors: 王梓
Original assignee: 大陸商騰訊科技（深圳）有限公司
Priority date: 2018-07-10
Filing date: 2019-07-04
Publication date: 2021-07-01
Also published as: US20200396419A1; CN108924464A; US20210099674A1; WO2020010971A1; US10904482B2; TW202007142A; US11178358B2; CN108924464B

Abstract

本發明實施例公開了一種視頻檔案的生成方法、裝置及儲存媒體，該方法包括：當接收到模擬視頻通話請求時，啟動圖像採集裝置以即時採集使用者圖像，以及啟動視頻解碼控件解碼預定的素材視頻；同步獲取所述圖像採集裝置當前採集的使用者圖像幀和所述視頻解碼控件當前解碼的素材視頻圖像幀；將同步獲取的所述使用者圖像幀和所述素材視頻圖像幀進行合成以得到模擬視頻通話圖像幀；在模擬視頻通話窗口顯示所述模擬視頻通話圖像幀，以及根據得到的所有所述模擬視頻通話圖像幀生成關於模擬視頻通話過程的視頻檔案。

Description

視頻檔案的生成方法、裝置及儲存媒體

本發明涉及電子技術領域，具體涉及一種視頻檔案的生成方法、裝置及儲存媒體。

隨著網際網路技術的不斷發展，各種應用的功能越來越豐富，比如在一些應用中，可以提供模擬視頻通話的功能，該功能主要有模擬視頻通話階段和保存模擬視頻通話過程的視頻階段。其中在模擬視頻通話階段主要是播放一段預先錄製的素材視頻，並將攝影鏡頭即時獲取的使用者圖像一同顯示在該素材視頻的播放介面上，該播放介面也即模擬視頻通話介面，使用者可以根據素材視頻的播放內容進行語音回應，從而實現模擬視頻通話。該素材視頻例如可以是邀請明星做廣告宣傳或者公益宣傳等的視頻，由此不僅可以對產品進行廣告宣傳，還能夠使得使用者獲得與明星進行視頻通話的體驗，增加應用的趣味性，吸引更多追星使用者，有利於提高應用的熱度。

在模擬視頻通話完成後，通常會生成模擬視頻通話過程的視頻檔案，從而使用者可以保存該視頻檔案，通過觀看該視頻檔案以還原模擬視頻通話體驗。

在對現有技術的研究和實踐過程中，本發明的發明人發現，現有技術中，主要是在模擬視頻通話過程中利用攝影鏡頭錄製使用者視頻，在模擬視頻通話結束後，將相互獨立的使用者視頻和素材視頻進行合成而得到模擬視頻通話過程的視頻檔案，由於是對兩個獨立視頻進行合成，即合成對像是視頻，因而合成速度較慢，導致耗時較多，降低視頻檔案的生成效率。

本發明實施例提供一種視頻檔案的生成方法、裝置及儲存媒體，可以有效減少生成視頻檔案所需的時間，提高視頻檔案的生成效率。

本發明實施例提供一種視頻檔案的生成方法，包括：

當接收到模擬視頻通話請求時，啟動圖像採集裝置以即時採集使用者圖像，以及啟動視頻解碼控件解碼預定的素材視頻；

同步獲取所述圖像採集裝置當前採集的使用者圖像幀和所述視頻解碼控件當前解碼的素材視頻圖像幀；

將同步獲取的所述使用者圖像幀和所述素材視頻圖像幀進行合成以得到模擬視頻通話圖像幀；

在模擬視頻通話窗口顯示所述模擬視頻通話圖像幀，以及根據得到的所有所述模擬視頻通話圖像幀生成關於模擬視頻通話過程的視頻檔案。

本發明實施例還提供一種視頻檔案的生成裝置，包括：

啟動模組，用於當接收到模擬視頻通話請求時，啟動圖像採集裝置以即時採集使用者圖像，以及啟動視頻解碼控件解碼預定的素材視頻；

第一獲取模組，用於同步獲取所述圖像採集裝置當前採集的使用者圖像幀和所述視頻解碼控件當前解碼的素材視頻圖像幀；

合成模組，用於將同步獲取的所述使用者圖像幀和所述素材視頻圖像幀進行合成以得到模擬視頻通話圖像幀；

顯示和生成模組，用於在模擬視頻通話窗口顯示所述模擬視頻通話圖像幀，以及根據得到的所有所述模擬視頻通話圖像幀生成關於模擬視頻通話過程的視頻檔案。

其中，所述第一圖像位置為視頻通話窗口的顯示介面的右上角，所述第一圖像尺寸小於視頻通話窗口的顯示介面；

所述第二圖像位置為視頻通話窗口的顯示介面的任一位置，所述第二圖像尺寸為鋪滿視頻通話窗口的整個顯示介面。

其中，所述顯示和生成模組用於：

通過硬體合成的方式將所述畫面視頻和所述音頻音軌檔案進行合成；

當採用所述硬體合成的方式合成失敗時，通過軟體合成的方式將所述畫面視頻和所述音頻音軌檔案進行合成。

其中，還包括：預覽模組，用於在預覽窗口同步播放所述畫面視頻和所述音頻音軌檔案。

其中，還包括：分享模組，用於根據接收到的分享指令，將所述視頻檔案分享至社交網路。

本發明視頻圖像的處理方法中，同步獲取圖像採集裝置當前採集的使用者圖像幀和視頻解碼控件當前解碼的素材視頻圖像幀，然後將同步獲取的使用者圖像幀和素材視頻圖像幀進行合成，以得到模擬視頻通話圖像幀，之後在視頻通話窗口顯示模擬視頻通話圖像幀，由此可以實現模擬視頻通話，此外本方案的模擬視頻通話圖像幀是通過將使用者圖像幀和素材視頻圖像幀進行合成而得到，因此一模擬視頻通話圖像幀包含了使用者圖像幀和素材視頻圖像幀，因此只需根據模擬視頻通話圖像幀即可生成關於模擬視頻通話過程的視頻檔案，而不需要對兩個視頻進行合成，且與視頻合成相比，圖像的合成更快速，因此本方案可以有效減少生成視頻檔案所需的時間，提高視頻檔案的生成效率。

請參照圖式，其中相同的組件符號代表相同的組件，本發明的原理是以實施在一適當的運算環境中來舉例說明。以下的說明是基於所例示的本發明具體實施例，其不應被視為限制本發明未在此詳述的其它具體實施例。

在以下的說明中，本發明的具體實施例將參考由一部或多部電腦所執行的步驟及符號來說明，除非另有述明。因此，這些步驟及操作將有數次提到由電腦執行，本文所指的電腦執行包括了由代表了以一結構化型式中的資料的電子信號的電腦處理單元的操作。此操作轉換該資料或將其維持在該電腦的記憶體系統中的位置處，其可重新配置或另外以本領域測試人員所熟知的方式來改變該電腦的運作。該資料所維持的資料結構為該記憶體的實體位置，其具有由該資料格式所定義的特定特性。但是，本發明原理以上述文字來說明，其並不代表為一種限制，本領域測試人員將可瞭解到以下所述的多種步驟及操作亦可實施在硬體當中。

本文所使用的術語「模組」可看做為在該運算系統上執行的軟體對象。本文所述的不同組件、模組、引擎及服務可看做為在該運算系統上的實施對象。而本文所述的裝置及方法較佳的以軟體的方式進行實施，當然也可在硬體上進行實施，均在本發明保護範圍之內。

本發明實施例提供一種視頻檔案的生成方法、裝置及儲存媒體。

其中，視頻檔案的生成裝置可以整合在平板電腦、PC（個人電腦，Personal Computer）、手機等具備儲存單元並安裝有微處理器而具有運算能力的終端機中。

例如，如圖1所示，該視頻檔案的生成裝置具有至少一個圖像採集裝置，比如可以是終端的前置攝影鏡頭，該視頻檔案的生成裝置可以用於接收模擬視頻通話請求，該請求例如可以是使用者點擊網際網路應用的頁面上的模擬視頻通話請求按鈕來發出。根據該請求，啟動圖像採集裝置以即時採集使用者圖像，以及啟動視頻解碼控件解碼預定的素材視頻，然後同步獲取圖像採集裝置當前採集的使用者圖像幀和視頻解碼控件當前解碼的素材視頻圖像幀，然後將同步獲取的使用者圖像幀和素材視頻圖像幀進行合成以得到模擬視頻通話圖像幀，之後將該模擬視頻通話圖像幀顯示在模擬視頻通話窗口，從而可以實現模擬視頻通話，並且根據所得到的所有模擬視頻通話圖像幀生成關於模擬視頻通話過程的視頻檔案。由此，通過上述方式，本發明能夠減少視頻合成的時間，可以有效減少生成視頻檔案所需的時間，提高視頻檔案的生成效率。

在介紹本發明之前，先對本發明涉及的模擬視頻通話功能做一些簡單介紹。

本發明的模擬視頻通話即是指對視頻通話的模擬，並非是真實的通訊雙方之間的視頻通話，本發明主要是預先設定一素材視頻，該素材視頻的播放內容比如可以是明星打廣告或者做宣傳等，通過將該素材視頻在模擬視頻通話窗口中播放，並利用前置攝影鏡頭即時採集使用者圖像，將採集的使用者圖像也在模擬視頻通話窗口中顯示，從而使用者可以在模擬視頻通話窗口上看到明星素材視頻中的圖像以及使用者自己的圖像，從而模擬視頻通話的通話畫面，以實現模擬視頻通話。素材視頻中的內容具體比如可以是：明星面對著屏幕說“你好，我是XXX”、“拍照，我選擇**手機”等等之類的內容，當在播放至這些內容時，使用者也可以回應說“你好，我是XXX”，等等，從而模擬和明星進行視頻通話，可以提高網際網路應用的趣味性，並且還能達到廣告宣傳作用。

本發明實施例的模擬視頻通話功能可以應用於各種網際網路應中，比如即時通訊應用、朋友圈、微博、QQ空間、社交論壇等等，從而使得網際網路應用可以實現模擬視頻通話的功能。例如，可以在QQ空間的頁面上設置一個使用者介面，比如一個名稱為“體驗和XXX明星視頻通話”的按鍵，使用者可以通過點擊該按鍵來發出模擬視頻通話的請求，以進行模擬視頻通話。

以下分別進行詳細介紹。

第一實施例

本實施例將以終端的角度進行描述。參閱圖2，本實施例的視頻圖像的合成方法中，可以包括如下步驟：

步驟201、當接收到模擬視頻通話請求時，啟動圖像採集裝置以即時採集使用者圖像，以及啟動視頻解碼控件解碼預定的素材視頻。

其中，圖像採集裝置比如可以是攝影鏡頭，如終端的前置攝影鏡頭。

例如，可以在網際網路應用的頁面上設置一個使用者介面，比如一個名稱為“體驗和XXX明星視頻通話”的按鍵，使用者可以通過點擊該按鍵來發出模擬視頻通話的請求，以根據該請求進行模擬視頻通話。

進一步地，如圖3所示，為了使得使用者獲得更真實的視頻通話體驗，該“體驗和XXX明星視頻通話”的按鍵可以是一個模擬來電的按鍵，使用者在點擊該按鍵後，可以顯示模擬視頻通話窗口，該模擬視頻通話窗口的大小可以和屏幕大小一致。此時，在模擬視頻通話窗口的顯示介面上可以顯示“接聽”的按鍵，另外還可以在顯示介面上顯示“XXX正在給你撥打視頻電話”、或者頭像等模擬視頻通話對方的資訊，此外，還可以在該顯示介面上提供是否打開揚聲器的按鍵，使用者可以通過揚聲器按鍵選擇使用揚聲器播放聲音或者使用聽筒播放聲音，以此來模擬真實來電介面。

當使用者點擊“接聽”按鍵後，則為發出模擬視頻通話請求，從而根據該請求啟動圖像採集裝置例如攝影鏡頭以即時採集使用者圖像，以及啟動視頻解碼控件解碼預定的素材視頻。其中，視頻解碼控件例如為視頻播放器中的解碼器，即接收到模擬視頻通話請求時，啟動視頻播放器播放素材視頻，從而對素材視頻進行解碼，獲得一幀幀的素材視頻圖像。需要說明的是，在本步驟中，啟動視頻播放器播放素材視頻並非是指將素材視頻在屏幕上顯示播放，而是指對素材視頻的解碼過程，以獲取解碼的素材視頻圖像。

其中，素材視頻為預先錄製的視頻，比如為了使使用者可以模擬和明星視頻通話，可以預先錄製一段明星的視頻，以獲得素材視頻。

在一種實施例中，可以提供使用者可選的多種素材視頻，多種素材視頻存放在素材庫中，多種素材視頻比如可以是事先錄製的不同明星的視頻，使用者可以選擇自己喜歡的明星進行模擬視頻通話。譬如，當使用者點擊“體驗和XXX明星視頻通話”的按鍵之後，可以顯示多種素材視頻供使用者選擇，當使用者選擇了其中一種素材視頻之後，顯示如圖3所示的“接聽”介面，以通過該介面發起模擬視頻通話請求。此外，素材庫中的素材視頻的種類可以是多種多樣，比如可以是關於節日的素材視頻，或者關於各個城市的素材視頻，等等，素材視頻的選擇也可以是根據當前時間或使用者當前所處的地點進行自動選擇。比如，當使用者發起模擬視頻通話請求後，可以獲取當前時間，並根據當前時間判斷當前時間所屬的節日，或者在距離當前時間一段時間內最近的節日，然後選擇與該節日相關的素材視頻作為預定的素材視頻；又或者，當使用者發起模擬視頻通話請求後，可以獲取使用者當前所處的位置，然後選取與使用者所處的位置相關的素材視頻作為預定的素材視頻。

步驟202、同步獲取圖像採集裝置當前採集的使用者圖像幀和視頻解碼控件當前解碼的素材視頻圖像幀。

當前採集的使用者圖像幀也即當前採集的一幀使用者圖像，當前解碼的素材視頻圖像幀也即當前解碼的一幀素材視頻圖像。

其中，在攝影鏡頭即時採集使用者圖像時，視頻解碼控件也在逐幀解碼素材視頻。當攝影鏡頭採集到一幀使用者圖像時，獲取該幀使用者圖像，並且同步獲取視頻解碼控件當前解碼的一幀素材視頻圖像。進一步而言，可以是在檢測到攝影鏡頭獲取的使用者圖像幀產生更新時，在獲取該更新後的使用者圖像幀時，同步獲取視頻解碼控件當前解碼的素材視頻圖像幀，從而實現圖像的同步獲取。

步驟203、將同步獲取的使用者圖像幀和素材視頻圖像幀進行合成以得到模擬視頻通話圖像幀。

本實施例中，每同步獲取一使用者圖像幀和一素材視頻圖像幀，則將該同步獲取的使用者圖像幀和素材視頻圖像幀進行合成，從而得到一模擬視頻通話圖像幀，具體可以包括如下步驟：

（11）獲取使用者圖像幀的紋理資料和素材視頻圖像幀的紋理資料。

紋理資料可以反應圖像表面的花紋或圖案等，包括圖像的顏色、亮度等資訊。

其中，獲取攝影鏡頭當前採集的一使用者圖像幀後，獲取該當前使用者圖像幀的紋理資料，並同步獲取視頻解碼控件當前解碼的一素材視頻圖像幀，並獲取該當前素材視頻圖像幀的紋理資料。

（12）根據第一渲染參數對使用者圖像幀的紋理資料進行渲染，得到渲染後的使用者圖像幀，第一渲染參數包括第一圖像位置和第一圖像尺寸。

（13）根據第二渲染參數對素材視頻圖像幀的紋理資料進行渲染，得到渲染後的素材視頻圖像幀，第二渲染參數包括第二圖像位置和第二圖像尺寸。

（14）將渲染後的使用者圖像幀合成至渲染後的素材視頻圖像幀中，得到模擬視頻通話圖像。

渲染參數是對紋理資料進行渲染的規則，規定了渲染後得到的圖像所顯示的位置和尺寸大小，其中第一渲染參數和第二渲染參數可以根據實際需要進行設置。

在一種實施例中，第一圖像位置例如可以是視頻通話窗口的顯示介面的右上角，第二圖像尺寸例如可以是小於視頻通話窗口的顯示介面，具體可以是1/6或者1/4等，也就是待渲染後的使用者圖像幀將在視頻通話窗口的顯示介面的右上角顯示，其尺寸為該顯示圖像的1/6或者1/4等。第二圖像位置比如可以是視頻同窗口的顯示介面的任一位置，比如顯示介面的中間位置，第二圖像尺寸為視頻通話窗口的整個顯示介面，即待渲染後的素材視頻圖像幀鋪滿視頻通話窗口的整個顯示介面，可以理解為該顯示介面的背景圖。

其中，步驟（14）中，將渲染後的使用者圖像幀合成至素材視頻圖像幀中，即，將渲染後的使用者圖像幀疊加在渲染後的素材視頻圖像幀上，例如將渲染後的使用者圖像幀放置在素材視頻圖像幀的右上角的位置，渲染後的使用者圖像幀的大小占素材視頻圖像幀的1/6或1/4等，而素材視頻圖像幀為鋪滿模擬視頻通話窗口的整個顯示介面。因此，得到的模擬視頻通話圖像的大小為模擬視頻通話窗口的顯示介面的大小。

步驟204、在模擬視頻通話窗口顯示模擬視頻通話圖像幀，以及根據得到的所有模擬視頻通話圖像幀生成關於模擬視頻通話過程的視頻檔案。

其中，每得到一模擬視頻通話圖像幀，則將得到的模擬視頻通話圖像幀進行顯示，由此可以在模擬視頻通話窗口中逐幀顯示模擬視頻通話圖像，從而實現模擬視頻通話。在模擬視頻通話窗口逐幀顯示模擬視頻通話圖像的過程也即使用視頻播放器在模擬視頻通話窗口播放模擬視頻通話圖像的過程。

如圖4所示，本實施例中，在模擬視頻通話窗口逐幀顯示模擬視頻通話圖像。其中，顯示模擬視頻通話圖像的過程中，模擬視頻通話窗口上還可以顯示“掛斷”的按鍵，該“掛斷”按鍵例如為圖4中所示的中間圖標，當使用者點擊該“掛斷”按鍵時，則結束模擬視頻通話；還可以顯示麥克風打開或關閉的開關按鍵，即圖4所示的左邊圖標；還可以顯示對圖像加特效的按鍵，即圖4所示的右邊圖標。因此，在本實施例中，可以通過點擊特效圖標，對當前顯示的模擬視頻通話圖像加特效或濾鏡等。此外，還可以在模擬視頻通話窗口中顯示“XXX，與你的通話時間還剩下XX:XX”等資訊，比如，可以通過獲取素材視頻中未解碼的視頻時長來獲取剩餘通話時間。通過上述方式，可以模擬真實視頻通話的介面，使使用者獲得更真實的視頻通話體驗，提高應用的趣味性。

此外，當模擬視頻通話結束後，根據所得到的所有模擬視頻通話圖像幀生成關於模擬視頻通話過程的視頻檔案。該視頻檔案是對模擬視頻通話過程的視頻回放。

本實施例中，當接收到模擬視頻通話請求後，啟動語音輸入裝置，並通過語音輸入裝置獲取第一語音資訊。該第一語音資訊包括使用者輸入的語音資訊，該語音輸入裝置例如為終端自帶的麥克風。此外，在模擬視頻通話窗口顯示模擬視頻通話圖像幀時，還獲取模擬視頻通話窗口當前播放的素材視頻的語音資訊，以獲取第二語音資訊，其中該第二語音資訊也即包含在當前顯示的模擬視頻通話圖像幀中的素材視頻圖像幀所對應的語音資訊，由此根據第一語音資訊和第二語音資訊，確定模擬視頻通話圖像幀對應的語音資訊。因此，在每合成得到一模擬視頻通話圖像幀後，在將模擬視頻通話圖像幀進行顯示時，可以根據當前收到的第一語音資訊和獲取的第二語音資訊確定當前顯示的模擬視頻通話圖像幀對應的語音資訊。其中，在顯示模擬視頻通話圖像幀時，也同步播放包含在當前顯示的模擬視頻通話圖像幀中的素材視頻圖像幀所對應的語音。

其中，使用者可以手動結束模擬視頻通話，或者也可以是在素材視頻的播放時間到達時自動結束模擬視頻通話。例如，當使用者點擊如圖4所示的“掛斷”按鍵以結束模擬視頻通話後，即接收到完成模擬視頻通話的指令，此時可以彈出對話框詢問使用者是否保存模擬視頻通話過程的視頻檔案，當使用者選擇保存時，則根據使用者的保存指令，生成該視頻檔案。或者，在其他實施方式中，也可以是在接收到結束模擬視頻通話的指令時直接生成模擬視頻通話過程的視頻檔案。

在一種實施方式中，生成該視頻檔案例如可以包括：每合成得到一模擬視頻通話圖像幀，則對該模擬視頻通話圖像幀進行視頻編碼，以得到模擬視頻通話圖像幀對應的視頻幀；當接收到使用者的保存指令時，根據所有視頻幀生成畫面視頻，以及根據所有視頻幀各自對應的語音資訊生成音頻音軌檔案；將畫面視頻和音頻音軌檔案進行合成以得到模擬視頻通話過程的視頻檔案。其中各視頻幀對應的語音資訊也即各視頻幀對應的模擬視頻通話圖像幀所對應的語音資訊。

此種方式中，顯示模擬視頻通話圖像幀和對模擬視頻通話圖像幀進行視頻編碼是同步進行，即在將使用者圖像幀和素材視頻圖像幀進行合成得到一模擬視頻通話圖像幀後，將該模擬視頻通話圖像幀在模擬視頻通話窗口進行顯示，並將該模擬視頻通話圖像幀送入視頻編碼器進行視頻編碼，以轉換成視頻幀並儲存，而不是在模擬視頻通話結束後再對所有模擬視頻通話圖像幀逐一進行編碼，由此可以進一步減少生成視頻檔案所需的時間。

當然，在另一種實施方式中，生成該視頻檔案比如可以包括：當接收到使用者的保存指令時，對得到的所有模擬視頻通話圖像幀依次進行視頻編碼，以得到每一模擬視頻通話圖像幀對應的視頻幀；根據每一模擬視頻通話圖像幀對應的語音資訊，確定相應視頻幀所對應的語音資訊；根據得到的所有視頻幀生成畫面視頻，以及根據所有視頻幀各自對應的語音資訊生成音頻音軌檔案；將畫面視頻和音頻音軌檔案進行合成以得到關於模擬視頻通話過程的視頻檔案。

此種方式中，是在模擬視頻通話結束後，再將所有模擬視頻通話圖像幀逐一進行編碼，由此可以減少模擬視頻通話過程的記憶體消耗，有利於提高模擬視頻通話過程的流暢性。

其中本發明實施例中，可以採用系統硬體的方式將畫面視頻和音頻音軌檔案進行合成，通過使用系統硬體合成該畫面視頻和音頻音軌檔案，可以提高合成速度，具有更好的穩定性能。當硬體合成方式失敗時，可以使用第三方合成軟體進行合成，比如採用ffmpeg音視頻編解碼軟體將畫面視頻和音頻音軌檔案進行合成。

本發明實施例中，通過同步獲取圖像採集裝置當前採集的使用者圖像幀和視頻解碼控件當前解碼的素材視頻圖像幀，然後將使用者圖像幀和素材視頻圖像幀進行合成後，再在模擬視頻通話窗口顯示合成得到的模擬視頻通話圖像幀，由此可以實現模擬視頻通話，可以提高應用的趣味性，有利於吸引更多使用者，並且利用素材視頻還可以進行廣告宣傳等。

此外，本發明實施例是先對使用者圖像幀和素材視頻圖像幀進行合成，從而可以直接根據合成得到的模擬視頻通話圖像幀生成關於模擬視頻通話過程的視頻檔案，即只需對模擬視頻通話圖像幀進行視頻編碼即可，且本發明實施例中涉及的圖像之間的合成、畫面視頻和音頻音軌檔案的合成，相比兩個視頻之間的合成更為簡單快速，因此與現有通過將兩個獨立視頻進行合成方式相比，本發明實施例可以更快速地生成視頻檔案，能夠減少視頻檔案的生成時間，提高視頻檔案的生成效率。另外，在本發明實施例中，可以一邊進行模擬視頻通話（也即顯示模擬視頻通話圖像幀），一邊對模擬視頻通話圖像幀進行視頻編碼以生成視頻檔案，可以進一步減少生成視頻檔案所需的時間。

為了使得模擬視頻通話更逼真，使用者可以在聽到模擬視頻通話窗口播放的素材視頻的語音時，予以應答，比如，素材視頻的語音為“hello，我是XXX”，使用者可以通過麥克風進行語音應答，如可以說“hi你好，很高興見到你”，等等。此外，為了增加與使用者的互動性，通過語音輸入裝置獲取第一語音資訊之後，還可以包括：對第一語音資訊進行識別，得到識別結果；根據識別結果獲取與第一語音資訊相匹配的應答內容，以獲取第三語音資訊，並播放第三語音資訊。其中，可以預先儲存多種語音資訊以及對應的應答內容，例如，語音資訊為“你使用的是什麼手機”，對應的應答內容可以是“我正在使用**拍照手機與您進行視頻通話”，等等。通過對使用者輸入的第一語音資訊進行語音識別，以識別使用者的講話內容，然後根據識別的結果查詢對應的應答內容，從而獲得第三語音資訊，並播放該第三語音資訊。其中根據所述第一語音資訊和所述第二語音資訊，確定模擬視頻通話圖像幀對應的語音資訊，包括：根據第一語音資訊、第二語音資訊和第三語音資訊確定模擬視頻通話圖像幀對應的語音資訊。

其中，如圖5所示，在本發明另一實施例中，在將畫面視頻和音頻音軌檔案進行合成之前，還包括：在預覽窗口同步播放畫面視頻和音頻音軌檔案，由此使用者可以預覽關於模擬視頻通話過程的視頻檔案。

具體地，當使用者點擊如圖4所示的“掛斷”按鍵以結束模擬視頻通話後，根據所有視頻幀生成畫面視頻以及根據各視頻幀各自對應的語音資訊生成音頻音軌檔案後，可以顯示如圖5所示的預覽窗口，即自動跳轉到該預覽窗口，並且可以自動同步播放畫面視頻和音頻音軌檔案，以播放關於模擬視頻通話過程的視頻檔案的預覽，使用者也可以手動停止播放預覽。其中，在該預覽窗口設置有保存、編輯、分享、重新錄製等按鍵，點擊某一按鍵則會觸發相應的事件，以實現相應的功能。其中，當使用者點擊保存按鍵時，根據使用者的保存指令，將畫面視頻和音頻音軌檔案進行合成，以生成關於模擬視頻通話過程的視頻檔案，並儲存該視頻檔案。當使用者點擊編輯按鍵時，可以將畫面視頻和音頻音軌檔案進行合成以生成視頻檔案，並跳轉至視頻編輯介面，從而使用者可以對該視頻檔案進行編輯，比如對視頻檔案中的視頻畫面增加濾鏡等效果。當使用者點擊分享按鍵時，可以將畫面視頻和音頻音軌檔案進行合成以生成視頻檔案，並彈出各種社交網路，例如QQ、微信或微博等，使用者可以選擇其中一個或多個社交網路進行分享，從而根據使用者的分享指令將該視頻檔案分享至使用者所選擇的社交網路。

比如，以QQ空間或朋友圈為例，當使用者選擇“分享”時，可以直接跳轉至QQ空間的說說發表頁面或者朋友圈的發表頁面，使用者可以在此頁面編輯如“我和XXX視頻通話了”、或者“XXX給我打電話了”等文字資訊，然後將視頻檔案和文字一同發表在QQ空間或朋友圈。當然，還可以是自動生成上述文字資訊，即當跳轉至QQ空間的說說發表頁面時，可以在文字編輯欄中生成上述文字資訊，使用者可以對該文字資訊進行修改、刪除等操作。或者，當使用者點擊分享按鍵之後，可以直接將視頻檔案發表出去，並自動生成相關文字資訊進行發表。

通過提供使用者將關於模擬視頻通話過程的視頻檔案進行分享的功能，使得使用者可以將視頻檔案分享出去，從而引起二次傳播分享熱點，使得素材視頻中的廣告宣傳得到更好的傳播，不僅提高趣味性，還可以吸引更多的使用者。此外，本實施例在預覽階段，只需要一個視頻播放器播放畫面視頻即可，與現有需要兩個視頻播放器分別播放素材視頻和使用者視頻的方式相比，可以減少預覽階段所佔用的記憶體資源，從而對終端的硬體要求更低，能夠更好地支持中低端型終端，具有較好的穩定性和擴展性。

第二實施例

本實施例將以終端的角度進行描述，其中圖像採集裝置以攝影鏡頭為例進行說明。本實施例中，在視頻檔案的生成過程中，通過OpenGL渲染將素材視頻圖像幀和使用者圖像幀合成在一起。OpenGL(Open Graphics Library，開放式圖形庫)是定義了一個跨編程語言、跨平臺的編程介面規格的專業的圖形程式介面，主要用於三維圖像、二維圖像的繪製，是一個功能強大、調用方便的底層圖像庫。

參閱圖6，本實施例的視頻檔案的生成方法中，包括如下步驟：

步驟601、初始化視頻播放器和攝影鏡頭，以分別對視頻播放器和攝影鏡頭綁定一個surfaceTexture對象，並初始化視頻編碼組件（MediaCodec）實例。

其中，surfaceTexture可以用來捕獲視頻流中的圖像幀，視頻流可以是相機圖像或者視頻解碼資料，也即解碼的視頻幀圖片。通過對視頻播放器綁定surfaceTexture對象，可以獲取解碼的素材視頻的素材視頻圖像幀，通過對圖像採集裝置比如攝影鏡頭綁定surfaceTexture對象，可以獲取攝影鏡頭採集的使用者圖像幀。

步驟602、當檢測到攝影鏡頭採集的使用者圖像幀更新時，同步更新視頻播放器綁定的surfaceTexture對象所獲取的素材視頻圖像幀和攝影鏡頭綁定的surfaceTexture對象所獲取的使用者圖像幀。

通過步驟602，可以獲取攝影鏡頭採集的使用者圖像幀，並在獲取一使用者圖像幀時，同步獲取視頻解碼控件當前解碼的素材視頻圖像幀。其中，當攝影鏡頭採集的使用者圖像幀更新時，通過攝影鏡頭綁定的surfaceTexture對象獲取更新後的使用者圖像幀，以及同步獲取視頻解碼控件當前解碼的素材視頻圖像幀，從而同步更新視頻播放器綁定的surfaceTexture對象所獲取的素材視頻圖像幀和攝影鏡頭綁定的surfaceTexture對象所獲取的使用者圖像幀，以實現圖像同步。

步驟603、通過攝影鏡頭綁定的surfaceTexture對象獲取使用者圖像幀的紋理資料，並通過OpenGL的著色器（Shader）根據第一渲染參數對使用者圖像幀的紋理資料進行渲染，得到渲染後的使用者圖像幀，以及通過視頻播放器綁定的surfaceTexture對象獲取素材視頻圖像幀的紋理資料，並通過OpenGL Shader根據第二渲染參數對素材視頻圖像幀的紋理資料進行渲染，得到渲染後的素材視頻圖像幀。

具體地，同步更新視頻播放器綁定的surfaceTexture對象所獲取的素材視頻和攝影鏡頭綁定的surfaceTexture對象所獲取的使用者圖像後，獲取更新後的使用者圖像的紋理資料，以及更新後的素材視頻光滑面的紋理資料。

其中，可以將渲染後的使用者圖像幀和素材視頻圖像幀緩存在幀緩存區（FBO，Frame Buffer Object）中，比如在FBO1中緩存渲染的使用者圖像幀，在FBO2緩存渲染的素材視頻圖像幀。

其中，第一渲染參數包括第一圖像位置和第一圖像尺寸，第二渲染參數包括第二圖像位置和第二圖像尺寸。第一圖像位置例如可以是視頻通話窗口的顯示介面的右上角，第二圖像尺寸例如可以是小於視頻通話窗口的顯示介面，具體可以是1/6或者1/4等，也就是待渲染後的使用者圖像將在視頻通話窗口的顯示介面的右上角顯示，其尺寸為該顯示圖像的1/6或者1/4等。第二圖像位置比如可以是視頻同窗口的顯示介面的任一位置，比如顯示介面的中間位置，第二圖像尺寸為視頻通話窗口的整個顯示介面，即待渲染後的素材視頻圖像鋪滿視頻通話窗口的整個顯示介面，可以理解為該顯示介面的背景圖。

步驟604、將渲染後的使用者圖像幀和渲染後的素材視頻圖像幀進行合成，得到模擬視頻通話圖像幀。

其中，將渲染後的使用者圖像幀疊加在渲染後的素材視頻圖像幀上，以對使用者圖像幀和素材視頻圖像幀進行合成。進一步而言，通過將渲染後的使用者圖像幀的紋理資料疊加在渲染後的素材視頻圖像幀的紋理資料上，並將疊加後的紋理資料緩存在FBO3中，通過將FBO3的紋理資料渲染在GLsurfaceView上，從而得到一模擬視頻通話圖像幀。

步驟605、在模擬視頻通話窗口顯示模擬視頻通話圖像幀，並根據得到的所有模擬視頻通話圖像幀生成關於模擬視頻通話過程的視頻檔案。

其中，在將模擬視頻通話圖像幀進行顯示時，視頻編碼組件實例可以是同步獲取FBO3中緩存的紋理資料，以獲取模擬視頻通話圖像幀，然後通過OpenGL Shader將該紋理資料渲染到視頻編碼組件綁定的surfaceView上，從而視頻編碼組件以任務隊列的形式從surfaceView獲取模擬視頻通話圖像幀，然後進行視頻編碼以獲取相應的視頻幀，以生成視頻檔案。

相比于將素材視頻和攝影鏡頭獲取的使用者視頻進行合成以生成視頻檔案的方式相比，本發明實施例不需要合成兩個獨立視頻，只需對一幀幀模擬視頻通話圖像進行視頻編碼即可，可以極大減少視頻生成所需的時間，提高視頻生成的效率。

第三實施例

本實施例提供一種視頻檔案的生成裝置，該裝置例如可以整合在手機等終端中。參閱圖7，該模擬視頻通話的裝置包括啟動模組701、第一獲取模組702、合成模組703以及顯示和生成模組704。

（1）啟動模組701；

啟動模組701用於當接收到模擬視頻通話請求時，啟動圖像採集裝置以即時採集使用者圖像，以及啟動視頻解碼控件解碼預定的素材視頻。

圖像採集裝置例如可以是終端的攝影鏡頭，比如前置攝影鏡頭。

其中，視頻解碼控件例如為視頻播放器中的解碼器，即接收到模擬視頻通話請求時，啟動視頻播放器播放素材視頻，從而對素材視頻進行解碼，獲得一幀幀的素材視頻圖像。需要說明的是，啟動視頻播放器播放素材視頻並非是指將素材視頻在屏幕上顯示播放，而是指對素材視頻的解碼過程，以獲取解碼的素材視頻圖像。

（2）第一獲取模組702；

第一獲取模組702用於同步獲取圖像採集裝置當前採集的使用者圖像幀和視頻解碼控件當前解碼的素材視頻圖像幀。

（3）合成模組703；

合成模組703用於將同步獲取的使用者圖像幀和素材視頻圖像幀進行合成以得到模擬視頻通話圖像幀。具體地，合成模組703可以用於獲取使用者圖像幀的紋理資料和素材視頻圖像幀的紋理資料，然後根據第一渲染參數對使用者圖像幀的紋理資料進行渲染，得到渲染後的使用者圖像幀，第一渲染參數包括第一圖像位置和第一圖像尺寸，根據第二渲染參數對素材視頻圖像幀的紋理資料進行渲染，得到渲染後的素材視頻圖像幀，第二渲染參數包括第二圖像位置和第二圖像尺寸。之後將渲染後的使用者圖像幀和渲染後的素材視頻圖像幀進行合成，得到模擬視頻通話圖像幀。

其中，將渲染後的使用者圖像幀合成至素材視頻圖像幀中，即，將渲染後的使用者圖像幀疊加在渲染後的素材視頻圖像幀上，例如將渲染後的使用者圖像幀放置在素材視頻圖像幀的右上角的位置，渲染後的使用者圖像幀的大小占素材視頻圖像幀的1/6或1/4等，而素材視頻圖像幀為鋪滿模擬視頻通話窗口的整個顯示介面。因此，得到的模擬視頻通話圖像的大小為模擬視頻通話窗口的顯示介面的大小。

（4）顯示和生成模組704；

顯示和生成模組704用於在視頻通話窗口顯示模擬視頻通話圖像，以及根據得到的所有模擬視頻通話圖像幀生成關於模擬視頻通話過程的視頻檔案。

其中，顯示和生成模組704具體可以用於每得到一模擬視頻圖像幀，則對得到的一模擬視頻通話圖像幀進行視頻編碼，以得到模擬視頻通話圖像幀對應的視頻幀；在接收到完成模擬視頻通話的指令後，根據所有視頻幀生成關於模擬視頻通話過程的視頻檔案。在其他實施方式中，顯示和生成模組704也可以是在接收到完成模擬視頻通話的指令後，對得到的所有模擬視頻通話圖像幀依次進行視頻編碼，以得到每一模擬視頻通話圖像幀對應的視頻幀，從而根據所有視頻幀生成關於模擬視頻通話過程的視頻檔案。

此外，本發明實施例是先對使用者圖像幀和素材視頻圖像幀進行合成，從而可以直接根據合成得到的模擬視頻通話圖像幀生成關於模擬視頻通話過程的視頻檔案，即只需對模擬視頻通話圖像幀進行視頻編碼即可，且本發明實施例中涉及的圖像之間的合成，相比兩個視頻之間的合成更為簡單快速，因此與現有通過將兩個獨立視頻進行合成方式相比，本發明實施例可以更快速地生成視頻檔案，能夠減少視頻檔案的生成時間，提高視頻檔案的生成效率。另外，在本發明實施例中，可以一邊進行模擬視頻通話（也即顯示模擬視頻通話圖像幀），一邊對模擬視頻通話圖像幀進行視頻編碼以生成視頻檔案，可以進一步減少生成視頻檔案所需的時間。

進一步地，參閱圖8，視頻檔案的生成裝置還可以包括第二獲取模組705、第三獲取模組706、確定模組707、預覽模組708以及分享模組709。

第二獲取模組705用於當接收到模擬視頻通話請求後，啟動語音輸入裝置，並通過語音輸入裝置獲取第一語音資訊。該第一語音資訊包括使用者輸入的語音資訊，該語音輸入裝置例如為終端自帶的麥克風。第三獲取模組706用於在顯示和生成模組704在模擬視頻通話窗口顯示模擬視頻通話圖像幀時，獲取模擬視頻通話窗口當前播放的素材視頻的語音資訊，以獲取第二語音資訊。其中該第二語音資訊也即包含在當前顯示的模擬視頻通話圖像幀中的素材視頻圖像幀所對應的語音資訊。確定模組707用於根據第一語音資訊和第二語音資訊，確定模擬視頻通話圖像幀對應的語音資訊。

其中，顯示和生成模組704具體可以用於每合成得到一模擬視頻通話圖像幀，則對該模擬視頻通話圖像幀進行視頻編碼，以得到模擬視頻通話圖像幀對應的視頻幀；當接收到使用者的保存指令時，根據所有視頻幀生成畫面視頻，以及根據所有視頻幀各自對應的語音資訊生成音頻音軌檔案；將畫面視頻和音頻音軌檔案進行合成以得到模擬視頻通話過程的視頻檔案。其中，各視頻幀對應的語音資訊也即各視頻幀對應的模擬視頻通話圖像幀所對應的語音資訊。

本實施例中，顯示模擬視頻通話圖像幀和對模擬視頻通話圖像幀進行視頻編碼是同步進行，即在將使用者圖像幀和素材視頻圖像幀進行合成得到一模擬視頻通話圖像幀後，將該模擬視頻通話圖像幀在模擬視頻通話窗口進行顯示，並將該模擬視頻通話圖像幀送入視頻編碼器進行視頻編碼，以轉換成視頻幀並儲存，而不是在模擬視頻通話結束後再對所有模擬視頻通話圖像幀逐一進行編碼，由此可以進一步減少生成視頻檔案所需的時間。

其中，顯示和生成模組704具體可以採用系統硬體的方式將畫面視頻和音頻音軌檔案進行合成，通過使用系統硬體合成該畫面視頻和音頻音軌檔案，可以提高合成速度，具有更好的穩定性能。當硬體合成方式失敗時，可以使用第三方合成軟體進行合成，比如採用ffmpeg音視頻編解碼軟體將畫面視頻和音頻音軌檔案進行合成。

其中，預覽模組708用於在生成和顯示模組704將畫面視頻和音頻音軌檔案進行合成之前，在預覽窗口同步播放畫面視頻和音頻音軌檔案。由此，使用者可以預覽關於模擬視頻通話過程的視頻檔案。

其中，分享模組709用於根據使用者的分享指令，將視頻檔案分享至社交網路。

第四實施例

相應的，本發明實施例還提供一種終端，如圖9所示，該終端可以包括射頻（RF，Radio Frequency）電路901、包括有一個或一個以上電腦可讀儲存媒體的記憶體902、輸入單元903、顯示單元904、感測器905、音頻電路906、無線保真（WiFi，Wireless Fidelity)模組907、包括有一個或者一個以上處理核心的處理器908、以及電源909等部件。本領域技術人員可以理解，圖9中示出的終端結構並不構成對終端的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件佈置。其中：

RF電路901可用於收發資訊或通話過程中，信號的接收和發送，特別地，將基站的下行資訊接收後，交由一個或者一個以上處理器908處理；另外，將涉及上行的資料發送給基站。通常，RF電路901包括但不限於天線、至少一個放大器、調諧器、一個或多個振盪器、使用者身份模組（SIM，Subscriber Identity Module）卡、收發信機、耦合器、低雜訊放大器（LNA，Low Noise Amplifier）、雙工器等。此外，RF電路901還可以通過無線通訊與網路和其他設備通信。所述無線通訊可以使用任一通信標準或協定，包括但不限於全球移動通訊系統（GSM，Global System of Mobile communication）、通用分組無線服務（GPRS ，General Packet Radio Service）、碼分多址（CDMA，Code Division Multiple Access）、寬頻碼分多址（WCDMA，Wideband Code Division Multiple Access）、長期演進（LTE，Long Term Evolution)、電子郵件、簡訊服務（SMS，Short Messaging Service)等。

記憶體902可用於儲存軟體程式以及模組，處理器908通過運行儲存在記憶體902的軟體程式以及模組，從而執行各種功能應用以及資料處理。記憶體902可主要包括儲存程式區和儲存資料區，其中，儲存程式區可儲存作業系統、至少一個功能所需的應用程式（比如聲音播放功能、圖像播放功能等）等；儲存資料區可儲存根據終端的使用所創建的資料（比如音頻資料、電話本等）等。此外，記憶體902可以包括高速隨機存取記憶體，還可以包括非揮發性記憶體，例如至少一個磁碟記憶體件、閃存器件、或其他揮發性固態記憶體件。相應地，記憶體902還可以包括記憶體控制器，以提供處理器908和輸入單元903對記憶體902的訪問。

輸入單元903可用於接收輸入的數字或字元資訊，以及產生與使用者設置以及功能控制有關的鍵盤、滑鼠、操作桿、光學或者軌跡球信號輸入。具體地，在一個具體的實施例中，輸入單元903可包括觸敏表面以及其他輸入設備。觸敏表面，也稱為觸摸顯示屏或者觸控板，可收集使用者在其上或附近的觸摸操作（比如使用者使用手指、觸筆等任何適合的物體或附件在觸敏表面上或在觸敏表面附近的操作），並根據預先設定的程式驅動相應的連接裝置。可選的，觸敏表面可包括觸摸檢測裝置和觸摸控制器兩個部分。其中，觸摸檢測裝置檢測使用者的觸摸方位，並檢測觸摸操作帶來的信號，將信號傳送給觸摸控制器；觸摸控制器從觸摸檢測裝置上接收觸摸資訊，並將它轉換成觸點座標，再送給處理器908，並能接收處理器908發來的命令並加以執行。此外，可以採用電阻式、電容式、紅外線以及表面聲波等多種類型實現觸敏表面。除了觸敏表面，輸入單元903還可以包括其他輸入設備。具體地，其他輸入設備可以包括但不限於物理鍵盤、功能鍵（比如音量控制按鍵、開關按鍵等）、軌跡球、滑鼠、操作桿等中的一種或多種。

顯示單元904可用於顯示由使用者輸入的資訊或提供給使用者的資訊以及終端的各種圖形使用者介面，這些圖形使用者介面可以由圖形、文本、圖示、視頻和其任意組合來構成。顯示單元904可包括顯示面板，可選的，可以採用液晶顯示器（LCD，Liquid Crystal Display）、有機發光二極管（OLED，Organic Light-Emitting Diode）等形式來配置顯示面板。進一步的，觸敏表面可覆蓋顯示面板，當觸敏表面檢測到在其上或附近的觸摸操作後，傳送給處理器908以確定觸摸事件的類型，隨後處理器908根據觸摸事件的類型在顯示面板上提供相應的視覺輸出。雖然在圖9中，觸敏表面與顯示面板是作為兩個獨立的部件來實現輸入和輸入功能，但是在某些實施例中，可以將觸敏表面與顯示面板整合而實現輸入和輸出功能。

終端還可包括至少一種感測器905，比如光感測器、運動感測器以及其他感測器。具體地，光感測器可包括環境光感測器及接近感測器，其中，環境光感測器可根據環境光線的明暗來調節顯示面板的亮度，接近感測器可在終端移動到耳邊時，關閉顯示面板和/或背光。作為運動感測器的一種，重力加速度感測器可檢測各個方向上（一般為三軸）加速度的大小，靜止時可檢測出重力的大小及方向，可用於識別手機姿態的應用（比如橫豎屏切換、相關遊戲、磁力計姿態校準）、振動識別相關功能（比如計步器、敲擊）等; 至於終端還可配置的陀螺儀、氣壓計、濕度計、溫度計、紅外線感測器等其他感測器，在此不再贅述。

音頻電路906、揚聲器，傳聲器可提供使用者與終端之間的音頻介面。音頻電路906可將接收到的音頻資料轉換後的電信號，傳輸到揚聲器，由揚聲器轉換為聲音信號輸出；另一方面，傳聲器將收集的聲音信號轉換為電信號，由音頻電路906接收後轉換為音頻資料，再將音頻資料輸出處理器908處理後，經RF電路901以發送給比如另一終端，或者將音頻資料輸出至記憶體902以便進一步處理。音頻電路906還可能包括耳機插孔，以提供外設耳機與終端的通信。

WiFi屬於短距離無線傳輸技術，終端通過WiFi模組907可以幫助使用者收發電子郵件、瀏覽網頁和訪問流式媒體等，它為使用者提供了無線的寬頻網際網路訪問。雖然圖9示出了WiFi模組907，但是可以理解的是，其並不屬於終端的必須構成，完全可以根據需要在不改變發明的本質的範圍內而省略。

處理器908是終端的控制中心，利用各種介面和線路連接整個手機的各個部分，通過運行或執行儲存在記憶體902內的軟體程式和/或模組，以及調用儲存在記憶體902內的資料，執行終端的各種功能和處理資料，從而對手機進行整體監控。可選的，處理器908可包括一個或多個處理核心；較佳的，處理器908可整合應用處理器和調製解調處理器，其中，應用處理器主要處理作業系統、使用者介面和應用程式等，調製解調處理器主要處理無線通訊。可以理解的是，上述調製解調處理器也可以不整合到處理器908中。

終端還包括給各個部件供電的電源909（比如電池），較佳的，電源可以通過電源管理系統與處理器908邏輯相連，從而通過電源管理系統實現管理充電、放電、以及功耗管理等功能。電源909還可以包括一個或一個以上的直流或交流電源、再充電系統、電源故障檢測電路、電源轉換器或者逆變器、電源狀態指示器等任意組件。

儘管未示出，終端還可以包括攝影鏡頭、藍牙模組等，在此不再贅述。具體在本實施例中，終端中的處理器908會按照如下的指令，將一個或一個以上的應用程式的進程對應的可執行檔案加載到記憶體902中，並由處理器908來運行儲存在記憶體902中的應用程式，從而實現各種功能：

當接收到模擬視頻通話請求時，啟動圖像採集裝置以即時採集使用者圖像，以及啟動視頻解碼控件解碼預定的素材視頻，然後同步獲取圖像採集裝置當前採集的使用者圖像幀和視頻解碼控件當前解碼的素材視頻圖像幀，並將同步獲取的使用者圖像幀和素材視頻圖像幀進行合成以得到模擬視頻通話圖像幀；之後在模擬視頻通話窗口顯示模擬視頻通話圖像幀，以及根據得到的所有模擬視頻通話圖像幀生成關於模擬視頻通話過程的視頻檔案。

其中，可以通過獲取使用者圖像幀的紋理資料和素材視頻圖像幀的紋理資料，然後根據第一渲染參數對使用者圖像幀的紋理資料進行渲染，根據第二渲染參數對素材視頻圖像幀的紋理資料進行渲染，將渲染後的使用者圖像幀合成至渲染後的素材視頻圖像幀中，得到模擬視頻通話圖像幀。

其中，可以每得到一模擬視頻圖像幀，則對得到的一模擬視頻通話圖像幀進行視頻編碼，以得到模擬視頻通話圖像幀對應的視頻幀；在接收到完成模擬視頻通話的指令後，根據所有視頻幀生成關於模擬視頻通話過程的視頻檔案。

其中，當接收到模擬視頻通話請求後，啟動語音輸入裝置，並通過語音輸入裝置獲取第一語音資訊；當在模擬視頻通話窗口顯示模擬視頻通話圖像幀時，獲取模擬視頻通話窗口當前播放的素材視頻的語音資訊，以獲取第二語音資訊；根據第一語音資訊和第二語音資訊，確定模擬視頻通話圖像幀對應的語音資訊，進而在得到模擬視頻通話圖像幀對應的視頻幀後，確定視頻幀對應的語音資訊。

其中，根據所有視頻幀生成畫面視頻，以及根據所有視頻幀各自對應的語音資訊生成音頻音軌檔案，然後將畫面視頻和音頻音軌檔案進行合成，以得到關於模擬視頻通話過程的視頻檔案。

其中，可以通過硬體合成的方式將畫面視頻和音頻音軌檔案進行合成；當採用硬體合成的方式合成失敗時，通過軟體合成的方式將畫面視頻和音頻音軌檔案進行合成。

第五實施例

本領域普通技術人員可以理解，上述實施例的各種方法中的全部或部分步驟可以通過指令來完成，或通過指令控制相關的硬體來完成，該指令可以儲存於一電腦可讀儲存媒體中，並由處理器進行加載和執行。

為此，本發明實施例提供一種儲存媒體，其中儲存有多條指令，該指令能夠被處理器進行加載，以執行本發明實施例所提供的任一種視頻檔案的生成方法中的步驟。例如，該指令可以如下步驟：

以上各個操作的具體實施可參見前面的實施例，在此不再贅述。

其中，該儲存媒體可以包括：唯讀記憶體（ROM，Read Only Memory）、隨機存取記憶體（RAM，Random Access Memory）、磁碟或光盤等。

由於該儲存媒體中所儲存的指令，可以執行本發明實施例所提供的任一種視頻檔案的生成方法中的步驟，因此，可以實現本發明實施例所提供的任一種視頻檔案的生成方法所能實現的有益效果，詳見前面的實施例，在此不再贅述。

以上對本發明實施例所提供的一種視頻檔案的生成方法、裝置及儲存媒體進行了詳細介紹，本文中應用了具體個例對本發明的原理及實施方式進行了闡述，以上實施例的說明只是用於幫助理解本發明的方法及其核心思想；同時，對於本領域的技術人員，依據本發明的思想，在具體實施方式及應用範圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本發明的限制。

201~204‧‧‧步驟 601~605‧‧‧步驟 701‧‧‧啟動模組 702‧‧‧第一獲取模組 703‧‧‧合成模組 704‧‧‧顯示和生成模組 705‧‧‧第二獲取模組 706‧‧‧第三獲取模組 707‧‧‧確定模組 708‧‧‧預覽模組 709‧‧‧分享模組 901‧‧‧RF電路 902‧‧‧記憶體 903‧‧‧輸入單元 904‧‧‧顯示單元 905‧‧‧感測器 906‧‧‧音頻電路 907‧‧‧WiFi模組 908‧‧‧處理器 909‧‧‧電源

為了更清楚地說明本發明實施例中的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發明的一些實施例，對於本領域技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖獲得其他的附圖。

圖1是本發明實施例提供的視頻檔案的生成方法的場景示意圖；圖2是本發明實施例提供的視頻檔案的生成方法的一流程示意圖；圖3是本發明實施例提供的視頻檔案的生成方法中，模擬視頻通話來電介面示意圖；圖4是本發明實施例提供的視頻檔案的生成方法中，模擬視頻通話的通話介面示意圖；圖5是本發明實施例提供的視頻檔案的生成方法中，預覽窗口的介面示意圖；圖6是本發明實施例提供的視頻檔案的生成方法的又一流程示意圖；圖7是本發明實施例提供的視頻檔案的生成裝置的一結構示意圖；圖8是本發明實施例提供的視頻檔案的生成裝置的另一結構示意圖；圖9是本發明實施例提供的終端的結構示意圖。

201~204‧‧‧步驟

Claims

一種視頻檔案的生成方法，包括：當接收到模擬視頻通話請求時，啟動圖像採集裝置以即時採集使用者圖像，以及啟動視頻解碼控件解碼預定的素材視頻；同步獲取所述圖像採集裝置當前採集的使用者圖像幀和所述視頻解碼控件當前解碼的素材視頻圖像幀；將同步獲取的所述使用者圖像幀和所述素材視頻圖像幀進行合成以得到模擬視頻通話圖像幀；在模擬視頻通話窗口顯示所述模擬視頻通話圖像幀，以及根據得到的所有所述模擬視頻通話圖像幀生成關於模擬視頻通話過程的視頻檔案。
根據請求項1所述的方法，其中，所述將同步獲取的所述使用者圖像幀和所述素材視頻圖像幀進行合成以得到模擬視頻通話圖像幀，包括：獲取所述使用者圖像幀的紋理資料和所述素材視頻圖像幀的紋理資料；根據第一渲染參數對所述使用者圖像幀的紋理資料進行渲染，得到渲染後的使用者圖像幀，所述第一渲染參數包括第一圖像位置和第一圖像尺寸；根據第二渲染參數對所述素材視頻圖像幀的紋理資料進行渲染，得到渲染後的素材視頻圖像幀，所述第二渲染參數包括第二圖像位置和第二圖像尺寸；將所述渲染後的使用者圖像幀合成至所述渲染後的素材視頻圖像幀中，得到模擬視頻通話圖像幀。
根據請求項2所述的方法，其中，所述第一圖像位置為視頻通話窗口的顯示介面的右上角，所述第一圖像尺寸小於視頻通話窗口的顯示介面；所述第二圖像位置為視頻通話窗口的顯示介面的任一位置，所述第二圖像尺寸為鋪滿視頻通話窗口的整個顯示介面。
根據請求項1所述的方法，其中，所述根據得到的所有所述模擬視頻通話圖像幀生成關於模擬視頻通話過程的視頻檔案，包括：每得到一模擬視頻圖像幀，則對得到的一所述模擬視頻通話圖像幀進行視頻編碼，以得到所述模擬視頻通話圖像幀對應的視頻幀；在接收到完成模擬視頻通話的指令後，根據所有所述視頻幀生成關於模擬視頻通話過程的視頻檔案。
根據請求項4所述的方法，其中，所述方法還包括：當接收到模擬視頻通話請求後，啟動語音輸入裝置，並通過所述語音輸入裝置獲取第一語音資訊；當在模擬視頻通話窗口顯示所述模擬視頻通話圖像幀時，獲取模擬視頻通話窗口當前播放的素材視頻的語音資訊，以獲取第二語音資訊；根據所述第一語音資訊和所述第二語音資訊，確定所述模擬視頻通話圖像幀對應的語音資訊，進而在得到所述模擬視頻通話圖像幀對應的視頻幀後，確定所述視頻幀對應的語音資訊。
根據請求項5所述的方法，其中，所述在接收到完成模擬視頻通話的指令後，根據所有所述視頻幀生成關於模擬視頻通話過程的視頻檔案，包括：根據所有所述視頻幀生成畫面視頻，以及根據所有所述視頻幀各自對應的語音資訊生成音頻音軌檔案；將所述畫面視頻和所述音頻音軌檔案進行合成，以得到關於模擬視頻通話過程的視頻檔案。
根據請求項6所述的方法，其中，所述將所述畫面視頻和所述音頻音軌檔案進行合成，包括：通過硬體合成的方式將所述畫面視頻和所述音頻音軌檔案進行合成；當採用所述硬體合成的方式合成失敗時，通過軟體合成的方式將所述畫面視頻和所述音頻音軌檔案進行合成。
根據請求項6所述的方法，其中，在將所述畫面視頻和所述音頻音軌檔案進行合成之前，還包括：在預覽窗口同步播放所述畫面視頻和所述音頻音軌檔案。
根據請求項1所述的方法，其中，在根據得到的所有所述模擬視頻通話圖像幀生成關於模擬視頻通話過程的視頻檔案之後，還包括：根據接收到的分享指令，將所述視頻檔案分享至社交網路。
一種視頻檔案的生成裝置，包括：啟動模組，用於當接收到模擬視頻通話請求時，啟動圖像採集裝置以即時採集使用者圖像，以及啟動視頻解碼控件解碼預定的素材視頻；第一獲取模組，用於同步獲取所述圖像採集裝置當前採集的使用者圖像幀和所述視頻解碼控件當前解碼的素材視頻圖像幀；合成模組，用於將同步獲取的所述使用者圖像幀和所述素材視頻圖像幀進行合成以得到模擬視頻通話圖像幀；顯示和生成模組，用於在模擬視頻通話窗口顯示所述模擬視頻通話圖像幀，以及根據得到的所有所述模擬視頻通話圖像幀生成關於模擬視頻通話過程的視頻檔案。
根據請求項10所述的生成裝置，其中，所述合成模組用於：獲取所述使用者圖像幀的紋理資料和所述素材視頻圖像幀的紋理資料；根據第一渲染參數對所述使用者圖像幀的紋理資料進行渲染，得到渲染後的使用者圖像幀，所述第一渲染參數包括第一圖像位置和第一圖像尺寸；根據第二渲染參數對所述素材視頻圖像幀的紋理資料進行渲染，得到渲染後的素材視頻圖像幀，所述第二渲染參數包括第二圖像位置和第二圖像尺寸；將所述渲染後的使用者圖像幀合成至所述渲染後的素材視頻圖像幀中，得到模擬視頻通話圖像幀。
根據請求項10所述的生成裝置，其中，所述顯示和生成模組用於：每得到一模擬視頻圖像幀，則對得到的一所述模擬視頻通話圖像幀進行視頻編碼，以得到所述模擬視頻通話圖像幀對應的視頻幀；在接收到完成模擬視頻通話的指令後，根據所有所述視頻幀生成關於模擬視頻通話過程的視頻檔案。
根據請求項12所述的生成裝置，其中，還包括：第二獲取模組，用於當接收到模擬視頻通話請求後，啟動語音輸入裝置，並通過所述語音輸入裝置獲取第一語音資訊；第三獲取模組，用於當在模擬視頻通話窗口顯示所述模擬視頻通話圖像幀時，獲取模擬視頻通話窗口當前播放的素材視頻的語音資訊，以獲取第二語音資訊；確定模組，用於根據所述第一語音資訊和所述第二語音資訊，確定所述模擬視頻通話圖像幀對應的語音資訊，進而在得到所述模擬視頻通話圖像幀對應的視頻幀後，確定所述視頻幀對應的語音資訊。
根據請求項13所述的生成裝置，其中，所述顯示和生成模組用於：根據所有所述視頻幀生成畫面視頻，以及根據所有所述視頻幀各自對應的語音資訊生成音頻音軌檔案；將所述畫面視頻和所述音頻音軌檔案進行合成，以得到關於模擬視頻通話過程的視頻檔案。
一種儲存媒體，所述儲存媒體儲存有多條指令，所述指令適於處理器進行加載，以執行請求項1至9任一項所述的視頻檔案的生成方法中的步驟。