TW202345589A

TW202345589A - 影音系統及其控制方法

Info

Publication number: TW202345589A
Application number: TW111117383A
Authority: TW
Inventors: 邱肇民
Original assignee: 圓展科技股份有限公司
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2023-11-16
Also published as: TWI796217B

Abstract

本揭示內容提供一種影音系統的控制方法，包含：第一終端裝置接收第一音訊資料，並判斷第一音訊資料是否包含語音指令；當判斷第一音訊資料包含語音指令時，第一終端裝置擷取全景影像，並辨識全景影像中的多個人像區域，且傳送第一影像串流資料至第二終端裝置；第二終端裝置顯示多個編號人像畫面；第一終端裝置接收第二音訊資料，並判斷第二音訊資料是否包含人像選擇指令；當判斷第二音訊資料包含人像選擇指令時，第一終端裝置傳送第二影像串流資料至第二終端裝置；以及第二終端裝置顯示編號人像畫面中的至少一者。

Description

影音系統及其控制方法

本案是關於一種影音系統及其控制方法，特別是關於一種根據語音指令進行影像處理的影音系統及其控制方法。

在大多的視訊會議中，通常以最廣角的畫面來顯示會議中的所有參與人員，但若是與會人員眾多，則可能無法看清楚畫面中各個與會人員的模樣。雖然目前技術可以判別正在發言的與會人員，並聚焦或放大顯示該人員，但由於會議中可能有多個人員輪流發言，視訊會議的畫面可能頻繁地切換不同人員的畫面，將使人在視覺上感到疲乏。此外，與會人員也無法自由決定希望顯示的人員畫面。

本案的一實施例提供一種影音系統的控制方法，包含：第一終端裝置接收從第二終端裝置傳送之第一音訊資料，並判斷第一音訊資料是否包含對應喚醒詞之語音指令，其中第一終端裝置與第二終端裝置通訊連接；當判斷第一音訊資料包含語音指令時，第一終端裝置擷取全景影像，並辨識全景影像中的多個人像區域，且傳送第一影像串流資料至第二終端裝置，其中第一影像串流資料包含彼此不同之多個編號影像資料，編號影像資料對應人像區域；第二終端裝置顯示對應人像區域之不同的多個編號人像畫面；第一終端裝置接收第二音訊資料，並判斷第二音訊資料是否包含人像選擇指令，人像選擇指令對應編號人像畫面中的至少一者；當判斷第二音訊資料包含人像選擇指令時，第一終端裝置傳送第二影像串流資料至第二終端裝置，其中第二影像串流資料對應編號人像畫面中的至少一者；以及第二終端裝置顯示編號人像畫面中的至少一者。

本案的另一實施例提供一種影音系統，包含第一終端裝置。第一終端裝置包含影像傳感器、影像處理及控制單元以及音訊處理單元。影像處理及控制單元電性連接影像傳感器。音訊處理單元電性連接影像處理及控制單元。當與第一終端裝置通訊連接之第二終端裝置傳送第一音訊資料至第一終端裝置時，音訊處理單元用以判斷第一音訊資料是否包含對應喚醒詞之語音指令。當音訊處理單元判斷第一音訊資料包含語音指令時，影像傳感器用以擷取全景影像並傳送全景影像至影像處理及控制單元，影像處理及控制單元用以辨識全景影像中的多個人像區域並產生第一影像串流資料，第一終端裝置用以傳送第一影像串流資料至第二終端裝置，其中第一影像串流資料包含彼此不同之多個編號影像資料，編號影像資料對應人像區域。

下列係舉實施例配合所附圖示做詳細說明，但所提供之實施例並非用以限制本揭露所涵蓋的範圍，而結構運作之描述非用以限制其執行順序，任何由元件重新組合之結構，所產生具有均等功效的裝置，皆為本揭露所涵蓋的範圍。另外，圖示僅以說明為目的，並未依照原尺寸作圖。為使便於理解，下述說明中相同元件或相似元件將以相同之符號標示來說明。

於本文中，除非內文對於冠詞有特別限定，否則『一』與『該』可泛指單一個或多個。此外，本文使用之『包含』、『包括』、『具有』、以及相似詞彙，係用以指明所記載的特徵、區域、整數、步驟、操作、元件及/或組件。

於本文中，當一元件被描述為係『連接』、『耦接』或『電性連接』至另一元件時，該元件可為直接連接、直接耦接或直接電性連接至該另一元件，亦可為該二元件之間有一額外元件存在，而該元件間接連接、間接耦接或間接電性連接至該另一元件。此外，雖然本文中使用『第一』、『第二』、…等用語描述不同元件，該用語僅是用以區別以相同技術用語描述的元件或操作。

本案的一實施例提供一種影音系統。請參照第1圖。第1圖為根據本揭示一些實施例之影音系統100的示意圖。影音系統100包含彼此通訊連接的第一終端裝置120以及第二終端裝置140。在一實施例中，第一終端裝置120以及第二終端裝置140用於讓位於不同地理位置或物理空間的兩方人員透過網路進行視訊會議，第一終端裝置120設置於其中一方人員所在的位置，第二終端裝置140設置於另一方人員所在的位置。如第1圖所示，多個音訊資料及影像串流資料（例如第1圖中的音訊資料AD1、AD2、AD3及影音串流資料VD1、VD2、VD3）將傳輸於第一終端裝置120及第二終端裝置140之間，將於以下段落搭配其他圖式詳細說明。

如第1圖所示，第一終端裝置120包含影像傳感器121、影像處理及控制單元122、介面123、音訊處理單元124、音訊傳感器125以及揚聲器126。如第1圖所示，影像處理及控制單元122電性連接至影像傳感器121、介面123以及音訊處理單元124，音訊處理單元124電性連接至影像處理及控制單元122、介面123、音訊傳感器125以及揚聲器126。

在一些實施例中，影像傳感器121用於擷取、拍攝或錄製影像。在一些實施例中，影像傳感器121為相機。

在一些實施例中，影像處理及控制單元122用於處理影像傳感器121所擷取的影像，並控制第一終端裝置120中的各個元件以執行各種操作流程。

在一些實施例中，影像處理及控制單元122包含影像處理單元IPU以及控制單元CU，影像處理單元IPU用於對各種影像進行處理，控制單元CU用於控制第一終端裝置120中的各個元件決定元件的操作流程。在不同的實施例中，影像處理及控制單元122可由單一處理器來實現，而用於影像處理及控制第一終端裝置120中的各個元件。

在一些實施例中，介面123通訊連接第二終端裝置140，並用於從第二終端裝置140接收影像或音訊資料，並對第二終端裝置140傳送影像或音訊資料。

在一些實施例中，介面123包含通用序列匯流排(Universal Serial Bus，USB)介面UI以及網路介面NI。在一些實施例中，第一終端裝置120透過USB介面UI電性連接另一裝置（例如個人電腦或筆記型電腦），再透過該另一裝置通訊連接至第二終端裝置140。在不同的實施例中，第一終端裝置120透過自身的網路介面NI直接通訊連接第二終端裝置140，而不須透過另一裝置來連接第二終端裝置140。

在一些實施例中，音訊處理單元124用於處理由介面123或音訊傳感器125傳送的音訊資料，並判斷音訊資料是否包含特定的語音指令。

在一些實施例中，音訊傳感器125用於接收音訊。在一些實施例中，音訊傳感器125為麥克風。

在一些實施例中，第一終端裝置120進一步包含顯示面板（未繪示），當第一終端裝置120傳送各種影像串流資料至第二終端裝置140，其可透過自身的顯示面板顯示相同的影像。在不同的實施例中，第一終端裝置120透過介面123連接至額外的顯示裝置，當第一終端裝置120傳送各種影像串流資料至第二終端裝置140，第一終端裝置120透過該顯示裝置來顯示相同的影像。

本案的一實施例提供一種影音系統的控制方法，用於控制前述第1圖所示的影音系統100來執行各種影音處理之操作，但不以前述第1圖所示的影音系統100為限。請同時參照第1圖及第2圖。第2圖為根據本揭示一些實施例之影音系統的控制方法200的流程圖。控制方法200包含操作S210、S220、S230、S240、S250以及S260。

在操作S210，當第二終端裝置140傳送音訊資料AD1至第一終端裝置120而第一終端裝置120透過介面123接收音訊資料AD1時，介面123傳送音訊資料AD1至音訊處理單元124，音訊處理單元124判斷音訊資料AD1是否包含對應喚醒詞之語音指令。

在一些實施例中，音訊資料AD1是由第二終端裝置140先接收，再由第二終端裝置140傳送至第一終端裝置120。詳細來說，當使用第二終端裝置140進行視訊會議的一方與會人員發出聲音時，第二終端裝置140將接收此聲音並產生對應的音訊資料AD1，接著第二終端裝置140將音訊資料AD1傳送至第一終端裝置120。當第一終端裝置120接收從第二終端裝置140傳送之音訊資料AD1時，第一終端裝置120的音訊處理單元124判斷音訊資料AD1中是否包對應喚醒詞的語音指令。

在一些實施例中，喚醒詞包含為用於對第一終端裝置120下達指令以進行後續影音處理流程之詞語。舉例來說，喚醒詞可為“Hello Aver”、“啟動”、“activate”、“開始”、“start”以及其他相似之詞語。在一些實施例中，喚醒詞可由使用者透過第一終端裝置120及/或第二終端裝置140來預先設定。

在第1圖及第2圖的實施例中，第一終端裝置120係從第二終端裝置140接收音訊資料AD1。在不同的實施例中，第一終端裝置120係從自身的音訊傳感器125接收音訊資料AD1。換言之，喚醒詞亦可由使用第一終端裝置120進行視訊會議的與會人員發出，來執行控制方法200以控制影音系統100。當音訊傳感器125在接收音訊資料AD1之後會將音訊資料AD1傳送至音訊處理單元124，由音訊處理單元124判斷音訊資料AD1是否包對應喚醒詞的語音指令。

在操作S220，當音訊處理單元124判斷音訊資料AD1包含對應喚醒詞的語音指令時，影像處理及控制單元122控制影像傳感器121使影像傳感器121擷取全景影像並傳送全景影像至影像處理及控制單元122，再由影像處理及控制單元122辨識全景影像中的複數個人像區域，並產生影像串流資料VD1，最後第一終端裝置120透過介面123傳送影像串流資料VD1至第二終端裝置140。以下說明此操作之細節。

關於影像傳感器121擷取全景影像以及影像處理及控制單元122辨識全景影像中的複數個人像區域，以下搭配第4圖說明。第4圖為根據本揭示一些實施例之全景影像400的示意圖。在一些實施例中，影像傳感器121所擷取的全景影像為如第4圖所示的全景影像400，全景影像400中顯示透過第一終端裝置120參與視訊會議的多個與會人員。當影像傳感器121將如全景影像400的全景影像傳送至影像處理及控制單元122時，影像處理及控制單元122辨識出全景影像400中涵蓋與會人員影像的區域，例如第4圖中的人像區域FA1~FA3，人像區域FA1~FA3分別對應至全景影像400中不同的與會人員。

在一些實施例中，影像處理及控制單元122在辨識全景影像400中的人像區域FA1~FA3時，將辨別人像區域FA1~FA3各自對應的座標、長及寬，以確認全景影像400中人像的確切位置。舉例來說，如第4圖所示，人像區域FA1對應座標(x1, y1)且具有長h1及寬w1，人像區域FA2對應座標(x2, y2)且具有長h2及寬w2，人像區域FA3對應座標(x3, y3)且具有長h3及寬w3，影像處理及控制單元122將確認並記錄以上數值。

在辨識全景影像400中的人像區域FA1~FA3後，影像處理及控制單元122將根據人像區域FA1~FA3來產生影像串流資料VD1。詳細來說，影像處理及控制單元122將對不同的人像區域FA1~FA3指定特定的編號(例如影像處理及控制單元122指定人像區域FA1為“1”，指定人像區域FA2為“2”，並指定人像區域FA3為“3”)，並產生一資料以記錄人像區域FA1~FA3與編號之間的對應關係，影像處理及控制單元122再根據此資料產生影像串流資料VD1。因此影像串流資料VD1將包含彼此不同之複數個編號影像資料，編號影像資料分別對應至不同的人像區域FA1~FA3。編號影像資料分別對應至不同的編號人像畫面（例如第5圖中的編號人像畫面B1~B3），以下透過第5圖進一步說明。

在操作S230，第二終端裝置140接收影像串流資料VD1，並顯示對應不同人像區域之不同的編號人像畫面。請參照第5圖。第5圖為根據本揭示一些實施例之第二終端裝置顯示的影像500的示意圖。影像500包含編號人像畫面B1~B3，編號人像畫面B1~B3各自包含一人像區域及對應的一編號，例如編號人像畫面B1包含人像區域FA1及編號N1，編號人像畫面B2包含人像區域FA2及編號N2，編號人像畫面B3包含人像區域FA3及編號N3。換言之，編號人像畫面B1~B3分別對應第4圖之人像區域FA1~FA3。

在一些實施例中，編號人像畫面B1~B3分別對應至前述的影像串流資料VD1中不同的編號影像資料。第二終端裝置140根據此些編號影像資料來顯示編號人像畫面B1~B3。

在一些實施例中，編號N1~N3與人像區域FA1~FA3之間的對應關係，與前述實施例中影像處理及控制單元122在產生影像串流資料VD1時人像區域FA1~FA3與編號之間的對應關係相同。

在一些實施例中，編號N1~N3分別為“1”、“2”及“3”。應注意的是，此實施例僅為例示性質，在不同的實施例中，編號N1~N3可為英文或其他具有區別性的符號。在一些實施例中，使用者可透過第一終端裝置120及/或第二終端裝置140設定所使用的編號格式（例如中文、數字或英文）。

在一些實施例中，影像處理及控制單元122接收全景影像400後係以由左至右的方式依序為人像區域FA1~FA3指定編號。例如人像區域FA1被指定的編號N1為“1”，人像區域FA2被指定的編號N2為“2”，人像區域FA3被指定的編號N3為“3”。

藉由讓第二終端裝置140顯示如第5圖的多個編號人像畫面B1~B3，以第二終端裝置140進行視訊會議的一方與會人員可以透過編號N1~N3選擇希望顯示的一個或多個編號人像畫面B1~B3。換言之，與會人員可以決定希望聚焦或放大顯示的人物。以下說明如何選擇顯示特定的人物。

在操作S240，當第一終端裝置120接收音訊資料AD2時，音訊處理單元124判斷音訊資料AD2是否包含人像選擇指令，其中人像選擇指令對應編號影像資料B1~B3中的至少一者。舉例來說，人像選擇指令可為對應編號N1~N3的詞語，例如對應“1”、“2”及/或“3”的詞語。當音訊處理單元124判斷音訊資料AD2包含此些詞語中的一者時，音訊處理單元124判定音訊資料AD2中包含人像選擇指令。

在一些實施例中，第一終端裝置120可以透過介面123從第二終端裝置140接收音訊資料AD2，亦可以從自身的音訊傳感器125接收音訊資料AD2。換言之，分別使用第一終端裝置120及第二終端裝置140進行視訊會議的兩分與會人員皆可下達人像選擇指令來選擇欲顯示的人像畫面。

在操作S250，當音訊處理單元124判斷音訊資料AD2包含人像選擇指令時，第一終端裝置120透過介面123傳送影像串流資料VD2至第二終端裝置140。其中影像串流資料VD2包含複數個編號影像資料中的至少一者，編號影像資料對應編號影像畫面B1~B3。換言之，第一終端裝置120根據接收到的人像選擇指令，傳送對應的編號影像資料至第二終端裝置140。

在操作S260，第二終端裝置140接收影像串流資料VD2，並顯示編號人像畫面B1~B3中的至少一者。

舉例來說，若在操作S240中音訊處理單元124判斷音訊資料AD2包含人像選擇指令，且人像選擇指令對應編號人像畫面B1（亦即與會人員透過發出與編號N1 對應的詞語來選擇顯示編號人像畫面B1），第二終端裝置140在接收影像串流資料VD2後在操作S240中將顯示如第6圖所示的影像600。第6圖為根據本揭示一些實施例之第二終端裝置顯示的影像600的示意圖。影像600中包含對應編號人像畫面B1的人像區域FA1。

在一些實施例中，當人像選擇指令僅對應編號人像畫面中B1~B3的一者時，第二終端裝置140放大顯示編號人像畫面B1~B3的中的對應一者。例如第6圖影像600中的人像區域FA1具有較第4圖或第5圖中的人像區域FA1更大的尺寸。因此，在與會人員選擇特定人像後，將可看到經放大的特定人像畫面。

在一些實施例中，當人像選擇指令對應多個編號詞時，第二終端裝置140顯示對應編號詞的編號人像畫面中的多者。請參照第7圖及第8圖。第7圖為根據本揭示一些實施例之第二終端裝置顯示的影像700的示意圖。第8圖為根據本揭示一些實施例之第二終端裝置顯示的影像800的示意圖。舉例來說，當人像選擇指令對應與編號N1、N2對應的兩個編號詞時，第二終端裝置140顯示第7圖的影像700或第8圖的影像800。影像700包含對應編號N1的編號人像影像B1’以及對應編號N2的編號人像影像B2’。影像800包含對應編號N1的編號人像影像B1’’以及對應編號N2的編號人像影像B2’’。

在一些實施例中，當人像選擇指令對應複數個編號詞時，第二終端裝置140以相同的尺寸顯示對應編號詞的多個編號人像畫面。例如第二終端裝置140顯示第8圖所示的影像800，在影像800中編號人像畫面B1’’及B2’’具有相同的尺寸。

在一些實施例中，當人像選擇指令對應具有不同時間次序的複數個編號詞時，第二終端裝置140以相對大的尺寸顯示編號人像畫面中的第一編號人像畫面，並以相對小的尺寸顯示編號人像畫面中第一編號人像畫面以外的編號人像畫面。其中，第一編號人像畫面對應編號詞中具有最早時間次序的編號詞。舉例來說，當人像選擇指令對應與編號N1、N2對應的兩個編號詞，且與編號N1對應的編號詞具有較早的時間次序、與編號N2對應的編號詞具有較晚的時間次序時，第二終端裝置140顯示如第8圖所示的影像800。由於與編號N1對應的編號詞具有較早的時間次序，第二終端裝置140以相對大的尺寸顯示與編號N1對應的編號人像畫面B1’，並以相對小的尺寸顯示與編號N2對應的編號人像畫面B2’。

在一些實施例中，當人像選擇指令對應與編號N1、N2、N3對應的三個編號詞時，第二終端裝置140顯示第9圖的影像900或第10圖的影像1000。第9圖為根據本揭示一些實施例之第二終端裝置顯示的影像900的示意圖。第10圖為根據本揭示一些實施例之第二終端裝置顯示的影像1000的示意圖。影像900包含對應編號N1的編號人像影像B1’、對應編號N2的編號人像影像B2’以及對應編號N3的編號人像影像B3’。編號人像影像B1’~B3’分別對應第5圖中的人像區域FA1~FA3。影像1000包含對應編號N1的編號人像影像B1’’、對應編號N2的編號人像影像B2’’ 以及對應編號N3的編號人像影像B3’’。編號人像影像B1’’~B3’’分別對應第5圖中的人像區域FA1~FA3。

在一些實施例中，第一終端裝置120在判斷音訊資料VD2是否包含人像選擇指令之前，第一終端裝置120會先判斷音訊資料VD2係由第二終端裝置140傳送至第一終端裝置120，或者係由第一終端裝置120的音訊傳感器125所接收。在一些實施例中，若在操作S210時包含語音指令的音訊資料AD1係接收自第二終端裝置140，則當第一終端裝置120接收音訊資料VD2並判斷音訊資料VD2並非接收自第二終端裝置140時，音訊處理單元124不執行判斷音訊資料AD2是否包含人像選擇指令之操作。換言之，由於先前的語音指令是來自第二終端裝置140，後續的人像選擇指令亦必須來自第二終端裝置140，第一終端裝置120無法下達人像選擇指令。當第一終端裝置120判斷音訊資料AD2確實是接收第二終端裝置140時，音訊處理單元124才會執行判斷音訊資料AD2是否包含人像選擇指令之操作。

另一方面，在一些實施例中，若在操作S210時包含語音指令的音訊資料AD1係接收自第一終端裝置120的音訊傳感器125，則當第一終端裝置120接收音訊資料VD2並判斷音訊資料VD2並非接收自第一終端裝置120時，音訊處理單元124不執行判斷音訊資料AD2是否包含人像選擇指令之操作。換言之，僅在第一終端裝置120判斷音訊資料VD2同樣係接收自第一終端裝置120的音訊傳感器125時，音訊處理單元124才會執行判斷音訊資料AD2是否包含人像選擇指令之操作。

在一些實施例中，在操作S260中第二終端裝置140係以特定的佈局來顯示編號人像畫面中的多者，而若與會人員希望更改編號人像畫面在畫面中的佈局，則可執行控制方法後續的操作，來使與會人員透過下達更改佈局指令以更改編號人像畫面在影像中的位置、大小及/或排列方式。在一些實施例中，佈局代表一影像中不同較小影像區域的位置、大小及/或排列。請參照第3圖。第3圖為根據本揭示一些實施例之影音系統的控制方法的流程圖。在一些實施例中，在執行如第2圖中的操作S260後，控制方法繼續執行操作S270~S290。

在操作S270，第一終端裝置120從第二終端裝置140或從音訊傳感器125接收音訊資料AD3，音訊處理單元124判斷音訊資料AD3是否包含對應更改詞之更改佈局指令。在一些實施例中，更改詞可為“更改佈局”、“change layout”或其他類似者。在一些實施例中，使用者可透過第一終端裝置120或第二終端裝置140預先決定對應更改佈局指令的更改詞。

在操作S280，當音訊處理單元124判斷音訊資料AD3包含更改佈局指令時，第一終端裝置120透過介面123傳送影像串流資料VD3至第二終端裝置140。影像串流資料VD3對應編號人像畫面中的至少一者。換言之，第一終端裝置120根據更改佈局指令，將對應不同影像佈局的影像串流資料VD3傳送至第二終端裝置140。

在操作S290，當第二終端裝置140接收影像串流資料VD3時，第二終端裝置140以第二佈局顯示編號人像畫面中的至少一者。編號人像畫面中的至少一者在第一佈局中及在第二佈局中具有不同的位置及/或大小。

舉例來說，在一些實施例中，在操作S260中第二終端裝置140以如第7圖中影像700的佈局顯示編號人像畫面B1’、B2’。在影像700中，編號人像畫面B1’具有相對大的尺寸且位於相對靠近中央的位置，編號人像畫面B2’具有相對小的尺寸且位於相對遠離中央的位置。在此實施例中，經過操作S270、S280後，在操作S290，中第二終端裝置140以如第8圖中影像800的佈局顯示編號人像畫面B1’’、B2’’。在影像800中，編號人像畫面B1’’與編號人像畫面B2’’具有相同的大小且分別位於畫面中的相對左側及相對右側的位置。因此，藉由操作S260、S270、S280及S290，使用者可更改第二終端裝置140顯示影像的佈局，而決定偏好的畫面。

在另一例子中，在操作S260中第二終端裝置140以如第9圖中影像900的佈局顯示編號人像畫面B1’、B2’、B3’，且經過操作S270、S280後，在操作S290，中第二終端裝置140以如第10圖中影像1000的佈局顯示編號人像畫面B1’’、B2’’、B3’’。

應注意的是，上述實施例中第7圖至第10圖影像中編號人像畫面的佈局僅為例示性質，在不同的實施例中第二終端裝置140以與第7圖至第10圖影像不同的佈局顯示多個編號人像畫面。

根據上述對於控制方法200各個操作的描述，影音系統100可執行以下操作流程。一，當視訊會議進行中，第一終端裝置120及第二終端裝置140等待語音指令。二，第一終端裝置120及第二終端裝置140接收並觸發語音指令。三，第一終端裝置120進行處理與運算以辨識全景畫面中的人臉，並匡列、編號所有的人臉畫面。四，第一終端裝置120輸出所有人員編號畫面至第一終端裝置120及第二終端裝置140。五，第一終端裝置120及第二終端裝置140等待語音指令。六，第一終端裝置120及第二終端裝置140接收語音指令以將選取的人員畫面輸出，或者更改畫面的佈局。

綜上所述，透過影音系統100及控制方法200，進行視訊會議的與會人員可以選擇特定人物並聚焦顯示該人物，且當與會人員希望更改每個人員在畫面中的位置及/或大小時，亦可下達更改佈局指令，來變更畫面中人員的佈局。

雖然本揭示內容已以實施方式揭露如上，然其並非用以限定本發明。任何熟習此技藝之人，在不脫離本揭示內容之精神及範圍內，當可作各種更動及潤飾。本揭示內容之保護範圍當視後附之申請專利範圍所界定者為準。

100:影音系統 120:第一終端裝置 121:影像傳感器 122:影像處理及控制單元 123:介面 124:音訊處理單元 125:音訊傳感器 126:揚聲器 140:第二終端裝置 IPU:影像處理單元 CU:控制單元 UI:USB介面 NI:網路介面 AD1,AD2,AD3:音訊資料 VD1,VD2,VD3:影音串流資料 200:控制方法 S210,S220,S230,S240,S250,S260,S270,S280,S290:操作 400:全景影像 FA1,FA2,FA3:人像區域 h1,h2,h3:長 w1,w2,w3:寬 500:影像 B1,B2,B3:編號人像畫面 N1,N2,N3:編號 600:影像 700:影像 800:影像 900:影像 1000:影像 B1’,B2’,B3’:編號人像畫面 B1’’,B2’’,B3’’:編號人像畫面

第1圖為根據本揭示一些實施例之影音系統的示意圖。第2圖為根據本揭示一些實施例之影音系統的控制方法的流程圖。第3圖為根據本揭示一些實施例之影音系統的控制方法的流程圖。第4圖為根據本揭示一些實施例之全景影像的示意圖。第5圖為根據本揭示一些實施例之第二終端裝置顯示的影像的示意圖。第6圖為根據本揭示一些實施例之第二終端裝置顯示的影像的示意圖。第7圖為根據本揭示一些實施例之第二終端裝置顯示的影像的示意圖。第8圖為根據本揭示一些實施例之第二終端裝置顯示的影像的示意圖。第9圖為根據本揭示一些實施例之第二終端裝置顯示的影像的示意圖。第10圖為根據本揭示一些實施例之第二終端裝置顯示的影像的示意圖。

100:影音系統

120:第一終端裝置

121:影像傳感器

122:影像處理及控制單元

123:介面

124:音訊處理單元

125:音訊傳感器

126:揚聲器

140:第二終端裝置

IPU:影像處理單元

CU:控制單元

UI:USB介面

NI:網路介面

AD1,AD2,AD3:音訊資料

VD1,VD2,VD3:影音串流資料

Claims

一種影音系統的控制方法，包含：一第一終端裝置接收一第一音訊資料，並判斷該第一音訊資料是否包含對應一喚醒詞之一語音指令，其中該第一終端裝置與一第二終端裝置通訊連接；當判斷該第一音訊資料包含該語音指令時，該第一終端裝置擷取一全景影像，並辨識該全景影像中的複數個人像區域，且傳送一第一影像串流資料至該第二終端裝置，其中該第一影像串流資料包含彼此不同之複數個編號影像資料，該些編號影像資料對應該些人像區域；該第二終端裝置顯示對應該些人像區域之不同的複數個編號人像畫面；該第一終端裝置接收一第二音訊資料，並判斷該第二音訊資料是否包含一人像選擇指令，該人像選擇指令對應該些編號人像畫面中的至少一者；當判斷該第二音訊資料包含該人像選擇指令時，該第一終端裝置傳送一第二影像串流資料至該第二終端裝置，其中該第二影像串流資料對應該些編號人像畫面中的該至少一者；以及該第二終端裝置顯示該些編號人像畫面中的該至少一者。
如請求項1所述的控制方法，其中：當該人像選擇指令僅對應該些編號人像畫面中的一者時，該第二終端裝置放大顯示該些編號人像畫面中的對應一者。
如請求項1所述的控制方法，其中該第一音訊資料係接收自該第二終端裝置。
如請求項1所述的控制方法，其中：當該人像選擇指令對應複數個編號詞時，該第二終端裝置顯示對應該些編號詞的該些編號人像畫面中的多者。
如請求項1所述的控制方法，其中該第二終端裝置係以一第一佈局顯示該些編號人像畫面中的該至少一者，該控制方法進一步包含：該第一終端裝置接收一第三音訊資料，並判斷該第三音訊資料是否包含對應一更改詞之一更改佈局指令；當判斷該第三音訊資料包含該更改佈局指令時，該第一終端裝置傳送一第三影像串流資料至該第二終端裝置；以及該第二終端裝置以一第二佈局顯示該些編號人像畫面中的該至少一者，其中該些編號人像畫面中的該至少一者在該第一佈局中及在該第二佈局中具有不同的位置及/或大小。
如請求項1所述的控制方法，進一步包含：該第一終端裝置接收該第一音訊資料，並判斷該第一音訊資料是否包含對應該喚醒詞之該語音指令。
如請求項3所述的控制方法，進一步包含：該第一終端裝置在判斷該第二音訊資料是否包含該人像選擇指令之前，判斷該第二音訊資料是否接收自該第二終端裝置；當判斷該第二音訊資料並非接收自該第二終端裝置時，該第一終端裝置不執行判斷該第二音訊資料是否包含該人像選擇指令之操作；以及當判斷該第二音訊資料是接收自該第二終端裝置時，該第一終端裝置執行判斷該第二音訊資料是否包含該人像選擇指令之操作。
一種影音系統，包含：一第一終端裝置，包含：一影像傳感器；一影像處理及控制單元，電性連接該影像傳感器；以及一音訊處理單元，電性連接該影像處理及控制單元；其中，該第一終端裝置通訊與一第二終端裝置連接，當該第一終端裝置接收一第一音訊資料時，該音訊處理單元用以判斷該第一音訊資料是否包含對應一喚醒詞之一語音指令；以及當該音訊處理單元判斷該第一音訊資料包含該語音指令時，該影像傳感器用以擷取一全景影像並傳送該全景影像至該影像處理及控制單元，該影像處理及控制單元用以辨識該全景影像中的複數個人像區域並產生一第一影像串流資料，該第一終端裝置用以傳送該第一影像串流資料至該第二終端裝置，其中該第一影像串流資料包含彼此不同之複數個編號影像資料，該些編號影像資料對應該些人像區域。
如請求項8所述的影音系統，其中：當該第一終端裝置接收一第二音訊資料時，該音訊處理單元進一步用以判斷該第二音訊資料是否包含一人像選擇指令，該人像選擇指令對應該些編號影像資料中的至少一者；以及當該音訊處理單元判斷該第二音訊資料包含該人像選擇指令時，該第一終端裝置用以傳送一第二影像串流資料至該第二終端裝置，其中該第二影像串流資料包含該些編號影像資料中的該至少一者。
如請求項9所述的影音系統，其中：該第一音訊資料係接收自該第二終端裝置；該音訊處理單元在判斷該第二音訊資料是否包含該人像選擇指令之前，判斷該第二音訊資料是否接收自該第二終端裝置；當判斷該第二音訊資料並非接收自該第二終端裝置時，該音訊處理單元不執行判斷該第二音訊資料是否包含該人像選擇指令之操作；以及當判斷該第二音訊資料是接收自該第二終端裝置時，該音訊處理單元執行判斷該第二音訊資料是否包含該人像選擇指令之操作。