技術(shù)領(lǐng)域
[0001] 本公開涉及因特網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種處理網(wǎng)絡(luò)上的音頻通信的方法和系統(tǒng)。
背景技術(shù)
[0002] 因特網(wǎng)技術(shù)的發(fā)展以及通過網(wǎng)絡(luò)的實(shí)時(shí)音頻和視頻通信使得人們之間的通信非常方便。當(dāng)人們使用同一種語言進(jìn)行通信時(shí),在通信信道的兩端捕獲的語音音頻能以雙工方式傳輸,并且在接收端輸出而沒有顯著的延遲。然而,有時(shí),通信會(huì)話中的人們使用不同的語言,并且需要實(shí)時(shí)翻譯以幫助人們有效地進(jìn)行通信。有時(shí),所使用的語言未必是預(yù)先
指定的,并且臨時(shí)設(shè)置翻譯偏好可能是耗時(shí)且繁瑣的,這會(huì)對(duì)用戶體驗(yàn)產(chǎn)生負(fù)面影響。
發(fā)明內(nèi)容
[0003] 如背景技術(shù)中所論述,在建立音頻/視頻通信會(huì)話之前手動(dòng)設(shè)置翻譯偏好對(duì)于一些場(chǎng)景來說可能適用,但不能解決未預(yù)見的翻譯需求或與語言偏好未知的其他人的即興通信問題。舉例來說,在群組會(huì)議場(chǎng)景或客戶支持場(chǎng)景中,群組會(huì)議中的說話者可能偏愛使用不同的語言,并且在建立通信會(huì)話之前或在每個(gè)參與者說話之前可能并不知道這些語言。此外,當(dāng)在通信會(huì)話期間不同的人在不同時(shí)間使用相同的客戶端設(shè)備說話時(shí),通信中說出的語言可能以相對(duì)不可預(yù)測(cè)的方式變化。在通信會(huì)話已經(jīng)開始之后以及在用戶開始說話之后嘗試手動(dòng)調(diào)整翻譯偏好(例如,手動(dòng)指定
源語言和
目標(biāo)語言)會(huì)導(dǎo)致不必要的延遲和用戶之間的通信中斷。本文中所公開的解決方案可解決當(dāng)前技術(shù)的上述不足。
[0004] 如本文中所公開,在一些
實(shí)施例中,一種處理網(wǎng)絡(luò)上的音頻通信的方法包括:在第一客戶端設(shè)備處,所述第一客戶端設(shè)備已通過所述網(wǎng)絡(luò)與第二客戶端設(shè)備建立音頻和/或視頻通信會(huì)話,在所述音頻和/或視頻通信會(huì)話期間,接收來自所述第二客戶端設(shè)備的第一音頻傳輸,其中,所述第一音頻傳輸由所述第二客戶端設(shè)備以源語言提供,所述源語言不同于與所述第一客戶端設(shè)備相關(guān)聯(lián)的默認(rèn)語言;獲得所述第一客戶端設(shè)備的一個(gè)或多個(gè)當(dāng)前用戶語言屬性,其中,所述一個(gè)或多個(gè)當(dāng)前用戶語言屬性用于指示所述第一客戶端設(shè)備處的所述音頻和/或視頻通信會(huì)話的當(dāng)前語言;根據(jù)所述一個(gè)或多個(gè)當(dāng)前用戶語言屬性確定目標(biāo)語言,所述目標(biāo)語言為推薦用于當(dāng)前所述第一客戶端設(shè)備處的語言,并且若所述目標(biāo)語言不同于與所述第一客戶端設(shè)備相關(guān)聯(lián)的所述默認(rèn)語言,獲得所述源語言的所述第一音頻傳輸從所述源語言到所述目標(biāo)語言的翻譯;以及將所述翻譯呈現(xiàn)給所述第一客戶端設(shè)備處的用戶。
[0005] 在一些實(shí)施例中,一種處理網(wǎng)絡(luò)上的音頻通信的方法包括:在
服務(wù)器處,第一客戶端設(shè)備通過所述網(wǎng)絡(luò)與第二客戶端設(shè)備建立音頻和/或視頻通信會(huì)話,在所述音頻和/或視頻通信會(huì)話期間,接收來自所述第二客戶端設(shè)備的第一音頻傳輸,其中,所述第一音頻傳輸由所述第二客戶端設(shè)備以源語言提供,所述源語言不同于與所述第一客戶端設(shè)備相關(guān)聯(lián)的默認(rèn)語言;獲得所述第一客戶端設(shè)備的一個(gè)或多個(gè)當(dāng)前用戶語言屬性,其中,所述一個(gè)或多個(gè)當(dāng)前用戶語言屬性用于指示所述第一客戶端設(shè)備處的所述音頻和/或視頻通信會(huì)話的當(dāng)前語言;根據(jù)所述一個(gè)或多個(gè)當(dāng)前用戶語言屬性確定目標(biāo)語言,所述目標(biāo)語言為推薦用于當(dāng)前所述第一客戶端設(shè)備處的語言,若所述目標(biāo)語言不同于與所述第一客戶端設(shè)備相關(guān)聯(lián)的所述默認(rèn)語言,獲得所述第一音頻傳輸從所述源語言到所述目標(biāo)語言的翻譯;以及將所述翻譯發(fā)送給所述第一客戶端設(shè)備,其中,將所述翻譯呈現(xiàn)給所述第一客戶端設(shè)備處的用戶。
[0006] 在一些實(shí)施例中,一種處理網(wǎng)絡(luò)上的音頻通信的第一客戶端設(shè)備,在第一客戶端設(shè)備處,所述第一客戶端設(shè)備通過所述網(wǎng)絡(luò)與第二客戶端設(shè)備建立音頻和/或視頻通信會(huì)話,在所述音頻和/或視頻通信會(huì)話期間,所述第一客戶端設(shè)備包括接收單元、獲得單元和呈現(xiàn)單元:
[0007] 所述接收單元,用于接收來自所述第二客戶端設(shè)備的第一音頻傳輸,其中,所述第一音頻傳輸由所述第二客戶端設(shè)備以源語言提供,所述源語言不同于與所述第一客戶端設(shè)備相關(guān)聯(lián)的默認(rèn)語言;
[0008] 所述獲得單元,用于獲得所述第一客戶端設(shè)備的一個(gè)或多個(gè)當(dāng)前用戶語言屬性,其中,所述一個(gè)或多個(gè)當(dāng)前用戶語言屬性用于指示所述第一客戶端設(shè)備處的所述音頻和/或視頻通信會(huì)話的當(dāng)前語言;
[0009] 所述獲得單元還用于,根據(jù)所述一個(gè)或多個(gè)當(dāng)前用戶語言屬性確定目標(biāo)語言,所述目標(biāo)語言為推薦用于當(dāng)前所述第一客戶端設(shè)備處的所述音頻和/或視頻通信會(huì)話的語言,若所述目標(biāo)語言不同于與所述第一客戶端設(shè)備相關(guān)聯(lián)的所述默認(rèn)語言,獲得所述第一音頻傳輸從所述源語言到所述目標(biāo)語言的翻譯;以及
[0010] 所述呈現(xiàn)單元,用于將所述翻譯呈現(xiàn)給所述第一客戶端設(shè)備處的用戶。
[0011] 在一些實(shí)施例中,一種處理網(wǎng)絡(luò)上的音頻通信的服務(wù)器,通過所述服務(wù)器,第一客戶端設(shè)備通過所述網(wǎng)絡(luò)與第二客戶端設(shè)備建立音頻和/或視頻通信會(huì)話,在所述音頻和/或視頻通信會(huì)話期間,所述服務(wù)器包括接收單元、獲得單元和發(fā)送單元:
[0012] 所述接收單元,用于接收來自所述第二客戶端設(shè)備的第一音頻傳輸,其中,所述第一音頻傳輸由所述第二客戶端設(shè)備以源語言提供,所述源語言不同于與所述第一客戶端設(shè)備相關(guān)聯(lián)的默認(rèn)語言;
[0013] 所述獲得單元,用于獲得所述第一客戶端設(shè)備的一個(gè)或多個(gè)當(dāng)前用戶語言屬性,其中,所述一個(gè)或多個(gè)當(dāng)前用戶語言屬性用于指示所述第一客戶端設(shè)備處的所述音頻和/或視頻通信會(huì)話的當(dāng)前語言;
[0014] 所述獲得單元還用于,根據(jù)所述一個(gè)或多個(gè)當(dāng)前用戶語言屬性確定目標(biāo)語言,所述目標(biāo)語言為推薦用于當(dāng)前所述第一客戶端設(shè)備處的語言,若所述目標(biāo)語言不同于與所述第一客戶端設(shè)備相關(guān)聯(lián)的所述默認(rèn)語言,獲得所述第一音頻傳輸從所述源語言到所述目標(biāo)語言的翻譯;
[0015] 所述發(fā)送單元,用于將所述翻譯發(fā)送給所述第一客戶端設(shè)備,其中,將所述翻譯呈現(xiàn)給所述第一客戶端設(shè)備處的用戶。
[0016] 根據(jù)一些實(shí)施例,一種
電子設(shè)備包括顯示器、任選的觸敏表面、任選的用以檢測(cè)與觸敏表面的
接觸強(qiáng)度的一個(gè)或多個(gè)
傳感器、任選的一個(gè)或多個(gè)觸覺輸出發(fā)生器、一個(gè)或多個(gè)處理器和存儲(chǔ)一個(gè)或多個(gè)程序的
存儲(chǔ)器;所述一個(gè)或多個(gè)程序被配置成由所述一個(gè)或多個(gè)處理器執(zhí)行且所述一個(gè)或多個(gè)程序包括指令,所述指令用于執(zhí)行或致使執(zhí)行本文中所描述的任何方法的操作。根據(jù)一些實(shí)施例,一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)具有存儲(chǔ)在其中的指令,所述指令當(dāng)由具有顯示器、任選的觸敏表面、任選的用以檢測(cè)與所述觸敏表面的接觸強(qiáng)度的一個(gè)或多個(gè)傳感器和任選的一個(gè)或多個(gè)觸覺輸出發(fā)生器的電子設(shè)備執(zhí)行時(shí)致使所述設(shè)備執(zhí)行或致使執(zhí)行本文中所描述的任何方法的操作。根據(jù)一些實(shí)施例,在具有顯示器、任選的觸敏表面、任選的用以檢測(cè)與觸敏表面的接觸強(qiáng)度的一個(gè)或多個(gè)傳感器、任選的一個(gè)或多個(gè)觸覺輸出發(fā)生器、存儲(chǔ)器和用以執(zhí)行存儲(chǔ)在存儲(chǔ)器中的一個(gè)或多個(gè)程序的一個(gè)或多個(gè)處理器的電子設(shè)備上的圖形
用戶界面包括本文中所描述的任何方法中所呈現(xiàn)的元件中的一個(gè)或多個(gè),所述元件響應(yīng)于輸入而進(jìn)行更新,如本文中所描述的任何方法中所描述。根據(jù)一些實(shí)施例,一種電子設(shè)備包括:顯示器、任選的觸敏表面、任選的用以檢測(cè)與觸敏表面的接觸強(qiáng)度的一個(gè)或多個(gè)傳感器和任選的一個(gè)或多個(gè)觸覺輸出發(fā)生器;以及用于執(zhí)行或致使執(zhí)行本文中所描述的任何方法的操作的構(gòu)件。根據(jù)一些實(shí)施例,一種用于具有顯示器、任選的觸敏表面、任選的用以檢測(cè)與觸敏表面的接觸強(qiáng)度的一個(gè)或多個(gè)傳感器和任選的一個(gè)或多個(gè)觸覺輸出發(fā)生器的電子設(shè)備中的信息處理設(shè)備包括用于執(zhí)行或致使執(zhí)行本文中所描述的任何方法的操作的構(gòu)件。
[0017] 在一些實(shí)施例中,計(jì)算設(shè)備(例如,圖1、圖2的服務(wù)器系統(tǒng)108、204;圖1和圖2的客戶端設(shè)備104、200、202;或這些服務(wù)器系統(tǒng)和客戶端設(shè)備的組合)包括一個(gè)或多個(gè)處理器和存儲(chǔ)一個(gè)或多個(gè)程序以由所述一個(gè)或多個(gè)處理器執(zhí)行的存儲(chǔ)器,所述一個(gè)或多個(gè)程序包括指令,所述指令用于執(zhí)行或控制執(zhí)行本文中所描述的任何方法的操作。在一些實(shí)施例中,一種非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序包括指令,所述指令在由具有一個(gè)或多個(gè)處理器的計(jì)算設(shè)備(例如,圖1、圖2的服務(wù)器系統(tǒng)108、204;圖1和圖2的客戶端設(shè)備104、200、202;或這些服務(wù)器系統(tǒng)和客戶端設(shè)備的組合)執(zhí)行時(shí)致使所述計(jì)算設(shè)備執(zhí)行或控制執(zhí)行本文中所描述的任何方法的操作。在一些實(shí)施例中,計(jì)算設(shè)備(例如,圖1、圖2的服務(wù)器系統(tǒng)108、204;圖1和圖2的客戶端設(shè)備104、200、202;或這些服務(wù)器系統(tǒng)和客戶端設(shè)備的組合)包括用于執(zhí)行或控制執(zhí)行本文中所描述的任何方法的操作的構(gòu)件。
[0018] 根據(jù)以下描述,本
申請(qǐng)案的各種優(yōu)點(diǎn)顯而易見。
附圖說明
[0019] 在下文中,由于結(jié)合附圖對(duì)優(yōu)選實(shí)施例進(jìn)行詳細(xì)描述,因此將更清楚地理解所公開技術(shù)的前述特征和優(yōu)點(diǎn)以及其額外特征和優(yōu)點(diǎn)。
[0020] 為了更清楚地描述本公開技術(shù)的實(shí)施例或
現(xiàn)有技術(shù)中的技術(shù)方案,下面簡(jiǎn)要介紹描述實(shí)施例或現(xiàn)有技術(shù)所需的附圖。顯然,以下描述中的附圖僅示出了本公開技術(shù)的一些實(shí)施例,并且所屬領(lǐng)域的一般技術(shù)人員仍然可在無需創(chuàng)造性勞動(dòng)的情況下從這些附圖中得出其它圖式。
[0021] 圖1是根據(jù)一些實(shí)施例的服務(wù)器-客戶端環(huán)境的
框圖。
[0022] 圖2A到圖2B是示出根據(jù)一些實(shí)施例的經(jīng)由服務(wù)器在網(wǎng)絡(luò)上建立的第一客戶端設(shè)備與第二客戶端設(shè)備之間的音頻和/或視頻通信會(huì)話的框圖。
[0023] 圖3到圖5是根據(jù)一些實(shí)施例的在網(wǎng)絡(luò)上的音頻和/或視頻通信會(huì)話期間第一客戶端設(shè)備、第二客戶端設(shè)備和服務(wù)器之間的交互的通信時(shí)序圖。
[0024] 圖6A到圖6G示出根據(jù)一些實(shí)施例的處理音頻通信的方法的
流程圖。
[0025] 圖7A到圖7F示出根據(jù)一些實(shí)施例的處理音頻通信的方法的流程圖。
[0026] 圖8是根據(jù)一些實(shí)施例的客戶端設(shè)備的框圖。
[0027] 圖9是根據(jù)一些實(shí)施例的服務(wù)器系統(tǒng)的框圖。
[0028] 在附圖的多個(gè)視圖中,相同的附圖標(biāo)記指代對(duì)應(yīng)的部件。
具體實(shí)施方式
[0029] 現(xiàn)在將詳細(xì)參考實(shí)施例,在附圖中示出所述實(shí)施例的示例。在以下詳細(xì)描述中,闡述許多特定細(xì)節(jié)以便提供對(duì)本文中呈現(xiàn)的主題的透徹理解。但所屬領(lǐng)域的技術(shù)人員將顯而易知,可以在沒有這些特定細(xì)節(jié)的情況下實(shí)踐所述主題。在其它情況下,未詳細(xì)描述眾所周知的方法、程序、組件、和
電路,以免不必要地混淆實(shí)施例的各方面。
[0030] 下文參考本申請(qǐng)案的實(shí)施例中的附圖清楚地并徹底地描述本申請(qǐng)案的實(shí)施例中的技術(shù)方案。顯然,所描述的實(shí)施例僅是本申請(qǐng)案的實(shí)施例的一部分,而非全部的實(shí)施例。所屬領(lǐng)域的一般技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的前提下基于本申請(qǐng)案的實(shí)施例獲得的所有其它實(shí)施例應(yīng)處于本申請(qǐng)案的保護(hù)范圍內(nèi)。
[0031] 如圖1所示,根據(jù)一些實(shí)施例,用于實(shí)時(shí)音頻/視頻通信平臺(tái)的
數(shù)據(jù)處理在服務(wù)器-客戶端環(huán)境100中實(shí)施。根據(jù)一些實(shí)施例,服務(wù)器-客戶端環(huán)境100包括在客戶端設(shè)備104-1、104-2、104-3上執(zhí)行的客戶端側(cè)處理102-1、102-2、102-3(在下文中稱為“客戶端側(cè)模
塊102”)和在服務(wù)器系統(tǒng)108上執(zhí)行的服務(wù)器側(cè)處理106(在下文中稱為“服務(wù)器側(cè)模塊106”)。
客戶端側(cè)模塊102通過一個(gè)或多個(gè)網(wǎng)絡(luò)110與服務(wù)器側(cè)模塊106通信??蛻舳藗?cè)模塊102提供社交網(wǎng)絡(luò)平臺(tái)的客戶端側(cè)功能并與服務(wù)器側(cè)模塊106通信。服務(wù)器側(cè)模塊106為各自駐留在相應(yīng)客戶端設(shè)備104上的任何數(shù)目個(gè)客戶端模塊102提供社交網(wǎng)絡(luò)平臺(tái)的服務(wù)器側(cè)功能。
[0032] 在一些實(shí)施例中,服務(wù)器側(cè)模塊106包括一個(gè)或多個(gè)處理器112(例如,圖9中的處理器902)、會(huì)話
數(shù)據(jù)庫(kù)114、用戶數(shù)據(jù)庫(kù)116、到一個(gè)或多個(gè)客戶端的I/O
接口118和到一個(gè)或多個(gè)外部服務(wù)的I/O接口120。到一個(gè)或多個(gè)客戶端的I/O接口118便于服務(wù)器側(cè)模塊106的面向客戶端的輸入和輸出處理。會(huì)話數(shù)據(jù)庫(kù)114存儲(chǔ)用戶已建立的通信會(huì)話(例如,虛擬會(huì)議室)的預(yù)設(shè)偏好,且用戶數(shù)據(jù)庫(kù)116存儲(chǔ)用于通信平臺(tái)中用戶的用戶配置文件。到一個(gè)或多個(gè)外部服務(wù)的I/O接口120便于與一個(gè)或多個(gè)外部服務(wù)122(例如,網(wǎng)絡(luò)服務(wù)器或基于
云的服務(wù)提供商,例如文件共享和數(shù)據(jù)存儲(chǔ)服務(wù))的通信。
[0033] 客戶端設(shè)備104的示例包括但不限于手持式計(jì)算機(jī)、
可穿戴計(jì)算設(shè)備、
個(gè)人數(shù)字助理(personal?digital?assistant,PDA)、平板計(jì)算機(jī)、膝上型計(jì)算機(jī)、桌上型計(jì)算機(jī)、蜂窩式電話、智能電話、增強(qiáng)型通用包無線電服務(wù)(enhanced?general?packet?radio?service,EGPRS)
移動(dòng)電話、媒體播放器、導(dǎo)航設(shè)備、游戲控制臺(tái)、電視、遙控器、銷售點(diǎn)(point?of?sale,POS)終端、車載計(jì)算機(jī)、電子書閱讀器,或這些數(shù)據(jù)處理設(shè)備或其它數(shù)據(jù)處理設(shè)備中的任何兩個(gè)或兩個(gè)以上的組合。
[0034] 一個(gè)或多個(gè)網(wǎng)絡(luò)110的示例包括局域網(wǎng)(local?area?network,LAN)和廣域網(wǎng)(wide?area?network,WAN),例如因特網(wǎng)。任選地,一個(gè)或多個(gè)網(wǎng)絡(luò)110使用任何已知的網(wǎng)絡(luò)協(xié)議來實(shí)施,包括各種有線或無線協(xié)議,例如以太網(wǎng)、通用
串行總線(Universal?Serial?Bus,USB)、FIREWIRE、長(zhǎng)期演進(jìn)(Long?Term?Evolution,LTE)、全球移動(dòng)通信系統(tǒng)(Global?System?for?Mobile?Communication,GSM)、增強(qiáng)型數(shù)據(jù)GSM環(huán)境(Enhanced?Data?GSM?Environment,EDGE)、碼分多址(code?division?multiple?access,CDMA)、時(shí)分多址(time?division?multiple?access,TDMA)、藍(lán)牙、Wi-Fi、因特網(wǎng)協(xié)議上話音(voice?over?Internet?Protocol,VoIP)、Wi-MAX,或任何其它合適的通信協(xié)議。
[0035] 服務(wù)器系統(tǒng)108實(shí)施于一個(gè)或多個(gè)獨(dú)立式數(shù)據(jù)處理裝置或分布式
計(jì)算機(jī)網(wǎng)絡(luò)上。在一些實(shí)施例中,服務(wù)器系統(tǒng)108還使用第三方服務(wù)提供商(例如,第三方云服務(wù)提供商)的各種虛擬設(shè)備和/或服務(wù)來提供服務(wù)器系統(tǒng)108的底層計(jì)算資源和/或
基礎(chǔ)設(shè)施資源。在一些實(shí)施例中,服務(wù)器系統(tǒng)108包括但不限于手持式計(jì)算機(jī)、平板計(jì)算機(jī)、膝上型計(jì)算機(jī)、桌上型計(jì)算機(jī),或這些數(shù)據(jù)處理設(shè)備或其它數(shù)據(jù)處理設(shè)備中的任何兩個(gè)或兩個(gè)以上的組合。
[0036] 服務(wù)器系統(tǒng)108還實(shí)施各種模塊以用于支持實(shí)時(shí)音頻/視頻通信,例如位于不同
位置的多個(gè)用戶在在線虛擬會(huì)議室中的通信,所述模塊包括音頻/視頻服務(wù)模塊124、語音轉(zhuǎn)文本模塊126和翻譯服務(wù)模塊128等等。
[0037] 圖1中示出的服務(wù)器-客戶端環(huán)境100包括客戶端側(cè)部分(例如,客戶端側(cè)模塊102)和服務(wù)器側(cè)部分(例如,服務(wù)器側(cè)模塊106)。在一些實(shí)施例中,數(shù)據(jù)處理被實(shí)施為安裝在客戶端設(shè)備104上的獨(dú)立應(yīng)用程序。另外,客戶端-服務(wù)器環(huán)境100的客戶端部分與服務(wù)器部分之間的功能劃分可在不同實(shí)施例中變化。舉例來說,在一些實(shí)施例中,客戶端側(cè)模塊102是精簡(jiǎn)客戶端,僅提供面向用戶的輸入和輸出處理功能,并將所有其它數(shù)據(jù)處理功能委派給后端服務(wù)器(例如,服務(wù)器系統(tǒng)108)。盡管從服務(wù)器的
角度描述了本技術(shù)的許多方面,但所屬領(lǐng)域的技術(shù)人員在無需任何創(chuàng)造性勞動(dòng)的情況下會(huì)明白客戶端設(shè)備執(zhí)行的對(duì)應(yīng)動(dòng)作。此外,本技術(shù)的一些方面可由服務(wù)器、客戶端設(shè)備或服務(wù)器和客戶端協(xié)作執(zhí)行。
[0038] 現(xiàn)在將注意
力轉(zhuǎn)向可在客戶端設(shè)備104上實(shí)施的用戶接口和相關(guān)聯(lián)過程的實(shí)施例。
[0039] 圖2A到圖2B是示出根據(jù)一些實(shí)施例的經(jīng)由服務(wù)器在網(wǎng)絡(luò)上建立的第一客戶端設(shè)備(例如,客戶端設(shè)備A)與第二客戶端設(shè)備(例如,客戶端設(shè)備B)之間的音頻和/或視頻通信會(huì)話的框圖。
[0040] 如圖2A中所示,在一些實(shí)施例中,客戶端設(shè)備A200(例如,圖1中的客戶端設(shè)備104-1)(例如,客戶端設(shè)備A200可以為智能電話或計(jì)算機(jī))的用戶A需要經(jīng)由音頻和/或視頻通信會(huì)話與客戶端設(shè)備B?202(例如,客戶端設(shè)備104-2)的用戶B進(jìn)行對(duì)話??蛻舳嗽O(shè)備A將音頻/視頻通信
請(qǐng)求(例如,經(jīng)由客戶端側(cè)模塊102-1)發(fā)送給服務(wù)器204(例如,服務(wù)器系統(tǒng)108)。
響應(yīng)于接收到該請(qǐng)求,服務(wù)器將所述請(qǐng)求傳輸?shù)娇蛻舳嗽O(shè)備B。當(dāng)客戶端設(shè)備B接收到該請(qǐng)求時(shí),任選地在客戶端設(shè)備B上(例如,在客戶端側(cè)模塊102-2的用戶界面中)顯示呼叫提示。
如果用戶B接受呼叫請(qǐng)求(例如,當(dāng)在客戶端設(shè)備B上示出的用戶界面中選擇“接受”按鈕206時(shí)),那么用戶B已接受客戶端設(shè)備A發(fā)送的音頻/視頻通信請(qǐng)求的指示會(huì)被發(fā)送給用戶A。舉例來說,客戶端設(shè)備B將接受指令發(fā)送給服務(wù)器。當(dāng)服務(wù)器接收到該接受指令時(shí),服務(wù)器建立支持客戶端設(shè)備A到客戶端設(shè)備B之間的音頻/視頻傳輸?shù)囊纛l/視頻通信會(huì)話。在一些實(shí)施例中,服務(wù)器提供服務(wù)(例如,音頻/視頻傳輸服務(wù)、語音轉(zhuǎn)文本服務(wù)、翻譯服務(wù)、文件共享服務(wù)等等)。在一些實(shí)施例中,如果用戶B拒絕音頻/視頻通信請(qǐng)求(例如,選擇“拒絕”按鈕
207),那么服務(wù)器會(huì)終止請(qǐng)求并將指示呼叫請(qǐng)求被拒絕的響應(yīng)發(fā)送給客戶端設(shè)備A。
[0041] 圖2B示出了在建立通信會(huì)話之后(例如,以圖2A中所示的方式),客戶端設(shè)備A與客戶端設(shè)備B之間的示范性音頻和/或視頻通信會(huì)話。盡管在通信會(huì)話中由參與方之一(例如,用戶A)建立,但圖2B中所示的示例交換可在任一方向上,其中兩個(gè)設(shè)備的角色顛倒過來。
[0042] 在一個(gè)示例中,首先,用戶B經(jīng)由客戶端設(shè)備B與用戶A通信??蛻舳嗽O(shè)備B從用戶B接收以第一源語言說出的連續(xù)語音輸入(例如,用戶B用英語說“How?are?you!”)和/或捕獲在客戶端設(shè)備B前的用戶B的圖像(例如,經(jīng)由客戶端設(shè)備B上的攝像頭213捕獲用戶B的面部圖像)。客戶端設(shè)備B將已被捕獲的音頻和/或視頻作為去往客戶端設(shè)備A的一個(gè)或多個(gè)傳輸(例如,包、消息等等)或數(shù)據(jù)流(例如,示出為第一音頻/視頻傳輸215)傳輸?shù)椒?wù)器。第一音頻/視頻傳輸包括從用戶B接收的連續(xù)語音輸入和所捕獲圖像流。在一些實(shí)施例中,客戶端設(shè)備A與B之間的通信會(huì)話僅為沒有視頻通信的音頻通信會(huì)話。
[0043] 在圖2B示出的一些實(shí)施例中,當(dāng)服務(wù)器接收到客戶端設(shè)備B的音頻/視頻服務(wù)模塊217發(fā)送的第一音頻/視頻傳輸時(shí),服務(wù)器將第一視頻傳輸發(fā)送給客戶端設(shè)備A并將第一音頻傳輸發(fā)送給
語音識(shí)別服務(wù)模塊219(例如,由服務(wù)器或第三方服務(wù)提供商提供的語音識(shí)別服務(wù)模塊)。語音識(shí)別服務(wù)模塊219對(duì)第一音頻傳輸執(zhí)行語音轉(zhuǎn)文本處理以生成源語言的文本串,并將源語言的文本串發(fā)送給翻譯服務(wù)模塊221(例如,服務(wù)器或第三方服務(wù)提供商提供的翻譯模塊)。翻譯服務(wù)模塊221將從第一視頻傳輸生成的文本串從源語言(例如,從客戶端設(shè)備B接收或以其它方式由服務(wù)器確定的源語言類型)翻譯成目標(biāo)語言(例如,從客戶端設(shè)備A接收或以其它方式由服務(wù)器確定的目標(biāo)語言類型)的文本串、發(fā)送從第一音頻傳輸生成的文本串的翻譯,以及任選地,將原始的第一音頻傳輸和源語言的文本串發(fā)送給客戶端設(shè)備A。在一些實(shí)施例中,翻譯呈文本形式。在一些實(shí)施例中,翻譯適于語音形式。在一些實(shí)施例中,將文本形式和語音形式一起發(fā)送給客戶端設(shè)備A。在一些實(shí)施例中,移除第一音頻傳輸?shù)脑家纛l并用音頻翻譯替換。在一些實(shí)施例中,文本翻譯作為隱藏字幕添加到原始音頻傳輸。在一些實(shí)施例中,源語言的文本串作為隱藏字幕被添加。當(dāng)客戶端設(shè)備A接收到第一音頻傳輸?shù)姆g以及源語言的第一音頻傳輸和文本串時(shí),客戶端設(shè)備A將翻譯以及任選地源語言的文本串和音頻呈現(xiàn)給用戶A(例如,翻譯顯示在客戶端設(shè)備A的顯示器208上)(例如,示出為顯示屏幕208上顯示的呈中文223形式的翻譯“你好”,和呈英語225形式的源語言“how?are?you”)。
[0044] 在一些實(shí)施例中,當(dāng)客戶端設(shè)備A和客戶端設(shè)備B已通過因特網(wǎng)建立實(shí)時(shí)視頻通信會(huì)話時(shí),存在用于在客戶端設(shè)備A上呈現(xiàn)用戶A的圖形的小顯示框(例如,示出為227)和用于在客戶端設(shè)備A上呈現(xiàn)用戶B的圖形的大顯示框229(例如,示出為229)。在一些實(shí)施例中,對(duì)于每個(gè)設(shè)備的當(dāng)前識(shí)別的源語言的指示與設(shè)備的顯示框相關(guān)聯(lián)地顯示。舉例來說,客戶端設(shè)備A處的顯示框227具有指示中文是客戶端設(shè)備A處當(dāng)前使用的源語言的指示,且客戶端設(shè)備A處的顯示框229具有指示英語是客戶端設(shè)備B處當(dāng)前使用的源語言的指示。
[0045] 在一些實(shí)施例中,存在客戶端設(shè)備A處指定有默認(rèn)語言。舉例來說,在一些實(shí)施例中,客戶端設(shè)備A的默認(rèn)語言由服務(wù)器針對(duì)客戶端設(shè)備A自動(dòng)選擇或者是優(yōu)選語言,在視頻通信會(huì)話開始之前,用戶A已經(jīng)在客戶端設(shè)備A的語言設(shè)置中指定了所述優(yōu)選語言。例如,用戶A是中國(guó)用戶,且用戶A可在客戶端設(shè)備A的語言設(shè)置中將其設(shè)備的默認(rèn)語言預(yù)先指定為中文。再例如,當(dāng)設(shè)置應(yīng)用程序時(shí),默認(rèn)語言由服務(wù)器指定。在一些實(shí)施例中,到建立音頻/視頻通信會(huì)話時(shí),用戶A或服務(wù)器尚未設(shè)置默認(rèn)語言。
[0046] 在一些實(shí)施例中,當(dāng)翻譯服務(wù)模塊檢測(cè)到來自客戶端設(shè)備B的第一音頻傳輸中包括的源語言與客戶端設(shè)備A的默認(rèn)語言不同時(shí),翻譯服務(wù)模塊或服務(wù)器從客戶端設(shè)備A獲得用戶A的一個(gè)或多個(gè)用戶語言屬性(例如,用戶的面部特征、客戶端設(shè)備A的地理位置信息、在客戶端設(shè)備A本地接收的音頻消息等等),并將源語言中的語音翻譯成根據(jù)客戶端設(shè)備A的用戶語言屬性確定的目標(biāo)語言。目標(biāo)語言有時(shí)不同于在建立通信會(huì)話之前針對(duì)客戶端設(shè)備預(yù)先指定的默認(rèn)語言,并且對(duì)目標(biāo)語言的確定是基于在建立通信會(huì)話之后或正在建立通信會(huì)話時(shí)的用戶語言屬性實(shí)時(shí)收集。舉例來說,使
用例如英語的源語言的用戶B在客戶端設(shè)備B處說話,已經(jīng)通過在設(shè)置界面中的先前用戶輸入將客戶端設(shè)備A的默認(rèn)語言指定為日語。然而,服務(wù)器在確定客戶端設(shè)備A的用戶語言屬性時(shí),確定當(dāng)前用戶A可能不是說日語者或不能夠理解日語。服務(wù)器改為確定客戶端設(shè)備A處的用戶是講中文的用戶并且懂中文。然后,翻譯服務(wù)模塊使用英語作為源語言并使用中文作為目標(biāo)語言來翻譯在客戶端設(shè)備B處接收的語音。
[0047] 在一些實(shí)施例中,通過在客戶端設(shè)備A處獲得用戶A的面部特征并獲得客戶端設(shè)備A的地理位置信息,客戶端設(shè)備A獲得客戶端設(shè)備A的一個(gè)或多個(gè)當(dāng)前用戶語言屬性。面部特征任選地包括指示用戶A的種族或
國(guó)籍的種族特征(例如,眼睛
顏色、面部結(jié)構(gòu)、頭發(fā)顏色等等),或用于確定當(dāng)前正使用客戶端設(shè)備A的用戶A是否不同于設(shè)置客戶端設(shè)備A的默認(rèn)語言的用戶的面部特征。第一客戶端設(shè)備的地理位置信息任選地包括客戶端設(shè)備A的當(dāng)前位置和當(dāng)前時(shí)間之前的預(yù)設(shè)時(shí)間段的歷史位置,或客戶端設(shè)備A的預(yù)先存儲(chǔ)的位置。舉例來說,在一些實(shí)施例中,客戶端設(shè)備A捕獲在客戶端設(shè)備A處說話和/或收聽的用戶A的面部特征、獲得客戶端設(shè)備A的當(dāng)前地理位置信息。
[0048] 在一些實(shí)施例中,客戶端設(shè)備A處的用戶的面部特征和客戶端設(shè)備A的地理位置信息組合用以將目標(biāo)語言(例如,中文)推薦為客戶端設(shè)備A所用的當(dāng)前語言,而非與客戶端設(shè)備A相關(guān)聯(lián)的默認(rèn)語言(例如,日語)。舉例來說,客戶端設(shè)備A基于面部特征確定當(dāng)前用戶A是白種人,并確定客戶端設(shè)備A的當(dāng)前位置位于北美?;诜N族和地理位置信息的組合,客戶端設(shè)備A表明,客戶端設(shè)備A處使用的當(dāng)前語言可能為英語,且因此使用英語作為當(dāng)前使用客戶端設(shè)備A的用戶的翻譯目標(biāo)語言。在一些實(shí)施例中,如果已經(jīng)通過設(shè)置界面中的先前用戶輸入指定了客戶端設(shè)備A的默認(rèn)語言,那么客戶端設(shè)備A要求當(dāng)前收集的面部特征和/或地理位置信息中的至少一個(gè)指示當(dāng)前用戶與指定客戶端設(shè)備A的默認(rèn)語言的用戶不同。在一些實(shí)施例中,僅在客戶端設(shè)備A接收到所推薦的目標(biāo)語言是正確的推薦的確認(rèn)之后,才在客戶端設(shè)備A處向用戶提供從源語言到目標(biāo)語言的翻譯。
[0049] 在一些實(shí)施例中,在客戶端設(shè)備A收集面部特征和地理位置信息并將所收集的信息發(fā)送給服務(wù)器之后,由通信會(huì)話的服務(wù)器執(zhí)行目標(biāo)語言的確定。在一些實(shí)施例中,基于在服務(wù)器上訓(xùn)練的數(shù)據(jù)模型確定目標(biāo)語言,然后將目標(biāo)語言存儲(chǔ)在客戶端設(shè)備A處。在一些實(shí)施例中,在客戶端設(shè)備A確定目標(biāo)語言將替代默認(rèn)語言作為在客戶端設(shè)備A處使用的所認(rèn)可當(dāng)前語言之前,客戶端設(shè)備A呈現(xiàn)來自客戶端設(shè)備A處的用戶的確認(rèn)請(qǐng)求。
[0050] 在一些實(shí)施例中,客戶端設(shè)備A在本地確定目標(biāo)語言而不需將面部特征和地理位置信息傳輸?shù)椒?wù)器,這有助于保護(hù)用戶隱私并減少服務(wù)器負(fù)載。
[0051] 在一些實(shí)施例中,通過獲得在音頻和/或視頻通信會(huì)話期間在客戶端設(shè)備A本地接收的音頻輸入,客戶端設(shè)備A獲得客戶端設(shè)備A的一個(gè)或多個(gè)當(dāng)前用戶語言屬性。在語言學(xué)上分析(例如,使用語言模型或語音模型來確定所說的語言)在客戶端設(shè)備A本地接收的音頻輸入以將目標(biāo)語言推薦為在客戶端設(shè)備A處使用的當(dāng)前語言。舉例來說,客戶端設(shè)備A或服務(wù)器將音頻輸入的語言類型識(shí)別為英語,并確定在客戶端設(shè)備A處使用的當(dāng)前語言是英語,且客戶端設(shè)備A或服務(wù)器將推薦客戶端設(shè)備A的目標(biāo)語言為英語,而不是錯(cuò)誤地將當(dāng)前與客戶端設(shè)備A相關(guān)聯(lián)的默認(rèn)語言當(dāng)作客戶端設(shè)備A處使用的當(dāng)前語言。
[0052] 圖3是建立音頻和/或視頻通信會(huì)話的客戶端設(shè)備A與第二客戶端設(shè)備B之間通過服務(wù)器在網(wǎng)絡(luò)上的交互的通信時(shí)序圖。在一些實(shí)施例中,首先,客戶端設(shè)備A通過服務(wù)器(例如,或者直接而非通過服務(wù)器)將音頻/視頻通信會(huì)話請(qǐng)求發(fā)送給第二客戶端設(shè)備B,由302到304示出。當(dāng)客戶端設(shè)備B接受請(qǐng)求時(shí)(示出為306),服務(wù)器建立客戶端設(shè)備A與客戶端設(shè)備B之間的音頻和/或視頻通信會(huì)話的連接(示出為308)。還參照?qǐng)D2A描述了從302到308的步驟。
[0053] 當(dāng)客戶端設(shè)備B將以用戶B的源語言說出的第一音頻/視頻傳輸發(fā)送給服務(wù)器時(shí)(示出為310),服務(wù)器對(duì)源語言的第一音頻傳輸執(zhí)行語音轉(zhuǎn)文本識(shí)別,以生成客戶端設(shè)備B的源語言的文本表示(示出為312)。在服務(wù)器將源語言的文本串翻譯成目標(biāo)語言的文本串之前,服務(wù)器確定客戶端設(shè)備B的源語言是不同于已由服務(wù)器針對(duì)客戶端設(shè)備A自動(dòng)選擇的默認(rèn)語言還是優(yōu)選語言,在視頻通信會(huì)話開始之前,用戶已經(jīng)在客戶端設(shè)備A的語言設(shè)置中指定了所述優(yōu)選語言。如果確定源語言不同于客戶端設(shè)備A的默認(rèn)語言(示出為314),那么服務(wù)器將第一音頻傳輸從源語言翻譯成根據(jù)客戶端設(shè)備A的當(dāng)前用戶語言屬性確定的目標(biāo)語言(例如,參照?qǐng)D2A和圖2B所描述)(示出為316)。在一些實(shí)施例中,如果客戶端設(shè)備B的源語言與客戶端設(shè)備A的默認(rèn)語言相同,那么服務(wù)器將不執(zhí)行任何翻譯。
[0054] 在服務(wù)器完成第一音頻傳輸從源語言到目標(biāo)語言的翻譯之后,服務(wù)器將源語言的第一音頻傳輸和原始音頻的翻譯的文本表示發(fā)送給客戶端設(shè)備A(示出為322)??蛻舳嗽O(shè)備A接收源語言的第一音頻傳輸和原始音頻的翻譯的文本表示,并在顯示器上呈現(xiàn)文本表示(例如圖2B中223和225所示)。
[0055] 在一些實(shí)施例中,服務(wù)器根據(jù)用戶B的聲音特性生成模擬的第一音頻傳輸,所述模擬的第一音頻傳輸包括第一音頻傳輸?shù)姆g,并將模擬的第一音頻傳輸發(fā)送給客戶端設(shè)備A(示出為324和326)。舉例來說,服務(wù)器獲得第一音頻傳輸中的話音的聲音特性。聲音特性任選地包括聲紋或一組預(yù)定義的特性,例如人的話音的
頻率、
音調(diào)、音高、持續(xù)時(shí)間、振幅等等。在一些實(shí)施例中,根據(jù)從第一音頻傳輸獲得的聲音特性指示原始的第一音頻傳輸是由男性、女性還是兒童說出,使用男性、女性或兒童的通用話音生成模擬的第一音頻傳輸。在一些實(shí)施例中,模擬的第一音頻傳輸緊密地模仿原始的第一音頻傳輸?shù)脑捯簟?/div>
[0056] 在一些實(shí)施例中,服務(wù)器根據(jù)服務(wù)器負(fù)載(例如,處理能力、存儲(chǔ)器和網(wǎng)絡(luò)帶寬)和音頻傳輸在客戶端設(shè)備處被接收的速率,自動(dòng)地在使用通用話音或特殊模擬的話音之間切換以說出翻譯。舉例來說,當(dāng)服務(wù)器負(fù)載高于預(yù)定義
閾值時(shí),以根據(jù)原始的第一音頻傳輸?shù)穆曇籼匦缘男∽蛹?例如,僅主頻率和音高)生成的話音提供模擬的第一音頻傳輸;且當(dāng)服務(wù)器負(fù)載低于預(yù)定義閾值時(shí),以根據(jù)原始的第一音頻傳輸?shù)穆曇籼匦缘妮^大子集(例如,更寬范圍的頻率、音高、振幅等等)生成的話音提供模擬的第一音頻傳輸。
[0057] 在一些實(shí)施例中,在接收到模擬的第一音頻傳輸之后,客戶端設(shè)備A在顯示器上呈現(xiàn)翻譯的文本表示,并在客戶端設(shè)備A處為用戶A輸出模擬的第一音頻傳輸。舉例來說,在客戶端設(shè)備A處播放目標(biāo)語言的模擬的第一音頻傳輸,代替源語言的原始的第一音頻傳輸。在一些實(shí)施例中,在客戶端設(shè)備A處的視頻傳輸?shù)?a href='/zhuanli/list-14998-1.html' target='_blank'>片段的播放被延遲,使得從第二客戶端設(shè)備接收的視頻傳輸與在客戶端設(shè)備A處的模擬的第一音頻傳輸?shù)牟シ磐健?/div>
[0058] 圖4是當(dāng)將音頻傳輸發(fā)送給客戶端設(shè)備A時(shí)在客戶端設(shè)備B處進(jìn)行的處理的示例。
[0059] 在一些實(shí)施例中,當(dāng)用戶B在客戶端設(shè)備B處說話時(shí)(例如,如圖2B中所示),客戶端設(shè)備B檢測(cè)位于客戶端設(shè)備B處的用戶B的連續(xù)語音輸入,并將連續(xù)語音輸入的第一開始時(shí)間(例如,圖4中的開始時(shí)間st1)標(biāo)記為在客戶端設(shè)備B處檢測(cè)到的第一音頻段的開頭。當(dāng)客戶端設(shè)備B檢測(cè)到連續(xù)語音輸入中的第一預(yù)定義中斷(例如,圖4中的中斷bk1)時(shí),客戶端設(shè)備將第一預(yù)定義中斷bk1的第一結(jié)束時(shí)間(例如,圖4中的結(jié)束時(shí)間et1)標(biāo)記為第一音頻段的結(jié)尾。在一些實(shí)施例中,連續(xù)語音輸入被定義為連續(xù)話音輸入流,僅包括小于預(yù)定義語音輸入終止時(shí)間閾值的短暫中斷。當(dāng)超過語音輸入終止時(shí)間閾值而未檢測(cè)到話音輸入時(shí),認(rèn)為連續(xù)語音輸入終止。語音輸入終止時(shí)間閾值長(zhǎng)于用于識(shí)別連續(xù)語音輸入中的中斷的預(yù)定義時(shí)間閾值;且用于檢測(cè)連續(xù)語音輸入中的中斷的時(shí)間閾值長(zhǎng)于句子中的單詞之間或句子中的兩個(gè)子句之間的估計(jì)自然暫停。
[0060] 在一些實(shí)施例中,在檢測(cè)到連續(xù)語音輸入中的第一預(yù)定義中斷bk1之后,客戶端B將第一音頻段轉(zhuǎn)換成第一音頻包并將第一音頻包發(fā)送給服務(wù)器(示出為412)。然后,服務(wù)器對(duì)第一音頻包執(zhí)行語音轉(zhuǎn)文本識(shí)別并將第一音頻段從源語言翻譯成目標(biāo)語言(示出為414)。服務(wù)器將第一音頻段的翻譯發(fā)送給客戶端設(shè)備A,用于在客戶端設(shè)備A處呈現(xiàn)翻譯(示出為416和418)。在一些實(shí)施例中,音頻包是根據(jù)預(yù)定義格式(例如Roshal?ARchive(RAR)文件)編碼和壓縮的音頻輸入流的片段。
[0061] 在一些實(shí)施例中,在生成第一音頻包并發(fā)送第一音頻包時(shí)(在步驟412處),客戶端設(shè)備B繼續(xù)檢測(cè)位于客戶端設(shè)備B處的用戶的連續(xù)語音輸入。在生成并發(fā)送第一音頻包時(shí)檢測(cè)到的連續(xù)語音輸入的至少一部分作為第一音頻傳輸?shù)牡诙糠职ㄔ诘谝灰纛l傳輸中。舉例來說,當(dāng)繼續(xù)檢測(cè)連續(xù)語音輸入時(shí),客戶端設(shè)備B檢測(cè)客戶端設(shè)備B處的連續(xù)語音輸入中的第二預(yù)定義中斷(例如,圖4中第二音頻段段2結(jié)束時(shí)的中斷bk2)??蛻舳嗽O(shè)備B將第一預(yù)定義中斷bk1的結(jié)束時(shí)間標(biāo)記為第二音頻段的第二開始時(shí)間(例如,圖4中段2的開始時(shí)間st2),并將第二預(yù)定義中斷的第二結(jié)束時(shí)間(例如,圖4中段2的結(jié)束時(shí)間et2)標(biāo)記為在客戶端設(shè)備B處檢測(cè)到的第二音頻段的結(jié)尾??蛻舳嗽O(shè)備B生成第二音頻包以包括第二音頻段,并將第二音頻包發(fā)送給客戶端設(shè)備A(例如,圖4中422到428所示)。
[0062] 只要尚未檢測(cè)到連續(xù)語音輸入的終止,上述過程繼續(xù),并在連續(xù)語音輸入中檢測(cè)更多音頻段,每個(gè)音頻段用相應(yīng)的開始時(shí)間戳(和任選地,相應(yīng)的結(jié)束時(shí)間戳)標(biāo)記、轉(zhuǎn)換成相應(yīng)的音頻包,并根據(jù)音頻段相應(yīng)的開始時(shí)間戳依序發(fā)送給客戶端設(shè)備A。因此,包括第一音頻段和第二音頻段的兩個(gè)或兩個(gè)以上的音頻段從第一音頻傳輸?shù)脑凑Z言翻譯成針對(duì)客戶端設(shè)備A確定的目標(biāo)語言,以便在客戶端設(shè)備A處呈現(xiàn)。舉例來說,第一音頻傳輸包括在單獨(dú)的音頻包中接收到的一個(gè)或多個(gè)句子,所述單獨(dú)的音頻包分別到達(dá)服務(wù)器且具有不同報(bào)頭和時(shí)間戳,每個(gè)句子分別從第一音頻傳輸?shù)脑凑Z言翻譯成針對(duì)客戶端設(shè)備A確定的目標(biāo)語言,且在客戶端設(shè)備A處呈現(xiàn)翻譯。
[0063] 在一些實(shí)施例中,當(dāng)在客戶端設(shè)備B處捕獲連續(xù)語音輸入時(shí),客戶端設(shè)備B使用客戶端設(shè)備B處的攝像頭連續(xù)地捕獲視頻,并用兩個(gè)或兩個(gè)以上的音頻段的相應(yīng)的開始時(shí)間戳(和任選地,相應(yīng)的結(jié)束時(shí)間戳)來標(biāo)記連續(xù)捕獲的視頻,其中客戶端設(shè)備A(或服務(wù)器)使用相應(yīng)的開始時(shí)間戳(和任選地,相應(yīng)的結(jié)束時(shí)間戳)來同步視頻的呈現(xiàn)和客戶端設(shè)備A處的兩個(gè)或兩個(gè)以上的音頻段的相應(yīng)翻譯。
[0064] 圖5是客戶端設(shè)備A與客戶端設(shè)備B之間在網(wǎng)絡(luò)上的音頻和/或視頻通信會(huì)話期間的示例服務(wù)器側(cè)處理的時(shí)序圖。在一些實(shí)施例中,服務(wù)器204包括音頻/視頻服務(wù)器502、語音識(shí)別服務(wù)器504和翻譯服務(wù)器506。在一些實(shí)施例中,服務(wù)器502、504和506由提供所述功能的服務(wù)器204的子模塊替換。
[0065] 在一些實(shí)施例中,在音頻和/或視頻通信會(huì)話期間,音頻/視頻服務(wù)器從客戶端設(shè)備B接收用戶B說出的源語言的第一音頻/視頻傳輸(示出為511),并將第一音頻傳輸發(fā)送給語音識(shí)別服務(wù)器(示出為513)。所述語音識(shí)別服務(wù)器識(shí)別第一音頻傳輸并根據(jù)存儲(chǔ)在語音識(shí)別服務(wù)器處的語音識(shí)別庫(kù)或語言模型以源語言生成文本表示(示出為515),并以源語言將文本表示發(fā)送給翻譯服務(wù)器(示出為517),用于準(zhǔn)備將文本表示從源語言翻譯成已針對(duì)客戶端設(shè)備A確定的目標(biāo)語言。然后,翻譯服務(wù)器將目標(biāo)語言請(qǐng)求發(fā)送給音頻/視頻服務(wù)器(示出為519),用于確定是否需要翻譯傳輸,且如果需要,應(yīng)翻譯成何種目標(biāo)語言(例如,確定源語言是否與目標(biāo)語言或默認(rèn)語言相同)。
[0066] 音頻/視頻服務(wù)器確定來自客戶端設(shè)備A的用戶語言屬性,并將目標(biāo)語言推薦為在客戶端設(shè)備A處使用的當(dāng)前語言(示出為521)。在一些實(shí)施例中,音頻/視頻服務(wù)器接收客戶端設(shè)備A處的當(dāng)前用戶的面部特征和客戶端設(shè)備A的當(dāng)前地理位置,并確定當(dāng)前用戶的面部特征與客戶端設(shè)備A的當(dāng)前地理位置之間的關(guān)系(例如,面部特征是否表明與第一客戶端設(shè)備的當(dāng)前地理位置充分相關(guān)(例如,根據(jù)預(yù)定義準(zhǔn)則)的種族或國(guó)籍)。當(dāng)確定所述關(guān)系符合預(yù)定義準(zhǔn)則時(shí),音頻/視頻服務(wù)器推薦目標(biāo)語言。舉例來說,如果面部特征和地理位置都與同一語言相關(guān),則推薦將所述語言作為目標(biāo)語言。在一些實(shí)施例中,音頻/視頻服務(wù)器接收已在客戶端設(shè)備A本地接收到的音頻消息(例如,來自客戶端設(shè)備A處的用戶的口頭指令或從用戶A接收的作為音頻/視頻通信會(huì)話的一部分的語音輸入),并分析音頻消息的語言特性。然后,根據(jù)音頻消息的語言特性的分析結(jié)果,音頻/視頻服務(wù)器可推薦供翻譯服務(wù)器使用的目標(biāo)語言。
[0067] 音頻/視頻服務(wù)器將所推薦的目標(biāo)語言發(fā)送給翻譯服務(wù)器(示出為523)。然后,翻譯服務(wù)器將第一音頻傳輸從源語言翻譯成音頻/視頻服務(wù)器推薦的目標(biāo)語言,并將第一音頻傳輸?shù)姆g發(fā)送給客戶端設(shè)備A,以在客戶端設(shè)備A處呈現(xiàn)翻譯結(jié)果(例如,在第一客戶端設(shè)備處提供翻譯的文本表示和聽覺表示)。
[0068] 在一些實(shí)施例中,語音識(shí)別服務(wù)器識(shí)別第一音頻傳輸中的話音的聲音特性(示出為531),并根據(jù)第一音頻傳輸中的話音的聲音特性生成模擬的第一音頻傳輸(示出為533)和第一音頻傳輸?shù)姆g。聲音特性可包括聲紋或一組預(yù)定義的特性,例如人的話音的頻率、音調(diào)、音高、持續(xù)時(shí)間、振幅等等。在由語音識(shí)別服務(wù)器生成的模擬的第一音頻傳輸之后,語音識(shí)別服務(wù)器將模擬的第一音頻傳輸發(fā)送給客戶端設(shè)備A(示出為535),用于呈現(xiàn)模擬的第一音頻傳輸?shù)姆g。
[0069] 圖6A到圖6G示出在兩個(gè)或兩個(gè)以上的客戶端設(shè)備之間提供音頻通信會(huì)話的方法600的流程圖。在一些實(shí)施例中,方法600由第一客戶端設(shè)備結(jié)合服務(wù)器或獨(dú)立于服務(wù)器來執(zhí)行。舉例來說,在一些實(shí)施例中,方法600由客戶端設(shè)備104-1(例如,客戶端側(cè)模塊102-1)結(jié)合服務(wù)器系統(tǒng)108(圖1到圖2)或服務(wù)器系統(tǒng)組件(例如,服務(wù)器側(cè)模塊106,圖1到圖2)來執(zhí)行。在一些實(shí)施例中,方法600由存儲(chǔ)在非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中的指令控管,且指令由客戶端和服務(wù)器系統(tǒng)的一個(gè)或多個(gè)處理器執(zhí)行。任選的操作由虛線(例如,具有虛線邊框的框)指示。
[0070] 在處理網(wǎng)絡(luò)上的音頻通信的方法600中,第一客戶端設(shè)備已通過網(wǎng)絡(luò)與第二客戶端設(shè)備建立音頻和/或視頻通信會(huì)話(例如,第一設(shè)備的用戶和第二設(shè)備的用戶已通過在線電話會(huì)議服務(wù)提供商的服務(wù)器在因特網(wǎng)上建立實(shí)時(shí)視頻會(huì)議)。在音頻和/或視頻通信會(huì)話期間:第一客戶端設(shè)備從第二客戶端設(shè)備接收(602)第一音頻傳輸(例如,通過視頻會(huì)議服務(wù)的服務(wù)器),其中,第一音頻傳輸由第二客戶端設(shè)備以不同于與第一客戶端設(shè)備相關(guān)聯(lián)的默認(rèn)語言(例如,由服務(wù)器針對(duì)第一客戶端設(shè)備自動(dòng)選擇的默認(rèn)語言,或在視頻通信會(huì)話開始之前,用戶已經(jīng)在第一客戶端設(shè)備的語言設(shè)置中指定的優(yōu)選語言)的源語言提供。第一客戶端設(shè)備獲得(604)第一客戶端設(shè)備的一個(gè)或多個(gè)當(dāng)前用戶語言屬性(例如,用戶的面部特征、地理位置信息、本地接收的音頻消息等等),其中,一個(gè)或多個(gè)當(dāng)前用戶語言屬性指示用于第一客戶端設(shè)備處的音頻和/或視頻通信會(huì)話的當(dāng)前語言。當(dāng)確定一個(gè)或多個(gè)當(dāng)前用戶語言屬性推薦當(dāng)前用于第一客戶端設(shè)備處的音頻和/或視頻通信會(huì)話的目標(biāo)語言,并且確定目標(biāo)語言不同于與第一客戶端設(shè)備相關(guān)聯(lián)的默認(rèn)語言時(shí)(606):第一客戶端設(shè)備獲得(608)源語言的第一音頻傳輸從源語言到目標(biāo)語言的翻譯;且第一客戶端設(shè)備將目標(biāo)語言的第一音頻傳輸?shù)姆g呈現(xiàn)(610)給第一客戶端設(shè)備處的用戶。舉例來說,在一些實(shí)施例中,目標(biāo)語言由第一客戶端設(shè)備推薦。在一些實(shí)施例中,目標(biāo)語言由服務(wù)器推薦。在一些實(shí)施例中,第一客戶端設(shè)備確定目標(biāo)語言是否與第一客戶端設(shè)備相關(guān)聯(lián)的默認(rèn)語言相同。在一些實(shí)施例中,服務(wù)器作出關(guān)于目標(biāo)語言是否與第一客戶端設(shè)備相關(guān)聯(lián)的默認(rèn)語言相同的確定。在一些實(shí)施例中,目標(biāo)語言的第一音頻傳輸?shù)姆g被呈現(xiàn)為第一客戶端設(shè)備處的文本輸出。在一些實(shí)施例中,第一音頻傳輸?shù)姆g被提供為第一客戶端設(shè)備處的音頻輸出。在一些實(shí)施例中,在第一客戶端設(shè)備處提供翻譯的文本表示和聽覺表示(例如,與對(duì)應(yīng)于第一音頻傳輸?shù)囊曨l的部分同步)。
[0071] 在一些實(shí)施例中,獲得第一客戶端設(shè)備的一個(gè)或多個(gè)當(dāng)前用戶語言屬性(例如,步驟604)包括(612)獲得第一客戶端設(shè)備處的用戶的面部特征(例如,獲得種族特征(例如,眼睛顏色、面部結(jié)構(gòu)、頭發(fā)顏色等等),所述面部特征指示用戶的種族或國(guó)籍,或獲得用于確定當(dāng)前正使用第一客戶端設(shè)備的用戶是否不同于設(shè)置第一客戶端設(shè)備的默認(rèn)語言的用戶的面部特征),以及獲得第一客戶端設(shè)備的地理位置信息(例如,包括第一客戶端設(shè)備的當(dāng)前位置和預(yù)設(shè)時(shí)間段的歷史位置,或第一客戶端設(shè)備的預(yù)先存儲(chǔ)的位置)。第一客戶端設(shè)備處的用戶的面部特征和第一客戶端設(shè)備的地理位置信息組合用(614)以將目標(biāo)語言推薦為第一客戶端設(shè)備所用的當(dāng)前語言,而非與第一客戶端設(shè)備相關(guān)聯(lián)的默認(rèn)語言。舉例來說,在一些實(shí)施例中,第一客戶端設(shè)備捕獲在第一客戶端設(shè)備處說話和/或收聽的當(dāng)前用戶的面部特征、獲得第一客戶端設(shè)備的當(dāng)前地理位置信息。在一些實(shí)施例中,第一客戶端設(shè)備基于面部特征確定當(dāng)前用戶可能是白種人,并確定第一客戶端設(shè)備的當(dāng)前位置位于北美?;诜N族和地理位置信息的組合,第一客戶端設(shè)備表明,第一客戶端設(shè)備處使用的當(dāng)前語言可能為英語。在一些實(shí)施例中,如果已經(jīng)通過設(shè)置界面中的先前用戶輸入指定了第一客戶端設(shè)備的默認(rèn)語言,那么第一客戶端設(shè)備要求當(dāng)前收集的面部特征和/或地理位置信息中的至少一個(gè)指示當(dāng)前用戶與指定第一客戶端設(shè)備的默認(rèn)語言的用戶不同。在一些實(shí)施例中,在第一客戶端設(shè)備收集面部特征和地理位置信息并將所收集的信息發(fā)送給服務(wù)器之后,由通信會(huì)話的服務(wù)器執(zhí)行目標(biāo)語言的確定。在一些實(shí)施例中,第一客戶端設(shè)備在本地確定目標(biāo)語言而不需將面部特征和地理位置信息傳輸?shù)椒?wù)器,這有助于保護(hù)用戶隱私并減少服務(wù)器負(fù)載。在一些實(shí)施例中,基于在服務(wù)器上訓(xùn)練的數(shù)據(jù)模型確定目標(biāo)語言,然后將所述目標(biāo)語言存儲(chǔ)在第一客戶端設(shè)備處。在一些實(shí)施例中,在第一客戶端設(shè)備確定目標(biāo)語言將替代默認(rèn)語言作為在第一客戶端設(shè)備處使用的所認(rèn)可當(dāng)前語言之前,第一客戶端設(shè)備呈現(xiàn)對(duì)來自第一客戶端設(shè)備處的用戶的確認(rèn)的請(qǐng)求。在一些實(shí)施例中,僅在第一客戶端設(shè)備接收到所推薦的目標(biāo)語言是正確的推薦的確認(rèn)之后,才在第一客戶端設(shè)備處向用戶提供從源語言到目標(biāo)語言的翻譯。
[0072] 在一些實(shí)施例中,獲得第一客戶端設(shè)備的一個(gè)或多個(gè)當(dāng)前用戶語言屬性(例如,步驟604)包括(616)獲得在音頻和/或視頻通信會(huì)話期間在第一客戶端設(shè)備本地接收的音頻輸入。在語言學(xué)上分析(618)在第一客戶端設(shè)備本地接收的音頻輸入(例如,使用語言模型或語音模型來確定所說的語言)以將目標(biāo)語言推薦為在第一客戶端設(shè)備處使用的當(dāng)前語言。舉例來說,在一些實(shí)施例中,第一客戶端設(shè)備或服務(wù)器將音頻輸入的語言類型識(shí)別為英語,并確定在第一客戶端設(shè)備處使用的當(dāng)前語言是英語,且第一客戶端設(shè)備或服務(wù)器將推薦第一客戶端設(shè)備的目標(biāo)語言為英語,而不是錯(cuò)誤地將當(dāng)前與第一客戶端設(shè)備相關(guān)聯(lián)的默認(rèn)語言當(dāng)作第一客戶端設(shè)備處使用的當(dāng)前語言。
[0073] 在一些實(shí)施例中,第一客戶端設(shè)備獲得(622)第一音頻傳輸中的話音的聲音特性(例如,聲紋或一組預(yù)定義的特性,例如人的話音的頻率、音調(diào)、音高、持續(xù)時(shí)間、振幅等等);且第一客戶端設(shè)備根據(jù)第一音頻傳輸中的話音的聲音特性,生成(624)模擬的第一音頻傳輸,所述模擬的第一音頻傳輸包括根據(jù)第一音頻傳輸?shù)脑捯舻穆曇籼匦远阅繕?biāo)語言說出的第一音頻傳輸?shù)姆g。舉例來說,在一些實(shí)施例中,根據(jù)從第一音頻傳輸獲得的聲音特性指示原始的第一音頻傳輸是由男性、女性還是兒童說出,使用男性、女性或兒童的通用話音生成模擬的第一音頻傳輸。在一些實(shí)施例中,模擬的第一音頻傳輸緊密地模仿原始的第一音頻傳輸?shù)脑捯簟T谝恍?shí)施例中,系統(tǒng)(例如,服務(wù)器)根據(jù)服務(wù)器負(fù)載(例如,處理能力、存儲(chǔ)器和網(wǎng)絡(luò)帶寬)和音頻傳輸在第一客戶端設(shè)備處被接收的速率,自動(dòng)地在使用通用話音或特殊模擬的話音之間切換以說出翻譯。舉例來說,當(dāng)服務(wù)器負(fù)載高于預(yù)定義閾值時(shí),模擬的第一音頻傳輸以根據(jù)原始的第一音頻傳輸?shù)穆曇籼匦缘男∽蛹傻脑捯籼峁?;且?dāng)服務(wù)器負(fù)載低于預(yù)定義閾值時(shí),模擬的第一音頻傳輸以根據(jù)原始的第一音頻傳輸?shù)穆曇籼匦缘妮^大子集生成的話音提供。
[0074] 在一些實(shí)施例中,將目標(biāo)語言的第一音頻傳輸?shù)姆g呈現(xiàn)給第一客戶端設(shè)備處的用戶(例如,步驟610)包括:將目標(biāo)語言的第一音頻傳輸?shù)姆g的文本表示呈現(xiàn)(626)給第一客戶端設(shè)備處的用戶;以及呈現(xiàn)(628)根據(jù)第一音頻傳輸中的話音的聲音特性生成的模擬的第一音頻傳輸(例如,在第一客戶端設(shè)備處播放目標(biāo)語言的模擬的第一音頻傳輸,代替源語言的原始的第一音頻傳輸)。在一些實(shí)施例中,在第一客戶端設(shè)備處的視頻傳輸?shù)钠蔚牟シ疟谎舆t,使得從第二客戶端設(shè)備接收的視頻傳輸與在第一客戶端設(shè)備處的模擬的第一音頻傳輸?shù)牟シ磐健?/div>
[0075] 在一些實(shí)施例中,在音頻和/或視頻通信會(huì)話期間:第一客戶端設(shè)備檢測(cè)(632)連續(xù)語音輸入(例如,連續(xù)語音輸入被定義為僅包括小于預(yù)定義語音輸入終止時(shí)間閾值的短暫中斷的連續(xù)話音輸入流)。當(dāng)超過語音輸入終止時(shí)間閾值而未檢測(cè)到話音輸入時(shí),認(rèn)為連續(xù)語音輸入終止。語音輸入終止時(shí)間閾值長(zhǎng)于用于識(shí)別連續(xù)語音輸入中的中斷的預(yù)定義時(shí)間閾值;且用于檢測(cè)連續(xù)語音輸入中的中斷的時(shí)間閾值長(zhǎng)于句子的單詞之間或句子的兩個(gè)子句之間的估計(jì)自然暫停。)。第一客戶端設(shè)備將第一連續(xù)語音輸入的開始時(shí)間標(biāo)記(634)為在第一客戶端設(shè)備處檢測(cè)到的第一音頻段的開頭。第一客戶端設(shè)備檢測(cè)(636)第一客戶端設(shè)備處的連續(xù)語音輸入中的第一預(yù)定義中斷(例如,在至少一閾值時(shí)間量里檢測(cè)在第一客戶端設(shè)備處的連續(xù)音頻輸入流中不存在足夠量的語音輸入)。響應(yīng)于檢測(cè)到連續(xù)語音輸入中的第一預(yù)定義中斷,第一客戶端設(shè)備將第一預(yù)定義中斷的開始時(shí)間標(biāo)記為在第一客戶端設(shè)備處檢測(cè)到的第一音頻段的結(jié)尾,其中,第一音頻段包括在發(fā)送給第二客戶端設(shè)備的第二音頻傳輸中。
[0076] 在一些實(shí)施例中,在檢測(cè)到連續(xù)語音輸入中的第一預(yù)定義中斷之后,第一客戶端設(shè)備生成(642)包括第一音頻段的第一音頻包。第一客戶端設(shè)備將第一音頻包作為第二音頻傳輸?shù)牡谝徊糠职l(fā)送(644)給第二客戶端設(shè)備。在生成第一音頻包并發(fā)送第一音頻包時(shí):第一客戶端設(shè)備繼續(xù)(646)檢測(cè)位于第一客戶端設(shè)備處的用戶的連續(xù)語音輸入,其中,在生成并發(fā)送第一音頻包時(shí)檢測(cè)到的連續(xù)語音輸入的至少一部分作為第二音頻傳輸?shù)牡诙糠职ㄔ诘诙纛l傳輸中。舉例來說,當(dāng)繼續(xù)檢測(cè)連續(xù)語音輸入時(shí),第一客戶端設(shè)備檢測(cè)第一客戶端設(shè)備處的連續(xù)語音輸入中的第二預(yù)定義中斷。第一客戶端設(shè)備將第一預(yù)定義中斷的結(jié)束時(shí)間標(biāo)記為第二段的開始時(shí)間,并將第二預(yù)定義中斷的開始時(shí)間標(biāo)記為在第一客戶端設(shè)備處檢測(cè)到的第二音頻段的結(jié)尾。第一客戶端設(shè)備生成第二音頻包以包括第二音頻段,并將第二音頻包發(fā)送給第二客戶端設(shè)備。只要尚未檢測(cè)到連續(xù)語音輸入的終止,上述過程就繼續(xù),且檢測(cè)更多音頻段、轉(zhuǎn)換成音頻包并發(fā)送給第二客戶端設(shè)備。在一些實(shí)施例中,將包括第一音頻段和第二音頻段的兩個(gè)或兩個(gè)以上的音頻段翻譯成第一音頻傳輸?shù)脑凑Z言,以便在第二客戶端設(shè)備處呈現(xiàn)。舉例來說,第二音頻傳輸包括在單獨(dú)的音頻包中接收到的一個(gè)或多個(gè)句子,所述單獨(dú)的音頻包分別到達(dá)服務(wù)器且具有不同報(bào)頭和時(shí)間戳,每個(gè)句子分別翻譯成第一音頻傳輸?shù)脑凑Z言,且在第二客戶端設(shè)備處呈現(xiàn)翻譯。
[0077] 在一些實(shí)施例中,在音頻和/或視頻通信會(huì)話期間:第一客戶端設(shè)備識(shí)別(648)第一客戶端設(shè)備處的連續(xù)語音輸入(例如,連續(xù)話音輸入流)中的兩個(gè)或兩個(gè)以上的音頻段,每個(gè)音頻段用相應(yīng)的開始時(shí)間戳(和任選地,相應(yīng)的結(jié)束時(shí)間戳)標(biāo)記;第一客戶端設(shè)備針對(duì)兩個(gè)或兩個(gè)以上的音頻段中的每一個(gè)生成(650)相應(yīng)的音頻包(例如,音頻包是根據(jù)預(yù)定義格式(例如RAR文件)編碼和壓縮的音頻輸入流的片段);且第一客戶端設(shè)備根據(jù)音頻段的相應(yīng)的開始時(shí)間戳依序?qū)蓚€(gè)或兩個(gè)以上的音頻段的相應(yīng)的音頻包發(fā)送給第二客戶端設(shè)備(例如,通過服務(wù)器發(fā)送或直接發(fā)送)。在一些實(shí)施例中,將音頻包發(fā)送給負(fù)責(zé)翻譯音頻段的服務(wù)器,而不發(fā)送給第二客戶端設(shè)備。在一些實(shí)施例中,音頻包(例如,作為單獨(dú)和離散的文件)的傳輸不依賴于在第一客戶端設(shè)備處連續(xù)捕獲的音頻的傳輸(例如,通過連續(xù)
流式傳輸)。
[0078] 在一些實(shí)施例中,在音頻和/或視頻通信會(huì)話期間:當(dāng)在第一客戶端設(shè)備處捕獲連續(xù)語音輸入時(shí),第一客戶端設(shè)備使用第一客戶端設(shè)備處的攝像頭連續(xù)地捕獲(656)視頻;且第一客戶端設(shè)備用兩個(gè)或兩個(gè)以上的音頻段的相應(yīng)的開始時(shí)間戳(和任選地,相應(yīng)的結(jié)束時(shí)間戳)來標(biāo)記連續(xù)捕獲的視頻,其中,第二客戶端設(shè)備(或服務(wù)器)使用相應(yīng)的開始時(shí)間戳(和任選地,相應(yīng)的結(jié)束時(shí)間戳)來同步第二客戶端設(shè)備處的視頻的呈現(xiàn)和兩個(gè)或兩個(gè)以上的音頻段的相應(yīng)翻譯。
[0079] 應(yīng)理解,圖6A到圖6G中描述操作的特定順序僅是示范性的,并非意在指示所描述的順序是可執(zhí)行操作的唯一順序。所屬領(lǐng)域的一般技術(shù)人員將認(rèn)識(shí)到各種方式來對(duì)本文中所描述的操作進(jìn)行重新排序。另外,應(yīng)注意,本文中參照其它方法描述的其它過程和/或本文中所描述的過程的細(xì)節(jié)也能以與上述方法600類似的方式應(yīng)用。
[0080] 圖7A到圖7F示出在兩個(gè)或兩個(gè)以上的客戶端設(shè)備之間提供音頻通信會(huì)話的方法700的流程圖。在一些實(shí)施例中,方法600由服務(wù)器結(jié)合兩個(gè)或兩個(gè)以上的客戶端設(shè)備來執(zhí)行。舉例來說,在一些實(shí)施例中,方法600由服務(wù)器108結(jié)合客戶端設(shè)備104-1和104-2或客戶端設(shè)備組件(例如,客戶端側(cè)模塊102,圖1到圖2)來執(zhí)行。在一些實(shí)施例中,方法700由存儲(chǔ)在非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中的指令控管,且指令由客戶端和服務(wù)器系統(tǒng)的一個(gè)或多個(gè)處理器執(zhí)行。任選的操作由虛線(例如,具有虛線邊框的框)指示。
[0081] 通過服務(wù)器,第一客戶端設(shè)備已通過網(wǎng)絡(luò)與第二客戶端設(shè)備建立音頻和/或視頻通信會(huì)話(例如,第一設(shè)備的用戶和第二設(shè)備的用戶已通過在線電話會(huì)議服務(wù)提供商的服務(wù)器在因特網(wǎng)上建立實(shí)時(shí)視頻會(huì)議)。在音頻和/或視頻通信會(huì)話期間:服務(wù)器從第二客戶端設(shè)備接收(702)第一音頻傳輸,其中,第一音頻傳輸由第二客戶端設(shè)備以不同于與第一客戶端設(shè)備相關(guān)聯(lián)的默認(rèn)語言(例如,由服務(wù)器針對(duì)第一客戶端設(shè)備自動(dòng)選擇的默認(rèn)語言,或在視頻通信會(huì)話開始之前,用戶已經(jīng)在第一客戶端設(shè)備的語言設(shè)置中指定的優(yōu)選語言)的源語言提供。服務(wù)器獲得(例如,從第一客戶端設(shè)備,和/或任選地,另一服務(wù)器)第一客戶端設(shè)備的一個(gè)或多個(gè)當(dāng)前用戶語言屬性(例如,第一客戶端設(shè)備處的用戶的面部特征、地理位置信息(例如,當(dāng)前位置和/或最近位置)、在第一客戶端設(shè)備本地接收的音頻消息等等),其中,一個(gè)或多個(gè)當(dāng)前用戶語言屬性指示用于第一客戶端設(shè)備處的音頻和/或視頻通信會(huì)話的當(dāng)前語言。當(dāng)確定一個(gè)或多個(gè)當(dāng)前用戶語言屬性推薦當(dāng)前用于第一客戶端設(shè)備處的音頻和/或視頻通信會(huì)話的目標(biāo)語言,并且確定目標(biāo)語言不同于與第一客戶端設(shè)備相關(guān)聯(lián)的默認(rèn)語言時(shí)(706):服務(wù)器獲得(708)第一音頻傳輸從源語言到目標(biāo)語言的翻譯;且服務(wù)器將目標(biāo)語言的第一音頻傳輸?shù)姆g發(fā)送(710)給第一客戶端設(shè)備,其中,將翻譯呈現(xiàn)給第一客戶端設(shè)備處的用戶。舉例來說,在一些實(shí)施例中,目標(biāo)語言由第一客戶端設(shè)備推薦。在一些實(shí)施例中,目標(biāo)語言由服務(wù)器推薦。在一些實(shí)施例中,第一客戶端設(shè)備確定目標(biāo)語言是否與第一客戶端設(shè)備相關(guān)聯(lián)的默認(rèn)語言相同。在一些實(shí)施例中,服務(wù)器作出關(guān)于目標(biāo)語言是否與第一客戶端設(shè)備相關(guān)聯(lián)的默認(rèn)語言相同的確定。在一些實(shí)施例中,目標(biāo)語言的第一音頻傳輸?shù)姆g被呈現(xiàn)為第一客戶端設(shè)備處的文本輸出。在一些實(shí)施例中,第一音頻傳輸?shù)姆g被提供為第一客戶端設(shè)備處的音頻輸出。在一些實(shí)施例中,在第一客戶端設(shè)備處提供翻譯的文本表示和聽覺表示(例如,與對(duì)應(yīng)于第一音頻傳輸、文本模式或音頻模式的視頻的部分同步)。
[0082] 在一些實(shí)施例中,獲得一個(gè)或多個(gè)當(dāng)前用戶語言屬性并推薦當(dāng)前在第一客戶端設(shè)備處用于音頻和/或視頻通信會(huì)話的目標(biāo)語言(例如,步驟704)還包括:從第一客戶端設(shè)備接收(712)當(dāng)前用戶的面部特征和第一客戶端設(shè)備的當(dāng)前地理位置;確定(714)當(dāng)前用戶的面部特征與第一客戶端設(shè)備的當(dāng)前地理位置之間的關(guān)系(例如,面部特征是否表明與第一客戶端設(shè)備的當(dāng)前地理位置充分相關(guān)(例如,根據(jù)預(yù)定義準(zhǔn)則)的種族或國(guó)籍);以及當(dāng)確定所述關(guān)系符合預(yù)定義準(zhǔn)則時(shí),推薦(716)目標(biāo)語言(例如,在一些實(shí)施例中,如果面部特征和地理位置都與同一語言相關(guān),則推薦將所述語言作為目標(biāo)語言)。
[0083] 在一些實(shí)施例中,獲得一個(gè)或多個(gè)當(dāng)前用戶語言屬性并推薦當(dāng)前在第一客戶端設(shè)備處用于音頻和/或視頻通信會(huì)話的目標(biāo)語言(例如,步驟704)還包括:從第一客戶端設(shè)備接收(718)已在第一客戶端設(shè)備本地接收到的音頻消息;分析(720)在第一客戶端設(shè)備本地接收到的音頻消息的語言特性;并根據(jù)音頻消息的語言特性的分析結(jié)果,推薦(722)當(dāng)前用于第一客戶端設(shè)備處的音頻和/或視頻通信會(huì)話的目標(biāo)語言。
[0084] 在一些實(shí)施例中,服務(wù)器獲得(732)第一音頻傳輸中的話音的聲音特性(例如,聲紋或一組預(yù)定義的特性,例如人的話音的頻率、音調(diào)、音高、持續(xù)時(shí)間、振幅等等);且服務(wù)器根據(jù)第一音頻傳輸中的話音的聲音特性,生成(734)模擬的第一音頻傳輸,所述模擬的第一音頻傳輸包括根據(jù)第一音頻傳輸?shù)脑捯舻穆曇籼匦砸阅繕?biāo)語言說出的第一音頻傳輸?shù)姆g。在一些實(shí)施例中,將到第一客戶端設(shè)備處的用戶的目標(biāo)語言的第一音頻傳輸?shù)姆g發(fā)送給第一客戶端設(shè)備(例如,步驟710)包括:將到第一客戶端設(shè)備處的用戶的目標(biāo)語言的第一音頻傳輸?shù)姆g的文本表示發(fā)送(736)給第一客戶端設(shè)備;并將根據(jù)第一音頻傳輸中的話音的聲音特性生成的模擬的第一音頻傳輸發(fā)送(738)給第一客戶端設(shè)備(例如,將目標(biāo)語言的模擬的第一音頻傳輸代替源語言的原始的第一音頻傳輸發(fā)送給第一客戶端設(shè)備)。在一些實(shí)施例中,視頻傳輸?shù)钠蔚降谝豢蛻舳嗽O(shè)備的傳輸延遲,使得到第一客戶端設(shè)備的視頻傳輸與模擬的第一音頻傳輸?shù)降谝豢蛻舳嗽O(shè)備的傳輸同步。
[0085] 在一些實(shí)施例中,從第二客戶端設(shè)備接收第一音頻傳輸(例如,步驟702)還包括:從第二客戶端設(shè)備接收(742)第一音頻傳輸?shù)膬蓚€(gè)或兩個(gè)以上的音頻包,其中,該兩個(gè)或兩個(gè)以上的音頻包已根據(jù)兩個(gè)或兩個(gè)以上的音頻包的相應(yīng)的時(shí)間戳依序從第二客戶端設(shè)備發(fā)送,且其中,每個(gè)相應(yīng)的時(shí)間戳指示在第一音頻傳輸中識(shí)別的對(duì)應(yīng)的音頻段的開始時(shí)間。
在一些實(shí)施例中,服務(wù)器可不按順序接收兩個(gè)或兩個(gè)以上的音頻包,且服務(wù)器根據(jù)時(shí)間戳將音頻包重新布置。在一些實(shí)施例中,服務(wù)器不基于接收到的包的相應(yīng)的時(shí)間戳對(duì)接收到的包進(jìn)行排序,而是在已獲得音頻段中的至少兩個(gè)的翻譯之后,服務(wù)器僅基于兩個(gè)或兩個(gè)以上的音頻包的相應(yīng)的時(shí)間戳來對(duì)兩個(gè)或兩個(gè)以上的音頻包中的音頻段的翻譯進(jìn)行排序。
在一些實(shí)施例中,獲得第一音頻傳輸從源語言到目標(biāo)語言的翻譯并將目標(biāo)語言的第一音頻傳輸?shù)姆g發(fā)送給第一客戶端設(shè)備(例如,步驟708和步驟710)還包括:根據(jù)兩個(gè)或兩個(gè)以上的音頻包的相應(yīng)的時(shí)間戳,依序獲得(744)兩個(gè)或兩個(gè)以上的音頻包從源語言到目標(biāo)語言的相應(yīng)翻譯;以及在完成兩個(gè)或兩個(gè)以上的音頻包中的至少一個(gè)的第一翻譯之后并在完成兩個(gè)或兩個(gè)以上的音頻包中的至少另一個(gè)的翻譯之前,將所述第一翻譯發(fā)送(746)給第一客戶端設(shè)備。
[0086] 在一些實(shí)施例中,服務(wù)器在從第一客戶端設(shè)備接收第一音頻傳輸?shù)耐瑫r(shí)接收(748)第一視頻傳輸,其中,第一視頻傳輸用與兩個(gè)或兩個(gè)以上的音頻包相同的時(shí)間戳集標(biāo)記;并將具有相同的時(shí)間戳集的第一視頻傳輸和第一音頻傳輸中的兩個(gè)或兩個(gè)以上的音頻包的相應(yīng)翻譯發(fā)送(750)給第一客戶端設(shè)備,使得第一客戶端設(shè)備根據(jù)相同的時(shí)間戳集同步呈現(xiàn)第一音頻傳輸?shù)膬蓚€(gè)或兩個(gè)以上的音頻包的相應(yīng)翻譯和第一視頻傳輸。在一些實(shí)施例中,服務(wù)器例如通過用于音頻和/或視頻通信會(huì)話的專用網(wǎng)絡(luò)連接,從第一客戶端設(shè)備接收連續(xù)
音頻流和連續(xù)
視頻流。服務(wù)器逐個(gè)地從連續(xù)音頻流中提取出音頻段(例如,基于對(duì)連續(xù)音頻流中體現(xiàn)的連續(xù)語音輸入中的預(yù)定義中斷的檢測(cè))。舉例來說,服務(wù)器為每個(gè)識(shí)別的音頻段生成音頻包,并在檢測(cè)到音頻段的結(jié)尾時(shí)將音頻包(例如,與連續(xù)音頻流相對(duì))發(fā)送給翻譯服務(wù)器或服務(wù)器側(cè)翻譯模塊,而服務(wù)器繼續(xù)接收音頻和視頻流。在一些實(shí)施例中,服務(wù)器將視頻流作為連續(xù)視頻流傳輸?shù)降诙蛻舳嗽O(shè)備,并將音頻包的翻譯作為音頻和文本數(shù)據(jù)包傳輸?shù)降诙蛻舳嗽O(shè)備,其中,第二客戶端設(shè)備同步視頻的呈現(xiàn)和音頻包的翻譯。在一些實(shí)施例中,服務(wù)器在視頻流的適當(dāng)位置處插入音頻包的翻譯,并將具有嵌入式翻譯的視頻流發(fā)送給第一客戶端設(shè)備。
[0087] 應(yīng)理解,圖7A到圖7F中描述操作的特定順序僅是示范性的,并非意在指示所描述的順序是可執(zhí)行操作的唯一順序。所屬領(lǐng)域的一般技術(shù)人員將認(rèn)識(shí)到各種方式來對(duì)本文中所描述的操作進(jìn)行重新排序。另外,應(yīng)注意,本文中參照其它方法描述的其它過程和/或本文中所描述的過程的細(xì)節(jié)也能以與上述方法600類似的方式應(yīng)用。
[0088] 圖8是示出根據(jù)一些實(shí)施例的與用戶相關(guān)聯(lián)的代表性客戶端設(shè)備104的框圖。客戶端設(shè)備104通常包括一個(gè)或多個(gè)處理單元(central?processing?unit,CPU)802、一個(gè)或多個(gè)網(wǎng)絡(luò)接口804、存儲(chǔ)器806,以及用于互連這些組件(有時(shí)稱為
芯片組)的一個(gè)或多個(gè)通信總線808??蛻舳嗽O(shè)備104還包括用戶接口810。用戶接口810包括實(shí)現(xiàn)媒體內(nèi)容的呈現(xiàn)的一個(gè)或多個(gè)輸出設(shè)備812,包括一個(gè)或多個(gè)揚(yáng)聲器和/或一個(gè)或多個(gè)視覺顯示器。用戶接口810還包括一個(gè)或多個(gè)輸入設(shè)備814,包括便于用戶輸入的用戶接口組件,例如
鍵盤、
鼠標(biāo)、話音命令輸入單元或麥克
風(fēng)、
觸摸屏顯示器、觸敏式輸入墊、手勢(shì)捕獲攝像頭,或其它輸入按鈕或控制件。此外,一些客戶端設(shè)備104使用麥克風(fēng)和話音識(shí)別或攝像頭和
手勢(shì)識(shí)別來補(bǔ)充或替換鍵盤。在一些實(shí)施例中,客戶端設(shè)備104還包括傳感器,所述傳感器提供關(guān)于客戶端設(shè)備104的當(dāng)前狀態(tài)或與客戶端設(shè)備104相關(guān)聯(lián)的環(huán)境條件的背景信息。傳感器包括但不限于一個(gè)或多個(gè)麥克風(fēng)、一個(gè)或多個(gè)攝像頭、環(huán)境光傳感器、一個(gè)或多個(gè)
加速度計(jì)、一個(gè)或多個(gè)
陀螺儀、GPS
定位系統(tǒng)、藍(lán)牙或BLE系統(tǒng)、
溫度傳感器、一個(gè)或多個(gè)運(yùn)動(dòng)傳感器、一個(gè)或多個(gè)
生物傳感器(例如,
皮膚電阻傳感器、
脈搏血
氧定量計(jì)等等),以及其它傳感器。存儲(chǔ)器806包括高速
隨機(jī)存取存儲(chǔ)器,例如DRAM、SRAM、DDR?RAM或其它隨機(jī)存取固態(tài)存儲(chǔ)器設(shè)備;以及任選地,包括
非易失性存儲(chǔ)器,例如一個(gè)或多個(gè)磁盤存儲(chǔ)設(shè)備、一個(gè)或多個(gè)光盤存儲(chǔ)設(shè)備、一個(gè)或多個(gè)快閃存儲(chǔ)器設(shè)備,或一個(gè)或多個(gè)其它非易失性固態(tài)存儲(chǔ)設(shè)備。存儲(chǔ)器806任選地包括位置上遠(yuǎn)離一個(gè)或多個(gè)處理單元802的一個(gè)或多個(gè)存儲(chǔ)設(shè)備。存儲(chǔ)器806,或替代地,存儲(chǔ)器806內(nèi)的非易失性存儲(chǔ)器包括非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。在一些實(shí)施例中,存儲(chǔ)器806或存儲(chǔ)器806的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)以下程序、模塊和數(shù)據(jù)結(jié)構(gòu),或所述程序、模塊和數(shù)據(jù)結(jié)構(gòu)的子集或超集:
[0089] ●
操作系統(tǒng)816,包括用于處理各種基本系統(tǒng)服務(wù)和用于執(zhí)行依賴于
硬件的任務(wù)的程序;
[0090] ●網(wǎng)絡(luò)通信模塊818,用于將客戶端設(shè)備104連接到經(jīng)由一個(gè)或多個(gè)網(wǎng)絡(luò)接口804(有線或無線)連接到一個(gè)或多個(gè)網(wǎng)絡(luò)110的其它計(jì)算設(shè)備(例如,服務(wù)器系統(tǒng)108);
[0091] ●呈現(xiàn)模塊820,用于實(shí)現(xiàn)經(jīng)由與用戶接口810相關(guān)聯(lián)的一個(gè)或多個(gè)輸出設(shè)備812(例如,顯示器、揚(yáng)聲器等等)呈現(xiàn)客戶端設(shè)備104處的信息(例如,用于應(yīng)用程序或社交網(wǎng)絡(luò)平臺(tái)的用戶界面、小組件、
網(wǎng)站和網(wǎng)站網(wǎng)頁(yè),和/或游戲、音頻和/或視頻內(nèi)容、文本等等);
[0092] ●輸入處理模塊822,用于檢測(cè)來自一個(gè)或多個(gè)輸入設(shè)備814中的一個(gè)或多個(gè)用戶輸入或交互,并解譯檢測(cè)到的輸入或交互;
[0093] ●一個(gè)或多個(gè)應(yīng)用程序824,所述應(yīng)用程序由客戶端設(shè)備104執(zhí)行(例如,游戲、應(yīng)用程序市場(chǎng)、支付平臺(tái),和/或其它網(wǎng)絡(luò)或非基于網(wǎng)絡(luò)的應(yīng)用程序);
[0094] ●客戶端側(cè)模塊102,所述客戶端側(cè)模塊提供用于實(shí)時(shí)音頻/視頻通信的客戶端側(cè)數(shù)據(jù)處理和功能,包括但不限于:
[0095] ○數(shù)據(jù)傳輸模塊826,用于將音頻/視頻/文本數(shù)據(jù)傳輸?shù)椒?wù)器和其它客戶端設(shè)備并傳輸來自服務(wù)器和其它客戶端設(shè)備的音頻/視頻/文本數(shù)據(jù);
[0096] ○翻譯模塊828,用于將音頻或文本從一種語言翻譯成另一種語言;
[0097] ○語音識(shí)別模塊830,用于對(duì)語音音頻輸入執(zhí)行語音轉(zhuǎn)文本轉(zhuǎn)換;
[0098] ○呈現(xiàn)模塊832,用于以音頻和/或文本形式呈現(xiàn)原始音頻/視頻和/或翻譯;
[0099] ○確定模塊834,用于確定目標(biāo)語言,并確定客戶端設(shè)備的目標(biāo)語言是否與針對(duì)客戶端設(shè)備設(shè)置的默認(rèn)語言相同;
[0100] ○獲得模塊836,用于獲得客戶端設(shè)備的當(dāng)前語言屬性;和
[0101] ○其它模塊838,用于執(zhí)行本文中闡述的其它功能。
[0102] 上文識(shí)別的元件中的每一個(gè)可存儲(chǔ)在先前提及的存儲(chǔ)器設(shè)備中的一個(gè)或多個(gè)中,并對(duì)應(yīng)于用于執(zhí)行上述功能的指令集。上文識(shí)別的模塊或程序(即,指令集)無需實(shí)施為單獨(dú)的
軟件程序、程序、模塊或數(shù)據(jù)結(jié)構(gòu),因此這些模塊的各
種子集可在各種實(shí)施例中組合或以其它方式重新布置。在一些實(shí)施例中,存儲(chǔ)器806任選地存儲(chǔ)上文識(shí)別的模塊和數(shù)據(jù)結(jié)構(gòu)的子集。此外,存儲(chǔ)器806任選地存儲(chǔ)上文未描述的額外模塊和數(shù)據(jù)結(jié)構(gòu)。
[0103] 圖9是示出根據(jù)一些實(shí)施例的服務(wù)器系統(tǒng)108的框圖。服務(wù)器系統(tǒng)108通常包括一個(gè)或多個(gè)處理單元(central?processing?unit,CPU)902、一個(gè)或多個(gè)網(wǎng)絡(luò)接口904(例如,包括到一個(gè)或多個(gè)客戶端114的I/O接口和到一個(gè)或多個(gè)外部服務(wù)的I/O接口)、存儲(chǔ)器906和用于互連這些組件(有時(shí)稱為芯片組)的一個(gè)或多個(gè)通信總線908。服務(wù)器108還任選地包括用戶接口910。用戶接口910包括實(shí)現(xiàn)信息的呈現(xiàn)的一個(gè)或多個(gè)輸出設(shè)備912和實(shí)現(xiàn)用戶輸入的一個(gè)或多個(gè)輸入設(shè)備914。存儲(chǔ)器906包括高速隨機(jī)存取存儲(chǔ)器,例如DRAM、SRAM、DDR?RAM或其它隨機(jī)存取固態(tài)存儲(chǔ)器設(shè)備;以及任選地,包括非易失性存儲(chǔ)器,例如一個(gè)或多個(gè)磁盤存儲(chǔ)設(shè)備、一個(gè)或多個(gè)光盤存儲(chǔ)設(shè)備、一個(gè)或多個(gè)快閃存儲(chǔ)器設(shè)備,或一個(gè)或多個(gè)其它非易失性固態(tài)存儲(chǔ)設(shè)備。存儲(chǔ)器906任選地包括位置上遠(yuǎn)離一個(gè)或多個(gè)處理單元902的一個(gè)或多個(gè)存儲(chǔ)設(shè)備。存儲(chǔ)器906,或替代地,存儲(chǔ)器906內(nèi)的非易失性存儲(chǔ)器包括非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。在一些實(shí)施例中,存儲(chǔ)器906或存儲(chǔ)器906的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)以下程序、模塊和數(shù)據(jù)結(jié)構(gòu),或所述程序、模塊和數(shù)據(jù)結(jié)構(gòu)的子集或超集:
[0104] ●操作系統(tǒng)916,包括用于處理各種基本系統(tǒng)服務(wù)和用于執(zhí)行依賴于硬件的任務(wù)的程序;
[0105] ●網(wǎng)絡(luò)通信模塊918,用于將服務(wù)器系統(tǒng)108連接到經(jīng)由一個(gè)或多個(gè)網(wǎng)絡(luò)接口904連接到一個(gè)或多個(gè)網(wǎng)絡(luò)110的其它計(jì)算設(shè)備(例如,客戶端設(shè)備104和外部服務(wù))(有線或無線);
[0106] ●呈現(xiàn)模塊920,用于實(shí)現(xiàn)信息的呈現(xiàn);
[0107] ●輸入處理模塊922,用于檢測(cè)來自一個(gè)或多個(gè)輸入設(shè)備814中的一個(gè)或多個(gè)用戶輸入或交互,并解譯檢測(cè)到的輸入或交互;
[0108] ●一個(gè)或多個(gè)服務(wù)器應(yīng)用程序924,用于管理服務(wù)器操作;
[0109] ●服務(wù)器側(cè)模塊106,所述服務(wù)器側(cè)模塊提供用于有助于客戶端設(shè)備之間的音頻/視頻通信的服務(wù)器側(cè)數(shù)據(jù)處理和功能,包括但不限于:
[0110] ○數(shù)據(jù)傳輸模塊926,用于將音頻/視頻/文本數(shù)據(jù)傳輸?shù)椒?wù)器和其它客戶端設(shè)備并傳輸來自服務(wù)器和其它客戶端設(shè)備的音頻/視頻/文本數(shù)據(jù);
[0111] ○翻譯模塊928,用于將音頻或文本從一種語言翻譯成另一種語言;
[0112] ○語音識(shí)別模塊930,用于對(duì)語音音頻輸入執(zhí)行語音轉(zhuǎn)文本轉(zhuǎn)換;
[0113] ○獲得模塊932,用于獲得客戶端設(shè)備的當(dāng)前語言屬性;
[0114] ○確定模塊934,用于確定目標(biāo)語言,并確定客戶端設(shè)備的目標(biāo)語言是否與針對(duì)客戶端設(shè)備設(shè)置的默認(rèn)語言相同;
[0115] ○音頻/視頻處理模塊936,用于分別處理用于音頻處理和視頻處理的輸入流;和[0116] ○其它模塊938,用于執(zhí)行本文中闡述的其它功能。
[0117] 上文識(shí)別的元件中的每一個(gè)可存儲(chǔ)在先前提及的存儲(chǔ)器設(shè)備中的一個(gè)或多個(gè)中,并對(duì)應(yīng)于用于執(zhí)行上述功能的指令集。上文識(shí)別的模塊或程序(即,指令集)無需實(shí)施為單獨(dú)的軟件程序、程序或模塊,因此這些模塊的各種子集可在各種實(shí)施例中組合或以其它方式重新布置。在一些實(shí)施例中,存儲(chǔ)器906任選地存儲(chǔ)上文識(shí)別的模塊和數(shù)據(jù)結(jié)構(gòu)的子集。此外,存儲(chǔ)器906任選地存儲(chǔ)上文未描述的額外模塊和數(shù)據(jù)結(jié)構(gòu)。
[0118] 在一些實(shí)施例中,服務(wù)器系統(tǒng)108的功能中的至少一些由客戶端設(shè)備104執(zhí)行,且這些功能的對(duì)應(yīng)的子模塊可位于客戶端設(shè)備104而非服務(wù)器系統(tǒng)108內(nèi)。在一些實(shí)施例中,客戶端設(shè)備104的功能中的至少一些由服務(wù)器系統(tǒng)108執(zhí)行,且這些功能的對(duì)應(yīng)的子模塊可位于服務(wù)器系統(tǒng)108而非客戶端設(shè)備104內(nèi)。圖1到圖5中分別示出的客戶端設(shè)備104和服務(wù)器系統(tǒng)108僅為說明性的,且在各種實(shí)施例中,用于實(shí)施本文中所描述的功能的模塊的不同配置是可能的。
[0119] 雖然上文描述了特定實(shí)施例,但應(yīng)理解,并不旨在將本申請(qǐng)案限制于這些特定實(shí)施例。相反,本申請(qǐng)案包括在所附
權(quán)利要求的精神和范圍內(nèi)的替代、
修改、和等同物。闡述了許多特定細(xì)節(jié)以提供對(duì)本文提出的主題的透徹理解。但是對(duì)于所屬領(lǐng)域的普通技術(shù)人員來說顯而易見的是,可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐主題。在其它情況下,未詳細(xì)描述眾所周知的方法、程序、組件、和電路,以免不必要地混淆實(shí)施例的各方面。