econto專利保護專利技術(shù)專利專利專利專利專利專利
來源:IPRdaily.cn中文網(wǎng)
作者:劉成 韓雪 審協(xié)北京中心 IP創(chuàng)新贏
原標(biāo)題:Echo:能回應(yīng)的音箱【最佳發(fā)明系列之12】
能獲評最佳發(fā)明,亞馬遜的Echo顯然不是一款簡單的無線音箱。其真正強大之處在于內(nèi)置了云端語音服務(wù)“Alexa”。一下子將這款音箱變成了能和用戶語音交流、控制其它設(shè)備的“智能助理”??纯磥嗰R遜官方發(fā)布的介紹視頻(建議在WiFi環(huán)境下觀看):
“Always ready, connected and fast. Just ask.”
隨時待機,快速響應(yīng)
從亞馬遜的廣告語中就知道:問就好了!
Alexa,幾點了?
Alexa,找首輕松的歌放放
Alexa,明天要不要帶雨傘
如果你覺得上面的小兒科,那么它還可以;
控制Nest、IFTTT公司旗下智能家居產(chǎn)品
查銀行賬戶信息
訂購披薩
Uber叫車
甚至還能語音控制汽車。
(當(dāng)然,目前還不支持中文)
外表簡約卻內(nèi)藏豐富的功能,Echo倍受用戶歡迎。自2015年正式發(fā)售至今,短短兩年銷量即已突破500萬臺,在近來甚少創(chuàng)新的音箱界可謂異軍突起,而且,據(jù)亞馬遜官網(wǎng)的銷售頁面顯示,Echo在近5萬用戶評價中獲得67%的全5星好評,被亞馬遜視為“下一個10億美元級”業(yè)務(wù)。
下圖是Business Insider在2016年12月對Echo銷量及Alexa技能數(shù)量的統(tǒng)計:
銷量翻倍,技能數(shù)直線上升……一個看上去比較簡單的音箱類單品能達到這種火爆程度,實在令人驚訝。
在互聯(lián)網(wǎng)各大巨頭早已布局語音助手的情況下,為什么Echo能夠獨領(lǐng)風(fēng)騷,甚至讓Google追隨其腳步而推出Google Home音箱,蘋果也據(jù)傳將要發(fā)布基于Siri的智能音箱?
下面,小贏就從產(chǎn)品功能和專利技術(shù)角度,和大家分享一下亞馬遜這款“可以回應(yīng)的揚聲器”背后的秘密。
亞馬遜開發(fā)Echo以及Alexa服務(wù)的項目可以追溯到2011年,由亞馬遜的Lab126實驗室研發(fā)(Lab126類似于Google的X實驗室。126表示第1到第26個字母。其研究項目以字母順序命名,例如Kindle為項目A),屬于項目D,于2011年啟動。
該項目最初的目標(biāo)并沒有十分遠大,其創(chuàng)意實際是項目C(涉及增強現(xiàn)實)的一個衍生分支,后來才逐漸明確。為了加速語音技術(shù)的研發(fā),亞馬遜從著名的語音技術(shù)公司Nuance挖來一批重要技術(shù)人員,后來又陸續(xù)收購了Yap、Evi、Ivona Software等多家語音初創(chuàng)公司,為語音轉(zhuǎn)文字、語音識別在商品搜索上的應(yīng)用、文本語音轉(zhuǎn)換和語音命令等功能提供技術(shù)支撐。
2014年11月,亞馬遜推出Echo,并于2015年7月正式對所有用戶出售,售價179.99美元:
Echo呈圓柱形,高約23.5厘米,內(nèi)置麥克風(fēng)陣列和揚聲器陣列,以語音作為主要交互方式,通體只有兩個按鍵,其主要硬件結(jié)構(gòu)如下圖所示:
Echo的兩個物理按鍵都在頂面,分別是關(guān)閉麥克風(fēng)和喚醒;頂部有一個燈環(huán),燈環(huán)下面是一個音量控制轉(zhuǎn)環(huán),可以通過旋轉(zhuǎn)來調(diào)節(jié)音量。燈環(huán)會對Echo的狀態(tài)做出燈光反饋,比如關(guān)閉麥克風(fēng)的時候,燈環(huán)會變成紅色,而調(diào)節(jié)音量的時候,燈環(huán)為白色,且范圍隨著音量變化。當(dāng)捕捉用戶語音時,燈環(huán)還會在朝向用戶的部分點亮。
2016年3月,亞馬遜豐富Echo品類,發(fā)布了小型版的Echo Dot,并在10月更新為Echo Dot 2,售價49.99美元。
Echo Dot具有與Echo同樣的語音交互功能,只是弱化了揚聲器,但可以通過3.5mm音頻接口或者藍牙的方式連接到其它音響中,從而彌補揚聲器的不足。
與Echo Dot同期推出的還有Amazon Tap,是一款360°戶外藍牙音箱,同樣內(nèi)置了Alexa語音助手,售價129.99美元。
在Echo研發(fā)過程中,亞馬遜很長時間都沒有明確這款揚聲器的主要功能是什么。作為一個重要特點,Echo支持同時播放聲音和監(jiān)聽用戶語音的功能在后期才確定下來。
亞馬遜創(chuàng)始人貝索斯希望能讓Echo完全支持電商購物。需要說明的是,有證據(jù)表明,早在2013年底,Lab126就已考慮將Echo作為一款智能語音控制設(shè)備,通過互聯(lián)網(wǎng)將它與其他公司開發(fā)的智能燈泡等設(shè)備進行連接和控制。
2015年4月,Alexa新增對Belkin WeMo無線開關(guān)和飛利浦Hue燈具的控制功能,正式觸及智能家居領(lǐng)域。
在先后增加對多款智能家電的支持之后,2015年6月,亞馬遜宣布將Alexa開放給第三方開發(fā)者,發(fā)布了Alexa Skills Kit(ASK)和Alexa Voice Service(AVS)兩套工具包。
其中,ASK主要面向開發(fā)者,在Alexa中開發(fā)更多語音服務(wù)應(yīng)用,AVS則主要支持第三方設(shè)備廠商在設(shè)備中集成Alexa。與此同時,亞馬遜還特別設(shè)立了1億美金的風(fēng)險投資基金“Alexa Fund”,專門用來扶持語音交互領(lǐng)域的初創(chuàng)企業(yè)。
由于亞馬遜的推動以及Echo的良好口碑,其它智能設(shè)備廠商和第三方開發(fā)者的熱情日益高漲,Alexa具備的技能越來越豐富。2015年Echo整合的第三方服務(wù)只有14項,現(xiàn)在已經(jīng)上升至7000余項,并且以每天大約100項新技能的速度增長。有國外媒體對Alexa Skills的數(shù)量情況統(tǒng)計如下:
在剛剛進行的CES 2017消費展上,據(jù)說有700多種產(chǎn)品將內(nèi)置Alexa服務(wù),包括:
LG超豪華冰箱、
華為Mate9手機(美國版)
聯(lián)想的音箱
優(yōu)必選機器人
甚至福特電動汽車……
雖然沒有參展,但Alexa幾乎無處不在
福布斯新聞表示:亞馬遜的Alexa要主宰CES
亞馬遜硬件部門高級副總裁David Limp曾說:“亞馬遜相信下一個大平臺是語音,我們要做的就是為用戶打造一個完全由語音控制的云計算機?!?/p>
伴隨Echo發(fā)展起來的Alexa不再只是一個內(nèi)置于設(shè)備中的智能語音助手,它已經(jīng)成為一個搶占先機的智能語音平臺,是亞馬遜在人工智能和智能家居領(lǐng)域的重大布局。而作為亞馬遜自家最先接入Alexa服務(wù)的主體,Echo未來也必然水漲船高,還將具備更多令人期待的功能。
如此重要的產(chǎn)品,自然少不了專利保護。同時,為了保密起見,對于Echo項目早期的專利,亞馬遜是借助一家名為Rawles LLC.的公司進行申請,后來再轉(zhuǎn)讓給亞馬遜。
從2012年6月起,Rawles LLC.申請了多個名稱中包含“voice controlled assistant”(語音控制助理)的專利,其中的語音控制助理就是Echo音箱的形式,例如,較早的一篇申請US13/486,774(已于2015年6月獲得授權(quán),授權(quán)公開號:US9060224B1),如下圖所示,語音控制助理包括麥克風(fēng)陣列、揚聲器陣列和計算組件,用戶以說話的方式向語音控制助理提交請求,語音控制助理通過麥克風(fēng)陣列采集聲音信號,對聲音信號進行處理,形成相應(yīng)的查詢請求,然后與云端通信,通過云端為用戶提供各種應(yīng)用服務(wù),例如播放音樂、回答提問等,最后通過揚聲器陣列將結(jié)果反饋給用戶。
2013年12月,同樣是通過Rawles LLC.公司,亞馬遜申請了一項名稱為“Natural Language Control of Secondary Device”(二級裝置的自然語言控制)的專利(申請?zhí)枺篣S14/094,270,公開號:US2015/0154976A1),同時還申請了PCT并進入歐洲和中國。該申請描述了通過自然語言輸入并經(jīng)由初級語音響應(yīng)裝置來控制二級裝置的技術(shù),也就是利用Echo以語音方式控制其它設(shè)備的原型,如下圖所示。
眾所周知,亞馬遜并非最早推出智能語音助理的公司,單就以語音方式控制二級設(shè)備而言,這也不是亞馬遜的首創(chuàng)。例如,Sensory, Inc.的一項專利(授權(quán)號:US7418392B1,申請日為2004年9月10日)就公開了通過語音指令控制設(shè)備操作的方案,被蘋果和亞馬遜的相關(guān)申請大量引用:
然而,在Echo推出之前,市面上最為普遍的語音交互應(yīng)用一般都是采用單麥克風(fēng)或雙麥克風(fēng)系統(tǒng),例如集成Siri語音助手的iPhone等。單麥克風(fēng)系統(tǒng)可以在安靜環(huán)境或距離較近的情況下取得良好效果,但如果聲源距離麥克風(fēng)較遠,并且真實環(huán)境存在大量的噪聲、多徑反射和混響,這會嚴(yán)重影響語音識別率。在這種情況下,即便如iPhone這么優(yōu)秀的產(chǎn)品,其Siri的表現(xiàn)也不盡如人意。
相比之下,Echo的獨特之處在于:使用了麥克風(fēng)陣列,并且結(jié)合亞馬遜強大的云服務(wù)進行語音識別。麥克風(fēng)陣列由一組按一定幾何結(jié)構(gòu)(常用線形、環(huán)形)擺放的麥克風(fēng)組成,對采集的不同空間方向的聲音信號進行空時處理,能夠?qū)崿F(xiàn)噪聲抑制、混響去除、聲源定位、人聲干擾抑制等功能,從而提高語音信號處理質(zhì)量,提高真實環(huán)境下的語音識別率。
下邊左圖中的綠色圓圈示出了Echo使用的6+1麥克風(fēng)陣列,位于Echo頂部,右圖為前面提到的專利US9060224B1中的相關(guān)附圖:
Echo所宣傳的“Far-Field Voice Recognition”(遠場語音識別):
正是基于其硬件中的麥克風(fēng)陣列實現(xiàn)?;邴溈孙L(fēng)陣列技術(shù),亞馬遜在音頻信號處理、智能語音識別等領(lǐng)域布局了大量專利,對其產(chǎn)品和方案進行保護。
(1)遠場拾音
為了實現(xiàn)良好的遠場拾音效果,獲得清晰的目標(biāo)語音信號,需要用到波束形成,聲源定位,噪聲抑制,混響消除,回聲消除等技術(shù)。下表簡要說明了這些技術(shù)及亞馬遜的典型相關(guān)專利:
(2)智能語音識別
得到聲音信號之后,Echo如何進行智能語音識別,準(zhǔn)確理解用戶的語音命令?這里需要用到“模型匹配”技術(shù)。模型匹配主要是和語音識別以及語義理解進行匹配,語音交互是一個完整的信號鏈,從麥克風(fēng)陣列開始的語音流不可能割裂的存在,必然需要模型匹配在一起。實際上,效果較好的語音交互專用麥克風(fēng)陣列,通常是兩套算法,一套內(nèi)嵌于硬件實時處理,另外一套服務(wù)于云端匹配語音處理。
亞馬遜設(shè)計了運行于云端的自動語音識別ASR(automatic speech recognition)系統(tǒng),并基于模型匹配設(shè)計了關(guān)鍵詞識別(keyword spotting)系統(tǒng)。Echo收到的語音命令被系統(tǒng)拆分為多個字段,它們在云端與關(guān)鍵詞模型逐一比對,匹配度最高的部分被認(rèn)為是用戶發(fā)出的語音命令。US9159319B1描述了該關(guān)鍵詞識別系統(tǒng)。
對于較為特殊的“喚醒詞”,亞馬遜還專門申請了多篇專利,例如US9275637B1(美國專利授權(quán)公開號),US9368105B1等,可以避免錯誤喚醒。
此外,US9299346B1、US9424840B1描述了一種語音識別平臺,可基于自動語音識別ASR的結(jié)果和用戶上下文來確定語音指令的范圍,理解語音指令的意圖,并執(zhí)行相應(yīng)的動作。
通過對多種音頻處理和智能語音識別技術(shù)的綜合運用并不斷優(yōu)化,亞馬遜將Echo的平均語音處理響應(yīng)時間從最開始的5秒縮小到1.5秒,如今甚至已做到1秒以內(nèi),大幅領(lǐng)先其它智能語音類產(chǎn)品,與Echo對話毫無延滯感,用戶體驗十分出色。
經(jīng)過以上分析可以看出,Echo之所以領(lǐng)先于Google Home等競爭對手,其秘笈包括:
(1)性能優(yōu)異,用戶體驗良好;
(2)高度機密的研發(fā)過程;
(3)低調(diào)和完善的專利布局;
(4)開放的策略,促進發(fā)展完整生態(tài)鏈。
目前Echo和Alexa還暫未進入國內(nèi),以上策略或許可供國內(nèi)有關(guān)廠商借鑒一二,在競爭激烈的人工智能語音交互市場覓得一席之地。
亞馬遜硬件部門高級副總裁David Limp曾在描述Alexa的時候說,“我們的長期愿景是讓Alexa這個系統(tǒng)能像《星際迷航》里的中央計算機一樣,像科克船長一樣坐在艦橋里,用聲音控制一切。”
隨著大數(shù)據(jù)的不斷積累和人工智能的迅速發(fā)展,我們相信,人類與機器之間自然語言交流的障礙將會消除,“用聲音控制一切”的時代終將到來。而Echo,也許是這一時代開啟的序章。
參考資料
“The Real Story of How Amazon Built the Echo”,Joshua Brustein,【https://www.bloomberg.com/features/2016-amazon-Echo/】
“遠場語音交互的麥克風(fēng)陣列技術(shù)解讀”,陳孝良,【http://blog.sciencenet.cn/blog-1375795-1012654.html】
來源:IPRdaily.cn中文網(wǎng)
作者:劉毅 審協(xié)北京中心通信部
編輯:IPRdaily.cn LoCo
校對:IPRdaily.cn 縱橫君
本文來自IPRdaily.cn 中文網(wǎng)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://m.globalwellnesspartner.com/”
文章不錯,犒勞下辛苦的作者吧