如何開發一款銷量超千萬的Echo智能音響？_多媒體音箱新聞

如何開發一款銷量超千萬的Echo智能音響？

更新時間：2017-3-3 11:11:09　編輯：溫情　文章來源:音響網　調整文字大小:【大中小】

[導讀] 　作為智能音箱產品的杰出代表，亞馬遜Echo自2014年年末發布以來，一直備受市場熱捧。據了解，2015年亞馬遜Echo賣出了400萬臺，2016年賣了800萬臺，2017年銷售目標更是上了1000萬臺。這也讓其他很多智能音箱廠商羨慕不已。

　　作為智能音箱產品的杰出代表，亞馬遜Echo自2014年年末發布以來，一直備受市場熱捧。據了解，2015年亞馬遜Echo賣出了400萬臺，2016年賣了800萬臺，2017年銷售目標更是上了1000萬臺。這也讓其他很多智能音箱廠商羨慕不已。
　　對于亞馬遜Echo來說，其核心技術則是其集成的智能語音助手Alexa。而早在2015年6月25日亞馬遜就宣布，將開放智能語音硬件Echo的內置AI助手Alexa的語音技術，供第三方開發者免費使用。隨后，亞馬遜發布了針對第三方開發者的版本，用戶可以通過其他電子設備操控Alexa，而不必通過Echo。這也使得很多第三方智能音箱廠商有機會利用Alexa打造一款與亞馬遜Echo類似的智能影箱。

　　下文將為大家介紹的就是如何來開發一款類似Echo的智能音箱。
　　由于我本人專注wifi音響已經有五年的歷史，對WIFI音響的技術比較熟悉，所以最近接待了很多北京上海深圳的大公司的產品經理上門來請教，發現大家對Echo的研發還處在沒有研究過的階段，對Echo這款產品還只是停留在以一款藍牙音響的認識去理解Echo這款智能語音識別音響。所以，我今天把我的技術開發，資源整合，市場情況，未來發展的積累給大家分享，減少大家的疑惑。
　　亞馬遜Echo的歷史
　　首先簡單介紹一下亞馬遜的echo這款產品，這款產品是亞馬遜耗費了2000人的研發團隊，歷時4年打造的產品。
在此之前不得不提一提它的前輩——SONOS音響。SONOS音響是美國的一個成立于2002年歷時6年研發打造的產品，這家公司的核心技術成員來至于美國一家高科技通訊公司——高通Qualcomm。6年的技術攻關將WIFI的帶寬高，高保真無損傳輸和解碼，多臺設備互相（利用wifi寬帶寬，將幾臺音響連接到同一個局域網實現同時播放同一首歌，營造出給無線環繞聲的效果）；同時，利用其音樂云服務控制的技術交換和商務合作，SONOS音響的APP集成了美國，中國，歐洲主流的音樂內容服務商資源，比如Pandora,Spotify,QQ music,蝦米，多米等豐富的內容資源。其結果是給公司帶來了很高的知名度和豐厚的收益。2005年喬布斯在看到SONOS音響時感嘆道“這是音響的未來”。長時間的技術研發和投入（據說研發投入2億美金）給SONOS音響帶來了好的收益，單2011年SONOS音響銷售額達到近2億美金。
SONOS音響擁有五款經典產品，包括：三款wifi音響，一款soundbar,一款WIFI橋接器盒子，WIFI中控。但其缺點也很明顯：價格貴，體積大，僅僅適合高端消費人群，而且其核心優勢multiroom功能只有在別墅才能體現出其優勢來。
2010年11月SONOS進入中國，所以從2011年開始中國有了第一批wifi音響的開發者，希望模仿SONOS的成功。而最早的一批開發者是用MTK5350或者高通的QCA9331開始開發的，但無疑都倒在了學習的路上。隨后亞馬遜也開始介入，并最終獲得了成功。
　　亞馬遜的Alexa項目大概開始于2011年，應該是受到了iphone4s語音助手Siri的啟發（同時受到啟發的還有“訊飛語音輸入法”。不得不說，喬布斯真的是一代偉大的產品經理）。至于Echo（Echo tap、Echo、 Echo dot）是Alexa實際應用的最成功的產品。
　　Alexa是亞馬遜投入重兵研發出的語音識別云服務平臺。像一個帶語音搜索功能的APP Store（主要的功能有智能問答，音樂服務Amazon music、Spotify、Iheartradio等；新聞服務NBC；天氣預報服務；打車服務Uber；智能家居服務IFTTT協議的燈等等），到目前為止已經有超過了5000個服務接入了亞馬遜的Alexa云平臺。
　　而Echo類似于蘋果手機，不僅僅包括硬件，還包括一套基于Linux系統自主開發的操作系統（類似于Mac OS）。
Echo去除了SONOS的笨重，價格貴等缺點，當然最重要的是有Alexa做語音識別后臺，產品有賣點，賣得也特別好。其實，Echo已經不單單是一款wifi音響，已經成為了一臺家庭智能中心產品，通過不斷的采集用戶習慣，收集用戶問題訓練Alexa，讓Alexa越來越智能。Alexa也集成越來越多的服務，使得消費者越來越喜歡這款產品。
　　亞馬遜是一家互聯網公司，追求的不單是Echo銷量的大幅增長帶來的幾十億美金的銷售額，更在乎的是Echo背后的Alexa代表的人工智能這個未來的龐大市場。所以，亞馬遜把Alexa的API接口開放給到全球的開發者，開發者們可以利用Alexa開發出很多不同的硬件產品，比如：Alexa音響，Alexa車機，Alexa耳機等等。
　　怎么樣開發出一款Echo音響產品？
　　1、硬件：
（1）聯網——WIFI芯片或模塊（博通、瑞昱、MTK都可以）。
（2）語音算法本地處理單元：主要是解決降噪（背景噪音消除，回聲消除）；喚醒詞喚醒；語音方向識別這幾個問題。需要用到MIC陣列（咪頭）+ADC（音頻模擬轉數字信號芯片）+DSP（語音數字信號處理芯片）（一般由CPU模擬運算）。
MIC陣列負責語音的采集。一般來講MIC越多聲音采集的效果越好，但算法也就越復雜，對CPU的主頻要求也就越高。
ADC將MIC采集的語音模擬信號轉換成數字信號，并物理濾波消除一部分外部噪音，只保留20-20KHZ頻段的聲音。
DSP負責運行語音數字信號的處理，分兩種：一種是用強大的CPU資源模擬運算降噪算法處理語音音頻數字信號，一種是用芯片硬件處理的方式最終得到干凈的人的語音信息。
處理完成之后，利用wifi信號，將干凈的語音信息編碼打包上傳到云服務器上，然后做進一步的處理(語音識別，語義理解，服務調用)。
MIC的參數主要注重靈敏度和幾個MIC的一致性；ADC主要注重的是模擬轉數字的采樣率，一般亞馬遜對人聲采樣格式要求是44.1KHZ&16bit,這跟音響IIS音頻高保真輸出的192KHz&24bit的規格不一致，要做到兼容比較困難，尤其是外掛MP3解碼芯片的這種方案。
（3）整套音響系統的中央單元：CPU（處理器）+DDR（內存）+Flash（存儲）
CPU主要的功能是跑整套音響操作系統。包括Linux底層系統，類似于BIOS即各個硬件的驅動程序——CPU的SDK，WIFI或者藍牙的驅動，音效DSP處理器驅動（一般是alsa協議），USB驅動，IIS驅動，GPIO的調用等）；還有Linux之上的應用系統，類似于安卓系統或者window系統，包括網絡上層通訊協議——配網的Smartconfig協議，AP-Station協議；網絡數據下傳協議Http、DLNA、Airplay、Qplay；網絡服務API接口配置Spotify、Alexa，QQ音樂，喜馬拉雅音樂等服務；操作系統邏輯控制單元；軟解碼音頻播放器；
此外前面提到的語音算法運算也由CPU完成。一般的CPU是通過IIS接ADC芯片，ADC芯片再接模擬MIC，一路IIS可以接2個ADC，1個ADC可以接4個MIC；但是有些芯片原廠開發了直接支持數字MIC接口的芯片，就省去了ADC芯片的成本，但需要算法去滿足這種直接數字MIC的輸入。
（4）音頻解碼單元：一般是CPU跑軟Codec解決，也有采用外掛一顆支持IIS接口的MP3的芯片做硬解碼。
（5）音效單元：音頻DSP+功放+喇叭
音頻DSP是需要調試的，尤其有EQ需求的音響調試就更困難，調試完以后把調音參數給到CPU的音樂播放器中。另外，一般的MP3芯片做硬解碼的模式的是不能支持音效DSP的。
功放分數字功放和模擬功放，如果DSP帶DAC功能的可以接模擬功放，不帶的只能接數字功放，現在主流的是用數字功放。由于wifi信號比藍牙功耗大，功率也就大，帶來音效效果影響的可能也就越大，在電路設計和PCB的layout上需要做到信號屏蔽，防止視頻電路對音頻電路的信號干擾，一旦干擾會由于音頻電路的信號放大在喇叭端引入很大的底噪，導致音質效果不好。
（6）電源管理單元：一般會有一顆電源管理IC負責分配從火牛或者鋰電池輸出的電流電壓，Echo沒有內置電池，所以不需要有電池充放電管理電路。也可以用DCDC來做出簡單的電源供電電路。
2、軟件
這里的軟件是指音響端的整套系統軟件。
現在有用安卓系統開發音響的，也有linux開發Echo的。安卓系統穩定性不如Linux，有很多冗余的功能需要底層裁剪，有可能裁剪錯誤導致系統不穩定，最大限度的裁剪也會導致系統固件有150MB，至少需要256MB的DDR，需要512MB的nanflash。同時開機速度會比linux系統的音響慢10-15S，用得越久還會產生系統冗余導致運行得越來越慢。所以，無論從器件的成本，系統的穩定性，還是用戶的體驗上安卓都不適合做wifi音響，這也難怪亞馬遜會選擇用linux開發Echo音響，雖然開發時間多耗費了兩年時間。而linux系統的音響只需要4MB的固件只需要16MB的norflah，64MB的DDR，開機速度可以做到10S以內開機，而且不會產生冗余文件，始終如一的用戶體驗。所以，SONOS和Echo都是用的linux平臺。
　　這套操作系統包括：
a、各個外圍器件的驅動（DSP，按鍵，AUX、USB結構，IIS，IIC協議），配網，語音算法運行，音樂播放器，內容對接集成，網絡傳輸協議（HTTP，DLNA，Airplay），服務API接口對接等等。
b、本地語音識別的算法，對于算法包括兩部分，一部分是本地設備端的降噪，背景噪音消除算法，本地喚醒算法，一部分是云端的語音識別和語意理解算法。我們先將第一部分，設備端的語音識別算法，設備端需要將背景噪音消除，降噪之后得到干凈的語音內容。而這有兩種解決方式：一是通過科勝訊這種帶DSP的ADC芯片通過固化到芯片里面的DSP將ADC轉換得到的數字語音信號分析之后通過IIS接口輸送給CPU再上傳到云端，一個IIS接口可以接兩個ADC芯片，每個ADC芯片可以接4個MIC。當然喚醒的算法是本地的一套軟件集成到CPU里面——即設備的名字，如”Alexa”這個名字，激活詞需要訓練的，需要采集至少100多個人不同音色的發音，所以定制激活詞會產生費用。二是通過降噪算法和激活詞算法全部運行在CPU里面，所以，需要數字MIC將數字語音信號直接接到CPU端。目前能直接接數字MIC的芯片并不多，如全志的G102是可以直接接8個數字MIC的，但需要算法去把8個數字MIC直接調通。
　　三、云服務
　　云服務是Echo的重點，包括了人工智能+各種服務，人工智能是負責語意理解和內容搜索并回答的。比如：你問Alexa今天天氣怎么樣，他會先把你說的話通過本地處理完以后的語音音頻文件上傳到云端的服務器，服務器將語音信息翻譯成文字，然后把文字的關鍵詞找出來，并通過了大數據的訓練以后明白這段文字的抽象意思，然后幫你找到對應的答案，這個答案又必須去調用如氣象信息的數據庫（這個數據庫也要支持語音搜索調取才行），最后反饋給音響，音響播報出來：“今天天氣晴轉小雨，需要帶傘哦。”那么這一系列的動作是人工智能，天氣信息數據庫就是云內容。亞馬遜集成了至少5000個云內容，包括天氣，音樂，打車，訂機票，叫外賣，控制支持IFTTT協議的家電設備等等，并且每天還在增加。人工智能用的人越多，Alexa辨識的準確率就越高，內容越豐富Echo的功能就越強大，人們就越來越離不開它。
　　四、APP
Echo也有一個APP，可以安裝在手機端，負責將Echo聯上路由器網絡（因為Echo沒有屏幕，無法直接輸入wifi密碼），并且還可以查看到用戶使用的歷史信息和教育用戶怎么用Echo更多的功能。
　　五、生產
亞馬遜不直接生產Echo，而是設計好之后發給代工廠代工生產，亞馬遜負責品質驗收然后開始銷售，主要的銷售渠道是亞馬遜網店，線下渠道也開始銷售。
　　目前所有公司的產品都需要過亞馬遜的認證才能開始銷售，不僅僅需要先自己過亞馬遜的一個100多項的測試項，簽訂NDA，而且還需要回答一些問題，如銷售渠道是哪些、銷量預估是多少等等。
此外，還有MIC的調試，WIFI的測試，軟件穩定性的測試。這三個測試項目最復雜的是穩定性測試，MIC的調試最大的影響是有效語音控制的距離，測試的設備比較昂貴，需要專業的MIC廠配合調試，WIFI技術調試得很好，配網成功率高也需要真功夫，比如我們公司的wifi功能就能保證100%連上。2015年我問過微信有個微聯的功能，他們說他們網絡配置的成功率只有不到60%。
　　六、成本
　　幾個主要的成本：研發的人員支出、硬件的成本、語音識別算法的license費用、云服務器租用的費用（國內可以用阿里云、國外可以用亞馬遜AWS）、內容整合授權費（如百度音樂是每次調取5分錢）。
　　七、生態
　　開始做生態之前，大家需要明確一下Alexa和Echo的區別：Echo只是具有Alexa應用的一個成功的產品，未來還會有很多的支持Alexa的產品，如網關、OTT盒子、車機、手機等等。任何支持Alexa功能的設備都會聯入到Alexa的云服務上。
　　目前比較火的三大市場我相信Alexa都有涉足的可能：智能家居，智能汽車，智能手機，未來可能還會有智能穿戴（耳機，手表等）。所以，Alexa會成為一個物聯網的大腦，各種設備是他的觸手，通過觸手不斷獲得信息訓練Alexa讓它越來越強大，融入越來越多算法，越來越多內容讓Alexa越來越成為家庭、車載、工作的一個服務管家。
所以Alexa具有兩個重要屬性：人工智能和物聯網。深度學習得到更多互聯網服務是人工智能，可以控制家電設備（如燈，門）屬于家庭物聯網。
　　現在簡單講講物聯網，Echo支持WIFI，在美國物聯網的設備之間的通訊協議已經初步建立起了標準——IFTTT，只要支持IFTTT協議并且過來亞馬遜認證的設備（燈、門鎖等）就可以通過語音來控制關閉客廳的燈，打開窗簾等動作。Echo可以通過云端解析成指令，并回饋到家庭路由器，然后路由器廣播這條控制指令，客廳的燈對應一個自己的MAC的IP號，收到這個指令后跟自己的IP號一對，如果是客廳聽就會執行這條指令關閉，如果是臥室燈就不執行這條指令。
　　而實現這些所需要的成本，就是每個燈里面安裝一個IoT的wifi模塊。這個wifi模塊里面的IoT的wifi芯片會自帶一顆跑wifi協議棧的MCU，可以接收1MB帶寬的wifi信號。所以，智能家居的概念以后就不再是用手機點點，而是直接與音響交流。此外，也可以加入傳感器芯片，再加上計時器，通過云端的Alexa深入學習每個消費者使用習慣之后自主做出判斷——回家時燈自然開啟，背景音樂響起你最近關注的音樂，早上起來窗簾自動開啟，音樂響起，播放你今天一天的行程安排，天氣情況。這里簡單介紹一下IoT模塊有（MT7681，RTL8711AF，RTL8711AM，ESP8266，XR871等等）
　　開發Echo產品最主要考慮的因素有哪些?
　　1、成熟的軟硬件：由于需要linux系統開發，基本全部需要自己開發整套系統，所以開發的難度很大，一般至少要開發一兩年時間，而且開發出的系統穩定性也值得思考。
　　2、成本：畢竟亞馬遜的產品售價也才179美金，那么你開發的出廠價不能高于60美金否則通過渠道到銷售市場時售價就會超過179美金，會沒有競爭優勢。
　　3、過亞馬遜的認證：有很多產品在亞馬遜手上排隊過認證，甚至不乏大品牌的產品，沒有好的關系沒有明確的銷售思路和數據很難打動亞馬遜的測試主管優先測試你的產品，長的時間可能是3個月甚至更長短的周期也需要1-2個月。
　　4、銷售市場：亞馬遜目前只支持英語，下一步會支持德語，所以只能在美國和英國開賣，其他國家的云服務亞馬遜還在建設當中，有很多變異的因素，所以不能夠像藍牙音箱一樣全球到處售賣。
　　怎么開發出一款國內的Echo音響呢？
　　可選的語音識別技術方案商：語音識別算法公司有科大訊飛，思必馳，云之聲，北京聲智科技等等;
　　APP需要自己開發、云內容需要自己整合（國內的內容有QQ音樂，酷狗酷我音樂，喜馬拉雅電臺，懶人聽書等；新聞有網易新聞，今日資訊，天氣預報有公有的天氣平臺，智能回答的數據庫有百度智庫，更多問題的答案可以自己組建一個團隊不斷整理新問題的答案，打車有滴滴打車等等）、服務器需要自己開發、深度學習有科大訊飛，思必馳等。算法可以自己找，也可以直接用科大訊飛，思必馳的，但需要付錢。
　　這么多內容需要整合，讓那么多的內容變得不可能，沒有一家功能能做完整套云服務，人工智能深度學習，智能硬件，APP這么多事情。更何況產品出來以后還有品牌和銷售的事情。
　　亞馬遜投入了2000多人，做了四年才有了今天的結果，科大訊飛耗資1.5億才做出一個叮咚音響，而且也還只做了其中一部分工作，到最后消費者手中時用戶體驗也很一般，畢竟只有聽音樂，簡單的問答，沒有其他多的功能。
一家硬件公司需要開發一款中國的echo變得成本極其高。需要研發投入，語音識別付費，內容整合，服務器帶寬費用。所以，最多只能像騰訊，阿里巴巴這樣有數據又有內容還有錢的互聯網公司能做。如阿里巴巴的阿里小智就是一個智能家居的云平臺，并且被阿里做成了一個大APP，兼容了各家硬件廠商的設備，WIFI音響只是其中一個類別。這其實并不好，是對廣大智能音響品牌廠的一個傷害，因為不管是2000RMB還是200RMB的都是一個樣子，功能都一樣，不利于市場的良性發展。而且阿里巴巴對市場干預得太多，過認證的標準首先是要有天貓旗艦店，然后單單靠產品的成本判斷這款產品的銷量并給予不同的支持力度，他們只關心你的產品能給他們帶來多少用戶量，不太注重用戶體驗。而這就是其他一些互聯網公司的機會，即先做某幾類產品的云平臺，并做到同類別產品之間允許差異化，最后再做到這些類別產品之間的一種隱互通。
　　Echo未來的發展
　　根據亞馬遜對Echo用戶的大數據分析，目前Echo用戶用得最多的是通過語音設定一個鬧鐘，以及詢問個天氣情況。消費者迫切需要的功能是可以通話，所以現在亞馬遜正在抓緊時間開發出Echo支持通話功能。
同時，智能家居物聯網這一塊目前Echo的用戶體驗性也不好，如果家里的wifi一旦斷網是完全不能用的，所以Echo在利用intel的芯片開發出本地語音識別+網絡語音識別的功能，幾百條簡單的家居控制指令通過本地語音識別局域網就可以完成，并不需要外網了。

更多相關： Echo

<< 去音響網首頁

　網友評論