百度阿里騰訊進入語音識別 這家創業公司押寶物聯網對抗巨頭
來源:互聯網2016年3月,圍棋人工智能程序AlphaGo擊敗李世石,再次引發人工智能關注熱潮。“坐了十幾年冷板凳”的云知聲CEO黃偉,順著物聯網興起的兆頭,也許迎來語音識別最好的發展時機。
云知聲CEO黃偉
2003年前后,這個行業曾經經歷過一次高潮,因為語音識別實驗室識別精確度達到90%以上水平,大小公司蜂擁而至。2005年全球領先的語音識別公司Nuance上市,市值最高突破90億美元。2008年,科大訊飛(002230)上市,國內市場占有率一度占到70%以上。
但是,只有極少數公司在這一波浪潮里突出重圍。語音識別在實際使用場景精確度降到很低,短時間內技術解決基本無望。大公司紛紛關閉語音識別相關部門,熱潮不過曇花一現。
平臺化實現彎道超車
移動互聯網的興起、機器深度學習(AlphaGo的主要工作原理)的發展,讓語音識別再次呈現上升之勢。蘋果2億美元收購Siri Inc.公司,2011年發布Siri語音助手。同年,谷歌連續收購語音通信公司SayNow和語音合成公司Phonetic Arts,亞馬遜收購語音識別公司Yap。
2012年6月,梁家恩創立云知聲。這個時候,科大訊飛已經在國內語音識別市場筑起了深厚的壁壘。要想實現彎道超車,梁家恩想得很清楚:第一是算法;第二是數據。如果算法是引擎,那么數據就是燃料。哪怕算法得到極大提升,如果沒有油的話,車還是跑不起來。
左起:云知聲董事長兼CTO梁家恩、云知聲CEO黃偉
梁家恩決定做開發者平臺。對于一家創業公司而言,平臺包袱無疑很重,團隊也有過糾結。“我們必須把平臺先做起來,讓市場看到云知聲的能力。”語音識別技術最關鍵的是先要有充足的語料積累,不光是找人去錄語音,更需要用戶真實的數據。而做平臺能夠在短時間內完成大量的語音數據積累,以實現彎道超車。
淘寶上買機器、普通游戲顯卡,10個人不到的工程師團隊,自學深度學習算法,3個月平臺上線。
“沒有人想到這樣一家剛成立的小公司真的能做出來。”云知聲董事長兼CTO梁家恩現在說起來還頗為得意。2012年9月云知聲發布的語音平臺,當時精確度只能做到85%,如果真正應用到實際場景,甚至會降到60%。到2013年底,語音數據已從最開始的800小時積累到3000小時,精確度提高到95%,平臺上的開發者大大小小已有8000多家。4年以來,云知聲開發者平臺每年保持400%的增長量,目前每天調用量在1.5億到2億次之間。
平臺也打出了云知聲的名氣,語音識別技術在人工智能領域相對成熟,這家公司開始考慮商業化。一開始,他們就選擇了從B端切入。云知聲CEO黃偉始終認為,在人工智能領域,B2C在中國很難實現,這也是黃偉一直堅持不做單品的原因。
和搜狗合作,云知聲一戰成名。
當時搜狗和百度都在搶時間點,想率先發布語音助手。但搜狗本身并沒有這部分技術,將市場上各家的產品一一測試,綜合價格因素,一周時間便與云知聲達成合作。
小i機器人(300024)也是云知聲早期的客戶。對方給銀行提供服務,之前都是文本,后來逐漸拓展到語音領域。科大訊飛是它當時的服務提供商,收費很高,小i機器人便找到云知聲。云知聲以相對低的價格拿下客戶。
黃偉說:“在市場、技術不成熟的前提下,過高的使用門檻無疑是殺雞取卵。”
和樂視的合作,除了技術上的相對優勢以外,樂視當時也處于起步階段,而科大訊飛更愿意圍繞運營商來提供服務。當樂視自身尚沒有證明自己能力時,科大訊飛相對是保守的,這就給了云知聲機會。
云知聲早期合作公司多為互聯網公司,他們更敢于嘗試新的東西,快速迭代。傳統公司相對保守,除了產品本身好壞,出身等其他因素也會被納入考量。
“在云知聲規模還很小的時候,對于客戶而言,如果選擇大廠商,出了問題是大廠商的責任。但如果選了云知聲,出問題的話,決策者自己需負很大責任。”黃偉告訴“”。
2013年初,先后供職摩托羅拉中國研究中心、Nuance,一手創立盛大語音創新院的黃偉加入云知聲,擔任CEO。“從讀書的時候開始,之后10年工作,我終于等到一個可以放手去做這件事情的機會。”黃偉穿著深綠色襯衣,牛仔褲,戴著無框眼鏡,頭發抓得一絲不茍。談話之間偶爾取下手腕上的佛珠撥弄。
“商業上的技巧我們確實吃過很多虧,我們不是商務驅動型的公司,最開始就是拿產品過去,實打實地測試,比識別率、比響應速度等。”
差異化贏得時間
云知聲IoT事業部副總裁康恒說:“平臺給云知聲帶來的另一個收獲,我們得以發現市場所聚焦的需求。通過不同行業用戶在平臺上的使用頻度,能夠精準捕獲市場需求。”車載、家居、醫療和教育,是云知聲的四大重點領域。
2014年,市場上已有汽車廠商將安卓系統和車載設備相結合,黃偉隱約看到車聯網的興起之勢。很快,云知聲成立專門的車載語音技術團隊。
從整個車載語音設備行業來看,前裝市場規模大,但產品周期長,且科大訊飛深耕已久。后裝市場滿足用戶購車后的個性化需求,市場規模小,但少有入局者。
當時的后裝市場魚龍混雜,大大小小的廠商遍地都是,質量良莠不齊。黃偉也是摸著石頭過河,只能一再謹慎,盡可能選擇優質廠商合作,采取統一授權以減小風險。
截至2016年上半年,云知聲車載行業的產品激活量近兩百萬臺,收入規模達千萬級別。
智能家居是云知聲的又一重鎮。
隨著物聯網概念的興起,幾乎所有的家居廠商都在探索智能家居的未來。語音識別在智能手機上的應用并不是剛需,觸摸已經能夠解決大部分的應用場景。對于鮮少擁有觸控屏幕的家居產品,語音交互很快成為廠商間的共識。
早在2014年,云知聲和一些家電巨頭就有過接觸,但先期落地的產品主要集中在創業公司。這些創業公司希望生產一些智能化的產品,雖然量都不大,云知聲技術團隊仍全力配合開發,不斷試錯,打磨技術。
“2015年,我們在家居行業的策略是和小公司玩;從2016年起,我們也要和巨頭共舞。”黃偉說。
美的一直看重智能家居,尤其空調這個單品,從2012年起便不斷尋找智能化解決方案,和科大訊飛、韓國Powervoice都有過合作。
2014年底,云知聲開始和美的接觸。對方要求明確:第一、用戶直接通過語音方式控制空調,且不受噪聲影響;第二、一定距離的遠場語音交互得以實現;第三、方案成熟,成本控制。
遠場語音交互是關鍵中的關鍵。
當時市場上普遍解決方案都是八個麥克風收音,雖然語音識別準度得以提高;但能耗、安裝等問題卻接踵而來。
云知聲團隊做了大量先期工作,發現像空調這類產品,它永遠都是貼墻放,八個麥克風在實際應用上是多余的。云知聲提出雙麥克技術,兩個麥克風間距不過三厘米,在任何產品上均可自然適配,即插即用。
一下少了六個麥克風,如何保證遠場語音交互能達到測試要求,云知聲花了一年半來解決這個問題,2015年底投入生產。
2016年8月1日,美的智能語音空調正式發布。
從2015年開始,云知聲涉足醫療領域。2013年前后,云知聲就想往醫療方向發展,初步接觸下來,當時的時間點太早,需求尚沒有爆發。
語音識別在人工智能各領域中雖然相對成熟,但遠沒有到頂。除了高度的提升,廣度則是所有語音識別廠商需要發力的領域:比如特定行業的語音識別、歌曲識別、方言識別等。像之前在線上語音識別精確度能達到96%,當落實到和醫院合作時,精確度急劇降到60%左右。
云知聲銷售楊拓剛開始做醫療客戶時,也很不適應:醫學里有大量專業術語,在日常生活中是鮮少應用。如何保證系統知識庫既能準確識別日常對話交流,同時又能對這些專業術語進行分辨,平衡很重要。
當時客戶需求反應過來,團隊馬上根據不同科室,短時間內人力收集專業信息,同時輔以機器學習,通過大量醫療數據積累推動算法提升。經過跟醫院場景和醫學術語的深度定制,語音識別的精確度提升至95%,部分科室經過優化達到98%。
2015年底,云知聲的語音識別服務在北京協和醫院四個科室上線使用,2016年起全院推廣。“最開始我們確實會選擇一些相對競爭不那么充分的領域先行切入,但我們不會為了回避競爭,而選擇一些根本不存在的市場。”黃偉說。
Nuance在醫療市場,光美國一個國家的年收入就接近20億美元。
押寶芯片深耕物聯網
2015年,亞馬遜推出家用智能音響Echo,被視為目前語音識別領域最出色的實體產品,依托亞馬遜平臺,2016年上半年,出貨量300萬臺。
微軟推出小冰,百度將語音團隊獨立,阿里巴巴將語音識別技術全面應用在阿里云系統上,騰訊智能語音服務系統也上線。
這一波人工智能熱潮里,巨頭們紛紛入場。
黃偉相信語音交互一定是人機交互最自然的形態。前端語音交互提供入口,后端互聯網提供服務。只有二者充分的結合,才能為用戶帶來更多價值。
而“云端芯”則是在這一輪語音交互競爭中黃偉的希望所在:云是線上平臺,沉淀大量基礎數據;端最開始是智能手機,現在已全面向物聯網遷移;芯片則是云知聲所有技術和服務的載體。
早在2014年底,云知聲完成來自高通的5000萬美元B輪融資后,便開始發力芯片領域。對于物聯網而言,終端對功耗非常敏感,市場上現有芯片往往搭載很多不必要的功能,標準程度、穩定性達不到要求。
芯片的設計、制作困難重重。云知聲之前和一家公司合作,當時在產品部門測試全部通過,結果到了工廠,實際操作中不適配。工廠的生產是有排期的,如果一定時間內不能測試通過投入生產的話,整個產品線都要延期。對方給了兩天時間,云知聲的工程師直接駐廠,一邊不斷調試一邊和對方溝通。
現在,云知聲與高通合作的特殊芯片,功能集中,能耗劇降,適配程度大幅提高。
2007年,第一代iPhone推出,接下來近十年里,移動互聯網風生水起。隨著智能手機普及率提升,2016年智能手機全球出貨量增長幾乎停滯,根據市場研究公司Strategy Analytics數據,全球智能手機出貨量2016年二季度為3.404億部,相比于2015年同期的3.38億部,僅增加了1%。
那移動互聯網之后呢?
“物聯網將是一個比移動互聯網更偉大的時代。”黃偉告訴“”。
目前云知聲幾乎將全部資源押寶物聯網布局,智能家居、車聯網、智慧醫療和教育四大領域,合作客戶近兩萬家。他認為云知聲的未來將是物聯網領域內一家優秀的人工智能服務公司,讓機器更好地理解用戶,交互變得自然而智能。
“我希望它會成為萬物互聯之下的BAT。”