做“數(shù)據(jù)科學(xué)家版Office”,「DataExa」希望推進(jìn)AI平民化
科技巨頭企業(yè),如Alphabet、Facebook、微軟、BAT等掌握了海量的數(shù)據(jù),籠絡(luò)了頂尖科學(xué)家,擁有更雄厚的資金實(shí)力,成為前沿科技底層技術(shù)的主要競(jìng)技者,對(duì)于創(chuàng)業(yè)者而言,這是一個(gè)神仙打架的賽道。
垂直領(lǐng)域也有應(yīng)用數(shù)據(jù)智能的需求,要將前沿科技落地于垂直行業(yè),存在以下難題:
①需要找到有實(shí)效的落地場(chǎng)景;
②即懂業(yè)務(wù)又懂技術(shù)的復(fù)合型人才一將難求;
③垂直行業(yè)的數(shù)據(jù)源無(wú)法打通,數(shù)據(jù)孤島限制應(yīng)用;
盡管有Tensorflow,PyTorch,Theano和Keras等開源的機(jī)器學(xué)習(xí)平臺(tái),讓AI的開發(fā)得以部分去中心化,垂直行業(yè)的企業(yè)要從0到1開發(fā)應(yīng)用仍然有較高的門檻:需要從數(shù)據(jù)采集開始,再做數(shù)據(jù)儲(chǔ)存、清洗、挖掘,然后才是機(jī)器學(xué)習(xí)、算法選擇與調(diào)試、模型評(píng)估,最后才是產(chǎn)品發(fā)布。
能不能有一個(gè)工具集成的平臺(tái),就像Excel之于財(cái)會(huì)從業(yè)者一樣,幫數(shù)據(jù)科學(xué)家省去重復(fù)性高、技術(shù)含量低的環(huán)節(jié)呢?
36氪最近接觸的DataExa,是一家提供行業(yè)+數(shù)據(jù)智能解決方案的科技公司。
DataExa主要有兩款產(chǎn)品,數(shù)據(jù)洞察平臺(tái)DataExa-Insight以及認(rèn)知計(jì)算平臺(tái)DataExa-Sati,借用這兩個(gè)平臺(tái),垂直行業(yè)的企業(yè)要搭建具體場(chǎng)景的模型或者行業(yè)圖譜時(shí),可以省去從第一行代碼到具體與場(chǎng)景結(jié)合的前期準(zhǔn)備工作。
DataExa-Insight是一個(gè)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)平臺(tái)。平臺(tái)內(nèi)置了邏輯回歸、隨機(jī)森林、GBDT等40多種常見的機(jī)器學(xué)習(xí)以及100多個(gè)神經(jīng)網(wǎng)絡(luò)層,KUKA機(jī)器人示教器維修,包括細(xì)化的CNN、RNN、LSTM、RBM等。算法中參數(shù)配置的顆粒度可以做到與微軟AzureMachineLearning水平相較的程度。
在現(xiàn)有算法不適用時(shí),機(jī)器人維修,DataExa-Insight也支持技術(shù)人員自定義算法,可開放接口,提供SDK做二次開發(fā)。創(chuàng)始人兼CEO洪萬(wàn)福表示,目前這些知名廠商的產(chǎn)品都不支持在可視化建模平臺(tái)上自定義算法。
DataExa-Insight的產(chǎn)品開發(fā)基于Hadoop、Spark、TensorFlow等開源平臺(tái)。市場(chǎng)上也有類似的平臺(tái),如阿里云的數(shù)加PAI、微軟的AzureMachineLearning,與之相比,DataExa-Insight的優(yōu)勢(shì)在于跳脫了巨頭體系的兼容性使用通用模型格式,可跨行業(yè)重復(fù)使用,產(chǎn)品復(fù)用度高,研發(fā)邊際成本可以下降。
另外,大廠商現(xiàn)階段只支持公有云服務(wù),而DataExa主要提供私有化部署服務(wù)。
DataExa-Insight的另一個(gè)亮點(diǎn)在于,支持機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法的可視化建模和模板化建模,數(shù)據(jù)分析師工作過(guò)程中可以更專注于如何與場(chǎng)景中的具體問(wèn)題結(jié)合。
DataExa-Insight的目標(biāo)還包括數(shù)據(jù)科學(xué)家和不熟悉技術(shù)業(yè)務(wù)分析師。洪萬(wàn)福表示,因?yàn)榇怪鳖I(lǐng)域的企業(yè)大多初步接觸數(shù)據(jù)智能行業(yè),所以即使提供標(biāo)準(zhǔn)化開發(fā)平臺(tái),仍然需要定制化地為客戶開發(fā)解決方案,不過(guò)行業(yè)的最佳實(shí)踐可以跨行業(yè)應(yīng)用。DatExa-Insight在公安反恐、消費(fèi)金融風(fēng)控、精準(zhǔn)營(yíng)銷等領(lǐng)域都有最佳實(shí)踐模型。
DataExa另一款主打產(chǎn)品是語(yǔ)義計(jì)算平臺(tái)DataExa-Sati,基于自然語(yǔ)言處理、圖儲(chǔ)存計(jì)算、問(wèn)答系統(tǒng)、推理引擎等技術(shù),挖掘非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),幫助用戶建構(gòu)行業(yè)知識(shí)圖譜的平臺(tái)。
DataExa-Sati類似的產(chǎn)品有SparkGraphX、PalantirGotham、IBMWatson、IBM-i2Analyze等。相比之下,DataExa-Sati的特點(diǎn)是擁有超過(guò)150+功能的圖計(jì)算引擎,以及類似Wolfram|Alpha的計(jì)算推理引擎。
DataExa-Sati可應(yīng)用于公共安全情報(bào)分析、金融征信、反詐、各行業(yè)用戶畫像與精準(zhǔn)營(yíng)銷、復(fù)雜社交網(wǎng)絡(luò)圖譜等。
洪萬(wàn)福表示,公安反恐和金融是DataExa應(yīng)用比較成熟的領(lǐng)域,KUKA機(jī)器人維修,市場(chǎng)推廣方面主要通過(guò)與渠道商合作。
DataExa創(chuàng)始人兼CEO洪萬(wàn)福曾任清華同方軟件出口首席架構(gòu)師、戴爾高級(jí)架構(gòu)師、科宇集團(tuán)副總裁。團(tuán)隊(duì)其他成員還包括微軟劍橋研究院博士后、劍橋大學(xué)機(jī)器智能博士、博士后等。
DataExa此前曾獲得千萬(wàn)級(jí)天使投資。