人工智能大火,BasicFinder要做數(shù)據(jù)采集、加工的“送水人”
眼前的女員工,正把手寫體的古德文轉(zhuǎn)錄為印刷體字母,經(jīng)過培訓(xùn),她已經(jīng)可以熟練操作,每秒鐘至少轉(zhuǎn)換1個字母,要知道,即便是在德國,完全認(rèn)識這種古老字體的人也寥寥無幾。之后,轉(zhuǎn)錄出的文字會發(fā)給OCR(OpticalCharacterRecognition,光學(xué)字符識別)公司,做為機器訓(xùn)練的數(shù)據(jù)材料。
另一邊,員工在標(biāo)記圖片中汽車的可行駛區(qū)域,之后會用于無人駕駛場景的訓(xùn)練。
就像傳統(tǒng)工廠一樣,數(shù)據(jù)正在流水線上處理,被分塊加工。這一切都源于人工智能行業(yè)的崛起。Tractica預(yù)測,2024年人工智能市場規(guī)模將增長至111億美元。但AI要真正發(fā)揮作用,優(yōu)質(zhì)的數(shù)據(jù)必不可少,所以,前端的數(shù)據(jù)采集、加工環(huán)節(jié)單拎出來成為了新的機會點。
其實,數(shù)據(jù)標(biāo)注并不算一個完全新興的產(chǎn)業(yè),成立于1998年的海天瑞聲已在語音領(lǐng)域耕耘近20年,因為人工智能一詞的提出,最早可以追溯到20世紀(jì)50年代,不過此前主流技術(shù)沒有到深度學(xué)習(xí)的階段,所以數(shù)據(jù)用的相對較少。目前這個賽道上,成立久的有數(shù)據(jù)堂,早期公司有獲得明勢資本Pre-A輪融資的愛數(shù)智慧,完成天使輪融資的泛涵科技,獲得合力投資數(shù)百萬天使的丁火智能,今天要講的BasicFinder也是賽道上一員。
正如上面的場景,數(shù)據(jù)標(biāo)記是個重人力的勞動密集型行業(yè)。這類公司的關(guān)鍵點就在于人員效率、交付質(zhì)量。
市面上很多公司都采用眾包模式,找人兼職做標(biāo)記,亞馬遜每天會發(fā)布任務(wù)給墨西哥以及印度兼職人員,但很多高精度工作是不適合眾包的。BasicFinder創(chuàng)始人杜霖告知,BasicFinder采用的是自營模式,目前擁有12家下轄數(shù)據(jù)工廠及2000余名數(shù)據(jù)操作員,為了保證質(zhì)量,這些數(shù)據(jù)工廠有些是參與投資,有些是深度合作,操作員大多是經(jīng)過培訓(xùn)的打字員,她們技能相對匹配、標(biāo)記效率又高。杜霖補充,若是音頻數(shù)據(jù),BasicFinder會挑選聽力較好的技術(shù)員,篩選通過率僅在30%。
具體到標(biāo)記過程,BasicFinder都是流水線式的,從最前端的任務(wù)定義、采集數(shù)據(jù),到中間的清洗、加工,以及后端的質(zhì)量檢測、訓(xùn)練迭代等全部環(huán)節(jié)分開作業(yè),并開發(fā)了一套系統(tǒng)輔助人工提高效率。
舉幾個例子,拿視頻標(biāo)記骨骼來說,系統(tǒng)首先將視頻的每幀切成畫面,然后把沒有人或者身體不全的畫面去掉,這就完成了清洗過程。接下來,工人打點標(biāo)記,若圖中人物較多,系統(tǒng)會分割后派給不同標(biāo)記員,以防單人作業(yè)眼花標(biāo)亂。再比如,無人便利店的項目要求是框出商品,BasicFinder系統(tǒng)會提供輔助線幫人工標(biāo)記,比無線情況下,至少提升1倍的效率。
加工完的數(shù)據(jù),還面臨一道不可缺少的步驟就是校驗。相對而言,這是不能標(biāo)準(zhǔn)化的事情,BasicFinder目前用人工復(fù)查,跟標(biāo)記的耗時相比,在1:11:3之間。
最后就是安全層面,杜霖告知,對于客戶提供的數(shù)據(jù)素材,BasicFinder實行交付即焚,保證數(shù)據(jù)不會復(fù)用。若企業(yè)有非常嚴(yán)格的需求,BasicFinder還提供隔離標(biāo)記房,數(shù)據(jù)不會經(jīng)過BasicFinder服務(wù)器,并且房內(nèi)有監(jiān)控,客戶可隨時查看員工作業(yè)過程,以及每一臺設(shè)備的標(biāo)記情況。
不僅如此,在前端的采集,BasicFinder也不主張數(shù)據(jù)復(fù)用。在人臉識別場景中,批量購買超市等攝像頭的數(shù)據(jù)成本很低,但有法律風(fēng)險,工業(yè)機器人維修,其實侵犯了個人肖像權(quán),BasicFinder的解決方案是,跟每一個員工或者被采集人簽訂授權(quán)協(xié)議,即便有公司提出同樣的需求,我們會用同樣的方法再采集一遍,也不會私下復(fù)用。杜霖強調(diào),庫卡機器人驅(qū)動器維修,BasicFinder的定位不是數(shù)據(jù)買賣公司,而是在加工的質(zhì)量上。
當(dāng)然,對于一些公開的數(shù)據(jù)集,比如說景物的識別,BasicFinder也會自建數(shù)據(jù)庫,供企業(yè)采購。但實際在人工智能行業(yè)里,數(shù)據(jù)素材可復(fù)用的機率相對較低,杜霖補充,因為每家公司的要求都不一樣,同是標(biāo)記商品,有的公司會要求勾勒輪廓,有的會要求貼邊打框,有的精度在10%的誤差,有的在5%
值得一提的是,BasicFinder的工具平臺正在內(nèi)部試用中,并將于近期正式對外公布?蛻粼谄脚_上直接簡單組合,填寫相關(guān)參數(shù),www.whsntf.cn,即可以相對精準(zhǔn)的定義任務(wù)。平臺接受到任務(wù)后,會按照要求把數(shù)據(jù)任務(wù)輕松分配到數(shù)據(jù)工廠甚至個人,數(shù)據(jù)工廠的工人在平臺上進行操作,并借助相關(guān)的工具提升作業(yè)效率,客戶在后臺就能及時來監(jiān)控這些信息,不合格的數(shù)據(jù)也可以及時返工,最后保證會輸出質(zhì)量較高的數(shù)據(jù)。
系統(tǒng)之后會不斷迭代,無非就是提高效率,問及是否會用機器替代人力進行標(biāo)記,杜告表示不會,因為人工標(biāo)記出得數(shù)據(jù)在誤差層面符合正態(tài)分布,而機器標(biāo)記的都是同一水平,用機器生產(chǎn)的數(shù)據(jù)再訓(xùn)練機器,并不利于AI最后的訓(xùn)練效果。
至于收費模式,BasicFinder會根據(jù)樣本耗時估算一個人力成本,走項目制。
據(jù)悉,現(xiàn)階段,BasicFinder的訂單多為數(shù)據(jù)標(biāo)注,國內(nèi)外客戶占比接近1:1,包括中科院、搜狗、中國移動、華為、創(chuàng)新工場、云知聲、國外知名科研院所等。這些客戶多在使用深度學(xué)習(xí)相關(guān)的框架進行研發(fā),因此對數(shù)據(jù)的需求量較大,客戶的算法相對比較成熟,因此任務(wù)往往為個性化任務(wù)?蛻糁,最高訂單定價在百萬元,不少用戶會多次下達不同的訂單。
其實對于這一波因為深度學(xué)習(xí)而興起的數(shù)據(jù)服務(wù)商來說,最大的潛在威脅很可能并非來自競品,而是來自于增強學(xué)習(xí)、遷移學(xué)習(xí)等算法,后者僅需要少量的數(shù)據(jù)即可以達到一定的效果。杜霖表示,這方面公司也在密切關(guān)注,一方面目前增強學(xué)習(xí)、遷移學(xué)習(xí)等算法還不成熟,很難大規(guī)模應(yīng)用;另一方面,這些算法也需要基礎(chǔ)的學(xué)習(xí)數(shù)據(jù),同時公司也有可能提供包含人工操作的數(shù)據(jù)以提供給這些算法。
BasicFinder注冊成立于2015年,目前核心研發(fā)團隊在20人左右。創(chuàng)始人杜霖是一個連續(xù)創(chuàng)業(yè)者,在上海交通大學(xué)計算機系讀大二的時候,就開始了第一次創(chuàng)業(yè)經(jīng)歷,當(dāng)時開發(fā)了一款SEM搜索引擎自動化營銷工具,后以300萬美元的價格打包賣給了一家土耳其電子商務(wù)網(wǎng)站。2010年大學(xué)畢業(yè)后,杜霖從事了數(shù)年TMT創(chuàng)投工作。2015年預(yù)感到深度學(xué)習(xí)的潛力及對數(shù)據(jù)的需求,成立了BasicFinder。公司已經(jīng)獲得過兩輪融資,天使輪由個人投資數(shù)百萬元,2017年3月份,完成了一千多萬元pre-A輪融資,計劃今年底或明年初再進行A輪融資。