首先,你知道自己想要預(yù)測(cè)或檢測(cè)什么嗎?你有足夠的數(shù)據(jù)進(jìn)行分析以建立預(yù)測(cè)模型嗎?你有定義模型和訓(xùn)練模型所需的人員和工具嗎?你已經(jīng)有了統(tǒng)計(jì)或物理模型來(lái)作為一個(gè)預(yù)測(cè)基準(zhǔn)嗎?
這篇文章對(duì)你的人工智能和機(jī)器學(xué)習(xí)項(xiàng)目進(jìn)行分解,討論其各個(gè)部分所帶來(lái)的影響,從而幫助你確定公司是否真正準(zhǔn)備需要利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)或人工智能。
你擁有大量的數(shù)據(jù)
足夠的相關(guān)數(shù)據(jù)是預(yù)測(cè)和特征識(shí)別的必要條件。有了它,你可能會(huì)成功;沒(méi)有它,則注定失敗。那么你需要多少數(shù)據(jù)呢?你嘗試納入模型的因素越多,所需要的數(shù)據(jù)就越多,無(wú)論你是在做普通的統(tǒng)計(jì)預(yù)測(cè)、機(jī)器學(xué)習(xí)還是深度學(xué)習(xí)。
以銷售預(yù)測(cè)中常見的問(wèn)題為例,比如,為了避免延遲交貨,且不會(huì)占用太多金錢和現(xiàn)貨貨架空間,那么你下個(gè)月將在邁阿密出售多少海軍藍(lán)短袖襯衫?以及你需要在邁阿密店和亞特蘭大倉(cāng)庫(kù)中儲(chǔ)備多少存活?零售是強(qiáng)季節(jié)性行業(yè),所以你需要從多年的歷史數(shù)據(jù)中總結(jié)出有統(tǒng)計(jì)學(xué)意義的月度數(shù)據(jù),從而修正月度銷量波動(dòng),并建立一個(gè)年化趨勢(shì)這還只是一個(gè)標(biāo)準(zhǔn)的時(shí)間序列分析。機(jī)器學(xué)習(xí)比統(tǒng)計(jì)模型需要更多的數(shù)據(jù),而深度學(xué)習(xí)模型是它的好幾倍。
統(tǒng)計(jì)模型會(huì)分析你的全國(guó)連鎖店在5+年間的襯衫月銷量,并使用這一數(shù)據(jù)來(lái)預(yù)測(cè)下個(gè)月的襯衫銷量,可能有幾十萬(wàn)(假設(shè)是30萬(wàn))。然后你可以預(yù)測(cè)邁阿密的襯衫銷量占全國(guó)銷量的百分比(假設(shè)是3%),并單獨(dú)預(yù)測(cè)出藍(lán)色短袖上衣銷量所占襯衫性銷量的百分比(假設(shè)是1%)。該模型會(huì)指出,下個(gè)月藍(lán)色短袖襯衫總銷量的90%左右將售于邁阿密。你可以通過(guò)對(duì)比不同產(chǎn)品的年度同店銷量來(lái)核實(shí)預(yù)測(cè)結(jié)果,同時(shí)分析它們之間的差異程度。
現(xiàn)在,假設(shè)你想要考慮一些外部因素,比如天氣和流行趨勢(shì)。短袖襯衫在熱天或晴天時(shí)是不是比陰雨天時(shí)賣的更好?可能如此。你可以將歷史氣象數(shù)據(jù)納入到你的模型中來(lái)做預(yù)測(cè),雖然這樣做有點(diǎn)笨拙,因?yàn)槟阈枰鲆粋(gè)時(shí)間序列的統(tǒng)計(jì)模型,所以你可能會(huì)決定使用回歸森林,順便再試試其它7種回歸機(jī)器學(xué)習(xí)模型,然后將每個(gè)模型測(cè)得的「cost」(一個(gè)歸一化誤差函數(shù))與去年的實(shí)際結(jié)果相比較,從而找到最佳模型。
相比于去年同時(shí)段的海軍藍(lán)襯衫銷量,下個(gè)月會(huì)更好還是更差?你可以看看海軍藍(lán)服裝所有的月度銷量,并預(yù)測(cè)出年度流行趨勢(shì),然后將其納入到你的機(jī)器學(xué)習(xí)模型中;蛘吣憧赡苄枰獊(lái)自時(shí)尚媒體方面的信息對(duì)模型進(jìn)行手動(dòng)校正。(「為以防萬(wàn)一,假設(shè)下月銷量會(huì)提高20%!梗
也許你想建立一個(gè)深度神經(jīng)網(wǎng)絡(luò)來(lái)完善這個(gè)模型。你可能會(huì)發(fā)現(xiàn),每添加一個(gè)隱藏層,就可以將回歸誤差提高幾個(gè)百分點(diǎn),直到某一時(shí)刻,再添加隱藏層也無(wú)濟(jì)于事,此后收益遞減。這種情況可能是因?yàn)槟J街袥](méi)有更多的特征可供識(shí)別,或者更可能的原因是,已經(jīng)沒(méi)有足夠多的數(shù)據(jù)來(lái)支持模型的深入改進(jìn)。
你有足夠的數(shù)據(jù)科學(xué)家
可能你已經(jīng)注意到,單個(gè)人需要獨(dú)自建立上面討論的所有模型。其實(shí)不是這樣,建模型不僅僅是把數(shù)據(jù)倒在漏斗中然后按個(gè)按鈕這么簡(jiǎn)單。不管你使用哪種工具盡管供應(yīng)商可能對(duì)此會(huì)有要求,它需要經(jīng)驗(yàn)、直覺、編程能力和良好的統(tǒng)計(jì)學(xué)背景,這樣才能輕松駕馭機(jī)器學(xué)習(xí),從而實(shí)現(xiàn)你的想法。
尤其是某些廠商往往聲稱,「任何人」或「任何業(yè)務(wù)角色」都可以使用商家預(yù)先訓(xùn)練過(guò)、可應(yīng)用的機(jī)器學(xué)習(xí)模型。如果該模型正好可以解決手頭的問(wèn)題,這話不假,庫(kù)卡機(jī)器人何服電機(jī)維修,比如將正式的魁北克法語(yǔ)文本翻譯為英語(yǔ),但更常見的情況是,現(xiàn)有的訓(xùn)練過(guò)的機(jī)器學(xué)習(xí)模型并不適用于你的數(shù)據(jù)。既然你已經(jīng)訓(xùn)練了模型,你就需要數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家來(lái)指導(dǎo)訓(xùn)練,這更像是一門藝術(shù),而非工程或科學(xué)。
在招聘數(shù)據(jù)科學(xué)家時(shí),最奇怪的事情之一就是對(duì)工作崗位的要求,尤其是與受聘者的實(shí)際技能相比。廣告上經(jīng)常說(shuō)「招聘:數(shù)據(jù)科學(xué)家。STEM博士。20年經(jīng)驗(yàn)!沟谝粋(gè)怪事是,該領(lǐng)域的發(fā)展歷程還未足20年。第二件怪事是,公司雇傭26歲的碩士畢業(yè)生也即除學(xué)術(shù)界外沒(méi)有任何工作經(jīng)驗(yàn),與20年經(jīng)驗(yàn)的要求相去甚遠(yuǎn)偏好那些已經(jīng)有相關(guān)經(jīng)驗(yàn)的人,因?yàn)樗麄儞?dān)心高級(jí)人員太貴,盡管他們的要求是20年工作經(jīng)驗(yàn)。是的,這很虛偽,且十之八九是非法的年齡歧視,但現(xiàn)實(shí)情況就是這個(gè)樣子。
你跟蹤或獲得那些重要的因素
即使你有大量的數(shù)據(jù)和很多數(shù)據(jù)科學(xué)家,你也可能無(wú)法擁有包含所有相關(guān)變量的數(shù)據(jù)。以數(shù)據(jù)庫(kù)術(shù)語(yǔ)的話說(shuō),你可能有大量的行,但缺少一些列。統(tǒng)計(jì)學(xué)上來(lái)說(shuō)就是,你可能有無(wú)法解釋的方差。
一些獨(dú)立變量的測(cè)量(比如天氣觀測(cè))很容易獲得并被合并到數(shù)據(jù)集中,甚至可在事后被合并。其它一些變量的測(cè)量或獲取過(guò)程可能較為困難,比如不切實(shí)際或成本高昂,即使你知道這些變量是什么。
舉一個(gè)化學(xué)領(lǐng)域的例子。當(dāng)你在銅上鍍鉛時(shí),你可以測(cè)量氟硼酸鍍液的溫度和濃度,并記錄陽(yáng)極電壓,但如果溶中沒(méi)有適宜數(shù)量的肽鏈,那么你就不會(huì)得到很好的結(jié)果。如果你沒(méi)有稱量放入溶液中的肽鏈,就無(wú)法知道這種關(guān)鍵催化劑的劑量,那么你將無(wú)法使用其它變量來(lái)解釋電鍍質(zhì)量的變化。
你有清理和轉(zhuǎn)換數(shù)據(jù)的方法
數(shù)據(jù)幾乎總是那么嘈雜。測(cè)量過(guò)程可能會(huì)丟失一個(gè)或多個(gè)值;單個(gè)值可能會(huì)超出范圍,或與同一計(jì)量過(guò)程中的其它值不相稱;電子測(cè)量可能由于電噪聲而變得不準(zhǔn)確;回答問(wèn)題的人可能并不理解問(wèn)題本身,或是編造答案;諸如此類。
在任何分析過(guò)程中,工業(yè)機(jī)器人維修,數(shù)據(jù)過(guò)濾步驟通常需要消耗最多設(shè)置時(shí)間是根據(jù)我的經(jīng)驗(yàn),它占到總分析時(shí)間的80%到90%。有些公司在它們的ETL(提取、轉(zhuǎn)換和加載)過(guò)程中清理數(shù)據(jù),這樣分析師應(yīng)該永遠(yuǎn)都看到不良數(shù)據(jù)點(diǎn)了,而其它公司則將數(shù)據(jù)與ETL(以及最后一步的轉(zhuǎn)換步驟)過(guò)程放在數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖中。這意味著,即使是最容易過(guò)濾掉的臟數(shù)據(jù)也會(huì)被保存下來(lái),理論上,過(guò)濾器和轉(zhuǎn)換步驟需要隨著時(shí)間的推移而進(jìn)行改進(jìn)。
即使是過(guò)濾后的精確數(shù)據(jù)可能也需要在分析前做進(jìn)一步的轉(zhuǎn)換。與統(tǒng)計(jì)學(xué)方法一樣,只有當(dāng)每種可能的狀態(tài)都有相似的行數(shù)時(shí),機(jī)器學(xué)習(xí)模型的效果才最好,這意味著,那些最受歡迎的狀態(tài)數(shù)可能會(huì)由于隨機(jī)抽樣而減少;同樣,當(dāng)所有變量的范圍都被標(biāo)準(zhǔn)化后,機(jī)器學(xué)習(xí)模型才能達(dá)到最佳效果。
例如在微軟的一篇博文中,微軟小娜分析了特朗普和克林頓的競(jìng)選捐款,說(shuō)明了準(zhǔn)備機(jī)器學(xué)習(xí)數(shù)據(jù)集的方式:創(chuàng)建標(biāo)簽、處理數(shù)據(jù)、設(shè)計(jì)附加功能以及清洗數(shù)據(jù)。這種分析用SQL和R語(yǔ)言做了幾個(gè)轉(zhuǎn)換,以確定與克林頓或特朗普相關(guān)的各種委員會(huì)和競(jìng)選資金,并基于捐贈(zèng)者的姓名來(lái)確定他們的性別,以及糾正拼寫錯(cuò)誤,并修復(fù)類之間的不平衡性(數(shù)據(jù)集中有94%都是克林頓的捐款,且大部分是小額捐款)。
你已經(jīng)對(duì)數(shù)據(jù)做了統(tǒng)計(jì)分析
在分析數(shù)據(jù)和解決問(wèn)題時(shí),最應(yīng)該避免的就是一個(gè)勁地往前沖。在你能夠弄清楚發(fā)生的事情及其原因之前,你需要退后一步,看一看所有的變量及其相互之間的關(guān)系。