說到人工智能必然要了解機(jī)器學(xué)習(xí),從信息化軟件,到電子商務(wù),然后到高速發(fā)展互聯(lián)網(wǎng)時(shí)代,到至今的云計(jì)算、大數(shù)據(jù)等,滲透到我們的生活、工作之中,在互聯(lián)網(wǎng)的驅(qū)動(dòng)下,人們更清晰的認(rèn)識(shí)和使用數(shù)據(jù),不僅僅是數(shù)據(jù)統(tǒng)計(jì)、分析,我們還強(qiáng)調(diào)數(shù)據(jù)挖掘、預(yù)測(cè)。
一、什么是機(jī)器學(xué)習(xí)
1. 機(jī)器學(xué)習(xí)概念
機(jī)器學(xué)習(xí)就是對(duì)計(jì)算機(jī)一部分?jǐn)?shù)據(jù)進(jìn)行學(xué)習(xí),然后對(duì)另外一些數(shù)據(jù)進(jìn)行預(yù)測(cè)與判斷。
機(jī)器學(xué)習(xí)的核心是“使用算法解析數(shù)據(jù),從中學(xué)習(xí),然后對(duì)新數(shù)據(jù)做出決定或預(yù)測(cè)”。也就是說計(jì)算機(jī)利用以獲取的數(shù)據(jù)得出某一模型,然后利用此模型進(jìn)行預(yù)測(cè)的一種方法,這個(gè)過程跟人的學(xué)習(xí)過程有些類似,比如人獲取一定的經(jīng)驗(yàn),可以對(duì)新問題進(jìn)行預(yù)測(cè)。
我們舉個(gè)例子,我們都知道支付寶春節(jié)的“集五?!被顒?dòng),我們用手機(jī)掃“?!弊终掌R(shí)別福字,這個(gè)就是用了機(jī)器學(xué)習(xí)的方法。我們可以為計(jì)算機(jī)提供“福”字的照片數(shù)據(jù),通過算法模型機(jī)型訓(xùn)練,系統(tǒng)不斷更新學(xué)習(xí),然后輸入一張新的福字照片,機(jī)器自動(dòng)識(shí)別這張照片上是否有福字。
機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等多門學(xué)科。機(jī)器學(xué)習(xí)的概念就是通過輸入海量訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,使模型掌握數(shù)據(jù)所蘊(yùn)含的潛在規(guī)律,進(jìn)而對(duì)新輸入的數(shù)據(jù)進(jìn)行準(zhǔn)確的分類或預(yù)測(cè)。如下圖所示:
2. 機(jī)器學(xué)習(xí)分類
我們了解了機(jī)器學(xué)習(xí)的概念,通過建立模型進(jìn)行自我學(xué)習(xí),那么學(xué)習(xí)方法有哪些呢?
(1)監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)就是訓(xùn)練機(jī)器學(xué)習(xí)的模型的訓(xùn)練樣本數(shù)據(jù)有對(duì)應(yīng)的目標(biāo)值,監(jiān)督學(xué)習(xí)就是通過對(duì)數(shù)據(jù)樣本因子和已知的結(jié)果建立聯(lián)系,提取特征值和映射關(guān)系,通過已知的結(jié)果,已知數(shù)據(jù)樣本不斷的學(xué)習(xí)和訓(xùn)練,對(duì)新的數(shù)據(jù)進(jìn)行結(jié)果的預(yù)測(cè)。
監(jiān)督學(xué)習(xí)通常用在分類和回歸。比如手機(jī)識(shí)別垃圾短信,電子郵箱識(shí)別垃圾郵件,都是通過對(duì)一些歷史短信、歷史郵件做垃圾分類的標(biāo)記,對(duì)這些帶有標(biāo)記的數(shù)據(jù)進(jìn)行模型訓(xùn)練,然后獲取到新的短信或是新的郵件時(shí),進(jìn)行模型匹配,來識(shí)別此郵件是或是不是,這就是監(jiān)督學(xué)習(xí)下分類的預(yù)測(cè)。
再舉一個(gè)回歸的例子,比如我們要預(yù)測(cè)公司凈利潤(rùn)的數(shù)據(jù),我們可以通過歷史上公司利潤(rùn)(目標(biāo)值),以及跟利潤(rùn)相關(guān)的指標(biāo),比如營(yíng)業(yè)收入、資產(chǎn)負(fù)債情況、管理費(fèi)用等數(shù)據(jù),通過回歸的方式我們回到的一個(gè)回歸方程,建立公司利潤(rùn)與相關(guān)因此的方程式,通過輸入因子數(shù)據(jù),來預(yù)測(cè)公司利潤(rùn)。
監(jiān)督學(xué)習(xí)難點(diǎn)是獲取具有目標(biāo)值的樣本數(shù)據(jù)成本較高,成本高的原因在于這些訓(xùn)練集的要依賴人工標(biāo)注工作。
(2)無監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)跟監(jiān)督學(xué)習(xí)的區(qū)別就是選取的樣本數(shù)據(jù)無需有目標(biāo)值,我們無需分析這些數(shù)據(jù)對(duì)某些結(jié)果的影響,只是分析這些數(shù)據(jù)內(nèi)在的規(guī)律。
無監(jiān)督學(xué)習(xí)常用在聚類分析上面。比如客戶分群、因子降維等。比如RFM模型的使用,通過客戶的銷售行為(消費(fèi)次數(shù)、最近消費(fèi)時(shí)間、消費(fèi)金額)指標(biāo),來對(duì)客戶數(shù)據(jù)進(jìn)行聚類:
重要價(jià)值客戶:最近消費(fèi)時(shí)間近、消費(fèi)頻次和消費(fèi)金額都很高;重要保持客戶:最近消費(fèi)時(shí)間較遠(yuǎn),但消費(fèi)頻次和金額都很高,說明這是個(gè)一段時(shí)間沒來的忠誠(chéng)客戶,我們需要主動(dòng)和他保持聯(lián)系;重要發(fā)展客戶:最近消費(fèi)時(shí)間較近、消費(fèi)金額高,但頻次不高,忠誠(chéng)度不高,很有潛力的用戶,必須重點(diǎn)發(fā)展;重要挽留客戶:最近消費(fèi)時(shí)間較遠(yuǎn)、消費(fèi)頻次不高,但消費(fèi)金額高的用戶,可能是將要流失或者已經(jīng)要流失的用戶,應(yīng)當(dāng)基于挽留措施。除此之外,無監(jiān)督學(xué)習(xí)也適用于降維,無監(jiān)督學(xué)習(xí)比監(jiān)督學(xué)習(xí)好處是數(shù)據(jù)不需要人工打標(biāo)記,數(shù)據(jù)獲取成本低。
(3)半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相互結(jié)合的一種學(xué)習(xí)方法,通過半監(jiān)督學(xué)習(xí)的方法可以實(shí)現(xiàn)分類、回歸、聚類的結(jié)合使用。
半監(jiān)督分類:是在無類標(biāo)簽的樣例的幫助下訓(xùn)練有類標(biāo)簽的樣本,獲得比只用有類標(biāo)簽的樣本訓(xùn)練得到更優(yōu)的分類;半監(jiān)督回歸:在無輸出的輸入的幫助下訓(xùn)練有輸出的輸入,獲得比只用有輸出的輸入訓(xùn)練得到的回歸器性能更好的回歸;半監(jiān)督聚類:在有類標(biāo)簽的樣本的信息幫助下獲得比只用無類標(biāo)簽的樣例得到的結(jié)果更好的簇,提高聚類方法的精度;半監(jiān)督降維:在有類標(biāo)簽的樣本的信息幫助下找到高維輸入數(shù)據(jù)的低維結(jié)構(gòu),同時(shí)保持原始高維數(shù)據(jù)和成對(duì)約束的結(jié)構(gòu)不變。半監(jiān)督學(xué)習(xí)是最近比較流行的方法。
(4)強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是一種比較復(fù)雜的機(jī)器學(xué)習(xí)方法,強(qiáng)調(diào)系統(tǒng)與外界不斷的交互反饋,它主要是針對(duì)流程中不斷需要推理的場(chǎng)景,比如無人汽車駕駛,它更多關(guān)注性能。它是機(jī)器學(xué)習(xí)中的熱點(diǎn)學(xué)習(xí)方法。
3. 關(guān)于深度學(xué)習(xí)
深度學(xué)習(xí)是目前關(guān)注度很高的一類算法,深度學(xué)習(xí)(DeepLearning,DL)屬于機(jī)器學(xué)習(xí)的子類。它的靈感來源于人類大腦的工作方式,是利用深度神經(jīng)網(wǎng)絡(luò)來解決特征表達(dá)的一種學(xué)習(xí)過程。
人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)關(guān)系如下圖所示:
深度學(xué)習(xí)歸根結(jié)底也是機(jī)器學(xué)習(xí),不過它不同于監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)的這種分類方法,它是另一種分類方法,基于算法神經(jīng)網(wǎng)絡(luò)的深度,可以分成淺層學(xué)習(xí)算法和深度學(xué)習(xí)算法。
淺層學(xué)習(xí)算法主要是對(duì)一些結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)一些場(chǎng)景的預(yù)測(cè),深度學(xué)習(xí)主要解決復(fù)雜的場(chǎng)景,比如圖像、文本、語(yǔ)音識(shí)別與分析等。
4. 了解機(jī)器學(xué)習(xí)概念對(duì)產(chǎn)品經(jīng)理意義
本節(jié)主要在于理清一些機(jī)器學(xué)習(xí)基本概念,簡(jiǎn)單介紹一下應(yīng)用場(chǎng)景,重點(diǎn)在于理解機(jī)器學(xué)習(xí)本質(zhì)上還是對(duì)于數(shù)據(jù)的的一種處理方式,數(shù)據(jù)的使用方式,通過數(shù)據(jù)解析其中的規(guī)律,來預(yù)測(cè)未來數(shù)據(jù)結(jié)果。
二、機(jī)器學(xué)習(xí)的應(yīng)用
我們?cè)谡f機(jī)器學(xué)習(xí)分類的時(shí)候,簡(jiǎn)單介紹了一下不同機(jī)器學(xué)習(xí)方法,主要是解決是什么問題,在本節(jié)中具體介紹一些常用的應(yīng)用場(chǎng)景,主要說明這些應(yīng)用到底怎么用,不對(duì)其中的算法以及原理做深入的介紹。
1. 分類和聚類
分類和聚類機(jī)器學(xué)習(xí)最常用的應(yīng)用場(chǎng)景,分類和聚類都是對(duì)數(shù)據(jù)的分組,我們剛接觸的時(shí)候,很容易混淆這兩個(gè)應(yīng)用的概念,覺得分類就是聚類,其實(shí)他們有很多的不同。
分類是我們知道有哪些組,然后對(duì)數(shù)據(jù)進(jìn)行判斷,判斷這些數(shù)據(jù)到底是預(yù)先知道的那些組。舉個(gè)很簡(jiǎn)單的例子,比如我們?cè)谲娪?xùn)排隊(duì)時(shí)要求男生一組,女生一組,這就是一種分類,我們提前知道要分那些組,然后通過一種算法對(duì)輸入的數(shù)據(jù)判定,來分類到已知的類別下,這個(gè)就是分類。
分類從數(shù)學(xué)函數(shù)角度來說:分類任務(wù)就是通過學(xué)習(xí)得到一個(gè)目標(biāo)函數(shù)f,把每個(gè)屬性集x映射到一個(gè)預(yù)先定義的類標(biāo)號(hào)y中。就是我們根據(jù)已知的一些樣本(包括屬性與類標(biāo)號(hào))來得到分類模型(即得到樣本屬性與類標(biāo)號(hào)之間的函數(shù)),然后通過此目標(biāo)函數(shù)來對(duì)只包含屬性的樣本數(shù)據(jù)進(jìn)行分類。
所以分類屬于監(jiān)督學(xué)習(xí)方法,比如圖像識(shí)別,比如我們從一些圖像中識(shí)別是貓還是狗的照片等,它解決的是“是或否”的問題,就是將需要被分析的數(shù)據(jù)跟已知的類別結(jié)果做判斷,看這些數(shù)據(jù)到底是那個(gè)類別數(shù)據(jù)。
在分類中,對(duì)于目標(biāo)數(shù)據(jù)中存在哪些類是知道的,要做的就是將每一條記錄分別屬于哪一類標(biāo)記出來。但是聚類解決的就是在不知道類的情況下,如何把數(shù)據(jù)參數(shù)做一個(gè)劃分。
聚類是實(shí)現(xiàn)不知道這批數(shù)據(jù)有哪些類別或標(biāo)簽,然后通過算法的選擇,分析數(shù)據(jù)參數(shù)的特征值,然后進(jìn)行機(jī)器的數(shù)據(jù)劃分,把相似的數(shù)據(jù)聚到一起,所以它是無監(jiān)督學(xué)習(xí);
比如RFM模型中我們通過客戶銷售數(shù)據(jù),通過這些數(shù)據(jù)對(duì)客戶分群,然后通過聚類的方法,將相似度高的數(shù)據(jù)聚類到一起,通過分析出來的數(shù)據(jù)我們可以對(duì)數(shù)據(jù)特性在定義標(biāo)簽,它解決的是相似度的問題,將相似度高的聚集到一起。
我們舉個(gè)例子來總結(jié)一下分類和聚類都是什么用途:
比如我們有1000張照片,假設(shè)我們之前已經(jīng)定義好貓、狗的照片,做了訓(xùn)練,如果從這1000張照片中區(qū)分出來貓、狗的照片,那么這就是分類;
假設(shè)我們沒做過貓狗的照片,我們只是對(duì)1000張照片的數(shù)據(jù)做一個(gè)歸類,看看那些照片相似度高,分類完成后,在通過相似度比較高的幾類,我們?cè)俣x這些類別的是貓、狗或是其他圖片什么的。
2. 回歸
回歸在統(tǒng)計(jì)學(xué)角度,指的是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡(jiǎn)單回歸分析和多重回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。
在大數(shù)據(jù)分析中,回歸分析是一種預(yù)測(cè)性的建模技術(shù),它研究的是因變量(目標(biāo))和自變量(預(yù)測(cè)器)之間的關(guān)系。這種技術(shù)通常用于預(yù)測(cè)分析,時(shí)間序列模型以及發(fā)現(xiàn)變量之間的因果關(guān)系。
回歸從數(shù)學(xué)角度來看是一種方程式,是一種解題方法,一種通過一些函數(shù)因子的關(guān)系的一種學(xué)習(xí)方法。比如以下簡(jiǎn)單的一個(gè)函數(shù):
回歸從算法角度來說,它是對(duì)有監(jiān)督的連續(xù)數(shù)據(jù)結(jié)果的預(yù)測(cè),比如通過一個(gè)人過去年份工資收入相關(guān)的影響參數(shù),建立回歸模型,然后通過相關(guān)的參數(shù)的變更來預(yù)測(cè)他未來工資收入。
當(dāng)然通過建立回歸模型,再結(jié)合數(shù)學(xué)上對(duì)方程式的解析,我們也可以倒退出來為了一個(gè)預(yù)定的結(jié)果我們需要對(duì)那些參數(shù)值做優(yōu)化?;貧w最終要的是得到相關(guān)的參數(shù)和參數(shù)的特征值,因此我們通常在做回歸分析時(shí)通常會(huì)做目標(biāo)參數(shù)相關(guān)性分析。
只要我們有足夠的數(shù)據(jù),都可以做一些回歸分析幫助我們做預(yù)測(cè)與決策。比如我們上線了一些功能,可以通過點(diǎn)擊率、打開率、分享情況等等跟產(chǎn)生的業(yè)務(wù)結(jié)果做回歸分析,如果建立了函數(shù)關(guān)系,我們就可以預(yù)測(cè)一些結(jié)果,再比如我們通過歷史上年齡、體重、血壓指標(biāo)、血脂指標(biāo)、是否抽煙、是否喝酒等指標(biāo)跟某種疾病做回歸分析,可以預(yù)測(cè)某一名人員是否有此疾病的風(fēng)險(xiǎn)等。
所以回歸的主要目的在于對(duì)連續(xù)數(shù)據(jù)產(chǎn)生的規(guī)律之后對(duì)新數(shù)據(jù)可能產(chǎn)生某種結(jié)果的預(yù)測(cè)。
3. 降維
降維就是去除冗余的特征,降低特征參數(shù)的維度降低,用更加少的維度來表示特征,比如圖像識(shí)別中將一幅圖像轉(zhuǎn)換成高緯度的數(shù)據(jù)集合,因?yàn)楦呔暥葦?shù)據(jù)處理復(fù)雜度很高,我們就需要進(jìn)行降維處理,降低了計(jì)算機(jī)處理高維度的圖像數(shù)據(jù)的復(fù)雜性,減少了冗余數(shù)據(jù)造成的識(shí)別誤差,提高識(shí)別經(jīng)度。
我們從統(tǒng)計(jì)學(xué)角度在理解一下機(jī)器學(xué)習(xí)的這四大應(yīng)用,如果我們有一批樣本,希望能夠預(yù)測(cè)是都屬于某相關(guān)屬性,如果樣本值是離散的,我們就可以使用分類的方法,如果是連續(xù)的我們就可以使用回歸的方法,如果我們這批樣本沒有對(duì)應(yīng)的屬性,而是想挖掘其中的相關(guān)性,那么就用聚類的方式。
如果我們涉及到的參數(shù)很多,維度很多,我們就可以用降維的方法去尋找更精準(zhǔn)的參數(shù),不管是做分類、聚類還是回歸,都能達(dá)到更精確的判斷和預(yù)測(cè)。
除此之外,語(yǔ)音識(shí)別、圖像識(shí)別、文本識(shí)別、語(yǔ)義分析等都是通過機(jī)器學(xué)習(xí)基本方法的綜合利用。
4. 不同應(yīng)用場(chǎng)景算法舉例
下圖中針對(duì)不同應(yīng)用場(chǎng)景做的算法舉例,大家感興趣可自行了解各個(gè)算法的原理。
5. 理解機(jī)器學(xué)習(xí)應(yīng)用對(duì)產(chǎn)品經(jīng)理的意義
理解機(jī)器學(xué)習(xí)應(yīng)用對(duì)產(chǎn)品經(jīng)理非常有意義:
一方面產(chǎn)品經(jīng)理需要理解機(jī)器學(xué)習(xí)到底能解決什么問題,面對(duì)我們的業(yè)務(wù)需求,是否可以通過機(jī)器學(xué)習(xí)的方式去滿足我們的需求;同時(shí)理解了機(jī)器學(xué)習(xí)的應(yīng)用也就是理解AI為什么中臺(tái)作用這么明顯。
比如我們?cè)诿媾R的人群劃分、或是商品標(biāo)簽劃分,可以考慮一下聚類方法;在面對(duì)APP功能點(diǎn)擊預(yù)測(cè)、分享預(yù)測(cè)我們可以考慮一下分類方法;面對(duì)商品購(gòu)買預(yù)測(cè)我們可以考慮回歸的方法等;
另一方面通過機(jī)器學(xué)習(xí)應(yīng)用我們可以看到數(shù)據(jù)的重要性,要求我們產(chǎn)品經(jīng)理能更好的利用數(shù)據(jù),數(shù)據(jù)可以通過一些算法來解決一些預(yù)測(cè)、判斷的問題。
三、機(jī)器學(xué)習(xí)流程
人們?cè)谑褂脵C(jī)器學(xué)習(xí)的時(shí)候,把很大的精力放在了選擇算法、優(yōu)化算法上面,其實(shí)算法的選擇只是機(jī)器學(xué)習(xí)其中的一個(gè)步驟,但是機(jī)器學(xué)習(xí)其他的步驟也是很關(guān)鍵的,尤其是作為產(chǎn)品經(jīng)理,了解這個(gè)機(jī)器學(xué)習(xí)流程也是至關(guān)重要的。
機(jī)器學(xué)習(xí)的流程本質(zhì)上就是數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)分析、數(shù)據(jù)處理、結(jié)果反饋的過程,按照這個(gè)思路,我們可以把機(jī)器學(xué)習(xí)分為如下步驟:業(yè)務(wù)場(chǎng)景分析、數(shù)據(jù)處理、特征工程、算法模型訓(xùn)練、應(yīng)用服務(wù)。下面具體介紹一下這幾個(gè)步驟。
1. 業(yè)務(wù)場(chǎng)景分析
業(yè)務(wù)場(chǎng)景分析就是將我們的業(yè)務(wù)需求、使用場(chǎng)景轉(zhuǎn)換成機(jī)器學(xué)習(xí)的需求語(yǔ)言,然后分析數(shù)據(jù),選擇算法的過程。這個(gè)是機(jī)器學(xué)習(xí)的準(zhǔn)備階段,主要包括以下3點(diǎn):業(yè)務(wù)抽象、數(shù)據(jù)準(zhǔn)備、選擇算法。
(1)業(yè)務(wù)抽象
業(yè)務(wù)抽象說白了就是針對(duì)于業(yè)務(wù)需求,抽象成機(jī)器學(xué)習(xí)的應(yīng)用場(chǎng)景的問題,我們上節(jié)中講了機(jī)器學(xué)習(xí)的分類、聚類、回歸、降維的應(yīng)用場(chǎng)景,其實(shí)業(yè)務(wù)抽象就是把我們遇到的業(yè)務(wù)需求抽象成上述應(yīng)用場(chǎng)景。
比如我們要做產(chǎn)品推薦的需求,我們要把指定的產(chǎn)品推薦給相應(yīng)的用戶,也就是如何精準(zhǔn)營(yíng)銷,給用戶推薦是合適的產(chǎn)品。
我們抽象成機(jī)器學(xué)習(xí)的語(yǔ)言就是一個(gè)產(chǎn)品A是否要推薦給用戶a,這就是一個(gè)是或者否的問題,也就是一個(gè)分類應(yīng)用場(chǎng)景。這就是業(yè)務(wù)抽象,就是把業(yè)務(wù)需求抽象成機(jī)器學(xué)習(xí)的應(yīng)用場(chǎng)景。
(2)數(shù)據(jù)準(zhǔn)備
機(jī)器學(xué)習(xí)的基礎(chǔ)就是數(shù)據(jù),沒有數(shù)據(jù)是無法訓(xùn)練模型,也就是機(jī)器是無法學(xué)習(xí)的,所以數(shù)據(jù)準(zhǔn)備就是識(shí)別、收集、加工數(shù)據(jù)階段。
通過圖譜我們了解到,我們能獲取到的數(shù)據(jù)有機(jī)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),機(jī)器學(xué)習(xí)同樣的是這些數(shù)據(jù),這些數(shù)據(jù)類型在知識(shí)圖譜有講解,不在贅述,這里主要講一下作為產(chǎn)品經(jīng)理進(jìn)行數(shù)據(jù)準(zhǔn)備時(shí)需要考慮的因素。
1)數(shù)據(jù)字段的考慮
關(guān)于數(shù)據(jù)字段考慮就是說我們?cè)跍?zhǔn)備數(shù)據(jù)時(shí),無論是結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)話數(shù)據(jù),我們都要抽象成一個(gè)二維表,二維表表頭就是這些數(shù)據(jù)的表示或是數(shù)據(jù)的名稱,這個(gè)就是數(shù)據(jù)字段。
對(duì)于數(shù)據(jù)字段涉及到兩方面:
一方面就是數(shù)據(jù)字段范圍,也就是我們?cè)谧鰳I(yè)務(wù)需求的時(shí)候需要哪些字段作為機(jī)器學(xué)習(xí)參數(shù),這跟我們做后臺(tái)產(chǎn)品經(jīng)理類似。
做后臺(tái)涉及需要進(jìn)行數(shù)據(jù)項(xiàng)字段的設(shè)計(jì),這些字段有業(yè)務(wù)字段、邏輯字段、系統(tǒng)字段等,對(duì)于機(jī)器學(xué)習(xí)字段考慮要比后臺(tái)設(shè)計(jì)的字段考慮更深一些,他不僅僅是后臺(tái)產(chǎn)生的這寫數(shù)據(jù),還包括一些過程數(shù)據(jù)、結(jié)果數(shù)據(jù)、埋點(diǎn)數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)(定性轉(zhuǎn)定量)等,具體我們可以參考一些統(tǒng)計(jì)學(xué)的方法,去收集、制定機(jī)器學(xué)習(xí)的字段。
一方面就是字段類型的判定,比如到底是字符串型的還是數(shù)值型的。
我們做回歸分析,需要的必須是數(shù)值型的,因?yàn)榛貧w是連續(xù)變量的分析,假如你要分析性別這個(gè)字段,那么必須把他的字段值定義成數(shù)值型的,例如0和1,這樣才算是連續(xù)變量,才能做回歸分析,假如要做分類,我們就可以把性別的字段設(shè)定成字符串,例如男和女。
2)數(shù)據(jù)的考慮
關(guān)于數(shù)據(jù)的考慮就是你能獲取到的數(shù)據(jù)案例,就是二維表中除了表頭數(shù)據(jù)字段名稱剩下的真實(shí)數(shù)據(jù)了,對(duì)于數(shù)據(jù)考慮,作為產(chǎn)品經(jīng)理我們要考慮兩點(diǎn):
一個(gè)是數(shù)據(jù)量,在機(jī)器學(xué)習(xí)中,數(shù)據(jù)需要一定的量,希望可以盡可能的大;
一個(gè)是數(shù)據(jù)的缺省,這個(gè)是數(shù)據(jù)質(zhì)量問題,要求我們盡可能完善的收集數(shù)據(jù),如果數(shù)據(jù)缺失比較多或者數(shù)據(jù)亂碼比較多的字段,可以不參與模型測(cè)算,否則會(huì)影響結(jié)果,
(3)算法選擇
算法選擇確定了機(jī)器學(xué)習(xí)的需求、確定了數(shù)據(jù)項(xiàng),選擇何種算法模型的問題,此階段由算法工程師主導(dǎo)的,我們知道機(jī)器學(xué)習(xí)有很多的算法,所以算法選擇也具有多樣性;
同樣一個(gè)問題可以多種算法解決,隨著計(jì)算機(jī)科學(xué)的發(fā)展,為了也會(huì)有更多的算法支持,同時(shí)同一種算法也可以通過調(diào)參進(jìn)行優(yōu)化。
2. 數(shù)據(jù)處理
數(shù)據(jù)處理就是數(shù)據(jù)的選擇和清洗的過程,數(shù)據(jù)準(zhǔn)備好后,確定了算法,確定了需求,就需要對(duì)數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理的目的就是盡可能降低對(duì)算法的干擾。在數(shù)據(jù)處理中我們會(huì)經(jīng)常用到“去噪”和“歸一”。
去噪就是去除數(shù)中干擾的數(shù)據(jù),也就是說你的數(shù)據(jù)案例中存在特別情況的,或者是不正常的數(shù)據(jù),一方面要求我們產(chǎn)品經(jīng)理拿到的數(shù)據(jù)是反映真實(shí)世界的數(shù)據(jù),一方面我們通過算法可以識(shí)別干擾的數(shù)據(jù),比如對(duì)于數(shù)據(jù)有正態(tài)分布效果的我們可以通過3標(biāo)準(zhǔn)差去噪,因此去噪的目的就是去除掉數(shù)據(jù)中異常的數(shù)據(jù)。
歸一就是將數(shù)據(jù)進(jìn)行簡(jiǎn)化,一般將數(shù)據(jù)簡(jiǎn)化在【0,1】,數(shù)據(jù)歸一化主要是幫助算法能夠很好的尋找最優(yōu)解。
一方面解決的是對(duì)于一個(gè)數(shù)據(jù)字段可有多重標(biāo)示方式,然后數(shù)據(jù)拿到的多重標(biāo)示方式的時(shí)候,比如一群羊有30只羊,然后你那到的數(shù)據(jù)有以群為單位的,有以只為單位的,那么著數(shù)據(jù)必然有誤差;
再比如形容一個(gè)小時(shí),我們可以以小時(shí)單位,也可以以分鐘為單位,也可以以秒單位,因?yàn)閿?shù)據(jù)分析是不分析單位的,就需要?dú)w一化處理,這也就是歸一化解決的第一個(gè)問題“去量綱”這需要產(chǎn)品經(jīng)理在獲取數(shù)據(jù)的時(shí)候,統(tǒng)一數(shù)據(jù)計(jì)量單位;
歸一化另外一個(gè)問題就是解決算法“收斂”的問題,這個(gè)需要算法去實(shí)現(xiàn),比如你要分析X和Y,X的數(shù)據(jù)范圍是【0-10】,Y的數(shù)據(jù)范圍是【0-100000】算法在處理時(shí)考慮到數(shù)據(jù)收斂問題,會(huì)對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化處理。
當(dāng)然在數(shù)據(jù)處理中有很多手段,并且有很多算法協(xié)助去處理,數(shù)據(jù)梳理的目的就是按照業(yè)務(wù)場(chǎng)景將數(shù)據(jù)優(yōu)化成對(duì)算法模型干擾最小的階段。
3. 特征工程
在機(jī)器學(xué)習(xí)中有這么一種說法,數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,模型和算法只是逼近這個(gè)上限,數(shù)據(jù)和特征是算法模型的基礎(chǔ),所謂特征工程就是對(duì)處理完成后的數(shù)據(jù)進(jìn)行特征提取,轉(zhuǎn)換成算法模型可以使用的數(shù)據(jù)。
特征功能的目的有以下幾個(gè)方面:
從數(shù)據(jù)抽取出對(duì)預(yù)測(cè)結(jié)果有用的數(shù)據(jù);從數(shù)據(jù)中構(gòu)建衍生出對(duì)結(jié)果有用的信息;尋找更好的特征提高算法高效性;尋找更好的特征可以選擇簡(jiǎn)單的模型就能出具更好的擬合效果。一般情況下在數(shù)據(jù)處理過程中就可以進(jìn)行特征工程的工作,比如歸一化處理,我們可能在進(jìn)行特征發(fā)現(xiàn)的時(shí)候,還需要進(jìn)一步進(jìn)行數(shù)據(jù)處理。
什么是特征?特征就是在原始數(shù)據(jù)可測(cè)量的屬性,可測(cè)量可以理解成這個(gè)數(shù)據(jù)指標(biāo)可以被統(tǒng)計(jì),可以被運(yùn)算或是計(jì)算,比如時(shí)間戳數(shù)據(jù),我們通常獲取的數(shù)據(jù)就是年月日時(shí)分秒的結(jié)構(gòu),比如2019-01-09;12:30:45,這樣一個(gè)數(shù)據(jù)是無法被機(jī)器學(xué)習(xí)所運(yùn)算的,所以需要對(duì)這個(gè)數(shù)進(jìn)行特征轉(zhuǎn)換,轉(zhuǎn)換成一些數(shù)值的表達(dá)式,以便于算法理解。
特征工程處理過程包括特征的抽象、特征的評(píng)估與選擇(同一數(shù)據(jù)可以抽象成多種特征,對(duì)多種特征進(jìn)行評(píng)估和選擇)、特征的衍生(特征與特征之間進(jìn)行組合使用)。特征工程是特征業(yè)務(wù)定義、算法、數(shù)據(jù)處理綜合的應(yīng)用。
作為產(chǎn)品經(jīng)理,我們重點(diǎn)說明一下特征的抽象。特征的抽象就是對(duì)原數(shù)據(jù)轉(zhuǎn)換成特征數(shù)據(jù)的過程。
我們舉幾個(gè)例子來說明一下:比如你收集到的數(shù)據(jù)值字符型的數(shù)據(jù),比如你收集到的數(shù)據(jù)是“是和否”型的數(shù)據(jù),這種數(shù)據(jù)機(jī)器是無法運(yùn)算的,那么我們可以轉(zhuǎn)換成“0和1”這樣講數(shù)據(jù)進(jìn)行特征抽象后就可以機(jī)器學(xué)習(xí)了。
特征工程是機(jī)器學(xué)習(xí)很重要的一環(huán),特征的好壞直接影響了機(jī)器學(xué)些的結(jié)果,對(duì)于同一組數(shù)據(jù),我們可能用了相同的算法,但是因?yàn)樘卣鬟x擇的不同,我們最終得出的質(zhì)量也會(huì)有很大的差別。所以對(duì)特征工程有興趣的可以參考相關(guān)其他相關(guān)更詳細(xì)的資料。
4. 模型訓(xùn)練與應(yīng)用服務(wù)
模型訓(xùn)練就是經(jīng)歷了數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)處理、特征工程之后,根據(jù)選擇好的算法,進(jìn)行訓(xùn)練與評(píng)估,通過算法訓(xùn)練得到算法模型,通過新數(shù)據(jù)測(cè)試完成模型質(zhì)量的評(píng)估,這款主要工作在算法工程師這里,產(chǎn)品經(jīng)理重點(diǎn)關(guān)注模型在新數(shù)據(jù)不斷注入的情況下是可以反復(fù)訓(xùn)練的。
應(yīng)用服務(wù)就是說模型訓(xùn)練好了,如何輸出的問題,以及如何快速訓(xùn)練模型、配置模型相關(guān)參數(shù)的問題,對(duì)于模型的應(yīng)用可以通過API的方式供應(yīng)用層調(diào)用,應(yīng)用層也可以通過配置頁(yè)面來配置模型相關(guān)參數(shù),比如置信度等。
5. 了解機(jī)器學(xué)習(xí)流程對(duì)產(chǎn)品經(jīng)理意義
通過簡(jiǎn)單直白的介紹機(jī)器學(xué)習(xí)流程,對(duì)我們產(chǎn)品經(jīng)理有以下意義:
機(jī)器學(xué)習(xí)過程,不是一個(gè)簡(jiǎn)單的過程,不是說定好了需求,直接交給算法工程師就可以了,產(chǎn)品經(jīng)理要把握機(jī)器學(xué)習(xí)業(yè)務(wù)場(chǎng)景抽象;要對(duì)原始數(shù)據(jù)質(zhì)量、數(shù)量有很好的把控;對(duì)特征的抽象需要有深入的了解;機(jī)器學(xué)習(xí)的基礎(chǔ)是數(shù)據(jù)、以及數(shù)據(jù)特征的轉(zhuǎn)換,需要我們對(duì)處理的處理過程有更深層次的了解與掌握,需要多學(xué)一些數(shù)據(jù)、統(tǒng)計(jì)學(xué)、計(jì)量學(xué)相關(guān)知識(shí);機(jī)器學(xué)習(xí)的需求也不僅僅是通過原型、文檔就能解決的,需要產(chǎn)品經(jīng)理與工程師深度的合作,參與到機(jī)器學(xué)習(xí)的過程中。本文由 @羅飛 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash ,基于 CC0 協(xié)議
評(píng)論列表
差一點(diǎn)就放棄了,幸好遇見你們,真的很感謝你們的幫助!
老師,可以咨詢下嗎?
可以幫助復(fù)合嗎?
可以幫助復(fù)合嗎?