什么是機(jī)器學(xué)習(xí)？看完就明白了

情感導(dǎo)師 2023-05-13 8808

添加導(dǎo)師微信MurieL0304

獲取更多愛情挽回攻略婚姻修復(fù)技巧戀愛脫單干貨

說到人工智能必然要了解機(jī)器學(xué)習(xí)，從信息化軟件，到電子商務(wù)，然后到高速發(fā)展互聯(lián)網(wǎng)時(shí)代，到至今的云計(jì)算、大數(shù)據(jù)等，滲透到我們的生活、工作之中，在互聯(lián)網(wǎng)的驅(qū)動(dòng)下，人們更清晰的認(rèn)識(shí)和使用數(shù)據(jù)，不僅僅是數(shù)據(jù)統(tǒng)計(jì)、分析，我們還強(qiáng)調(diào)數(shù)據(jù)挖掘、預(yù)測(cè)。

一、什么是機(jī)器學(xué)習(xí)

1. 機(jī)器學(xué)習(xí)概念

機(jī)器學(xué)習(xí)就是對(duì)計(jì)算機(jī)一部分?jǐn)?shù)據(jù)進(jìn)行學(xué)習(xí)，然后對(duì)另外一些數(shù)據(jù)進(jìn)行預(yù)測(cè)與判斷。

機(jī)器學(xué)習(xí)的核心是“使用算法解析數(shù)據(jù)，從中學(xué)習(xí)，然后對(duì)新數(shù)據(jù)做出決定或預(yù)測(cè)”。也就是說計(jì)算機(jī)利用以獲取的數(shù)據(jù)得出某一模型，然后利用此模型進(jìn)行預(yù)測(cè)的一種方法，這個(gè)過程跟人的學(xué)習(xí)過程有些類似，比如人獲取一定的經(jīng)驗(yàn)，可以對(duì)新問題進(jìn)行預(yù)測(cè)。

我們舉個(gè)例子，我們都知道支付寶春節(jié)的“集五?！被顒?dòng)，我們用手機(jī)掃“?！弊终掌R(shí)別福字，這個(gè)就是用了機(jī)器學(xué)習(xí)的方法。我們可以為計(jì)算機(jī)提供“福”字的照片數(shù)據(jù)，通過算法模型機(jī)型訓(xùn)練，系統(tǒng)不斷更新學(xué)習(xí)，然后輸入一張新的福字照片，機(jī)器自動(dòng)識(shí)別這張照片上是否有福字。

機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科，涉及概率論、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等多門學(xué)科。機(jī)器學(xué)習(xí)的概念就是通過輸入海量訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練，使模型掌握數(shù)據(jù)所蘊(yùn)含的潛在規(guī)律，進(jìn)而對(duì)新輸入的數(shù)據(jù)進(jìn)行準(zhǔn)確的分類或預(yù)測(cè)。如下圖所示：

2. 機(jī)器學(xué)習(xí)分類

我們了解了機(jī)器學(xué)習(xí)的概念，通過建立模型進(jìn)行自我學(xué)習(xí)，那么學(xué)習(xí)方法有哪些呢？

（1）監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)就是訓(xùn)練機(jī)器學(xué)習(xí)的模型的訓(xùn)練樣本數(shù)據(jù)有對(duì)應(yīng)的目標(biāo)值，監(jiān)督學(xué)習(xí)就是通過對(duì)數(shù)據(jù)樣本因子和已知的結(jié)果建立聯(lián)系，提取特征值和映射關(guān)系，通過已知的結(jié)果，已知數(shù)據(jù)樣本不斷的學(xué)習(xí)和訓(xùn)練，對(duì)新的數(shù)據(jù)進(jìn)行結(jié)果的預(yù)測(cè)。

監(jiān)督學(xué)習(xí)通常用在分類和回歸。比如手機(jī)識(shí)別垃圾短信，電子郵箱識(shí)別垃圾郵件，都是通過對(duì)一些歷史短信、歷史郵件做垃圾分類的標(biāo)記，對(duì)這些帶有標(biāo)記的數(shù)據(jù)進(jìn)行模型訓(xùn)練，然后獲取到新的短信或是新的郵件時(shí)，進(jìn)行模型匹配，來識(shí)別此郵件是或是不是，這就是監(jiān)督學(xué)習(xí)下分類的預(yù)測(cè)。

再舉一個(gè)回歸的例子，比如我們要預(yù)測(cè)公司凈利潤(rùn)的數(shù)據(jù)，我們可以通過歷史上公司利潤(rùn)（目標(biāo)值），以及跟利潤(rùn)相關(guān)的指標(biāo)，比如營(yíng)業(yè)收入、資產(chǎn)負(fù)債情況、管理費(fèi)用等數(shù)據(jù)，通過回歸的方式我們回到的一個(gè)回歸方程，建立公司利潤(rùn)與相關(guān)因此的方程式，通過輸入因子數(shù)據(jù)，來預(yù)測(cè)公司利潤(rùn)。

監(jiān)督學(xué)習(xí)難點(diǎn)是獲取具有目標(biāo)值的樣本數(shù)據(jù)成本較高，成本高的原因在于這些訓(xùn)練集的要依賴人工標(biāo)注工作。

（2）無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)跟監(jiān)督學(xué)習(xí)的區(qū)別就是選取的樣本數(shù)據(jù)無需有目標(biāo)值，我們無需分析這些數(shù)據(jù)對(duì)某些結(jié)果的影響，只是分析這些數(shù)據(jù)內(nèi)在的規(guī)律。

無監(jiān)督學(xué)習(xí)常用在聚類分析上面。比如客戶分群、因子降維等。比如RFM模型的使用，通過客戶的銷售行為（消費(fèi)次數(shù)、最近消費(fèi)時(shí)間、消費(fèi)金額）指標(biāo)，來對(duì)客戶數(shù)據(jù)進(jìn)行聚類：

重要價(jià)值客戶：最近消費(fèi)時(shí)間近、消費(fèi)頻次和消費(fèi)金額都很高；重要保持客戶：最近消費(fèi)時(shí)間較遠(yuǎn)，但消費(fèi)頻次和金額都很高，說明這是個(gè)一段時(shí)間沒來的忠誠(chéng)客戶，我們需要主動(dòng)和他保持聯(lián)系；重要發(fā)展客戶：最近消費(fèi)時(shí)間較近、消費(fèi)金額高，但頻次不高，忠誠(chéng)度不高，很有潛力的用戶，必須重點(diǎn)發(fā)展；重要挽留客戶：最近消費(fèi)時(shí)間較遠(yuǎn)、消費(fèi)頻次不高，但消費(fèi)金額高的用戶，可能是將要流失或者已經(jīng)要流失的用戶，應(yīng)當(dāng)基于挽留措施。除此之外，無監(jiān)督學(xué)習(xí)也適用于降維，無監(jiān)督學(xué)習(xí)比監(jiān)督學(xué)習(xí)好處是數(shù)據(jù)不需要人工打標(biāo)記，數(shù)據(jù)獲取成本低。

（3）半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相互結(jié)合的一種學(xué)習(xí)方法，通過半監(jiān)督學(xué)習(xí)的方法可以實(shí)現(xiàn)分類、回歸、聚類的結(jié)合使用。

半監(jiān)督分類：是在無類標(biāo)簽的樣例的幫助下訓(xùn)練有類標(biāo)簽的樣本，獲得比只用有類標(biāo)簽的樣本訓(xùn)練得到更優(yōu)的分類；半監(jiān)督回歸：在無輸出的輸入的幫助下訓(xùn)練有輸出的輸入，獲得比只用有輸出的輸入訓(xùn)練得到的回歸器性能更好的回歸；半監(jiān)督聚類：在有類標(biāo)簽的樣本的信息幫助下獲得比只用無類標(biāo)簽的樣例得到的結(jié)果更好的簇，提高聚類方法的精度；半監(jiān)督降維：在有類標(biāo)簽的樣本的信息幫助下找到高維輸入數(shù)據(jù)的低維結(jié)構(gòu)，同時(shí)保持原始高維數(shù)據(jù)和成對(duì)約束的結(jié)構(gòu)不變。半監(jiān)督學(xué)習(xí)是最近比較流行的方法。

（4）強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是一種比較復(fù)雜的機(jī)器學(xué)習(xí)方法，強(qiáng)調(diào)系統(tǒng)與外界不斷的交互反饋，它主要是針對(duì)流程中不斷需要推理的場(chǎng)景，比如無人汽車駕駛，它更多關(guān)注性能。它是機(jī)器學(xué)習(xí)中的熱點(diǎn)學(xué)習(xí)方法。

3. 關(guān)于深度學(xué)習(xí)

深度學(xué)習(xí)是目前關(guān)注度很高的一類算法，深度學(xué)習(xí)(DeepLearning，DL)屬于機(jī)器學(xué)習(xí)的子類。它的靈感來源于人類大腦的工作方式，是利用深度神經(jīng)網(wǎng)絡(luò)來解決特征表達(dá)的一種學(xué)習(xí)過程。

人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)關(guān)系如下圖所示：

深度學(xué)習(xí)歸根結(jié)底也是機(jī)器學(xué)習(xí)，不過它不同于監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)的這種分類方法，它是另一種分類方法，基于算法神經(jīng)網(wǎng)絡(luò)的深度，可以分成淺層學(xué)習(xí)算法和深度學(xué)習(xí)算法。

淺層學(xué)習(xí)算法主要是對(duì)一些結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)一些場(chǎng)景的預(yù)測(cè)，深度學(xué)習(xí)主要解決復(fù)雜的場(chǎng)景，比如圖像、文本、語(yǔ)音識(shí)別與分析等。

4. 了解機(jī)器學(xué)習(xí)概念對(duì)產(chǎn)品經(jīng)理意義

本節(jié)主要在于理清一些機(jī)器學(xué)習(xí)基本概念，簡(jiǎn)單介紹一下應(yīng)用場(chǎng)景，重點(diǎn)在于理解機(jī)器學(xué)習(xí)本質(zhì)上還是對(duì)于數(shù)據(jù)的的一種處理方式，數(shù)據(jù)的使用方式，通過數(shù)據(jù)解析其中的規(guī)律，來預(yù)測(cè)未來數(shù)據(jù)結(jié)果。

二、機(jī)器學(xué)習(xí)的應(yīng)用

我們?cè)谡f機(jī)器學(xué)習(xí)分類的時(shí)候，簡(jiǎn)單介紹了一下不同機(jī)器學(xué)習(xí)方法，主要是解決是什么問題，在本節(jié)中具體介紹一些常用的應(yīng)用場(chǎng)景，主要說明這些應(yīng)用到底怎么用，不對(duì)其中的算法以及原理做深入的介紹。

1. 分類和聚類

分類和聚類機(jī)器學(xué)習(xí)最常用的應(yīng)用場(chǎng)景，分類和聚類都是對(duì)數(shù)據(jù)的分組，我們剛接觸的時(shí)候，很容易混淆這兩個(gè)應(yīng)用的概念，覺得分類就是聚類，其實(shí)他們有很多的不同。

分類是我們知道有哪些組，然后對(duì)數(shù)據(jù)進(jìn)行判斷，判斷這些數(shù)據(jù)到底是預(yù)先知道的那些組。舉個(gè)很簡(jiǎn)單的例子，比如我們?cè)谲娪?xùn)排隊(duì)時(shí)要求男生一組，女生一組，這就是一種分類，我們提前知道要分那些組，然后通過一種算法對(duì)輸入的數(shù)據(jù)判定，來分類到已知的類別下，這個(gè)就是分類。

分類從數(shù)學(xué)函數(shù)角度來說:分類任務(wù)就是通過學(xué)習(xí)得到一個(gè)目標(biāo)函數(shù)f，把每個(gè)屬性集x映射到一個(gè)預(yù)先定義的類標(biāo)號(hào)y中。就是我們根據(jù)已知的一些樣本（包括屬性與類標(biāo)號(hào)）來得到分類模型（即得到樣本屬性與類標(biāo)號(hào)之間的函數(shù)），然后通過此目標(biāo)函數(shù)來對(duì)只包含屬性的樣本數(shù)據(jù)進(jìn)行分類。

所以分類屬于監(jiān)督學(xué)習(xí)方法，比如圖像識(shí)別，比如我們從一些圖像中識(shí)別是貓還是狗的照片等，它解決的是“是或否”的問題，就是將需要被分析的數(shù)據(jù)跟已知的類別結(jié)果做判斷，看這些數(shù)據(jù)到底是那個(gè)類別數(shù)據(jù)。

在分類中，對(duì)于目標(biāo)數(shù)據(jù)中存在哪些類是知道的，要做的就是將每一條記錄分別屬于哪一類標(biāo)記出來。但是聚類解決的就是在不知道類的情況下，如何把數(shù)據(jù)參數(shù)做一個(gè)劃分。

聚類是實(shí)現(xiàn)不知道這批數(shù)據(jù)有哪些類別或標(biāo)簽，然后通過算法的選擇，分析數(shù)據(jù)參數(shù)的特征值，然后進(jìn)行機(jī)器的數(shù)據(jù)劃分，把相似的數(shù)據(jù)聚到一起，所以它是無監(jiān)督學(xué)習(xí)；

比如RFM模型中我們通過客戶銷售數(shù)據(jù)，通過這些數(shù)據(jù)對(duì)客戶分群，然后通過聚類的方法，將相似度高的數(shù)據(jù)聚類到一起，通過分析出來的數(shù)據(jù)我們可以對(duì)數(shù)據(jù)特性在定義標(biāo)簽，它解決的是相似度的問題，將相似度高的聚集到一起。

我們舉個(gè)例子來總結(jié)一下分類和聚類都是什么用途：

比如我們有1000張照片，假設(shè)我們之前已經(jīng)定義好貓、狗的照片，做了訓(xùn)練，如果從這1000張照片中區(qū)分出來貓、狗的照片，那么這就是分類；

假設(shè)我們沒做過貓狗的照片，我們只是對(duì)1000張照片的數(shù)據(jù)做一個(gè)歸類，看看那些照片相似度高，分類完成后，在通過相似度比較高的幾類，我們?cè)俣x這些類別的是貓、狗或是其他圖片什么的。

2. 回歸

回歸在統(tǒng)計(jì)學(xué)角度，指的是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。回歸分析按照涉及的變量的多少，分為一元回歸和多元回歸分析；按照因變量的多少，可分為簡(jiǎn)單回歸分析和多重回歸分析；按照自變量和因變量之間的關(guān)系類型，可分為線性回歸分析和非線性回歸分析。

在大數(shù)據(jù)分析中，回歸分析是一種預(yù)測(cè)性的建模技術(shù)，它研究的是因變量（目標(biāo)）和自變量（預(yù)測(cè)器）之間的關(guān)系。這種技術(shù)通常用于預(yù)測(cè)分析，時(shí)間序列模型以及發(fā)現(xiàn)變量之間的因果關(guān)系。

回歸從數(shù)學(xué)角度來看是一種方程式，是一種解題方法，一種通過一些函數(shù)因子的關(guān)系的一種學(xué)習(xí)方法。比如以下簡(jiǎn)單的一個(gè)函數(shù)：

回歸從算法角度來說，它是對(duì)有監(jiān)督的連續(xù)數(shù)據(jù)結(jié)果的預(yù)測(cè)，比如通過一個(gè)人過去年份工資收入相關(guān)的影響參數(shù)，建立回歸模型，然后通過相關(guān)的參數(shù)的變更來預(yù)測(cè)他未來工資收入。

當(dāng)然通過建立回歸模型，再結(jié)合數(shù)學(xué)上對(duì)方程式的解析，我們也可以倒退出來為了一個(gè)預(yù)定的結(jié)果我們需要對(duì)那些參數(shù)值做優(yōu)化?；貧w最終要的是得到相關(guān)的參數(shù)和參數(shù)的特征值，因此我們通常在做回歸分析時(shí)通常會(huì)做目標(biāo)參數(shù)相關(guān)性分析。

只要我們有足夠的數(shù)據(jù)，都可以做一些回歸分析幫助我們做預(yù)測(cè)與決策。比如我們上線了一些功能，可以通過點(diǎn)擊率、打開率、分享情況等等跟產(chǎn)生的業(yè)務(wù)結(jié)果做回歸分析，如果建立了函數(shù)關(guān)系，我們就可以預(yù)測(cè)一些結(jié)果，再比如我們通過歷史上年齡、體重、血壓指標(biāo)、血脂指標(biāo)、是否抽煙、是否喝酒等指標(biāo)跟某種疾病做回歸分析，可以預(yù)測(cè)某一名人員是否有此疾病的風(fēng)險(xiǎn)等。

所以回歸的主要目的在于對(duì)連續(xù)數(shù)據(jù)產(chǎn)生的規(guī)律之后對(duì)新數(shù)據(jù)可能產(chǎn)生某種結(jié)果的預(yù)測(cè)。

3. 降維

降維就是去除冗余的特征，降低特征參數(shù)的維度降低，用更加少的維度來表示特征，比如圖像識(shí)別中將一幅圖像轉(zhuǎn)換成高緯度的數(shù)據(jù)集合，因?yàn)楦呔暥葦?shù)據(jù)處理復(fù)雜度很高，我們就需要進(jìn)行降維處理，降低了計(jì)算機(jī)處理高維度的圖像數(shù)據(jù)的復(fù)雜性，減少了冗余數(shù)據(jù)造成的識(shí)別誤差，提高識(shí)別經(jīng)度。

我們從統(tǒng)計(jì)學(xué)角度在理解一下機(jī)器學(xué)習(xí)的這四大應(yīng)用，如果我們有一批樣本，希望能夠預(yù)測(cè)是都屬于某相關(guān)屬性，如果樣本值是離散的，我們就可以使用分類的方法，如果是連續(xù)的我們就可以使用回歸的方法，如果我們這批樣本沒有對(duì)應(yīng)的屬性，而是想挖掘其中的相關(guān)性，那么就用聚類的方式。

如果我們涉及到的參數(shù)很多，維度很多，我們就可以用降維的方法去尋找更精準(zhǔn)的參數(shù)，不管是做分類、聚類還是回歸，都能達(dá)到更精確的判斷和預(yù)測(cè)。

除此之外，語(yǔ)音識(shí)別、圖像識(shí)別、文本識(shí)別、語(yǔ)義分析等都是通過機(jī)器學(xué)習(xí)基本方法的綜合利用。

4. 不同應(yīng)用場(chǎng)景算法舉例

下圖中針對(duì)不同應(yīng)用場(chǎng)景做的算法舉例，大家感興趣可自行了解各個(gè)算法的原理。

5. 理解機(jī)器學(xué)習(xí)應(yīng)用對(duì)產(chǎn)品經(jīng)理的意義

理解機(jī)器學(xué)習(xí)應(yīng)用對(duì)產(chǎn)品經(jīng)理非常有意義：

一方面產(chǎn)品經(jīng)理需要理解機(jī)器學(xué)習(xí)到底能解決什么問題，面對(duì)我們的業(yè)務(wù)需求，是否可以通過機(jī)器學(xué)習(xí)的方式去滿足我們的需求；同時(shí)理解了機(jī)器學(xué)習(xí)的應(yīng)用也就是理解AI為什么中臺(tái)作用這么明顯。

比如我們?cè)诿媾R的人群劃分、或是商品標(biāo)簽劃分，可以考慮一下聚類方法；在面對(duì)APP功能點(diǎn)擊預(yù)測(cè)、分享預(yù)測(cè)我們可以考慮一下分類方法；面對(duì)商品購(gòu)買預(yù)測(cè)我們可以考慮回歸的方法等；

另一方面通過機(jī)器學(xué)習(xí)應(yīng)用我們可以看到數(shù)據(jù)的重要性，要求我們產(chǎn)品經(jīng)理能更好的利用數(shù)據(jù)，數(shù)據(jù)可以通過一些算法來解決一些預(yù)測(cè)、判斷的問題。

三、機(jī)器學(xué)習(xí)流程

人們?cè)谑褂脵C(jī)器學(xué)習(xí)的時(shí)候，把很大的精力放在了選擇算法、優(yōu)化算法上面，其實(shí)算法的選擇只是機(jī)器學(xué)習(xí)其中的一個(gè)步驟，但是機(jī)器學(xué)習(xí)其他的步驟也是很關(guān)鍵的，尤其是作為產(chǎn)品經(jīng)理，了解這個(gè)機(jī)器學(xué)習(xí)流程也是至關(guān)重要的。

機(jī)器學(xué)習(xí)的流程本質(zhì)上就是數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)分析、數(shù)據(jù)處理、結(jié)果反饋的過程，按照這個(gè)思路，我們可以把機(jī)器學(xué)習(xí)分為如下步驟：業(yè)務(wù)場(chǎng)景分析、數(shù)據(jù)處理、特征工程、算法模型訓(xùn)練、應(yīng)用服務(wù)。下面具體介紹一下這幾個(gè)步驟。

1. 業(yè)務(wù)場(chǎng)景分析

業(yè)務(wù)場(chǎng)景分析就是將我們的業(yè)務(wù)需求、使用場(chǎng)景轉(zhuǎn)換成機(jī)器學(xué)習(xí)的需求語(yǔ)言，然后分析數(shù)據(jù)，選擇算法的過程。這個(gè)是機(jī)器學(xué)習(xí)的準(zhǔn)備階段，主要包括以下3點(diǎn)：業(yè)務(wù)抽象、數(shù)據(jù)準(zhǔn)備、選擇算法。

（1）業(yè)務(wù)抽象

業(yè)務(wù)抽象說白了就是針對(duì)于業(yè)務(wù)需求，抽象成機(jī)器學(xué)習(xí)的應(yīng)用場(chǎng)景的問題，我們上節(jié)中講了機(jī)器學(xué)習(xí)的分類、聚類、回歸、降維的應(yīng)用場(chǎng)景，其實(shí)業(yè)務(wù)抽象就是把我們遇到的業(yè)務(wù)需求抽象成上述應(yīng)用場(chǎng)景。

比如我們要做產(chǎn)品推薦的需求，我們要把指定的產(chǎn)品推薦給相應(yīng)的用戶，也就是如何精準(zhǔn)營(yíng)銷，給用戶推薦是合適的產(chǎn)品。

我們抽象成機(jī)器學(xué)習(xí)的語(yǔ)言就是一個(gè)產(chǎn)品A是否要推薦給用戶a，這就是一個(gè)是或者否的問題，也就是一個(gè)分類應(yīng)用場(chǎng)景。這就是業(yè)務(wù)抽象，就是把業(yè)務(wù)需求抽象成機(jī)器學(xué)習(xí)的應(yīng)用場(chǎng)景。

（2）數(shù)據(jù)準(zhǔn)備

機(jī)器學(xué)習(xí)的基礎(chǔ)就是數(shù)據(jù)，沒有數(shù)據(jù)是無法訓(xùn)練模型，也就是機(jī)器是無法學(xué)習(xí)的，所以數(shù)據(jù)準(zhǔn)備就是識(shí)別、收集、加工數(shù)據(jù)階段。

通過圖譜我們了解到，我們能獲取到的數(shù)據(jù)有機(jī)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)，機(jī)器學(xué)習(xí)同樣的是這些數(shù)據(jù)，這些數(shù)據(jù)類型在知識(shí)圖譜有講解，不在贅述，這里主要講一下作為產(chǎn)品經(jīng)理進(jìn)行數(shù)據(jù)準(zhǔn)備時(shí)需要考慮的因素。

1）數(shù)據(jù)字段的考慮

關(guān)于數(shù)據(jù)字段考慮就是說我們?cè)跍?zhǔn)備數(shù)據(jù)時(shí)，無論是結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)話數(shù)據(jù)，我們都要抽象成一個(gè)二維表，二維表表頭就是這些數(shù)據(jù)的表示或是數(shù)據(jù)的名稱，這個(gè)就是數(shù)據(jù)字段。

對(duì)于數(shù)據(jù)字段涉及到兩方面：

一方面就是數(shù)據(jù)字段范圍，也就是我們?cè)谧鰳I(yè)務(wù)需求的時(shí)候需要哪些字段作為機(jī)器學(xué)習(xí)參數(shù)，這跟我們做后臺(tái)產(chǎn)品經(jīng)理類似。

做后臺(tái)涉及需要進(jìn)行數(shù)據(jù)項(xiàng)字段的設(shè)計(jì)，這些字段有業(yè)務(wù)字段、邏輯字段、系統(tǒng)字段等，對(duì)于機(jī)器學(xué)習(xí)字段考慮要比后臺(tái)設(shè)計(jì)的字段考慮更深一些，他不僅僅是后臺(tái)產(chǎn)生的這寫數(shù)據(jù)，還包括一些過程數(shù)據(jù)、結(jié)果數(shù)據(jù)、埋點(diǎn)數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)（定性轉(zhuǎn)定量）等，具體我們可以參考一些統(tǒng)計(jì)學(xué)的方法，去收集、制定機(jī)器學(xué)習(xí)的字段。

一方面就是字段類型的判定，比如到底是字符串型的還是數(shù)值型的。

我們做回歸分析，需要的必須是數(shù)值型的，因?yàn)榛貧w是連續(xù)變量的分析，假如你要分析性別這個(gè)字段，那么必須把他的字段值定義成數(shù)值型的，例如0和1，這樣才算是連續(xù)變量，才能做回歸分析，假如要做分類，我們就可以把性別的字段設(shè)定成字符串，例如男和女。

2）數(shù)據(jù)的考慮

關(guān)于數(shù)據(jù)的考慮就是你能獲取到的數(shù)據(jù)案例，就是二維表中除了表頭數(shù)據(jù)字段名稱剩下的真實(shí)數(shù)據(jù)了，對(duì)于數(shù)據(jù)考慮，作為產(chǎn)品經(jīng)理我們要考慮兩點(diǎn)：

一個(gè)是數(shù)據(jù)量，在機(jī)器學(xué)習(xí)中，數(shù)據(jù)需要一定的量，希望可以盡可能的大；

一個(gè)是數(shù)據(jù)的缺省，這個(gè)是數(shù)據(jù)質(zhì)量問題，要求我們盡可能完善的收集數(shù)據(jù)，如果數(shù)據(jù)缺失比較多或者數(shù)據(jù)亂碼比較多的字段，可以不參與模型測(cè)算，否則會(huì)影響結(jié)果，

（3）算法選擇

算法選擇確定了機(jī)器學(xué)習(xí)的需求、確定了數(shù)據(jù)項(xiàng)，選擇何種算法模型的問題，此階段由算法工程師主導(dǎo)的，我們知道機(jī)器學(xué)習(xí)有很多的算法，所以算法選擇也具有多樣性；

同樣一個(gè)問題可以多種算法解決，隨著計(jì)算機(jī)科學(xué)的發(fā)展，為了也會(huì)有更多的算法支持，同時(shí)同一種算法也可以通過調(diào)參進(jìn)行優(yōu)化。

2. 數(shù)據(jù)處理

數(shù)據(jù)處理就是數(shù)據(jù)的選擇和清洗的過程，數(shù)據(jù)準(zhǔn)備好后，確定了算法，確定了需求，就需要對(duì)數(shù)據(jù)進(jìn)行處理，數(shù)據(jù)處理的目的就是盡可能降低對(duì)算法的干擾。在數(shù)據(jù)處理中我們會(huì)經(jīng)常用到“去噪”和“歸一”。

去噪就是去除數(shù)中干擾的數(shù)據(jù)，也就是說你的數(shù)據(jù)案例中存在特別情況的，或者是不正常的數(shù)據(jù)，一方面要求我們產(chǎn)品經(jīng)理拿到的數(shù)據(jù)是反映真實(shí)世界的數(shù)據(jù)，一方面我們通過算法可以識(shí)別干擾的數(shù)據(jù)，比如對(duì)于數(shù)據(jù)有正態(tài)分布效果的我們可以通過3標(biāo)準(zhǔn)差去噪，因此去噪的目的就是去除掉數(shù)據(jù)中異常的數(shù)據(jù)。

歸一就是將數(shù)據(jù)進(jìn)行簡(jiǎn)化，一般將數(shù)據(jù)簡(jiǎn)化在【0,1】，數(shù)據(jù)歸一化主要是幫助算法能夠很好的尋找最優(yōu)解。

一方面解決的是對(duì)于一個(gè)數(shù)據(jù)字段可有多重標(biāo)示方式，然后數(shù)據(jù)拿到的多重標(biāo)示方式的時(shí)候，比如一群羊有30只羊，然后你那到的數(shù)據(jù)有以群為單位的，有以只為單位的，那么著數(shù)據(jù)必然有誤差；

再比如形容一個(gè)小時(shí)，我們可以以小時(shí)單位，也可以以分鐘為單位，也可以以秒單位，因?yàn)閿?shù)據(jù)分析是不分析單位的，就需要?dú)w一化處理，這也就是歸一化解決的第一個(gè)問題“去量綱”這需要產(chǎn)品經(jīng)理在獲取數(shù)據(jù)的時(shí)候，統(tǒng)一數(shù)據(jù)計(jì)量單位；

歸一化另外一個(gè)問題就是解決算法“收斂”的問題，這個(gè)需要算法去實(shí)現(xiàn)，比如你要分析X和Y，X的數(shù)據(jù)范圍是【0-10】，Y的數(shù)據(jù)范圍是【0-100000】算法在處理時(shí)考慮到數(shù)據(jù)收斂問題，會(huì)對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化處理。

當(dāng)然在數(shù)據(jù)處理中有很多手段，并且有很多算法協(xié)助去處理，數(shù)據(jù)梳理的目的就是按照業(yè)務(wù)場(chǎng)景將數(shù)據(jù)優(yōu)化成對(duì)算法模型干擾最小的階段。

3. 特征工程

在機(jī)器學(xué)習(xí)中有這么一種說法，數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限，模型和算法只是逼近這個(gè)上限，數(shù)據(jù)和特征是算法模型的基礎(chǔ)，所謂特征工程就是對(duì)處理完成后的數(shù)據(jù)進(jìn)行特征提取，轉(zhuǎn)換成算法模型可以使用的數(shù)據(jù)。

特征功能的目的有以下幾個(gè)方面：

從數(shù)據(jù)抽取出對(duì)預(yù)測(cè)結(jié)果有用的數(shù)據(jù)；從數(shù)據(jù)中構(gòu)建衍生出對(duì)結(jié)果有用的信息；尋找更好的特征提高算法高效性；尋找更好的特征可以選擇簡(jiǎn)單的模型就能出具更好的擬合效果。一般情況下在數(shù)據(jù)處理過程中就可以進(jìn)行特征工程的工作，比如歸一化處理，我們可能在進(jìn)行特征發(fā)現(xiàn)的時(shí)候，還需要進(jìn)一步進(jìn)行數(shù)據(jù)處理。

什么是特征？特征就是在原始數(shù)據(jù)可測(cè)量的屬性，可測(cè)量可以理解成這個(gè)數(shù)據(jù)指標(biāo)可以被統(tǒng)計(jì)，可以被運(yùn)算或是計(jì)算，比如時(shí)間戳數(shù)據(jù)，我們通常獲取的數(shù)據(jù)就是年月日時(shí)分秒的結(jié)構(gòu)，比如2019-01-09；12:30:45，這樣一個(gè)數(shù)據(jù)是無法被機(jī)器學(xué)習(xí)所運(yùn)算的，所以需要對(duì)這個(gè)數(shù)進(jìn)行特征轉(zhuǎn)換，轉(zhuǎn)換成一些數(shù)值的表達(dá)式，以便于算法理解。

特征工程處理過程包括特征的抽象、特征的評(píng)估與選擇（同一數(shù)據(jù)可以抽象成多種特征，對(duì)多種特征進(jìn)行評(píng)估和選擇）、特征的衍生（特征與特征之間進(jìn)行組合使用）。特征工程是特征業(yè)務(wù)定義、算法、數(shù)據(jù)處理綜合的應(yīng)用。

作為產(chǎn)品經(jīng)理，我們重點(diǎn)說明一下特征的抽象。特征的抽象就是對(duì)原數(shù)據(jù)轉(zhuǎn)換成特征數(shù)據(jù)的過程。

我們舉幾個(gè)例子來說明一下：比如你收集到的數(shù)據(jù)值字符型的數(shù)據(jù)，比如你收集到的數(shù)據(jù)是“是和否”型的數(shù)據(jù)，這種數(shù)據(jù)機(jī)器是無法運(yùn)算的，那么我們可以轉(zhuǎn)換成“0和1”這樣講數(shù)據(jù)進(jìn)行特征抽象后就可以機(jī)器學(xué)習(xí)了。

特征工程是機(jī)器學(xué)習(xí)很重要的一環(huán)，特征的好壞直接影響了機(jī)器學(xué)些的結(jié)果，對(duì)于同一組數(shù)據(jù)，我們可能用了相同的算法，但是因?yàn)樘卣鬟x擇的不同，我們最終得出的質(zhì)量也會(huì)有很大的差別。所以對(duì)特征工程有興趣的可以參考相關(guān)其他相關(guān)更詳細(xì)的資料。

4. 模型訓(xùn)練與應(yīng)用服務(wù)

模型訓(xùn)練就是經(jīng)歷了數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)處理、特征工程之后，根據(jù)選擇好的算法，進(jìn)行訓(xùn)練與評(píng)估，通過算法訓(xùn)練得到算法模型，通過新數(shù)據(jù)測(cè)試完成模型質(zhì)量的評(píng)估，這款主要工作在算法工程師這里，產(chǎn)品經(jīng)理重點(diǎn)關(guān)注模型在新數(shù)據(jù)不斷注入的情況下是可以反復(fù)訓(xùn)練的。

應(yīng)用服務(wù)就是說模型訓(xùn)練好了，如何輸出的問題，以及如何快速訓(xùn)練模型、配置模型相關(guān)參數(shù)的問題，對(duì)于模型的應(yīng)用可以通過API的方式供應(yīng)用層調(diào)用，應(yīng)用層也可以通過配置頁(yè)面來配置模型相關(guān)參數(shù)，比如置信度等。

5. 了解機(jī)器學(xué)習(xí)流程對(duì)產(chǎn)品經(jīng)理意義

通過簡(jiǎn)單直白的介紹機(jī)器學(xué)習(xí)流程，對(duì)我們產(chǎn)品經(jīng)理有以下意義：

機(jī)器學(xué)習(xí)過程，不是一個(gè)簡(jiǎn)單的過程，不是說定好了需求，直接交給算法工程師就可以了，產(chǎn)品經(jīng)理要把握機(jī)器學(xué)習(xí)業(yè)務(wù)場(chǎng)景抽象；要對(duì)原始數(shù)據(jù)質(zhì)量、數(shù)量有很好的把控；對(duì)特征的抽象需要有深入的了解；機(jī)器學(xué)習(xí)的基礎(chǔ)是數(shù)據(jù)、以及數(shù)據(jù)特征的轉(zhuǎn)換，需要我們對(duì)處理的處理過程有更深層次的了解與掌握，需要多學(xué)一些數(shù)據(jù)、統(tǒng)計(jì)學(xué)、計(jì)量學(xué)相關(guān)知識(shí)；機(jī)器學(xué)習(xí)的需求也不僅僅是通過原型、文檔就能解決的，需要產(chǎn)品經(jīng)理與工程師深度的合作，參與到機(jī)器學(xué)習(xí)的過程中。本文由 @羅飛原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自 Unsplash ，基于 CC0 協(xié)議