HOME 首頁(yè)
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營(yíng)
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    精細(xì)高斯SVM(高斯部件)

    發(fā)布時(shí)間:2023-04-13 15:11:48     稿源: 創(chuàng)意嶺    閱讀: 127        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于精細(xì)高斯SVM的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端

    官網(wǎng):https://ai.de1919.com

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    精細(xì)高斯SVM(高斯部件)

    一、SVM中的核函數(shù)與概率密度估計(jì)中的非參數(shù)估計(jì)里的核函數(shù)有什么內(nèi)在聯(lián)系?

    我覺得一樣,都是對(duì)距離的度量。

    二、12、核支持向量機(jī)SVM

    核支持向量機(jī)kernelized support vector machine,支持就是重要的意思,向量就是點(diǎn),機(jī)就是機(jī)器,即重要的點(diǎn)。

    位于類別之間邊界上的那些點(diǎn),這些點(diǎn)叫作支持向量。想要對(duì)新樣本點(diǎn)進(jìn)行預(yù)測(cè),需要測(cè)量它與每個(gè)支持向量之間的距離。

    核支持向量機(jī)可用于回歸SVR和分類SVC。

    下面利用乳腺癌數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練:

    輸出

    訓(xùn)練集的精度為1,但測(cè)試集精度只有63%,存在過擬合。SVM要求所有特征有相似的變化范圍,乳腺癌數(shù)據(jù)集的特征具有不同的量級(jí),對(duì)核SVM有很大的影響,我們對(duì)每個(gè)特征進(jìn)行縮放,使其大致都位于同一范圍,如將所有特征縮放到0和1之間(每一個(gè)數(shù)-最小值/范圍,注意測(cè)試集也是采用訓(xùn)練集的最小值和范圍的標(biāo)準(zhǔn))。

    輸出

    因?yàn)橛?xùn)練集和測(cè)試集的性能非常接近,但還沒有接近100%的精度,所以模型還是處于欠擬合的狀態(tài)。我們可以嘗試增大C或gamma來擬合更為復(fù)雜的模型。

    gamma是控制高斯核寬度的參數(shù),它決定了點(diǎn)與點(diǎn)之間靠近是指多大的距離,gamma越小,更多的點(diǎn)被看作比較靠近。C是正則化參數(shù),它限制每個(gè)特征的重要性(確切的說每個(gè)點(diǎn)的dual_coef_)。兩個(gè)參數(shù)的設(shè)定通常是強(qiáng)烈相關(guān)的,應(yīng)該同時(shí)調(diào)節(jié)。默認(rèn)情況下,C=1,gamma=1。

    輸出

    增大C顯著改進(jìn)了模型,得到了97%的精度。

    SVM允許決策邊界很復(fù)雜,即使數(shù)據(jù)只有幾個(gè)特征,它在低維數(shù)據(jù)和高維數(shù)據(jù)(即很少特征和很多特征)上的表現(xiàn)都很好。

    缺點(diǎn):1 需要進(jìn)行數(shù)據(jù)預(yù)處理,對(duì)數(shù)據(jù)的縮放和參數(shù)的設(shè)定非常敏感,所以數(shù)據(jù)預(yù)處理和調(diào)參都需要非常小心。這也是為什么如今很多應(yīng)用中用的都是基于樹的模型,比如隨機(jī)森林或梯度提升(需要很少的預(yù)處理,甚至不需要預(yù)處理)。 2 SVM模型很難檢查,也很難解釋為什么會(huì)這么預(yù)測(cè),難以將模型向非專家進(jìn)行解釋。

    三、如何利用 Python 實(shí)現(xiàn) SVM 模型

    我先直觀地闡述我對(duì)SVM的理解,這其中不會(huì)涉及數(shù)學(xué)公式,然后給出Python代碼。

    SVM是一種二分類模型,處理的數(shù)據(jù)可以分為三類:

    • 線性可分,通過硬間隔最大化,學(xué)習(xí)線性分類器

    • 近似線性可分,通過軟間隔最大化,學(xué)習(xí)線性分類器

    • 線性不可分,通過核函數(shù)以及軟間隔最大化,學(xué)習(xí)非線性分類器

    • 線性分類器,在平面上對(duì)應(yīng)直線;非線性分類器,在平面上對(duì)應(yīng)曲線。

      硬間隔對(duì)應(yīng)于線性可分?jǐn)?shù)據(jù)集,可以將所有樣本正確分類,也正因?yàn)槿绱耍茉肼晿颖居绊懞艽?,不推薦。

      軟間隔對(duì)應(yīng)于通常情況下的數(shù)據(jù)集(近似線性可分或線性不可分),允許一些超平面附近的樣本被錯(cuò)誤分類,從而提升了泛化性能。

      如下圖:

      精細(xì)高斯SVM(高斯部件)

      實(shí)線是由硬間隔最大化得到的,預(yù)測(cè)能力顯然不及由軟間隔最大化得到的虛線。

      對(duì)于線性不可分的數(shù)據(jù)集,如下圖:

      精細(xì)高斯SVM(高斯部件)

      我們直觀上覺得這時(shí)線性分類器,也就是直線,不能很好的分開紅點(diǎn)和藍(lán)點(diǎn)。

      但是可以用一個(gè)介于紅點(diǎn)與藍(lán)點(diǎn)之間的類似圓的曲線將二者分開,如下圖:

      精細(xì)高斯SVM(高斯部件)我們假設(shè)這個(gè)黃色的曲線就是圓,不妨設(shè)其方程為x^2+y^2=1,那么核函數(shù)是干什么的呢?

      我們將x^2映射為X,y^2映射為Y,那么超平面變成了X+Y=1。

      那么原空間的線性不可分問題,就變成了新空間的(近似)線性可分問題。

      此時(shí)就可以運(yùn)用處理(近似)線性可分問題的方法去解決線性不可分?jǐn)?shù)據(jù)集的分類問題。

      ---------------------------------------------------------------------------------------------------------------------------

      以上我用最簡(jiǎn)單的語(yǔ)言粗略地解釋了SVM,沒有用到任何數(shù)學(xué)知識(shí)。但是沒有數(shù)學(xué),就體會(huì)不到SVM的精髓。因此接下來我會(huì)用盡量簡(jiǎn)潔的語(yǔ)言敘述SVM的數(shù)學(xué)思想,如果沒有看過SVM推導(dǎo)過程的朋友完全可以跳過下面這段。

      對(duì)于求解(近似)線性可分問題:

    • 由最大間隔法,得到凸二次規(guī)劃問題,這類問題是有最優(yōu)解的(理論上可以直接調(diào)用二次規(guī)劃計(jì)算包,得出最優(yōu)解)

    • 我們得到以上凸優(yōu)化問題的對(duì)偶問題,一是因?yàn)閷?duì)偶問題更容易求解,二是引入核函數(shù),推廣到非線性問題。

    • 求解對(duì)偶問題得到原始問題的解,進(jìn)而確定分離超平面和分類決策函數(shù)。由于對(duì)偶問題里目標(biāo)函數(shù)和分類決策函數(shù)只涉及實(shí)例與實(shí)例之間的內(nèi)積,即<xi,xj>。我們引入核函數(shù)的概念。

    • 拓展到求解線性不可分問題:
    • 如之前的例子,對(duì)于線性不可分的數(shù)據(jù)集的任意兩個(gè)實(shí)例:xi,xj。當(dāng)我們?nèi)∧硞€(gè)特定映射f之后,f(xi)與f(xj)在高維空間中線性可分,運(yùn)用上述的求解(近似)線性可分問題的方法,我們看到目標(biāo)函數(shù)和分類決策函數(shù)只涉及內(nèi)積<f(xi),f(xj)>。由于高維空間中的內(nèi)積計(jì)算非常復(fù)雜,我們可以引入核函數(shù)K(xi,xj)=<f(xi),f(xj)>,因此內(nèi)積問題變成了求函數(shù)值問題。最有趣的是,我們根本不需要知道映射f。精彩!

    • 我不準(zhǔn)備在這里放推導(dǎo)過程,因?yàn)橐呀?jīng)有很多非常好的學(xué)習(xí)資料,如果有興趣,可以看:CS229 Lecture notes

      最后就是SMO算法求解SVM問題,有興趣的話直接看作者論文:Sequential Minimal Optimization:A Fast Algorithm for Training Support Vector Machines

      我直接給出代碼:SMO+SVM

      在線性可分?jǐn)?shù)據(jù)集上運(yùn)行結(jié)果:

      圖中標(biāo)出了支持向量精細(xì)高斯SVM(高斯部件)這個(gè)非常完美,支持向量都在超平面附近。

      在線性不可分?jǐn)?shù)據(jù)集上運(yùn)行結(jié)果(200個(gè)樣本):

      核函數(shù)用了高斯核,取了不同的sigma

      sigma=1,有189個(gè)支持向量,相當(dāng)于用整個(gè)數(shù)據(jù)集進(jìn)行分類。

      精細(xì)高斯SVM(高斯部件)

      sigma=10,有20個(gè)支持向量,邊界曲線能較好的擬合數(shù)據(jù)集特點(diǎn)。

      精細(xì)高斯SVM(高斯部件)我們可以看到,當(dāng)支持向量太少,可能會(huì)得到很差的決策邊界。如果支持向量太多,就相當(dāng)于每次都利用整個(gè)數(shù)據(jù)集進(jìn)行分類,類似KNN。

    四、「數(shù)據(jù)分類」15支持向量機(jī)(SVM)及混淆矩陣

    1.支持向量機(jī)(SVM)概述

    (1)支持向量機(jī)(Support Vector Machines,SVM)是一種二元分類模型,它是一類模型的統(tǒng)稱,其中包括:

    ①線性可分支持向量機(jī);

    ②線性支持向量機(jī);

    ③非線性支持向量機(jī)。

    (2)核心思想:

        訓(xùn)練階段在特征空間中尋找一個(gè)超平面,它能(或盡量能)將訓(xùn)練樣本中的正例和負(fù)例分離在它的兩側(cè),預(yù)測(cè)時(shí)以該超平面作為決策邊界判斷輸入實(shí)例的類別。尋找超平面的原則是,在可分離的情況下使超平面與數(shù)據(jù)集間隔最大化。

    (3)支持向量機(jī)的分類示意圖為:

    簡(jiǎn)單來說,SVM的原理就是在平面內(nèi)找到一條直線,使得這兩類不同的樣本點(diǎn)分開,并且保證能夠盡可能遠(yuǎn)的遠(yuǎn)離這條直線。用向量表示兩類樣本點(diǎn)之間的分類間隔(Margin)為:

    支持向量機(jī)的目的是使r最大,等價(jià)于使||w||/2最小。而幾何向量使分類間隔最大問題可以轉(zhuǎn)化為運(yùn)籌學(xué)上的約束優(yōu)化問題。因?yàn)樯婕疤鄰?fù)雜公式,此處省略。

    只要理解了SVM的原理,并且學(xué)會(huì)利用sklearn庫(kù)調(diào)用SVM模塊,就達(dá)到了數(shù)據(jù)分析的目的。

    2.SVM算法實(shí)現(xiàn)

    (1)重要參數(shù)說明:

    ①kernel :核函數(shù),默認(rèn)是rbf,可以是‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’ 。

    ·kernel='linear'時(shí)為線性核,C越大分類效果越好,但有可能會(huì)過擬合(defaul C=1);

    ·kernel='poly'時(shí)為多項(xiàng)式核函數(shù);

    ·kernel='rbf'時(shí)(default)為高斯核,gamma值越小,分類界面越連續(xù);gamma值越大,分類界面越“散”,分類效果越好,但有可能會(huì)過擬合。

    ②decision_function_shape:

    ·decision_function_shape='ovr'時(shí),為one v rest,即一個(gè)類別與其他類別進(jìn)行劃分;

    ·decision_function_shape='ovo'時(shí),為one v one,即將類別兩兩之間進(jìn)行劃分,用二分類的方法模擬多分類的結(jié)果。

    (2)程序?qū)崿F(xiàn)過程:

    【注】

    在分類型模型評(píng)判的指標(biāo)中,常見的方法有如下三種:

    ①混淆矩陣(也稱誤差矩陣,Confusion Matrix)

        混淆矩陣是評(píng)判模型結(jié)果的指標(biāo),屬于模型評(píng)估的一部分。此外,混淆矩陣多用于判斷分類器(Classifier)的優(yōu)劣,適用于分類型的數(shù)據(jù)模型,如分類樹(Classification Tree)、邏輯回歸(Logistic Regression)、線性判別分析(Linear Discriminant Analysis)等方法。

    混淆矩陣的一級(jí)指標(biāo):

    通過混淆矩陣可以計(jì)算出評(píng)估模型的幾個(gè)指標(biāo)(二級(jí)指標(biāo)):

    三級(jí)指標(biāo):F1-score

    其中,P代表Precision,R代表Recall。

    F1-Score指標(biāo)綜合了Precision與Recall的產(chǎn)出的結(jié)果。F1-Score的取值范圍從0到1的,1代表模型的輸出最好,0代表模型的輸出結(jié)果最差。

    Ps:當(dāng)分類結(jié)果多于兩種時(shí),需要將結(jié)果轉(zhuǎn)化為上面的類型。

    詳細(xì)內(nèi)容參考博文https://blog.csdn.net/Orange_Spotty_Cat/article/details/80520839

    ②ROC曲線

    ③AUC面積

    以上就是關(guān)于精細(xì)高斯SVM相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    杭州欣陽(yáng)精細(xì)化工有限公司(杭州欣陽(yáng)精細(xì)化工有限公司招聘)

    辦公室管理的根本特征(辦公室精細(xì)化管理)

    精細(xì)到極致的日本人(精細(xì)到極致的日本人是誰(shuí))

    小茅臺(tái)100ml不建議收藏(小茅臺(tái)100ml 53度)

    小紅書發(fā)布的評(píng)論別人看不到(小紅書發(fā)布的評(píng)論別人看不到怎么辦)