-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 技術(shù) > 專(zhuān)題列表 > 正文
模型算法有哪些
大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于模型算法有哪些的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。
ChatGPT國(guó)內(nèi)免費(fèi)在線(xiàn)使用,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話(huà)答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫(xiě)出的就越詳細(xì),有微信小程序端、在線(xiàn)網(wǎng)頁(yè)版、PC客戶(hù)端
官網(wǎng):https://ai.de1919.com
本文目錄:
一、常見(jiàn)的分類(lèi)算法有哪些
常見(jiàn)的分類(lèi)算法:
1、決策樹(shù):決策樹(shù)是一種用于對(duì)實(shí)例進(jìn)行分類(lèi)的樹(shù)形結(jié)構(gòu)。一種依托于策略抉擇而建立起來(lái)的樹(shù)。決策樹(shù)由節(jié)點(diǎn)(node)和有向邊(directed edge)組成。節(jié)點(diǎn)的類(lèi)型有兩種:內(nèi)部節(jié)點(diǎn)和葉子節(jié)點(diǎn)。其中,內(nèi)部節(jié)點(diǎn)表示一個(gè)特征或?qū)傩缘臏y(cè)試條件(用于分開(kāi)具有不同特性的記錄),葉子節(jié)點(diǎn)表示一個(gè)分類(lèi)。
2、貝葉斯:貝葉斯(Bayes)分類(lèi)算法是一類(lèi)利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類(lèi)的算法,如樸素貝葉斯(Naive Bayes)算法。這些算法主要利用Bayes定理來(lái)預(yù)測(cè)一個(gè)未知類(lèi)別的樣本屬于各個(gè)類(lèi)別的可能性,選擇其中可能性最大的一個(gè)類(lèi)別作為該樣本的最終類(lèi)別。由于貝葉斯定理的成立本身需要一個(gè)很強(qiáng)的條件獨(dú)立性假設(shè)前提,而此假設(shè)在實(shí)際情況中經(jīng)常是不成立的,因而其分類(lèi)準(zhǔn)確性就會(huì)下降。
3、人工神經(jīng)網(wǎng)絡(luò):人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)是一種應(yīng)用類(lèi)似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。在這種模型中,大量的節(jié)點(diǎn)(或稱(chēng)”神經(jīng)元”,或”單元”)之間相互聯(lián)接構(gòu)成網(wǎng)絡(luò),即”神經(jīng)網(wǎng)絡(luò)”,以達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)通常需要進(jìn)行訓(xùn)練,訓(xùn)練的過(guò)程就是網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)的過(guò)程。
二、聚類(lèi)算法有哪些
基于網(wǎng)格的方法(grid-based methods),這種方法首先將數(shù)據(jù)空間劃分成為有限個(gè)單元(cell)的網(wǎng)格結(jié)構(gòu),所有的處理都是以單個(gè)的單元為對(duì)象的。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法。
6、模型算法
基于模型的方法(model-based methods),基于模型的方法給每一個(gè)聚類(lèi)假定一個(gè)模型,然后去尋找能夠很好的滿(mǎn)足這個(gè)模型的數(shù)據(jù)集。通常有兩種嘗試方向:統(tǒng)計(jì)的方案和神經(jīng)網(wǎng)絡(luò)的方案。
擴(kuò)展資料:
聚類(lèi)分析起源于分類(lèi)學(xué),在古老的分類(lèi)學(xué)中,人們主要依靠經(jīng)驗(yàn)和專(zhuān)業(yè)知識(shí)來(lái)實(shí)現(xiàn)分類(lèi),很少利用數(shù)學(xué)工具進(jìn)行定量的分類(lèi)。隨著人類(lèi)科學(xué)技術(shù)的發(fā)展,對(duì)分類(lèi)的要求越來(lái)越高,以致有時(shí)僅憑經(jīng)驗(yàn)和專(zhuān)業(yè)知識(shí)難以確切地進(jìn)行分類(lèi),于是人們逐漸地把數(shù)學(xué)工具引用到了分類(lèi)學(xué)中,形成了數(shù)值分類(lèi)學(xué),之后又將多元分析的技術(shù)引入到數(shù)值分類(lèi)學(xué)形成了聚類(lèi)分析。聚類(lèi)分析內(nèi)容非常豐富,有系統(tǒng)聚類(lèi)法、有序樣品聚類(lèi)法、動(dòng)態(tài)聚類(lèi)法、模糊聚類(lèi)法、圖論聚類(lèi)法、聚類(lèi)預(yù)報(bào)法等。
在商業(yè)上,聚類(lèi)可以幫助市場(chǎng)分析人員從消費(fèi)者數(shù)據(jù)庫(kù)中區(qū)分出不同的消費(fèi)群體來(lái),并且概括出每一類(lèi)消費(fèi)者的消費(fèi)模式或者說(shuō)習(xí)慣。它作為數(shù)據(jù)挖掘中的一個(gè)模塊,可以作為一個(gè)單獨(dú)的工具以發(fā)現(xiàn)數(shù)據(jù)庫(kù)中分布的一些深層的信息,并且概括出每一類(lèi)的特點(diǎn),或者把注意力放在某一個(gè)特定的類(lèi)上以作進(jìn)一步的分析;并且,聚類(lèi)分析也可以作為數(shù)據(jù)挖掘算法中其他分析算法的一個(gè)預(yù)處理步驟。
參考資料:百度百科-聚類(lèi)算法
三、聚類(lèi)算法有哪些分類(lèi)
聚類(lèi)算法的分類(lèi)有:
1、劃分法
劃分法(partitioning methods),給定一個(gè)有N個(gè)
5、網(wǎng)格算法
基于網(wǎng)格的方法(grid-based methods),這種方法首先將數(shù)據(jù)空間劃分成為有限個(gè)單元(cell)的網(wǎng)格結(jié)構(gòu),所有的處理都是以單個(gè)的單元為對(duì)象的。這么處理的一個(gè)突出的優(yōu)點(diǎn)就是處理速度很快,通常這是與目標(biāo)數(shù)據(jù)庫(kù)中記錄的個(gè)數(shù)無(wú)關(guān)的,它只與把數(shù)據(jù)空間分為多少個(gè)單元有關(guān)。
代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法;
6、模型算法
基于模型的方法(model-based methods),基于模型的方法給每一個(gè)聚類(lèi)假定一個(gè)模型,然后去尋找能夠很好的滿(mǎn)足這個(gè)模型的數(shù)據(jù)集。這樣一個(gè)模型可能是數(shù)據(jù)點(diǎn)在空間中的密度分布函數(shù)或者其它。它的一個(gè)潛在的假定就是:目標(biāo)數(shù)據(jù)集是由一系列的概率分布所決定的。
通常有兩種嘗試方向:統(tǒng)計(jì)的方案和神經(jīng)網(wǎng)絡(luò)的方案。
擴(kuò)展資料:
聚類(lèi)算法的要求:
1、可伸縮性
許多聚類(lèi)算法在小于 200 個(gè)數(shù)據(jù)對(duì)象的小數(shù)據(jù)集合上工作得很好;但是,一個(gè)大規(guī)模數(shù)據(jù)庫(kù)可能包含幾百萬(wàn)個(gè)對(duì)象,在這樣的大數(shù)據(jù)集合樣本上進(jìn)行聚類(lèi)可能會(huì)導(dǎo)致有偏的結(jié)果。
我們需要具有高度可伸縮性的聚類(lèi)算法。
2、不同屬性
許多算法被設(shè)計(jì)用來(lái)聚類(lèi)數(shù)值類(lèi)型的數(shù)據(jù)。但是,應(yīng)用可能要求聚類(lèi)其他類(lèi)型的數(shù)據(jù),如二元類(lèi)型(binary),分類(lèi)/標(biāo)稱(chēng)類(lèi)型(categorical/nominal),序數(shù)型(ordinal)數(shù)據(jù),或者這些數(shù)據(jù)類(lèi)型的混合。
3、任意形狀
許多聚類(lèi)算法基于歐幾里得或者曼哈頓距離度量來(lái)決定聚類(lèi)?;谶@樣的距離度量的算法趨向于發(fā)現(xiàn)具有相近尺度和密度的球狀簇。但是,一個(gè)簇可能是任意形狀的。提出能發(fā)現(xiàn)任意形狀簇的算法是很重要的。
4、領(lǐng)域最小化
許多聚類(lèi)算法在聚類(lèi)分析中要求用戶(hù)輸入一定的參數(shù),例如希望產(chǎn)生的簇的數(shù)目。聚類(lèi)結(jié)果對(duì)于輸入?yún)?shù)十分敏感。參數(shù)通常很難確定,特別是對(duì)于包含高維對(duì)象的數(shù)據(jù)集來(lái)說(shuō)。這樣不僅加重了用戶(hù)的負(fù)擔(dān),也使得聚類(lèi)的質(zhì)量難以控制。
5、處理“噪聲”
絕大多數(shù)現(xiàn)實(shí)中的數(shù)據(jù)庫(kù)都包含了孤立點(diǎn),缺失,或者錯(cuò)誤的數(shù)據(jù)。一些聚類(lèi)算法對(duì)于這樣的數(shù)據(jù)敏感,可能導(dǎo)致低質(zhì)量的聚類(lèi)結(jié)果。
6、記錄順序
一些聚類(lèi)算法對(duì)于輸入數(shù)據(jù)的順序是敏感的。例如,同一個(gè)數(shù)據(jù)集合,當(dāng)以不同的順序交給同一個(gè)算法時(shí),可能生成差別很大的聚類(lèi)結(jié)果。開(kāi)發(fā)對(duì)數(shù)據(jù)輸入順序不敏感的算法具有重要的意義。
參考資料:百度百科-聚類(lèi)算法
四、金融風(fēng)控AI—評(píng)分卡模型算法(1)
辦理過(guò)信用卡的朋友知道,開(kāi)卡需要先申請(qǐng)(篩選好壞用戶(hù)),可能還會(huì)根據(jù)你的信用情況會(huì)有不同的額度。這就是銀行的信用風(fēng)險(xiǎn)計(jì)量體系。對(duì)于信用卡有4類(lèi)評(píng)分卡:
1)申請(qǐng)?jiān)u分卡(A卡)
2)行為評(píng)分卡(B卡)
3)催收評(píng)分卡(C卡)
4)欺詐評(píng)分卡(F卡)
這些評(píng)分卡算法一樣,只是訓(xùn)練的數(shù)據(jù)不同,所用的參數(shù)也就不同。
螞蟻金服的芝麻信用也是這樣的。
模型的開(kāi)發(fā)主要包含以下幾大部分工作:數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、探索分析、特征選擇、模型訓(xùn)練、模型評(píng)估、建立評(píng)分系統(tǒng)。
本項(xiàng)目數(shù)據(jù)來(lái)源于kaggle競(jìng)賽 Give Me Some Credit 。有訓(xùn)練數(shù)據(jù)共計(jì)15萬(wàn)條。
打開(kāi)數(shù)據(jù)文件大概這個(gè)樣子:
字段描述如下
這部分主要做2個(gè)事情:缺失值處理和異常值處理。
pd的describe()函數(shù),可以了解數(shù)據(jù)集的缺失值情況。
打開(kāi)DataDescribe.csv
我們可以看大部分?jǐn)?shù)據(jù)有15萬(wàn)條,其中月收入只有12萬(wàn)條,缺了近3萬(wàn)條,家屬數(shù)量14.6萬(wàn)條。
對(duì)于缺失值,根據(jù)不同的情況我們分類(lèi)處理:
(1) 如果缺失的不多,比如家屬數(shù)量缺失不多,可以直接刪除含有缺失值的樣本。用dropna()
(2) 如果缺失較多,不宜直接全部刪除,根據(jù)樣本之間的相似性填補(bǔ)缺失值。比如用平均值
(3)如果缺失較多,不宜直接全部刪除, 根據(jù)變量之間的相關(guān)關(guān)系填補(bǔ)缺失值。比如用隨機(jī)森林法填補(bǔ)。
(4)如果缺失巨大,就失去分析意義,可以將整個(gè)字段刪除
平均值填補(bǔ)只要一句話(huà):
隨機(jī)森林法填補(bǔ):
調(diào)用隨機(jī)森林:
異常值是指明顯偏離大多數(shù)抽樣數(shù)據(jù)的數(shù)值,或者直接違背常識(shí)的數(shù)據(jù),比如年齡是負(fù)數(shù)。對(duì)于違背常識(shí)的記錄直接刪除,而對(duì)于其他異常數(shù)據(jù)需要具體分析:
具體采用哪種方式其實(shí)最好都試一下,看看最后得到的模型怎么樣。因?yàn)樗羞@些操作都是有假設(shè)條件的,而你的數(shù)據(jù)是否滿(mǎn)足這些條件,試過(guò)才知道。
從圖看有異常值不少,不過(guò)一般只把異常的0值去掉。
對(duì)于RevolvingUtilizationOfUnsecuredLines及DebtRatio都是百分?jǐn)?shù)類(lèi)型。其中第一項(xiàng)肯定不能大于100%而且統(tǒng)計(jì)一下這部分異常數(shù)據(jù)不多,果斷刪掉。第二項(xiàng)債務(wù)百分比不敢確定是否可債務(wù)大于100%,統(tǒng)計(jì)了一下有3w多條,而且取出來(lái)看了一下不是很特別,同樣可以試一下刪除或者放入不管或者填充看看最后不同的效果。
這3個(gè)逾期不還次數(shù)指標(biāo)意義相似放一起看,發(fā)現(xiàn)有2個(gè)數(shù)據(jù)特別顯眼,是96,98。雖然按箱型圖的含義所有圓圈都是異常值,但仔細(xì)分析這三個(gè)指標(biāo)發(fā)現(xiàn)正常值絕大部分是0,這就導(dǎo)致了箱型圖的1/4線(xiàn)和3/4線(xiàn)都是0,所以我們通常把頭頂2個(gè)值作為異常值。我把這部分異常值取出來(lái)發(fā)現(xiàn)數(shù)量不多,只有200多條,理論上可以直接刪除或者放在里面置之不理。但是我看了這部分?jǐn)?shù)據(jù)發(fā)現(xiàn)非常異常。這208條數(shù)據(jù)有125條是違約用戶(hù),違約占比62%,而全量數(shù)據(jù)里面違約占比7%不到,所以我覺(jué)得應(yīng)該把這部分?jǐn)?shù)據(jù)作為一條規(guī)則來(lái)處理,遇到這三個(gè)指標(biāo)有超過(guò)90的數(shù)值,直接報(bào)告警。那么是否可以把這部分?jǐn)?shù)據(jù)留著置之不理呢,后面我試了,發(fā)現(xiàn)會(huì)對(duì)變量之間的相關(guān)性有很大影響(后面會(huì)詳細(xì)講)。
同樣這個(gè)指標(biāo)我們把50以上作為異常值。
這個(gè)指標(biāo)pass
月收入可以去掉特別高的數(shù)據(jù)
家庭成員可以剔除特別高的
第一篇完
以上就是關(guān)于模型算法有哪些相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢(xún),客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
國(guó)產(chǎn)良心模型(國(guó)產(chǎn)良心模型品牌)
景觀設(shè)計(jì)專(zhuān)業(yè)介紹(景觀設(shè)計(jì)專(zhuān)業(yè)介紹怎么寫(xiě))
自考景觀設(shè)計(jì)(自考景觀設(shè)計(jì)真題)