-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
人工智能十大經(jīng)典算法(人工智能十大經(jīng)典算法是什么)
大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于人工智能十大經(jīng)典算法的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。
ChatGPT國(guó)內(nèi)免費(fèi)在線使用,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端
官網(wǎng):https://ai.de1919.com
本文目錄:
一、人工智能方面有哪些算法
模式識(shí)別需要非常好的概率論,數(shù)理統(tǒng)計(jì);另外會(huì)用到少量矩陣代數(shù),隨機(jī)過(guò)程和高數(shù)中的一些運(yùn)算,當(dāng)然是比較基礎(chǔ)的;如果要深入的話恐怕需要學(xué)泛函,但是一般情況下不需要達(dá)到這種深度。神經(jīng)網(wǎng)絡(luò),遺傳算法等智能算法在模式識(shí)別有非常重要的應(yīng)用,但是一般不需要學(xué)習(xí)計(jì)算機(jī)學(xué)科的人工智能,我們控制有一個(gè)交叉學(xué)科叫做智能控制是講這些的,智能控制不需要什么基礎(chǔ),有中學(xué)數(shù)學(xué)的集合和對(duì)空間有一點(diǎn)點(diǎn)的了解就足夠了,模糊數(shù)學(xué)的基礎(chǔ)是包含在這門學(xué)科里的。
二、數(shù)據(jù)挖掘相關(guān)課程
Ⅰ 數(shù)據(jù)挖掘與數(shù)據(jù)分析是學(xué)什么的
數(shù)據(jù)挖掘(英語(yǔ):Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(英語(yǔ):Knowledge-Discovery in Databases,簡(jiǎn)稱:KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。
數(shù)據(jù)挖掘?qū)W習(xí)的主要方向在于,挖掘的算法,使用什么算法能夠得到最好的結(jié)果。
國(guó)際權(quán)威的學(xué)術(shù)組織the IEEE International Conference on Data Mining (ICDM) 2006年12月評(píng)選出了數(shù)據(jù)挖掘領(lǐng)域的十大經(jīng)典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.
數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。這一過(guò)程也是質(zhì)量管理體系的支持過(guò)程。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動(dòng)。
數(shù)據(jù)分析的工具:
Excel作為常用的分析工具,可以實(shí)現(xiàn)基本的分析工作,在商業(yè)智能領(lǐng)域Cognos、Style Intelligence、Microstrategy、Brio、BO和Oracle以及國(guó)內(nèi)產(chǎn)品如Yonghong Z-Suite BI套件等。
非要說(shuō)數(shù)據(jù)挖掘和分析的區(qū)別可分為以下幾點(diǎn):
1、“數(shù)據(jù)分析”的重點(diǎn)是觀察數(shù)據(jù),而“數(shù)據(jù)挖掘”的重點(diǎn)是從數(shù)據(jù)中發(fā)現(xiàn)“知識(shí)規(guī)則”KDD(Knowledge Discover in Database);
2、“數(shù)據(jù)分析”得出的結(jié)論是人的智能活動(dòng)結(jié)果,而“數(shù)據(jù)挖掘”得出的結(jié)論是機(jī)器從學(xué)習(xí)集(或訓(xùn)練集、樣本集)發(fā)現(xiàn)的知識(shí)規(guī)則;
3、“數(shù)據(jù)分析”得出結(jié)論的運(yùn)用是人的智力活動(dòng),而“數(shù)據(jù)挖掘”發(fā)現(xiàn)的知識(shí)規(guī)則,可以直接應(yīng)用到預(yù)測(cè)。
4、“數(shù)據(jù)分析”不能建立數(shù)學(xué)模型,需要人工建模,而“數(shù)據(jù)挖掘”直接完成了數(shù)學(xué)建模。如傳統(tǒng)的控制論建模的本質(zhì)就是描述輸入變量與輸出變量之間的函數(shù)關(guān)系,“數(shù)據(jù)挖掘”可以通過(guò)機(jī)器學(xué)習(xí)自動(dòng)建立輸入與輸出的函數(shù)關(guān)系,根據(jù)KDD得出的“規(guī)則”,給定一組輸入?yún)?shù),就可以得出一組輸出量。
Ⅱ 請(qǐng)問(wèn)你是數(shù)據(jù)挖掘的研究生數(shù)據(jù)挖掘研究生階段都學(xué)什么
數(shù)據(jù)挖掘(Data Mining)就是從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律、提取有用知識(shí)的方法和技術(shù)。因?yàn)榕c數(shù)據(jù)庫(kù)密切相關(guān),又稱為數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD) ,就是將高級(jí)智能計(jì)算技術(shù)應(yīng)用于大量數(shù)據(jù)中,讓計(jì)算機(jī)在有人或無(wú)人指導(dǎo)的情況下從海量數(shù)據(jù)中發(fā)現(xiàn)潛在的,有用的模式(也叫知識(shí))。
廣義上說(shuō),任何從數(shù)據(jù)庫(kù)中挖掘信息的過(guò)程都叫做數(shù)據(jù)挖掘。從這點(diǎn)看來(lái),數(shù)據(jù)挖掘就是BI(商業(yè)智能)。但從技術(shù)術(shù)語(yǔ)上說(shuō),數(shù)據(jù)挖掘(Data Mining)特指的是:源數(shù)據(jù)經(jīng)過(guò)清洗和轉(zhuǎn)換等成為適合于挖掘的數(shù)據(jù)集。數(shù)據(jù)挖掘在這種具有固定形式的數(shù)據(jù)集上完成知識(shí)的提煉,最后以合適的知識(shí)模式用于進(jìn)一步分析決策工作。從這種狹義的觀點(diǎn)上,我們可以定義:數(shù)據(jù)挖掘是從特定形式的數(shù)據(jù)集中提煉知識(shí)的過(guò)程。數(shù)據(jù)挖掘往往針對(duì)特定的數(shù)據(jù)、特定的問(wèn)題,選擇一種或者多種挖掘算法,找到數(shù)據(jù)下面隱藏的規(guī)律,這些規(guī)律往往被用來(lái)預(yù)測(cè)、支持決策。
數(shù)據(jù)挖掘的主要功能
1.分類:按照分析對(duì)象的屬性、特征,建立不同的組類來(lái)描述事物。例如:銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來(lái)區(qū)分新申請(qǐng)貸款的客戶,以采取相應(yīng)的貸款方案。
2.聚類:識(shí)別出分析對(duì)內(nèi)在的規(guī)則,按照這些規(guī)則把對(duì)象分成若干類。例如:將申請(qǐng)人分為高度風(fēng)險(xiǎn)申請(qǐng)者,中度風(fēng)險(xiǎn)申請(qǐng)者,低度風(fēng)險(xiǎn)申請(qǐng)者。
3.關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn):關(guān)聯(lián)是某種事物發(fā)生時(shí)其他事物會(huì)發(fā)生的這樣一種聯(lián)系。例如:每天購(gòu)買啤酒的人也有可能購(gòu)買香煙,比重有多大,可以通過(guò)關(guān)聯(lián)的支持度和可信度來(lái)描述。與關(guān)聯(lián)不同,序列是一種縱向的聯(lián)系。例如:今天銀行調(diào)整利率,明天股市的變化。
4.預(yù)測(cè):把握分析對(duì)象發(fā)展的規(guī)律,對(duì)未來(lái)的趨勢(shì)做出預(yù)見。例如:對(duì)未來(lái)經(jīng)濟(jì)發(fā)展的判斷。
5.偏差的檢測(cè):對(duì)分析對(duì)象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。例如:在銀行的100萬(wàn)筆交易中有500例的欺詐行為,銀行為了穩(wěn)健經(jīng)營(yíng),就要發(fā)現(xiàn)這500例的內(nèi)在因素,減小以后經(jīng)營(yíng)的風(fēng)險(xiǎn)。
需要注意的是:數(shù)據(jù)挖掘的各項(xiàng)功能不是獨(dú)立存在的,在數(shù)據(jù)挖掘中互相聯(lián)系,發(fā)揮作用。
數(shù)據(jù)挖掘的方法及工具
作為一門處理數(shù)據(jù)的新興技術(shù),數(shù)據(jù)挖掘有許多的新特征。首先,數(shù)據(jù)挖掘面對(duì)的是海量的數(shù)據(jù),這也是數(shù)據(jù)挖掘產(chǎn)生的原因。其次,數(shù)據(jù)可能是不完全的、有噪聲的、隨機(jī)的,有復(fù)雜的數(shù)據(jù)結(jié)構(gòu),維數(shù)大。最后,數(shù)據(jù)挖掘是許多學(xué)科的交叉,運(yùn)用了統(tǒng)計(jì)學(xué),計(jì)算機(jī),數(shù)學(xué)等學(xué)科的技術(shù)。以下是常見和應(yīng)用最廣泛的算法和模型:
(1) 傳統(tǒng)統(tǒng)計(jì)方法:① 抽樣技術(shù):我們面對(duì)的是大量的數(shù)據(jù),對(duì)所有的數(shù)據(jù)進(jìn)行分析是不可能的也是沒有必要的,就要在理論的指導(dǎo)下進(jìn)行合理的抽樣。② 多元統(tǒng)計(jì)分析:因子分析,聚類分析等。③ 統(tǒng)計(jì)預(yù)測(cè)方法,如回歸分析,時(shí)間序列分析等。
(2) 可視化技術(shù):用圖表等方式把數(shù)據(jù)特征用直觀地表述出來(lái),如直方圖等,這其中運(yùn)用的許多描述統(tǒng)計(jì)的方法。可視化技術(shù)面對(duì)的一個(gè)難題是高維數(shù)據(jù)的可視化。
職業(yè)能力要求
基本能力要求
數(shù)據(jù)挖掘人員需具備以下基本條件,才可以完成數(shù)據(jù)挖掘項(xiàng)目中的相關(guān)任務(wù)。
一、專業(yè)技能
碩士以上學(xué)歷,數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)相關(guān)專業(yè),熟練掌握關(guān)系數(shù)據(jù)庫(kù)技術(shù),具有數(shù)據(jù)庫(kù)系統(tǒng)開發(fā)經(jīng)驗(yàn)
熟練掌握常用的數(shù)據(jù)挖掘算法
具備數(shù)理統(tǒng)計(jì)理論基礎(chǔ),并熟悉常用的統(tǒng)計(jì)工具軟件
二、行業(yè)知識(shí)
具有相關(guān)的行業(yè)知識(shí),或者能夠很快熟悉相關(guān)的行業(yè)知識(shí)
三、合作精神
具有良好的團(tuán)隊(duì)合作精神,能夠主動(dòng)和項(xiàng)目中其他成員緊密合作
四、客戶關(guān)系能力
具有良好的客戶溝通能力,能夠明確闡述數(shù)據(jù)挖掘項(xiàng)目的重點(diǎn)和難點(diǎn),善于調(diào)整客戶對(duì)數(shù)據(jù)挖掘的誤解和過(guò)高期望
具有良好的知識(shí)轉(zhuǎn)移能力,能夠盡快地讓模型維護(hù)人員了解并掌握數(shù)據(jù)挖掘方法論及建模實(shí)施能力
進(jìn)階能力要求
數(shù)據(jù)挖掘人員具備如下條件,可以提高數(shù)據(jù)挖掘項(xiàng)目的實(shí)施效率,縮短項(xiàng)目周期。
具有數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目實(shí)施經(jīng)驗(yàn),熟悉數(shù)據(jù)倉(cāng)庫(kù)技術(shù)及方法論
熟練掌握SQL語(yǔ)言,包括復(fù)雜查詢、性能調(diào)優(yōu)
熟練掌握ETL開發(fā)工具和技術(shù)
熟練掌握Microsoft Office軟件,包括Excel和PowerPoint中的各種統(tǒng)計(jì)圖形技術(shù)
善于將挖掘結(jié)果和客戶的業(yè)務(wù)管理相結(jié)合,根據(jù)數(shù)據(jù)挖掘的成果向客戶提供有價(jià)值的可行性操作方案
應(yīng)用及就業(yè)領(lǐng)域
當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信(客戶分析),零售(銷售預(yù)測(cè)),農(nóng)業(yè)(行業(yè)數(shù)據(jù)預(yù)測(cè)),網(wǎng)絡(luò)日志(網(wǎng)頁(yè)定制),銀行(客戶欺詐),電力(客戶呼叫),生物(基因),天體(星體分類),化工,醫(yī)藥等方面。當(dāng)前它能解決的問(wèn)題典型在于:數(shù)據(jù)庫(kù)營(yíng)銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場(chǎng)分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發(fā)現(xiàn)(Fraud Detection)等等,在許多領(lǐng)域得到了成功的應(yīng)用。如果你訪問(wèn)著名的亞馬遜網(wǎng)上書店(amazon),會(huì)發(fā)現(xiàn)當(dāng)你選中一本書后,會(huì)出現(xiàn)相關(guān)的推薦數(shù)目“Customers who bought this book also bought”,這背后就是數(shù)據(jù)挖掘技術(shù)在發(fā)揮作用。
數(shù)據(jù)挖掘的對(duì)象是某一專業(yè)領(lǐng)域中積累的數(shù)據(jù);挖掘過(guò)程是一個(gè)人機(jī)交互、多次反復(fù)的過(guò)程;挖掘的結(jié)果要應(yīng)用于該專業(yè)。因此數(shù)據(jù)挖掘的整個(gè)過(guò)程都離不開應(yīng)用領(lǐng)域的專業(yè)知識(shí)?!癇usiness First, technique second”是數(shù)據(jù)挖掘的特點(diǎn)。因此學(xué)習(xí)數(shù)據(jù)挖掘不意味著丟棄原有專業(yè)知識(shí)和經(jīng)驗(yàn)。相反,有其它行業(yè)背景是從事數(shù)據(jù)挖掘的一大優(yōu)勢(shì)。如有銷售,財(cái)務(wù),機(jī)械,制造,call center等工作經(jīng)驗(yàn)的,通過(guò)學(xué)習(xí)數(shù)據(jù)挖掘,可以提升個(gè)人職業(yè)層次,在不改變?cè)瓕I(yè)的情況下,從原來(lái)的事務(wù)型角色向分析型角色轉(zhuǎn)變。從80年代末的初露頭角到90年代末的廣泛應(yīng)用,以數(shù)據(jù)挖掘?yàn)楹诵牡纳虡I(yè)智能(BI)已經(jīng)成為IT及其它行業(yè)中的一個(gè)新寵。
數(shù)據(jù)采集分析專員
職位介紹:數(shù)據(jù)采集分析專員的主要職責(zé)是把公司運(yùn)營(yíng)的數(shù)據(jù)收集起來(lái),再?gòu)闹型诰虺鲆?guī)律性的信息來(lái)指導(dǎo)公司的戰(zhàn)略方向。這個(gè)職位常被忽略,但相當(dāng)重要。由于數(shù)據(jù)庫(kù)技術(shù)最先出現(xiàn)于計(jì)算機(jī)領(lǐng)域,同時(shí)計(jì)算機(jī)數(shù)據(jù)庫(kù)具有海量存儲(chǔ)、查找迅速、分析半自動(dòng)化等特點(diǎn),數(shù)據(jù)采集分析專員最先出現(xiàn)于計(jì)算機(jī)行業(yè),后來(lái)隨著計(jì)算機(jī)應(yīng)用的普及擴(kuò)展到了各個(gè)行業(yè)。該職位一般提供給懂?dāng)?shù)據(jù)庫(kù)應(yīng)用和具有一定統(tǒng)計(jì)分析能力的人。有計(jì)算機(jī)特長(zhǎng)的統(tǒng)計(jì)專業(yè)人員,或?qū)W過(guò)數(shù)據(jù)挖掘的計(jì)算機(jī)專業(yè)人員都可以勝任此工作,不過(guò)最好能夠?qū)λ谛袠I(yè)的市場(chǎng)情況具有一定的了解。
求職建議:由于很多公司追求短期利益而不注重長(zhǎng)期戰(zhàn)略的現(xiàn)狀,目前國(guó)內(nèi)很多企業(yè)對(duì)此職位的重視程度不夠。但大型公司、外企對(duì)此職位的重視程度較高,隨著時(shí)間的推移該職位會(huì)有升溫的趨勢(shì)。另外,數(shù)據(jù)采集分析專員很容易獲得行業(yè)經(jīng)驗(yàn),他們?cè)诜治鲞^(guò)程中能夠很輕易地把握該行業(yè)的市場(chǎng)情況、客戶習(xí)慣、渠道分布等關(guān)鍵情況,因此如果想在某行創(chuàng)業(yè),從數(shù)據(jù)采集分析專員干起是一個(gè)不錯(cuò)的選擇。
市場(chǎng)/數(shù)據(jù)分析師
1. 市場(chǎng)數(shù)據(jù)分析是現(xiàn)代市場(chǎng)營(yíng)銷科學(xué)必不可少的關(guān)鍵環(huán)節(jié): Marketing/Data Analyst從業(yè)最多的行業(yè): Direct Marketing (直接面向客戶的市場(chǎng)營(yíng)銷) 吧,自90年代以來(lái), Direct Marketing越來(lái)越成為公司推銷其產(chǎn)品的主要手段。根據(jù)加拿大市場(chǎng)營(yíng)銷組織(Canadian Marketing Association)的統(tǒng)計(jì)數(shù)據(jù): 僅1999年一年 Direct Marketing就創(chuàng)造了470000 個(gè)工作機(jī)會(huì)。從1999至2000,工作職位又增加了30000個(gè)。為什么Direct Marketing需要這么多Analyst呢? 舉個(gè)例子, 隨著商業(yè)競(jìng)爭(zhēng)日益加劇,公司希望能最大限度的從廣告中得到銷售回報(bào), 他們希望能有更多的用戶來(lái)響應(yīng)他們的廣告。所以他們就必需要在投放廣告之前做大量的市場(chǎng)分析工作。例如,根據(jù)自己的產(chǎn)品結(jié)合目標(biāo)市場(chǎng)顧客的家庭收入,教育背景和消費(fèi)趨向分析出哪些地區(qū)的住戶或居民最有可能響應(yīng)公司的銷售廣告,購(gòu)買自己的產(chǎn)品或成為客戶,從而廣告只針對(duì)這些特定的客戶群。這樣有的放矢的篩選廣告的投放市場(chǎng)既節(jié)省開銷又提高了銷售回報(bào)率。但是所有的這些分析都是基于數(shù)據(jù)庫(kù),通過(guò)數(shù)據(jù)處理,挖掘,建模得出的,其間,市場(chǎng)分析師的工作是必不可少的。
2. 行業(yè)適應(yīng)性強(qiáng): 幾乎所有的行業(yè)都會(huì)應(yīng)用到數(shù)據(jù), 所以作為一名數(shù)據(jù)/市場(chǎng)分析師不僅僅可以在華人傳統(tǒng)的IT行業(yè)就業(yè),也可以在 *** ,銀行,零售,醫(yī)藥業(yè),制造業(yè)和交通傳輸?shù)阮I(lǐng)域服務(wù)。
現(xiàn)狀與前景
數(shù)據(jù)挖掘是適應(yīng)信息社會(huì)從海量的數(shù)據(jù)庫(kù)中提取信息的需要而產(chǎn)生的新學(xué)科。它是統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)、模式識(shí)別、人工智能等學(xué)科的交叉。在中國(guó)各重點(diǎn)院校中都已經(jīng)開了數(shù)據(jù)挖掘的課程或研究課題。比較著名的有中科院計(jì)算所、復(fù)旦大學(xué)、清華大學(xué)等。另外, *** 機(jī)構(gòu)和大型企業(yè)也開始重視這個(gè)領(lǐng)域。
據(jù)IDC對(duì)歐洲和北美62家采用了商務(wù)智能技術(shù)的企業(yè)的調(diào)查分析發(fā)現(xiàn),這些企業(yè)的3年平均投資回報(bào)率為401%,其中25%的企業(yè)的投資回報(bào)率超過(guò)600%。調(diào)查結(jié)果還顯示,一個(gè)企業(yè)要想在復(fù)雜的環(huán)境中獲得成功,高層管理者必須能夠控制極其復(fù)雜的商業(yè)結(jié)構(gòu),若沒有詳實(shí)的事實(shí)和數(shù)據(jù)支持,是很難辦到的。因此,隨著數(shù)據(jù)挖掘技術(shù)的不斷改進(jìn)和日益成熟,它必將被更多的用戶采用,使更多的管理者得到更多的商務(wù)智能。
根據(jù)IDC(International Data Corporation)預(yù)測(cè)說(shuō)2004年估計(jì)BI行業(yè)市場(chǎng)在140億美元。現(xiàn)在,隨著我國(guó)加入WTO,我國(guó)在許多領(lǐng)域,如金融、保險(xiǎn)等領(lǐng)域?qū)⒅鸩綄?duì)外開放,這就意味著許多企業(yè)將面臨來(lái)自國(guó)際大型跨國(guó)公司的巨大競(jìng)爭(zhēng)壓力。國(guó)外發(fā)達(dá)國(guó)家各種企業(yè)采用商務(wù)智能的水平已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了我國(guó)。美國(guó)Palo Alto 管理集團(tuán)公司1999年對(duì)歐洲、北美和日本375家大中型企業(yè)的商務(wù)智能技術(shù)的采用情況進(jìn)行了調(diào)查。結(jié)果顯示,在金融領(lǐng)域,商務(wù)智能技術(shù)的應(yīng)用水平已經(jīng)達(dá)到或接近70%,在營(yíng)銷領(lǐng)域也達(dá)到50%,并且在未來(lái)的3年中,各個(gè)應(yīng)用領(lǐng)域?qū)υ摷夹g(shù)的采納水平都將提高約50%。
現(xiàn)在,許多企業(yè)都把數(shù)據(jù)看成寶貴的財(cái)富,紛紛利用商務(wù)智能發(fā)現(xiàn)其中隱藏的信息,借此獲得巨額的回報(bào)。國(guó)內(nèi)暫時(shí)還沒有官方關(guān)于數(shù)據(jù)挖掘行業(yè)本身的市場(chǎng)統(tǒng)計(jì)分析報(bào)告,但是國(guó)內(nèi)數(shù)據(jù)挖掘在各個(gè)行業(yè)都有一定的研究。據(jù)國(guó)外專家預(yù)測(cè),在今后的5—10年內(nèi),隨著數(shù)據(jù)量的日益積累以及計(jì)算機(jī)的廣泛應(yīng)用,數(shù)據(jù)挖掘?qū)⒃谥袊?guó)形成一個(gè)產(chǎn)業(yè)。
眾所周知,IT就業(yè)市場(chǎng)競(jìng)爭(zhēng)已經(jīng)相當(dāng)激烈,而數(shù)據(jù)處理的核心技術(shù)---數(shù)據(jù)挖掘更是得到了前所未有的重視。數(shù)據(jù)挖掘和商業(yè)智能技術(shù)位于整個(gè)企業(yè)IT-業(yè)務(wù)構(gòu)架的金字塔塔尖,目前國(guó)內(nèi)數(shù)據(jù)挖掘?qū)I(yè)的人才培養(yǎng)體系尚不健全,人才市場(chǎng)上精通數(shù)據(jù)挖掘技術(shù)、商業(yè)智能的供應(yīng)量極小,而另一方面企業(yè)、 *** 機(jī)構(gòu)和和科研單位對(duì)此類人才的潛在需求量極大,供需缺口極大。如果能將數(shù)據(jù)挖掘技術(shù)與個(gè)人已有專業(yè)知識(shí)相結(jié)合,您必將開辟職業(yè)生涯的新天地!
職業(yè)薪酬
就目前來(lái)看,和大多IT業(yè)的職位一樣,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘方面的人才在國(guó)內(nèi)的需求工作也是低端飽和,高端緊缺,在二線成熟,高端數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘方面的人才尤其稀少。高端數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘人才需要熟悉多個(gè)行業(yè),至少有3年以上大型DWH和BI經(jīng)驗(yàn),英語(yǔ)讀寫流利,具有項(xiàng)目推動(dòng)能力,這樣的人才年薪能達(dá)到20萬(wàn)以上。
職業(yè)認(rèn)證
1、SAS認(rèn)證的應(yīng)用行業(yè)及職業(yè)前景
SAS全球?qū)I(yè)認(rèn)證是國(guó)際上公認(rèn)的數(shù)據(jù)挖掘和商業(yè)智能領(lǐng)域的權(quán)威認(rèn)證,隨著我國(guó)IT環(huán)境和應(yīng)用的日漸成熟,以上兩個(gè)領(lǐng)域?qū)⒂袠O大的行業(yè)發(fā)展空間。獲取SAS全球?qū)I(yè)認(rèn)證,為您在數(shù)據(jù)挖掘、分析方法論領(lǐng)域積累豐富經(jīng)驗(yàn)奠定良好的基礎(chǔ),幫助您開辟職業(yè)發(fā)展的新天地。
2、SAS認(rèn)證的有效期
目前SAS五級(jí)認(rèn)證沒有特定有效期,但是時(shí)間太久或版本太老的認(rèn)證證書會(huì)有所貶值。
3、五級(jí)認(rèn)證的關(guān)系
五級(jí)認(rèn)證為遞進(jìn)式關(guān)系,即只有通過(guò)上一級(jí)考試科目才能參加下一級(jí)認(rèn)證考試。
4、SAS全球認(rèn)證的考試方式
考試為上機(jī)考試,時(shí)間2個(gè)小時(shí),共70道客觀題。
相關(guān)鏈接
隨著中國(guó)物流行業(yè)的整體快速發(fā)展,物流信息化建設(shè)也取得一定進(jìn)展。無(wú)論在IT硬件市場(chǎng)、軟件市場(chǎng)還是信息服務(wù)市場(chǎng),物流行業(yè)都具有了一定的投資規(guī)模,近兩年的總投資額均在20-30億元之間。 *** 對(duì)現(xiàn)代物流業(yè)發(fā)展的積極支持、物流市場(chǎng)競(jìng)爭(zhēng)的加劇等因素有力地促進(jìn)了物流信息化建設(shè)的穩(wěn)步發(fā)展。
易觀國(guó)際最新報(bào)告《中國(guó)物流行業(yè)信息化年度綜合報(bào)告2006》中指出,中國(guó)物流業(yè)正在從傳統(tǒng)模式向現(xiàn)代模式實(shí)現(xiàn)整體轉(zhuǎn)變,現(xiàn)代物流模式將引導(dǎo)物流業(yè)信息化需求,而產(chǎn)生這種轉(zhuǎn)變的基本動(dòng)力來(lái)自市場(chǎng)需求。報(bào)告中的數(shù)據(jù)顯示:2006-2010年,傳統(tǒng)物流企業(yè)IT投入規(guī)模將累計(jì)超過(guò)100億元人民幣。2006-2010年,第三方物流企業(yè)IT投入規(guī)模將累計(jì)超過(guò)20億元人民幣。
由于目前行業(yè)應(yīng)用軟件系統(tǒng)在作業(yè)層面對(duì)終端設(shè)備的硬件提出的應(yīng)用要求較高,而軟件與硬件的集成性普遍不理想,對(duì)應(yīng)性單一,因此企業(yè)將對(duì)軟件硬件設(shè)備的集成提出更高要求。
物流行業(yè)軟件系統(tǒng)研發(fā)將更多的考慮運(yùn)籌學(xué)與數(shù)據(jù)挖掘技術(shù),專業(yè)的服務(wù)商將更有利于幫助解決研發(fā)問(wèn)題。
物流科學(xué)的理論基礎(chǔ)來(lái)源于運(yùn)籌學(xué),并且非常強(qiáng)調(diào)在繁雜的數(shù)據(jù)處理中找到關(guān)聯(lián)關(guān)系(基于成本-服務(wù)水平體系),因此數(shù)據(jù)挖掘技術(shù)對(duì)于相關(guān)的軟件系統(tǒng)顯得更為重。
Ⅲ 數(shù)據(jù)挖掘統(tǒng)計(jì)的課程內(nèi)容是什么
哥們,我是做數(shù)據(jù)挖掘的研狗,了解一些生物科技方面大數(shù)據(jù)的應(yīng)用。
首先聽回過(guò)的所有的數(shù)據(jù)答挖掘的報(bào)告中,有具體成果的全都是國(guó)外的機(jī)構(gòu),可能是我聽的少,國(guó)內(nèi)的生物科技數(shù)據(jù)挖掘都是講理論。這東西講理論有個(gè)毛用。
如果有資本的話(年齡、家庭支持),還是找個(gè)好學(xué)校讀研,本身生物科技+數(shù)據(jù)挖掘就比較高端。
數(shù)據(jù)挖掘和數(shù)據(jù)統(tǒng)計(jì)不是一樣的。。。。
簡(jiǎn)單的拿工資講,北京碩士畢業(yè)進(jìn)數(shù)據(jù)分析崗位,8k一月,如果進(jìn)的是數(shù)據(jù)挖掘團(tuán)隊(duì),大概能有20w~30w
每年。
Ⅳ 數(shù)據(jù)分析有哪些相關(guān)的培訓(xùn)課程
據(jù)分析師的課程包括兩個(gè)層面的內(nèi)容,只有把數(shù)據(jù)分析師的這些課程都學(xué)會(huì)并且運(yùn)用,你就可以成為一名頂級(jí)的大數(shù)據(jù)分析師。
一、課程層面
第一級(jí)別:數(shù)據(jù)分析課程內(nèi)容主要是從理論-實(shí)操-案例應(yīng)用步步進(jìn)階,能讓學(xué)員充分掌握概率論和統(tǒng)計(jì)理論基礎(chǔ),能夠熟練運(yùn)用Excel、SPSS、SAS等一門專業(yè)分析軟件,有良好的商業(yè)理解能力,能夠根據(jù)業(yè)務(wù)問(wèn)題指標(biāo)利用常用數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)的處理與分析,并得出邏輯清晰的業(yè)務(wù)報(bào)告。
第二級(jí)別:在第一級(jí)別的基礎(chǔ)上,第二級(jí)別包括建模分析師與大數(shù)據(jù)分析師,即為企業(yè)決策提供及時(shí)有效、易實(shí)現(xiàn)、可信賴的數(shù)據(jù)支持。建模分析師,指在ZF、金融、電信、零售、互聯(lián)網(wǎng)、電商、醫(yī)學(xué)等行業(yè)專門從事數(shù)據(jù)分析與數(shù)據(jù)挖掘的人員。本課程針對(duì)數(shù)據(jù)挖掘整套流程,以金融、電信、電商和零售業(yè)為案例背景深入講授數(shù)據(jù)挖掘的主要算法。并將SAS Enterprise Miner、SPSS Moderler、SAS編程和SQL進(jìn)行有效的結(jié)合,讓學(xué)員勝任全方位的數(shù)據(jù)挖掘運(yùn)用場(chǎng)景。大數(shù)據(jù)分析師,本課程以大數(shù)據(jù)分析為目標(biāo),從數(shù)據(jù)分析基礎(chǔ)、JAVA語(yǔ)言入門和linux操作系統(tǒng)入門知識(shí)學(xué)起,系統(tǒng)介紹Hadoop、HDFS、MapRece和Hbase等理論知識(shí)和hadoop的生態(tài)環(huán)境,詳細(xì)演示hadoop三種模式的安裝配置,以案例的形式,重點(diǎn)講解基于mahout項(xiàng)目的大數(shù)據(jù)分析之聚類、分類以及主題推薦。通過(guò)演示實(shí)際的大數(shù)據(jù)分析案例,使學(xué)員能在較短的時(shí)間內(nèi)理解大數(shù)據(jù)分析的真實(shí)價(jià)值,掌握如何使用hadoop架構(gòu)應(yīng)用于大數(shù)據(jù)分析過(guò)程,使學(xué)員能有一個(gè)快速提升成為兼有理論和實(shí)戰(zhàn)的大數(shù)據(jù)分析師,從而更好地適應(yīng)當(dāng)前互聯(lián)網(wǎng)經(jīng)濟(jì)背景下對(duì)大數(shù)據(jù)分析師需求的旺盛的就業(yè)形勢(shì)。
二、數(shù)據(jù)分析師的知識(shí)結(jié)構(gòu)
Ⅳ 大數(shù)據(jù)挖掘?qū)W習(xí)課程一般學(xué)習(xí)多長(zhǎng)時(shí)間
在北京學(xué)過(guò),5個(gè)月。魔據(jù)據(jù)說(shuō)條件不錯(cuò),但是還是要試聽考察的。不管是否有基礎(chǔ)學(xué)習(xí)都是沒有問(wèn)題的,主要看的是自身學(xué)習(xí)是不是用心,夠不夠努力,也可以去實(shí)際了解一下。
Ⅵ SAS數(shù)據(jù)挖掘的課程內(nèi)容是什么
數(shù)據(jù)挖掘課程包括:
sas/data miner模塊,包括sas/data
miner模塊的常用工具,對(duì)商業(yè)問(wèn)題的界定、導(dǎo)入數(shù)據(jù)、內(nèi)數(shù)據(jù)探視、變量轉(zhuǎn)換、數(shù)據(jù)集設(shè)置容、缺失值處理、各種預(yù)測(cè)、描述類分析算法、模型評(píng)估、顯示得分結(jié)果等。通過(guò)培訓(xùn)使學(xué)員掌握使用sas的data
miner(數(shù)據(jù)挖掘)模塊,能夠利用sas/data miner對(duì)一些常見的商業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,挖掘出商業(yè)價(jià)值。
來(lái)源。商業(yè)智能和數(shù)據(jù)倉(cāng)庫(kù)愛好者
提供,,,,商業(yè)智能和云計(jì)算,。、,,陪訓(xùn),。,。包含SAS數(shù)據(jù)挖掘課程
Ⅶ 數(shù)據(jù)分析數(shù)據(jù)挖掘培訓(xùn)課程哪個(gè)好
你好,多比較多分析,要多聽一聽大家的口述意見。
Ⅷ 大數(shù)據(jù)挖掘?qū)W習(xí)課程需要多久
去年學(xué)的學(xué)了5個(gè)月,魔據(jù)條件不錯(cuò),我自己認(rèn)為五十人左右還是可以接受的,但是還是自身要足夠努力才行,像有些機(jī)構(gòu)一百人以上,那就有點(diǎn)接受不了了,感覺老師也顧忌不過(guò)來(lái)不要去,可以去實(shí)際考察一下。
Ⅸ 大數(shù)據(jù)專業(yè)主要學(xué)什么課程
大數(shù)據(jù)技術(shù)專業(yè)屬于交叉學(xué)科:以統(tǒng)計(jì)學(xué)、數(shù)學(xué)、計(jì)算機(jī)為三大支撐性學(xué)科;生物、醫(yī)學(xué)、環(huán)境科學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)、管理學(xué)為應(yīng)用拓展性學(xué)科。
此外還需學(xué)習(xí)數(shù)據(jù)采集、分析、處理軟件,學(xué)習(xí)數(shù)學(xué)建模軟件及計(jì)算機(jī)編程語(yǔ)言等,知識(shí)結(jié)構(gòu)是二專多能復(fù)合的跨界人才(有專業(yè)知識(shí)、有數(shù)據(jù)思維)。
以中國(guó)人民大學(xué)為例:
基礎(chǔ)課程:數(shù)學(xué)分析、高等代數(shù)、普通物理數(shù)學(xué)與信息科學(xué)概論、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)科學(xué)導(dǎo)論、程序設(shè)計(jì)導(dǎo)論、程序設(shè)計(jì)實(shí)踐。
必修課:離散數(shù)學(xué)、概率與統(tǒng)計(jì)、算法分析與設(shè)計(jì)、數(shù)據(jù)計(jì)算智能、數(shù)據(jù)庫(kù)系統(tǒng)概論、計(jì)算機(jī)系統(tǒng)基礎(chǔ)、并行體系結(jié)構(gòu)與編程、非結(jié)構(gòu)化大數(shù)據(jù)分析。
選修課:數(shù)據(jù)科學(xué)算法導(dǎo)論、數(shù)據(jù)科學(xué)專題、數(shù)據(jù)科學(xué)實(shí)踐、互聯(lián)網(wǎng)實(shí)用開發(fā)技術(shù)、抽樣技術(shù)、統(tǒng)計(jì)學(xué)習(xí)、回歸分析、隨機(jī)過(guò)程。
(9)數(shù)據(jù)挖掘相關(guān)課程擴(kuò)展閱讀:
大數(shù)據(jù)崗位:
1、大數(shù)據(jù)系統(tǒng)架構(gòu)師
大數(shù)據(jù)平臺(tái)搭建、系統(tǒng)設(shè)計(jì)、基礎(chǔ)設(shè)施。
技能:計(jì)算機(jī)體系結(jié)構(gòu)、網(wǎng)絡(luò)架構(gòu)、編程范式、文件系統(tǒng)、分布并行處理等。
2、大數(shù)據(jù)系統(tǒng)分析師
面向?qū)嶋H行業(yè)領(lǐng)域,利用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)安全生命周期管理、分析和應(yīng)用。
技能:人工智能、機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)、矩陣計(jì)算、優(yōu)化方法。
3、hadoop開發(fā)工程師。
解決大數(shù)據(jù)存儲(chǔ)問(wèn)題。
4、數(shù)據(jù)分析師
不同行業(yè)中,專門從事行業(yè)數(shù)據(jù)搜集、整理、分析,并依據(jù)數(shù)據(jù)做出行業(yè)研究、評(píng)估和預(yù)測(cè)的專業(yè)人員。在工作中通過(guò)運(yùn)用工具,提取、分析、呈現(xiàn)數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的商業(yè)意義。
5、數(shù)據(jù)挖掘工程師
做數(shù)據(jù)挖掘要從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,這就需要一定的數(shù)學(xué)知識(shí),最基本的比如線性代數(shù)、高等代數(shù)、凸優(yōu)化、概率論等。經(jīng)常會(huì)用到的語(yǔ)言包括Python、Java、C或者C++,我自己用Python或者Java比較多。有時(shí)用MapRece寫程序,再用Hadoop或者Hyp來(lái)處理數(shù)據(jù),如果用Python的話會(huì)和Spark相結(jié)合。
Ⅹ 攻讀數(shù)據(jù)挖掘方向的研究生需要本科學(xué)習(xí)過(guò)哪些課程
就學(xué)基礎(chǔ)的計(jì)算機(jī)課程即可,因?yàn)檠芯可臅r(shí)候還會(huì)開設(shè)一些有關(guān)數(shù)據(jù)挖掘的課程。
三、游戲開發(fā)中會(huì)用到哪些常用AI算法
游戲開發(fā)指利用計(jì)算機(jī)編程語(yǔ)言,如C編程語(yǔ)言、C++、java等,編寫計(jì)算機(jī)、手機(jī)或游戲機(jī)上的游戲。 目前流行的游戲開發(fā)語(yǔ)言為C++編程語(yǔ)言,目前流行的游戲開發(fā)接口為DirectX9.0,還有OpenGL、SDL(Simple DirectMedia Layer)等?,F(xiàn)在手機(jī)上玩的游戲分為Android與IOS兩種不同平臺(tái),分別是用eclipse/MyEclipse和xcode。現(xiàn)在也流行一些跨平臺(tái)的編程引擎,例如cocos2d-x、unity 3D等。
接下來(lái),再看看游戲開發(fā)的課程,游戲開發(fā)的課程除了理論知識(shí)還包括軟件的操作。
C++程序基礎(chǔ):通過(guò)學(xué)習(xí)C++語(yǔ)言,奠定編程基礎(chǔ)。使用VS.net2005編譯工具,高效構(gòu)建代碼。
算法與數(shù)據(jù)結(jié)構(gòu):通過(guò)學(xué)習(xí)算法與數(shù)據(jù)結(jié)構(gòu)的基本概念,了解常用的數(shù)據(jù)結(jié)構(gòu)及相關(guān)的抽象數(shù)據(jù)定義,認(rèn)識(shí)計(jì)算機(jī)求解的基本思路與方法。
Win32程序入門:通過(guò)API和MFC的學(xué)習(xí),熟悉Windows環(huán)境下程序設(shè)計(jì)基本方法。通過(guò)使用DirectX繪制2D圖形。
游戲數(shù)學(xué)和智能應(yīng)用:游戲中的坐標(biāo)系,矢量、矩陣,幾何碰撞,物理模擬,人工智能與尋路算法。
2D游戲技術(shù)與應(yīng)用:2D 游戲技術(shù)概論,游戲地圖系統(tǒng),GUI 系統(tǒng),戰(zhàn)斗系統(tǒng)設(shè)計(jì),任務(wù)系統(tǒng)優(yōu)秀的聲音引擎 BASS,Cocos2D-X 引擎,Box2D 物理引擎。
游戲開發(fā)的常用軟件有C++、DirectX、Box2D、Cocos2d-x、Unity,不能說(shuō)哪款最好用,因?yàn)檫@是游戲開發(fā)過(guò)程中都要用到的軟件,必須都精通。
C++是在C語(yǔ)言的基礎(chǔ)上開發(fā)的一種通用編程語(yǔ)言,應(yīng)用廣泛。
DirectX,(Direct eXtension,簡(jiǎn)稱DX)是由微軟公司創(chuàng)建的多媒體編程接口。
Box2D是一個(gè)用于模擬2D剛體物體的C++引擎。zlib許可是一個(gè)自由軟件授權(quán)協(xié)議,但并非copyleft。
Cocos2d-x是一個(gè)開源的移動(dòng)2D游戲框架,MIT許可證下發(fā)布的。這是一個(gè)C++ Cocos2d-iPhone項(xiàng)目的版本。
Unity是由Unity Technologies開發(fā)的一個(gè)讓玩家輕松創(chuàng)建諸如三維視頻游戲、建筑可視化、實(shí)時(shí)三維動(dòng)畫等類型互動(dòng)內(nèi)容的多平臺(tái)的綜合型游戲開發(fā)工具,是一個(gè)全面整合的專業(yè)游戲引擎。
四、生活中的人工智能之搜索和推薦算法
姓名:陳心語(yǔ) 學(xué)號(hào):21009102266 書院:海棠1號(hào)書院
轉(zhuǎn)自: 人工智能在搜索中的應(yīng)用_u014033218的專欄-CSDN博客
人工智能在搜索的應(yīng)用和實(shí)踐_qq_40954115的博客-CSDN博客
【嵌牛導(dǎo)讀】日常生活中的搜索和推薦算法也與人工智能有所關(guān)聯(lián),讓我們一起來(lái)看看吧!
【嵌牛鼻子】人工智能運(yùn)用于搜索和推薦算法。
【嵌牛提問(wèn)】人工智能在搜索和推薦算法中有什么運(yùn)用呢?
【嵌牛正文】
智能交互
智能交互有三個(gè)方面的這部分組成,第一個(gè)就是Query推薦,這是比較古老的課題;第二個(gè)做智能導(dǎo)購(gòu),這是現(xiàn)在正在做的一個(gè)原形,后面我會(huì)講為什么做智能導(dǎo)購(gòu);第三個(gè)內(nèi)容的展示和個(gè)性化的創(chuàng)意。就是說(shuō)你把商品怎么展示給用戶,也是我們認(rèn)為是交互的一部分。
第一個(gè)是Query推薦,這個(gè)問(wèn)題怎么來(lái)抽象呢?Query推薦是一個(gè)用戶當(dāng)前Query下面我們?cè)趺赐扑]其它Query,這是我們相關(guān)搜索一樣的。我們推薦這樣的一個(gè)Query以后,如果用戶一旦點(diǎn)了其中的一個(gè)Query,用戶的狀態(tài)就會(huì)發(fā)生變化,從當(dāng)前的Query跳到另外一個(gè)Query,這是用戶狀態(tài)的變化。第二個(gè)就是說(shuō)我們?cè)趺丛u(píng)價(jià)我們推薦的Query的好壞,它由幾部分組成,一個(gè)Query有沒有被點(diǎn),第二個(gè)就是說(shuō)推薦Query里面,它的SRP頁(yè)會(huì)不會(huì)點(diǎn),因?yàn)镼uery推薦本質(zhì)上不是Query推薦做的最好就是最好的,它是說(shuō)最終要在搜索SRP用戶有沒有買,有沒有點(diǎn)擊,這才是做的好的,這是第二個(gè)收益。還有一個(gè)更加間接的,通過(guò)Query推,這個(gè)狀態(tài)轉(zhuǎn)到下一個(gè)狀態(tài)以后,這個(gè)里面還會(huì)推其它Query,還會(huì)有其它點(diǎn)擊,這個(gè)時(shí)候也是個(gè)間接推薦。如果我不推Query就不能到這個(gè)狀態(tài),不到狀態(tài)不會(huì)有這個(gè)Query,不會(huì)有這個(gè)收益。我們了解,這就是典型的一個(gè)馬爾科夫決策過(guò)程,我們是用強(qiáng)化學(xué)習(xí)來(lái)做的,Actions就是我們的Query list,根據(jù)用戶和當(dāng)前Query推薦其他Query,狀態(tài)就是User + Query,收益就是包括推薦Query擊,還有一個(gè)間接收益,間接收益通過(guò)bellman 公式可以算出來(lái),這就是一個(gè)DQN的強(qiáng)化學(xué)習(xí)項(xiàng)目。
智能導(dǎo)購(gòu)
現(xiàn)在的搜索呈現(xiàn)的問(wèn)題就是說(shuō),如果去看搜索的Query都是一些品類詞、品牌詞、型號(hào)詞或者屬性詞。假定用戶他知道買什么再來(lái)搜索搜,但是有各很大的東西用戶不知道買什么嗎?智能導(dǎo)購(gòu)就是做做一個(gè)類似智能導(dǎo)購(gòu)機(jī)器人的產(chǎn)品,引導(dǎo)用戶怎么搜,用戶也可以主動(dòng)問(wèn),獲取知識(shí)或購(gòu)物經(jīng)驗(yàn)。這是后臺(tái)的算法的一個(gè)原形,不久后會(huì)上線。
智能內(nèi)容
因?yàn)樘詫毜纳唐罚u家為了適應(yīng)我們的引擎,做了大量的SEO,里面都是羅列熱門的關(guān)健詞,導(dǎo)致問(wèn)題淘寶的標(biāo)題沒什么差異,都寫的差不多,看標(biāo)題也不知道什么東西,或者知道但里面沒有很多特色的內(nèi)容。我們做智能內(nèi)容很重要的出發(fā)點(diǎn)是怎么從商品的評(píng)價(jià)、詳情頁(yè)、屬性里面挖出一些比較有賣點(diǎn),或者商品比較有特色的東西展示給用戶,讓用戶更好的了解商品,這是第一個(gè)。第二個(gè)淘寶上面還有類似商品聚合的,比如清單,生成一個(gè)清單,怎么給清單生成一個(gè)比較好的導(dǎo)入的描述,讓用戶描述這個(gè)清單干什么。這里面主要做了這兩個(gè)事情。具體怎么做的?一個(gè)會(huì)生成一些Topic,比如行業(yè)運(yùn)營(yíng)加上我們挖的一些點(diǎn),比如像手機(jī)一般大家關(guān)注點(diǎn)會(huì)是手機(jī)的性價(jià)比,拍照是不是清晰,還有速度是不是快,是不是發(fā)熱什么的,這是用戶關(guān)注的興趣點(diǎn)。然后它會(huì)根據(jù)這個(gè)商品會(huì)選擇一個(gè)興趣點(diǎn),通過(guò)Seq2seq生成短文本。
語(yǔ)義搜索
我們的商品屬性基本上是比較標(biāo)準(zhǔn)化的,因?yàn)檫@里淘寶有一個(gè)這樣的商品庫(kù),非標(biāo)準(zhǔn)化的內(nèi)容是沒法上傳的。導(dǎo)致的問(wèn)題是我們的商品內(nèi)容相對(duì)來(lái)說(shuō)是比較規(guī)范化的,但是用戶的輸入的Query不是這樣的,比如我這里舉一些例子,比如一個(gè)新品有各種表達(dá),2017新品,2017冬季新品,是吧?新品,有很多的表達(dá)。所以就是從從用戶的需求跟商品的內(nèi)容,就存在了一個(gè)語(yǔ)義的Gap。還有我們經(jīng)常舉例,比如三口之家用的電飯鍋,很多這種語(yǔ)義的問(wèn)題,這個(gè)語(yǔ)義從語(yǔ)義角度解決語(yǔ)義Match的事情。
大概會(huì)有這么幾個(gè)方面。比如一個(gè)就是意圖的理解,還有意圖的Mapping,比如大容量冰箱,首先知道大的是跟冰箱的容量相關(guān)的,冰箱是個(gè)類目,最后要Mapping到人的冰箱,把‘大’改寫成一個(gè)容量大于多少升,類目是冰箱這樣才能夠比較好的解決我們這個(gè)搜索的這個(gè)召回的問(wèn)題。 第二個(gè)語(yǔ)義理解,這里面包括Query和商品都要做語(yǔ)義理解,比如通過(guò)image tagging計(jì)算從圖片里面抽取很多文本的語(yǔ)義標(biāo)簽補(bǔ)充到商品文本索引中。 第三個(gè)就是現(xiàn)在有這個(gè)端到端的深度學(xué)習(xí)技術(shù)來(lái)直接學(xué)Query和商品的Similarity,通過(guò)端到端的深度學(xué)習(xí)技術(shù)來(lái)做語(yǔ)義的召回和語(yǔ)義的相關(guān)性。
智能匹配
主要就是講個(gè)性化,做個(gè)性化的首要就是個(gè)性化數(shù)據(jù)。個(gè)性化本質(zhì)上就是說(shuō)以用戶為中心構(gòu)建用戶的標(biāo)簽,用戶的行為,還有用戶的偏好,再通過(guò)這些數(shù)據(jù)找到,去Match到商品,比如說(shuō)你看過(guò)相似商品,典型的協(xié)同過(guò)濾,還有你偏好的品牌的其它商品。那就是基于這些經(jīng)歷了一個(gè)以用戶為中心的電商圖譜,這里面還加了一些輔助的數(shù)據(jù),比如商品的相似度,店鋪之間的相似度,這樣構(gòu)建了我們這樣的叫電商圖譜。
個(gè)性化召回與向量化召回
召回是這樣的,首先從咱們的電商圖譜里取出用戶的信息,包括比如說(shuō)年齡性別,還有當(dāng)?shù)販囟仁嵌嗌?,還有行為足跡等等之類的,社交現(xiàn)在沒用了,因?yàn)檫@是幾年前社交特別火,什么都要摻和一下,其實(shí)社交,信息的社交到電商其實(shí)風(fēng)馬牛不相及的領(lǐng)域,沒有任何價(jià)值。所以現(xiàn)在好友這東西幾乎沒有用。因?yàn)椴煌琎uery中,用戶信息重要性是不一樣的,我們根據(jù)上下文會(huì)做用戶信息的篩選或者排序,會(huì)找出比較重要的信息做個(gè)性化召回。以上是淘寶商品索引結(jié)構(gòu),傳統(tǒng)的搜索關(guān)鍵字是通過(guò)搜索關(guān)鍵字召回,而個(gè)性化商品索引,除了Query還會(huì)有商品簇,簇與簇之間的關(guān)系,品牌店鋪等等之類的,會(huì)加很多個(gè)性化的特征做召回,通過(guò)這種帶的好處是召回的結(jié)果跟用戶是直接相關(guān)的,就召回這一步帶來(lái)個(gè)性化。
但是這種基于行為召回還是存在一個(gè)問(wèn)題的。最重要的問(wèn)題它的泛化能力會(huì)比較差。最典型的比如說(shuō)你通過(guò)協(xié)同過(guò)濾來(lái)做,如果兩個(gè)商品,沒有用戶同時(shí)看過(guò)的話,這兩個(gè)商品你認(rèn)為他們相似度是零,這個(gè)結(jié)論是錯(cuò)的,但是如果通過(guò)協(xié)同過(guò)濾就有這個(gè)問(wèn)題。我們今年實(shí)現(xiàn)了向量化召回,包括兩步:一個(gè)是Similarity learning,通過(guò)這個(gè)深度學(xué)習(xí)做端到端的Similarity learning,就會(huì)把這個(gè)我們的User 和Item會(huì)變成一個(gè)向量;第二步就是做向量化召回,比如層次聚類,隨機(jī)游走,learning to hash等,這樣的話就是說(shuō)會(huì)極大的提升召回的深度。
個(gè)性化工作
在個(gè)性化領(lǐng)域其實(shí)最重要的一個(gè)核心的問(wèn)題就是怎么去理解用戶,怎么感知用戶和預(yù)測(cè)用戶行為及偏好。
首先是數(shù)據(jù),用戶在淘寶有兩個(gè)中類型重要的基本信息:一個(gè)是用戶標(biāo)簽,比如年齡、性別、職業(yè)等;第二是用戶足跡,比如 點(diǎn)過(guò),買過(guò)的商品,店鋪等;
其次是用戶感知要和搜索上下文相關(guān),即這個(gè)用戶的表征和要用戶搜索意圖相關(guān);
第三是搜索有很多差異化的任務(wù),比如用戶消費(fèi)能力的預(yù)估, User到Item的CTR預(yù)估和用戶購(gòu)物狀態(tài)預(yù)估等,是為每個(gè)任務(wù)做個(gè)端到端的深度學(xué)習(xí)模型還是用統(tǒng)一的用戶表征來(lái)完成不同的Task?如果每一個(gè)任務(wù)都做端到端深度學(xué)習(xí)會(huì)有很多問(wèn)題,比如離線和在線的性能開銷會(huì)大很多,或部分任務(wù)樣本太少。
如圖是用戶感知深度模型,輸入X是用戶的點(diǎn)擊行為序列,下一步是embedding,embedding完以后,通過(guò)LSTM把用戶行為序列做embedding,因?yàn)樵谒阉饔脩舾兄蚎uery相關(guān),所以加入query 的 attention層,選擇和當(dāng)前query有關(guān)系的行為,表征完是Multi-task learning 網(wǎng)絡(luò)。整個(gè)這個(gè)網(wǎng)絡(luò)的參數(shù)大概有一百億個(gè)參數(shù),我在雙11我們還實(shí)現(xiàn)了在線學(xué)習(xí)。
算法包括智能交互、語(yǔ)義搜索、智能匹配和搜索策略四個(gè)方向。
智能交互
商品搜索就是帶交互的商品推薦,用戶通過(guò)關(guān)鍵字輸入搜索意圖,引擎返回和搜索意圖匹配的個(gè)性化推薦結(jié)果,好的交互技術(shù)能夠幫助到用戶更好的使用搜索引擎,目前搜索的交互主要是主動(dòng)關(guān)鍵字輸入和關(guān)鍵字推薦,比如搜索框中的默認(rèn)查詢?cè)~和搜索結(jié)果中的文字鏈等,推薦引擎根據(jù)用戶搜索歷史、上下文、行為和狀態(tài)推薦關(guān)鍵字。和商品推薦的區(qū)別是,關(guān)鍵字推薦是搜索鏈路的中間環(huán)節(jié),關(guān)鍵字推薦的收益除了關(guān)鍵字的點(diǎn)擊行為外,還需要考慮對(duì)整個(gè)購(gòu)物鏈路的影響,包括在推薦關(guān)鍵字的后續(xù)行為中是否有商品點(diǎn)擊、加購(gòu)和成交或跳轉(zhuǎn)到另外一個(gè)關(guān)鍵字的后繼行為,這是一個(gè)典型的強(qiáng)化學(xué)習(xí)問(wèn)題,action 是推薦的關(guān)鍵字候選集合,狀態(tài)是用戶當(dāng)前搜索關(guān)鍵詞、上下文等,收益是搜索引導(dǎo)的成交。除了被動(dòng)的關(guān)鍵字推薦,我們也在思考搜索中更加主動(dòng)的交互方式,能夠做到像導(dǎo)購(gòu)員一樣的雙向互動(dòng),主動(dòng)詢問(wèn)用戶需求,挑選個(gè)性化的商品和給出個(gè)性化的推薦理由,目前我們已經(jīng)在做智能導(dǎo)購(gòu)和智能內(nèi)容方向的技術(shù)原型及論證,智能導(dǎo)購(gòu)在技術(shù)上主要是借鑒對(duì)話系統(tǒng),通過(guò)引導(dǎo)用戶和引擎對(duì)話與關(guān)鍵字推薦方式互為補(bǔ)充,包括自然語(yǔ)言理解,對(duì)話策略,對(duì)話生成,知識(shí)推理、知識(shí)問(wèn)答和商品搜索等模塊,功能主要包括:a. 根據(jù)用戶搜索上下文生成引導(dǎo)用戶主動(dòng)交互的文本,比如搜索“奶粉”時(shí),會(huì)生成“您寶寶多大?0~6個(gè)月,6個(gè)月到1歲….”引導(dǎo)文案,提示用戶細(xì)化搜索意圖,如果用戶輸入“3個(gè)月”后,會(huì)召回相應(yīng)段位的奶粉,并在后續(xù)的搜索中會(huì)記住對(duì)話狀態(tài)“3個(gè)月”寶寶和提示用戶“以下是適合3個(gè)月寶寶的奶粉”,b. 知識(shí)導(dǎo)購(gòu),包含提高售前知識(shí)問(wèn)答或知識(shí)提示,比如“3個(gè)月寶寶吃什么奶粉” 回答“1段”,目前對(duì)話技術(shù)還不太成熟,尤其是在多輪對(duì)話狀態(tài)跟蹤、知識(shí)問(wèn)答和自動(dòng)評(píng)價(jià)幾個(gè)方面,但隨著深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和生成對(duì)抗學(xué)習(xí)等技術(shù)在NLP、對(duì)話策略、閱讀理解等領(lǐng)域的應(yīng)用,越來(lái)越多的訓(xùn)練數(shù)據(jù)和應(yīng)用場(chǎng)景,domain specific 的對(duì)話技術(shù)未來(lái)幾年應(yīng)該會(huì)突飛猛進(jìn);智能內(nèi)容生成,包括生成或輔助人工生成商品和清單的“賣點(diǎn)”,短標(biāo)題和文本摘要等,讓淘寶商品表達(dá)更加個(gè)性化和多元化。
語(yǔ)義搜索
語(yǔ)義搜索主要是解決關(guān)鍵字和商品內(nèi)容之間的語(yǔ)義鴻溝,比如搜索“2~3周歲寶寶外套”,如果按照關(guān)鍵字匹配召回結(jié)果會(huì)遠(yuǎn)小于實(shí)際語(yǔ)義匹配的商品。語(yǔ)義搜索的范圍主要包括:a. query tagging和改寫,比如新品,年齡,尺碼,店鋪名,屬性,類目等搜索意圖識(shí)別和歸一化,query tagging模型是用的經(jīng)典的序列標(biāo)注模型 bi-lstm + CRF,而標(biāo)簽分類(歸一化) 作為模型另外一個(gè)任務(wù),將序列標(biāo)注和分類融合在一起學(xué)習(xí);b. query 改寫,主要是計(jì)算query之間相似度,把一個(gè)query改寫成多個(gè)語(yǔ)義相似的query,通常做法是先用不同改寫策略生成改寫候選query集合,比如詞替換、向量化后top k、點(diǎn)擊商品相似度等,然后在用ltr對(duì)后續(xù)集合排序找出合適的改寫集合,模型設(shè)計(jì)和訓(xùn)練相對(duì)簡(jiǎn)單,比較難的是如何構(gòu)建高質(zhì)量的訓(xùn)練樣本集合,線上我們用bandit 的方法探測(cè)部分query 改寫結(jié)果的優(yōu)劣,離線則用規(guī)則和生成對(duì)抗網(wǎng)絡(luò)生成一批質(zhì)量較高的樣本; c. 商品內(nèi)容理解和語(yǔ)義標(biāo)簽,通過(guò)商品圖片,詳情頁(yè),評(píng)價(jià)和同義詞,上下位詞等給商品打標(biāo)簽或擴(kuò)充商品索引內(nèi)容,比如用 image tagging技術(shù)生成圖片的文本標(biāo)簽豐富商品內(nèi)容,或者更進(jìn)一步用直接用圖片向量和文本向量融合,實(shí)現(xiàn)富媒體的檢索和查詢;d. 語(yǔ)義匹配,經(jīng)典的DSSM 模型技術(shù)把query 和商品變成向量,用向量?jī)?nèi)積表達(dá)語(yǔ)義相似度,在問(wèn)答或閱讀理解中大量用到多層LSTM + attention 做語(yǔ)義匹配,同樣高質(zhì)量樣本,特別是高質(zhì)量負(fù)樣本很大程度上決定了模型的質(zhì)量,我們沒有采樣效率很低的隨機(jī)負(fù)采樣,而是基于電商知識(shí)圖譜,通過(guò)生成字面相似但不相關(guān)的query及相關(guān)文檔的方法生成負(fù)樣本。從上面可以看到query tagging、query相似度、語(yǔ)義匹配和語(yǔ)義相關(guān)性是多個(gè)目標(biāo)不同但關(guān)聯(lián)程度非常高的任務(wù),下一步我們計(jì)劃用統(tǒng)一的語(yǔ)義計(jì)算框架支持不同的語(yǔ)義計(jì)算任務(wù),具體包括1. 開發(fā)基于商品內(nèi)容的商品表征學(xué)習(xí)框架,為商品內(nèi)容理解,內(nèi)容生成,商品召回和相關(guān)性提供統(tǒng)一的商品表征學(xué)習(xí)框架,重點(diǎn)包括商品標(biāo)題,屬性,詳情頁(yè)和評(píng)價(jià)等文本信息抽取,圖像特征抽取和多模信號(hào)融合;2. query 表征學(xué)習(xí)框架,為query 類目預(yù)測(cè),query改寫,query 推薦等提供統(tǒng)一的表征學(xué)習(xí)框架,重點(diǎn)通過(guò)多個(gè)query 相似任務(wù)訓(xùn)練統(tǒng)一的query表征學(xué)習(xí)模型;3. 語(yǔ)義召回,語(yǔ)義相關(guān)性等業(yè)務(wù)應(yīng)用模型框架。語(yǔ)義搜索除了增加搜索結(jié)果相關(guān)性,提升用戶體驗(yàn)外,也可以一定程度上遏制淘寶商品標(biāo)題堆砌熱門關(guān)鍵詞的問(wèn)題。
智能匹配
這里主要是指?jìng)€(gè)性化和排序。內(nèi)容包括:a. ibrain (深度用戶感知網(wǎng)絡(luò)),搜索或推薦中個(gè)性化的重點(diǎn)是用戶的理解與表達(dá),基于淘寶的用戶畫像靜態(tài)特征和用戶行為動(dòng)態(tài)特征,我們基于multi-modals learning、multi-task representation learning以及LSTM的相關(guān)技術(shù),從海量用戶行為日志中直接學(xué)習(xí)用戶的通用表達(dá),該學(xué)習(xí)方法善于“總結(jié)經(jīng)驗(yàn)”、“觸類旁通”,使得到的用戶表達(dá)更基礎(chǔ)且更全面,能夠直接用于用戶行為識(shí)別、偏好預(yù)估、個(gè)性化召回、個(gè)性化排序等任務(wù),在搜索、推薦和廣告等個(gè)性化業(yè)務(wù)中有廣泛的應(yīng)用場(chǎng)景,感知網(wǎng)絡(luò)超過(guò)10B個(gè)參數(shù),已經(jīng)學(xué)習(xí)了幾千億次的用戶行為,并且會(huì)保持不間斷的增量學(xué)習(xí)越來(lái)越聰明; b. 多模學(xué)習(xí),淘寶商品有文本、圖像、標(biāo)簽、id 、品牌、類目、店鋪及統(tǒng)計(jì)特征,這些特征彼此有一定程度的冗余和互補(bǔ),我們利用多模學(xué)習(xí)通過(guò)多模聯(lián)合學(xué)習(xí)方法把多維度特征融合在一起形成統(tǒng)一的商品標(biāo)準(zhǔn),并多模聯(lián)合學(xué)習(xí)中引入self-attention實(shí)現(xiàn)特征維度在不同場(chǎng)景下的差異,比如女裝下圖片特征比較重要,3C下文本比較重要等;c. deepfm,相對(duì)wide & deep 模型,deepfm 增加了特征組合能力,基于先驗(yàn)知識(shí)的組合特征能夠應(yīng)用到深度學(xué)習(xí)模型中,提升模型預(yù)測(cè)精度;d. 在線深度排序模型,由于行為類型和商品重要性差異,每個(gè)樣本學(xué)習(xí)權(quán)重不同,通過(guò)樣本池對(duì)大權(quán)重樣本重復(fù)copy分批學(xué)習(xí),有效的提升了模型學(xué)習(xí)穩(wěn)定性,同時(shí)通過(guò)融合用戶狀態(tài)深度ltr模型實(shí)現(xiàn)了千人千面的排序模型學(xué)習(xí);e. 全局排序,ltr 只對(duì)單個(gè)文檔打分然后按照l(shuí)tr分?jǐn)?shù)和打散規(guī)則排序,容易導(dǎo)致搜索結(jié)果同質(zhì)化,影響總頁(yè)效率,全局排序通過(guò)已知排序結(jié)果做為上下文預(yù)測(cè)下一個(gè)位置的商品點(diǎn)擊概率,有效提升了總頁(yè)排序效率;f. 另外工程還實(shí)現(xiàn)了基于用戶和商品向量的向量召回引擎,相對(duì)倒排索引,向量化召回泛化能力更強(qiáng),對(duì)語(yǔ)義搜索和提高個(gè)性化匹配深度是非常有價(jià)值的。以上實(shí)現(xiàn)了搜索從召回、排序特征、排序模型、個(gè)性化和重排的深度學(xué)習(xí)升級(jí),在雙11無(wú)線商品搜索中帶來(lái)超過(guò)10% (AB-Test)的搜索指標(biāo)提升。
智能決策
搜索中個(gè)性化產(chǎn)品都是成交最大化,導(dǎo)致的問(wèn)題是搜索結(jié)果趨同,浪費(fèi)曝光,今年做的一個(gè)重要工作是利用多智能體協(xié)同學(xué)習(xí)技術(shù),實(shí)現(xiàn)了搜索多個(gè)異構(gòu)場(chǎng)景間的環(huán)境感知、場(chǎng)景通信、單獨(dú)決策和聯(lián)合學(xué)習(xí),實(shí)現(xiàn)聯(lián)合收益最大化,而不是此消彼長(zhǎng),在今年雙11中聯(lián)合優(yōu)化版本帶來(lái)的店鋪內(nèi)和無(wú)線搜索綜合指標(biāo)提升12% (AB-Test),比非聯(lián)合優(yōu)化版本高3% (AB-Test)。
性能優(yōu)化
在深度學(xué)習(xí)剛起步的時(shí)候,我們意識(shí)到深度模型inference 性能會(huì)是一個(gè)瓶頸,所以在這方面做了大量的調(diào)研和實(shí)驗(yàn),包括模型壓縮(剪枝),低秩分解,量化和二值網(wǎng)絡(luò),由于缺少相應(yīng)的指令集和硬件支持,最終只在個(gè)別場(chǎng)景下上線,期待支持低精度矩陣計(jì)算和稀疏矩陣計(jì)算的硬件早日出現(xiàn)。
未來(lái)計(jì)劃
通用用戶表征學(xué)習(xí)。前面介紹的DUPN 是一個(gè)非常不錯(cuò)的用戶表征學(xué)習(xí)模型,但基于query 的attention 只適合搜索,同時(shí)缺少基于日志來(lái)源的attention,難以推廣到其他業(yè)務(wù),在思考做一個(gè)能夠適合多個(gè)業(yè)務(wù)場(chǎng)景的用戶表征模型,非搜索業(yè)務(wù)做些簡(jiǎn)單fine tuning 就能取得比較好的效果;同時(shí)用戶購(gòu)物偏好受季節(jié)和周期等影響,時(shí)間跨度非常大,最近K個(gè)行為序列假設(shè)太簡(jiǎn)單,我們?cè)谒伎寄軌蜃鰈ife-long learning 的模型,能夠?qū)W習(xí)用戶過(guò)去幾年的行為序列;搜索鏈路聯(lián)合優(yōu)化。從用戶進(jìn)入搜索到離開搜索鏈路中的整體優(yōu)化,比如 搜索前的query 引導(dǎo)(底紋),搜索中的商品和內(nèi)容排序,搜索后的 query推薦(錦囊)等場(chǎng)景;跨場(chǎng)景聯(lián)合優(yōu)化。今年搜索內(nèi)部主搜索和店鋪內(nèi)搜索聯(lián)合優(yōu)化取得了很好的結(jié)果,未來(lái)希望能夠拓展在更多大流量場(chǎng)景,提高手淘的整體購(gòu)物體驗(yàn);多目標(biāo)聯(lián)合優(yōu)化。搜索除了成交外,還需要承擔(dān)賣家多樣性,流量公平性,流量商業(yè)化等居多平臺(tái)和賣家的訴求,搜索產(chǎn)品中除了商品搜索外還有“穹頂”,“主題搜索”,“錦囊”,“內(nèi)容搜索”等非商品搜索內(nèi)容,不同搜索目標(biāo)和不同內(nèi)容(物種)之間的聯(lián)合優(yōu)化未來(lái)很值得深挖。
以上就是關(guān)于人工智能十大經(jīng)典算法相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
人工智能機(jī)器人加盟(人工智能機(jī)器人加盟費(fèi)多少錢)
自己開設(shè)計(jì)工作室需要什么(怎么注冊(cè)個(gè)人工作室)
人工智能專業(yè)畢業(yè)后從事什么工作(人工智能專業(yè)畢業(yè)后做什么工作)
酒店廣告牌設(shè)計(jì)效果圖(廣告牌制作圖片效果圖)
景觀設(shè)計(jì)教程嗶哩(景觀設(shè)計(jì)入門教程)