HOME 首頁(yè)
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營(yíng)
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專(zhuān)注品牌策劃15年

    數(shù)據(jù)集有哪些類(lèi)型(數(shù)據(jù)集的類(lèi)型有哪幾類(lèi))

    發(fā)布時(shí)間:2023-04-19 04:55:59     稿源: 創(chuàng)意嶺    閱讀: 52        

    大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于數(shù)據(jù)集有哪些類(lèi)型的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。

    開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話(huà)答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫(xiě)出的就越詳細(xì),有微信小程序端、在線(xiàn)網(wǎng)頁(yè)版、PC客戶(hù)端

    官網(wǎng):https://ai.de1919.com

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶(hù)遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話(huà)175-8598-2043,或添加微信:1454722008

    本文目錄:

    數(shù)據(jù)集有哪些類(lèi)型(數(shù)據(jù)集的類(lèi)型有哪幾類(lèi))

    一、DataTable和DataSet有什么區(qū)別

    datatable表示數(shù)據(jù)表,dataset是數(shù)據(jù)集。

    一、數(shù)據(jù)表。

    表是用來(lái)存儲(chǔ)數(shù)據(jù)的基本對(duì)象,它是數(shù)據(jù)庫(kù)的資源中心,是數(shù)據(jù)庫(kù)最基本的組件。數(shù)據(jù)庫(kù)中的每個(gè)表都包含有關(guān)某個(gè)主題的信息。在導(dǎo)航窗格中,在表對(duì)象上雙擊就可以打開(kāi)表。

    表是由列和行組成的二維結(jié)構(gòu)的表格。一列中顯示某種類(lèi)型的信息,在這列的最上方是列標(biāo)題,描述這列的信息類(lèi)型,也叫做字段名。在標(biāo)題下面列出的這個(gè)類(lèi)型中具體內(nèi)容的數(shù)據(jù)為字段值。在同一行中的所有字段值構(gòu)成一條記錄。記錄由具體的字段值構(gòu)成,一個(gè)記錄就是一條獨(dú)立的信息。

    二、數(shù)據(jù)集。

    數(shù)據(jù)集,就是數(shù)據(jù)的查詢(xún)。

    查詢(xún)是用來(lái)操作數(shù)據(jù)庫(kù)中的記錄對(duì)象,利用它可以按照預(yù)先定義的不同條件從數(shù)據(jù)表或其它查詢(xún)中篩選出需要操作的字段,并可以把它們集中起來(lái),形成動(dòng)態(tài)數(shù)據(jù)集。用戶(hù)可以瀏覽、查詢(xún)、打印,甚至修改這個(gè)動(dòng)態(tài)數(shù)據(jù)集中的數(shù)據(jù)。

    通過(guò)查詢(xún),可以查找和檢索滿(mǎn)足指定條件的數(shù)據(jù),包括幾個(gè)表中的數(shù)據(jù),也可以使用查詢(xún)同時(shí)更新或刪除幾個(gè)記錄,以及對(duì)數(shù)據(jù)執(zhí)行預(yù)定義或自定義的計(jì)算。

    使用查詢(xún)可以回答有關(guān)數(shù)據(jù)的特定問(wèn)題,而這些問(wèn)題通過(guò)表很難解決??梢允褂貌樵?xún)篩選數(shù)據(jù)、執(zhí)行數(shù)據(jù)計(jì)算和匯總數(shù)據(jù)??梢允褂貌樵?xún)自動(dòng)執(zhí)行許多數(shù)據(jù)管理任務(wù),并在提交數(shù)據(jù)更改之前查看這些更改。

    查詢(xún)實(shí)際上也就是選取記錄的條件。查詢(xún)出來(lái)的數(shù)據(jù)也存儲(chǔ)到一個(gè)臨時(shí)的表中。用于從表中檢索數(shù)據(jù)或者進(jìn)行計(jì)算的查詢(xún)稱(chēng)為選擇查詢(xún),用于添加、更改或刪除的查詢(xún)叫做操作查詢(xún)。

    二、數(shù)據(jù)圖表有哪些類(lèi)型

    數(shù)據(jù)分析圖表主要類(lèi)型有柱狀圖,條形圖,折線(xiàn)圖,餅圖,雷達(dá)圖等等。

    柱狀圖利用柱高度反映數(shù)據(jù)差異,肉眼對(duì)高度差異很敏感,柱狀圖局限于適用規(guī)模數(shù)據(jù)集中。條形圖可以顯示各項(xiàng)目間比較情況柱狀圖類(lèi)似作用,每條都清晰表示數(shù)據(jù),很直觀。折線(xiàn)圖適合二維數(shù)據(jù)集適合二維數(shù)據(jù)集比較,容易反應(yīng)數(shù)據(jù)變化趨勢(shì)。餅圖可以顯示各項(xiàng)與各項(xiàng)總比例。

    數(shù)據(jù)圖表是一種特殊的數(shù)據(jù)分析技術(shù),側(cè)重于建模和知識(shí)發(fā)現(xiàn),用于預(yù)測(cè)目的而并非純粹的描述目的,而商業(yè)智能涵蓋了很大程度上依賴(lài)于聚合的數(shù)據(jù)分析,主要側(cè)重于商業(yè)信息。

    數(shù)據(jù)集有哪些類(lèi)型(數(shù)據(jù)集的類(lèi)型有哪幾類(lèi))

    關(guān)于數(shù)據(jù)圖表

    合理的數(shù)據(jù)圖表,會(huì)更直觀的反映數(shù)據(jù)間的關(guān)系,比用數(shù)據(jù)和文字描述更清晰、更易懂。將工作表中的數(shù)據(jù)轉(zhuǎn)換成圖表呈現(xiàn),可以幫助我們更好地了解數(shù)據(jù)間的比例關(guān)系及變化趨勢(shì),對(duì)研究對(duì)象做出合理的推斷和預(yù)測(cè)。

    數(shù)據(jù)圖表可以方便地查看數(shù)據(jù)的差異和預(yù)測(cè)趨勢(shì),使數(shù)據(jù)比較或數(shù)據(jù)變化趨勢(shì)變得一目了然,有助于快速、有效地表達(dá)數(shù)據(jù)關(guān)系。圖表是生成它的工作數(shù)據(jù)相鏈接的。

    三、如何識(shí)別并輸出數(shù)據(jù)集中所有變量的類(lèi)型

    1、打開(kāi)數(shù)據(jù)集,并給一個(gè)唯一的序號(hào)來(lái)標(biāo)識(shí)數(shù)據(jù)集。

    2、輸出給定變量在數(shù)據(jù)集中的次序。

    3、判斷數(shù)據(jù)集中給定變量的類(lèi)型。

    4、關(guān)閉數(shù)據(jù)集。

    四、基于網(wǎng)絡(luò)的入侵檢測(cè)數(shù)據(jù)集研究

    摘要:標(biāo)記數(shù)據(jù)集是訓(xùn)練和評(píng)估基于異常的網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)所必需的。本文對(duì)基于網(wǎng)絡(luò)的入侵檢測(cè)數(shù)據(jù)集進(jìn)行了重點(diǎn)的文獻(xiàn)綜述,并對(duì)基于包和流的底層網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行了詳細(xì)的描述。本文確定了15種不同的屬性來(lái)評(píng)估單個(gè)數(shù)據(jù)集對(duì)特定評(píng)估場(chǎng)景的適用性。這些屬性涵蓋了廣泛的標(biāo)準(zhǔn),并被分為五類(lèi),例如用于提供結(jié)構(gòu)化搜索的數(shù)據(jù)量或記錄環(huán)境。在此基礎(chǔ)上,對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行了全面的綜述。本綜述還強(qiáng)調(diào)了每個(gè)數(shù)據(jù)集的特性。此外,本工作還簡(jiǎn)要介紹了基于網(wǎng)絡(luò)的數(shù)據(jù)的其他來(lái)源,如流量生成器和數(shù)據(jù)存儲(chǔ)庫(kù)。最后,我們討論了我們的觀察結(jié)果,并為使用和創(chuàng)建基于網(wǎng)絡(luò)的數(shù)據(jù)集提供了一些建議。

    一、引言

    信息技術(shù)安全是一個(gè)重要的問(wèn)題,入侵和內(nèi)部威脅檢測(cè)的研究已經(jīng)投入了大量的精力。在處理與安全相關(guān)的數(shù)據(jù)[1]-[4]、檢測(cè)僵尸網(wǎng)絡(luò)[5]-[8]、端口掃描[9]-[12]、蠻力攻擊[13]-[16]等方面已經(jīng)發(fā)表了許多貢獻(xiàn)。所有這些工作的共同點(diǎn)是,它們都需要具有代表性的基于網(wǎng)絡(luò)的數(shù)據(jù)集。此外,基準(zhǔn)數(shù)據(jù)集是評(píng)價(jià)和比較不同網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)(NIDS)質(zhì)量的良好基礎(chǔ)。給定一個(gè)帶標(biāo)簽的數(shù)據(jù)集,其中每個(gè)數(shù)據(jù)點(diǎn)都被分配給類(lèi)normal或attack,可以使用檢測(cè)到的攻擊數(shù)量或虛警數(shù)量作為評(píng)估標(biāo)準(zhǔn)。

    不幸的是,沒(méi)有太多具有代表性的數(shù)據(jù)集。Sommer和Paxson[17](2010)認(rèn)為,缺乏具有代表性的公共可用數(shù)據(jù)集是基于異常的入侵檢測(cè)面臨的最大挑戰(zhàn)之一。Malowidzki等人(2015)和Haider等人(2017)也發(fā)表了類(lèi)似的聲明。然而,社區(qū)正在解決這個(gè)問(wèn)題,因?yàn)樵谶^(guò)去幾年中已經(jīng)發(fā)布了幾個(gè)入侵檢測(cè)數(shù)據(jù)集。其中,澳大利亞網(wǎng)絡(luò)安全中心發(fā)布了UNSW-NB15[20]數(shù)據(jù)集,科堡大學(xué)發(fā)布了CIDDS-001[21]數(shù)據(jù)集,新布倫瑞克大學(xué)發(fā)布了CICIDS 2017[22]數(shù)據(jù)集。未來(lái)還會(huì)有更多數(shù)據(jù)集發(fā)布。然而,現(xiàn)有數(shù)據(jù)集沒(méi)有全面的索引,很難跟蹤最新的發(fā)展。

    本文對(duì)現(xiàn)有的基于網(wǎng)絡(luò)的入侵檢測(cè)數(shù)據(jù)集進(jìn)行了文獻(xiàn)綜述。首先,對(duì)底層數(shù)據(jù)進(jìn)行更詳細(xì)的研究?;诰W(wǎng)絡(luò)的數(shù)據(jù)以基于包或基于流的格式出現(xiàn)。基于流的數(shù)據(jù)只包含關(guān)于網(wǎng)絡(luò)連接的元信息,而基于包的數(shù)據(jù)也包含有效負(fù)載。然后,對(duì)文獻(xiàn)中常用的評(píng)價(jià)網(wǎng)絡(luò)數(shù)據(jù)集質(zhì)量的不同數(shù)據(jù)集屬性進(jìn)行了分析和分組。本調(diào)查的主要貢獻(xiàn)是對(duì)基于網(wǎng)絡(luò)的數(shù)據(jù)集進(jìn)行了詳盡的文獻(xiàn)綜述,并分析了哪些數(shù)據(jù)集滿(mǎn)足哪些數(shù)據(jù)集屬性。本文重點(diǎn)研究了數(shù)據(jù)集內(nèi)的攻擊場(chǎng)景,并強(qiáng)調(diào)了數(shù)據(jù)集之間的關(guān)系。此外,除了典型的數(shù)據(jù)集之外,我們還簡(jiǎn)要介紹了流量生成器和數(shù)據(jù)存儲(chǔ)庫(kù)作為網(wǎng)絡(luò)流量的進(jìn)一步來(lái)源,并提供了一些觀察和建議。作為主要的好處,本調(diào)查建立了一組數(shù)據(jù)集屬性,作為比較可用數(shù)據(jù)集和確定合適數(shù)據(jù)集的基礎(chǔ),給出了特定的評(píng)估場(chǎng)景。此外,我們創(chuàng)建了一個(gè)網(wǎng)站1,其中引用了所有提到的數(shù)據(jù)集和數(shù)據(jù)存儲(chǔ)庫(kù),我們打算更新這個(gè)網(wǎng)站。

    本文的其余部分組織如下。下一節(jié)將討論相關(guān)工作。第三部分詳細(xì)分析了基于包和流的網(wǎng)絡(luò)數(shù)據(jù)。第四部分討論了文獻(xiàn)中常用來(lái)評(píng)價(jià)入侵檢測(cè)數(shù)據(jù)集質(zhì)量的典型數(shù)據(jù)集屬性。第五節(jié)概述了現(xiàn)有的數(shù)據(jù)集,并根據(jù)第四節(jié)確定的屬性檢查每個(gè)數(shù)據(jù)集。第六節(jié)簡(jiǎn)要介紹了基于網(wǎng)絡(luò)的數(shù)據(jù)的進(jìn)一步來(lái)源。在本文件以摘要結(jié)束之前,第七節(jié)討論了意見(jiàn)和建議。

    二、相關(guān)工作

    本節(jié)回顧基于網(wǎng)絡(luò)的入侵檢測(cè)數(shù)據(jù)集的相關(guān)工作。需要注意的是,本文沒(méi)有考慮基于主機(jī)的入侵檢測(cè)數(shù)據(jù)集,比如ADFA[23]。讀者可以在Glass-Vanderlan等人的[24]中找到關(guān)于基于主機(jī)的入侵檢測(cè)數(shù)據(jù)的詳細(xì)信息。

    Malowidzki等人[18]將缺失的數(shù)據(jù)集作為入侵檢測(cè)的一個(gè)重要問(wèn)題進(jìn)行了討論,對(duì)好的數(shù)據(jù)集提出了要求,并列出了可用的數(shù)據(jù)集。Koch等人的[25]提供了入侵檢測(cè)數(shù)據(jù)集的另一個(gè)概述,分析了13個(gè)數(shù)據(jù)源,并根據(jù)8個(gè)數(shù)據(jù)集屬性對(duì)它們進(jìn)行了評(píng)估。Nehinbe[26]為IDS和入侵防御系統(tǒng)(IPS)提供了關(guān)鍵的數(shù)據(jù)集評(píng)估。作者研究了來(lái)自不同來(lái)源的七個(gè)數(shù)據(jù)集(如DARPA數(shù)據(jù)集和DEFCON數(shù)據(jù)集),強(qiáng)調(diào)了它們的局限性,并提出了創(chuàng)建更真實(shí)數(shù)據(jù)集的方法。由于在過(guò)去的四年中發(fā)布了許多數(shù)據(jù)集,我們延續(xù)了2011年到2015年[18],[25],[26]的工作,但提供了比我們的前輩更最新和更詳細(xì)的概述。

    雖然許多數(shù)據(jù)集論文(如CIDDS-002[27]、ISCX[28]或UGR ' 16[29])只對(duì)一些入侵檢測(cè)數(shù)據(jù)集做了一個(gè)簡(jiǎn)要的概述,但Sharafaldin等人對(duì)[30]提供了更詳盡的綜述。他們的主要貢獻(xiàn)是一個(gè)生成入侵檢測(cè)數(shù)據(jù)集的新框架。Sharafaldin等人還分析了11個(gè)可用的入侵檢測(cè)數(shù)據(jù)集,并根據(jù)11個(gè)數(shù)據(jù)集屬性對(duì)其進(jìn)行了評(píng)估。與早期的數(shù)據(jù)集論文相比,我們的工作重點(diǎn)是對(duì)現(xiàn)有的基于網(wǎng)絡(luò)的數(shù)據(jù)集提供一個(gè)中立的概述,而不是提供一個(gè)額外的數(shù)據(jù)集。

    最近的其他論文也涉及到基于網(wǎng)絡(luò)的數(shù)據(jù)集,但主要關(guān)注的焦點(diǎn)有所不同。Bhuyan等人對(duì)網(wǎng)絡(luò)異常檢測(cè)進(jìn)行了全面的綜述。作者描述了現(xiàn)有的9個(gè)數(shù)據(jù)集,并分析了現(xiàn)有異常檢測(cè)方法所使用的數(shù)據(jù)集。類(lèi)似地,Nisioti等人的[32]關(guān)注于用于入侵檢測(cè)的無(wú)監(jiān)督方法,并簡(jiǎn)要參考了現(xiàn)有的12個(gè)基于網(wǎng)絡(luò)的數(shù)據(jù)集。Yavanoglu和Aydos[33]分析比較了最常用的入侵檢測(cè)數(shù)據(jù)集。然而,他們的審查只包含七個(gè)數(shù)據(jù)集,包括其他數(shù)據(jù)集,如HTTP CSIC 2010[34]??偠灾?,這些作品往往有不同的研究目標(biāo),而且只是接觸對(duì)于基于網(wǎng)絡(luò)的數(shù)據(jù)集,則略有不同。

    三、數(shù)據(jù)

    通常,網(wǎng)絡(luò)流量以基于包或基于流的格式捕獲。在包級(jí)捕獲網(wǎng)絡(luò)流量通常是通過(guò)鏡像網(wǎng)絡(luò)設(shè)備上的端口來(lái)完成的。基于包的數(shù)據(jù)包含完整的有效載荷信息。基于流的數(shù)據(jù)更加聚合,通常只包含來(lái)自網(wǎng)絡(luò)連接的元數(shù)據(jù)。Wheelus等人通過(guò)一個(gè)說(shuō)明性的比較強(qiáng)調(diào)了這一區(qū)別:“捕獲包檢查和NetFlow之間的一個(gè)很好的區(qū)別示例是徒步穿越森林,而不是乘坐熱氣球飛越森林”[35]。在這項(xiàng)工作中,引入了第三類(lèi)(其他數(shù)據(jù))。另一個(gè)類(lèi)別沒(méi)有標(biāo)準(zhǔn)格式,并且因每個(gè)數(shù)據(jù)集而異。

    A基于分組的數(shù)據(jù)

    基于包的數(shù)據(jù)通常以pcap格式捕獲,并包含有效負(fù)載。可用的元數(shù)據(jù)取決于使用的網(wǎng)絡(luò)和傳輸協(xié)議。有許多不同的協(xié)議,其中最重要的是TCP、UDP、ICMP和IP。圖1顯示出了不同的報(bào)頭。TCP是一種可靠的傳輸協(xié)議,它包含諸如序列號(hào)、確認(rèn)號(hào)、TCP標(biāo)志或校驗(yàn)和值之類(lèi)的元數(shù)據(jù)。UDP是一種無(wú)連接的傳輸協(xié)議,它的頭比TCP小,TCP只包含四個(gè)字段,即源端口、目標(biāo)端口、長(zhǎng)度和校驗(yàn)和。與TCP和UDP相比,ICMP是一個(gè)包含狀態(tài)消息的支持協(xié)議,因此更小。通常,在報(bào)頭旁邊還有一個(gè)可用的IP報(bào)頭傳輸協(xié)議的。IP報(bào)頭提供源和目標(biāo)IP地址等信息,如圖1所示。

    b .流為基礎(chǔ)數(shù)據(jù)

    基于流的網(wǎng)絡(luò)數(shù)據(jù)是一種更簡(jiǎn)潔的格式,主要包含關(guān)于網(wǎng)絡(luò)連接的元信息?;诹鞯臄?shù)據(jù)將所有在時(shí)間窗口內(nèi)共享某些屬性的包聚合到一個(gè)流中,通常不包含任何有效負(fù)載。默認(rèn)的五元組定義,即,源IP地址、源端口、目標(biāo)IP地址、目標(biāo)端口和傳輸協(xié)議[37],是一種廣泛使用的基于流的數(shù)據(jù)屬性匹配標(biāo)準(zhǔn)。流可以以單向或雙向格式出現(xiàn)。單向格式將主機(jī)A到主機(jī)B之間共享上述屬性的所有包聚合到一個(gè)流中。從主機(jī)B到主機(jī)A的所有數(shù)據(jù)包聚合為另一個(gè)單向流。相反,一個(gè)雙向流總結(jié)了主機(jī)a和主機(jī)B之間的所有數(shù)據(jù)包,不管它們的方向如何。

    典型的基于流的格式有NetFlow[38]、IPFIX[37]、sFlow[39]和OpenFlow[40]。表I概述了基于流的網(wǎng)絡(luò)流量中的典型屬性。根據(jù)特定的流格式和流導(dǎo)出器,可以提取額外的屬性,如每秒字節(jié)數(shù)、每個(gè)包的字節(jié)數(shù)、第一個(gè)包的TCP標(biāo)志,甚至有效負(fù)載的計(jì)算熵。

    此外,可以使用nfdump2或YAF3之類(lèi)的工具將基于包的數(shù)據(jù)轉(zhuǎn)換為基于流的數(shù)據(jù)(但不是相反)。讀者如果對(duì)流導(dǎo)出器之間的差異感興趣,可以在[41]中找到更多細(xì)節(jié),并分析不同的流導(dǎo)出器如何影響僵尸網(wǎng)絡(luò)分類(lèi)。

    c .其他數(shù)據(jù)

    這個(gè)類(lèi)別包括所有既不是純基于包也不是基于流的數(shù)據(jù)集。這類(lèi)的一個(gè)例子可能是基于流的數(shù)據(jù)集,這些數(shù)據(jù)集已經(jīng)用來(lái)自基于包的數(shù)據(jù)或基于主機(jī)的日志文件的附加信息進(jìn)行了豐富。KDD CUP 1999[42]數(shù)據(jù)集就是這一類(lèi)別的一個(gè)著名代表。每個(gè)數(shù)據(jù)點(diǎn)都有基于網(wǎng)絡(luò)的屬性,比如傳輸?shù)脑醋止?jié)數(shù)或TCP標(biāo)志的數(shù)量,但是也有基于主機(jī)的屬性,比如失敗登錄的數(shù)量。因此,這個(gè)類(lèi)別的每個(gè)數(shù)據(jù)集都有自己的一組屬性。由于每個(gè)數(shù)據(jù)集都必須單獨(dú)分析,所以我們不對(duì)可用屬性做任何一般性的說(shuō)明。

    四、數(shù)據(jù)集屬性

    為了能夠比較不同的入侵檢測(cè)數(shù)據(jù)集,并幫助研究人員為其特定的評(píng)估場(chǎng)景找到合適的數(shù)據(jù)集,有必要將公共屬性定義為評(píng)估基礎(chǔ)。因此,我們研究了文獻(xiàn)中用于評(píng)估入侵檢測(cè)數(shù)據(jù)集的典型數(shù)據(jù)集屬性。一般概念FAIR[43]定義了學(xué)術(shù)數(shù)據(jù)應(yīng)該遵循的四個(gè)原則實(shí)現(xiàn),即可查找性、可訪(fǎng)問(wèn)性、互操作性和可重用性。在與這個(gè)一般概念相一致的同時(shí),本工作使用更詳細(xì)的數(shù)據(jù)集屬性來(lái)提供基于網(wǎng)絡(luò)的入侵檢測(cè)數(shù)據(jù)集的重點(diǎn)比較。通常,不同的數(shù)據(jù)集強(qiáng)調(diào)不同的數(shù)據(jù)集屬性。例如,UGR ' 16數(shù)據(jù)集[29]強(qiáng)調(diào)較長(zhǎng)的記錄時(shí)間來(lái)捕捉周期效應(yīng),而ISCX數(shù)據(jù)集[28]強(qiáng)調(diào)精確的標(biāo)記。由于我們的目標(biāo)是研究基于網(wǎng)絡(luò)的入侵檢測(cè)數(shù)據(jù)集的更一般的屬性,所以我們?cè)噲D統(tǒng)一和概括文獻(xiàn)中使用的屬性,而不是采用所有的屬性。例如,一些方法評(píng)估特定類(lèi)型攻擊的存在,比如DoS(拒絕服務(wù))或?yàn)g覽器注入。某些攻擊類(lèi)型的存在可能是評(píng)估這些特定攻擊類(lèi)型的檢測(cè)方法的相關(guān)屬性,但是對(duì)于其他方法沒(méi)有意義。因此,我們使用一般的屬性攻擊來(lái)描述惡意網(wǎng)絡(luò)流量的存在(見(jiàn)表三)。第五節(jié)提供了關(guān)于數(shù)據(jù)集中不同攻擊類(lèi)型的更多細(xì)節(jié),并討論了其他特定的屬性。

    我們不像Haider et al.[19]或Sharafaldin et al.[30]那樣開(kāi)發(fā)評(píng)估評(píng)分,因?yàn)槲覀儾幌肱袛嗖煌瑪?shù)據(jù)集屬性的重要性。我們認(rèn)為,某些屬性的重要性取決于具體的評(píng)估場(chǎng)景,不應(yīng)該在調(diào)查中普遍判斷。相反,應(yīng)該讓讀者能夠找到適合他們需要的數(shù)據(jù)集。因此,我們將下面討論的數(shù)據(jù)集屬性分為五類(lèi),以支持系統(tǒng)搜索。圖2總結(jié)了所有數(shù)據(jù)集屬性及其值范圍。

    A.一般資料

    以下四個(gè)屬性反映了關(guān)于數(shù)據(jù)集的一般信息,即創(chuàng)建年份、可用性、正常網(wǎng)絡(luò)流量和惡意網(wǎng)絡(luò)流量的存在。

    1)創(chuàng)建年份:由于網(wǎng)絡(luò)流量受概念漂移影響,每天都會(huì)出現(xiàn)新的攻擊場(chǎng)景,因此入侵檢測(cè)數(shù)據(jù)集的年齡起著重要作用。此屬性描述創(chuàng)建年份。與數(shù)據(jù)集發(fā)布的年份相比,捕獲數(shù)據(jù)集的底層網(wǎng)絡(luò)流量的年份與數(shù)據(jù)集的最新程度更相關(guān)。

    2)公共可用性:入侵檢測(cè)數(shù)據(jù)集應(yīng)公開(kāi)可用,作為比較不同入侵檢測(cè)方法的依據(jù)。此外,數(shù)據(jù)集的質(zhì)量只能由第三方檢查,如果它們是公開(kāi)可用的。表III包含此屬性的三個(gè)不同特征:yes, o.r. (on request)和no。On request是指在向作者或負(fù)責(zé)人發(fā)送消息后授予訪(fǎng)問(wèn)權(quán)限。

    3)正常用戶(hù)行為:此屬性指示數(shù)據(jù)集中正常用戶(hù)行為的可用性,并接受yes或no值。值yes表示數(shù)據(jù)集中存在正常的用戶(hù)行為,但它不聲明是否存在攻擊。一般來(lái)說(shuō),入侵檢測(cè)系統(tǒng)的質(zhì)量主要取決于其攻擊檢測(cè)率和誤報(bào)率。此外,正常用戶(hù)行為的存在對(duì)于評(píng)估IDS是必不可少的。然而,缺少正常的用戶(hù)行為并不會(huì)使數(shù)據(jù)集不可用,而是表明它必須與其他數(shù)據(jù)集或真實(shí)世界的網(wǎng)絡(luò)流量合并。這樣的合并步驟通常稱(chēng)為覆蓋或鹽化[44]、[45]。

    4)攻擊流量:IDS數(shù)據(jù)集應(yīng)包含各種攻擊場(chǎng)景。此屬性指示數(shù)據(jù)集中是否存在惡意網(wǎng)絡(luò)通信,如果數(shù)據(jù)集中至少包含一次攻擊,則該屬性的值為yes。表四提供了關(guān)于特定攻擊類(lèi)型的附加信息。

    B.數(shù)據(jù)的性質(zhì)

    此類(lèi)別的屬性描述數(shù)據(jù)集的格式和元信息的存在。

    1)元數(shù)據(jù):第三方很難對(duì)基于包和基于流的網(wǎng)絡(luò)流量進(jìn)行內(nèi)容相關(guān)的解釋。因此,數(shù)據(jù)集應(yīng)該與元數(shù)據(jù)一起提供關(guān)于網(wǎng)絡(luò)結(jié)構(gòu)、IP地址、攻擊場(chǎng)景等的附加信息。此屬性指示附加元數(shù)據(jù)的存在。

    2)格式:網(wǎng)絡(luò)入侵檢測(cè)數(shù)據(jù)集以不同的格式出現(xiàn)。我們大致將它們分為三種格式(參見(jiàn)第三節(jié))。(1)基于分組的網(wǎng)絡(luò)流量(例如pcap)包含帶負(fù)載的網(wǎng)絡(luò)流量。(2)基于流的網(wǎng)絡(luò)流量(如NetFlow)只包含關(guān)于網(wǎng)絡(luò)連接的元信息。(3)其他類(lèi)型的數(shù)據(jù)集可能包含基于流的跟蹤,帶有來(lái)自基于包的數(shù)據(jù)甚至來(lái)自基于主機(jī)的日志文件的附加屬性。

    3)匿名性:由于隱私原因,入侵檢測(cè)數(shù)據(jù)集往往不會(huì)公開(kāi),或者只能以匿名的形式提供。此屬性指示數(shù)據(jù)是否匿名以及哪些屬性受到影響。表III中的none值表示沒(méi)有執(zhí)行匿名化。值yes (IPs)表示IP地址要么被匿名化,要么從數(shù)據(jù)集中刪除。同樣,值yes (payload)表示有效負(fù)載信息被匿名化,要么從基于分組的網(wǎng)絡(luò)流量中刪除。

    C.數(shù)據(jù)量

    此類(lèi)別中的屬性根據(jù)容量和持續(xù)時(shí)間描述數(shù)據(jù)集。

    1) Count:屬性Count將數(shù)據(jù)集的大小描述為包含的包/流/點(diǎn)的數(shù)量或物理大小(GB)。

    2)持續(xù)時(shí)間:數(shù)據(jù)集應(yīng)涵蓋較長(zhǎng)時(shí)間內(nèi)的網(wǎng)絡(luò)流量,以捕捉周期性影響(如白天與夜晚或工作日與周末)[29]。屬性持續(xù)時(shí)間提供每個(gè)數(shù)據(jù)集的記錄時(shí)間。

    D.記錄環(huán)境

    此類(lèi)別中的屬性描述捕獲數(shù)據(jù)集的網(wǎng)絡(luò)環(huán)境和條件。

    1)流量類(lèi)型:描述網(wǎng)絡(luò)流量的三種可能來(lái)源:真實(shí)的、模擬的或合成的。Real是指在有效的網(wǎng)絡(luò)環(huán)境中捕獲真實(shí)的網(wǎng)絡(luò)流量。仿真的意思是在測(cè)試床或仿真網(wǎng)絡(luò)環(huán)境中捕獲真實(shí)的網(wǎng)絡(luò)流量。綜合意味著網(wǎng)絡(luò)流量是綜合創(chuàng)建的(例如,通過(guò)一個(gè)流量生成器),而不是由一個(gè)真實(shí)的(或虛擬的)網(wǎng)絡(luò)設(shè)備捕獲的。

    2)網(wǎng)絡(luò)類(lèi)型:中小企業(yè)的網(wǎng)絡(luò)環(huán)境與互聯(lián)網(wǎng)服務(wù)提供商(ISP)有著本質(zhì)的區(qū)別。因此,不同的環(huán)境需要不同的安全系統(tǒng),評(píng)估數(shù)據(jù)集應(yīng)該適應(yīng)特定的環(huán)境。此屬性描述創(chuàng)建相應(yīng)數(shù)據(jù)集的基礎(chǔ)網(wǎng)絡(luò)環(huán)境。

    3)完整網(wǎng)絡(luò):該屬性采用Sharafaldin等人的[30],表示數(shù)據(jù)集是否包含來(lái)自具有多個(gè)主機(jī)、路由器等網(wǎng)絡(luò)環(huán)境的完整網(wǎng)絡(luò)流量。如果數(shù)據(jù)集只包含來(lái)自單個(gè)主機(jī)(例如蜜罐)的網(wǎng)絡(luò)流量,或者只包含來(lái)自網(wǎng)絡(luò)流量的一些協(xié)議(例如獨(dú)占SSH流量),則將值設(shè)置為no。

    E.評(píng)價(jià)

    以下特性與使用基于網(wǎng)絡(luò)的數(shù)據(jù)集評(píng)估入侵檢測(cè)方法有關(guān)。更精確地說(shuō),這些屬性表示預(yù)定義子集的可用性、數(shù)據(jù)集的平衡和標(biāo)簽的存在。

    1)預(yù)定義的分割:有時(shí),即使在相同的數(shù)據(jù)集上對(duì)不同的IDS進(jìn)行評(píng)估,也很難對(duì)它們的質(zhì)量進(jìn)行比較。在這種情況下,必須明確是否使用相同的子集進(jìn)行訓(xùn)練和評(píng)估。如果數(shù)據(jù)集附帶用于訓(xùn)練和評(píng)估的預(yù)定義子集,則此屬性提供信息。

    2)均衡:基于異常的入侵檢測(cè)通常采用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方法。在這些方法的訓(xùn)練階段(例如,決策樹(shù)分類(lèi)器),數(shù)據(jù)集應(yīng)該與其類(lèi)標(biāo)簽相平衡。因此,數(shù)據(jù)集應(yīng)該包含來(lái)自每個(gè)類(lèi)(normal和attack)的相同數(shù)量的數(shù)據(jù)點(diǎn)。然而,真實(shí)世界的網(wǎng)絡(luò)流量是不平衡的,它包含了比攻擊流量更多的正常用戶(hù)行為。此屬性指示數(shù)據(jù)集是否與其類(lèi)標(biāo)簽相平衡。在使用數(shù)據(jù)挖掘算法之前,應(yīng)該通過(guò)適當(dāng)?shù)念A(yù)處理來(lái)平衡不平衡的數(shù)據(jù)集。他和Garcia[46]提供了從不平衡數(shù)據(jù)中學(xué)習(xí)的良好概述。

    3)帶標(biāo)簽:帶標(biāo)簽的數(shù)據(jù)集是訓(xùn)練監(jiān)督方法、評(píng)估監(jiān)督和非監(jiān)督入侵檢測(cè)方法所必需的。此屬性表示是否標(biāo)記了數(shù)據(jù)集。如果至少有兩個(gè)類(lèi)normal和attack,則將此屬性設(shè)置為yes。此屬性中可能的值為:yes, yes with BG。(yes with background)、yes (IDS)、indirect和no。是的,有背景意味著有第三類(lèi)背景。屬于類(lèi)背景的包、流或數(shù)據(jù)點(diǎn)可以是正常的,也可以是攻擊。Yes (IDS)是指使用某種入侵檢測(cè)系統(tǒng)來(lái)創(chuàng)建數(shù)據(jù)集的標(biāo)簽。數(shù)據(jù)集的一些標(biāo)簽可能是錯(cuò)誤的,因?yàn)镮DS可能不完美。間接意味著數(shù)據(jù)集沒(méi)有顯式標(biāo)簽,但是可以通過(guò)其他日志文件自己創(chuàng)建標(biāo)簽。

    五、數(shù)據(jù)集

    我們認(rèn)為,在搜索足夠的基于網(wǎng)絡(luò)的數(shù)據(jù)集時(shí),標(biāo)記的數(shù)據(jù)集屬性和格式是最決定性的屬性。入侵檢測(cè)方法(監(jiān)督的或非監(jiān)督的)決定是否需要標(biāo)簽以及需要哪種類(lèi)型的數(shù)據(jù)(包、流或其他)。因此,表II提供了關(guān)于這兩個(gè)屬性的所有研究的基于網(wǎng)絡(luò)的數(shù)據(jù)集的分類(lèi)。表三給出了關(guān)于第四節(jié)數(shù)據(jù)集屬性的基于網(wǎng)絡(luò)的入侵檢測(cè)數(shù)據(jù)集的更詳細(xì)概述。在搜索基于網(wǎng)絡(luò)的數(shù)據(jù)集時(shí),特定攻擊場(chǎng)景的存在是一個(gè)重要方面。因此,表III顯示了攻擊流量的存在,而表IV提供了數(shù)據(jù)集中特定攻擊的詳細(xì)信息。關(guān)于數(shù)據(jù)集的論文描述了不同抽象級(jí)別的攻擊。例如,Vasudevan等人在他們的數(shù)據(jù)集中(SSENET- 2011)將攻擊流量描述為:“Nmap、Nessus、Angry IP scanner、Port scanner、Metaploit、Backtrack OS、LOIC等是參與者用來(lái)發(fā)起攻擊的一些攻擊工具?!毕啾戎?,Ring等人在他們的CIDDS-002數(shù)據(jù)集[27]中指定了執(zhí)行端口掃描的數(shù)量和不同類(lèi)型。因此,攻擊描述的抽象級(jí)別可能在表四中有所不同。對(duì)所有攻擊類(lèi)型的詳細(xì)描述超出了本文的范圍。相反,我們推薦感興趣的讀者閱讀Anwar等人的開(kāi)放存取論文“從入侵檢測(cè)到入侵響應(yīng)系統(tǒng):基礎(chǔ)、需求和未來(lái)方向”。此外,一些數(shù)據(jù)集是其他數(shù)據(jù)集的修改或組合。圖3顯示了幾個(gè)已知數(shù)據(jù)集之間的相互關(guān)系。

    基于網(wǎng)絡(luò)的數(shù)據(jù)集,按字母順序排列

    AWID [49]。AWID是一個(gè)公共可用的數(shù)據(jù)集4,主要針對(duì)802.11網(wǎng)絡(luò)。它的創(chuàng)建者使用了一個(gè)小型網(wǎng)絡(luò)環(huán)境(11個(gè)客戶(hù)機(jī)),并以基于包的格式捕獲了WLAN流量。在一個(gè)小時(shí)內(nèi),捕獲了3700萬(wàn)個(gè)數(shù)據(jù)包。從每個(gè)數(shù)據(jù)包中提取156個(gè)屬性。惡意網(wǎng)絡(luò)流量是通過(guò)對(duì)802.11網(wǎng)絡(luò)執(zhí)行16次特定攻擊而產(chǎn)生的。AWID被標(biāo)記為一個(gè)訓(xùn)練子集和一個(gè)測(cè)試子集。

    Booters[50]。Booters是罪犯提供的分布式拒絕服務(wù)(DDoS)攻擊。Santanna et. al[50]發(fā)布了一個(gè)數(shù)據(jù)集,其中包括九種不同的啟動(dòng)程序攻擊的跟蹤,這些攻擊針對(duì)網(wǎng)絡(luò)環(huán)境中的一個(gè)空路由IP地址執(zhí)行。結(jié)果數(shù)據(jù)集以基于分組的格式記錄,包含超過(guò)250GB的網(wǎng)絡(luò)流量。單獨(dú)的包沒(méi)有標(biāo)記,但是不同的Booters攻擊被分成不同的文件。數(shù)據(jù)集是公開(kāi)可用的,但是出于隱私原因,booters的名稱(chēng)是匿名的。

    僵尸網(wǎng)絡(luò)[5]。僵尸網(wǎng)絡(luò)數(shù)據(jù)集是現(xiàn)有數(shù)據(jù)集的組合,可以公開(kāi)使用。僵尸網(wǎng)絡(luò)的創(chuàng)建者使用了[44]的疊加方法來(lái)組合ISOT[57]、ISCX 2012[28]和CTU-13[3]數(shù)據(jù)集的(部分)。結(jié)果數(shù)據(jù)集包含各種僵尸網(wǎng)絡(luò)和正常用戶(hù)行為。僵尸網(wǎng)絡(luò)數(shù)據(jù)集被劃分為5.3 GB訓(xùn)練子集和8.5 GB測(cè)試子集,都是基于包的格式。

    CIC DoS[51]。CIC DoS是加拿大網(wǎng)絡(luò)安全研究所的一組數(shù)據(jù),可以公開(kāi)使用。作者的意圖是創(chuàng)建一個(gè)帶有應(yīng)用層DoS攻擊的入侵檢測(cè)數(shù)據(jù)集。因此,作者在應(yīng)用層上執(zhí)行了8種不同的DoS攻擊。將生成的跟蹤結(jié)果與ISCX 2012[28]數(shù)據(jù)集的無(wú)攻擊流量相結(jié)合生成正常的用戶(hù)行為。生成的數(shù)據(jù)集是基于分組的格式,包含24小時(shí)的網(wǎng)絡(luò)流量。

    CICIDS 2017 [22]。CICIDS 2017是在模擬環(huán)境中歷時(shí)5天創(chuàng)建的,包含基于分組和雙向流格式的網(wǎng)絡(luò)流量。對(duì)于每個(gè)流,作者提取了80多個(gè)屬性,并提供了關(guān)于IP地址和攻擊的附加元數(shù)據(jù)。正常的用戶(hù)行為是通過(guò)腳本執(zhí)行的。數(shù)據(jù)集包含了多種攻擊類(lèi)型,比如SSH蠻力、heartbleed、僵尸網(wǎng)絡(luò)、DoS、DDoS、web和滲透攻擊。CICIDS 2017是公開(kāi)可用的。

    cidds - 001 [21]。CIDDS-001數(shù)據(jù)集是在2017年模擬的小型商業(yè)環(huán)境中捕獲的,包含為期四周的基于單向流的網(wǎng)絡(luò)流量,并附帶詳細(xì)的技術(shù)報(bào)告和附加信息。該數(shù)據(jù)集的特點(diǎn)是包含了一個(gè)在互聯(lián)網(wǎng)上受到攻擊的外部服務(wù)器。與蜜罐不同,來(lái)自模擬環(huán)境的客戶(hù)機(jī)也經(jīng)常使用此服務(wù)器。正常和惡意的用戶(hù)行為是通過(guò)在GitHub9上公開(kāi)可用的python腳本執(zhí)行的。這些腳本允許不斷生成新的數(shù)據(jù)集,并可用于其他研究。CIDDS-001數(shù)據(jù)集是公開(kāi)可用的,包含SSH蠻力、DoS和端口掃描攻擊,以及從野外捕獲的一些攻擊。

    cidds - 002 [27]。CIDDS-002是基于CIDDS-001腳本創(chuàng)建的端口掃描數(shù)據(jù)集。該數(shù)據(jù)集包含兩個(gè)星期的基于單向流的網(wǎng)絡(luò)流量,位于模擬的小型業(yè)務(wù)環(huán)境中。CIDDS-002包含正常的用戶(hù)行為以及廣泛的不同端口掃描攻擊。技術(shù)報(bào)告提供了關(guān)于外部IP地址匿名化的數(shù)據(jù)集的附加元信息。數(shù)據(jù)集是公開(kāi)可用的。

    以上就是關(guān)于數(shù)據(jù)集有哪些類(lèi)型相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢(xún),客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    短視頻用戶(hù)數(shù)據(jù)分析(短視頻用戶(hù)數(shù)據(jù)分析報(bào)告)

    農(nóng)村電商的發(fā)展趨勢(shì)與未來(lái)(農(nóng)村電商的發(fā)展趨勢(shì)與未來(lái)最新數(shù)據(jù))

    快手小店今日數(shù)據(jù)顯示在主頁(yè)(快手小店今日數(shù)據(jù)顯示在主頁(yè)怎么辦)

    杭州名吃十大排行榜(杭州有什么特色美食小吃)

    咖啡館排行榜(咖啡館排行榜前十)