HOME 首頁(yè)
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營(yíng)
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    文本挖掘關(guān)鍵詞提?。ㄎ谋娟P(guān)鍵詞提取工具)

    發(fā)布時(shí)間:2023-03-24 06:17:38     稿源: 創(chuàng)意嶺    閱讀: 1179        問(wèn)大家

    大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于文本挖掘關(guān)鍵詞提取的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。

    開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫(xiě)出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端

    官網(wǎng):https://ai.de1919.com

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀企業(yè),服務(wù)客戶遍布全國(guó),網(wǎng)絡(luò)營(yíng)銷相關(guān)業(yè)務(wù)請(qǐng)撥打175-8598-2043,或微信:1454722008

    本文目錄:

    文本挖掘關(guān)鍵詞提?。ㄎ谋娟P(guān)鍵詞提取工具)

    一、北京的網(wǎng)絡(luò)輿情監(jiān)控

    有朋友在一個(gè)叫人民在線的公司工作,這個(gè)公司是互聯(lián)網(wǎng)輿情監(jiān)測(cè)領(lǐng)域的專家,就在北京。詳細(xì)介紹如下:

    北京人民在線網(wǎng)絡(luò)有限公司(以下簡(jiǎn)稱“人民在線”)是人民網(wǎng)控股,人民網(wǎng)與證券時(shí)報(bào)合資的信息增值服務(wù)機(jī)構(gòu),由人民網(wǎng)總裁何加正先生出任董事長(zhǎng)。人民在線以互聯(lián)網(wǎng)為圓心結(jié)合多種媒體資源和形式,面向政府機(jī)關(guān)、事業(yè)單位以及大型企業(yè),提供輿情監(jiān)測(cè)、數(shù)據(jù)分析、顧問(wèn)咨詢等多方位信息服務(wù)。

    人民在線相關(guān)輿情研究機(jī)構(gòu)和品牌:

    專業(yè)的輿情監(jiān)測(cè)平臺(tái)

    人民日?qǐng)?bào)社自2006年起就開(kāi)始逐步探索網(wǎng)絡(luò)輿情監(jiān)測(cè)研究課題,并于2008年正式組建人民日?qǐng)?bào)社網(wǎng)絡(luò)中心(人民網(wǎng))輿情監(jiān)測(cè)室,人民日?qǐng)?bào)社網(wǎng)絡(luò)中心(人民網(wǎng))輿情監(jiān)測(cè)室是國(guó)內(nèi)最早從事互聯(lián)網(wǎng)輿情監(jiān)測(cè)、研究的專業(yè)機(jī)構(gòu)之一。擁有具備輿論傳播學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、公共管理等背景的輿情研究分析人員數(shù)十名,并邀請(qǐng)了國(guó)務(wù)院新聞辦網(wǎng)絡(luò)局、中國(guó)社科院社會(huì)學(xué)所、清華大學(xué)傳播學(xué)院等部門(mén)的領(lǐng)導(dǎo)和專家學(xué)者做為顧問(wèn),已初步形成了一套較完整的輿情監(jiān)測(cè)理論體系、工作方法、作業(yè)流程和應(yīng)用技術(shù)。

    監(jiān)測(cè)室承擔(dān)了很多非常重要的輿情研究工作,主要有中國(guó)社科院年度《社會(huì)藍(lán)皮書(shū)》網(wǎng)絡(luò)輿情課題(2007年起)、《文化藍(lán)皮書(shū)》課題(2008年起)、清華大學(xué)年度《傳媒藍(lán)皮書(shū)》課題(2008年起),國(guó)家科技技術(shù)部“科技輿情監(jiān)測(cè)與形象傳播研究”國(guó)家軟科學(xué)重大項(xiàng)目等,同時(shí)長(zhǎng)期為國(guó)務(wù)院新聞辦網(wǎng)絡(luò)局提供網(wǎng)絡(luò)輿情分析基礎(chǔ)信息。

    人民網(wǎng)輿情頻道

    人民網(wǎng)輿情頻道(http://yq.people.com.cn)正式運(yùn)營(yíng)于北京奧運(yùn)會(huì)前夕,是官方主流媒體中第一個(gè)輿情專業(yè)頻道,由人民在線全面制作和維護(hù)。頻道包括每日論壇熱帖排行、論壇熱點(diǎn)詞匯排行、熱點(diǎn)輿情專題、輿情研究、輿情案例庫(kù)等欄目,為讀者及時(shí)提供網(wǎng)絡(luò)社區(qū)、論壇、博客中的輿情熱點(diǎn),經(jīng)過(guò)近一年的運(yùn)營(yíng),已經(jīng)具備一定的業(yè)內(nèi)知名度。

    “輿情會(huì)商室”訪談

    奧運(yùn)會(huì)期間,人民在線在輿情頻道上推出了“輿情會(huì)商室”訪談欄目,邀請(qǐng)社會(huì)學(xué)、傳播學(xué)等方面的專家定期與網(wǎng)民就輿情熱點(diǎn)問(wèn)題在線交流,已經(jīng)舉辦69場(chǎng),邀請(qǐng)專家170余位參與會(huì)商,取得了較好的反響,最高一期點(diǎn)擊量超過(guò)8.5萬(wàn)次。

    “輿情會(huì)商室”為輿情頻道匯集了人氣,很多參與嘉賓通過(guò)各種途徑發(fā)表、轉(zhuǎn)載了訪談內(nèi)容,也進(jìn)一步擴(kuò)大了“輿情會(huì)商室”和輿情頻道的知名度。

    《網(wǎng)絡(luò)輿情》內(nèi)參

    《網(wǎng)絡(luò)輿情》內(nèi)參由人民日?qǐng)?bào)主管、人民網(wǎng)主辦的國(guó)內(nèi)唯一一份有國(guó)家正式刊號(hào)以網(wǎng)絡(luò)信息為主要內(nèi)容、反映網(wǎng)絡(luò)民意和動(dòng)向的輿情雜志,一周雙刊,國(guó)家正式刊號(hào)(CN11-5803/D)。

    《網(wǎng)絡(luò)輿情》內(nèi)參旨在幫助領(lǐng)導(dǎo)干部“讀網(wǎng)”,梳理和客觀呈現(xiàn)互聯(lián)網(wǎng)上的熱點(diǎn)輿情以及多種意見(jiàn)構(gòu)成,包括網(wǎng)民對(duì)黨和政府方針政策的反饋,對(duì)地方施政和行業(yè)發(fā)展的評(píng)價(jià),互聯(lián)網(wǎng)上的社會(huì)思潮,專家對(duì)改革開(kāi)放和現(xiàn)代化進(jìn)程的見(jiàn)解,關(guān)注各地突發(fā)事件的網(wǎng)絡(luò)輿論形成路徑,總結(jié)政府危機(jī)管理、媒體關(guān)系的得失。幫領(lǐng)導(dǎo)干部讀網(wǎng),了解當(dāng)前熱點(diǎn)輿情、事件,不僅能讓領(lǐng)導(dǎo)干部開(kāi)拓視野,還可以在問(wèn)責(zé)制時(shí)代為領(lǐng)導(dǎo)干部提供參考。

    多年積累的輿情分析經(jīng)驗(yàn),領(lǐng)先的網(wǎng)絡(luò)信息監(jiān)測(cè)技術(shù),專家級(jí)的輿情監(jiān)測(cè)團(tuán)隊(duì),科學(xué)完整的輿情評(píng)價(jià)體系,多角度、全方位的輿情服務(wù)和產(chǎn)品,是我們服務(wù)的品質(zhì)保障。

    權(quán)威,極具影響力

    人民網(wǎng)有數(shù)百家合作媒體,讀者覆蓋200多個(gè)國(guó)家和地區(qū)。

    豐富的數(shù)據(jù)、信息來(lái)源

    人民日?qǐng)?bào)的報(bào)系下的信息資源和合作媒體資源

    信息覆蓋面全

    監(jiān)測(cè)信息不僅包括傳統(tǒng)媒體,還包括全國(guó)有影響力的20多家網(wǎng)絡(luò)社區(qū)、BBS、和眾多名人博客。

    信息及時(shí)準(zhǔn)確

    監(jiān)測(cè)平臺(tái)對(duì)信息源進(jìn)行24小時(shí)自動(dòng)監(jiān)控、信息處理,經(jīng)人工審校,去除干擾信息,保證了信息的及時(shí)準(zhǔn)確性。

    差異化個(gè)性服務(wù)

    為用戶提供地區(qū)形象、機(jī)構(gòu)公司形象、個(gè)人形象以及媒體輿情等監(jiān)測(cè)定制服務(wù)。

    優(yōu)質(zhì)的服務(wù)品質(zhì)

    領(lǐng)先的技術(shù),專家級(jí)的團(tuán)隊(duì),豐富的經(jīng)驗(yàn),認(rèn)真的工作態(tài)度,更能提供優(yōu)質(zhì)的服務(wù)。

    二、數(shù)據(jù)庫(kù)的數(shù)據(jù)檢索和 搜索引擎的信息檢索的不同點(diǎn)是什么?需要解決的核心問(wèn)題和核心技術(shù)有何不同?

    信息檢索不等于搜索引擎。

    互聯(lián)網(wǎng)的發(fā)展明顯地促進(jìn)了信息檢索技術(shù)的發(fā)展和應(yīng)用,一大批搜索引擎產(chǎn)品誕生,為網(wǎng)民提供了很好的快速信息獲取和網(wǎng)絡(luò)信息導(dǎo)航工具,但是將信息檢索等同于使用搜索引擎就陷入了誤區(qū)。搜索引擎技術(shù)中也普遍采用了全文信息檢索技術(shù),但互聯(lián)網(wǎng)信息搜索和企業(yè)信息搜索是不同的。

    一是數(shù)據(jù)量。傳統(tǒng)信息檢索系統(tǒng)一般索引庫(kù)規(guī)模多在GB級(jí),但互聯(lián)網(wǎng)網(wǎng)頁(yè)搜索需要處理幾千萬(wàn)上億的網(wǎng)頁(yè),搜索引擎的基本策略都是采用檢索服務(wù)器群集,對(duì)大多數(shù)企業(yè)應(yīng)用是不合適和不必要的,并不適用于企業(yè)應(yīng)用。

    二是內(nèi)容相關(guān)性。信息太多,查準(zhǔn)和排序就特別重要,Google等搜索引擎發(fā)展了網(wǎng)頁(yè)鏈接分析技術(shù),根據(jù)互聯(lián)網(wǎng)上網(wǎng)頁(yè)被連接次數(shù)作為重要性評(píng)判的依據(jù)。但企業(yè)網(wǎng)站內(nèi)部的網(wǎng)頁(yè)鏈接由網(wǎng)站內(nèi)容采編發(fā)布系統(tǒng)決定,其鏈接次數(shù)存在偶然因素,不能作為判別重要性的依據(jù)。真正的企業(yè)應(yīng)用的檢索要求基于內(nèi)容的相關(guān)性排序,就是說(shuō),和檢索要求最相關(guān)的信息排在檢索結(jié)果的前面,鏈接分析技術(shù)此種排序基本不起作用。

    三是實(shí)時(shí)性。搜索引擎的索引生成和檢索服務(wù)是分開(kāi)的,周期性更新和同步數(shù)據(jù),大的搜索引擎的更新周期需要以周乃至月度量;而企業(yè)信息檢索需要實(shí)時(shí)反映內(nèi)外信息變化,搜索引擎系統(tǒng)機(jī)制并不能適應(yīng)企業(yè)中動(dòng)態(tài)性數(shù)據(jù)增長(zhǎng)和修改的要求。

    四是安全性?;ヂ?lián)網(wǎng)搜索引擎都基于文件系統(tǒng),但企業(yè)應(yīng)用中內(nèi)容一般均會(huì)安全和集中地存放在數(shù)據(jù)倉(cāng)庫(kù)中以保證數(shù)據(jù)安全和管理的要求。

    五是個(gè)性化和智能化。由于搜索引擎數(shù)據(jù)和客戶規(guī)模的限制,相關(guān)反饋、知識(shí)檢索、知識(shí)挖掘等計(jì)算密集的智能技術(shù)很難應(yīng)用,而專門(mén)針對(duì)企業(yè)的信息檢索應(yīng)用能在智能化和個(gè)性走得更遠(yuǎn)。

    (InformationRetrieval),通常指文本信息檢索,包括信息的存儲(chǔ)、組織、表現(xiàn)、查詢、存取等各個(gè)方面,其核心為文本信息的索引和檢索。從歷史上看,信息檢索經(jīng)歷了手工檢索、計(jì)算機(jī)檢索到目前網(wǎng)絡(luò)化、智能化檢索等多個(gè)發(fā)展階段。

    目前,信息檢索已經(jīng)發(fā)展到網(wǎng)絡(luò)化和智能化的階段。信息檢索的對(duì)象從相對(duì)封閉、穩(wěn)定一致、由獨(dú)立數(shù)據(jù)庫(kù)集中管理的信息內(nèi)容擴(kuò)展到開(kāi)放、動(dòng)態(tài)、更新快、分布廣泛、管理松散的Web內(nèi)容;信息檢索的用戶也由原來(lái)的情報(bào)專業(yè)人員擴(kuò)展到包括商務(wù)人員、管理人員、教師學(xué)生、各專業(yè)人士等在內(nèi)的普通大眾,他們對(duì)信息檢索從結(jié)果到方式提出了更高、更多樣化的要求。適應(yīng)網(wǎng)絡(luò)化、智能化以及個(gè)性化的需要是目前信息檢索技術(shù)發(fā)展的新趨勢(shì)。

    信息檢索技術(shù)的熱點(diǎn)

    ◆智能檢索或知識(shí)檢索

    傳統(tǒng)的全文檢索技術(shù)基于關(guān)鍵詞匹配進(jìn)行檢索,往往存在查不全、查不準(zhǔn)、檢索質(zhì)量不高的現(xiàn)象,特別是在網(wǎng)絡(luò)信息時(shí)代,利用關(guān)鍵詞匹配很難滿足人們檢索的要求。智能檢索利用分詞詞典、同義詞典,同音詞典改善檢索效果,比如用戶查詢“計(jì)算機(jī)”,與“電腦”相關(guān)的信息也能檢索出來(lái);進(jìn)一步還可在知識(shí)層面或者說(shuō)概念層面上輔助查詢,通過(guò)主題詞典、上下位詞典、相關(guān)同級(jí)詞典,形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò),給予用戶智能知識(shí)提示,最終幫助用戶獲得最佳的檢索效果,比如用戶可以進(jìn)一步縮小查詢范圍至“微機(jī)”、“服務(wù)器”或擴(kuò)大查詢至“信息技術(shù)”或查詢相關(guān)的“電子技術(shù)”、“軟件”、“計(jì)算機(jī)應(yīng)用”等范疇。另外,智能檢索還包括歧義信息和檢索處理,如“蘋(píng)果”,究竟是指水果還是電腦品牌,“華人”與“中華人民共和國(guó)”的區(qū)分,將通過(guò)歧義知識(shí)描述庫(kù)、全文索引、用戶檢索上下文分析以及用戶相關(guān)性反饋等技術(shù)結(jié)合處理,高效、準(zhǔn)確地反饋給用戶最需要的信息。

    ◆知識(shí)挖掘

    目前主要指文本挖掘技術(shù)的發(fā)展,目的是幫助人們更好的發(fā)現(xiàn)、組織、表示信息,提取知識(shí),滿足信息檢索的高層次需要。知識(shí)挖掘包括摘要、分類(聚類)和相似性檢索等方面。

    自動(dòng)摘要就是利用計(jì)算機(jī)自動(dòng)地從原始文獻(xiàn)中提取文摘。在信息檢索中,自動(dòng)摘要有助于用戶快速評(píng)價(jià)檢索結(jié)果的相關(guān)程度,在信息服務(wù)中,自動(dòng)摘要有助于多種形式的內(nèi)容分發(fā),如發(fā)往PDA、手機(jī)等。相似性檢索技術(shù)基于文檔內(nèi)容特征檢索與其相似或相關(guān)的文檔,是實(shí)現(xiàn)用戶個(gè)性化相關(guān)反饋的基礎(chǔ),也可用于去重分析。自動(dòng)分類可基于統(tǒng)計(jì)或規(guī)則,經(jīng)過(guò)機(jī)器學(xué)習(xí)形成預(yù)定義分類樹(shù),再根據(jù)文檔的內(nèi)容特征將其歸類;自動(dòng)聚類則是根據(jù)文檔內(nèi)容的相關(guān)程度進(jìn)行分組歸并。自動(dòng)分類(聚類)在信息組織、導(dǎo)航方面非常有用。

    ◆異構(gòu)信息整合檢索和全息檢索

    在信息檢索分布化和網(wǎng)絡(luò)化的趨勢(shì)下,信息檢索系統(tǒng)的開(kāi)放性和集成性要求越來(lái)越高,需要能夠檢索和整合不同來(lái)源和結(jié)構(gòu)的信息,這是異構(gòu)信息檢索技術(shù)發(fā)展的基點(diǎn),包括支持各種格式化文件,如TEXT、HTML、XML、RTF、MSOffice、PDF、PS2/PS、MARC、ISO2709等處理和檢索;支持多語(yǔ)種信息的檢索;支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一處理;和關(guān)系數(shù)據(jù)庫(kù)檢索的無(wú)縫集成以及其他開(kāi)放檢索接口的集成等。所謂“全息檢索”的概念就是支持一切格式和方式的檢索,從目前實(shí)踐來(lái)講,發(fā)展到異構(gòu)信息整合檢索的層面,基于自然語(yǔ)言理解的人機(jī)交互以及多媒體信息檢索整合等方面尚有待取得進(jìn)一步突破。

    另外,從工程實(shí)踐角度,綜合采用內(nèi)存和外部存儲(chǔ)的多級(jí)緩存、分布式群集和負(fù)載均衡技術(shù)也是信息檢索技術(shù)發(fā)展的重要方面。

    隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,企業(yè)和個(gè)人可獲取、需處理的信息量呈爆發(fā)式增長(zhǎng),而且其中絕大部分都是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。內(nèi)容管理的重要性日益凸現(xiàn),而信息檢索作為內(nèi)容管理的核心支撐技術(shù),隨著內(nèi)容管理的發(fā)展和普及,亦將應(yīng)用到各個(gè)領(lǐng)域,成為人們?nèi)粘9ぷ魃畹拿芮谢锇椤?/p>

    信息檢索起源于圖書(shū)館的參考咨詢和文摘索引工作,從19世紀(jì)下半葉首先開(kāi)始發(fā)展,至20世紀(jì)40年代,索引和檢索成已為圖書(shū)館獨(dú)立的工具和用戶服務(wù)項(xiàng)目。

    隨著1946年世界上第一臺(tái)電子計(jì)算機(jī)問(wèn)世,計(jì)算機(jī)技術(shù)逐步走進(jìn)信息檢索領(lǐng)域,并與信息檢索理論緊密結(jié)合起來(lái);脫機(jī)批量情報(bào)檢索系統(tǒng)、聯(lián)機(jī)實(shí)時(shí)情報(bào)檢索系統(tǒng)相繼研制成功并商業(yè)化,20世紀(jì)60年代到80年代,在信息處理技術(shù)、通訊技術(shù)、計(jì)算機(jī)和數(shù)據(jù)庫(kù)技術(shù)的推動(dòng)下,信息檢索在教育、軍事和商業(yè)等各領(lǐng)域高速發(fā)展,得到了廣泛的應(yīng)用。Dialog國(guó)際聯(lián)機(jī)情報(bào)檢索系統(tǒng)是這一時(shí)期的信息檢索領(lǐng)域的代表,至今仍是世界上最著名的系統(tǒng)之一。

    搜索引擎工作流程

    互聯(lián)網(wǎng)是一個(gè)寶庫(kù),搜索引擎是打開(kāi)寶庫(kù)的一把鑰匙。然而,絕大多數(shù)網(wǎng)民在搜索引擎的相關(guān)知識(shí)及使用技巧上能力不足。國(guó)外的一次調(diào)查結(jié)果顯示,約有71%的人對(duì)搜索的結(jié)果感到不同程度的失望。作為互聯(lián)網(wǎng)的第二大服務(wù),這種狀況應(yīng)該改變。

    互聯(lián)網(wǎng)的迅速發(fā)展,導(dǎo)致了網(wǎng)上信息的爆炸性增長(zhǎng)。全球目前的網(wǎng)頁(yè)超過(guò)20億,每天新增加730萬(wàn)網(wǎng)頁(yè)。要在如此浩瀚的信息海洋里尋找信息,就像“大海撈針”一樣困難。搜索引擎正是為了解決這個(gè)“迷航”問(wèn)題而出現(xiàn)的技術(shù)。

    搜索引擎的工作包括如下三個(gè)過(guò)程:

    1.在互聯(lián)中發(fā)現(xiàn)、搜集網(wǎng)頁(yè)信息;

    2.對(duì)信息進(jìn)行提取和組織建立索引庫(kù);

    3.再由檢索器根據(jù)用戶輸入的查詢關(guān)字,在索引庫(kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并將查詢結(jié)果返回給用戶。

    發(fā)現(xiàn)、搜集網(wǎng)頁(yè)信息

    需要有高性能的“網(wǎng)絡(luò)蜘蛛”程序(Spider)去自動(dòng)地在互聯(lián)網(wǎng)中搜索信息。一個(gè)典型的網(wǎng)絡(luò)蜘蛛工作的方式,是查看一個(gè)頁(yè)面,并從中找到相關(guān)信息, 然后它再?gòu)脑擁?yè)面的所有鏈接中出發(fā),繼續(xù)尋找相關(guān)的信息,以此類推,直至窮盡。網(wǎng)絡(luò)蜘蛛要求能夠快速、全面。網(wǎng)絡(luò)蜘蛛為實(shí)現(xiàn)其快速地瀏覽整個(gè)互聯(lián)網(wǎng),通常在技術(shù)上采用搶先式多線程技術(shù)實(shí)現(xiàn)在網(wǎng)上聚集信息。通過(guò)搶先式多線程的使用,你能索引一個(gè)基于URL鏈接的Web頁(yè)面,啟動(dòng)一個(gè)新的線程跟隨每個(gè)新的URL鏈接,索引一個(gè)新的URL起點(diǎn)。當(dāng)然在服務(wù)器上所開(kāi)的線程也不能無(wú)限膨脹,需要在服務(wù)器的正常運(yùn)轉(zhuǎn)和快速收集網(wǎng)頁(yè)之間找一個(gè)平衡點(diǎn)。在算法上各個(gè)搜索引擎技術(shù)公司可能不盡相同,但目的都是快速瀏覽Web頁(yè)和后續(xù)過(guò)程相配合。目前國(guó)內(nèi)的搜索引擎技術(shù)公司中,比如百度公司的網(wǎng)絡(luò)蜘蛛采用了可定制、高擴(kuò)展性的調(diào)度算法使得搜索器能在極短的時(shí)間內(nèi)收集到最大數(shù)量的互聯(lián)網(wǎng)信息,并把所 獲得的信息保存下來(lái)以備建立索引庫(kù)和用戶檢索。

    索引庫(kù)的建立

    關(guān)系到用戶能否最迅速地找到最準(zhǔn)確、最廣泛的信息,同時(shí)索引庫(kù)的建立也必須迅速,對(duì)網(wǎng)絡(luò)蜘蛛抓來(lái)的網(wǎng)頁(yè)信息極快地建立索引,保證信息的及時(shí)性。對(duì)網(wǎng)頁(yè)采用基于網(wǎng)頁(yè)內(nèi)容分析和基于超鏈分析相結(jié)合的方法進(jìn)行相關(guān)度評(píng)價(jià),能夠客觀地對(duì)網(wǎng)頁(yè)進(jìn)行排序,從而極大限度地保證搜索出的結(jié)果與用戶的查詢串相一致。新浪搜索引擎對(duì)網(wǎng)站數(shù)據(jù)建立索引的過(guò)程中采取了按照關(guān)鍵詞在網(wǎng)站標(biāo)題、網(wǎng)站描述、網(wǎng)站URL等不同位置的出現(xiàn)或網(wǎng)站的質(zhì)量等級(jí)等建立索引庫(kù),從而保證搜索出的結(jié)果與用戶的查詢串相一致。

    本文來(lái)自CSDN博客,轉(zhuǎn)載請(qǐng)標(biāo)明出處:http://blog.csdn.net/xdtech/archive/2009/09/22/4579795.aspx

    三、關(guān)鍵詞時(shí)區(qū)圖關(guān)鍵詞的背景圖怎么改

    關(guān)鍵詞時(shí)區(qū)圖關(guān)鍵詞的背景圖怎么改

    甄永072

    超過(guò)338用戶采納過(guò)TA的回答

    關(guān)注

    成為第12位粉絲

    CiteSpace有一個(gè)亮點(diǎn)就是將時(shí)間因素加入到了知識(shí)圖譜的繪制之中。先劃分時(shí)間段,然后再合并起來(lái)一起分析,如關(guān)鍵詞時(shí)區(qū)圖,有些文章將其命名為主題演化圖,其實(shí)不太合適,該圖本質(zhì)呈現(xiàn)的是關(guān)鍵詞的一種演化關(guān)系,而不是主題的演化。

    主題演化應(yīng)該是主題間的關(guān)系,如TE軟件所做出的科學(xué)主題演化圖,或者利用ST軟件分時(shí)間區(qū)間做的戰(zhàn)略坐標(biāo)(主題類型的劃分),見(jiàn)下圖。

    本文主要講解一下CiteSpace繪制的關(guān)鍵詞時(shí)區(qū)圖,即關(guān)鍵詞的時(shí)區(qū)圖是怎么生成的,其他高級(jí)圖譜以后再講。

    上圖的數(shù)據(jù)集時(shí)間區(qū)間是1998-2018

    圓圈

    圖中的每一個(gè)圓圈代表一個(gè)關(guān)鍵詞,該關(guān)鍵詞是在分析的數(shù)據(jù)集中首次出現(xiàn)的年份【注意:是此數(shù)據(jù)集中首次出現(xiàn),并不是關(guān)于此主題的所有數(shù)據(jù)中】。

    關(guān)鍵詞一旦出現(xiàn),將固定在首次出現(xiàn)的年份,盡管之后論文里仍會(huì)出現(xiàn)該關(guān)鍵詞,圖中將不再顯示,只會(huì)在最早出現(xiàn)的年份顯示。

    如果后來(lái)的年份又出現(xiàn)了該關(guān)鍵詞,那么該關(guān)鍵詞會(huì)在首次出現(xiàn)的位置頻次加1,出現(xiàn)幾次,頻次就增加幾次。所以就可以解釋為什么1998年,文獻(xiàn)量很少,而關(guān)鍵詞“數(shù)據(jù)管理”和“高校圖書(shū)館”圓圈這么大的原因了。

    因?yàn)?,之后論文關(guān)鍵詞中出現(xiàn)的“數(shù)據(jù)管理”和“高校圖書(shū)館”均在1998年進(jìn)行了累加。

    此種方法合不合理呢?

    如果一個(gè)關(guān)鍵詞在1998年出現(xiàn)一次,之后幾年沒(méi)出現(xiàn),而在2012年出現(xiàn)了80次,那么軟件會(huì)把該關(guān)鍵詞歸到1998年,顯然結(jié)果是不合理的,因?yàn)榇嬖诋惓G闆r。當(dāng)然,既然是異常,現(xiàn)實(shí)情況出現(xiàn)幾率不是很大。

    該圖顯示的僅僅是目標(biāo)領(lǐng)域關(guān)鍵詞首次出現(xiàn)的時(shí)間和從整體視角來(lái)看的研究熱點(diǎn)(研究熱點(diǎn)通過(guò)關(guān)鍵詞頻次顯示,但是CiteSpace統(tǒng)計(jì)的頻次是閾值裁剪后的頻次,并不是總頻次,見(jiàn)推文:CiteSpace關(guān)鍵詞共現(xiàn)圖譜含義詳細(xì)解析與注意事項(xiàng))。

    該圖無(wú)法反映這些熱點(diǎn)(關(guān)鍵詞)的大致年份分布,如果需要反映研究熱點(diǎn)的平均年份分布此時(shí)CiteSpace就無(wú)能為力了,需要借助COOC或VOSviewer軟件進(jìn)行圖譜繪制,其中COOC也可以繪制時(shí)區(qū)圖,具體見(jiàn)下文。

    線條

    圓圈代表著關(guān)鍵詞,線條代表著關(guān)鍵詞之間的聯(lián)系。但在該圖中線條存在的意義并不大,不是我們分析的重點(diǎn)。

    這里的線條就是關(guān)鍵詞之間的共現(xiàn)關(guān)系。

    例如1998年的“數(shù)據(jù)管理”和2008年的“科學(xué)數(shù)據(jù)管理”同時(shí)出現(xiàn)在了2008年的某一篇論文中,那么“數(shù)據(jù)管理”和“科學(xué)數(shù)據(jù)管理”之間便存在一條聯(lián)系,這條線從1998年連到了2008年。

    連線表示兩關(guān)鍵出現(xiàn)在同一篇或多篇文章中。

    總結(jié):

    時(shí)區(qū)圖中的每個(gè)時(shí)間段均是該時(shí)間段的所有新出現(xiàn)的關(guān)鍵詞,如果與前期關(guān)鍵詞共同出現(xiàn)在同一篇文章中將會(huì)用線聯(lián)系起來(lái),前期關(guān)鍵詞頻次加1,圓圈變大,從而生成此圖。該圖確實(shí)能夠從整體上反映研究路徑的變化,但如果想要更全面的反映路徑變化還需要結(jié)合關(guān)鍵詞加權(quán)時(shí)區(qū)圖、逐年關(guān)注度變化、逐年增長(zhǎng)率變化和時(shí)間加權(quán)研究熱點(diǎn)變化等圖。當(dāng)然我們也可以逐年統(tǒng)計(jì)關(guān)鍵詞的變化趨勢(shì),來(lái)反映研究熱點(diǎn)的變化,如SE軟件繪制的關(guān)鍵詞演進(jìn)圖。

    存在的問(wèn)題1

    CieSpace繪制的時(shí)區(qū)圖有一個(gè)問(wèn)題,就是每個(gè)時(shí)間區(qū)間展示的關(guān)鍵詞數(shù)不能太多,否則圖就會(huì)很亂,比如本文開(kāi)頭我們做的圖,雖然看著挺不錯(cuò)的,但是每個(gè)時(shí)間區(qū)間所展示的關(guān)鍵詞數(shù)有限(PS.這張圖竟被很多人盜用,用于他們的宣傳),特別是最新出現(xiàn)的關(guān)鍵詞由于頻次相對(duì)較低,無(wú)法在圖中顯示出來(lái),使我們無(wú)法挖掘出最新的前沿。

    上文說(shuō)了,在時(shí)區(qū)圖中線條存在的意義并不大,不是我們分析的重點(diǎn)。所以我們可以利用COOC軟件的時(shí)區(qū)圖功能進(jìn)行繪制,雖然COOC做出的時(shí)區(qū)圖沒(méi)有CiteSpace好看,但其展示的每年關(guān)鍵詞數(shù)以及最前沿關(guān)鍵詞方面優(yōu)于CiteSpace,見(jiàn)下圖。

    該圖也是關(guān)鍵詞時(shí)區(qū)圖,但是其可以全面反映更多的關(guān)鍵詞以及最新關(guān)鍵詞,而不僅僅是那些高頻關(guān)鍵詞。

    存在的問(wèn)題2

    這里還存在一個(gè)十分嚴(yán)重的問(wèn)題,很多CiteSpace新手甚至老手都不知道,導(dǎo)致已經(jīng)發(fā)表的很多論文存在問(wèn)題。即利用不清洗的數(shù)據(jù)直接作圖會(huì)導(dǎo)致關(guān)鍵詞首次出現(xiàn)時(shí)間錯(cuò)誤。

    因?yàn)殡S著網(wǎng)絡(luò)首發(fā)的推廣,很多最新的論文缺失年份信息,而CiteSpace會(huì)把缺失年份的論文默認(rèn)設(shè)置為1900年,導(dǎo)致出錯(cuò)。

    下面,我們先來(lái)了解下網(wǎng)絡(luò)首發(fā)出版模式。網(wǎng)絡(luò)首發(fā)出版模式對(duì)文獻(xiàn)計(jì)量的影響不容低估!

    什么時(shí)網(wǎng)絡(luò)首發(fā)?

    網(wǎng)絡(luò)首發(fā)論文被認(rèn)定為正式出版論文。經(jīng)編輯部和《中國(guó)學(xué)術(shù)期刊(光盤(pán)版)》電子雜志社審核,可在中國(guó)知網(wǎng)提前在線發(fā)布。案例圖如下:

    網(wǎng)絡(luò)首發(fā)的好處?

    發(fā)表時(shí)間不受紙刊限制,出版容量也突破了傳統(tǒng)紙刊的束縛。便于研究成果快速傳播和使用。

    網(wǎng)絡(luò)首發(fā)對(duì)文獻(xiàn)計(jì)量的影響?

    【1】重復(fù)問(wèn)題

    有時(shí)知網(wǎng)里同一篇文章會(huì)同時(shí)出現(xiàn)【網(wǎng)絡(luò)首發(fā)】和【非網(wǎng)絡(luò)首發(fā)】?jī)蓷l題錄,導(dǎo)致在做文獻(xiàn)計(jì)量分析時(shí)重復(fù)統(tǒng)計(jì),而現(xiàn)有軟件沒(méi)法去重。

    【2】時(shí)間問(wèn)題

    網(wǎng)絡(luò)首發(fā)題錄信息里沒(méi)有時(shí)間,導(dǎo)致做文獻(xiàn)計(jì)量時(shí)出現(xiàn)錯(cuò)誤,而現(xiàn)有軟件沒(méi)法解決。COOC軟件除外。

    做文獻(xiàn)計(jì)量分析時(shí),以上兩個(gè)問(wèn)題一定要注意,否則會(huì)出現(xiàn)嚴(yán)重錯(cuò)誤。比如,由于網(wǎng)絡(luò)首發(fā)缺失時(shí)間,CiteSpace軟件會(huì)將2022年網(wǎng)絡(luò)首發(fā)的文獻(xiàn)默認(rèn)設(shè)置為1900年,而Vosviewer在做時(shí)間關(guān)鍵詞分析時(shí)也不會(huì)考慮這種問(wèn)題。另外,上述軟件均沒(méi)法進(jìn)行去重。

    而很多文獻(xiàn)計(jì)量的文章(包括已經(jīng)發(fā)表的文章)經(jīng)常不注意以上兩點(diǎn),不知道自己做的其實(shí)是錯(cuò)誤的分析。

    針對(duì)上述兩個(gè)問(wèn)題的解決方案:

    (1)利用COOC最新版軟件去重

    (2)利用COOC最新版軟件提取,補(bǔ)充時(shí)間即可。

    最后且最重要的:

    做文獻(xiàn)計(jì)量數(shù)據(jù)預(yù)處理階段的5大問(wèn)題,見(jiàn)推文:CiteSpace關(guān)鍵詞共現(xiàn)圖譜含義詳細(xì)解析與注意事項(xiàng)

    以后再做文獻(xiàn)計(jì)量所用的軟件應(yīng)該是COOC+CiteSpace或者COOC+VOSviewer。如果你想做出更好看的網(wǎng)絡(luò)圖譜,還需要結(jié)合NSS軟件。如果你有一些文本型數(shù)據(jù),但是想用CiteSpace、VOSviewer等軟件作圖,那么你還需要結(jié)合TM文本挖掘軟件。

    四、微軟小冰智能聊天是如何實(shí)現(xiàn)的

    1關(guān)鍵詞匹配法:建立一個(gè)關(guān)鍵詞詞庫(kù),對(duì)用戶輸入的語(yǔ)句進(jìn)行關(guān)鍵詞匹配,然后調(diào)用相應(yīng)的知識(shí)庫(kù);

    2、基于搜索引擎、文本挖掘和自然語(yǔ)言處理等技術(shù)實(shí)現(xiàn):根據(jù)一段文本的語(yǔ)義,推測(cè)出用戶最有可能的意圖,然后從海量知識(shí)庫(kù)找出相似度最高的結(jié)果;

    3、基于深度挖掘和大數(shù)據(jù)技術(shù)來(lái)實(shí)現(xiàn)。

    以上就是關(guān)于文本挖掘關(guān)鍵詞提取相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    條件格式包含多個(gè)特定文本(條件格式包含多個(gè)特定文本怎么設(shè)置)

    小區(qū)景觀設(shè)計(jì)方案文本

    100個(gè)住宅小區(qū)景觀設(shè)計(jì)(住宅小區(qū)景觀設(shè)計(jì)方案文本)

    零食很嗨加盟電話(十大零食店加盟哪家好)

    熱門(mén)汽車suv排行榜(熱門(mén)汽車suv排行榜)