-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
搜索引擎分哪三類(搜索引擎分哪三類)
大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于搜索引擎分哪三類的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。
開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、搜索引擎有哪幾類?區(qū)別是什么?
搜索引擎主要有
目錄式搜索引擎
、關(guān)鍵詞全文搜索引擎和
元搜索引擎
三類。區(qū)別是目錄式搜索引擎是基于目錄檢索,關(guān)鍵詞全文搜索引擎是基于關(guān)鍵詞搜索,元搜索引擎是搜索引擎的搜索引擎,沒(méi)有自己的搜索引擎。
二、搜索引擎分為幾類
可分為三種 搜索引擎分類 搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 全文搜索引擎 全文搜索引擎是名副其實(shí)的搜索引擎,國(guó)外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國(guó)內(nèi)著名的有百度(Baidu)。它們都是通過(guò)從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主)而建立的數(shù)據(jù)庫(kù)中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。 從搜索結(jié)果來(lái)源的角度,全文搜索引擎又可細(xì)分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,并自建網(wǎng)頁(yè)數(shù)據(jù)庫(kù),搜索結(jié)果直接從自身的數(shù)據(jù)庫(kù)中調(diào)用,如上面提到的7家引擎;另一種則是租用其他引擎的數(shù)據(jù)庫(kù),并按自定的格式排列搜索結(jié)果,如Lycos引擎。 目錄索引 目錄索引雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過(guò)于大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國(guó)內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。 元搜索引擎(META Search Engine) 元搜索引擎在接受用戶查詢請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來(lái)源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。 除上述三大類引擎外,還有以下幾種非主流形式: 集合式搜索引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎,但區(qū)別在于不是同時(shí)調(diào)用多個(gè)引擎進(jìn)行搜索,而是由用戶從提供的4個(gè)引擎當(dāng)中選擇,因此叫它“集合式”搜索引擎更確切些。 門戶搜索引擎:如AOL Search、MSN Search等雖然提供搜索服務(wù),但自身即沒(méi)有分類目錄也沒(méi)有網(wǎng)頁(yè)數(shù)據(jù)庫(kù),其搜索結(jié)果完全來(lái)自其他引擎。 免費(fèi)鏈接列表(Free For All Links,簡(jiǎn)稱FFA):這類網(wǎng)站一般只簡(jiǎn)單地滾動(dòng)排列鏈接條目,少部分有簡(jiǎn)單的分類目錄,不過(guò)規(guī)模比起Yahoo等目錄索引來(lái)要小得多。 由于上述網(wǎng)站都為用戶提供搜索查詢服務(wù),為方便起見(jiàn),我們通常將其統(tǒng)稱為搜索引擎。 搜索引擎基本工作原理 了解搜索引擎的工作原理對(duì)我們?nèi)粘K阉鲬?yīng)用和網(wǎng)站提交推廣都會(huì)有很大幫助。 全文搜索引擎 在搜索引擎分類部分我們提到過(guò)全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的概念。搜索引擎的自動(dòng)信息搜集功能分兩種。一種是定期搜索,即每隔一段時(shí)間(比如Google一般是28天),搜索引擎主動(dòng)派出“蜘蛛”程序,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù)。 另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫(kù),以備用戶查詢。由于近年來(lái)搜索引擎索引規(guī)則發(fā)生了很大變化,主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫(kù),因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機(jī)會(huì)找到你并自動(dòng)將你的網(wǎng)站收錄。 當(dāng)用戶以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫(kù)中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁(yè)中關(guān)鍵詞的匹配程度,出現(xiàn)的位置/頻次,鏈接質(zhì)量等——計(jì)算出各網(wǎng)頁(yè)的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁(yè)鏈接返回給用戶。 目錄索引 與全文搜索引擎相比,目錄索引有許多不同之處。 首先,搜索引擎屬于自動(dòng)網(wǎng)站檢索,而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目錄編輯人員會(huì)親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評(píng)判標(biāo)準(zhǔn)甚至編輯人員的主觀印象,決定是否接納你的網(wǎng)站。 其次,搜索引擎收錄網(wǎng)站時(shí),只要網(wǎng)站本身沒(méi)有違反有關(guān)的規(guī)則,一般都能登錄成功。而目錄索引對(duì)網(wǎng)站的要求則高得多,有時(shí)即使登錄多次也不一定成功。尤其象Yahoo!這樣的超級(jí)索引,登錄更是困難。(由于登錄Yahoo!的難度最大,而它又是商家網(wǎng)絡(luò)營(yíng)銷必爭(zhēng)之地,所以我們會(huì)在后面用專門的篇幅介紹登錄Yahoo雅虎的技巧) 此外,在登錄搜索引擎時(shí),我們一般不用考慮網(wǎng)站的分類問(wèn)題,而登錄目錄索引時(shí)則必須將網(wǎng)站放在一個(gè)最合適的目錄(Directory)。 最后,搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁(yè)中自動(dòng)提取的,所以用戶的角度看,我們擁有更多的自主權(quán);而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適,他可以隨時(shí)對(duì)其進(jìn)行調(diào)整,當(dāng)然事先是不會(huì)和你商量的。 目錄索引,顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中,因此用戶在查詢信息時(shí),可選擇關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站,只不過(guò)其中人為因素要多一些。如果按分層目錄查找,某一目錄中網(wǎng)站的排名則是由標(biāo)題字母的先后順序決定(也有例外)。 目前,搜索引擎與目錄索引有相互融合滲透的趨勢(shì)。原來(lái)一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過(guò)與Google等搜索引擎合作擴(kuò)大搜索范圍。在默認(rèn)搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網(wǎng)站,如國(guó)內(nèi)搜狐、新浪、網(wǎng)易等;而另外一些則默認(rèn)的是網(wǎng)頁(yè)搜索,如Yahoo。 搜索引擎的第三定律 搜索引擎走到今天,已經(jīng)是一個(gè)結(jié)束過(guò)去,開辟未來(lái)的時(shí)候了。為了說(shuō)清楚我所講的第三定律,我們先來(lái)回顧一下第一和第二定律。 第一定律 相關(guān)性定律 聽起來(lái)象是一篇學(xué)術(shù)論文,的確,就連第一,第二定律的提法以前也沒(méi)有過(guò),但是第一,第二定律的內(nèi)容確早已在業(yè)界和學(xué)術(shù)界得到了公認(rèn)。其實(shí)這第一定律是早在互聯(lián)網(wǎng)出現(xiàn)之前就被學(xué)術(shù)界廣泛研究過(guò)的,那就是所謂的相關(guān)性定律。這個(gè)領(lǐng)域那時(shí)叫情報(bào)檢索,或信息檢索,也有叫全文檢索的。 那時(shí)的相關(guān)性都是基于詞頻統(tǒng)計(jì)的,也就是說(shuō),當(dāng)用戶輸入檢索詞時(shí),搜索引擎去找那些檢索詞在文章(網(wǎng)頁(yè))中出現(xiàn)頻率較高的,位置較重要的,再加上一些對(duì)檢索詞本身常用程度的加權(quán),最后排出一個(gè)結(jié)果來(lái)(檢索結(jié)果頁(yè)面) 。早期的搜索引擎結(jié)果排序都是基于本文的第一定律的,如Infoseek,Excite,Lycos等,它們基本上是沿用了網(wǎng)絡(luò)時(shí)代之前學(xué)術(shù)界的研究成果,工業(yè)界的主要精力放在處理大訪問(wèn)量和大數(shù)據(jù)量上,對(duì)相關(guān)性排序沒(méi)有突破。 詞頻統(tǒng)計(jì)其實(shí)根本沒(méi)有利用任何跟網(wǎng)絡(luò)有關(guān)的特性,是前網(wǎng)絡(luò)時(shí)代的技術(shù)。然而,網(wǎng)絡(luò)時(shí)代的主要文獻(xiàn)是以網(wǎng)頁(yè)的形式存在的,而幾乎每個(gè)人都可以隨心所欲地在網(wǎng)上發(fā)表各種內(nèi)容,詞頻相同的兩個(gè)網(wǎng)頁(yè),質(zhì)量相差可以很遠(yuǎn),可是按照搜索引擎的第一定律,對(duì)這兩個(gè)網(wǎng)頁(yè)的排序應(yīng)該是一樣的。為了能夠派在某些檢索結(jié)果的前幾位,許多網(wǎng)頁(yè)內(nèi)容的制作者絞盡腦汁,在其頁(yè)面上堆砌關(guān)鍵詞,搜索引擎對(duì)此防不勝防,苦不堪言。這種情況到了 1996年開始有了改變。 第二定律 人氣質(zhì)量定律 1996年4月,我到賭城拉斯維加斯開一個(gè)有關(guān)信息檢索方面的學(xué)術(shù)會(huì)議,會(huì)議的內(nèi)容就象拉斯維加斯的天氣一樣,照例比較枯燥乏味。但遠(yuǎn)離公司的我,卻難得有一個(gè)靜下心來(lái)認(rèn)真思考問(wèn)題的機(jī)會(huì)。就在聽一個(gè)毫不相干的論文演講的時(shí)候,我突然把科學(xué)引文索引的機(jī)制跟Web上的超級(jí)鏈接聯(lián)系起來(lái)了 - 感謝北大,她在我上大三的時(shí)候就教授了我科學(xué)引文索引的機(jī)制,美國(guó)恐怕沒(méi)有一所大學(xué)會(huì)在你本科的時(shí)候教這玩藝兒。 科學(xué)引文索引的機(jī)制,說(shuō)白了就是誰(shuí)的論文被引用次數(shù)多,誰(shuí)就被認(rèn)為是權(quán)威,論文就是好論文。這個(gè)思路移植到網(wǎng)上就是誰(shuí)的網(wǎng)頁(yè)被鏈接次數(shù)多,那個(gè)網(wǎng)頁(yè)就被認(rèn)為是質(zhì)量高,人氣旺。在加上相應(yīng)的鏈接文字分析,就可以用在搜索結(jié)果的排序上了。這就引出了搜索引擎的第二定律:人氣質(zhì)量定律。根據(jù)這一定律,搜索結(jié)果的相關(guān)性排序,并不完全依賴于詞頻統(tǒng)計(jì),而是更多地依賴于超鏈分析。 我意識(shí)到這是一個(gè)突破性的東西,回去以后就很快總結(jié)了思路,于96年6月申請(qǐng)了這一方面的美國(guó)專利。1999年 7月6號(hào),美國(guó)專利和商標(biāo)局批準(zhǔn)了專利號(hào)為5,920,859的,以我為唯一發(fā)明人的專利。大約在96年底,斯坦福大學(xué)計(jì)算機(jī)系的兩位研究生也想到了同樣的解決方法,他們后來(lái)創(chuàng)立了一個(gè)叫Google的搜索引擎,Google的網(wǎng)站上至今仍然說(shuō)他們的這項(xiàng)技術(shù)是Patent-pending (專利申請(qǐng)中) ,不知道美國(guó)專利局是不是還會(huì)再批這樣的專利。Anyway, 超鏈分析的方法98年以后逐漸被各大搜索引擎所接受,由于鏈接是網(wǎng)絡(luò)內(nèi)容的一個(gè)根本特性,這時(shí)候的搜索引擎才開始真正利用網(wǎng)絡(luò)時(shí)代的檢索技術(shù)。 世事難料,2000年起網(wǎng)絡(luò)泡沫迅速破滅,各大搜索引擎要么遭人收購(gòu),要么推遲上市,所有使用人氣質(zhì)量定律的搜索引擎公司都未能幸免。那么,搜索引擎的出路到底在哪兒? 第三定律 自信心定律 人氣質(zhì)量定律解決的還是一個(gè)技術(shù)層面的問(wèn)題,然而搜索引擎從誕生的那一天起,從來(lái)就不是一個(gè)純技術(shù)現(xiàn)像,它融合了技術(shù),文化,市場(chǎng)等各個(gè)層面的因素。解決搜索引擎公司的生存和發(fā)展問(wèn)題需要搜索引擎的第三定律--自信心定律。 1998年的時(shí)候,沒(méi)有太多的人拿一家遠(yuǎn)在硅谷500英里以外,剛剛成立的,叫作GoTo.com(現(xiàn)已更名為Overture)的公司當(dāng)回事兒。它不過(guò)是買了一個(gè)搜索引擎的技術(shù)服務(wù),然后再向那些網(wǎng)站的擁有者們拍賣他們網(wǎng)站在GoTo檢索結(jié)果中的排名,誰(shuí)付的錢多,誰(shuí)的網(wǎng)站就排在前面,而且付費(fèi)是根據(jù)網(wǎng)民點(diǎn)擊該網(wǎng)站的情況來(lái)計(jì)算的,僅僅在搜索結(jié)果中出現(xiàn)并不需要付費(fèi)。這就是自信心定律的最早實(shí)踐者!根據(jù)這一定律,搜索結(jié)果的相關(guān)性排序,除了詞頻統(tǒng)計(jì)和超鏈分析之外,更注重的是競(jìng)價(jià)拍賣。誰(shuí)對(duì)自己的網(wǎng)站有信心,誰(shuí)就排在前面。有信心的表現(xiàn)就是愿意為這個(gè)排名付錢。需要聲明的是,自信心定律也是我自己給這一模式起的名字,以前的文獻(xiàn)中并沒(méi)有人這樣總結(jié)過(guò)。 今天,在網(wǎng)絡(luò)業(yè)一片蕭條,那斯達(dá)克風(fēng)聲鶴唳的時(shí)候,GoTo卻如日中天,市值高達(dá)13億美金,收入高達(dá)雅虎總收入的35%。反觀門戶網(wǎng)站,有哪一個(gè)能從它們的搜索引擎服務(wù)中賺出總收入的三分之一呢?究其原因,就是因?yàn)镚oTo最早實(shí)踐了搜索引擎的自信心定律。以前的搜索引擎都是靠CPM來(lái)收費(fèi)的,而CPM是從傳統(tǒng)廣告業(yè)借鑒過(guò)來(lái)的,沒(méi)有考慮網(wǎng)絡(luò)媒體即時(shí)性,交互性,易競(jìng)價(jià)的特點(diǎn),而競(jìng)價(jià)排名,點(diǎn)擊收費(fèi)則是為網(wǎng)站擁有者直接提供銷售線索,而不是傳統(tǒng)意義上的廣告宣傳。自信心定律一改過(guò)去搜索引擎靠CPM收錢的尷尬局面,開創(chuàng)了真正屬于互聯(lián)網(wǎng)的收費(fèi)模式。
三、中國(guó)搜索引擎檢索的主要方式有哪兩種?
現(xiàn)有的搜索引擎基本上分為三類:
1.1 single search engine(獨(dú)立搜索引擎) 它的特點(diǎn)是僅在搜索引擎自身的數(shù)據(jù)庫(kù)檢索信息,比如Yahoo。
1.2 Meta search engine(元搜索引擎) 它在檢索信息時(shí)通過(guò)調(diào)用其它多個(gè)獨(dú)立的搜索引擎來(lái)完成檢索功能,并且能夠?qū)亩鄠€(gè)獨(dú)立搜索引擎查詢的結(jié)果進(jìn)行不同程度的處理,比如刪除重復(fù)結(jié)果、校驗(yàn)連接、結(jié)果按照相關(guān)度排序等。元搜索引擎本身可以有也可以沒(méi)有自己的數(shù)據(jù)庫(kù)。由于不同的元搜索引擎掛接的獨(dú)立搜索引擎各不相同,且各自獨(dú)立的搜索引擎在查詢語(yǔ)法上的差別較大,使得元搜索引擎本身僅支持AND、0R、N0T等簡(jiǎn)單的語(yǔ)法操作,返回的結(jié)果只能滿足“最低常用分母”,即不能提高搜索結(jié)果的準(zhǔn)確性。
1.3 Net search engine(網(wǎng)絡(luò)搜索軟件) 就是網(wǎng)絡(luò)用戶可以將相應(yīng)的搜索軟件下載至本地的計(jì)算機(jī)上,安裝查詢,這是一種具有網(wǎng)絡(luò)查詢功能的離線瀏覽器。相對(duì)于元搜索引擎,它可以靈活地控制輸出結(jié)果,其最大特點(diǎn)是方便用戶使用和能快速地查詢網(wǎng)絡(luò)相關(guān)資源。2 網(wǎng)絡(luò)搜索引擎的工作原理及其基本構(gòu)成
用戶檢索信息時(shí),搜索引擎是根據(jù)用戶的查詢要求,按照一定的算法從索引數(shù)據(jù)庫(kù)中查找對(duì)應(yīng)的信息返回給用戶。為了保證用戶查找信息的精度和新鮮度。對(duì)于獨(dú)立的搜索引擎而言.還需要建立并維護(hù)一個(gè)龐大的數(shù)據(jù)庫(kù)。獨(dú)立搜索引擎中的索引數(shù)據(jù)庫(kù)中的信息是通過(guò)一種叫做網(wǎng)絡(luò)蜘蛛(spider)的程序軟件定期在網(wǎng)上爬行,通過(guò)訪問(wèn)公共網(wǎng)絡(luò)中公開區(qū)域的每一個(gè)站點(diǎn)采集網(wǎng)頁(yè),對(duì)網(wǎng)絡(luò)信息資源進(jìn)行收集,然后利用索引軟件對(duì)收集的信息進(jìn)行自動(dòng)標(biāo)引,創(chuàng)建一個(gè)可供用戶按照關(guān)鍵字等進(jìn)行查詢的web頁(yè)索引數(shù)據(jù)庫(kù),搜索軟件通過(guò)索引數(shù)據(jù)庫(kù)為用戶提供查詢服務(wù)。所以,一般的搜索引擎主要由網(wǎng)絡(luò)蜘蛛、索引和搜索軟件三部分組成.
網(wǎng)絡(luò)蜘蛛。是一個(gè)功能很強(qiáng)的程序,它會(huì)定期根據(jù)預(yù)先設(shè)定的地址去查看對(duì)應(yīng)的網(wǎng)頁(yè),如網(wǎng)頁(yè)發(fā)生變化則重新獲取該網(wǎng)頁(yè),否則根據(jù)該網(wǎng)頁(yè)中的鏈接繼續(xù)去訪問(wèn)。網(wǎng)絡(luò)蜘蛛訪問(wèn)頁(yè)面的過(guò)程是對(duì)互連網(wǎng)上信息遍歷的過(guò)程。為了保證網(wǎng)絡(luò)蜘蛛遍歷信息的廣度,一般事先設(shè)定_ 些重要的鏈接,然后進(jìn)行遍歷。在遍歷的過(guò)程中不斷記錄網(wǎng)頁(yè)中的鏈接,不斷地遍歷下去,直到訪問(wèn)完所有的鏈接。
索引軟件。網(wǎng)絡(luò)蜘蛛將遍歷搜索集得到的網(wǎng)頁(yè)存放在數(shù)據(jù)庫(kù)中。為了提高檢索的效率,需要建立索引。索引一般為倒排檔索引。
搜索軟件。該軟件用于篩選索引數(shù)據(jù)庫(kù)中無(wú)數(shù)的網(wǎng)頁(yè)信息,選擇出符合用戶檢索要求的網(wǎng)頁(yè)并對(duì)它們進(jìn)行分級(jí)排序。然后將分級(jí)排序后的結(jié)果顯示給用戶。
3 搜索引擎的主要性能評(píng)價(jià)指標(biāo)
3.1 搜索引擎建立索引的方法 數(shù)據(jù)庫(kù)中的索引一般是按照倒排文檔的文件格式存放,在建立例排索引的時(shí)候,不同的搜索引擎有不同的選項(xiàng)。有些搜索引擎對(duì)于信息頁(yè)面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;還有些搜索引擎,比如Google建立索引的時(shí)候,同時(shí)還考慮超文本的不同標(biāo)記所表示的不同含義。如粗體、大字體顯示的東西往往比較重要;放在錨鏈中的信息往往是它所指向頁(yè)面的信息的概括,所以用它來(lái)作為所指向的頁(yè)面的重要信息。Google、infoseek還在建立索引的過(guò)程中收集頁(yè)面中的超鏈接。這些超鏈接反映了收集到的信息之間的空間結(jié)構(gòu),利用這些結(jié)果信息可以提高頁(yè)面相關(guān)度判別時(shí)的準(zhǔn)確度。由于索引不同,在檢索信息時(shí)產(chǎn)生的結(jié)果會(huì)不同。
3.2 搜索引擎的檢索功能搜索引擎所支持的檢索功能的多少及其實(shí)現(xiàn)的優(yōu)劣,直接決定了檢索效果的好壞,所以網(wǎng)絡(luò)檢索工具除了要支持諸如布爾檢索、鄰近檢索、截詞檢索、字段檢索等基本的檢索功能之外,更應(yīng)該根據(jù)網(wǎng)上信息資源的變化,及時(shí)地應(yīng)用新技術(shù)、新方法,提高高級(jí)檢索功能。另外,由于中文信息特有的編碼不統(tǒng)一問(wèn)題,所以如果搜索引擎能夠?qū)崿F(xiàn)不同內(nèi)碼之間的自動(dòng)轉(zhuǎn)換,用戶就會(huì)全面檢索大陸、港臺(tái)乃至全世界的中文信息。這樣不但提高了搜索引擎的質(zhì)量,而且會(huì)得到用戶的支持。
3.3 搜索引擎的檢索效果 檢索效果可以從響應(yīng)時(shí)間、查全率、查準(zhǔn)率和相關(guān)度方面來(lái)衡量。響應(yīng)時(shí)間是用戶輸入檢索式開始查詢到檢出結(jié)果的時(shí)間。查全率是指一次搜索結(jié)果中符合用戶要求的數(shù)目與和用戶查詢相關(guān)的總數(shù)之比;查準(zhǔn)率是指一次搜索結(jié)果集中符合用戶要求的數(shù)目與該次搜索結(jié)果總數(shù)之比;相似度是指用戶查詢與搜索結(jié)果之間相似度的一種度量。雖然由于無(wú)法估計(jì)網(wǎng)絡(luò)上與某個(gè)檢索提問(wèn)相關(guān)的所有信息數(shù)量。所以目前尚沒(méi)有定量計(jì)算查全率的更好方法,但是它作為評(píng)價(jià)檢索效果的指標(biāo)還是值得保留。查準(zhǔn)率也是一個(gè)復(fù)雜的概念,一方面表示搜索引擎對(duì)搜索結(jié)果的排序,另一方面卻體現(xiàn)了搜索引擎對(duì)垃圾網(wǎng)頁(yè)的抗干擾能力??傊粋€(gè)好的搜索引輦應(yīng)該具有較快的響應(yīng)速度和高的查全率和查準(zhǔn)率,或者有極大的相似度。
3.4 搜索引擎的受歡迎程度 搜索引擎的受歡迎程度體現(xiàn)了用戶對(duì)于搜索引擎的偏愛(ài)程度,知名度高、性能穩(wěn)定和搜索質(zhì)量好的搜索引擎很受用戶的青睞。搜索引擎的受歡迎程度也會(huì)隨著它的知名度和服務(wù)水平的變化而動(dòng)態(tài)的變化。搜索引擎的服務(wù)水平和它所收集的信息量、信息的新鮮度和查詢的精度相關(guān)。隨著各種新的搜索技術(shù)的出現(xiàn),智能化的、支持多媒體檢索的搜索引擎將越來(lái)越受用戶的歡迎。
另外,搜索引擎的信息占有量也可以作為評(píng)價(jià)搜索引擎性能的指標(biāo)。綜上所述,評(píng)價(jià)搜索引擎的性能指標(biāo)可以概括為:a.建立索引的方法(全文索引,部分索引,按重要程度索引等);b.檢索功能(支持的檢索技術(shù),多媒體檢索,內(nèi)碼處理等);C.查詢效果(響應(yīng)時(shí)間,查全率,查準(zhǔn)率,相關(guān)度);d.受歡迎程度;e.信息占有量。4 搜索引擎檢索信息的局限
2001年Roper的調(diào)查指出,36% 的互連網(wǎng)用戶一個(gè)星期花超過(guò)2個(gè)小時(shí)的時(shí)間在網(wǎng)上搜索;71% 的用戶在使用搜索引擎時(shí)遇到過(guò)麻煩;平均搜索12分鐘以后發(fā)現(xiàn)搜索受挫。另一項(xiàng)由Keen所做的調(diào)查顯示,31% 的人使用搜索引擎尋找答案,網(wǎng)上查找答案的半數(shù)以上都不成功。從這些調(diào)查數(shù)據(jù)中不難看出。目前的搜索引擎仍然存在不少的局限性。概括起來(lái)大致有以下幾個(gè)方面。
4.1 搜索引擎對(duì)信息的標(biāo)引深度不夠 目前,搜索引擎檢索的結(jié)果往往只提供一些線形的網(wǎng)址和包括關(guān)鍵詞的網(wǎng)頁(yè)信息,與人們對(duì)它的預(yù)期存在較大的距離,或者返回過(guò)多的無(wú)用信息,或者信息丟失,特別是對(duì)特定的文獻(xiàn)數(shù)據(jù)庫(kù)的檢索顯得無(wú)能為力。
4.2 搜索引擎的信息量占有不足 作為搜索引擎必須占有相當(dāng)大的信息量才能具有一定的查全率和實(shí)用性。目前還沒(méi)有一種覆蓋整個(gè)因特網(wǎng)信息資源的搜索引擎。
4.3 搜索引擎的查準(zhǔn)率不高 分析起來(lái),這是因?yàn)椋阂环矫嬗捎诰W(wǎng)上信息數(shù)量巨大、內(nèi)容龐大、良莠不齊,信息的質(zhì)量得不到保障;另一方面是由于大多數(shù)搜索引擎的索引工作由程序自動(dòng)完成,根據(jù)網(wǎng)頁(yè)中詞頻及詞的位置等因素確定關(guān)鍵詞,有的網(wǎng)站為了提高點(diǎn)擊率,將一些與網(wǎng)頁(yè)主題并不相關(guān)的熱門詞匯以隱含方式放在頁(yè)面上,并重復(fù)多次,從而造成查準(zhǔn)率低。
4.4 檢索功能單一,缺乏靈活性 目前許多搜索引擎的查詢方法比較單一,一般只提供分類查詢方式和關(guān)鍵詞查詢方式。不能從文獻(xiàn)的多個(gè)方面對(duì)檢索提問(wèn)進(jìn)行限制,只能就某一關(guān)鍵詞或者概念進(jìn)行籠統(tǒng)的檢索。
4.5 搜索引擎自身的技術(shù)局限像目前部分搜索引擎還不能支持對(duì)多媒體信息的檢索。造成上述信息檢索困難的原因?qū)嵸|(zhì)在于搜索引擎對(duì)要檢索的信息僅僅采用機(jī)械的詞語(yǔ)匹配來(lái)實(shí)現(xiàn),缺乏知識(shí)處理能力和理解能力。也就是說(shuō)搜索引擎無(wú)法處理用戶看來(lái)是非常普通的常識(shí)性知識(shí),更不能處理隨用戶不同而變化的個(gè)性化知識(shí)、隨地域不同而變化的區(qū)域性知識(shí)以及隨領(lǐng)域不同而變化的專業(yè)性知識(shí)等等。5 搜索引擎未來(lái)的發(fā)展趨勢(shì)
新一代搜索引擎的發(fā)展目標(biāo)就是采用新興的搜索技術(shù)為用戶提供更方便易用、更精確的搜索工具來(lái)滿足用戶的信息查詢需要。技術(shù)上,應(yīng)該在自然語(yǔ)言理解技術(shù)上有所突破,以XML可擴(kuò)展標(biāo)記語(yǔ)言為主,并使用向?qū)Ъ夹g(shù)。下面就搜索引擎的發(fā)展趨勢(shì)談幾點(diǎn)看法。
<strong>答案補(bǔ)充</strong>
5.1 垂直化專業(yè)領(lǐng)域搜索 由于社會(huì)分工的加大,用戶從事的職業(yè)有所不同,不同用戶對(duì)信息搜索也往往有自己的專業(yè)要求。由于綜合性的搜索引擎收錄各方面、各學(xué)科、各行業(yè)的信息,因而搜索不相關(guān)的信息太多,專業(yè)垂直引擎則可以解決這個(gè)問(wèn)題,垂直類搜索引擎是只面向某一特定的領(lǐng)域,專注于自己的特長(zhǎng)和核心技術(shù),能夠保證對(duì)該領(lǐng)域信息的完全收錄與及時(shí)更新。因此,基于專業(yè)領(lǐng)域的“垂直搜索引擎”開始成為搜索引擎發(fā)展的一個(gè)新趨勢(shì)。
5.2 智能化搜索 傳統(tǒng)的搜索引擎使用方法是被動(dòng)搜索,而準(zhǔn)確的搜索應(yīng)建立在對(duì)收錄信息和搜索請(qǐng)求的理解之上。顯然,基于自然語(yǔ)言理解技術(shù)的搜索引擎由于可以同用戶使用自然語(yǔ)言交談,并深刻理解用戶的搜索請(qǐng)求,則查詢的結(jié)果更
加準(zhǔn)確。
5.3 關(guān)聯(lián)式的綜合搜索 所謂關(guān)聯(lián)式綜合搜索,是這樣一種一站式的搜索服務(wù),它使得用戶在搜索時(shí)只需要輸入一次查詢目標(biāo),即可以在同一界面得到各種有關(guān)聯(lián)的查詢結(jié)果,這種服務(wù)的關(guān)鍵在于有一架構(gòu)在XML基礎(chǔ)上的整合資訊平臺(tái)。<strong>答案補(bǔ)充</strong>
5.4 個(gè)性化搜索 提高搜索精確度的另一個(gè)途徑是提供個(gè)性化的搜索,也就是將搜索建立在個(gè)性化的搜索環(huán)境之下,其核心是跟蹤用戶的搜索行為,通過(guò)對(duì)用戶的不斷了解、分析,積累用戶的搜索個(gè)性化數(shù)據(jù)來(lái)提高用戶的搜索效率。
5.5 結(jié)構(gòu)化搜索 所謂結(jié)構(gòu)化搜索,是指充分利用XML等技術(shù)使信息結(jié)構(gòu)化,同時(shí)使用查詢結(jié)構(gòu)化,從而使搜索的準(zhǔn)確度大大提高。
5.6 本土化的搜索 世界上許多著名的搜索引擎都在美國(guó),它們以英語(yǔ)為基礎(chǔ),完全按他們的思維方式和觀點(diǎn)搜集和檢索資料,這對(duì)于全球不同國(guó)家的用戶來(lái)說(shuō)是顯然不合適的。各國(guó)的文化傳統(tǒng)、思維方式和生活習(xí)慣不同,在對(duì)于網(wǎng)站的內(nèi)容的搜索要求上也就存在差異。搜索結(jié)果要符合當(dāng)?shù)赜脩舻囊?,搜索引擎就必須本土化?/p>
5.7 多媒體搜索。隨著寬帶技術(shù)的發(fā)展,未來(lái)的互聯(lián)網(wǎng)是多媒體數(shù)據(jù)的時(shí)代,開發(fā)出可查詢圖像、聲音、圖片和電影的搜索引擎是一個(gè)新的方向,這也將極大地滿足用戶的需求。未來(lái)的搜索引擎應(yīng)該信息量更大、搜索速度更快、搜索精度更高和更能夠滿足用戶的信息查詢需求。
四、目錄索引類,元,全文搜索引擎有哪些?
搜索引擎按照工作方式可以分為三類:1、目錄搜索引擎:目錄搜索引擎主要有yahoo!、LookSmart、About、DMOZ、Galaxy等。2、全文搜索引擎:全文搜索引擎主要有Google、百度、AltaVista、Inktomi、Alltheweb等。3、元搜索引擎:元搜索引擎主要有InfoSpace、Dogpile、Vivisimo、北大天網(wǎng)、搜狐、Lycos、Meta crawler等。
以上就是關(guān)于搜索引擎分哪三類相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
找關(guān)鍵詞的三種方法(怎樣精準(zhǔn)搜索關(guān)鍵詞)
如何搜索園林景觀設(shè)計(jì)(如何搜索園林景觀設(shè)計(jì)資源)
類似深度搜索一樣的搜索工具(類似深度搜索一樣的搜索工具的軟件)
公司ai設(shè)計(jì)(公司ai設(shè)計(jì)是什么意思)