正文

搜索引擎的概念及其工作原理（搜索引擎的概念及其工作原理）

發(fā)布時(shí)間：2023-04-17 18:38:30 稿源：創(chuàng)意嶺閱讀： 138

大家好！今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于搜索引擎的概念及其工作原理的問(wèn)題，以下是小編對(duì)此問(wèn)題的歸納整理，讓我們一起來(lái)看看吧。

開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫(xiě)出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端

官網(wǎng)：https://ai.de1919.com。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè)，服務(wù)客戶遍布全球各地，如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043，或添加微信：1454722008

本文目錄:

1、什么是搜索引擎？
2、搜索引擎的基本工作原理包括哪三個(gè)過(guò)程
3、全文搜索引擎的工作原理是什么？
4、SEO搜索引擎工作原理是什么？

搜索引擎的概念及其工作原理（搜索引擎的概念及其工作原理）

一、什么是搜索引擎？

搜索引擎是一個(gè)對(duì)互聯(lián)網(wǎng)信息資源進(jìn)行搜索整理和分類(lèi)，并儲(chǔ)存在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中供用戶查詢的系統(tǒng)，包括信息搜集、信息分類(lèi)、用戶查詢?nèi)糠帧?/p>

工作原理

1.爬行：搜索引擎是通過(guò)一種特定規(guī)律的軟件跟蹤網(wǎng)頁(yè)的鏈接，從一個(gè)鏈接爬到另外一個(gè)鏈接，像蜘蛛在蜘蛛網(wǎng)上爬行一樣，所以被稱(chēng)為“蜘蛛”也被稱(chēng)為“機(jī)器人”。搜索引擎蜘蛛的爬行是被輸入了一定的規(guī)則的，它需要遵從一些命令或文件的內(nèi)容。

2.抓取存儲(chǔ)：搜索引擎是通過(guò)蜘蛛跟蹤鏈接爬行到網(wǎng)頁(yè)，并將爬行的數(shù)據(jù)存入原始頁(yè)面數(shù)據(jù)庫(kù)。其中的頁(yè)面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。搜索引擎蜘蛛在抓取頁(yè)面時(shí)，也做一定的重復(fù)內(nèi)容檢測(cè)，一旦遇到權(quán)重很低的網(wǎng)站上有大量抄襲、采集或者復(fù)制的內(nèi)容，很可能就不再爬行。

3.預(yù)處理：搜索引擎將蜘蛛抓取回來(lái)的頁(yè)面，進(jìn)行各種步驟的預(yù)處理。

二、搜索引擎的基本工作原理包括哪三個(gè)過(guò)程

搜索引擎的工作過(guò)程包括以下哪些步驟搜索引擎的基本工作原理包括如下三個(gè)過(guò)程：

1.爬行和抓?。菏紫仍诨ヂ?lián)網(wǎng)中發(fā)現(xiàn)、搜集網(wǎng)頁(yè)信息；

2.建立索引庫(kù)：同時(shí)對(duì)信息進(jìn)行提取和組織建立索引庫(kù)；

3.排名：再由檢索器根據(jù)用戶輸入的查詢關(guān)鍵字，在索引庫(kù)中快速檢出文檔，進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià)，對(duì)將要輸出的結(jié)果進(jìn)行排序，并將查詢結(jié)果返回給用戶

1、網(wǎng)頁(yè)抓取

Spider每遇到一個(gè)新文檔，都要搜索其頁(yè)面的鏈接網(wǎng)頁(yè)。搜索引擎蜘蛛訪問(wèn)web頁(yè)面的過(guò)程類(lèi)似普通用戶使用瀏覽器訪問(wèn)其頁(yè)面，即B/S模式。引擎蜘蛛先向頁(yè)面提出訪問(wèn)請(qǐng)求，服務(wù)器接受其訪問(wèn)請(qǐng)求并返回HTML代碼后，把獲取的HTML代碼存入原始頁(yè)面數(shù)據(jù)庫(kù)。

2、預(yù)處理，建立索引

為了便于用戶在數(shù)萬(wàn)億級(jí)別以上的原始網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中快速便捷地找到搜索結(jié)果，搜索引擎必須將spider抓取的原始web頁(yè)面做預(yù)處理。網(wǎng)頁(yè)預(yù)處理最主要過(guò)程是為網(wǎng)頁(yè)建立全文索引，之后開(kāi)始分析網(wǎng)頁(yè)，最后建立倒排文件（也稱(chēng)反向索引）

三、全文搜索引擎的工作原理是什么？

在浩如煙海的Internet上，特別是其上的Web（World Wide Web萬(wàn)維網(wǎng)）上，不會(huì)搜索，就不會(huì)上網(wǎng)。網(wǎng)蟲(chóng)朋友們，你了解搜索引擎嗎？它們是怎么工作的？你都使用哪些搜索引擎？今天我就和大家聊聊搜索引擎的話題。

一、搜索引擎的分類(lèi)

獲得網(wǎng)站網(wǎng)頁(yè)資料，能夠建立數(shù)據(jù)庫(kù)并提供查詢的系統(tǒng)，我們都可以把它叫做搜索引擎。按照工作原理的不同，可以把它們分為兩個(gè)基本類(lèi)別：全文搜索引擎（FullText Search Engine）和分類(lèi)目錄Directory）。

全文搜索引擎的數(shù)據(jù)庫(kù)是依靠一個(gè)叫“網(wǎng)絡(luò)機(jī)器人（Spider）”或叫“網(wǎng)絡(luò)蜘蛛（crawlers）”的軟件，通過(guò)網(wǎng)絡(luò)上的各種鏈接自動(dòng)獲取大量網(wǎng)頁(yè)信息內(nèi)容，并按以定的規(guī)則分析整理形成的。Google、百度都是比較典型的全文搜索引擎系統(tǒng)。

分類(lèi)目錄則是通過(guò)人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫(kù)的，比如雅虎中國(guó)以及國(guó)內(nèi)的搜狐、新浪、網(wǎng)易分類(lèi)目錄。另外，在網(wǎng)上的一些導(dǎo)航站點(diǎn)，也可以歸屬為原始的分類(lèi)目錄，比如“網(wǎng)址之家”。

全文搜索引擎和分類(lèi)目錄在使用上各有長(zhǎng)短。全文搜索引擎因?yàn)橐揽寇浖M(jìn)行，所以數(shù)據(jù)庫(kù)的容量非常龐大，但是，它的查詢結(jié)果往往不夠準(zhǔn)確；分類(lèi)目錄依靠人工收集和整理網(wǎng)站，能夠提供更為準(zhǔn)確的查詢結(jié)果，但收集的內(nèi)容卻非常有限。為了取長(zhǎng)補(bǔ)短，現(xiàn)在的很多搜索引擎，都同時(shí)提供這兩類(lèi)查詢，一般對(duì)全文搜索引擎的查詢稱(chēng)為搜索“所有網(wǎng)站”或“全部網(wǎng)站”，比如Google的全文搜索（http://www.google.com/intl/zh-CN/）；把對(duì)分類(lèi)目錄的查詢稱(chēng)為搜索“分類(lèi)目錄”或搜索“分類(lèi)網(wǎng)站”，比如新浪搜索和雅虎中國(guó)搜索（http://cn.search.yahoo.com/dirsrch/）。

在網(wǎng)上，對(duì)這兩類(lèi)搜索引擎進(jìn)行整合，還產(chǎn)生了其它的搜索服務(wù)，在這里，我們權(quán)且也把它們稱(chēng)作搜索引擎，主要有這兩類(lèi)：

⒈元搜索引擎(META Search Engine)。這類(lèi)搜索引擎一般都沒(méi)有自己網(wǎng)絡(luò)機(jī)器人及數(shù)據(jù)庫(kù)，它們的搜索結(jié)果是通過(guò)調(diào)用、控制和優(yōu)化其它多個(gè)獨(dú)立搜索引擎的搜索結(jié)果并以統(tǒng)一的格式在同一界面集中顯示。元搜索引擎雖沒(méi)有“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”，也無(wú)獨(dú)立的索引數(shù)據(jù)庫(kù)，但在檢索請(qǐng)求提交、檢索接口代理和檢索結(jié)果顯示等方面，均有自己研發(fā)的特色元搜索技術(shù)。比如“metaFisher元搜索引擎”

（http://www.hsfz.net/fish/），它就調(diào)用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的數(shù)據(jù)。

⒉集成搜索引擎（All－in－One Search Page）。集成搜索引擎是通過(guò)網(wǎng)絡(luò)技術(shù)，在一個(gè)網(wǎng)頁(yè)上鏈接很多個(gè)獨(dú)立搜索引擎，查詢時(shí)，點(diǎn)選或指定搜索引擎，一次輸入，多個(gè)搜索引擎同時(shí)查詢，搜索結(jié)果由各搜索引擎分別以不同頁(yè)面顯示，比如“網(wǎng)際瑞士軍刀”（http://free.okey.net/%7Efree/search1.htm）。

二、搜索引擎的工作原理

全文搜索引擎的“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”是一種網(wǎng)絡(luò)上的軟件，它遍歷Web空間，能夠掃描一定IP地址范圍內(nèi)的網(wǎng)站，并沿著網(wǎng)絡(luò)上的鏈接從一個(gè)網(wǎng)頁(yè)到另一個(gè)網(wǎng)頁(yè)，從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站采集網(wǎng)頁(yè)資料。它為保證采集的資料最新，還會(huì)回訪已抓取過(guò)的網(wǎng)頁(yè)。網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁(yè)，還要有其它程序進(jìn)行分析，根據(jù)一定的相關(guān)度算法進(jìn)行大量的計(jì)算建立網(wǎng)頁(yè)索引，才能添加到索引數(shù)據(jù)庫(kù)中。我們平時(shí)看到的全文搜索引擎，實(shí)際上只是一個(gè)搜索引擎系統(tǒng)的檢索界面，當(dāng)你輸入關(guān)鍵詞進(jìn)行查詢時(shí)，搜索引擎會(huì)從龐大的數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)的索引，并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎，網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)不同，排名規(guī)則也不盡相同，所以，當(dāng)我們以同一關(guān)鍵詞用不同的搜索引擎查詢時(shí)，搜索結(jié)果也就不盡相同。

和全文搜索引擎一樣，分類(lèi)目錄的整個(gè)工作過(guò)程也同樣分為收集信息、分析信息和查詢信息三部分，只不過(guò)分類(lèi)目錄的收集、分析信息兩部分主要依靠人工完成。分類(lèi)目錄一般都有專(zhuān)門(mén)的編輯人員，負(fù)責(zé)收集網(wǎng)站的信息。隨著收錄站點(diǎn)的增多，現(xiàn)在一般都是由站點(diǎn)管理者遞交自己的網(wǎng)站信息給分類(lèi)目錄，然后由分類(lèi)目錄的編輯人員審核遞交的網(wǎng)站，以決定是否收錄該站點(diǎn)。如果該站點(diǎn)審核通過(guò)，分類(lèi)目錄的編輯人員還需要分析該站點(diǎn)的內(nèi)容，并將該站點(diǎn)放在相應(yīng)的類(lèi)別和目錄中。所有這些收錄的站點(diǎn)同樣被存放在一個(gè)“索引數(shù)據(jù)庫(kù)”中。用戶在查詢信息時(shí)，可以選擇按照關(guān)鍵詞搜索，也可按分類(lèi)目錄逐層查找。如以關(guān)鍵詞搜索，返回的結(jié)果跟全文搜索引擎一樣，也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站。需要注意的是，分類(lèi)目錄的關(guān)鍵詞查詢只能在網(wǎng)站的名稱(chēng)、網(wǎng)址、簡(jiǎn)介等內(nèi)容中進(jìn)行，它的查詢結(jié)果也只是被收錄網(wǎng)站首頁(yè)的URL地址，而不是具體的頁(yè)面。分類(lèi)目錄就像一個(gè)電話號(hào)碼薄一樣，按照各個(gè)網(wǎng)站的性質(zhì)，把其網(wǎng)址分門(mén)別類(lèi)排在一起，大類(lèi)下面套著小類(lèi)，一直到各個(gè)網(wǎng)站的詳細(xì)地址，一般還會(huì)提供各個(gè)網(wǎng)站的內(nèi)容簡(jiǎn)介，用戶不使用關(guān)鍵詞也可進(jìn)行查詢，只要找到相關(guān)目錄，就完全可以找到相關(guān)的網(wǎng)站（注意：是相關(guān)的網(wǎng)站，而不是這個(gè)網(wǎng)站上某個(gè)網(wǎng)頁(yè)的內(nèi)容，某一目錄中網(wǎng)站的排名一般是按照標(biāo)題字母的先后順序或者收錄的時(shí)間順序決定的）。

搜索引擎并不真正搜索互聯(lián)網(wǎng)，它搜索的實(shí)際上是預(yù)先整理好的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。

真正意義上的搜索引擎，通常指的是收集了因特網(wǎng)上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè)并對(duì)網(wǎng)頁(yè)中的每一個(gè)詞（即關(guān)鍵詞）進(jìn)行索引，建立索引數(shù)據(jù)庫(kù)的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候，所有在頁(yè)面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結(jié)果被搜出來(lái)。在經(jīng)過(guò)復(fù)雜的算法進(jìn)行排序后，這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低，依次排列。

現(xiàn)在的搜索引擎已普遍使用超鏈分析技術(shù)，除了分析索引網(wǎng)頁(yè)本身的內(nèi)容，還分析索引所有指向該網(wǎng)頁(yè)的鏈接的URL、AnchorText、甚至鏈接周?chē)奈淖?。所以，有時(shí)候，即使某個(gè)網(wǎng)頁(yè)A中并沒(méi)有某個(gè)詞比如“惡魔撒旦”，但如果有別的網(wǎng)頁(yè)B用鏈接“惡魔撒旦”指向這個(gè)網(wǎng)頁(yè)A，那么用戶搜索“惡魔撒旦”時(shí)也能找到網(wǎng)頁(yè)A。而且，如果有越多網(wǎng)頁(yè)（C、D、E、F……）用名為“惡魔撒旦”的鏈接指向這個(gè)網(wǎng)頁(yè)A，或者給出這個(gè)鏈接的源網(wǎng)頁(yè)（B、C、D、E、F……）越優(yōu)秀，那么網(wǎng)頁(yè)A在用戶搜索“惡魔撒旦”時(shí)也會(huì)被認(rèn)為更相關(guān)，排序也會(huì)越靠前。

搜索引擎的原理，可以看做三步：從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)→建立索引數(shù)據(jù)庫(kù)→在索引數(shù)據(jù)庫(kù)中搜索排序。

從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)

利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序，自動(dòng)訪問(wèn)互聯(lián)網(wǎng)，并沿著任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè)，重復(fù)這過(guò)程，并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。

建立索引數(shù)據(jù)庫(kù)

由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析，提取相關(guān)網(wǎng)頁(yè)信息（包括網(wǎng)頁(yè)所在URL、編碼類(lèi)型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等），根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算，得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度（或重要性），然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。

在索引數(shù)據(jù)庫(kù)中搜索排序

當(dāng)用戶輸入關(guān)鍵詞搜索后，由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好，所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序，相關(guān)度越高，排名越靠前。

最后，由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶。

搜索引擎的Spider一般要定期重新訪問(wèn)所有網(wǎng)頁(yè)（各搜索引擎的周期不同，可能是幾天、幾周或幾月，也可能對(duì)不同重要性的網(wǎng)頁(yè)有不同的更新頻率），更新網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)，以反映出網(wǎng)頁(yè)內(nèi)容的更新情況，增加新的網(wǎng)頁(yè)信息，去除死鏈接，并根據(jù)網(wǎng)頁(yè)內(nèi)容和鏈接關(guān)系的變化重新排序。這樣，網(wǎng)頁(yè)的具體內(nèi)容和變化情況就會(huì)反映到用戶查詢的結(jié)果中。

互聯(lián)網(wǎng)雖然只有一個(gè)，但各搜索引擎的能力和偏好不同，所以抓取的網(wǎng)頁(yè)各不相同，排序算法也各不相同。大型搜索引擎的數(shù)據(jù)庫(kù)儲(chǔ)存了互聯(lián)網(wǎng)上幾億至幾十億的網(wǎng)頁(yè)索引，數(shù)據(jù)量達(dá)到幾千G甚至幾萬(wàn)G。但即使最大的搜索引擎建立超過(guò)二十億網(wǎng)頁(yè)的索引數(shù)據(jù)庫(kù)，也只能占到互聯(lián)網(wǎng)上普通網(wǎng)頁(yè)的不到30%，不同搜索引擎之間的網(wǎng)頁(yè)數(shù)據(jù)重疊率一般在70%以下。我們使用不同搜索引擎的重要原因，就是因?yàn)樗鼈兡芊謩e搜索到不同的內(nèi)容。而互聯(lián)網(wǎng)上有更大量的內(nèi)容，是搜索引擎無(wú)法抓取索引的，也是我們無(wú)法用搜索引擎搜索到的。

你心里應(yīng)該有這個(gè)概念：搜索引擎只能搜到它網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)里儲(chǔ)存的內(nèi)容。你也應(yīng)該有這個(gè)概念：如果搜索引擎的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)里應(yīng)該有而你沒(méi)有搜出來(lái)，那是你的能力問(wèn)題，學(xué)習(xí)搜索技巧可以大幅度提高你的搜索能力。

四、SEO搜索引擎工作原理是什么？

搜索引擎的基本工作原理包括如下三個(gè)過(guò)程：首先在互聯(lián)網(wǎng)中發(fā)現(xiàn)、搜集網(wǎng)頁(yè)信息；同時(shí)對(duì)信息進(jìn)行提取和組織建立索引庫(kù)；再由檢索器根據(jù)用戶輸入的查詢關(guān)鍵字，在索引庫(kù)中快速檢出文檔，進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià)，對(duì)將要輸出的結(jié)果進(jìn)行排序，并將查詢結(jié)果返回給用戶。

以上就是關(guān)于搜索引擎的概念及其工作原理相關(guān)問(wèn)題的回答。希望能幫到你，如有更多相關(guān)問(wèn)題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。