-
當前位置:首頁 > 創(chuàng)意學院 > 技術 > 專題列表 > 正文
搜索引擎的工作原理有哪些(搜索引擎的工作原理有哪些內容)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關于搜索引擎的工作原理有哪些的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關鍵詞,就能返回你想要的內容,越精準,寫出的就越詳細,有微信小程序端、在線網頁版、PC客戶端
創(chuàng)意嶺作為行業(yè)內優(yōu)秀的企業(yè),服務客戶遍布全球各地,如需了解SEO相關業(yè)務請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、搜索引擎工作原理
一、工具:電腦
二、操作步驟
1.抓取
讀取網頁的內容,找到在網頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網頁,這樣一直循環(huán)下去,直到把這個網站所有的網頁都抓取完為止。如果把整個互聯(lián)網當成一個網站,那么網絡蜘蛛就可以用這個原理把互聯(lián)網上所有的網頁都抓取下來,被抓取的網頁被稱之為網頁快照。
2.數(shù)據庫處理
搜索引擎抓到網頁后,還要做大量的預處理工作,才能提供檢索服務。其中有,網站數(shù)據庫,就是動態(tài)網站存放網站數(shù)據的空間。索引數(shù)據庫,索引是對數(shù)據庫表中一列或多列的值進行排序的一種結構,使用索引可快速訪問數(shù)據庫表中的特定信息。簡單的來說,就是把【抓取】的網頁放進數(shù)據庫。
3.分析檢索服務
搜索引擎從索引數(shù)據庫中找到匹配該關鍵詞的網頁;
4.對收集的結果進行排序
把收集來的網頁進行排序,把這些進行最終的排序。
注意事項:蜘蛛程序url抓取頁面--存儲---原始頁面。
二、搜索引擎的工作原理
第一步:爬行
搜索引擎是通過一種特定規(guī)律的軟件跟蹤網頁的鏈接,從一個鏈接爬到另外一個鏈接,像蜘蛛在蜘蛛網上爬行一樣,所以被稱為“蜘蛛”也被稱為“機器人”。搜索引擎蜘蛛的爬行是被輸入了一定的規(guī)則的,它需要遵從一些命令或文件的內容。
第二步:抓取存儲
搜索引擎是通過蜘蛛跟蹤鏈接爬行到網頁,并將爬行的數(shù)據存入原始頁面數(shù)據庫。其中的頁面數(shù)據與用戶瀏覽器得到的HTML是完全一樣的。搜索引擎蜘蛛在抓取頁面時,也做一定的重復內容檢測,一旦遇到權重很低的網站上有大量抄襲、采集或者復制的內容,很可能就不再爬行。
第三步:預處理
搜索引擎將蜘蛛抓取回來的頁面,進行各種步驟的預處理。
⒈提取文字
⒉中文分詞
⒊去停止詞
⒋消除噪音(搜索引擎需要識別并消除這些噪聲,比如版權聲明文字、導航條、廣告等……)
5.正向索引
6.倒排索引
7.鏈接關系計算
8.特殊文件處理
除了HTML 文件外,搜索引擎通常還能抓取和索引以文字為基礎的多種文件類型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我們在搜索結果中也經常會看到這些文件類型。 但搜索引擎還不能處理圖片、視頻、Flash 這類非文字內容,也不能執(zhí)行腳本和程序。
第四步:排名
用戶在搜索框輸入關鍵詞后,排名程序調用索引庫數(shù)據,計算排名顯示給用戶,排名過程與用戶直接互動的。但是,由于搜索引擎的數(shù)據量龐大,雖然能達到每日都有小的更新,但是一般情況搜索引擎的排名規(guī)則都是根據日、周、月階段性不同幅度的更新。
選擇
與網站內容相關
搜索次數(shù)多,競爭小
主關鍵詞,不可太寬泛
主關鍵詞,不太特殊
商業(yè)價值
提取文字
中文分詞
去停止詞
消除噪聲
去重
正向索引
倒排索引
鏈接關系計算
特殊文件處理
三、搜索引擎基本工作原理的工作原理
1、抓取網頁。每個獨立的搜索引擎都有自己的網頁抓取程序爬蟲(spider)。爬蟲Spider順著網頁中的超鏈接,從這個網站爬到另一個網站,通過超鏈接分析連續(xù)訪問抓取更多網頁。被抓取的網頁被稱之為網頁快照。由于互聯(lián)網中超鏈接的應用很普遍,理論上,從一定范圍的網頁出發(fā),就能搜集到絕大多數(shù)的網頁。
2、處理網頁。搜索引擎抓到網頁后,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引庫和索引。其他還包括去除重復網頁、分詞(中文)、判斷網頁類型、分析超鏈接、計算網頁的重要度/豐富度等。
3、提供檢索服務。用戶輸入關鍵詞進行檢索,搜索引擎從索引數(shù)據庫中找到匹配該關鍵詞的網頁;為了用戶便于判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。
四、搜索引擎的工作原理是怎樣的?
搜索引擎的原理,可以看做三步:從互聯(lián)網上抓取網頁→建立索引數(shù)據庫→在索引數(shù)據庫中搜索排序。 從互聯(lián)網上抓取網頁 利用能夠從互聯(lián)網上自動收集網頁的Spider系統(tǒng)程序,自動訪問互聯(lián)網,并沿著任何網頁中的所有URL爬到其它網頁,重復這過程,并把爬過的所有網頁收集回來。 建立索引數(shù)據庫 由分析索引系統(tǒng)程序對收集回來的網頁進行分析,提取相關網頁信息(包括網頁所在URL、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其它網頁的鏈接關系等),根據一定的相關度算法進行大量復雜計算,得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度(或重要性),然后用這些相關信息建立網頁索引數(shù)據庫。 在索引數(shù)據庫中搜索排序 當用戶輸入關鍵詞搜索后,由搜索系統(tǒng)程序從網頁索引數(shù)據庫中找到符合該關鍵詞的所有相關網頁。因為所有相關網頁針對該關鍵詞的相關度早已算好,所以只需按照現(xiàn)成的相關度數(shù)值排序,相關度越高,排名越靠前。 最后,由頁面生成系統(tǒng)將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。 搜索引擎的Spider一般要定期重新訪問所有網頁(各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對不同重要性的網頁有不同的更新頻率),更新網頁索引數(shù)據庫,以反映出網頁內容的更新情況,增加新的網頁信息,去除死鏈接,并根據網頁內容和鏈接關系的變化重新排序。這樣,網頁的具體內容和變化情況就會反映到用戶查詢的結果中。 互聯(lián)網雖然只有一個,但各搜索引擎的能力和偏好不同,所以抓取的網頁各不相同,排序算法也各不相同。大型搜索引擎的數(shù)據庫儲存了互聯(lián)網上幾億至幾十億的網頁索引,數(shù)據量達到幾千G甚至幾萬G。但即使最大的搜索引擎建立超過二十億網頁的索引數(shù)據庫,也只能占到互聯(lián)網上普通網頁的不到30%,不同搜索引擎之間的網頁數(shù)據重疊率一般在70%以下。我們使用不同搜索引擎的重要原因,就是因為它們能分別搜索到不同的內容。而互聯(lián)網上有更大量的內容,是搜索引擎無法抓取索引的,也是我們無法用搜索引擎搜索到的。 你心里應該有這個概念:搜索引擎只能搜到它網頁索引數(shù)據庫里儲存的內容。你也應該有這個概念:如果搜索引擎的網頁索引數(shù)據庫里應該有而你沒有搜出來,那是你的能力問題,學習搜索技巧可以大幅度提高你的搜索能力。
以上就是關于搜索引擎的工作原理有哪些相關問題的回答。希望能幫到你,如有更多相關問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內容。
推薦閱讀:
搜索幾次會出現(xiàn)百度關鍵詞(搜索幾次會出現(xiàn)百度關鍵詞嗎)
靜安區(qū)日式花園景觀設計(靜安區(qū)日式花園景觀設計招聘)