-
當前位置:首頁 > 創(chuàng)意學院 > 技術(shù) > 專題列表 > 正文
搜索引擎怎么工作的(搜索引擎怎么工作的視頻)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于搜索引擎怎么工作的的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、搜索引擎的工作原理是什么?
搜索引擎的工作原理
搜索引擎的工作原理包括如下三個過程:首先在互聯(lián)中發(fā)現(xiàn)、搜集網(wǎng)頁信息;同時對信息進行提取和組織建立索引庫;再由檢索器根據(jù)用戶輸入的查詢關(guān)鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并將查詢結(jié)果返回給用戶。
1、抓取網(wǎng)頁。每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序(spider)。Spider順著網(wǎng)頁中的超鏈接,連續(xù)地抓取網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。
發(fā)現(xiàn)、抓取網(wǎng)頁信息需要有高性能的“網(wǎng)絡(luò)蜘蛛”程序(Spider)去自動地在互聯(lián)網(wǎng)中搜索信息。一個典型的網(wǎng)絡(luò)蜘蛛工作的方式,是查看一個頁面,并從中找到相關(guān)信息,然后它再從該頁面的所有鏈接中出發(fā),繼續(xù)尋找相關(guān)的信息,以此類推,直至窮盡。網(wǎng)絡(luò)蜘蛛要求能夠快速、全面。網(wǎng)絡(luò)蜘蛛為實現(xiàn)其快速地瀏覽整個互聯(lián)網(wǎng),通常在技術(shù)上采用搶先式多線程技術(shù)實現(xiàn)在網(wǎng)上聚集信息。通過搶先式多線程的使用,你能索引一個基于URL鏈接的Web頁面,啟動一個新的線程跟隨每個新的URL鏈接,索引一個新的URL起點。當然在服務(wù)器上所開的線程也不能無限膨脹,需要在服務(wù)器的正常運轉(zhuǎn)和快速收集網(wǎng)頁之間找一個平衡點。在算法上各個搜索引擎技術(shù)公司可能不盡相同,但目的都是快速瀏覽Web頁和后續(xù)過程相配合。目前國內(nèi)的搜索引擎技術(shù)公司中,比如百度公司的網(wǎng)絡(luò)蜘蛛采用了可定制、高擴展性的調(diào)度算法使得搜索器能在極短的時間內(nèi)收集到最大數(shù)量的互聯(lián)網(wǎng)信息,并把所獲得的信息保存下來以備建立索引庫和用戶檢索。
2、處理網(wǎng)頁。搜索引擎抓到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引庫和索引。其他還包括去除重復網(wǎng)頁、分詞(中文)、判斷網(wǎng)頁類型、分析超鏈接、計算網(wǎng)頁的重要度/豐富度等。
索引庫的建立關(guān)系到用戶能否最迅速地找到最準確、最廣泛的信息,同時索引庫的建立也必須迅速,對網(wǎng)絡(luò)蜘蛛抓來的網(wǎng)頁信息極快地建立索引,保證信息的及時性。對網(wǎng)頁采用基于網(wǎng)頁內(nèi)容分析和基于超鏈分析相結(jié)合的方法進行相關(guān)度評價,能夠客觀地對網(wǎng)頁進行排序,從而極大限度地保證搜索出的結(jié)果與用戶的查詢串相一致。新浪搜索引擎對網(wǎng)站數(shù)據(jù)建立索引的過程中采取了按照關(guān)鍵詞在網(wǎng)站標題、網(wǎng)站描述、網(wǎng)站URL等不同位置的出現(xiàn)或網(wǎng)站的質(zhì)量等級等建立索引庫,從而保證搜索出的結(jié)果與用戶的查詢串相一致。新浪搜索引擎在索引庫建立的過程中,對所有數(shù)據(jù)采用多進程并行的方式,對新的信息采取增量式的方法建立索引庫,從而保證能夠迅速建立索引,使數(shù)據(jù)能夠得到及時的更新。
3、提供檢索服務(wù)。用戶輸入關(guān)鍵詞進行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;為了用戶便于判斷,除了網(wǎng)頁標題和URL外,還會提供一段來自網(wǎng)頁的摘要以及其他信息。
用戶檢索的過程是對前兩個過程的檢驗,檢驗該搜索引擎能否給出最準確、最廣泛的信息,檢驗該搜索引擎能否迅速地給出用戶最想得到的信息。對于網(wǎng)站數(shù)據(jù)的檢索,新浪搜索引擎采用多進程的方式在索引庫中檢索,大大減少了用戶的等待時間,并且在用戶查詢高峰時服務(wù)器的負擔不會過高(平均的檢索時間在0.3秒左右)。對于網(wǎng)頁信息的檢索,作為國內(nèi)眾多門戶網(wǎng)站的網(wǎng)頁檢索技術(shù)提供商的百度公司其搜索引擎運用了先進的多線程技術(shù),采用高效的搜索算法和穩(wěn)定的UNIX平臺,因此可大大縮短對用戶搜索請求的響應(yīng)時間。作為慧聰I系列應(yīng)用軟件產(chǎn)品之一的I-Search4000采用的超大規(guī)模動態(tài)緩存技術(shù),使一級響應(yīng)的覆蓋率達到75%以上,獨有的自學習能力可自動將二級響應(yīng)的覆蓋率擴充到20%以上。
二、搜索引擎的工作原理是什么?
一個搜索引擎由搜索器 、索引器 、檢索器 和用戶接口 四個部分組成。搜索器的功能是在互聯(lián)網(wǎng) 中漫游,發(fā)現(xiàn)和搜集信息。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔 以及生成文檔庫的索引表。檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關(guān)性反饋機制。用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。
搜索引擎(Search Engine)是指根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。
三、搜索引擎的工作原理是什么
一、工具:電腦
二、操作步驟
1.抓取
讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。如果把整個互聯(lián)網(wǎng)當成一個網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來,被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。
2.數(shù)據(jù)庫處理
搜索引擎抓到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中有,網(wǎng)站數(shù)據(jù)庫,就是動態(tài)網(wǎng)站存放網(wǎng)站數(shù)據(jù)的空間。索引數(shù)據(jù)庫,索引是對數(shù)據(jù)庫表中一列或多列的值進行排序的一種結(jié)構(gòu),使用索引可快速訪問數(shù)據(jù)庫表中的特定信息。簡單的來說,就是把【抓取】的網(wǎng)頁放進數(shù)據(jù)庫。
3.分析檢索服務(wù)
搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;
4.對收集的結(jié)果進行排序
把收集來的網(wǎng)頁進行排序,把這些進行最終的排序。
注意事項:蜘蛛程序url抓取頁面--存儲---原始頁面。
四、常用的搜索引擎工作原理是怎樣的,請簡單說明。
主 要 技 術(shù)
一個搜索引擎由搜索器、索引器、檢索器和用戶接口等四個部分組成。
1.搜索器
搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個計算機程序,日夜不停地運行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時因為互聯(lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以避免死連接和無效連接。目前有兩種搜集信息的策略:
● 從一個起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(如Yahoo!)。
● 將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負責一個子空間的窮盡搜索。
搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息。
搜索器的實現(xiàn)常常用分布式、并行計算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達到每天幾百萬網(wǎng)頁。
2.索引器
索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表。
索引項有客觀索引項和內(nèi)容索引項兩種:客觀項與文檔的語意內(nèi)容無關(guān),如作者名、URL、更新時間、編碼、長度、鏈接流行度(Link Popularity)等等;內(nèi)容索引項是用來反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語、單字等等。內(nèi)容索引項可以分為單索引項和多索引項(或稱短語索引項)兩種。單索引項對于英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格);對于中文等連續(xù)書寫的語言,必須進行詞語的切分。
在搜索引擎中,一般要給單索引項賦與一個權(quán)值,以表示該索引項對文檔的區(qū)分度,同時用來計算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計法、信息論法和概率法。短語索引項的提取方法有統(tǒng)計法、概率法和語言學法。
索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應(yīng)的文檔。索引表也可能要記錄索引項在文檔中出現(xiàn)的位置,以便檢索器計算索引項之間的相鄰或接近關(guān)系(proximity)。
索引器可以使用集中式索引算法或分布式索引算法。當數(shù)據(jù)量很大時,必須實現(xiàn)即時索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引算法對索引器的性能(如大規(guī)模峰值查詢時的響應(yīng)速度)有很大的影響。一個搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。
3.檢索器
檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關(guān)性反饋機制。
檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。
4.用戶接口
用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用戶接口的設(shè)計和實現(xiàn)使用人機交互的理論和方法,以充分適應(yīng)人類的思維習慣。 用戶輸入接口可以分為簡單接口和復雜接口兩種。
簡單接口只提供用戶輸入查詢串的文本框;復雜接口可以讓用戶對查詢進行限制,如邏輯運算(與、或、非;+、-)、相近關(guān)系(相鄰、NEAR)、域名范圍(如.edu、.com)、出現(xiàn)位置(如標題、內(nèi)容)、信息時間、長度等等。目前一些公司和機構(gòu)正在考慮制定查詢選項的標準。
以上就是關(guān)于搜索引擎怎么工作的相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
win10搜索此電腦沒反應(yīng)(win10搜索此電腦沒反應(yīng)怎么回事)
自動文章生成器網(wǎng)站下載安卓手機(自動文章生成器網(wǎng)站下載安卓手機版)