正文

谷歌公司大數(shù)據(jù)三大技術(shù)（谷歌公司大數(shù)據(jù)三大技術(shù)是什么）

發(fā)布時間：2023-04-13 18:45:13 稿源：創(chuàng)意嶺閱讀： 118

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于谷歌公司大數(shù)據(jù)三大技術(shù)的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè)，服務(wù)客戶遍布全球各地，如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043，或添加微信：1454722008

本文目錄:

1、谷歌公司如何獲得大數(shù)據(jù)
2、大數(shù)據(jù)技術(shù)有哪些
3、谷歌采用搜索引擎大數(shù)據(jù)進(jìn)行流感趨勢預(yù)測體現(xiàn)了哪種大數(shù)據(jù)思維方
4、Google的搜索速度為什么這么快？

谷歌公司大數(shù)據(jù)三大技術(shù)（谷歌公司大數(shù)據(jù)三大技術(shù)是什么）

一、谷歌公司如何獲得大數(shù)據(jù)

谷歌有50多萬臺服務(wù)器，是世界上服務(wù)器最多的公司，所存儲的數(shù)據(jù)可想而知了?！獧幟蕦W(xué)院大數(shù)據(jù)。

二、大數(shù)據(jù)技術(shù)有哪些

大數(shù)據(jù)技術(shù)，就是從各種類型的數(shù)據(jù)中快速獲得有價值信息的技術(shù)。

大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新的技術(shù)，它們成為大數(shù)據(jù)采集、存儲、處理和呈現(xiàn)的有力武器。

大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括：大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)安全等)。

一、大數(shù)據(jù)采集技術(shù)

數(shù)據(jù)是指通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)及移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化(或稱之為弱結(jié)構(gòu)化)及非結(jié)構(gòu)化的海量數(shù)據(jù)，是大數(shù)據(jù)知識服務(wù)模型的根本。

重點要突破分布式高速高可靠數(shù)據(jù)爬取或采集、高速數(shù)據(jù)全映像等大數(shù)據(jù)收集技術(shù);突破高速數(shù)據(jù)解析、轉(zhuǎn)換與裝載等大數(shù)據(jù)整合技術(shù);設(shè)計質(zhì)量評估模型，開發(fā)數(shù)據(jù)質(zhì)量技術(shù)。

互聯(lián)網(wǎng)是個神奇的大網(wǎng)，大數(shù)據(jù)開發(fā)和軟件定制也是一種模式，這里提供最詳細(xì)的報價，如果你真的想做，可以來這里，這個手機的開始數(shù)字是一八七中間的是三兒

零最后的是一四二五零，按照順序組合起來就可以找到，我想說的是，除非你想做或者了解這方面的內(nèi)容，如果只是湊熱鬧的話，就不要來了。

大數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層：主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統(tǒng)，實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉(zhuǎn)換、監(jiān)控、初步處理和管理等。

必須著重攻克針對大數(shù)據(jù)源的智能識別、感知、適配、傳輸、接入等技術(shù)。

基礎(chǔ)支撐層：提供大數(shù)據(jù)服務(wù)平臺所需的虛擬服務(wù)器，結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫及物聯(lián)網(wǎng)絡(luò)資源等基礎(chǔ)支撐環(huán)境。

重點攻克分布式虛擬存儲技術(shù)，大數(shù)據(jù)獲取、存儲、組織、分析和決策操作的可視化接口技術(shù)，大數(shù)據(jù)的網(wǎng)絡(luò)傳輸與壓縮技術(shù)，大數(shù)據(jù)隱私保護(hù)技術(shù)等。

二、大數(shù)據(jù)預(yù)處理技術(shù)

主要完成對已接收數(shù)據(jù)的辨析、抽取、清洗等操作。

1)抽?。阂颢@取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型，數(shù)據(jù)抽取過程可以幫助我們將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的構(gòu)型，以達(dá)到快速分析處理的目的。

2)清洗：對于大數(shù)據(jù)，并不全是有價值的，有些數(shù)據(jù)并不是我們所關(guān)心的內(nèi)容，而另一些數(shù)據(jù)則是完全錯誤的干擾項，因此要對數(shù)據(jù)通過過濾“去噪”從而提取出有效數(shù)據(jù)。

三、大數(shù)據(jù)存儲及管理技術(shù)

大數(shù)據(jù)存儲與管理要用存儲器把采集到的數(shù)據(jù)存儲起來，建立相應(yīng)的數(shù)據(jù)庫，并進(jìn)行管理和調(diào)用。

重點解決復(fù)雜結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)管理與處理技術(shù)。

主要解決大數(shù)據(jù)的可存儲、可表示、可處理、可靠性及有效傳輸?shù)葞讉€關(guān)鍵問題。

開發(fā)可靠的分布式文件系統(tǒng)(DFS)、能效優(yōu)化的存儲、計算融入存儲、大數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲技術(shù);突破分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù)，異構(gòu)數(shù)據(jù)的數(shù)據(jù)融合技術(shù)，數(shù)據(jù)組織技術(shù)，研究大數(shù)據(jù)建模技術(shù);突破大數(shù)據(jù)索引技術(shù);突破大數(shù)據(jù)移動、備份、復(fù)制等技術(shù);開發(fā)大數(shù)據(jù)可視化技術(shù)。

開發(fā)新型數(shù)據(jù)庫技術(shù)，數(shù)據(jù)庫分為關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫以及數(shù)據(jù)庫緩存系統(tǒng)。

其中，非關(guān)系型數(shù)據(jù)庫主要指的是NoSQL數(shù)據(jù)庫，分為：鍵值數(shù)據(jù)庫、列存數(shù)據(jù)庫、圖存數(shù)據(jù)庫以及文檔數(shù)據(jù)庫等類型。

關(guān)系型數(shù)據(jù)庫包含了傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)以及NewSQL數(shù)據(jù)庫。

開發(fā)大數(shù)據(jù)安全技術(shù)。

改進(jìn)數(shù)據(jù)銷毀、透明加解密、分布式訪問控制、數(shù)據(jù)審計等技術(shù);突破隱私保護(hù)和推理控制、數(shù)據(jù)真?zhèn)巫R別和取證、數(shù)據(jù)持有完整性驗證等技術(shù)。

四、大數(shù)據(jù)分析及挖掘技術(shù)

大數(shù)據(jù)分析技術(shù)。

改進(jìn)已有數(shù)據(jù)挖掘和機器學(xué)習(xí)技術(shù);開發(fā)數(shù)據(jù)網(wǎng)絡(luò)挖掘、特異群組挖掘、圖挖掘等新型數(shù)據(jù)挖掘技術(shù);突破基于對象的數(shù)據(jù)連接、相似性連接等大數(shù)據(jù)融合技術(shù);突破用戶興趣分析、網(wǎng)絡(luò)行為分析、情感語義分析等面向領(lǐng)域的大數(shù)據(jù)挖掘技術(shù)。

數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

數(shù)據(jù)挖掘涉及的技術(shù)方法很多，有多種分類法。

根據(jù)挖掘任務(wù)可分為分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等等;根據(jù)挖掘?qū)ο罂煞譃殛P(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及環(huán)球網(wǎng)Web;根據(jù)挖掘方法分，可粗分為:機器學(xué)習(xí)方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。

機器學(xué)習(xí)中，可細(xì)分為:歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等。

統(tǒng)計方法中，可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)等。

神經(jīng)網(wǎng)絡(luò)方法中，可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等)等。

數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP方法，另外還有面向?qū)傩缘臍w納方法。

從挖掘任務(wù)和挖掘方法的角度，著重突破：

1.可視化分析。

數(shù)據(jù)可視化無論對于普通用戶或是數(shù)據(jù)分析專家，都是最基本的功能。

數(shù)據(jù)圖像化可以讓數(shù)據(jù)自己說話，讓用戶直觀的感受到結(jié)果。

2.數(shù)據(jù)挖掘算法。

圖像化是將機器語言翻譯給人看，而數(shù)據(jù)挖掘就是機器的母語。

分割、集群、孤立點分析還有各種各樣五花八門的算法讓我們精煉數(shù)據(jù)，挖掘價值。

這些算法一定要能夠應(yīng)付大數(shù)據(jù)的量，同時還具有很高的處理速度。

3.預(yù)測性分析。

預(yù)測性分析可以讓分析師根據(jù)圖像化分析和數(shù)據(jù)挖掘的結(jié)果做出一些前瞻性判斷。

4.語義引擎。

語義引擎需要設(shè)計到有足夠的人工智能以足以從數(shù)據(jù)中主動地提取信息。

語言處理技術(shù)包括機器翻譯、情感分析、輿情分析、智能輸入、問答系統(tǒng)等。

5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。

數(shù)據(jù)質(zhì)量與管理是管理的最佳實踐，透過標(biāo)準(zhǔn)化流程和機器對數(shù)據(jù)進(jìn)行處理可以確保獲得一個預(yù)設(shè)質(zhì)量的分析結(jié)果。

六、大數(shù)據(jù)展現(xiàn)與應(yīng)用技術(shù)

大數(shù)據(jù)技術(shù)能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息和知識挖掘出來，為人類的社會經(jīng)濟(jì)活動提供依據(jù)，從而提高各個領(lǐng)域的運行效率，大大提高整個社會經(jīng)濟(jì)的集約化程度。

在我國，大數(shù)據(jù)將重點應(yīng)用于以下三大領(lǐng)域：商業(yè)智能、 *** 決策、公共服務(wù)。

例如：商業(yè)智能技術(shù)， *** 決策技術(shù)，電信數(shù)據(jù)信息處理與挖掘技術(shù)，電網(wǎng)數(shù)據(jù)信息處理與挖掘技術(shù)，氣象信息分析技術(shù)，環(huán)境監(jiān)測技術(shù)，警務(wù)云應(yīng)用系統(tǒng)(道路監(jiān)控、視頻監(jiān)控、網(wǎng)絡(luò)監(jiān)控、智能交通、反電信詐騙、指揮調(diào)度等公安信息系統(tǒng))，大規(guī)?；蛐蛄蟹治霰葘夹g(shù)，Web信息挖掘技術(shù)，多媒體數(shù)據(jù)并行化處理技術(shù)，影視制作渲染技術(shù)，其他各種行業(yè)的云計算和海量數(shù)據(jù)處理應(yīng)用技術(shù)等。

三、谷歌采用搜索引擎大數(shù)據(jù)進(jìn)行流感趨勢預(yù)測體現(xiàn)了哪種大數(shù)據(jù)思維方

全樣而非抽樣。

根據(jù)谷歌官方網(wǎng)站顯示，谷歌采用搜索引擎大數(shù)據(jù)進(jìn)行流感趨勢預(yù)測體現(xiàn)了，全樣而非抽樣大數(shù)據(jù)思維方式。

谷歌公司)成立于1998年9月4日，由拉里·佩奇和謝爾蓋·布林共同創(chuàng)建，被公認(rèn)為全球最大的搜索引擎公司。

四、Google的搜索速度為什么這么快？

是?。?！

有N條1000M光纖，N個服務(wù)器級的硬盤組成陣列！

1．1 前互聯(lián)網(wǎng)搜索時代

在互聯(lián)網(wǎng)發(fā)展初期，網(wǎng)站相對較少，信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展，普通網(wǎng)絡(luò)用戶想找到所需的資料簡直如同大海撈針，這時為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運而生了。

所有搜索引擎的祖先，是1990年由Montreal的McGill University學(xué)生Alan Emtage、Peter Deutsch、Bill Wheelan發(fā)明的Archie（Archie FAQ）。當(dāng)時World Wide Web還未出現(xiàn)。Archie是第一個自動索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序，但它還不是真正的搜索引擎。Archie是一個可搜索的FTP文件名列表，用戶必須輸入精確的文件名搜索，然后Archie會告訴用戶哪一個FTP地址可以下載該文件。

Archie工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近，它依靠腳本程序自動搜索網(wǎng)上的文件，然后對有關(guān)信息進(jìn)行索引，供使用者以一定的表達(dá)式查詢。由于Archie深受用戶歡迎，受其啟發(fā)，美國內(nèi)華達(dá)System Computing Services大學(xué)于1993年開發(fā)了另一個與之非常相似的搜索工具，不過此時的搜索工具除了索引文件外，已能檢索網(wǎng)頁。

當(dāng)時，“機器人”一詞在編程者中十分流行。電腦“機器人”（Computer Robot）是指某個能以人類無法達(dá)到的速度不間斷地執(zhí)行某項任務(wù)的軟件程序。由于專門用于檢索信息的“機器人”程序象蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去，因此，搜索引擎的“機器人”程序就被稱為“蜘蛛”程序。由于專門用于檢索信息的Robot程序象蜘蛛（spider）一樣在網(wǎng)絡(luò)間爬來爬去，因此，搜索引擎的Robot程序被稱為spider（SpiderFAQ）程序。世界上第一個Spider程序，是MIT Matthew Gray的World wide Web Wanderer，用于追蹤互聯(lián)網(wǎng)發(fā)展規(guī)模。剛開始它只用來統(tǒng)計互聯(lián)網(wǎng)上的服務(wù)器數(shù)量，后來則發(fā)展為也能夠捕獲網(wǎng)址（URL）。

世界上第一個用于監(jiān)測互聯(lián)網(wǎng)發(fā)展規(guī)模的“機器人”程序是Matthew Gray開發(fā)的World wide Web Wanderer。剛開始它只用來統(tǒng)計互聯(lián)網(wǎng)上的服務(wù)器數(shù)量，后來則發(fā)展為能夠檢索網(wǎng)站域名。

與Wanderer相對應(yīng)，1993年10月Martijn Koster創(chuàng)建了ALIWEB（Martijn Koster Annouces the Availability of Aliweb），它相當(dāng)于Archie的HTTP版本。ALIWEB不使用網(wǎng)絡(luò)搜尋Robot，如果網(wǎng)站主管們希望自己的網(wǎng)頁被ALIWEB收錄，需要自己提交每一個網(wǎng)頁的簡介索引信息，類似于后來大家熟知的Yahoo。

1993年底，一些基于此原理的搜索引擎開始紛紛涌現(xiàn)，其中最負(fù)盛名的三個是：Scotland的JumpStation、Colorado大學(xué)Oliver McBryan的The World Wide Web Worm（First Mention of McBryan's World Wide Web Worm）、NASA的Repository-Based Software Engineering（RBSE）spider。隨著互聯(lián)網(wǎng)的迅速發(fā)展，使得檢索所有新出現(xiàn)的網(wǎng)頁變得越來越困難，因此，在Matthew Gray的Wanderer基礎(chǔ)上，一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進(jìn)。其設(shè)想是，既然所有網(wǎng)頁都可能有連向其他網(wǎng)站的鏈接，那么從跟蹤一個網(wǎng)站的鏈接開始，就有可能檢索整個互聯(lián)網(wǎng)。然而Jump Station和WWW Worm只是以搜索工具在數(shù)據(jù)庫中找到匹配信息的先后次序排列搜索結(jié)果，因此毫無信息關(guān)聯(lián)度可言。而RBSE是第一個在搜索結(jié)果排列中引入關(guān)鍵字串匹配程度概念的引擎。

1993年2月，6個Stanford（斯坦福）大學(xué)生的想法是分析字詞關(guān)系，以對互聯(lián)網(wǎng)上的大量信息作更有效的檢索。這就是Excite。后來曾以概念搜索聞名，2002年5月，被Infospace收購的Excite停止自己的搜索引擎，改用元搜索引擎Dogpile

1994年1月，第一個既可搜索又可瀏覽的分類目錄EINetGalaxy（Tradewave Galaxy）上線。除了網(wǎng)站搜索，它還支持Gopher和Telnet搜索。

1994年4月，Stanford兩名博士生，美籍華人Jerry Yang（楊致遠(yuǎn)）和David Filo共同創(chuàng)辦了Yahoo。隨著訪問量和收錄鏈接數(shù)的增長，Yahoo目錄開始支持簡單的數(shù)據(jù)庫搜索。因為Yahoo!的數(shù)據(jù)是手工輸入的，所以不能真正被歸為搜索引擎，事實上只是一個可搜索的目錄。搜索效率明顯提高。（Yahoo以后陸續(xù)使用Altavista、Inktomi、Google提供搜索引擎服務(wù)）

1994年初，Washington大學(xué)CS學(xué)生Brian Pinkerton開始了他的小項目Web Crawler（Brian Pinkerton Announces the Availability of Webcrawler）。1994年4月20日，Web Crawler正式亮相時僅包含來自6000個服務(wù)器的內(nèi)容。Web Crawler是互聯(lián)網(wǎng)上第一個支持搜索文件全部文字的全文搜索引擎，在它之前，用戶只能通過URL和摘要搜索，摘要一般來自人工評論或程序自動取正文的前100個字。（后來web crawler陸續(xù)被AOL和Excite收購，現(xiàn)在和excite一樣改用元搜索引擎Dogpile）

1．2 互聯(lián)網(wǎng)搜索時代

最早現(xiàn)代意義上的搜索引擎出現(xiàn)于1994年7月。當(dāng)時Michael Mauldin將John Leavitt的蜘蛛程序接入到其索引程序中，創(chuàng)建了大家現(xiàn)在熟知的Lycos。同年4月，斯坦福（Stanford）大學(xué)的兩名博士生，David Filo和美籍華人楊致遠(yuǎn)（Gerry Yang）共同創(chuàng)辦了超級目錄索引Yahoo，并成功地使搜索引擎的概念深入人心。從此搜索引擎進(jìn)入了高速發(fā)展時期。目前，互聯(lián)網(wǎng)上有名有姓的搜索引擎已達(dá)數(shù)百家，其檢索的信息量也與從前不可同日而語。比如最近風(fēng)頭正勁的Google，其數(shù)據(jù)庫中存放的網(wǎng)頁已達(dá)30億之巨！

隨著互聯(lián)網(wǎng)規(guī)模的急劇膨脹，一家搜索引擎光靠自己單打獨斗已無法適應(yīng)目前的市場狀況，因此現(xiàn)在搜索引擎之間開始出現(xiàn)了分工協(xié)作，并有了專業(yè)的搜索引擎技術(shù)和搜索數(shù)據(jù)庫服務(wù)提供商。象國外的Inktomi，它本身并不是直接面向用戶的搜索引擎，但向包括Overture（原GoTo）、LookSmart、MSN、HotBot等在內(nèi)的其他搜索引擎提供全文網(wǎng)頁搜索服務(wù)。國內(nèi)的百度也屬于這一類，搜狐和新浪用的就是它的技術(shù)。因此從這個意義上說，它們是搜索引擎的搜索引擎。

Lycos（Carnegie Mellon University Center for Machine Translation Announces Lycos）是搜索引擎史上又一個重要的進(jìn)步。Carnegie Mellon University的Michael Mauldin將John Leavitt的spider程序接入到其索引程序中，創(chuàng)建了Lycos。1994年7月20日，數(shù)據(jù)量為54,000的Lycos正式發(fā)布。除了相關(guān)性排序外，Lycos還提供了前綴匹配和字符相近限制，Lycos第一個在搜索結(jié)果中使用了網(wǎng)頁自動摘要，而最大的優(yōu)勢還是它遠(yuǎn)勝過其它搜索引擎的數(shù)據(jù)量：1994年8月－－394,000 documents；1995年1月－－1.5 million documents；1996年11月－－over 60 million documents。（注：1999年4月，Lycos停止自己的Spider，改由Fast提供搜索引擎服務(wù)）

Infoseek（Steve Kirsch Announces Free Demos Of the Infoseek Search Engine）是另一個重要的搜索引擎，雖然公司聲稱1994年1月已創(chuàng)立，但直到年底它的搜索引擎才與公眾見面。起初，Infoseek只是一個不起眼的搜索引擎，它沿襲Yahoo!和Lycos的概念，并沒有什么獨特的革新。但是它的發(fā)展史和后來受到的眾口稱贊證明，起初第一個登臺并不總是很重要。Infoseek友善的用戶界面、大量附加服務(wù)（such as UPStracking,News,adirectory,and the like）使它聲望日隆。而1995年12月與Netscape的戰(zhàn)略性協(xié)議，使它成為一個強勢搜索引擎：當(dāng)用戶點擊Netscape瀏覽器上的搜索按鈕時，彈出Infoseek的搜索服務(wù)，而此前由Yahoo!提供該服務(wù)。（注：Infoseek后來曾以相關(guān)性聞名，2001年2月，Infoseek停止了自己的搜索引擎，開始改用Overture的搜索結(jié)果）

1995年，一種新的搜索引擎形式出現(xiàn)了——元搜索引擎（A Meta Search Engine Roundup）。用戶只需提交一次搜索請求，由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個預(yù)先選定的獨立搜索引擎，并將從各獨立搜索引擎返回的所有查詢結(jié)果，集中起來處理后再返回給用戶。第一個元搜索引擎，是Washington大學(xué)碩士生Eric Selberg和Oren Etzioni的Metacrawler。元搜索引擎概念上好聽，但搜索效果始終不理想，所以沒有哪個元搜索引擎有過強勢地位。

DEC的AltaVista（2001年夏季起部分網(wǎng)友需通過p-roxy訪問，無p-roxy可用qbseach單選altavista搜索，只能顯示第一頁搜索結(jié)果）是一個遲到者，1995年12月才登場亮相（AltaVista Public Beta Press Release）。但是，大量的創(chuàng)新功能使它迅速到達(dá)當(dāng)時搜索引擎的頂峰。Altavista最突出的優(yōu)勢是它的速度。而Altavista的另一些新功能，則永遠(yuǎn)改變了搜索引擎的定義。AltaVista是第一個支持自然語言搜索的搜索引擎，AltaVista是第一個實現(xiàn)高級搜索語法的搜索引擎（如AND,OR,NOT等）。用戶可以用AltaVista搜索Newsgroups（新聞組）的內(nèi)容并從互聯(lián)網(wǎng)上獲得文章，還可以搜索圖片名稱中的文字、搜索Titles、搜索Java applets、搜索ActiveXobjects。AltaVista也聲稱是第一個支持用戶自己向網(wǎng)頁索引庫提交或刪除URL的搜索引擎，并能在24小時內(nèi)上線。AltaVista最有趣的新功能之一，是搜索有鏈接指向某個URL的所有網(wǎng)站。在面向用戶的界面上，AltaVista也作了大量革新。它在搜索框區(qū)域下放了“tips”以幫助用戶更好的表達(dá)搜索式，這些小tip經(jīng)常更新，這樣，在搜索過幾次以后，用戶會看到很多他們可能從來不知道的的有趣功能。這系列功能，逐漸被其它搜索引擎廣泛采用。

1997年，AltaVista發(fā)布了一個圖形演示系統(tǒng)LiveTopics，幫助用戶從成千上萬的搜索結(jié)果中找到想要的。

然后到來的是HotBot。1995年9月26日，加州伯克利分校CS助教EricBrewer、博士生PaulGauthier創(chuàng)立了Inktomi（UCBerkeley Announces Inktomi），1996年5月20日，Inktomi公司成立，強大的HotBot出現(xiàn)在世人面前。聲稱每天能抓取索引1千萬頁以上，所以有遠(yuǎn)超過其它搜索引擎的新內(nèi)容。HotBot也大量運用cookie儲存用戶的個人搜索喜好設(shè)置。（Hotbot曾是隨后幾年最受歡迎的搜索引擎之一，后被Lycos收購）

Northernlight公司于1995年9月成立于馬薩諸塞州劍橋，1997年8月，Northernlight搜索引擎正式現(xiàn)身。它曾是擁有最大數(shù)據(jù)庫的搜索引擎之一，它沒有Stop Words，它有出色的Current News、7,100多出版物組成的Special Collection、良好的高級搜索語法，第一個支持對搜索結(jié)果進(jìn)行簡單的自動分類。（2002年1月16日，Northernlight公共搜索引擎關(guān)閉，隨后被divine收購，但在Nlresearch，選中"World Wide Web only"，仍可使用Northernlight搜索引擎）

1998年10月之前，Google只是Stanford大學(xué)的一個小項目BackRub。1995年博士生LarryPage開始學(xué)習(xí)搜索引擎設(shè)計，于1997年9月15日注冊了google.com的域名，1997年底，在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下，Bach Rub開始提供Demo。1999年2月，Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認(rèn)作自己的生日。

Google在Pagerank、動態(tài)摘要、網(wǎng)頁快照、Daily Refresh、多文檔格式支持、地圖股票詞典尋人等集成搜索、多語言支持、用戶界面等功能上的革新，象Altavista一樣，再一次永遠(yuǎn)改變了搜索引擎的定義。

在2000年中以前，Google雖然以搜索準(zhǔn)確性備受贊譽，但因為數(shù)據(jù)庫不如其它搜索引擎大，缺乏高級搜索語法，所以使用價值不是很高，推廣并不快。直到2000年中數(shù)據(jù)庫升級后，又借被Yahoo選作搜索引擎的東風(fēng)，才一飛沖天。

Fast（Alltheweb）公司創(chuàng)立于1997年，是挪威科技大學(xué)（NTNU）學(xué)術(shù)研究的副產(chǎn)品。1999年5月，發(fā)布了自己的搜索引擎AllTheWeb。Fast創(chuàng)立的目標(biāo)是做世界上最大和最快的搜索引擎，幾年來庶幾近之。Fast（Alltheweb）的網(wǎng)頁搜索可利用ODP自動分類，支持Flash和pdf搜索，支持多語言搜索，還提供新聞搜索、圖像搜索、視頻、MP3、和FTP搜索，擁有極其強大的高級搜索功能。

Teoma起源于1998年Rutgers大學(xué)的一個項目。Apostolos Gerasoulis教授帶領(lǐng)華裔TaoYang教授等人創(chuàng)立Teoma于新澤西Piscataway，2001年春初次登場，2001年9月被提問式搜索引擎Ask Jeeves收購，2002年4月再次發(fā)布。Teoma的數(shù)據(jù)庫目前仍偏小，但有兩個出彩的功能：支持類似自動分類的Refine；同時提供專業(yè)鏈接目錄的Resources。

Wisenut由韓裔Yeogirl Yun創(chuàng)立。2001年春季發(fā)布Beta版，2001年9月5日發(fā)布正式版，2002年4月被分類目錄提供商looksmart收購。wisenut也有兩個出彩的功能：包含類似自動分類和相關(guān)檢索詞的Wise Guide；預(yù)覽搜索結(jié)果的Sneak-a-Peek。

Gigablast由前Infoseek工程師Matt Wells創(chuàng)立，2002年3月展示pre-beta版，2002年7月21日發(fā)布Beta版。Gigablast的數(shù)據(jù)庫目前仍偏小，但也提供網(wǎng)頁快照，一個特色功能是即時索引網(wǎng)頁，你的網(wǎng)頁剛提交它就能搜索（注：這個spammers的肉包子功能暫已關(guān)閉）。

Openfind創(chuàng)立于1998年1月，其技術(shù)源自臺灣中正大學(xué)吳升教授所領(lǐng)導(dǎo)的GAIS實驗室。Openfind起先只做中文搜索引擎，曾經(jīng)是最好的中文搜索引擎，鼎盛時期同時為三大著名門戶新浪、奇摩、雅虎提供中文搜索引擎，但2000年后市場逐漸被Baidu和Google瓜分。2002年6月，Openfind重新發(fā)布基于GAIS30Project的Openfind搜索引擎Beta版，推出多元排序（PolyRankTM），宣布累計抓取網(wǎng)頁35億，開始進(jìn)入英文搜索領(lǐng)域，此后技術(shù)升級明顯加快。

北大天網(wǎng)是國家"九五"重點科技攻關(guān)項目"中文編碼和分布式中英文信息發(fā)現(xiàn)"的研究成果，由北大計算機系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開發(fā)，于1997年10月29日正式在CERNET上提供服務(wù)。2000年初成立天網(wǎng)搜索引擎新課題組，由國家973重點基礎(chǔ)研究發(fā)展規(guī)劃項目基金資助開發(fā)，收錄網(wǎng)頁約6000萬，利用教育網(wǎng)優(yōu)勢，有強大的ftp搜索功能。

2000年1月，超鏈分析專利發(fā)明人、前Infoseek資深工程師李彥宏與好友徐勇（加州伯克利分校博士）在北京中關(guān)村創(chuàng)立了百度（Baidu）公司。2001年8月發(fā)布Baidu.com搜索引擎Beta版（此前Baidu只為其它門戶網(wǎng)站搜狐新浪Tom等提供搜索引擎），2001年10月22日正式發(fā)布Baidu搜索引擎。Baidu雖然只提供中文搜索，但目前收錄中文網(wǎng)頁超過9000萬，可能是最大的的中文數(shù)據(jù)庫。Baidu搜索引擎的其它特色包括：網(wǎng)頁快照、網(wǎng)頁預(yù)覽/預(yù)覽全部網(wǎng)頁、相關(guān)搜索詞、錯別字糾正提示、新聞搜索、Flash搜索、信息快遞搜索。2002年3月閃電計劃（Blitzen Project）開始后，技術(shù)升級明顯加快。

1．3 搜索引擎大事記

1990年， McGill University學(xué)生Alan Emtage、Peter Deutsch、Bill Wheelan發(fā)明Archie（Archie FAQ）。

1993年，美國內(nèi)華達(dá)System Computing Services大學(xué)開發(fā)了另一個與Archie非常相似的搜索工具，不過此時的搜索工具除了索引文件外，已能檢索網(wǎng)頁。

1993年，Matthew Gray開發(fā)的World wide Web Wanderer，是世界上第一個用于監(jiān)測互聯(lián)網(wǎng)發(fā)展規(guī)模的“機器人”程序。

1993年10月，Martin Koster創(chuàng)建了ALIWEB，它是Archie的HTTP版本。

1993年底，一些基于此原理的搜索引擎開始紛紛涌現(xiàn)，其中以Jump Station、The World Wide Web Worm和Repository-Based Software Engineering（RBSE）spider最負(fù)盛名。

1994年1月，第一個既可搜索又可瀏覽的分類目錄EINetGalaxy（Tradewave Galaxy）上線。除了網(wǎng)站搜索，它還支持Gopher和Telnet搜索。

1994年初，Washington大學(xué)CS學(xué)生Brian Pinkerton開始了他的小項目Web Crawler（Brian Pinkerton Announces the Availability of Webcrawler）。1994年4月20日，Web Crawler正式亮相。

1994年7月,Michael Mauldin將John Leavitt的蜘蛛程序接入到其索引程序中，創(chuàng)建了大家現(xiàn)在熟知的Lycos。1996年底，美國在線收購了Excite20%的股份，美國在線搜索引擎也自然由Excite提供。

1995年，一種新的搜索引擎形式出現(xiàn)了——元搜索引擎（A Meta Search Engine Roundup）。第一個元搜索引擎，是Washington大學(xué)碩士生Eric Selberg和Oren Etzioni的Metacrawler。

1995年9月26日，加州伯克利分校CS助教EricBrewer、博士生PaulGauthier創(chuàng)立了Inktomi（UCBerkeley Announces Inktomi），1996年5月20日，Inktomi公司成立，強大的HotBot出現(xiàn)在世人面前。

1995年9月，Northernlight公司于成立于馬薩諸塞州劍橋，1997年8月，Northernlight搜索引擎正式現(xiàn)身。它曾是擁有最大數(shù)據(jù)庫的搜索引擎之一，它沒有Stop Words，它有出色的Current News、7,100多出版物組成的Special Collection、良好的高級搜索語法，第一個支持對搜索結(jié)果進(jìn)行簡單的自動分類。

1995年博士生LarryPage開始學(xué)習(xí)搜索引擎設(shè)計，于1997年9月15日注冊了google.com的域名，1997年底，在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下，Bach Rub開始提供Demo。1999年2月，Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認(rèn)作自己的生日。

1997年，F(xiàn)ast（Alltheweb）公司創(chuàng)立于，是挪威科技大學(xué)（NTNU）學(xué)術(shù)研究的副產(chǎn)品。1999年5月，發(fā)布了自己的搜索引擎AllTheWeb。

1998年，Rutgers大學(xué)的Apostolos Gerasoulis教授帶領(lǐng)華裔TaoYang教授等人創(chuàng)立Teoma于新澤西Piscataway，2001年春初次登場，2001年9月被提問式搜索引擎Ask Jeeves收購，2002年4月再次發(fā)布。

1998年1月，Openfind創(chuàng)立，其技術(shù)源自臺灣中正大學(xué)吳升教授所領(lǐng)導(dǎo)的GAIS實驗室，2002年6月，Openfind重新發(fā)布基于GAIS30Project的Openfind搜索引擎Beta版。

1997年10月29日，北大天網(wǎng)作為國家"九五"重點科技攻關(guān)項目"中文編碼和分布式中英文信息發(fā)現(xiàn)"的研究成果，由北大計算機系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開發(fā)，正式在CERNET上提供服務(wù)。2000年初成立天網(wǎng)搜索引擎新課題組，由國家973重點基礎(chǔ)研究發(fā)展規(guī)劃項目基金資助開發(fā)，收錄網(wǎng)頁約6000萬，利用教育網(wǎng)優(yōu)勢，有強大的ftp搜索功能。

2001年春季韓裔Yeogirl Yun創(chuàng)立Wisenut，發(fā)布Beta版，2001年9月5日發(fā)布正式版，2002年4月被分類目錄提供商looksmart收購。

2002年5月1日，網(wǎng)絡(luò)帝國美國在線（AOL）與Google簽約，全面采用Google的搜索引擎并顯示Google所有賣出的網(wǎng)站排名結(jié)果。

2002年12月24日，雅虎稱公司同意以大約2.35億美元的價格收購搜索軟件公司Inktomi。

2003年1月18日，Google收購博客網(wǎng)站Blogger.com開發(fā)團(tuán)隊——網(wǎng)上出版軟件開發(fā)商PyraLabs。

2003年2月19日，Overture服務(wù)公司表示，計劃以1.4億美元現(xiàn)金加股票從CMGI公司手中收購門戶網(wǎng)站AtaVista。

2003年2月26日，Overture同意以1億美元收購位于挪威的FastSearchandTransfer公司的網(wǎng)絡(luò)搜索部門。

2003年4月15日，新浪與中國搜索聯(lián)盟結(jié)成戰(zhàn)略同盟，至此，中國已有數(shù)百家網(wǎng)站結(jié)成搜索聯(lián)盟，以迎接國際巨頭Google挺進(jìn)國內(nèi)市場后的巨大壓力。

2003年4月21日,第二大互聯(lián)網(wǎng)搜索引擎提供商AskJeeves公司宣布對其Ask.com網(wǎng)站進(jìn)行升級。AskJeeves是僅次于Google的第二大搜索引擎，也是互聯(lián)網(wǎng)上第五大搜索基地（Google、雅虎、微軟、AOL、Askjeeves）。

2003年6月18日，微軟公司表示其正在加大研發(fā)新型互聯(lián)網(wǎng)搜索引擎技術(shù)的力度，包括對一款功能更先進(jìn)的技術(shù)原型進(jìn)行測試。

2003年7月13日，百度推出圖象搜索，新聞搜索兩大搜索功能，以此來帶動搜索流量。同時，輔以百度的搜索風(fēng)云榜，使得百度的信息搜索及信息評估的作用更加突出

2003年7月15日，全球最大的互聯(lián)網(wǎng)公司雅虎宣布，以16．3億美元收購在網(wǎng)絡(luò)搜索服務(wù)上的競爭對手—Overture公司，以期在同Google的競爭中取得優(yōu)勢。

以上就是關(guān)于谷歌公司大數(shù)據(jù)三大技術(shù)相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會為您講解更多精彩的知識和內(nèi)容。