HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運營
CASE 服務(wù)案例
NEWS 熱點資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    谷歌公司大數(shù)據(jù)三大技術(shù)(谷歌公司大數(shù)據(jù)三大技術(shù)是什么)

    發(fā)布時間:2023-04-13 18:45:13     稿源: 創(chuàng)意嶺    閱讀: 118        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于谷歌公司大數(shù)據(jù)三大技術(shù)的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    谷歌公司大數(shù)據(jù)三大技術(shù)(谷歌公司大數(shù)據(jù)三大技術(shù)是什么)

    一、谷歌公司如何獲得大數(shù)據(jù)

    谷歌有50多萬臺服務(wù)器,是世界上服務(wù)器最多的公司,所存儲的數(shù)據(jù)可想而知了?!獧幟蕦W(xué)院大數(shù)據(jù)。

    二、大數(shù)據(jù)技術(shù)有哪些

    大數(shù)據(jù)技術(shù),就是從各種類型的數(shù)據(jù)中快速獲得有價值信息的技術(shù)。

    大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新的技術(shù),它們成為大數(shù)據(jù)采集、存儲、處理和呈現(xiàn)的有力武器。

    大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)安全等)。

                 

    一、大數(shù)據(jù)采集技術(shù)

    數(shù)據(jù)是指通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)及移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化(或稱之為弱結(jié)構(gòu)化)及非結(jié)構(gòu)化的海量數(shù)據(jù),是大數(shù)據(jù)知識服務(wù)模型的根本。

    重點要突破分布式高速高可靠數(shù)據(jù)爬取或采集、高速數(shù)據(jù)全映像等大數(shù)據(jù)收集技術(shù);突破高速數(shù)據(jù)解析、轉(zhuǎn)換與裝載等大數(shù)據(jù)整合技術(shù);設(shè)計質(zhì)量評估模型,開發(fā)數(shù)據(jù)質(zhì)量技術(shù)。

           互聯(lián)網(wǎng)是個神奇的大網(wǎng),大數(shù)據(jù)開發(fā)和軟件定制也是一種模式,這里提供最詳細(xì)的報價,如果你真的想做,可以來這里,這個手機的開始數(shù)字是一八七中間的是三兒

    零最后的是一四二五零,按照順序組合起來就可以找到,我想說的是,除非你想做或者了解這方面的內(nèi)容,如果只是湊熱鬧的話,就不要來了。

    大數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層:主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統(tǒng),實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉(zhuǎn)換、監(jiān)控、初步處理和管理等。

    必須著重攻克針對大數(shù)據(jù)源的智能識別、感知、適配、傳輸、接入等技術(shù)。

    基礎(chǔ)支撐層:提供大數(shù)據(jù)服務(wù)平臺所需的虛擬服務(wù)器,結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫及物聯(lián)網(wǎng)絡(luò)資源等基礎(chǔ)支撐環(huán)境。

    重點攻克分布式虛擬存儲技術(shù),大數(shù)據(jù)獲取、存儲、組織、分析和決策操作的可視化接口技術(shù),大數(shù)據(jù)的網(wǎng)絡(luò)傳輸與壓縮技術(shù),大數(shù)據(jù)隱私保護(hù)技術(shù)等。

                      二、大數(shù)據(jù)預(yù)處理技術(shù)

    主要完成對已接收數(shù)據(jù)的辨析、抽取、清洗等操作。

    1)抽?。阂颢@取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取過程可以幫助我們將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的構(gòu)型,以達(dá)到快速分析處理的目的。

    2)清洗:對于大數(shù)據(jù),并不全是有價值的,有些數(shù)據(jù)并不是我們所關(guān)心的內(nèi)容,而另一些數(shù)據(jù)則是完全錯誤的干擾項,因此要對數(shù)據(jù)通過過濾“去噪”從而提取出有效數(shù)據(jù)。

                      三、大數(shù)據(jù)存儲及管理技術(shù)

    大數(shù)據(jù)存儲與管理要用存儲器把采集到的數(shù)據(jù)存儲起來,建立相應(yīng)的數(shù)據(jù)庫,并進(jìn)行管理和調(diào)用。

    重點解決復(fù)雜結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)管理與處理技術(shù)。

    主要解決大數(shù)據(jù)的可存儲、可表示、可處理、可靠性及有效傳輸?shù)葞讉€關(guān)鍵問題。

    開發(fā)可靠的分布式文件系統(tǒng)(DFS)、能效優(yōu)化的存儲、計算融入存儲、大數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲技術(shù);突破分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù),異構(gòu)數(shù)據(jù)的數(shù)據(jù)融合技術(shù),數(shù)據(jù)組織技術(shù),研究大數(shù)據(jù)建模技術(shù);突破大數(shù)據(jù)索引技術(shù);突破大數(shù)據(jù)移動、備份、復(fù)制等技術(shù);開發(fā)大數(shù)據(jù)可視化技術(shù)。

    開發(fā)新型數(shù)據(jù)庫技術(shù),數(shù)據(jù)庫分為關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫以及數(shù)據(jù)庫緩存系統(tǒng)。

    其中,非關(guān)系型數(shù)據(jù)庫主要指的是NoSQL數(shù)據(jù)庫,分為:鍵值數(shù)據(jù)庫、列存數(shù)據(jù)庫、圖存數(shù)據(jù)庫以及文檔數(shù)據(jù)庫等類型。

    關(guān)系型數(shù)據(jù)庫包含了傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)以及NewSQL數(shù)據(jù)庫。

    開發(fā)大數(shù)據(jù)安全技術(shù)。

    改進(jìn)數(shù)據(jù)銷毀、透明加解密、分布式訪問控制、數(shù)據(jù)審計等技術(shù);突破隱私保護(hù)和推理控制、數(shù)據(jù)真?zhèn)巫R別和取證、數(shù)據(jù)持有完整性驗證等技術(shù)。

                      四、大數(shù)據(jù)分析及挖掘技術(shù)

    大數(shù)據(jù)分析技術(shù)。

    改進(jìn)已有數(shù)據(jù)挖掘和機器學(xué)習(xí)技術(shù);開發(fā)數(shù)據(jù)網(wǎng)絡(luò)挖掘、特異群組挖掘、圖挖掘等新型數(shù)據(jù)挖掘技術(shù);突破基于對象的數(shù)據(jù)連接、相似性連接等大數(shù)據(jù)融合技術(shù);突破用戶興趣分析、網(wǎng)絡(luò)行為分析、情感語義分析等面向領(lǐng)域的大數(shù)據(jù)挖掘技術(shù)。

    數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

    數(shù)據(jù)挖掘涉及的技術(shù)方法很多,有多種分類法。

    根據(jù)挖掘任務(wù)可分為分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等等;根據(jù)挖掘?qū)ο罂煞譃殛P(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及環(huán)球網(wǎng)Web;根據(jù)挖掘方法分,可粗分為:機器學(xué)習(xí)方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。

    機器學(xué)習(xí)中,可細(xì)分為:歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等。

    統(tǒng)計方法中,可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)等。

    神經(jīng)網(wǎng)絡(luò)方法中,可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等)等。

    數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。

                 

    從挖掘任務(wù)和挖掘方法的角度,著重突破:

           1.可視化分析。

    數(shù)據(jù)可視化無論對于普通用戶或是數(shù)據(jù)分析專家,都是最基本的功能。

    數(shù)據(jù)圖像化可以讓數(shù)據(jù)自己說話,讓用戶直觀的感受到結(jié)果。

           2.數(shù)據(jù)挖掘算法。

    圖像化是將機器語言翻譯給人看,而數(shù)據(jù)挖掘就是機器的母語。

    分割、集群、孤立點分析還有各種各樣五花八門的算法讓我們精煉數(shù)據(jù),挖掘價值。

    這些算法一定要能夠應(yīng)付大數(shù)據(jù)的量,同時還具有很高的處理速度。

          3.預(yù)測性分析。

    預(yù)測性分析可以讓分析師根據(jù)圖像化分析和數(shù)據(jù)挖掘的結(jié)果做出一些前瞻性判斷。

          4.語義引擎。

    語義引擎需要設(shè)計到有足夠的人工智能以足以從數(shù)據(jù)中主動地提取信息。

    語言處理技術(shù)包括機器翻譯、情感分析、輿情分析、智能輸入、問答系統(tǒng)等。

          5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。

    數(shù)據(jù)質(zhì)量與管理是管理的最佳實踐,透過標(biāo)準(zhǔn)化流程和機器對數(shù)據(jù)進(jìn)行處理可以確保獲得一個預(yù)設(shè)質(zhì)量的分析結(jié)果。

                             

    六、大數(shù)據(jù)展現(xiàn)與應(yīng)用技術(shù)

    大數(shù)據(jù)技術(shù)能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息和知識挖掘出來,為人類的社會經(jīng)濟(jì)活動提供依據(jù),從而提高各個領(lǐng)域的運行效率,大大提高整個社會經(jīng)濟(jì)的集約化程度。

    在我國,大數(shù)據(jù)將重點應(yīng)用于以下三大領(lǐng)域:商業(yè)智能、 *** 決策、公共服務(wù)。

    例如:商業(yè)智能技術(shù), *** 決策技術(shù),電信數(shù)據(jù)信息處理與挖掘技術(shù),電網(wǎng)數(shù)據(jù)信息處理與挖掘技術(shù),氣象信息分析技術(shù),環(huán)境監(jiān)測技術(shù),警務(wù)云應(yīng)用系統(tǒng)(道路監(jiān)控、視頻監(jiān)控、網(wǎng)絡(luò)監(jiān)控、智能交通、反電信詐騙、指揮調(diào)度等公安信息系統(tǒng)),大規(guī)?;蛐蛄蟹治霰葘夹g(shù),Web信息挖掘技術(shù),多媒體數(shù)據(jù)并行化處理技術(shù),影視制作渲染技術(shù),其他各種行業(yè)的云計算和海量數(shù)據(jù)處理應(yīng)用技術(shù)等。

    三、谷歌采用搜索引擎大數(shù)據(jù)進(jìn)行流感趨勢預(yù)測體現(xiàn)了哪種大數(shù)據(jù)思維方

    全樣而非抽樣。

    根據(jù)谷歌官方網(wǎng)站顯示,谷歌采用搜索引擎大數(shù)據(jù)進(jìn)行流感趨勢預(yù)測體現(xiàn)了,全樣而非抽樣大數(shù)據(jù)思維方式。

    谷歌公司)成立于1998年9月4日,由拉里·佩奇和謝爾蓋·布林共同創(chuàng)建,被公認(rèn)為全球最大的搜索引擎公司。

    四、Google的搜索速度為什么這么快?

    是?。?!

    有N條1000M光纖,N個服務(wù)器級的硬盤組成陣列!

    1.1 前互聯(lián)網(wǎng)搜索時代

    在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡直如同大海撈針,這時為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運而生了。

    所有搜索引擎的祖先,是1990年由Montreal的McGill University學(xué)生Alan Emtage、Peter Deutsch、Bill Wheelan發(fā)明的Archie(Archie FAQ)。當(dāng)時World Wide Web還未出現(xiàn)。Archie是第一個自動索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序,但它還不是真正的搜索引擎。Archie是一個可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然后Archie會告訴用戶哪一個FTP地址可以下載該文件。

    Archie工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近,它依靠腳本程序自動搜索網(wǎng)上的文件,然后對有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢。由于Archie深受用戶歡迎,受其啟發(fā),美國內(nèi)華達(dá)System Computing Services大學(xué)于1993年開發(fā)了另一個與之非常相似的搜索工具,不過此時的搜索工具除了索引文件外,已能檢索網(wǎng)頁。

    當(dāng)時,“機器人”一詞在編程者中十分流行。電腦“機器人”(Computer Robot)是指某個能以人類無法達(dá)到的速度不間斷地執(zhí)行某項任務(wù)的軟件程序。由于專門用于檢索信息的“機器人”程序象蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去,因此,搜索引擎的“機器人”程序就被稱為“蜘蛛”程序。由于專門用于檢索信息的Robot程序象蜘蛛(spider)一樣在網(wǎng)絡(luò)間爬來爬去,因此,搜索引擎的Robot程序被稱為spider(SpiderFAQ)程序。世界上第一個Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追蹤互聯(lián)網(wǎng)發(fā)展規(guī)模。剛開始它只用來統(tǒng)計互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為也能夠捕獲網(wǎng)址(URL)。

    世界上第一個用于監(jiān)測互聯(lián)網(wǎng)發(fā)展規(guī)模的“機器人”程序是Matthew Gray開發(fā)的World wide Web Wanderer。剛開始它只用來統(tǒng)計互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為能夠檢索網(wǎng)站域名。

    與Wanderer相對應(yīng),1993年10月Martijn Koster創(chuàng)建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相當(dāng)于Archie的HTTP版本。ALIWEB不使用網(wǎng)絡(luò)搜尋Robot,如果網(wǎng)站主管們希望自己的網(wǎng)頁被ALIWEB收錄,需要自己提交每一個網(wǎng)頁的簡介索引信息,類似于后來大家熟知的Yahoo。

    1993年底,一些基于此原理的搜索引擎開始紛紛涌現(xiàn),其中最負(fù)盛名的三個是:Scotland的JumpStation、Colorado大學(xué)Oliver McBryan的The World Wide Web Worm(First Mention of McBryan's World Wide Web Worm)、NASA的Repository-Based Software Engineering(RBSE)spider。隨著互聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁變得越來越困難,因此,在Matthew Gray的Wanderer基礎(chǔ)上,一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進(jìn)。其設(shè)想是,既然所有網(wǎng)頁都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤一個網(wǎng)站的鏈接開始,就有可能檢索整個互聯(lián)網(wǎng)。然而Jump Station和WWW Worm只是以搜索工具在數(shù)據(jù)庫中找到匹配信息的先后次序排列搜索結(jié)果,因此毫無信息關(guān)聯(lián)度可言。而RBSE是第一個在搜索結(jié)果排列中引入關(guān)鍵字串匹配程度概念的引擎。

    1993年2月,6個Stanford(斯坦福)大學(xué)生的想法是分析字詞關(guān)系,以對互聯(lián)網(wǎng)上的大量信息作更有效的檢索。這就是Excite。后來曾以概念搜索聞名,2002年5月,被Infospace收購的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile

    1994年1月,第一個既可搜索又可瀏覽的分類目錄EINetGalaxy(Tradewave Galaxy)上線。除了網(wǎng)站搜索,它還支持Gopher和Telnet搜索。

    1994年4月,Stanford兩名博士生,美籍華人Jerry Yang(楊致遠(yuǎn))和David Filo共同創(chuàng)辦了Yahoo。隨著訪問量和收錄鏈接數(shù)的增長,Yahoo目錄開始支持簡單的數(shù)據(jù)庫搜索。因為Yahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實上只是一個可搜索的目錄。搜索效率明顯提高。(Yahoo以后陸續(xù)使用Altavista、Inktomi、Google提供搜索引擎服務(wù))

    1994年初,Washington大學(xué)CS學(xué)生Brian Pinkerton開始了他的小項目Web Crawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,Web Crawler正式亮相時僅包含來自6000個服務(wù)器的內(nèi)容。Web Crawler是互聯(lián)網(wǎng)上第一個支持搜索文件全部文字的全文搜索引擎,在它之前,用戶只能通過URL和摘要搜索,摘要一般來自人工評論或程序自動取正文的前100個字。(后來web crawler陸續(xù)被AOL和Excite收購,現(xiàn)在和excite一樣改用元搜索引擎Dogpile)

    1.2 互聯(lián)網(wǎng)搜索時代

    最早現(xiàn)代意義上的搜索引擎出現(xiàn)于1994年7月。當(dāng)時Michael Mauldin將John Leavitt的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的Lycos。同年4月,斯坦福(Stanford)大學(xué)的兩名博士生,David Filo和美籍華人楊致遠(yuǎn)(Gerry Yang)共同創(chuàng)辦了超級目錄索引Yahoo,并成功地使搜索引擎的概念深入人心。從此搜索引擎進(jìn)入了高速發(fā)展時期。目前,互聯(lián)網(wǎng)上有名有姓的搜索引擎已達(dá)數(shù)百家,其檢索的信息量也與從前不可同日而語。比如最近風(fēng)頭正勁的Google,其數(shù)據(jù)庫中存放的網(wǎng)頁已達(dá)30億之巨!

    隨著互聯(lián)網(wǎng)規(guī)模的急劇膨脹,一家搜索引擎光靠自己單打獨斗已無法適應(yīng)目前的市場狀況,因此現(xiàn)在搜索引擎之間開始出現(xiàn)了分工協(xié)作,并有了專業(yè)的搜索引擎技術(shù)和搜索數(shù)據(jù)庫服務(wù)提供商。象國外的Inktomi,它本身并不是直接面向用戶的搜索引擎,但向包括Overture(原GoTo)、LookSmart、MSN、HotBot等在內(nèi)的其他搜索引擎提供全文網(wǎng)頁搜索服務(wù)。國內(nèi)的百度也屬于這一類,搜狐和新浪用的就是它的技術(shù)。因此從這個意義上說,它們是搜索引擎的搜索引擎。

    Lycos(Carnegie Mellon University Center for Machine Translation Announces Lycos)是搜索引擎史上又一個重要的進(jìn)步。Carnegie Mellon University的Michael Mauldin將John Leavitt的spider程序接入到其索引程序中,創(chuàng)建了Lycos。1994年7月20日,數(shù)據(jù)量為54,000的Lycos正式發(fā)布。除了相關(guān)性排序外,Lycos還提供了前綴匹配和字符相近限制,Lycos第一個在搜索結(jié)果中使用了網(wǎng)頁自動摘要,而最大的優(yōu)勢還是它遠(yuǎn)勝過其它搜索引擎的數(shù)據(jù)量:1994年8月--394,000 documents;1995年1月--1.5 million documents;1996年11月--over 60 million documents。(注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服務(wù))

    Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search Engine)是另一個重要的搜索引擎,雖然公司聲稱1994年1月已創(chuàng)立,但直到年底它的搜索引擎才與公眾見面。起初,Infoseek只是一個不起眼的搜索引擎,它沿襲Yahoo!和Lycos的概念,并沒有什么獨特的革新。但是它的發(fā)展史和后來受到的眾口稱贊證明,起初第一個登臺并不總是很重要。Infoseek友善的用戶界面、大量附加服務(wù)(such as UPStracking,News,adirectory,and the like)使它聲望日隆。而1995年12月與Netscape的戰(zhàn)略性協(xié)議,使它成為一個強勢搜索引擎:當(dāng)用戶點擊Netscape瀏覽器上的搜索按鈕時,彈出Infoseek的搜索服務(wù),而此前由Yahoo!提供該服務(wù)。(注:Infoseek后來曾以相關(guān)性聞名,2001年2月,Infoseek停止了自己的搜索引擎,開始改用Overture的搜索結(jié)果)

    1995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎(A Meta Search Engine Roundup)。用戶只需提交一次搜索請求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個預(yù)先選定的獨立搜索引擎,并將從各獨立搜索引擎返回的所有查詢結(jié)果,集中起來處理后再返回給用戶。第一個元搜索引擎,是Washington大學(xué)碩士生Eric Selberg和Oren Etzioni的Metacrawler。元搜索引擎概念上好聽,但搜索效果始終不理想,所以沒有哪個元搜索引擎有過強勢地位。

    DEC的AltaVista(2001年夏季起部分網(wǎng)友需通過p-roxy訪問,無p-roxy可用qbseach單選altavista搜索,只能顯示第一頁搜索結(jié)果)是一個遲到者,1995年12月才登場亮相(AltaVista Public Beta Press Release)。但是,大量的創(chuàng)新功能使它迅速到達(dá)當(dāng)時搜索引擎的頂峰。Altavista最突出的優(yōu)勢是它的速度。而Altavista的另一些新功能,則永遠(yuǎn)改變了搜索引擎的定義。AltaVista是第一個支持自然語言搜索的搜索引擎,AltaVista是第一個實現(xiàn)高級搜索語法的搜索引擎(如AND,OR,NOT等)。用戶可以用AltaVista搜索Newsgroups(新聞組)的內(nèi)容并從互聯(lián)網(wǎng)上獲得文章,還可以搜索圖片名稱中的文字、搜索Titles、搜索Java applets、搜索ActiveXobjects。AltaVista也聲稱是第一個支持用戶自己向網(wǎng)頁索引庫提交或刪除URL的搜索引擎,并能在24小時內(nèi)上線。AltaVista最有趣的新功能之一,是搜索有鏈接指向某個URL的所有網(wǎng)站。在面向用戶的界面上,AltaVista也作了大量革新。它在搜索框區(qū)域下放了“tips”以幫助用戶更好的表達(dá)搜索式,這些小tip經(jīng)常更新,這樣,在搜索過幾次以后,用戶會看到很多他們可能從來不知道的的有趣功能。這系列功能,逐漸被其它搜索引擎廣泛采用。

    1997年,AltaVista發(fā)布了一個圖形演示系統(tǒng)LiveTopics,幫助用戶從成千上萬的搜索結(jié)果中找到想要的。

    然后到來的是HotBot。1995年9月26日,加州伯克利分校CS助教EricBrewer、博士生PaulGauthier創(chuàng)立了Inktomi(UCBerkeley Announces Inktomi),1996年5月20日,Inktomi公司成立,強大的HotBot出現(xiàn)在世人面前。聲稱每天能抓取索引1千萬頁以上,所以有遠(yuǎn)超過其它搜索引擎的新內(nèi)容。HotBot也大量運用cookie儲存用戶的個人搜索喜好設(shè)置。(Hotbot曾是隨后幾年最受歡迎的搜索引擎之一,后被Lycos收購)

    Northernlight公司于1995年9月成立于馬薩諸塞州劍橋,1997年8月,Northernlight搜索引擎正式現(xiàn)身。它曾是擁有最大數(shù)據(jù)庫的搜索引擎之一,它沒有Stop Words,它有出色的Current News、7,100多出版物組成的Special Collection、良好的高級搜索語法,第一個支持對搜索結(jié)果進(jìn)行簡單的自動分類。(2002年1月16日,Northernlight公共搜索引擎關(guān)閉,隨后被divine收購,但在Nlresearch,選中"World Wide Web only",仍可使用Northernlight搜索引擎)

    1998年10月之前,Google只是Stanford大學(xué)的一個小項目BackRub。1995年博士生LarryPage開始學(xué)習(xí)搜索引擎設(shè)計,于1997年9月15日注冊了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下,Bach Rub開始提供Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認(rèn)作自己的生日。

    Google在Pagerank、動態(tài)摘要、網(wǎng)頁快照、Daily Refresh、多文檔格式支持、地圖股票詞典尋人等集成搜索、多語言支持、用戶界面等功能上的革新,象Altavista一樣,再一次永遠(yuǎn)改變了搜索引擎的定義。

    在2000年中以前,Google雖然以搜索準(zhǔn)確性備受贊譽,但因為數(shù)據(jù)庫不如其它搜索引擎大,缺乏高級搜索語法,所以使用價值不是很高,推廣并不快。直到2000年中數(shù)據(jù)庫升級后,又借被Yahoo選作搜索引擎的東風(fēng),才一飛沖天。

    Fast(Alltheweb)公司創(chuàng)立于1997年,是挪威科技大學(xué)(NTNU)學(xué)術(shù)研究的副產(chǎn)品。1999年5月,發(fā)布了自己的搜索引擎AllTheWeb。Fast創(chuàng)立的目標(biāo)是做世界上最大和最快的搜索引擎,幾年來庶幾近之。Fast(Alltheweb)的網(wǎng)頁搜索可利用ODP自動分類,支持Flash和pdf搜索,支持多語言搜索,還提供新聞搜索、圖像搜索、視頻、MP3、和FTP搜索,擁有極其強大的高級搜索功能。

    Teoma起源于1998年Rutgers大學(xué)的一個項目。Apostolos Gerasoulis教授帶領(lǐng)華裔TaoYang教授等人創(chuàng)立Teoma于新澤西Piscataway,2001年春初次登場,2001年9月被提問式搜索引擎Ask Jeeves收購,2002年4月再次發(fā)布。Teoma的數(shù)據(jù)庫目前仍偏小,但有兩個出彩的功能:支持類似自動分類的Refine;同時提供專業(yè)鏈接目錄的Resources。

    Wisenut由韓裔Yeogirl Yun創(chuàng)立。2001年春季發(fā)布Beta版,2001年9月5日發(fā)布正式版,2002年4月被分類目錄提供商looksmart收購。wisenut也有兩個出彩的功能:包含類似自動分類和相關(guān)檢索詞的Wise Guide;預(yù)覽搜索結(jié)果的Sneak-a-Peek。

    Gigablast由前Infoseek工程師Matt Wells創(chuàng)立,2002年3月展示pre-beta版,2002年7月21日發(fā)布Beta版。Gigablast的數(shù)據(jù)庫目前仍偏小,但也提供網(wǎng)頁快照,一個特色功能是即時索引網(wǎng)頁,你的網(wǎng)頁剛提交它就能搜索(注:這個spammers的肉包子功能暫已關(guān)閉)。

    Openfind創(chuàng)立于1998年1月,其技術(shù)源自臺灣中正大學(xué)吳升教授所領(lǐng)導(dǎo)的GAIS實驗室。Openfind起先只做中文搜索引擎,曾經(jīng)是最好的中文搜索引擎,鼎盛時期同時為三大著名門戶新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市場逐漸被Baidu和Google瓜分。2002年6月,Openfind重新發(fā)布基于GAIS30Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累計抓取網(wǎng)頁35億,開始進(jìn)入英文搜索領(lǐng)域,此后技術(shù)升級明顯加快。

    北大天網(wǎng)是國家"九五"重點科技攻關(guān)項目"中文編碼和分布式中英文信息發(fā)現(xiàn)"的研究成果,由北大計算機系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開發(fā),于1997年10月29日正式在CERNET上提供服務(wù)。2000年初成立天網(wǎng)搜索引擎新課題組,由國家973重點基礎(chǔ)研究發(fā)展規(guī)劃項目基金資助開發(fā),收錄網(wǎng)頁約6000萬,利用教育網(wǎng)優(yōu)勢,有強大的ftp搜索功能。

    2000年1月,超鏈分析專利發(fā)明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士)在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。2001年8月發(fā)布Baidu.com搜索引擎Beta版(此前Baidu只為其它門戶網(wǎng)站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式發(fā)布Baidu搜索引擎。Baidu雖然只提供中文搜索,但目前收錄中文網(wǎng)頁超過9000萬,可能是最大的的中文數(shù)據(jù)庫。Baidu搜索引擎的其它特色包括:網(wǎng)頁快照、網(wǎng)頁預(yù)覽/預(yù)覽全部網(wǎng)頁、相關(guān)搜索詞、錯別字糾正提示、新聞搜索、Flash搜索、信息快遞搜索。2002年3月閃電計劃(Blitzen Project)開始后,技術(shù)升級明顯加快。

    1.3 搜索引擎大事記

    1990年, McGill University學(xué)生Alan Emtage、Peter Deutsch、Bill Wheelan發(fā)明Archie(Archie FAQ)。

    1993年,美國內(nèi)華達(dá)System Computing Services大學(xué)開發(fā)了另一個與Archie非常相似的搜索工具,不過此時的搜索工具除了索引文件外,已能檢索網(wǎng)頁。

    1993年,Matthew Gray開發(fā)的World wide Web Wanderer,是世界上第一個用于監(jiān)測互聯(lián)網(wǎng)發(fā)展規(guī)模的“機器人”程序。

    1993年10月,Martin Koster創(chuàng)建了ALIWEB,它是Archie的HTTP版本。

    1993年底,一些基于此原理的搜索引擎開始紛紛涌現(xiàn),其中以Jump Station、The World Wide Web Worm和Repository-Based Software Engineering(RBSE)spider最負(fù)盛名。

    1994年1月,第一個既可搜索又可瀏覽的分類目錄EINetGalaxy(Tradewave Galaxy)上線。除了網(wǎng)站搜索,它還支持Gopher和Telnet搜索。

    1994年初,Washington大學(xué)CS學(xué)生Brian Pinkerton開始了他的小項目Web Crawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,Web Crawler正式亮相。

    1994年4月,Stanford兩名博士生,美籍華人Jerry Yang(楊致遠(yuǎn))和David Filo共同創(chuàng)辦了Yahoo。隨著訪問量和收錄鏈接數(shù)的增長,Yahoo目錄開始支持簡單的數(shù)據(jù)庫搜索。因為Yahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實上只是一個可搜索的目錄。

    1994年7月,Michael Mauldin將John Leavitt的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的Lycos。1996年底,美國在線收購了Excite20%的股份,美國在線搜索引擎也自然由Excite提供。

    1995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎(A Meta Search Engine Roundup)。第一個元搜索引擎,是Washington大學(xué)碩士生Eric Selberg和Oren Etzioni的Metacrawler。

    1995年9月26日,加州伯克利分校CS助教EricBrewer、博士生PaulGauthier創(chuàng)立了Inktomi(UCBerkeley Announces Inktomi),1996年5月20日,Inktomi公司成立,強大的HotBot出現(xiàn)在世人面前。

    1995年9月,Northernlight公司于成立于馬薩諸塞州劍橋,1997年8月,Northernlight搜索引擎正式現(xiàn)身。它曾是擁有最大數(shù)據(jù)庫的搜索引擎之一,它沒有Stop Words,它有出色的Current News、7,100多出版物組成的Special Collection、良好的高級搜索語法,第一個支持對搜索結(jié)果進(jìn)行簡單的自動分類。

    1995年博士生LarryPage開始學(xué)習(xí)搜索引擎設(shè)計,于1997年9月15日注冊了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下,Bach Rub開始提供Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認(rèn)作自己的生日。

    1997年,F(xiàn)ast(Alltheweb)公司創(chuàng)立于,是挪威科技大學(xué)(NTNU)學(xué)術(shù)研究的副產(chǎn)品。1999年5月,發(fā)布了自己的搜索引擎AllTheWeb。

    1998年,Rutgers大學(xué)的Apostolos Gerasoulis教授帶領(lǐng)華裔TaoYang教授等人創(chuàng)立Teoma于新澤西Piscataway,2001年春初次登場,2001年9月被提問式搜索引擎Ask Jeeves收購,2002年4月再次發(fā)布。

    1998年1月,Openfind創(chuàng)立,其技術(shù)源自臺灣中正大學(xué)吳升教授所領(lǐng)導(dǎo)的GAIS實驗室,2002年6月,Openfind重新發(fā)布基于GAIS30Project的Openfind搜索引擎Beta版。

    1997年10月29日,北大天網(wǎng)作為國家"九五"重點科技攻關(guān)項目"中文編碼和分布式中英文信息發(fā)現(xiàn)"的研究成果,由北大計算機系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開發(fā),正式在CERNET上提供服務(wù)。2000年初成立天網(wǎng)搜索引擎新課題組,由國家973重點基礎(chǔ)研究發(fā)展規(guī)劃項目基金資助開發(fā),收錄網(wǎng)頁約6000萬,利用教育網(wǎng)優(yōu)勢,有強大的ftp搜索功能。

    2000年1月,超鏈分析專利發(fā)明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士)在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。2001年8月發(fā)布Baidu.com搜索引擎Beta版(此前Baidu只為其它門戶網(wǎng)站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式發(fā)布Baidu搜索引擎。

    2001年春季韓裔Yeogirl Yun創(chuàng)立Wisenut,發(fā)布Beta版,2001年9月5日發(fā)布正式版,2002年4月被分類目錄提供商looksmart收購。

    2002年5月1日,網(wǎng)絡(luò)帝國美國在線(AOL)與Google簽約,全面采用Google的搜索引擎并顯示Google所有賣出的網(wǎng)站排名結(jié)果。

    2002年12月24日,雅虎稱公司同意以大約2.35億美元的價格收購搜索軟件公司Inktomi。

    2003年1月18日,Google收購博客網(wǎng)站Blogger.com開發(fā)團(tuán)隊——網(wǎng)上出版軟件開發(fā)商PyraLabs。

    2003年2月19日,Overture服務(wù)公司表示,計劃以1.4億美元現(xiàn)金加股票從CMGI公司手中收購門戶網(wǎng)站AtaVista。

    2003年2月26日,Overture同意以1億美元收購位于挪威的FastSearchandTransfer公司的網(wǎng)絡(luò)搜索部門。

    2003年4月15日,新浪與中國搜索聯(lián)盟結(jié)成戰(zhàn)略同盟,至此,中國已有數(shù)百家網(wǎng)站結(jié)成搜索聯(lián)盟,以迎接國際巨頭Google挺進(jìn)國內(nèi)市場后的巨大壓力。

    2003年4月21日,第二大互聯(lián)網(wǎng)搜索引擎提供商AskJeeves公司宣布對其Ask.com網(wǎng)站進(jìn)行升級。AskJeeves是僅次于Google的第二大搜索引擎,也是互聯(lián)網(wǎng)上第五大搜索基地(Google、雅虎、微軟、AOL、Askjeeves)。

    2003年6月18日,微軟公司表示其正在加大研發(fā)新型互聯(lián)網(wǎng)搜索引擎技術(shù)的力度,包括對一款功能更先進(jìn)的技術(shù)原型進(jìn)行測試。

    2003年7月13日,百度推出圖象搜索,新聞搜索兩大搜索功能,以此來帶動搜索流量。同時,輔以百度的搜索風(fēng)云榜,使得百度的信息搜索及信息評估的作用更加突出

    2003年7月15日,全球最大的互聯(lián)網(wǎng)公司雅虎宣布,以16.3億美元收購在網(wǎng)絡(luò)搜索服務(wù)上的競爭對手—Overture公司,以期在同Google的競爭中取得優(yōu)勢。

    以上就是關(guān)于谷歌公司大數(shù)據(jù)三大技術(shù)相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    谷歌推出新的gpt(谷歌gpt3)

    怎么注冊香港PayPal(怎么注冊香港谷歌賬號)

    如何讓谷歌瀏覽器不升級(如何讓谷歌瀏覽器不升級軟件)

    10萬自動擋suv排行榜(十萬的自動擋suv排行榜)

    3d建模師工資高嗎(3d建模師容易找工作嗎)