正文

網(wǎng)頁(yè)正文提取算法開源（網(wǎng)頁(yè)內(nèi)容提取器）

發(fā)布時(shí)間：2023-03-04 23:15:23 稿源：創(chuàng)意嶺閱讀： 35 問(wèn)大家

大家好！今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于網(wǎng)頁(yè)正文提取算法開源的問(wèn)題，以下是小編對(duì)此問(wèn)題的歸納整理，讓我們一起來(lái)看看吧。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè)，服務(wù)客戶遍布全球各地，相關(guān)業(yè)務(wù)請(qǐng)撥打電話：175-8598-2043，或添加微信：1454722008

本文目錄:

1、信息采集軟件的一般功能有哪些？
2、搜索引擎是如何判斷你文章是否采集的
3、vb 快速的取得網(wǎng)頁(yè)源碼和提取其中內(nèi)容
4、搜索引擎是怎樣判斷原創(chuàng)的？

網(wǎng)頁(yè)正文提取算法開源（網(wǎng)頁(yè)內(nèi)容提取器）

一、信息采集軟件的一般功能有哪些？

一般信息采集系統(tǒng)可以將因特網(wǎng)上的網(wǎng)站信息采集保存到用戶的本地?cái)?shù)據(jù)庫(kù)中。并具備以下功能：

1、規(guī)則定義－通過(guò)采集規(guī)則的定義，可以搜索所有網(wǎng)站采集幾乎任何類型的信息。

2、多任務(wù)，多線程－可以同時(shí)進(jìn)行多個(gè)信息采集任務(wù)，每個(gè)任務(wù)可以使用多個(gè)線程。

3、數(shù)據(jù)保存－數(shù)據(jù)邊采集邊自動(dòng)保存到關(guān)系數(shù)據(jù)庫(kù)中，并且數(shù)據(jù)結(jié)構(gòu)能夠自動(dòng)適應(yīng)，軟件可以根據(jù)采集規(guī)則自動(dòng)創(chuàng)建數(shù)據(jù)庫(kù)，以及其中的表和字段。

4、網(wǎng)站登錄－支持網(wǎng)站登錄。

5、智能網(wǎng)頁(yè)正文提取－可以將正文從網(wǎng)頁(yè)代碼中智能提取。

6、結(jié)果替換－可以將采集的結(jié)果根據(jù)規(guī)則替換成你定義的內(nèi)容。

7、文件下載－可以將采集到的二進(jìn)制文件（諸如：圖片、音樂(lè)、軟件、文檔等等）下載到本地磁盤或者采集結(jié)果數(shù)據(jù)庫(kù)中。

8、采集結(jié)果分類－可以根據(jù)用戶定義的分類信息進(jìn)行采集結(jié)果的自動(dòng)分類。

9、數(shù)據(jù)發(fā)布－可以通過(guò)自定義接口，將已采集的結(jié)果數(shù)據(jù)發(fā)布到任意的內(nèi)容管理系統(tǒng)和指定數(shù)據(jù)庫(kù)中。

10、條件過(guò)濾－可以根據(jù)某個(gè)條件來(lái)決定那些信息保存，那些信息過(guò)濾。

11、過(guò)濾重復(fù)內(nèi)容－軟件可根據(jù)用戶設(shè)置和實(shí)際情況對(duì)重復(fù)內(nèi)容和重復(fù)網(wǎng)址自動(dòng)刪除重復(fù)內(nèi)容等等。

二、搜索引擎是如何判斷你文章是否采集的

搜索引擎是如何判斷你文章是否采集的？也就是要看搜索引擎是怎么查看原創(chuàng)的問(wèn)題

在這個(gè)科技高度發(fā)達(dá)的時(shí)代，百度已經(jīng)成為人們能獲取消息的主要途徑。但如今的百度，到處充斥著一些重復(fù)的內(nèi)容，對(duì)用戶的訪問(wèn)造成很大的困擾。因此，百度需要對(duì)網(wǎng)頁(yè)重復(fù)進(jìn)行判斷，對(duì)重復(fù)的網(wǎng)頁(yè)，只選取一些高質(zhì)量的我那工業(yè)，共用戶瀏覽。然而，現(xiàn)有技術(shù)中一般是通過(guò)比較兩個(gè)頁(yè)面的內(nèi)容和借點(diǎn)，來(lái)確認(rèn)兩個(gè)頁(yè)面的相似度。

這種方法能夠計(jì)算的比較準(zhǔn)確，可時(shí)間復(fù)雜度太高，計(jì)算很費(fèi)時(shí)間。通過(guò)對(duì)一個(gè)頁(yè)面中的某些重要信息進(jìn)行簽名，然后比較兩個(gè)頁(yè)面的簽名，來(lái)計(jì)算相似度，這種方式比較簡(jiǎn)單高效，計(jì)算速度比較快，比較適合百度這種海量信息的應(yīng)用場(chǎng)景。

1，網(wǎng)站重復(fù)內(nèi)容的判斷

A，獲取多個(gè)網(wǎng)頁(yè);

B，分別提取網(wǎng)頁(yè)的網(wǎng)頁(yè)正文;

C，從網(wǎng)頁(yè)正文中提取一個(gè)或多個(gè)句子，并根據(jù)一個(gè)或多個(gè)句子計(jì)算網(wǎng)頁(yè)正文句子簽名;

D，根據(jù)網(wǎng)頁(yè)正文句子簽名對(duì)多個(gè)網(wǎng)頁(yè)進(jìn)行聚類;

E，針對(duì)每一類下的網(wǎng)頁(yè)，計(jì)算網(wǎng)頁(yè)的附加簽名;

F，根據(jù)附加簽名判斷每一類下的網(wǎng)頁(yè)是否重復(fù)。

通過(guò)上述方式，網(wǎng)頁(yè)重復(fù)的判斷系統(tǒng)及其判斷方法通過(guò)包括網(wǎng)頁(yè)正文句子簽名在內(nèi)的多維度簽名有效且快速地判斷網(wǎng)頁(yè)是否重復(fù)。

廣告圖

網(wǎng)站頁(yè)面基本架構(gòu)

提取正文

A，對(duì)網(wǎng)頁(yè)進(jìn)行分塊;

B，對(duì)分塊后的網(wǎng)頁(yè)進(jìn)行塊過(guò)濾，以獲取包含網(wǎng)頁(yè)正文的內(nèi)容快;

C，從內(nèi)容塊中提取網(wǎng)頁(yè)正文。

正文分句

A，對(duì)網(wǎng)頁(yè)正文進(jìn)行分句;

在本步驟中，可利用分號(hào)，句號(hào)，感嘆號(hào)等表示句子完結(jié)的標(biāo)志符號(hào)來(lái)對(duì)網(wǎng)頁(yè)正文進(jìn)行分句。此外，還可以通過(guò)網(wǎng)頁(yè)正文的視覺信息來(lái)對(duì)網(wǎng)頁(yè)正文進(jìn)行分句。

B，對(duì)分句后的網(wǎng)頁(yè)正文進(jìn)行過(guò)濾及轉(zhuǎn)換;

在步驟中，首先過(guò)濾掉句子中的數(shù)字信息;版權(quán)信息以及其他對(duì)網(wǎng)頁(yè)重復(fù)判斷不起決定性作用的信息。隨后，對(duì)句子進(jìn)行轉(zhuǎn)換，例如，進(jìn)行全角/半角轉(zhuǎn)換或者繁體/簡(jiǎn)體轉(zhuǎn)換，以使得轉(zhuǎn)換后的句子的格式統(tǒng)一。

C，從過(guò)濾及轉(zhuǎn)換后的網(wǎng)頁(yè)正文中提取最長(zhǎng)的一個(gè)或多個(gè)句子;

在本步驟中，過(guò)濾及轉(zhuǎn)換后的網(wǎng)頁(yè)正文提取出最長(zhǎng)的一個(gè)句子或者做場(chǎng)的預(yù)定數(shù)量連續(xù)句子的組合。例如，某個(gè)網(wǎng)頁(yè)實(shí)例中，經(jīng)過(guò)過(guò)濾及轉(zhuǎn)換后的某段最長(zhǎng)，遠(yuǎn)超其他句子，因此可選擇該段為網(wǎng)頁(yè)正文句子，或者選擇最長(zhǎng)的連續(xù)句子組合作為網(wǎng)頁(yè)正文句子。

D，對(duì)一個(gè)或多個(gè)句子進(jìn)行hash簽名運(yùn)算，以獲取網(wǎng)頁(yè)正文句子簽名。

simhash算法就是比較各網(wǎng)頁(yè)的附加簽名是否相同或相似來(lái)判斷網(wǎng)頁(yè)是否重復(fù)。具體來(lái)說(shuō)，在比較利用simhash簽名運(yùn)算獲得的網(wǎng)頁(yè)正文簽名時(shí)，比較網(wǎng)頁(yè)正文簽名的不同位數(shù)，不同位越少，表示網(wǎng)頁(yè)重復(fù)的可能性越高，在比較其他的附加簽名時(shí)，若附加簽名相等，表示網(wǎng)頁(yè)在該緯度上重復(fù)。

總結(jié)：

1、兩個(gè)網(wǎng)頁(yè)的真實(shí)標(biāo)題簽名相同。

2、兩個(gè)我那工業(yè)的網(wǎng)頁(yè)內(nèi)容簽名相同。

3、兩個(gè)網(wǎng)頁(yè)的網(wǎng)頁(yè)正文簽名的不同位數(shù)小于6.。

4、兩個(gè)網(wǎng)頁(yè)的網(wǎng)頁(yè)位置簽名相同，并且url文件名簽名相同。

5、評(píng)論塊簽名、資源簽名、標(biāo)簽標(biāo)題簽名、摘要簽名、url文件名簽名中有三個(gè)簽名相同。

附加信息整站判斷重復(fù)標(biāo)準(zhǔn)：

通過(guò)兩兩頁(yè)面比較，可以得到真重復(fù)url的集合。一般來(lái)說(shuō)，如果這個(gè)真重復(fù)url集合中的網(wǎng)頁(yè)的數(shù)量/整個(gè)網(wǎng)頁(yè)集中網(wǎng)頁(yè)的數(shù)量大于30%，則認(rèn)為整個(gè)網(wǎng)頁(yè)集都是真重復(fù)，否則就是假重復(fù)。

三、vb 快速的取得網(wǎng)頁(yè)源碼和提取其中內(nèi)容

如下函數(shù)可以實(shí)現(xiàn)你要的功能：

Function TestRegExp(ByVal myString$, ByVal myPattern$, Optional myMark$ = "gimt", Optional myRepString$)

If myString = "" Or myPattern = "" Then

TestRegExp = ""

Debug.Print "數(shù)據(jù)不能為空"

Exit Function

End If

'Create objects.

Dim objRegExp As RegExp

Dim objMatch As Match

Dim colMatches As MatchCollection

Dim RetStr As String

Set objRegExp = New RegExp

' 正則式

objRegExp.Pattern = myPattern

'IIf(InStr(myPattern, "s") <> 0, "", myPattern)

' 是否區(qū)分大小寫

objRegExp.IgnoreCase = IIf(InStr(LCase$(myMark), "i") > 0, True, False)

' 是否全局

objRegExp.Global = IIf(InStr(LCase$(myMark), "g") > 0, True, False)

' 是否換行

objRegExp.MultiLine = IIf(InStr(LCase$(myMark), "m") > 0, True, False)

If objRegExp.Test(myString) Then

If InStr(myMark, "r") > 0 Then

Debug.Print "正在替換"

RetStr = objRegExp.Replace(myString, myRepString)

Debug.Print IIf(RetStr <> "", "替換結(jié)果" & Left(RetStr, 10), "沒搜索到可替換字符")

Else

Debug.Print "正在搜索"

Set colMatches = objRegExp.Execute(myString) ' Execute search.

'MsgBox colMatches.Count

For Each objMatch In colMatches ' Iterate Matches collection.

'RetStr = RetStr & objMatch.FirstIndex

RetStr = RetStr & objMatch.Value & vbCrLf

Debug.Print IIf(RetStr <> "", "搜索結(jié)果" & Left(RetStr, 10), "沒搜索到匹配結(jié)果")

End If

Else

RetStr = ""

Debug.Print "沒找到任何匹配結(jié)果,請(qǐng)檢查正則式的是否正確"

End If

TestRegExp = RetStr

End Function

四、搜索引擎是怎樣判斷原創(chuàng)的？

搜索引擎判斷復(fù)制網(wǎng)頁(yè)一般都基于這么一個(gè)思想：為每個(gè)網(wǎng)頁(yè)計(jì)算出一組信息指紋（Fingerprint），若兩個(gè)網(wǎng)頁(yè)有一定數(shù)量相同的信息指紋，則認(rèn)為這兩個(gè)網(wǎng)頁(yè)的內(nèi)容重疊性很高，也就是說(shuō)兩個(gè)網(wǎng)頁(yè)是內(nèi)容復(fù)制的。很多搜索引擎判斷內(nèi)容復(fù)制的方法都不太一樣，主要是以下兩點(diǎn)的不同：1、計(jì)算信息指紋（Fingerprint）的算法；2、判斷信息指紋的相似程度的參數(shù)。在描述具體的算法前，先說(shuō)清楚兩點(diǎn)：1、什么是信息指紋？信息指紋就是把網(wǎng)頁(yè)里面正文信息，提取一定的信息，可以是關(guān)鍵字、詞、句子或者段落及其在網(wǎng)頁(yè)里面的權(quán)重等，對(duì)它進(jìn)行加密，如MD5加密，從而形成的一個(gè)字符串。信息指紋如同人的指紋，只要內(nèi)容不相同，信息指紋就不一樣。2、算法提取的信息不是針對(duì)整張網(wǎng)頁(yè)，而是把網(wǎng)站里面共同的部分如導(dǎo)航條、logo、版權(quán)等信息（這些稱之為網(wǎng)頁(yè)的“噪音”）過(guò)濾掉后剩下的文本。分段簽名算法這種算法是按照一定的規(guī)則把網(wǎng)頁(yè)切成N段，對(duì)每一段進(jìn)行簽名，形成每一段的信息指紋。如果這N個(gè)信息指紋里面有M個(gè)相同時(shí)（m是系統(tǒng)定義的闕值），則認(rèn)為兩者是復(fù)制網(wǎng)頁(yè)。這種算法對(duì)于小規(guī)模的判斷復(fù)制網(wǎng)頁(yè)是很好的一種算法，但是對(duì)于像google這樣海量的搜索引擎來(lái)說(shuō)，算法的復(fù)雜度相當(dāng)高?；陉P(guān)鍵詞的復(fù)制網(wǎng)頁(yè)算法像google這類搜索引擎，他在抓取網(wǎng)頁(yè)的時(shí)候都會(huì)記下以下網(wǎng)頁(yè)信息：1、網(wǎng)頁(yè)中出現(xiàn)的關(guān)鍵詞（中文分詞技術(shù)）以及每個(gè)關(guān)鍵詞的權(quán)重（關(guān)鍵詞密度）；2、提取meta descrīption或者每個(gè)網(wǎng)頁(yè)的512個(gè)字節(jié)的有效文字。關(guān)于第2點(diǎn)，baidu和google有所不同，google是提取你的meta descrīption，如果沒有查詢關(guān)鍵字相關(guān)的512個(gè)字節(jié)，而百度是直接提取后者。這一點(diǎn)大家使用過(guò)的都有所體會(huì)。在以下算法描述中，我們約定幾個(gè)信息指紋變量：Pi表示第i個(gè)網(wǎng)頁(yè)；該網(wǎng)頁(yè)權(quán)重最高的N個(gè)關(guān)鍵詞構(gòu)成集合Ti={t1,t2,...tn}，其對(duì)應(yīng)的權(quán)重為Wi={w1,w2,...wi}摘要信息用Des(Pi)表示，前n個(gè)關(guān)鍵詞拼成的字符串用Con(Ti)表示，對(duì)這n個(gè)關(guān)鍵詞排序后形成的字符串用Sort(Ti)表示。以上信息指紋都用MD5函數(shù)進(jìn)行加密。基于關(guān)鍵詞的復(fù)制網(wǎng)頁(yè)算法有以下5種：1、MD5(Des(Pi))=MD5(Des(Pj)),就是說(shuō)摘要信息完全一樣，i和j兩個(gè)網(wǎng)頁(yè)就認(rèn)為是復(fù)制網(wǎng)頁(yè)；2、MD5(Con(Ti))=MD5(Con(Tj)),兩個(gè)網(wǎng)頁(yè)前n個(gè)關(guān)鍵詞及其權(quán)重的排序一樣，就認(rèn)為是復(fù)制網(wǎng)頁(yè)；3、MD5(Sort(Ti))=MD5(Sort(Tj)),兩個(gè)網(wǎng)頁(yè)前n個(gè)關(guān)鍵詞一樣，權(quán)重可以不一樣，也認(rèn)為是復(fù)制網(wǎng)頁(yè)。4、MD5(Con(Ti))=MD5(Con(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某個(gè)闕值a，則認(rèn)為兩者是復(fù)制網(wǎng)頁(yè)。5、MD5(Sort(Ti))=MD5(Sort(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某個(gè)闕值a，則認(rèn)為兩者是復(fù)制網(wǎng)頁(yè)。關(guān)于第4和第5的那個(gè)闕值a,主要是因?yàn)榍耙粋€(gè)判斷條件下，還是會(huì)有很多網(wǎng)頁(yè)被誤傷，搜索引擎開發(fā)根據(jù)權(quán)重的分布比例進(jìn)行調(diào)節(jié)，防止誤傷。這個(gè)是北大天網(wǎng)搜索引擎的去重算法（可以參考：《搜索引擎--原理、技術(shù)與系統(tǒng)》一書），以上5種算法運(yùn)行的時(shí)候，算法的效果取決于N，就是關(guān)鍵詞數(shù)目的選取。當(dāng)然啦，選的數(shù)量越多，判斷就會(huì)越精確，但是誰(shuí)知而來(lái)的計(jì)算速度也會(huì)減慢下來(lái)。所以必須考慮一個(gè)計(jì)算速度和去重準(zhǔn)確率的平衡。據(jù)天網(wǎng)試驗(yàn)結(jié)果，10個(gè)左右關(guān)鍵詞最恰當(dāng)。后記以上肯定無(wú)法覆蓋一個(gè)大型搜索引擎復(fù)制網(wǎng)頁(yè)的所有方面，他們必定還有一些輔助的信息指紋判斷，本文作為一個(gè)思路，給做搜索引擎優(yōu)化的一個(gè)思路。小弟的站：合肥化妝攝影學(xué)校

以上就是關(guān)于網(wǎng)頁(yè)正文提取算法開源相關(guān)問(wèn)題的回答。希望能幫到你，如有更多相關(guān)問(wèn)題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。