HOME 首頁(yè)
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營(yíng)
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專(zhuān)注品牌策劃15年

    火車(chē)頭小說(shuō)采集規(guī)則(火車(chē)頭采集器小說(shuō)采集)

    發(fā)布時(shí)間:2023-05-24 22:41:32     稿源: 創(chuàng)意嶺    閱讀: 149        

    大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于火車(chē)頭小說(shuō)采集規(guī)則的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,有小程序、在線網(wǎng)頁(yè)版、PC客戶端和批量生成器brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    問(wèn)友Ai官網(wǎng):https://ai.de1919.combrM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    本文目錄:brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    火車(chē)頭小說(shuō)采集規(guī)則(火車(chē)頭采集器小說(shuō)采集)brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    飛飛火車(chē)頭采集器怎么寫(xiě)發(fā)布規(guī)則brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    1
    首先講一講網(wǎng)站結(jié)構(gòu),通常網(wǎng)站結(jié)構(gòu)為樹(shù)形結(jié)構(gòu),一個(gè)網(wǎng)站主要包以下幾種頁(yè)面:首頁(yè)、欄目頁(yè)、文章頁(yè),其結(jié)構(gòu)如下圖。
    其次講一講火車(chē)頭采集原理,火車(chē)頭的運(yùn)行需要一套規(guī)則來(lái)指定該如何采集所需數(shù)據(jù),即需要編寫(xiě)火車(chē)頭采集規(guī)則,編寫(xiě)采集規(guī)則也是新手最頭痛的問(wèn)題。
    火車(chē)頭采集器通常通過(guò)網(wǎng)址抓取網(wǎng)站返回的源代碼,然后在源代碼中提取需要的信息。因此,采集數(shù)據(jù)需要先采集網(wǎng)址,然后再采集數(shù)據(jù)。
    2
    下面開(kāi)始編寫(xiě)采集規(guī)則:
    運(yùn)行LocoyPlatform.exe
    3
    在左側(cè)“任務(wù)列表樹(shù)”選擇一個(gè)分組點(diǎn)擊右鍵,選擇“新建任務(wù)”彈出新建任務(wù)對(duì)話框。填寫(xiě)任務(wù)名,網(wǎng)站編碼一般選擇自動(dòng)即可。
    添加起始網(wǎng)址
    填寫(xiě)“第一步:采集網(wǎng)址規(guī)則”這里需要按照網(wǎng)站的樹(shù)形結(jié)構(gòu)逐級(jí)獲取下一級(jí)結(jié)構(gòu)的網(wǎng)址,直至獲取到內(nèi)容頁(yè)的網(wǎng)址。先填寫(xiě)起始網(wǎng)址,通常為目標(biāo)站首頁(yè)地址。點(diǎn)擊“添加”,在單條網(wǎng)址處填上火車(chē)頭博客的首頁(yè)地址,然后依次點(diǎn)擊“添加” ->“完成”。
    編寫(xiě)“多級(jí)網(wǎng)址獲取”規(guī)則
    這里需要先在起始地址頁(yè)面找到所有需要采集的欄目頁(yè)的代碼區(qū)域,先查看起始頁(yè)地址的源碼,找到如圖所示代碼區(qū)域:
    點(diǎn)擊右側(cè)“添加”按鈕打開(kāi)“添加多級(jí)網(wǎng)址采集規(guī)則”,選擇“從頁(yè)面自動(dòng)分析得到地址鏈接”單選按鈕,在下面“從該選定區(qū)域中提取網(wǎng)址”,“從”(左側(cè))文本框填上欄目地址代碼區(qū)域開(kāi)始之前的標(biāo)志性代碼(要保證其在該頁(yè)的唯一性),“到”右側(cè)文本框填上欄目地址代碼區(qū)域結(jié)束之后的標(biāo)志性代碼,在“結(jié)果網(wǎng)址過(guò)濾”的“必須包含”和“不得包含”文本框填上相應(yīng)代碼,如果該區(qū)域沒(méi)有多余的鏈接不需要過(guò)濾,可以不填,這里的欄目頁(yè)網(wǎng)址必須包含“category-”。然后點(diǎn)擊“保存”返回。
    現(xiàn)在需要獲取內(nèi)容頁(yè)的地址。先打開(kāi)欄目頁(yè)查看源碼,查找內(nèi)容頁(yè)地址存在的區(qū)域及地址規(guī)律。按照上一步的方法先填寫(xiě)內(nèi)容頁(yè)所在區(qū)域的起始和結(jié)束標(biāo)志性代碼,然后分析這個(gè)區(qū)域中包含的鏈接與我們說(shuō)需要的內(nèi)容頁(yè)地址鏈接規(guī)律,添加過(guò)濾代碼。這里起始代碼為“<!--顯示-->”,結(jié)束代碼為“<div class="page" style="float:right">”過(guò)濾代碼為必須包含“read-”不得包含“#”。如圖:
    需要注意的是這里文章比較多會(huì)有很多分頁(yè),所以需要填寫(xiě)“列表分頁(yè)獲取”規(guī)則。通常只需要指定分頁(yè)代碼的區(qū)域,如有必要可以填寫(xiě)“組合生成列表頁(yè)分頁(yè)”規(guī)則。這里的列表分頁(yè)規(guī)則其實(shí)代碼為“<li class="pageNumber">”,結(jié)束代碼為“title="下一頁(yè)">”。如果勾選“自動(dòng)識(shí)別分頁(yè)”的話,會(huì)自動(dòng)提取a標(biāo)簽的href屬性,如果不勾選自動(dòng)識(shí)別的話,需要填寫(xiě)組合生成列表頁(yè)分頁(yè)”規(guī)則。
    然后保存返回,可以通過(guò)“測(cè)試網(wǎng)址采集”來(lái)測(cè)試規(guī)則是否正確,不正確可以返回修改規(guī)則,正確的話可以開(kāi)始編寫(xiě)“第二步采集內(nèi)容規(guī)則”。
    編寫(xiě)“第二步采集內(nèi)容規(guī)則”
    先打開(kāi)內(nèi)容頁(yè)以及內(nèi)容頁(yè)的源碼,找到需要提取的信息的前后代碼特征。以提取標(biāo)題和內(nèi)容為例。首先復(fù)制文章標(biāo)題,然后在源碼中查看該標(biāo)題出現(xiàn)的幾處地方,找一處前后代碼在每一篇文章都一樣的地方,該例共出現(xiàn)了3處,第二處的代碼沒(méi)有其他干擾代碼。點(diǎn)擊“添加”,標(biāo)簽名填“標(biāo)題”,提取數(shù)據(jù)方式選擇前后截取,前后代碼分別為“<h1 class="ContentTitle"><strong>”和“</strong></h1>”。如果采集的內(nèi)容需要作進(jìn)一步處理(如替換刪除編碼轉(zhuǎn)換過(guò)濾html等),在下方“數(shù)據(jù)處理”點(diǎn)擊添加填寫(xiě)相應(yīng)規(guī)則。
    再添加一個(gè)標(biāo)簽,標(biāo)簽名為“內(nèi)容”,按照上述方法填寫(xiě)內(nèi)容的前后代碼片段,需要注意的是,前后代碼片段最好不要出現(xiàn)不完整的標(biāo)簽(如:“<div class="Content-body"” 應(yīng)該寫(xiě)作“<div class="Content-body">”,一個(gè)完整的標(biāo)簽應(yīng)該是以“<”開(kāi)始,以“>”結(jié)束,如果<>之間的內(nèi)容在各個(gè)內(nèi)容頁(yè)有一部分不一樣,將不一樣的部分用(*)代替即可),否則提取的內(nèi)容會(huì)包含部分不完整的標(biāo)簽。通常正文包含的HTML會(huì)比較多,可以添加HTML過(guò)濾功能,建議僅保留段落(p)、圖片(img)、換行(br)等標(biāo)簽。
    測(cè)試內(nèi)容采集規(guī)則
    保存規(guī)則后返回采集內(nèi)容規(guī)則頁(yè)面,在右側(cè)“規(guī)則測(cè)試”的典型頁(yè)面文本框填上一個(gè)內(nèi)容頁(yè)的地址,然后點(diǎn)擊測(cè)試,如果下面顯示到的內(nèi)容符合預(yù)期說(shuō)明可以了,如果未獲取到內(nèi)容或者獲取到內(nèi)容不正確,返回檢查并修改規(guī)則。
    開(kāi)始采集
    選擇要采集的任務(wù)規(guī)則,勾選“采網(wǎng)址”和“采內(nèi)容”復(fù)選框,點(diǎn)擊工具欄“開(kāi)始”按鈕。
    后續(xù)工作
    采集到的數(shù)據(jù)保存在數(shù)據(jù)庫(kù),可以通過(guò)在任務(wù)名上點(diǎn)右鍵,選擇“打開(kāi)DATA下任務(wù)文件夾”打開(kāi)數(shù)據(jù)庫(kù)所在位置,該數(shù)據(jù)庫(kù)可以通過(guò)ACCESS打開(kāi)和編輯。如果想要重新采集,需要通過(guò)右鍵選擇“清空該任務(wù)網(wǎng)址庫(kù)”和“清空任務(wù)所有采集數(shù)據(jù)”。

    如何寫(xiě)火車(chē)頭采集器的采集規(guī)則,采集頁(yè)面上圖片內(nèi)的文字?brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    不得不說(shuō)火車(chē)頭是有一定用處,但是個(gè)人覺(jué)得不怎么好用,光是寫(xiě)那些采集規(guī)則,設(shè)定什么的就一大堆不明不白的東西。拿錢(qián)購(gòu)買(mǎi)嘛,一開(kāi)始那客服還很熱情的為你解答,一交完錢(qián)買(mǎi)下來(lái)了,寫(xiě)規(guī)則,好了,有問(wèn)題要找客服解決,結(jié)果一拖再拖,弄了一個(gè)多月還沒(méi)弄好,整個(gè)網(wǎng)站的工作進(jìn)程全拖慢了,還不如自己辛苦點(diǎn)自己手動(dòng)寫(xiě)文章,還采集啥啊~
    言歸正傳,火車(chē)頭使用:新建站點(diǎn)—>新建任務(wù)—>填寫(xiě)你要采集的網(wǎng)站文章列表—>點(diǎn)下面的開(kāi)始測(cè)試網(wǎng)址—>如果有采集到很多文章,看各個(gè)地址相同部分(如system/2012/03/07),點(diǎn)返回修改,把system/2012/03/07這部分加到“文章內(nèi)容必須包含”那里,再測(cè)試一下,就可以采集到3月7日的文章地址了—>前面準(zhǔn)備好網(wǎng)址后接下來(lái)就是第二步的采集內(nèi)容規(guī)則了,點(diǎn)第二步,設(shè)定標(biāo)簽,一般采集包括標(biāo)題<title></title>、關(guān)鍵字<meta name=keyword...>、內(nèi)容<div>...</div>,這些設(shè)置從你要采集的網(wǎng)站代碼上可以找到相應(yīng)的——>采集頁(yè)面上的圖片,在第四步,“文件保存及高級(jí)設(shè)置”,選擇所有文件本地保存文件夾(這里是從頁(yè)面下載圖片存放的位置),然后下面有個(gè)FTP同步文件上傳的,填好服務(wù)器、用戶名、密碼什么的,文件上傳根目錄就是你網(wǎng)站服務(wù)器放置圖片的文件夾位置,你可以在服務(wù)器新建一個(gè)文件夾試試看,OK!到此為止,不過(guò)有一些網(wǎng)站寫(xiě)了反采集代碼,有可能會(huì)被封IP,整體來(lái)說(shuō),個(gè)人不提倡使用火車(chē)頭采集器,還不如個(gè)人手動(dòng)來(lái)得實(shí)在,就算一天少發(fā)點(diǎn)也行,只要保證每天更新量、偽原創(chuàng)和原創(chuàng),一樣有很大效果。

    火車(chē)頭小說(shuō)采集規(guī)則(火車(chē)頭采集器小說(shuō)采集)brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    火車(chē)頭如何采集還有縮略圖的文章呢brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    1、首先在采集列表頁(yè)的源碼中將帶有縮略圖的那部分源碼復(fù)制下來(lái),如圖:brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    2、查看網(wǎng)站的源碼,找到這行代碼,如圖:brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司


    brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    3、打開(kāi)火車(chē)頭,進(jìn)入采集網(wǎng)址規(guī)則—添加多級(jí)網(wǎng)址采集規(guī)則,選中手動(dòng)填寫(xiě)鏈接地址規(guī)則,并將第二步驟中選中的代碼粘貼進(jìn)去,如圖:brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    4、將代碼進(jìn)行如下修改:brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    5、改好后保存并進(jìn)行采集測(cè)試,如圖所示brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    6、然后再在采集內(nèi)容規(guī)則里進(jìn)行修改,選中“縮略圖”標(biāo)簽,打開(kāi),進(jìn)行內(nèi)容替換,如圖:brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    7、然后點(diǎn)擊文件下載,選中下載圖片,并填好縮略圖保存路徑及命名方式,如圖:brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    8、在“文件保存及部分高級(jí)設(shè)置”里設(shè)定縮略圖的保存盤(pán)符及其前綴,我設(shè)定為桌面,前綴為“./”,如圖:brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司


    9、我們保存后測(cè)試一下,一起順利,縮略圖順利采集下來(lái)了
    brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    追問(wèn)

    是最近版本的嗎?brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司

    以上就是關(guān)于火車(chē)頭小說(shuō)采集規(guī)則相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。brM創(chuàng)意嶺 - 安心托付、值得信賴(lài)的品牌設(shè)計(jì)、營(yíng)銷(xiāo)策劃公司


    推薦閱讀:

    天津火車(chē)站餐飲品牌設(shè)計(jì)(天津站餐飲店)

    火車(chē)站前廣場(chǎng)景觀設(shè)計(jì)(火車(chē)站前廣場(chǎng)景觀設(shè)計(jì)方案)

    景區(qū)火車(chē)站臺(tái)景觀設(shè)計(jì)(景區(qū)火車(chē)站臺(tái)景觀設(shè)計(jì)方案)

    景觀設(shè)計(jì)sl(景觀設(shè)計(jì)su)

    杭州職業(yè)技術(shù)學(xué)院是大專(zhuān)還是專(zhuān)科(杭州職業(yè)技術(shù)學(xué)院是不是本科)