-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 營(yíng)銷(xiāo)推廣 > 專(zhuān)題列表 > 正文
火車(chē)頭采集器使用教程(火車(chē)頭采集器使用教程2010)
大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于火車(chē)頭采集器使用教程的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。
開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,有小程序、在線網(wǎng)頁(yè)版、PC客戶端和批量生成器
官網(wǎng):https://ai.de1919.com。
本文目錄:
火車(chē)頭發(fā)布中的導(dǎo)入到自定義數(shù)據(jù)庫(kù)怎么用
仔細(xì)看看教程,分析下自己錯(cuò)誤的原因吧。今天給大家開(kāi)堂講火車(chē)頭數(shù)據(jù)庫(kù)導(dǎo)庫(kù)模塊的使用方法
教程準(zhǔn)備:
1.火車(chē)頭采集器
2.導(dǎo)庫(kù)演示用我及其研究的sNews CMS程序
3.數(shù)據(jù)庫(kù)管理權(quán)限 phpMyAdmin
開(kāi)堂啦....
使用火車(chē)導(dǎo)入第一項(xiàng)做的事是建立數(shù)據(jù)庫(kù)發(fā)布模塊,
ps:當(dāng)然建立數(shù)據(jù)庫(kù)發(fā)布模塊需要商業(yè)版才有的功能,或自直接購(gòu)買(mǎi)數(shù)據(jù)庫(kù)發(fā)布模塊的編輯器。
另外火車(chē)頭也提供了比較常用的程序數(shù)據(jù)庫(kù)發(fā)布模塊,大家可以直接下載使用就可以了。^^
編輯好數(shù)據(jù)庫(kù)發(fā)布模塊后下一步就是數(shù)據(jù)庫(kù)發(fā)布模塊配置。
在接著就是新建采集任務(wù),把發(fā)布模式選擇為數(shù)據(jù)庫(kù)發(fā)布模式。
好吧,先來(lái)做數(shù)據(jù)庫(kù)發(fā)布模塊-
打開(kāi)你的sNews CMS發(fā)布一條測(cè)試內(nèi)容
填寫(xiě)好發(fā)布的各項(xiàng)內(nèi)容
如 標(biāo)題:title 內(nèi)容:發(fā)布內(nèi)容 描述 :Description 關(guān)鍵詞:Keywords
發(fā)布成功!
然后轉(zhuǎn)到你數(shù)據(jù)庫(kù)管理工具phpMyAdmin,選擇cms的數(shù)據(jù)庫(kù),然后進(jìn)行導(dǎo)出數(shù)據(jù)庫(kù)表。演示的sNews數(shù)據(jù)庫(kù)需要導(dǎo)庫(kù)的表是articles。當(dāng)然不同的cms需要研究需要操作的表是不同的,一般你發(fā)表幾篇文章后再觀察就可以找到。
還有的就是聯(lián)動(dòng)操作,這個(gè)將在以后再給大家講堂,呵呵簡(jiǎn)單的學(xué)起
導(dǎo)出表后,打開(kāi)數(shù)據(jù)庫(kù)發(fā)布模塊編輯工具,同時(shí)打開(kāi)導(dǎo)出的數(shù)據(jù)文件,可以用文本工具打開(kāi)數(shù)據(jù)庫(kù)就可以看到INSERT的語(yǔ)句,把這個(gè)語(yǔ)句直接復(fù)制到數(shù)據(jù)庫(kù)發(fā)布模塊編輯工具上面,然后按相應(yīng)的標(biāo)簽修改。
模塊名稱(chēng):sNews 數(shù)據(jù)庫(kù)類(lèi)型我們演示的選擇是mysql
添加數(shù)據(jù)表前綴,演示的sNews雖然沒(méi)使用數(shù)據(jù)庫(kù)表前綴^^
開(kāi)始修改,一般ID字段是自增ID,確定不需要的可以刪除掉。其它的一一對(duì)好字段修改好。
接著按自動(dòng)獲取操作數(shù)據(jù)庫(kù)表。最后寫(xiě)上說(shuō)明,編輯好后保存模塊,這樣我的入庫(kù)模塊就完成了。...
開(kāi)始配置數(shù)據(jù)庫(kù)發(fā)布,
1.選擇數(shù)據(jù)庫(kù)類(lèi)型 mysql
2.選擇剛才建立的發(fā)布模塊 sNews
3.設(shè)置登錄數(shù)據(jù)庫(kù)資料
4.測(cè)試連接,OK后保存 這里我們一般建議直接填寫(xiě)數(shù)據(jù)庫(kù)名稱(chēng),因?yàn)檫h(yuǎn)程導(dǎo)庫(kù)一般是刷不到數(shù)據(jù)庫(kù)名稱(chēng)的??!
還有要填數(shù)據(jù)庫(kù)前綴,但我們演示的是沒(méi)有的,如果有一定要填上
新建任務(wù),我演示用火車(chē)內(nèi)置好的吧!一般的采集任務(wù)設(shè)置我們略過(guò)...
直接到采集標(biāo)簽?zāi)?,主要演示給大家知道要做好對(duì)應(yīng)發(fā)布模塊的標(biāo)簽設(shè)置。
下一步到發(fā)布內(nèi)容設(shè)置,啟用方式三導(dǎo)入自定義數(shù)據(jù)庫(kù)。最后設(shè)置成功發(fā)表項(xiàng)設(shè)置。
好了,大家開(kāi)工吧開(kāi)始采集,就可以享受數(shù)據(jù)庫(kù)導(dǎo)庫(kù)給你帶來(lái)的快感啦.....
火車(chē)頭采集器怎么用
作為同時(shí)使用八爪魚(yú)采集器和寫(xiě)爬蟲(chóng)的非技術(shù)的莫名其妙喜歡自己琢磨技術(shù)的互聯(lián)網(wǎng)運(yùn)營(yíng)喵。。。我來(lái)談?wù)勑牡酶邢搿?br/>八爪魚(yú)有一些優(yōu)勢(shì),比如學(xué)習(xí)成本低,可視化流程,快速搭建采集系統(tǒng)。能直接導(dǎo)出excel文件和導(dǎo)出到數(shù)據(jù)庫(kù)中。降低采集成本,云采集提供10個(gè)節(jié)點(diǎn),也能省事不少。不好的地方就是,即使看似很簡(jiǎn)單了,而且還有更傻瓜化的smart模式,但是里面的坑只有用的多的人才清楚。關(guān)于這個(gè)我在我的博客里簡(jiǎn)單寫(xiě)了寫(xiě),不過(guò)說(shuō)實(shí)話心得太多,還沒(méi)仔細(xì)整理。
首先里面的循環(huán)都是xpath元素定位,如果用單純的傻瓜化點(diǎn)擊定位的話,很死板,大批量采集頁(yè)面的時(shí)候很容易出錯(cuò)。另外用這個(gè)工具的,因?yàn)榉奖?,小白太多,成天有人?wèn)普通問(wèn)題,他們都不會(huì)看頁(yè)面結(jié)構(gòu),也不懂xpath,很容易出現(xiàn)采集不全,無(wú)限翻頁(yè)等問(wèn)題。
但是八爪魚(yú)采集器的ajax加載,模擬手機(jī)頁(yè)面,過(guò)濾廣告,滾動(dòng)至頁(yè)面底端等功能堪稱(chēng)神器,一個(gè)勾選就能搞定。寫(xiě)代碼很麻煩的,實(shí)現(xiàn)這些功能費(fèi)勁。
八爪魚(yú)畢竟只是工具,自由度肯定完敗編程。勝在方便,快速,低成本。
八爪魚(yú)判斷語(yǔ)錄較弱,無(wú)法進(jìn)行復(fù)雜判斷,也無(wú)法執(zhí)行復(fù)雜邏輯。還有就是八爪魚(yú)只有企業(yè)版才能解決驗(yàn)證碼問(wèn)題,一般版本無(wú)法接入打碼平臺(tái)。
還有一點(diǎn)就是沒(méi)有ocr功能,58同城和趕集網(wǎng)采集的電話號(hào)碼都是圖片格式,python可以用開(kāi)源圖像識(shí)別庫(kù)解決,對(duì)接進(jìn)去識(shí)別便可。
除非對(duì)技術(shù)有很高要求,否則我覺(jué)得八爪魚(yú)采集器很好用,比火車(chē)采集器好用,雖然效率沒(méi)那么高,但是比起費(fèi)勁學(xué)習(xí)和研究數(shù)據(jù)包,還是用這個(gè)省事。我沒(méi)事也會(huì)在八爪魚(yú)群里解答一些規(guī)則編制的問(wèn)題。
作者:極客兔子
來(lái)源:知乎
火車(chē)頭采集器怎么采集今日頭條文章?
第一步采集網(wǎng)址,下載好火車(chē)頭采集器后打開(kāi),新建一個(gè)任務(wù),任務(wù)名隨意。把需要采集的網(wǎng)站文章列表頁(yè)網(wǎng)址添加到起始網(wǎng)址。從圖中看出該列表頁(yè)有34頁(yè),每頁(yè)有N篇文章。2
列表頁(yè)會(huì)一級(jí)網(wǎng)址,添加多級(jí)網(wǎng)址獲取,從而獲取二級(jí)網(wǎng)址(文章頁(yè)網(wǎng)址)
設(shè)置列表分頁(yè)獲取,3個(gè)地方分別是:分頁(yè)源代碼前面和后面還有中間位置。這一步用于獲取列表頁(yè)面鏈接,因?yàn)橛?4個(gè)列表頁(yè)面。設(shè)置完保存。
網(wǎng)址獲取選項(xiàng),這一步用于獲取列表頁(yè)上面文章頁(yè)的鏈接,根據(jù)自己需要設(shè)置需要截取的部分和根據(jù)網(wǎng)址的結(jié)構(gòu)設(shè)置包含與不包含某些字符。為空即沒(méi)限制,設(shè)置完保存。
設(shè)置好鏈接采集規(guī)則后,可以測(cè)試網(wǎng)址,看測(cè)試結(jié)果調(diào)整規(guī)則。看圖可以看到采集鏈接規(guī)則從起始鏈接到全面列表頁(yè)再到列表頁(yè)上的文章頁(yè)鏈接都已經(jīng)成功采集。
第二步是采集內(nèi)容,首先修改標(biāo)題規(guī)則,在頁(yè)面源代碼里面找到標(biāo)題的代碼,把標(biāo)題前后代碼負(fù)責(zé)過(guò)去截取出標(biāo)題。保存。
修改內(nèi)容采集規(guī)則,跟標(biāo)題規(guī)則差不多,也是源代碼里面找到內(nèi)容的前后代碼。這里內(nèi)容會(huì)有一些其他html標(biāo)簽,所以得添加一個(gè)html標(biāo)簽排除的規(guī)則。
完成后,測(cè)試看一下結(jié)果,從測(cè)試結(jié)果來(lái)調(diào)試規(guī)則,直到測(cè)試結(jié)果是自己想要的內(nèi)容為止。
第三步是采集導(dǎo)出。前面1、2兩步把規(guī)則設(shè)置好,最后就要把文章導(dǎo)出了。先做一個(gè)導(dǎo)出的模版。
然后選擇方式二,把每一篇文章都分別記錄到一個(gè)txt文本,保存位置自己選擇,模板選擇剛剛做好的導(dǎo)出模版.保存的文件名用文章標(biāo)題為命名。其他默認(rèn),保存。
把采集網(wǎng)址,采集內(nèi)容,發(fā)布3個(gè)選項(xiàng)框都勾選,然后開(kāi)始采集。完成后文本就自動(dòng)生成在剛剛保存的文件夾里面了。
火車(chē)頭采集器采集文章教程到此就完成了,由于每個(gè)網(wǎng)站都是不一樣的,所以這里只能用一個(gè)網(wǎng)站演示,只是一個(gè)方法思路,自己采集文章還需要靈活變通。追問(wèn)
這樣復(fù)雜粘貼有意思嗎?
以上就是關(guān)于火車(chē)頭采集器使用教程相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢(xún),客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
南充到杭州火車(chē)時(shí)刻表查詢(xún)(南充到杭州火車(chē)時(shí)刻表查詢(xún)結(jié)果)
火車(chē)頭小說(shuō)采集規(guī)則(火車(chē)頭采集器小說(shuō)采集)
火車(chē)頭采集器免費(fèi)版可以用嗎(火車(chē)頭采集器免費(fèi)版可以用嗎安全嗎)
江蘇景觀設(shè)計(jì)大概費(fèi)用(江蘇景觀設(shè)計(jì)大概費(fèi)用多少錢(qián))
猜你喜歡
怎樣復(fù)制小紅書(shū)視頻文案(怎樣復(fù)制小紅書(shū)視頻文案呢)
在線抽獎(jiǎng)生成器下載(在線抽獎(jiǎng)生成器下載)
如何分析一篇文章的結(jié)構(gòu)(如何分析一篇文章的結(jié)構(gòu)特點(diǎn))
產(chǎn)品控評(píng)文案模板(產(chǎn)品控評(píng)文案模板范文)
一鍵偽原創(chuàng)視頻采集工具(視頻一鍵偽原創(chuàng)app)
語(yǔ)音識(shí)別常用的應(yīng)用有四個(gè)(語(yǔ)音識(shí)別常用的應(yīng)用有四個(gè)下列不是常用應(yīng)用的是)