正文

簡單python爬蟲完整代碼（簡單python爬蟲完整代碼可用的）

發(fā)布時間：2023-04-15 17:31:06 稿源：創(chuàng)意嶺閱讀： 92

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于簡單python爬蟲完整代碼的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè)，服務(wù)客戶遍布全球各地，如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043，或添加微信：1454722008

本文目錄:

1、求一個python3爬蟲代碼，可以從小說網(wǎng)站上直接把小說的文字抄下來，并整合到一個新的文本里
2、如何利用python寫爬蟲程序
3、python爬蟲入門教程
4、如何入門 python 爬蟲

簡單python爬蟲完整代碼（簡單python爬蟲完整代碼可用的）

一、求一個python3爬蟲代碼，可以從小說網(wǎng)站上直接把小說的文字抄下來，并整合到一個新的文本里

from bs4 import BeautifulSoup
from requests.exceptions import RequestException
import re
import requests
import os
def get_html_text(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        return r.text
    except RequestException:
        return None
def get_chapter_names(html):
    soup = BeautifulSoup(html, 'lxml')
    charpter = soup.select('.bg')
    charpter_names = []
    for entry in charpter[1:]:
        charpter_name = re.findall('<h4>(.*?)</h4>', str(entry))
        file_name = re.findall('<a href.*?>(.*?)</a>', str(entry))
        if charpter_name and file_name:
            for name in file_name:
                name = name.split(' ')[0]
                charpter_names.append(charpter_name[0] + '_' + name)
        else:
            pass
    return set(charpter_names)
def get_each_url(html):
    soup = BeautifulSoup(html, 'lxml')
    urls = soup.select('ul li a')
    for url in urls:
        link = url.get('href')
        text = url.text.split(' ')[0]
        full_name = url.text.replace('?','')
        yield {'url': link, 'text': text,'full_name':full_name}
        print(text)
def get_text(url):
    r = requests.get(url)
    r.encoding = r.apparent_encoding
    soup = BeautifulSoup(r.text, 'lxml')
    items = soup.select('div.content-body')
    item = re.findall(';(.*?);', items[0].text, re.S)
    return item[0].encode()
def save_to_file(url, text, full_name):
    base_dir = 'daomu'
    path = '{}\{}\{}'.format(os.getcwd(), base_dir, text)
    if not os.path.exists(path):
        try:
            os.makedirs(path)
        except:
            pass
    try:
        with open(path +'\'+ full_name +'.txt', 'wb') as f:
            f.write(get_text(url))
    except:
        pass
def main():
    url = 'http://seputu.com/'
    html = get_html_text(url)
    chapters = get_chapter_names(html)
    for chapter in chapters:
        for each in get_each_url(html):
            if each['text'] == chapter.split('_')[-1]:
                save_to_file(each['url'],chapter,each['full_name'])
if __name__ == '__main__':
    main()

二、如何利用python寫爬蟲程序

利用python寫爬蟲程序的方法：

1、先分析網(wǎng)站內(nèi)容，紅色部分即是網(wǎng)站文章內(nèi)容div。

簡單python爬蟲完整代碼（簡單python爬蟲完整代碼可用的）

2、隨便打開一個div來看，可以看到，藍色部分除了一個文章標(biāo)題以外沒有什么有用的信息，而注意紅色部分我勾畫出的地方，可以知道，它是指向文章的地址的超鏈接，那么爬蟲只要捕捉到這個地址就可以了。

簡單python爬蟲完整代碼（簡單python爬蟲完整代碼可用的）

3、接下來在一個問題就是翻頁問題，可以看到，這和大多數(shù)網(wǎng)站不同，底部沒有頁數(shù)標(biāo)簽，而是查看更多。

簡單python爬蟲完整代碼（簡單python爬蟲完整代碼可用的）

4、不過在查看源文件時有一個超鏈接，經(jīng)測試它指向下一頁，那么通過改變其最后的數(shù)值，就可以定位到相應(yīng)的頁數(shù)上。

簡單python爬蟲完整代碼（簡單python爬蟲完整代碼可用的）

代碼如下：

簡單python爬蟲完整代碼（簡單python爬蟲完整代碼可用的）

三、python爬蟲入門教程

工具/材料

IELD(python 3.6.2)，windows 7

01
首先打開IDLE,輸入import requests模塊，如果沒有報錯，就說明已經(jīng)安裝了這個模塊，請?zhí)^此步驟；如果報錯，先打開命令行，win+r，彈出運行窗口，然后輸入cmd，點擊確定即可。
02
然后輸入pip3 install requests 安裝模塊即可
03
然后在IDLE窗口中輸入如下圖所示的命令
04
在瀏覽器中輸入https://zhinan.sogou.com/，就可以打開網(wǎng)頁，這時點擊鼠標(biāo)右鍵，然后點擊查看網(wǎng)頁源代碼，就可以發(fā)現(xiàn)，打印的結(jié)果和在瀏覽器中看到的源代碼是一樣的

四、如何入門 python 爬蟲

如何入門 python 爬蟲

先自己答一個，期待牛人的回答。

自己學(xué)Python不久，列舉自己做過的和知道的。

1. Python做爬蟲很方便，有現(xiàn)成的庫。我在學(xué)習(xí)python的過程中也遇到過一個非常簡單的例子，代碼：python/primer/20/Cralwer.py at master · xxg1413/python · GitHub 。好像有開源的項目叫什么supercrawler，具體可以看看。

2.Python做游戲。Pygame還是不錯的，但只適合做小游戲。用Pygame寫個植物大戰(zhàn)僵尸還是可以的。推薦教程用Python和Pygame寫游戲。Python在游戲服務(wù)器方面也有應(yīng)用。EVE這種游戲都大量用Python。

3.Python作為黑客第一語言，在黑客領(lǐng)域的應(yīng)用就不多說了。

4.Python做網(wǎng)站，有幾個web框架 WebFrameworks。用得最多的是Django。

5......各方面都有，什么推薦系統(tǒng)，都是用python，在此就不一一列舉了。

以上就是關(guān)于簡單python爬蟲完整代碼相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進行咨詢，客服也會為您講解更多精彩的知識和內(nèi)容。