正文

評(píng)論關(guān)鍵詞提?。ㄔu(píng)論關(guān)鍵詞提取論文）

發(fā)布時(shí)間：2023-04-19 09:44:24 稿源：創(chuàng)意嶺閱讀： 87

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于評(píng)論關(guān)鍵詞提取的問題，以下是小編對(duì)此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個(gè)非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè)，服務(wù)客戶遍布全球各地，如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043，或添加微信：1454722008

本文目錄:

1、小紅書中可以搜索人家評(píng)論的關(guān)鍵字嗎
2、如何通過評(píng)論熱詞搜索B站UP主？
3、手機(jī)評(píng)論文本挖掘與數(shù)據(jù)分析（Python）
4、微博爬蟲系列之關(guān)鍵詞及指定用戶博文爬取

評(píng)論關(guān)鍵詞提?。ㄔu(píng)論關(guān)鍵詞提取論文）

一、小紅書中可以搜索人家評(píng)論的關(guān)鍵字嗎

:1、小紅書app端尋找達(dá)人小紅書app端的達(dá)人尋找就是我們可以通過小紅書app的搜索框輸入我們的目標(biāo)達(dá)人名稱或者品牌所在的品類相關(guān)詞等進(jìn)行尋找，比如輸入關(guān)鍵詞“狗糧”然后就可以看到相關(guān)內(nèi)容筆記，接著就可以找到相應(yīng)的內(nèi)容了哦😊

二、如何通過評(píng)論熱詞搜索B站UP主？

飛瓜數(shù)據(jù)B站有【按評(píng)論熱詞】搜索UP主的功能，輸入評(píng)論關(guān)鍵詞，可以是某個(gè)輿情熱詞、某個(gè)商品名稱、某個(gè)場(chǎng)景詞等，會(huì)匹配到對(duì)應(yīng)的UP主。

三、手機(jī)評(píng)論文本挖掘與數(shù)據(jù)分析（Python）

目的

各大電商競(jìng)爭越來激烈，為了提升客戶服務(wù)質(zhì)量，除了打價(jià)格戰(zhàn)外，了解客戶的需求點(diǎn)，對(duì)消費(fèi)者的文本評(píng)論進(jìn)行數(shù)據(jù)挖掘,傾聽客戶的心聲越來越重要。

工具

1、貝殼采集器

2、Google瀏覽器

3、Python3.7 + Pycharm

數(shù)據(jù)采集

①本文對(duì)京東平臺(tái)的手機(jī)進(jìn)行爬蟲，首先進(jìn)入京東商城，選擇一款手機(jī)，這里以華為Mate 30 Pro 5G為例

②在采集平臺(tái)輸入網(wǎng)址，點(diǎn)擊貝殼采集開始配置信息

③因?yàn)槭遣杉u(píng)論所以還需要進(jìn)行下預(yù)操作配置切換頁面：點(diǎn)擊預(yù)操作按鈕-->添加點(diǎn)擊元素按鈕-->左鍵點(diǎn)擊流程圖中添加元素按鈕(懸浮顯示操作鍵)-->點(diǎn)擊懸浮顯示操作鍵<選擇按鈕> -->點(diǎn)擊網(wǎng)頁商品評(píng)論TAB頁切換按鈕 -->點(diǎn)擊保存

④沒有識(shí)別出評(píng)論信息，手工操作下：清空字段-->更改頁面類型為手工識(shí)別列表 --> 選中兩個(gè)一樣元素(這里兩個(gè)用戶名稱) -->下一頁未自動(dòng)識(shí)別成功-->更改分頁類型為手動(dòng)點(diǎn)擊下一頁-->配置完成-->開始采集

數(shù)據(jù)預(yù)處理

當(dāng)我們通過爬蟲獲取到我們想要的數(shù)據(jù)之后，進(jìn)行簡單的觀察，可以發(fā)現(xiàn)評(píng)論的一些特點(diǎn)：

文本短，基本上大量的評(píng)論就是一句話.

情感傾向明顯：明顯的詞匯如”好” “可以”

語言不規(guī)范：會(huì)出現(xiàn)一些網(wǎng)絡(luò)用詞，符號(hào)，數(shù)字等

重復(fù)性大：一句話出現(xiàn)詞語重復(fù)

數(shù)據(jù)量大.

故我們需要對(duì)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理包括：去重、分詞等

下面我們將進(jìn)行數(shù)據(jù)清洗

import jieba

#評(píng)論內(nèi)容進(jìn)行去重

def quchong(infile, outfile):

infopen = open(infile, 'r', encoding='utf-8')

outopen = open(outfile, 'w', encoding='utf-8')

lines = infopen.readlines()

list_1 = []

for line in lines:

if line not in list_1:

list_1.append(line)

outopen.write(line)

infopen.close()

outopen.close()

quchong("E:/comments/華為P30.txt", "E:/comments/P30去重.txt")

# jieba.load_userdict('userdict.txt')

#創(chuàng)建停用詞list

def stopwordslist(filepath):

stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]

return stopwords

#對(duì)評(píng)論內(nèi)容進(jìn)行分詞

def seg_sentence(sentence):

sentence_seged = jieba.cut(sentence.strip())

stopwords = stopwordslist('stopwords.txt') #這里加載停用詞的路徑

outstr = ''

for word in sentence_seged:

if word not in stopwords:

if word != '\t':

outstr += word

outstr += " "

return outstr

inputs = open('E:/comments/P30去重.txt', 'r', encoding='utf-8')

outputs = open('E:/comments/P30分詞.txt', 'w')

for line in inputs:

line_seg = seg_sentence(line) #這里的返回值是字符串

outputs.write(line_seg + '\n')

outputs.close()

inputs.close()

print('分詞完畢')

數(shù)據(jù)分析

上面我們已經(jīng)通過去重和jieba分詞將爬取的內(nèi)容進(jìn)行了預(yù)處理，接下來就開始對(duì)處理過的數(shù)據(jù)進(jìn)行分析，包括詞頻統(tǒng)計(jì)、關(guān)鍵詞提取以及詞云的生成等

#詞頻統(tǒng)計(jì)

import jieba.analyse

from collections import Counter #詞頻統(tǒng)計(jì)

with open('E:/comments/P30分詞.txt', 'r', encoding='utf-8') as fr:

data = jieba.cut(fr.read())

data = dict(Counter(data))

with open('E:/comments/P30詞頻.txt', 'w', encoding='utf-8') as fw: # 讀入存儲(chǔ)wordcount的文件路徑

for k, v in data.items():

fw.write('%s, %d\n' % (k, v))

import jieba.analyse

import matplotlib.pyplot as plt

from wordcloud import WordCloud

#生成詞云

with open('E:/comments/P30詞頻.txt') as f:

#提取關(guān)鍵詞

data = f.read()

keyword = jieba.analyse.extract_tags(data, topK=50, withWeight=False)

wl = " ".join(keyword)

#設(shè)置詞云

wc = WordCloud(

#設(shè)置背景顏色

background_color = "white",

#設(shè)置最大顯示的詞云數(shù)

max_words=2000,

#這種字體都在電腦字體中，一般路徑

font_path='C:/Windows/Fonts/simfang.ttf',

height=1200,

width=1600,

#設(shè)置字體最大值

max_font_size=100,

#設(shè)置有多少種隨機(jī)生成狀態(tài)，即有多少種配色方案

random_state=30,

)

myword = wc.generate(wl) #生成詞云

#展示詞云圖

plt.imshow(myword)

plt.axis("off")

plt.show()

wc.to_file('E:/comments/P30.png') #把詞云保存下

四、微博爬蟲系列之關(guān)鍵詞及指定用戶博文爬取

近期的一些微博爬蟲內(nèi)容，本篇主要將怎么根據(jù)關(guān)鍵詞或指定用戶進(jìn)行博文爬取。

準(zhǔn)備寫的內(nèi)容：

定向詞及指定用戶博文爬取方面，用的是微博網(wǎng)頁版（ https://weibo.cn ）。對(duì)于微博網(wǎng)頁版中相關(guān)博文的爬取，需要使用到 cookies 。這方面的爬取參考了github上的資源：

寫的時(shí)候發(fā)現(xiàn)網(wǎng)頁版的關(guān)鍵詞檢索接口已經(jīng)不見了···可能是微博刪除了網(wǎng)頁版的接口吧···之后再看看怎么在pc端爬取。

這里先介紹怎么指定用戶進(jìn)行博文爬取吧···

指定用戶的時(shí)候，需要有用戶的用戶id。通常用戶id是一串?dāng)?shù)字，也有一些賬號(hào)更改后是字符串，舉個(gè)例子，何同學(xué)跟央視新聞的微博：

在這里何同學(xué)的 uid = 6529876887 ，央視新聞的 uid = cctvxinwen 。當(dāng)然也可以獲取到央視新聞以數(shù)字存儲(chǔ)的id，之后再講怎么獲取，這里直接放出來就是 uid = 2656274875 ，點(diǎn)擊可以發(fā)現(xiàn)確實(shí)是央視新聞的微博 https://weibo.cn/2656274875

這個(gè)問題在爬取用戶博文方面沒有影響，不過在爬取用戶信息時(shí)會(huì)有影響，后面寫用戶信息爬取再說這個(gè)情況怎么解決。

下面以央視新聞為例看看怎么爬用戶的博文。

點(diǎn)擊進(jìn)入央視新聞的微博，可以看到這個(gè)賬號(hào)發(fā)布了很多很多微博，在網(wǎng)頁版觀看就會(huì)顯示很多頁，那么要爬取的時(shí)候就要先獲取他的頁數(shù)。

當(dāng)點(diǎn)擊第二頁時(shí)，會(huì)發(fā)現(xiàn) url 會(huì)變成 https://weibo.cn/cctvxinwen?page=2 。也就是說這個(gè)翻頁是以 page 這個(gè)字段進(jìn)行翻頁的，這就好辦很多了。

將 page 改成 1 可以發(fā)現(xiàn)網(wǎng)頁跳轉(zhuǎn)到所有博文的第1頁，接下來那我們就先獲取到所有的頁面url。

首先進(jìn)入 https://weibo.cn/cctvxinwen?page=1 ，打開開發(fā)者模式，在文件中找到自己的 cookies 。

在網(wǎng)頁開發(fā)者模式下，點(diǎn)開文件可以發(fā)現(xiàn)沒有json格式的數(shù)據(jù)輸出。因此這里不能直接通過解析json數(shù)據(jù)獲取到頁面數(shù)據(jù)。

這里就需要查看網(wǎng)頁返回的文本信息了。這里再定位具體信息時(shí)，我用的是 lxml 庫里的 etree 方法。

這里要查看具體要定位到哪里，可以在網(wǎng)頁上的源碼進(jìn)行定位，比如我們要定位到頁數(shù)，找到頁數(shù)所在的地方：

拿到用戶的所有博文網(wǎng)頁后，就可以進(jìn)行博文的爬取了。這里每一頁的數(shù)據(jù)是一樣的，所以直接用第一頁為例就可以了。同樣的將頁面數(shù)據(jù)爬下來：

還是在網(wǎng)頁上看，定位到某一條博文，可以看到源碼是這樣子的：

可以看到第1頁這里展示了11條博文（這個(gè)不一定），每條博文放在 div class="c" id="" 的控件里，這里的id是對(duì)應(yīng)的博文id，于是我們就可以拿到博文的控件：

選擇其中一個(gè)博文來看

這里我們可以看到要的信息全在這里了，接著就按著控件抓信息。這里拿其中一個(gè)節(jié)點(diǎn)為例。

首先獲取微博的url以及微博id，這個(gè)從上面看到，可以從點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論處的鏈接獲取，這里選擇最簡單的轉(zhuǎn)發(fā)鏈接，對(duì)應(yīng)的點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)也可以順便爬下來了：

接下來看下微博的創(chuàng)建時(shí)間，這里我們看到還有微博的來源，有一些可能會(huì)沒有這個(gè)信息：

接下來就是博文的主體了：

博文方面的內(nèi)容提取基本就是從github上搬過來的，對(duì)內(nèi)容部分字符串進(jìn)行了一些匹配清洗：

上面是比較簡單的博文情況，有一些可能有圖片、視頻、轉(zhuǎn)發(fā)等情況，這里直接放GitHub的做法，具體爬取方式是一樣的，定位控件，找信息：

到這里，指定用戶的博文爬取就結(jié)束了，主要還是參考了GitHub的大神~

以上就是關(guān)于評(píng)論關(guān)鍵詞提取相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。