-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
nlp分類問題(nlp 分類)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于nlp分類問題的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、了解下NLP理解層次,于你的幫助
以前聽過這么名詞,并且也不斷有接觸的老師或者朋友有學(xué)習(xí)或者應(yīng)用這個內(nèi)容,于我來說帶點神秘。
我的理解如下:
1、用NLP理解層次,可以去思考一個人的做事根源或者分析事情發(fā)展,從而更好的理解和應(yīng)用在一個人的長期發(fā)展及具體事情的問題解決。
2、NLP理解層次分成6個層次,其中下面三個屬于低層次,上面三個屬于高層次。
由上到下依次是
1)精神:就是我與外部的關(guān)系,鏈接等
2)身份:就是我所在的位置,我是誰
3)信念/價值觀:我的理念 我達到什么
4)能力:我具有的技能,實力
5)行為:我所做出來的言行舉止,交流狀態(tài)等
6)環(huán)境:我所在的地點,周圍人及事物 發(fā)生的
3、有困難的事情,從所在層級往上一層級,能更好找到解決方式,但是從平級或者往下找,則相對困難,有個詞,叫降維打擊也是這個理解吧
舉例:
如果你想贊揚一個人,從上三層表達,會收到意想不到的效果。
講一個反面的案例吧,這是我一個女性朋友反饋我的真實案例,她去幫一個朋友的忙,出席了一個每年一次重要會議,于她來說,這是她第一次參與這個會議。因為她本人是內(nèi)外兼修的,也就是那種明明可以靠顏值,但是偏偏用才華。會議很順利,結(jié)束后,現(xiàn)場會議幾個工作人員,都上來寒暄,并多次稱贊她太漂亮之類的話,她心里就不太舒服,要知道這個會議的發(fā)言內(nèi)容也是她精心準備好幾個個晚上的。后來她才知道,每年這個會議,邀請幾位嘉賓中,必須要有一位長相極好的女嘉賓發(fā)言。
她后來吐槽,她已經(jīng)30多歲了,不是那種20多歲的只憑說漂亮就心花怒放的階段了,但凡如果對方說她有氣質(zhì),她還是可以接受的。
如果用N LP 理解層次分析她的這個事情:
1)精神:影響和鏈接更多人,能轉(zhuǎn)化為實際應(yīng)用
2)身份:會議的發(fā)言嘉賓,是一個行業(yè)知識傳播者
3)信念/價值觀:更好的完成自己負責(zé)會議要求,讓參加會議的人通過她的發(fā)言,有所引導(dǎo)和啟發(fā)
4)能力:組織發(fā)言稿及自身形象禮儀素養(yǎng)
5)行為:老師的發(fā)言及舉止呈現(xiàn)
6)環(huán)境:會議現(xiàn)場 與會的人員等等
——其實,與會的工作人員稱贊她的上三層,我相信,她感受會很好,至少明年肯定會愿意再參加這個會議。但從和她溝通中,我感受到了她的無奈。
于我的工作生活有什么指導(dǎo)意義。
1、做事情,對事不對人
遇人不淑的時候,認清自己所要的目標是什么,不被他人影響(至少不要太被波及情緒)
2、理解和包容自己的不完美
一些學(xué)習(xí)轉(zhuǎn)化慢,不是能力不成,而是身份定位不相符,一天24小時時間有限不能浪費,接受不完美。
3、會外部環(huán)境看得淡然
不是所有的事情,都是往自己的方向發(fā)展,因為大環(huán)境變化產(chǎn)生的反應(yīng)難以預(yù)料。
PS:百度了幾個圖片和網(wǎng)絡(luò)解釋,以下內(nèi)容均選自網(wǎng)絡(luò)
每一件與我們?nèi)松嘘P(guān)系的事,我們都會賦予其一些意義。人生里事情這么多,我們不斷地處理它們,往往因為忙碌而變得被動和迷惘,不知道什么應(yīng)該做,什么才是重要的;也分不清哪些事情是短暫不足道的,哪些是對人生有深遠影響的。
其實,事情的意義是可以被分類而因此理出其中的相互比較標準的。如果我們能夠把大部分時間和精力放在有深遠意義的事情上,累積出來的效果,自然把人生推至更理想的高線上。
理解層次早期被稱為Neuro-Logical Levels,最初由格雷戈里·貝特森發(fā)展出來,后由羅伯特·迪爾茨(Robert Dilts)整理,在1991年推出。理解層次(見圖6一1)是一套模式(Pattern),因為它可以用來解釋社會上出現(xiàn)的很多事情。理解層次在輔導(dǎo)工作中讓我們明白受導(dǎo)者的困擾所在,因而更容易幫助他找出解決問題的方法,是很實用的一套概念。而NLP中也有一套技巧被稱為“理解層次貫通法”,幫助用者明白從困惑中突破的關(guān)系,并且與自己潛意識的深層力量聯(lián)系,使得人生策劃方面更有效果,所以也是技巧。
我們的大腦在處理任何事情的時候,都分為六個層次,它們分別是:
1.精神
我與世界上其他人、事物的關(guān)系。當(dāng)一個人談及他的人生的意義或者一家公司談及它對社會的貢獻時,便涉及到“精神”的層次了。
2.身份
一個人或者一家公司怎樣看自己(我是誰?)。給自己定位,或者描述出自己的定位,便涉及到身份的意義了。承接上面(精神)的意思,便是“自己準備以怎樣的身份去實現(xiàn)人生的意義”。
3.信念、價值
為了配合上述的身份,我需要有一套怎樣的信念和價值?每一個人活在這個世界上,必然地已經(jīng)有了一個不自覺的身份,亦已經(jīng)有了一套相關(guān)的信念與價值。它們決定我們做每一件事的態(tài)度,但并不常會有意識地涌現(xiàn)。(一般來說只有在反省整個人生或者學(xué)習(xí)NLP的時候,一個人才會想到身份和信念/價值的問題)在每天的生活里持著一套信念和價值去處理每一件事。多數(shù)出現(xiàn)的信念、價值層次問題是:
— 為什么做(或不做)
— 有些什么(重要)意義?
— 應(yīng)該是怎樣的?
— 對我有什么好處?
4.能力
這個層次涉及到一個人怎樣認識自己能有的選擇(有沒有選擇,或者是“我必須這樣做?”)。每一個選擇都是一份能力,故此選擇越多,能力越大。我們一般說的能力,表面上指的是技能:懂英文、會用電腦、用某種技巧做某事。但是細心想想,它們其實也都是更多的選擇。情緒代表能力,也列入這個層次。
5.行為
這個層次所指的是“做什么?”、“有沒有做?”,即能力的挑選和實際發(fā)揮,也就是在環(huán)境中我的實際運作。
6.環(huán)境
“環(huán)境”包括了所有身體以外,即外界的條件,世界上的種種人、事、物、時、地、金錢和設(shè)備等都屬“環(huán)境”。
圖片:本人拍攝于北京
二、NLP基本術(shù)語與基本概念-上
詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區(qū)分標記,因此,中文詞語分析是中文分詞的基礎(chǔ)與關(guān)鍵。中文和英文都存在分詞的需求,不過相較而言,英文單詞本來就有空格進行分割,所以處理起來相對方便。但是,由于中文是沒有分隔符的,所以分詞的問題就比較重要。分詞常用的手段是基于字典的最長串匹配,據(jù)說可以解決85%的問題,但是歧義分詞很難。舉個例子,“美國會通過對臺售武法案”,我們既可以切分為“美國/會/通過對臺售武法案”,又可以切分成“美/國會/通過對臺售武法案”。
中文分詞技術(shù)可分為三大類:
基于機器學(xué)習(xí)的方法里,往往需要對詞的詞性進行標注。詞性一般是指動詞、 名詞、形容詞等。標注的目的是表征詞的一-種隱藏狀態(tài),隱藏狀態(tài)構(gòu)成的轉(zhuǎn)移就構(gòu)成了狀態(tài)轉(zhuǎn)移序列。例如:我/r愛/v北京/ns天安門/ns。其中,ns代表名詞,v代表動詞,ns、v都是標注,以此類推。
詞性作為對詞的一種泛化,在語言識別、句法分析、信息抽取等任務(wù)中有重要作用。
http://blog.csdn.net/truong/article/details/18847549
命名實體是指從文本中識別具有特定類別的實體(通常是名詞),例如人名、地名、機構(gòu)名、專有名詞等。主要包含兩部分:
命名實體識別是信息提取、問答系統(tǒng)、句法分析、機器翻譯、面向SemanticWeb的元數(shù)據(jù)標注等應(yīng)用領(lǐng)域的重要基礎(chǔ)工具。
https://blog.csdn.net/u012879957/article/details/81777838
句法分析往往是一種基于規(guī)則的專家系統(tǒng)。當(dāng)然也不是說它不能用統(tǒng)計學(xué)的方法進行構(gòu)建,不過最初的時候,還是利用語言學(xué)專家的知識來構(gòu)建的。句法分析的目的是解析句子中各個成分的依賴關(guān)系。所以,往往最終生成的結(jié)果是一棵 句法分析樹。句法分析可以解決傳統(tǒng)詞袋模型不考慮上下文的問題。比如,“小李是小楊的班長”和“小楊是小李的班長”,這兩句話,用詞袋模型是完全相同的,但是句法分析可以分析出其中的主從關(guān)系,真正理清句子的關(guān)系。
中文中代詞出現(xiàn)的頻率很高,它的作用的是用來表征前文出現(xiàn)過的人名、地名等。例如,清華大學(xué)坐落于北京,這家大學(xué)是目前中國最好的大學(xué)之-。 在這句話中, 其實“清華大學(xué)”這個詞出現(xiàn)了兩次,“這家大學(xué)指代的就是清華大學(xué)。但是出于中文的習(xí)慣,我們不會把“清華大學(xué)”再重復(fù)一遍。
一般情況下,指代分為2種:回指和共指。
回指是指當(dāng)前的照應(yīng)語與上文出現(xiàn)的詞、短語或句子(句群)存在密切的語義關(guān)聯(lián)性,指代依存于上下文語義中,在不同的語言環(huán)境中可能指代不同的實體,具有非對稱性和非傳遞性;
共指主要是指2個名詞(包括代名詞、名詞短語)指向真實世界中的同一參照體,這種指代脫離上下文仍然成立。
目前指代消解研究主要側(cè)重于等價關(guān)系,只考慮2個詞或短語是否指示現(xiàn)實世界中同一實體的問題,即共指消解。
中文的指代主要有3種典型的形式:
所謂情感識別,本質(zhì)上是分類問題,經(jīng)常被應(yīng)用在輿情分析等領(lǐng)域。情感一般可以分為兩類,即正面、負面,也可以是三類,在前面的基礎(chǔ)上,再加上中性類別。一般來說,在電商企業(yè),情感識別可以分析商品評價的好壞,以此作為下一個環(huán)節(jié)的評判依據(jù)。通??梢曰谠~袋模型+分類器,或者現(xiàn)在流行的詞向量模型+RNN。經(jīng)過測試發(fā)現(xiàn),后者比前者準確率略有提升。
自動糾錯在搜索技術(shù)以及輸人法中利用得很多。由于用戶的輸人出錯的可能性比較大,出錯的場景也比較多。所以,我們需要一個糾錯系統(tǒng)。具體做法有很多,可以基于N-Gram進行糾錯,也可以通過字典樹、有限狀態(tài)機等方法進行糾錯。
這是一種類似機器人的人工智能系統(tǒng)。比較著名的有:蘋果Siri、IBM Watson、微軟小冰等。問答系統(tǒng)往往需要語音識別、合成,自然語言理解、知識圖譜等多項技術(shù)的
問答系統(tǒng)(Question Answering System, QA)是信息檢索系統(tǒng)的一種高級形式,它能用準確、簡潔的自然語言回答用戶用自然語言提出的問題。
基于自由文本的問答系統(tǒng),基本上分為三個模塊:
問句分析->文檔檢索->答案抽?。炞C)
https://blog.csdn.net/class_guy/article/details/81535287
針對目標句子,進行各種句法分析,如分詞、詞性標記、命名實 體識別及鏈接、句法分析、語義角色識別和多義詞消歧等。
抽取目標文本中的主要信息,比如從一-條新聞中抽取關(guān)鍵信息。主要是了解是誰、于何時、為何、對誰、做了何事、產(chǎn)生了有什么結(jié)果。涉及實體識別、時間抽取、因果關(guān)系抽取等多項關(guān)鍵技術(shù)。
主要包含了對文本的聚類、分類、信息抽取、摘要、情感分析以及對挖掘的信息和知識的可視化、交互式的呈現(xiàn)界面。
將輸人的源語言文本通過自動翻譯轉(zhuǎn)化為另種語言的文本。根據(jù)輸人數(shù)據(jù)類型的不同,可細分為文本翻譯、語音翻譯、手語翻譯、圖形翻譯等。機器翻譯從最早的基于規(guī)則到二十年前的基于統(tǒng)計的方法,再到今天的基于深度學(xué)習(xí)(編解碼)的方法,逐漸形成了一套比較嚴謹?shù)姆椒w系。
對大規(guī)模的文檔進行索引。可簡單對文檔中的詞匯,賦以不同的權(quán)重來建立索引,也可使用算法模型來建立更加深層的索引。查詢時,首先對輸人比進行分析,然后在索引里面查找匹配的候選文檔,再根據(jù)一個排序機制把候選文檔排序,最后輸出排序得分最高的文檔。
針對某個自然語言表達的問題,由問答系統(tǒng)給出一個精準的答案。需要對自然語言查詢語句進行語義分析,包括實體鏈接、關(guān)系識別,形成邏輯表達式,然后到知識庫中查我可能的候選答案并通過-個排序機制找出最佳的答案。
系統(tǒng)通過多回合對話,跟用戶進行聊天、回答、完成某項任務(wù)。主要涉及用戶意圖理解、通用聊天引擎、問答引擎、對話管理等技術(shù)。此外,為了體現(xiàn)上下文相關(guān),要具備多輪對話能力。同時,為了體現(xiàn)個性化,對話系統(tǒng)還需要基于用戶畫像做個性化回復(fù)
參考: https://mp.weixin.qq.com/s/QjpOzO8Mt17mtnC7efT8nQ
三、NLP的任務(wù)
本文整理自網(wǎng)絡(luò),主要是對自然語言處理能發(fā)展和落地的方向進行總結(jié),也算是對自然語言處理常見任務(wù)的總結(jié)。
NLP的四大任務(wù)如下:
序列標注(Sequence labeling)是我們在解決NLP問題時經(jīng)常遇到的基本問題之一。在序列標注中,我們想對一個序列的每一個元素標注一個標簽。一般來說,一個序列指的是一個句子,而一個元素指的是句子中的一個詞。比如信息提取問題可以認為是一個序列標注問題,如提取出會議時間、地點等。
序列標注一般可以分為兩類:
命名實體識別(Named entity recognition, NER)是信息提取問題的一個子任務(wù),需要將元素進行定位和分類,如人名、組織名、地點、時間、質(zhì)量等。
舉個NER和聯(lián)合標注的例子。一個句子為:Yesterday , George Bush gave a speech. 其中包括一個命名實體:George Bush。我們希望將標簽“人名”標注到整個短語“George Bush”中,而不是將兩個詞分別標注。這就是聯(lián)合標注。
1.1 BIO標注
解決聯(lián)合標注問題最簡單的方法,就是將其轉(zhuǎn)化為原始標注問題。標準做法就是使用BIO標注。
BIO標注:將每個元素標注為“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段屬于X類型并且此元素在此片段的開頭,“I-X”表示此元素所在的片段屬于X類型并且此元素在此片段的中間位置,“O”表示不屬于任何類型。
比如,我們將 X 表示為名詞短語(Noun Phrase, NP),則BIO的三個標記為:
因此可以將一段話劃分為如下結(jié)果:
我們可以進一步將BIO應(yīng)用到NER中,來定義所有的命名實體(人名、組織名、地點、時間等),那么我們會有許多 B 和 I 的類別,如 B-PERS、I-PERS、B-ORG、I-ORG等。然后可以得到以下結(jié)果:
[圖片上傳失敗...(image-b1cfb3-1609330627120)]
1.2 序列標注常用模型
選擇雙向LSTM的原因是:當(dāng)前詞的tag和前后文都有關(guān)。
1.3 序列標注具體任務(wù)
(1)分詞
(2)詞性標注(Part-of-Speech tagging ,POS tagging)
(3)命名實體標注(name entity recognition, NER)
2.1 分類的具體任務(wù)
(1)文本分類、情感分類
3.1 具體任務(wù)
(1)句法分析、蘊含關(guān)系判斷(entailment)
這類任務(wù)一般直接面向普通用戶,提供自然語言處理產(chǎn)品服務(wù)的系統(tǒng)級任務(wù),會用到多個層面的自然語言處理技術(shù)。
4.1 具體任務(wù)
(1)機器翻譯(Machine Translation,MT)
Encoder-Decoder的最經(jīng)典應(yīng)用,事實上這一結(jié)構(gòu)就是在機器翻譯領(lǐng)域最先提出的。
(2)文本摘要、總結(jié)(Text summarization/Simplication)
輸入是一段文本序列,輸出是這段文本序列的摘要序列。
(3)閱讀理解(Reading Comprehension)
將輸入的文章和問題分別編碼,再對其進行解碼得到問題的答案。
(4)語音識別
輸入是語音信號序列,輸出是文字序列。
(5)對話系統(tǒng)(Dialogue Systerm)
輸入的是一句話,輸出是對這句話的回答。
(6)問答系統(tǒng)(Question-Answering Systerm)
針對用戶提出的問題,系統(tǒng)給出相應(yīng)的答案。
(7)自動文章分級(Automatic Essay Grading)
給定一篇文章,對文章的質(zhì)量進行打分或分級。
1. 詞法分析(Lexical Analysis):對自然語言進行詞匯層面的分析,是NLP基礎(chǔ)性工作
2. 句子分析(Sentence Analysis):對自然語言進行句子層面的分析,包括句法分析和其他句子級別的分析任務(wù)
3. 語義分析(Semantic Analysis):對給定文本進行分析和理解,形成能勾夠表達語義的形式化表示或分布式表示
4. 信息抽?。↖nformation Extraction):從無結(jié)構(gòu)文本中抽取結(jié)構(gòu)化的信息
5. 頂層任務(wù)(High-level Tasks):直接面向普通用戶,提供自然語言處理產(chǎn)品服務(wù)的系統(tǒng)級任務(wù),會用到多個層面的自然語言處理技術(shù)
【1】序列標注中的BIO標注介紹,地址: https://blog.csdn.net/HappyRocking/article/details/79716212
【2】 http://nlpers.blogspot.com.au/2006/11/getting-started-in-sequence-labeling.html
【3】NLP 四大任務(wù),地址: https://www.dazhuanlan.com/2019/08/21/5d5ca1e2826b9/
【4】NLP基本任務(wù),地址: https://blog.csdn.net/lz_peter/article/details/81588430
【5】微信研究員解析深度學(xué)習(xí)在NLP中的發(fā)展和應(yīng)用,地址: https://edu.csdn.net/course/play/8673
【6】從Word Embedding到Bert模型—自然語言處理中的預(yù)訓(xùn)練技術(shù)發(fā)展史 - 張俊林的文章 - 知乎 https://zhuanlan.zhihu.com/p/49271699
四、【NLP】BERT常見問題匯總
bert結(jié)構(gòu)大體上可分為 輸入 、 N層transformer的encoder 和 輸出 三部分組成。
輸入 由 token embedding 、 segment embedding 和 position embedding 三部分相加組成;
N層transformer的encoder ,在bert_base中N=12,bert_large中N=24
輸出 有 model.get_sequence_out() 和 model.get_pooling_out() 兩種輸出,其shape分別為[batch_size, seq_length, hidden_size]和[batch_size, hidden_size]。
model.get_sequence_out() 輸出主要用于特征提取再處理的序列任務(wù),而 model.get_pooling_out() 輸出可直接接softmax進行分類(當(dāng)然需要外加一層dense層將hidden_size轉(zhuǎn)換為num_tag)。
bert適合于自然語言理解(Natural language Understanding, NLU)類任務(wù),如文本分類、信息抽取等;
bert不適合于自然語言生成(Natural language Generation, NLG)類任務(wù)。
因為bert采用的是雙向的語言模型,除了被mask的詞語外,該詞語前后的詞語都可以看到。
而NLG任務(wù)的目標是在已知當(dāng)前詞與之前詞語的情況下,預(yù)測出下一個詞語,直至所有詞語預(yù)測完成。
以上就是關(guān)于nlp分類問題相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
PanDownload官網(wǎng)(pandownload官網(wǎng)安卓版)
常州商業(yè)景觀設(shè)計圖集(常州商業(yè)景觀設(shè)計圖集最新)