超強(qiáng)NLP思維導(dǎo)圖,知識點(diǎn)全面覆蓋:從基礎(chǔ)概念到最佳模型,萌新成長必備資源


原標(biāo)題:超強(qiáng)NLP思維導(dǎo)圖,知識點(diǎn)全面覆蓋:從基礎(chǔ)概念到最佳模型,萌新成長必備資源
以下是超強(qiáng)NLP思維導(dǎo)圖涵蓋的知識點(diǎn),從基礎(chǔ)概念到最佳模型,為萌新提供成長必備資源:
一、基礎(chǔ)概念
NLP定義:讓計算機(jī)理解、解釋和生成人類語言的技術(shù),是人工智能領(lǐng)域活躍且重要的研究方向,結(jié)合計算機(jī)科學(xué)、人工智能、語言學(xué)和心理學(xué)等多學(xué)科知識,旨在打破人類語言和計算機(jī)語言間的障礙,實(shí)現(xiàn)無縫交流互動。
核心任務(wù):
自然語言理解(NLU):使計算機(jī)理解自然語言文本的意義,經(jīng)歷了基于規(guī)則、基于統(tǒng)計和基于深度學(xué)習(xí)(如Transformer是目前“最先進(jìn)”的方法,BERT和GPT - 2都是基于Transformer的)的三次迭代。
自然語言生成(NLG):以自然語言文本來表達(dá)給定的意圖、思想等,有內(nèi)容確定、文本結(jié)構(gòu)、句子聚合、語法化、參考表達(dá)式生成、語言實(shí)現(xiàn)六個步驟。
二、處理層面
詞法分析:包括漢語的分詞和詞性標(biāo)注。分詞是將輸入的文本切分為單獨(dú)的詞語;詞性標(biāo)注是為每一個詞賦予一個類別,如名詞、動詞、形容詞等。
句法分析:以句子為單位進(jìn)行分析以得到句子的句法結(jié)構(gòu),主流方法有短語結(jié)構(gòu)句法體系、依存結(jié)構(gòu)句法體系、深層文法句法分析。
語義分析:最終目的是理解句子表達(dá)的真實(shí)語義,語義角色標(biāo)注是目前比較成熟的淺層語義分析技術(shù),通常在句法分析的基礎(chǔ)上完成。
三、主要流程
傳統(tǒng)機(jī)器學(xué)習(xí)的NLP流程:預(yù)處理(收集語料庫、文本清洗、分割成單個的單詞文本、刪除不相關(guān)的單詞、將所有字符轉(zhuǎn)換為小寫、考慮詞性還原等)、特征提取(詞袋設(shè)計、Embedding、特征分類器)。
深度學(xué)習(xí)的NLP流程:預(yù)處理、設(shè)計模型、模型訓(xùn)練。
四、關(guān)鍵技術(shù)
文本預(yù)處理:
中文分詞:將連續(xù)的中文文本切分成有意義的詞匯序列,方法有經(jīng)典的基于詞典及人工規(guī)則(適應(yīng)性不強(qiáng),速度快,成本低)、現(xiàn)代的基于統(tǒng)計和機(jī)器學(xué)習(xí)(適應(yīng)性強(qiáng),速度較慢,成本較高)。
子詞切分:將詞匯進(jìn)一步分解為更小的單位,即子詞,常見方法有Byte Pair Encoding (BPE)、WordPiece、Unigram、SentencePiece等。
詞性標(biāo)注:為文本中的每個單詞分配一個詞性標(biāo)簽,如名詞、動詞、形容詞等。
去除停用詞:去掉常見的、無實(shí)際意義的詞(如“是”“的”)。
詞形還原/詞干提取:將詞語還原為基本形式(如“running”還原為“run”)。
特征工程:將文本數(shù)據(jù)轉(zhuǎn)換為適合機(jī)器學(xué)習(xí)模型使用的數(shù)值表示的過程。
詞袋模型:一種簡化的表示方法,將文本表示為詞的出現(xiàn)頻率,忽略詞序。
N - gram:通過考慮連續(xù)的N個詞(如二元組、三元組等)來捕捉詞序信息。
TF - IDF:一種統(tǒng)計方法,用于評估一個詞對文檔的重要性。
詞嵌入:使用模型(如Word2Vec、GloVe)將詞轉(zhuǎn)換為向量表示,捕捉詞之間的語義關(guān)系。
五、核心任務(wù)
中文分詞:是中文文本處理的首要步驟,由于中文語言特點(diǎn),詞與詞之間沒有明顯分隔,需將連續(xù)的中文文本切分成有意義的詞匯序列。
文本分類:將給定的文本自動分配到一個或多個預(yù)定義的類別中,廣泛應(yīng)用于情感分析、垃圾郵件檢測、新聞分類、主題識別等場景。
實(shí)體識別:自動識別文本中具有特定意義的實(shí)體,并將它們分類為預(yù)定義的類別,如人名、地點(diǎn)、組織、日期、時間等,對信息提取、知識圖譜構(gòu)建、問答系統(tǒng)、內(nèi)容推薦等應(yīng)用很重要。
關(guān)系抽取:從文本中識別實(shí)體之間的語義關(guān)系,如因果關(guān)系、擁有關(guān)系、親屬關(guān)系、地理位置關(guān)系等,對理解文本內(nèi)容、構(gòu)建知識圖譜、提升機(jī)器理解語言的能力等方面具有重要意義。
文本摘要:生成一段簡潔準(zhǔn)確的摘要,來概括原文的主要內(nèi)容,分為抽取式摘要和生成式摘要。
機(jī)器翻譯:使用計算機(jī)程序?qū)⒁环N自然語言(源語言)自動翻譯成另一種自然語言(目標(biāo)語言)的過程,不僅涉及詞匯的直接轉(zhuǎn)換,更重要的是要準(zhǔn)確傳達(dá)源語言文本的語義、風(fēng)格和文化背景等。
自動問答:使計算機(jī)能夠理解自然語言提出的問題,并根據(jù)給定的數(shù)據(jù)源自動提供準(zhǔn)確的答案,模擬了人類理解和回答問題的能力,涵蓋了從簡單的事實(shí)查詢到復(fù)雜的推理和解釋,大致可分為檢索式問答、知識庫問答和社區(qū)問答。
六、經(jīng)典模型
BERT模型:由谷歌在2018年研究發(fā)布,采用獨(dú)特的神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer進(jìn)行語言理解,適用于語音識別、文本到語音以及序列到序列的任何任務(wù),能有效應(yīng)對11個NLP任務(wù)。
GPT - 2模型:OpenAI于2019年2月發(fā)布的開源模型,同年11月發(fā)布完整版本,在文本翻譯、QA問答、文章總結(jié)、文本生成等NLP任務(wù)上可以達(dá)到人類的水平,但生成長文章時,會變得重復(fù)或無意義。
GPT - 3模型:由OpenAI于2020年發(fā)布,是一個自回歸語言模型,使用深度學(xué)習(xí)來生成類似人類的文本,在零樣本和小樣本學(xué)習(xí)任務(wù)上表現(xiàn)出了強(qiáng)大的學(xué)習(xí)能力。
RoBERTa模型:由Meta AI在2019年7月份發(fā)布,基于BERT模型優(yōu)化得到,通過學(xué)習(xí)和預(yù)測故意掩膜的文本部分,在BERT的語言掩蔽策略上建立它的語言模型,并使用更大的小批量和學(xué)習(xí)率進(jìn)行訓(xùn)練。
ALBERT模型:由谷歌在2020年初發(fā)布,是BERT模型的精簡版本,主要用于解決模型規(guī)模增加導(dǎo)致訓(xùn)練時間變慢的問題,采用了因子嵌入和跨層參數(shù)共享兩種參數(shù)簡化方法。
XLNet模型:CMU和Google Brain團(tuán)隊在2019年6月份發(fā)布的模型,是一種通用的自回歸預(yù)訓(xùn)練方法,在20個任務(wù)上超過了BERT的表現(xiàn),并在18個任務(wù)上取得了當(dāng)前最佳效果。
T5模型:Google在2020年7月份發(fā)布的一款強(qiáng)大的統(tǒng)一模型,將所有NLP任務(wù)都轉(zhuǎn)化成文本到文本任務(wù),方便評估不同模型結(jié)構(gòu)、預(yù)訓(xùn)練目標(biāo)函數(shù)、無標(biāo)簽數(shù)據(jù)集等的影響。
ELECTRA模型:借鑒了對抗網(wǎng)絡(luò)的思想,共訓(xùn)練兩個神經(jīng)網(wǎng)絡(luò)模型(生成器和判別器),采用聯(lián)合訓(xùn)練的方法,以1/4的算力就達(dá)到了RoBERTa的效果。
DeBERTa模型:微軟在2021年初發(fā)布,使用了兩種新技術(shù)(注意力解耦機(jī)制、增強(qiáng)的掩碼解碼器)改進(jìn)了BERT和RoBERTa模型,同時還引入了一種新的微調(diào)方法(虛擬對抗訓(xùn)練方法)以提高模型的泛化能力。
StructBERT模型:由阿里巴巴達(dá)摩院2019年提出的NLP預(yù)訓(xùn)練模型,基于BERT模型的改進(jìn),增加了兩個預(yù)訓(xùn)練任務(wù)和目標(biāo),可以最大限度地利用單詞和句子的順序,分別在單詞和句子級別利用語言結(jié)構(gòu)。
責(zé)任編輯:
【免責(zé)聲明】
1、本文內(nèi)容、數(shù)據(jù)、圖表等來源于網(wǎng)絡(luò)引用或其他公開資料,版權(quán)歸屬原作者、原發(fā)表出處。若版權(quán)所有方對本文的引用持有異議,請聯(lián)系拍明芯城(marketing@iczoom.com),本方將及時處理。
2、本文的引用僅供讀者交流學(xué)習(xí)使用,不涉及商業(yè)目的。
3、本文內(nèi)容僅代表作者觀點(diǎn),拍明芯城不對內(nèi)容的準(zhǔn)確性、可靠性或完整性提供明示或暗示的保證。讀者閱讀本文后做出的決定或行為,是基于自主意愿和獨(dú)立判斷做出的,請讀者明確相關(guān)結(jié)果。
4、如需轉(zhuǎn)載本方擁有版權(quán)的文章,請聯(lián)系拍明芯城(marketing@iczoom.com)注明“轉(zhuǎn)載原因”。未經(jīng)允許私自轉(zhuǎn)載拍明芯城將保留追究其法律責(zé)任的權(quán)利。
拍明芯城擁有對此聲明的最終解釋權(quán)。