W3Cschool
恭喜您成為首批注冊用戶
獲得88經(jīng)驗值獎勵
它是自然語言處理中的重要過程之一。 分塊的主要工作是識別詞類和短語,如名詞短語。 我們已經(jīng)研究了令牌化的過程,即令牌的創(chuàng)建。 分塊基本上就是這些令牌的標簽。 換句話說,組塊會告訴我們句子的結構。
在下面的章節(jié)中,我們將學習不同類型的分塊。
有兩種類型的組塊。 類型如下 -
示例
在這個例子中,我們將通過使用 Python 中的 NLTK 模塊來進行 Noun-Phrase chunking,這是一種 chunking 類別,它可以在句子中找到名詞短語塊,
在 python 中執(zhí)行這些步驟來實現(xiàn)名詞短語分塊 -
第1步 - 在這一步中,需要定義分塊的語法。 它將包含需要遵循的規(guī)則。 第2步 - 在這一步中,需要創(chuàng)建一個塊解析器。 它會解析語法并給出結果。 第3步 - 在最后一步中,輸出以樹格式生成。
按照以下步驟導入必要的 NLTK 包 -
import nltk
現(xiàn)在,我們需要定義這個句子。 這里,DT 表示行列式,VBP 表示動詞,JJ 表示形容詞,IN 表示介詞,NN 表示名詞。
sentence=[("a","DT"),("clever","JJ"),("fox","NN"),("was","VBP"),
("jumping","VBP"),("over","IN"),("the","DT"),("wall","NN")]
現(xiàn)在,我們需要給出語法。 在這里以正則表達式的形式給出語法。
grammar = "NP:{<DT>?<JJ>*<NN>}"
我們需要定義一個解析器來解析語法。
parser_chunking = nltk.RegexpParser(grammar)
解析器解析該句子如下 -
parser_chunking.parse(sentence)
接下來,需要獲得輸出。 輸出在名為 output_chunk
的變量中生成。
Output_chunk = parser_chunking.parse(sentence)
執(zhí)行以下代碼后,以樹的形式繪制輸出結果。
output.draw()
執(zhí)行上面代碼,得到以下結果 -
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網(wǎng)安備35020302033924號
違法和不良信息舉報電話:173-0602-2364|舉報郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯(lián)系方式:
更多建議: