閱讀(3.3k) 書簽贊(0) 我要糾錯

AI人工智能塊化:將數(shù)據(jù)分割成塊

2020-09-24 09:31 更新

它是自然語言處理中的重要過程之一。分塊的主要工作是識別詞類和短語，如名詞短語。我們已經(jīng)研究了令牌化的過程，即令牌的創(chuàng)建。分塊基本上就是這些令牌的標簽。換句話說，組塊會告訴我們句子的結構。

在下面的章節(jié)中，我們將學習不同類型的分塊。

有兩種類型的組塊。類型如下 -

上分塊 在這個組塊過程中，對象，事物等向更普遍的方向發(fā)展，語言變得更加抽象。有更多的協(xié)議機會。在這個過程中縮小。例如，如果將“汽車是為了什么目的”這個問題大肆渲染？我們可能會得到答案是:“運輸”。
下分塊 在這個組塊過程中，對象，事物等朝著更具體的方向發(fā)展，語言更加滲透。更深層次的結構將進行仔細檢查。在這個過程中會放大。例如，如果將“專門講述一輛汽車”這個問題歸納起來？會得到關于汽車的更小的信息。

示例

在這個例子中，我們將通過使用 Python 中的 NLTK 模塊來進行 Noun-Phrase chunking，這是一種 chunking 類別，它可以在句子中找到名詞短語塊，

在 python 中執(zhí)行這些步驟來實現(xiàn)名詞短語分塊 -

第1步 - 在這一步中，需要定義分塊的語法。它將包含需要遵循的規(guī)則。 第2步 - 在這一步中，需要創(chuàng)建一個塊解析器。它會解析語法并給出結果。 第3步 - 在最后一步中，輸出以樹格式生成。

按照以下步驟導入必要的 NLTK 包 -

import nltk

現(xiàn)在，我們需要定義這個句子。這里，DT 表示行列式，VBP 表示動詞，JJ 表示形容詞，IN 表示介詞，NN 表示名詞。

sentence=[("a","DT"),("clever","JJ"),("fox","NN"),("was","VBP"),
          ("jumping","VBP"),("over","IN"),("the","DT"),("wall","NN")]

現(xiàn)在，我們需要給出語法。在這里以正則表達式的形式給出語法。

grammar = "NP:{<DT>?<JJ>*<NN>}"

我們需要定義一個解析器來解析語法。

parser_chunking = nltk.RegexpParser(grammar)

解析器解析該句子如下 -

parser_chunking.parse(sentence)

接下來，需要獲得輸出。輸出在名為 output_chunk 的變量中生成。

Output_chunk = parser_chunking.parse(sentence)

執(zhí)行以下代碼后，以樹的形式繪制輸出結果。

output.draw()

執(zhí)行上面代碼，得到以下結果 -

以上內(nèi)容是否對您有幫助：

寫筆記

我要補充

国产chinesehdxxxx野外,国产av无码专区亚洲av琪琪,播放男人添女人下边视频,成人国产精品一区二区免费看,chinese丰满人妻videos