在NLTK中将段落标记为句子，然后标记为单词

小编典典

在NLTK中将段落标记为句子，然后标记为单词

python

我试图将整个段落输入到我的文字处理器中，然后先分成句子，然后再分成单词。

我尝试了以下代码，但它不起作用，

    #text is the paragraph input
    sent_text = sent_tokenize(text)
    tokenized_text = word_tokenize(sent_text.split)
    tagged = nltk.pos_tag(tokenized_text)
    print(tagged)

但是，这不起作用，并给我错误。那么，如何将段落标记为句子，然后再标记为单词？

一个示例段落：

这东西似乎使那只黑褐色的小狗感到吃惊和震惊，使他伤心。
他绝望地沉在孩子的脚下。当重击一声再加上幼稚的训诫时，他转过身来，用独特的方式握住了爪子。同时，他用耳朵和眼睛向孩子祈祷。

警告：这只是互联网上的随机文本，我没有上述内容。

阅读 225

2020-12-20

共1个答案

小编典典

您可能打算循环sent_text：

import nltk

sent_text = nltk.sent_tokenize(text) # this gives us a list of sentences
# now loop over each sentence and tokenize it separately
for sentence in sent_text:
    tokenized_text = nltk.word_tokenize(sentence)
    tagged = nltk.pos_tag(tokenized_text)
    print(tagged)

2020-12-20