小编典典

在NLTK中将段落标记为句子,然后标记为单词

python

我试图将整个段落输入到我的文字处理器中,然后先分成句子,然后再分成单词。

我尝试了以下代码,但它不起作用,

    #text is the paragraph input
    sent_text = sent_tokenize(text)
    tokenized_text = word_tokenize(sent_text.split)
    tagged = nltk.pos_tag(tokenized_text)
    print(tagged)

但是,这不起作用,并给我错误。那么,如何将段落标记为句子,然后再标记为单词?

一个示例段落:

这东西似乎使那只黑褐色的小狗感到吃惊和震惊,使他伤心。
他绝望地沉在孩子的脚下。当重击一声再加上幼稚的训诫时,他转过身来,用独特的方式握住了爪子。同时,他用耳朵和眼睛向孩子祈祷。

警告:这只是互联网上的随机文本,我没有上述内容。


阅读 225

收藏
2020-12-20

共1个答案

小编典典

您可能打算循环sent_text

import nltk

sent_text = nltk.sent_tokenize(text) # this gives us a list of sentences
# now loop over each sentence and tokenize it separately
for sentence in sent_text:
    tokenized_text = nltk.word_tokenize(sentence)
    tagged = nltk.pos_tag(tokenized_text)
    print(tagged)
2020-12-20