我试图将整个段落输入到我的文字处理器中,然后先分成句子,然后再分成单词。
我尝试了以下代码,但它不起作用,
#text is the paragraph input sent_text = sent_tokenize(text) tokenized_text = word_tokenize(sent_text.split) tagged = nltk.pos_tag(tokenized_text) print(tagged)
但是,这不起作用,并给我错误。那么,如何将段落标记为句子,然后再标记为单词?
一个示例段落:
这东西似乎使那只黑褐色的小狗感到吃惊和震惊,使他伤心。 他绝望地沉在孩子的脚下。当重击一声再加上幼稚的训诫时,他转过身来,用独特的方式握住了爪子。同时,他用耳朵和眼睛向孩子祈祷。
警告:这只是互联网上的随机文本,我没有上述内容。
您可能打算循环sent_text:
sent_text
import nltk sent_text = nltk.sent_tokenize(text) # this gives us a list of sentences # now loop over each sentence and tokenize it separately for sentence in sent_text: tokenized_text = nltk.word_tokenize(sentence) tagged = nltk.pos_tag(tokenized_text) print(tagged)