我认为我想做的是一项相当普遍的任务,但我在网上没有找到任何参考资料。我有标点符号的文本,我想要一个单词列表。
"Hey, you - what are you doing here!?"
应该
['hey', 'you', 'what', 'are', 'you', 'doing', 'here']
但是 Pythonstr.split()只适用于一个参数,所以在我用空格分割后,我所有的单词都带有标点符号。有任何想法吗?
str.split()
正则表达式合理的情况:
import re DATA = "Hey, you - what are you doing here!?" print re.findall(r"[\w']+", DATA) # Prints ['Hey', 'you', 'what', 'are', 'you', 'doing', 'here']