我使用了多种方式来拆分和剥离熊猫数据框中的字符串,以删除所有的’\ n’字符,但是由于某些原因,它根本不想删除附加在其他单词上的字符,即使我拆分它们。我有一个带有列的pandas数据框,该列使用Beautifulsoup捕获网页中的文本。文本已经由beautifulsoup清除了一点,但是未能删除附加在其他字符上的换行符。我的字符串看起来像这样:
“动手\ n开发游戏。我们将研究与游戏相关的各种软件技术,包括编程语言,脚本\语言,操作系统,文件系统,网络,模拟\ n引擎和多媒体设计系统。还研究了来自计算机科学和相关领域的一些\ n基础科学概念,包括“
有没有简单的python方式来删除这些“ \ n”字符?
提前致谢!
编辑:对此的正确答案是:
df = df.replace(r'\\n',' ', regex=True)
我认为您需要replace:
replace
df = df.replace('\n','', regex=True)
要么:
df = df.replace('\n',' ', regex=True)
样品:
text = '''hands-on\ndev nologies\nrelevant scripting\nlang ''' df = pd.DataFrame({'A':[text]}) print (df) A 0 hands-on\ndev nologies\nrelevant scripting\nla... df = df.replace('\n',' ', regex=True) print (df) A 0 hands-on dev nologies relevant scripting lang