我有一个用 PHP 编写的代码片段,它从数据库中提取一段文本并将其发送到网页上的小部件。原始文本块可以是一篇冗长的文章,也可以是一两个短句;但是对于这个小部件,我不能显示超过 200 个字符。我可以使用 substr() 在 200 个字符处截断文本,但结果会在单词中间截断——我真正想要的是在 200 个字符之前的最后一个 单词末尾截断文本。
通过使用自动换行功能。它将文本拆分为多行,使得最大宽度是您指定的宽度,在单词边界处中断。拆分后,你只需取第一行:
substr($string, 0, strpos(wordwrap($string, $your_desired_width), "\n"));
这个 oneliner 无法处理的一件事是文本本身短于所需宽度的情况。要处理这种极端情况,应该执行以下操作:
if (strlen($string) > $your_desired_width) { $string = wordwrap($string, $your_desired_width); $string = substr($string, 0, strpos($string, "\n")); }
如果文本在实际剪切点之前包含换行符,则上述解决方案存在过早剪切文本的问题。这是解决此问题的版本:
function tokenTruncate($string, $your_desired_width) { $parts = preg_split('/([\s\n\r]+)/', $string, null, PREG_SPLIT_DELIM_CAPTURE); $parts_count = count($parts); $length = 0; $last_part = 0; for (; $last_part < $parts_count; ++$last_part) { $length += strlen($parts[$last_part]); if ($length > $your_desired_width) { break; } } return implode(array_slice($parts, 0, $last_part)); }
此外,这里是用于测试实现的 PHPUnit 测试类:
class TokenTruncateTest extends PHPUnit_Framework_TestCase { public function testBasic() { $this->assertEquals("1 3 5 7 9 ", tokenTruncate("1 3 5 7 9 11 14", 10)); } public function testEmptyString() { $this->assertEquals("", tokenTruncate("", 10)); } public function testShortString() { $this->assertEquals("1 3", tokenTruncate("1 3", 10)); } public function testStringTooLong() { $this->assertEquals("", tokenTruncate("toooooooooooolooooong", 10)); } public function testContainingNewline() { $this->assertEquals("1 3\n5 7 9 ", tokenTruncate("1 3\n5 7 9 11 14", 10)); } }
不处理“脿”等特殊 UTF8 字符。在 REGEX 末尾添加 ‘u’ 来处理它:
$parts = preg_split('/([\s\n\r]+)/u', $string, null, PREG_SPLIT_DELIM_CAPTURE);