我有一些需要用XML迷惑的HTML文件。我们正在使用这些HTML为应用程序提供内容,但是现在我们必须以XML形式提供这些内容。
HTML文件包含,表格,div,图像,p,b或强标签等。
我用谷歌搜索并找到了一些应用程序,但是我还无法实现。
您能否建议一种将这些文件内容转换为XML的方法?
我成功使用了tidy命令行实用程序。在Linux上,我使用迅速安装了它apt-get install tidy。然后命令:
tidy
apt-get install tidy
tidy -q -asxml --numeric-entities yes source.html >file.xml
给了一个xml文件,我可以使用xslt处理器进行处理。但是我需要正确设置xhtml1 dtds。
这是他们的主页:html-tidy.org和旧版页面:HTMLTidy