我已阅读的有关该主题的大多数答案都指向System.Windows.Forms.WebBrowser类或Microsoft HTML对象库程序集的COM接口mshtml.HTMLDocument。
WebBrowser类没有带我到任何地方。以下代码无法检索由我的Web浏览器呈现的HTML代码:
[STAThread] public static void Main() { WebBrowser wb = new WebBrowser(); wb.Navigate("https://www.google.com/#q=where+am+i"); wb.DocumentCompleted += delegate(object sender, WebBrowserDocumentCompletedEventArgs e) { mshtml.IHTMLDocument2 doc = (mshtml.IHTMLDocument2)wb.Document.DomDocument; foreach (IHTMLElement element in doc.all) { System.Diagnostics.Debug.WriteLine(element.outerHTML); } }; Form f = new Form(); f.Controls.Add(wb); Application.Run(f); }
以上仅是示例。我对寻找一种解决方法以找出我所在的城镇的名字并不感兴趣。我只需要了解如何以编程方式检索这种动态生成的数据即可。
(调用新的System.Net.WebClient.DownloadString(“ https://www.google.com/#q=where+am+i ”),将所得文本保存在某处,搜索您当前所在城镇的名称找到,让我知道您是否能够找到它。)
但是,当我从Web浏览器(即Firefox)访问“ https://www.google.com/#q=where+am+i ”时,我会在网页上看到自己的城镇名称。在Firefox中,如果我右键单击城镇名称并选择“检查元素(Q)”,则可以清楚地看到用HTML代码编写的城镇名称,其外观与WebClient返回的原始HTML完全不同。 。
在我厌倦了玩System.Net.WebBrowser之后,我决定尝试一下mshtml.HTMLDocument,最后得到同样的无用的原始HTML:
public static void Main() { mshtml.IHTMLDocument2 doc = (mshtml.IHTMLDocument2)new mshtml.HTMLDocument(); doc.write(new System.Net.WebClient().DownloadString("https://www.google.com/#q=where+am+i")); foreach (IHTMLElement e in doc.all) { System.Diagnostics.Debug.WriteLine(e.outerHTML); } }
我认为必须有一种优雅的方式来获取此类信息。现在,我所能想到的就是将WebBrowser控件添加到表单中,让它导航到有问题的URL,发送键“ CLRL,A”,然后将页面上显示的所有内容复制到剪贴板,然后尝试解析它。但是,这是一个可怕的解决方案。
我想为Alexei的答案贡献一些代码。几点:
严格来说,不一定总能确定页面何时以100%的概率完成渲染。有些页面非常复杂,并使用连续的AJAX更新。但是,通过轮询页面的当前HTML快照以查找更改并检查WebBrowser.IsBusy属性,我们可以非常接近。这就是 LoadDynamicPage下面的内容。
WebBrowser.IsBusy
LoadDynamicPage
在页面上方永无休止的情况下,必须在上面加上一些超时逻辑(请注意CancellationTokenSource)。
CancellationTokenSource
Async/await 是一个很好的编码工具,因为它为我们的异步轮询逻辑提供了线性代码流,从而大大简化了它。
Async/await
使用浏览器功能控件启用HTML5呈现非常重要,因为WebBrowser默认情况下,该功能以IE7仿真模式运行。这就是SetFeatureBrowserEmulation下面的内容。
WebBrowser
SetFeatureBrowserEmulation
这是一个WinForms应用程序,但是可以轻松地将该概念转换为控制台应用程序。
此逻辑在您专门提到的URL上很好用:https : //www.google.com/#q=where+am+i。
using Microsoft.Win32; using System; using System.ComponentModel; using System.Diagnostics; using System.Threading; using System.Threading.Tasks; using System.Windows.Forms;
namespace WbFetchPage { public partial class MainForm : Form { public MainForm() { SetFeatureBrowserEmulation(); InitializeComponent(); this.Load += MainForm_Load; }
// start the task async void MainForm_Load(object sender, EventArgs e) { try { var cts = new CancellationTokenSource(10000); // cancel in 10s var html = await LoadDynamicPage("https://www.google.com/#q=where+am+i", cts.Token); MessageBox.Show(html.Substring(0, 1024) + "..." ); // it's too long! } catch (Exception ex) { MessageBox.Show(ex.Message); } } // navigate and download async Task<string> LoadDynamicPage(string url, CancellationToken token) { // navigate and await DocumentCompleted var tcs = new TaskCompletionSource<bool>(); WebBrowserDocumentCompletedEventHandler handler = (s, arg) => tcs.TrySetResult(true); using (token.Register(() => tcs.TrySetCanceled(), useSynchronizationContext: true)) { this.webBrowser.DocumentCompleted += handler; try { this.webBrowser.Navigate(url); await tcs.Task; // wait for DocumentCompleted } finally { this.webBrowser.DocumentCompleted -= handler; } } // get the root element var documentElement = this.webBrowser.Document.GetElementsByTagName("html")[0]; // poll the current HTML for changes asynchronosly var html = documentElement.OuterHtml; while (true) { // wait asynchronously, this will throw if cancellation requested await Task.Delay(500, token); // continue polling if the WebBrowser is still busy if (this.webBrowser.IsBusy) continue; var htmlNow = documentElement.OuterHtml; if (html == htmlNow) break; // no changes detected, end the poll loop html = htmlNow; } // consider the page fully rendered token.ThrowIfCancellationRequested(); return html; } // enable HTML5 (assuming we're running IE10+) // more info: https://stackoverflow.com/a/18333982/1768303 static void SetFeatureBrowserEmulation() { if (LicenseManager.UsageMode != LicenseUsageMode.Runtime) return; var appName = System.IO.Path.GetFileName(System.Diagnostics.Process.GetCurrentProcess().MainModule.FileName); Registry.SetValue(@"HKEY_CURRENT_USER\Software\Microsoft\Internet Explorer\Main\FeatureControl\FEATURE_BROWSER_EMULATION", appName, 10000, RegistryValueKind.DWord); } }
}