我已经读到,使用正则表达式解析XML / HTML是一个坏主意。另一种建议是使用XML解析器。BigQuery标准SQL库中是否存在一个?
如Elliot所提到的,这是有关如何在BigQuery中使用Javascript UDF的文档。
https://cloud.google.com/bigquery/docs/reference/standard-sql/user-defined- functions
我认为UDF可能看起来像
CREATE TEMPORARY FUNCTION XML(x STRING) RETURNS STRING LANGUAGE js AS """ var data = fromXML(x); return data.title; """ OPTIONS( library="gs://<BUCKET_NAME>/from-xml.min.js" ); SELECT XML(a) FROM UNNEST(["<title>Title of Page</title>"]) as a
from-xml.min.js来自此库,并已加载到您的gcs帐户中