XPathのまとめ、要素の参照方法いろいろ
XPathとは XPath(XML Path Language)とは、XML形式の文書から、特定の部分を指定して抽出するための簡潔な構文(言語)です。HTML形式の文書にも対応します。 CSSではセレクタを使ってHTML文書内の特定の部分を抽出しますが、XPathはより簡潔かつ柔軟に指定ができるとされています。以下の例はbody以下のリンク要素(hogeクラス)を取り出す書き方です。 CSSセレク […]
Web備忘録 プログラミングを中心に技術的な事柄を忘れないように書き残します。
XPathとは XPath(XML Path Language)とは、XML形式の文書から、特定の部分を指定して抽出するための簡潔な構文(言語)です。HTML形式の文書にも対応します。 CSSではセレクタを使ってHTML文書内の特定の部分を抽出しますが、XPathはより簡潔かつ柔軟に指定ができるとされています。以下の例はbody以下のリンク要素(hogeクラス)を取り出す書き方です。 CSSセレク […]
正規表現でHTML(XML)から指定のデータを取得したい C#/VB.NETでHTMLから指定タグの値や属性を取得するには正規表現が使えます。LINQ to XMLでもHTML(XML)から要素や属性の操作が可能ですが、不正なXMLドキュメントの場合にはうまく使えません。 Webページをスクレイピングする場合などは、必ずしも正しいHTMLとは限りません。閉じタグが抜けていたり、Javascript […]
XMLとJSONを相互に変換する方法 JSON.NET を使えばXML形式のデータと、JSON形式のデータを相互に変換することが簡単にできます。Nugetで JSON.NET と検索してインストールすれば準備完了です。 XML・JSONの相互変換ツールで動作確認ができます。 仮に次のXMLとJSONを相互に変換します。 XML <?xml version="1.0" en […]
LINQ to XML とは LINQ to XML は、.NET Framework プログラミング言語から XML を操作できるようにする、LINQ に対応したメモリ内 XML プログラミング インターフェイスです。 … LINQ to XML の最も重要な利点は、統合言語クエリ (LINQ) と統合されていることです。この統合により、メモリ内の XML ドキュメントに対するクエリ […]