NokogiriとSelenium-WebDriverのxpathの違い

Selenium-WebDriverとNokogiriで同じファイルを開いても違うxpathを書かないといけないとダメで少しハマったのでメモ。

違いの原因

同じHTMLを解析してもSelenium-WebDriverでChromeやFirefoxで開いた時は任意の要素であるtbodyが挿入されるために違いが発生します。

実際の例

例えば

<table>
      <tr>
        <td></td>
      </tr>
    </table>

とある時に

Nokogiri の場合

require 'nokogiri'
doc = Nokogiri::HTML(File.read("test.html"))
doc.xpath("//table/tr")

Selenium WebDriver の場合

require 'selenium-webdriver'
driver = Selenium::WebDriver.for :chrome
driver.get("file:///C:/Users/ironsand/test.html")
driver.find_element(:xpath, "//table/tbody/tr")

基本的な対策

大体の場合は//table//trとどちらにも対応できるように書いたらいいわけですが、汚いHTMLを解析するときに

//tr/td/font[contains(text(), 'Keyword')]/../../following-sibling::tr[3]/td

な感じで正確なタグの数が必要になることがあるのでそういう時に気をつけましょう。

参考

[ruby – How to get element that have same parent and n th different position by xpath – Stack Overflow][1]

違いの原因#

実際の例#

Nokogiri の場合#

Selenium WebDriver の場合#

基本的な対策#

参考#

違いの原因

実際の例

Nokogiri の場合

Selenium WebDriver の場合

基本的な対策

参考