如何在抓取時(shí)避免連接節(jié)點(diǎn)中的所有文本當(dāng)我從HTML或XML中抓取幾個(gè)相關(guān)節(jié)點(diǎn)以提取文本時(shí),所有文本都被連接到一個(gè)長字符串中,因此無法恢復(fù)單個(gè)文本字符串。例如:require 'nokogiri'doc = Nokogiri::HTML(<<EOT)<html>
<body>
<p>foo</p>
<p>bar</p>
<p>baz</p>
</body></html>EOT
doc.search('p').text # => "foobarbaz"但我想要的是:["foo", "bar", "baz"]在刮取XML時(shí)也會(huì)發(fā)生相同的情況:doc = Nokogiri::XML(<<EOT)<root>
<block>
<entries>foo</entries>
<entries>bar</entries>
<entries>baz</entries>
</block></root>EOT
doc.search('entries').text # => "foobarbaz"為什么會(huì)發(fā)生這種情況,我該如何避免呢?
如何在抓取時(shí)避免連接節(jié)點(diǎn)中的所有文本
函數(shù)式編程
2019-07-16 10:32:11