moebooru/lib/extract_urls.rb

require 'nokogiri'

module ExtractUrls
  # Extract image URLs from HTML.
  def extract_image_urls(url, body)
    urls = []
    Nokogiri::HTML(body).xpath('//a[@href]').each do |link|
      urls += [URI.join("#{url}/", link[:href]).to_s] if link[:href] =~ /\.(png|jpe?g)\z/i
    end
    return urls
  end

  module_function :extract_image_urls
end
Use nokogiri + URI - much simpler now. 2012-07-06 09:25:49 -07:00			`require 'nokogiri'`
add batch uploader; not very well tested yet, requires hpricot --HG-- branch : moe extra : convert_revision : svn%3A2d28d66d-8d94-df11-8c86-00306ef368cb/trunk/moe%4066 2010-08-31 09:15:55 +00:00
			`module ExtractUrls`
			`# Extract image URLs from HTML.`
			`def extract_image_urls(url, body)`
			`urls = []`
Use nokogiri + URI - much simpler now. 2012-07-06 09:25:49 -07:00			`Nokogiri::HTML(body).xpath('//a[@href]').each do \|link\|`
A bit more compact regexp. 2012-08-26 07:21:49 -07:00			`urls += [URI.join("#{url}/", link[:href]).to_s] if link[:href] =~ /\.(png\|jpe?g)\z/i`
add batch uploader; not very well tested yet, requires hpricot --HG-- branch : moe extra : convert_revision : svn%3A2d28d66d-8d94-df11-8c86-00306ef368cb/trunk/moe%4066 2010-08-31 09:15:55 +00:00			`end`
			`return urls`
			`end`

			`module_function :extract_image_urls`
			`end`