当前位置:首页 / 网页制作 / XML和XSLT教程 / 使用Ruby和Nokogiri模拟爬虫导出RSS种子的实例介绍
使用Ruby和Nokogiri模拟爬虫导出RSS种子的实例介绍
芯晴素材特效 分类:XML和XSLT教程 发布日期:2018-05-08
# encoding: utf-8
require 'thread'
require 'nokogiri'
require 'open-uri'
require 'rss/maker'
  
$result=Queue.new
def extract_readme_header(no,name,url)
  frame = Nokogiri::HTML(open(url))
  return unless frame
  readme=$url+frame.css('frame')[1]['src']
  return unless readme
  open(readme) do |f|
    doc = Nokogiri::HTML(f.read)
    text=doc.css("p#content p#filecontents p")[0..4].map { |c| c.content }.join(" ").strip
    return if text.length==0
    if text !~ /(rails)|(activ_)/i
      puts "========= #{no} #{name} : #{text[0..50]}"
      date = f.last_modified
      $result << [no,name,readme,date,text]
    end
  end
rescue
  puts $!.to_s
end
  
def make_rss(items)
  RSS::Maker.make("2.0") do |m|
    m.channel.title = "GtitHub recently updated projects"
    m.channel.link = "http://localhost"
    m.channel.description = "GitHub recently updated projects"
    m.items.do_sort = true
    items.each do |no,name,url,date,descr|
      i = m.items.new_item
      i.title = name
      i.link = url
      i.description=descr
      i.date = date
    end
  end
end
  
############################## M A I N ########################
  
############# Scan list of recent project
  
lth=[]
$url="http://rdoc.info"
puts "get url #{$url}..."
doc = Nokogiri::HTML(open($url))
doc.css('ul.libraries')[1].css('li').each_with_index do |li,i|
  aname =li.css('a').first
  name=aname.content
  purl=$url+aname['href']
  lth << Thread.new(i,name,purl) { |j,n,u| extract_readme_header(j,n,u)  }
end
  
################ wait all readme are read
  
lth.each { |th| th.join() }
  
################ dequeue results and sort them by date descending
  
result=[]
result << $result.shift while $result.size>0
result.sort!  { |a,b| a[0] <=> b[0] }
  
  
################ format results in rss
  
File.open("RubyFeeds.rss","w") do |file|
  file.write make_rss(result)
end

版权信息:本站所有资源仅供学习与参考,请勿用于商业用途,如有侵犯您的版权,请及时联系821794221#qq.com(#换@),我们将尽快处理。

您可能在找这些

  • 内容标签:

热门素材

一款功能超全的网页计算器

2013-04-07   浏览:7978

[荐] 一款常用的带关闭功能的对联广告

2013-01-04   浏览:8544

Tooltip风格工具栏

2017-03-19   浏览:153

jQuery时间选择插件Timepicki

2017-03-15   浏览:395

懒人原生touch事件,计算滑动距离

2017-03-09   浏览:478

鼠标点击才激活的二级下拉菜单

2013-01-04   浏览:8647

以鼠标为中心的蜘蛛网放射线

2013-01-08   浏览:8734

页面上飞舞的彩色字符,烟花效果

2012-12-26   浏览:7882

jQuery对话框插件SimplePop

2017-03-15   浏览:274

网易的图片新闻展示效果

2013-01-13   浏览:9320

jQuery左右全屏弹性切换幻灯片特效

2017-02-27   浏览:393

一款常用的漂亮的JS图片滑动切换效果

2013-01-10   浏览:22072