(未完成)日刊スポーツの競馬ネタを引っ張ってくるためのplagger設定ファイル

標準のassets/plugin/Filter-EntryFullTextには既に設定ファイル(nikkansports.yaml)が存在していて
普通に引っこ抜いてくれる。
でも、このままだと競馬以外のニュースも引っかかって来ちゃうので、競馬トップページ限定で追跡するリンクを設定する。(参考 id:s_nobu:20060406)

引っこ抜く設定

assets/plugin/Filter-EntryFullText辺りに
keiba_nikkansports.yamlを作成。
公式配布のnikkansports.yamlが同じ場所に置いてある必要がある。

# upgrade http://www.nikkansports.com/race/top-race.html , backnumber-race.html
author: senchou
custom_feed_handle: http://www\.nikkansports\.com/race/(top-race|backnumber-race)\.html
custom_feed_follow_link: /race/[fp]-\w\w-tp\d+-\d{8}-\d+\.html$

config.yaml

global:
  timezone: Asia/Tokyo

plugins:
  - module: Subscription::Config
    config:
      feed: http://www.nikkansports.com/race/top-race.html
  - module: Filter::EntryFullText

  - module: Publish::Feed
    config:
      dir: /Users/senchou/horse/rss
      format: RSS
      filename: nikkansports.rss

補足(というか言い訳)

  • 日刊スポーツには公式RSSがあるんだけど、リダイレクタが挟まってて、解決法がよくわからなかったのでHTMLから抜き出し。
  • Filter::EntryFullTextは、Subscription::Configの前に置いたら動かなかった。事情は知らん。
  • RSSはRSS2.0で吐き出される。authorやdc::creatorの設定方法はわからないまま。プラグインファイルのデフォルトを書き換えれば変わるだろうけど、正しい方法のワケがないので触っていない。修正課題
  • 競馬以外のネタも普通に乗ってくるな、、、

(未完成)競馬のニュースを持ってくるためのplaggerの設定

ホントはRacing Postのニュースを引っこ抜きたかったのに、ログイン関係のネタがさっぱりわからんので諦めかけ。。。
とりあえず競馬報道系のデータををねこそぎ引っこ抜こうとするも、なにぶん慣れの問題で非常に手間どっている。
このままでは萎えて無かった事になりそうなので、とにかく現時点の作業の過程。

それぞれの設定は現時点のモノで、HTMLが変わると動かなくなる予定。

plaggerとは

色々出来るツール。データをどこからか持ってきてどこかに送る感じ。
Web上のデータを引っこ抜いてメール発射とかRSS吐きとか。
Bloglinesの新着をGmailに送るのが有名。
比較的最近ニコニコのflvを引っこ抜いてmp4に変換してpodcastにするプラグインが話題になった。
macで動かしてるけどlinuxが本場でwindowsでも動くらしい。
linuxで動くんだけど、共有レンタルサーバで動かそうとするとインストールの手間や負荷制限などの問題でかなりの苦戦が予想される。現状ローカル環境でしか動かしていない。



複雑な事をしようとするとperlの知識がいるらしいけど、Web上のデータを軽く取得する程度であればperlの知識はあまりいらない。
というかよく知らん。
設定ファイル形式のyamlに慣れる方が優先度が高い感じ。最後に空行とか、インデント揃えろ、とか。
様々な設定ファイルは公式ページを含めたweb上に多数転がっているので、色々拾い集めてなんとかかんとか、、という感じ。
プラグインファイル自体にもサンプル設定が記述されてたりする。


web上で大きく騒がれていたのはもう1年以上前か。
盛り上がってた頃に多少弄っていたが、正直何がなにやらわからず放置してた。
最近は落ち着いていると思う。
一年たてばスクリプト言語に対する知識も上がっているだろう(何もしてないけど)という辺りでなんとなく。

競馬とplagger

既存の競馬情報を扱うネタは

SHCafe: Plaggerを当たらない競馬予想に役立てる

http://web.archive.org/web/20061110005212/http://blog.shcafe.com/?eid=410498
(文字コードEUC-JPに)

FrontRunner - 加島隼人のhatenadiary: ラフィアンの近況をPlagger+Gmailで読もう

http://d.hatena.ne.jp/Hayato/20070225#p6


の2件しか見つからなかった。
1件既に404。
ただ、真面目に調べたわけではない。

競馬とplagger作者

宮川達彦( Tatsuhiko Miyagawa )氏は、
「競馬最強の法則WEB」http://saikyo.k-ba.com/を作った人(の一人)だった気がする。
plagger関係ねぇ

参考リンク

正直直接関係してないページが多いけどとりあえず張るだけ。


公式
http://plagger.org/trac/wiki/WikiStartJa
公式Filter-EntryFullText
http://plagger.org/trac/browser/trunk/plagger/assets/plugins/Filter-EntryFullText
はてぶタグ: plagger
http://b.hatena.ne.jp/t/plagger
Plaggerグループ
http://plagger.g.hatena.ne.jp/
livedoor クリップから del.icio.us に同期
http://peace-pipe.blogspot.com/2007/04/livedoor-delicious-plagger.html
Filter::TruePermalinkとEntryFullTextの順番
http://yusukebe.com/tech/archives/20060916/141135.html
Filter::Rule
http://lapis25.g.hatena.ne.jp/lapis25/20070521/p3
Filter::EntryFullText の設定ファイルを書いてみる
http://www.smallstyle.com/20060831.html
Filter::EntryFullText GIGAZINE
http://plagger.g.hatena.ne.jp/acqua_alta/20061115/GIGAZINE
scraper for CustomFeed::Config TINAMI ちえりリスト
http://plagger.g.hatena.ne.jp/SweetPotato/20070109/1168272387
Plaggerを当たらない競馬予想に役立てる
http://web.archive.org/web/20061110005212/http://blog.shcafe.com/?eid=410498
ラフィアンの近況をPlagger+Gmailで読もう
http://d.hatena.ne.jp/./Hayato/20070225#p6
<競馬サイトの夜明けを綴る No.2>
http://baji.cocolog-nifty.com/okera/2004/05/_no2_.html
iPod touch向けのニコニコ動画Podcastを生成する
http://d.hatena.ne.jp/hakobe932/20070923/1190594172
Plaggerで全文取得 (1)・宇多田ヒカルの日記を攻略する
http://glassleaf.info/blog/archives/20070609150620.php
新デザインになったマイミク最新日記をEntryFullTextだけで読む
http://d.hatena.ne.jp/./fuba/20071001/1191234404
netkeiba.com - ニュース&コラム
http://www.netkeiba.com/news/
競馬 : nikkansports.com
http://www.nikkansports.com/race/top-race.html
JRAホームページ|ニュース&お知らせ
http://www.jra.go.jp/news/index.html
プログラマーのための YAML 入門 (初級編) 基本的な書き方
http://jp.rubyist.net/magazine/?0009-YAML#l2
XPathを使ってPlagger::Plugin::Filter::EntryFullTextのHandlerを書く
http://d.hatena.ne.jp/./mteramoto/20061009/p1
XML Path Language (XPath) 省略シンタックス
http://www.infoteria.com/jp/contents/xml-data/REC-xpath-19991116-jpn.htm#path-abbrev
XPathを自動生成してくれる拡張機能
http://piro.sakura.ne.jp/latest/blosxom/mozilla/extension/2006-05-17_xpath.htm
Firefox Add-ons XPath Checker
https://addons.mozilla.org/ja/firefox/addon/1095
Plagger for Mac : Plagger を簡単にインストールする
http://8-p.info/Plagger/
大阪日刊スポーツ用EntryFullText
http://d.hatena.ne.jp/s_nobu/20060406/1144286969


どわ。関係ないとわかってたのにトラバが行ってしまったサイトが、、、orz

うー。

うみねこのなく頃に
一応読んだ。
非常に面白かった。


ただ、メニュー画面というか、TIPSが読みづらい。
文字サイズが小さすぎる。
文章の文字フォントが弄れるのはいいんだけど(これは前から。入っていれば、みかちゃん利用可)、TIPSの方は画像データなのかな。
メニュー画面上の人の顔とかアイコン用画像データの如く小さい。どうなんだこれ。
とにかく小さくて見づらい。


「Back Log」という表示文章を前に向かって戻れる機能は便利。
ひぐらしの時は、一画面分しか戻れず、リズム感よくクリックしてると、文章が通り過ぎちゃってた事があった。
どの程度まで巻き戻せるのかは不明。


とりあえず非常に楽しめた。次回も楽しみに。

超独り言

メロンブックス行ってうみねこのなく頃に1(1050円)買ってきた。
発売当時は諸事情で買えず、そのまますっかり忘れてた。
パッケージは地雷臭が漂うが、とりあえず30分くらい読んだ感じだと、中身は今まで通りというか、絵なんて慣れちまうもんだ。
うー。