魔術師をめざして

魔術師を目指して、相場・数学・プログラム言語を研究しています。

ポスト・クローラー・スクレイパー

長ったらしいので、post c/s とする。
今回は、皆さんにも役立つ話だ。

ところで、ぼくは何事にも、拘るたちだ。
それに理想主義の面もある。
PythonRubyのc/sのライブラリには、幻想を抱いていた。
だけど、どれも、それほどのものではなかった。
ロボットにある程度の決着が付いたら、c/sを自作する
ことを検討してみようと思う。
CPANやGEMの作者を目指すのも面白いかも。
というわけで、Python/Rubyのライブラリへの幻想は終了した。
そして、魔術師の使うツールは、次の通りになった。
クローラーGnu Wget(downloadして直ぐに使える)
スクレイパーgawk(ごちゃごちゃした能書き不要)
後、本命のデータを取るのは、MQLで作る。
イベントの、年月日・発表開始時刻が欲しいが、手作業で
集めるつもり。都合のいい考えで、Fさんにこれを期待したのだが、
自分でやるのが一番早いということに気づいた。
それにに、どの道、未知のイベントを検知したいのだ。
このデータを収集するのは、専用のロボットを作る。
1号機は、手作業で泥臭く作りたいと考えていたが、
それには挫折したわけだ。

これにて、1号機計画はなくなったのだ。
さて、
Wget は、URLを指定するだけでも動く。
スイッチで、再帰的に追いかけることも、深さの指定もできる。
省略時は、5階層。取り込むファイルの拡張子の指定もできる。

gawkは、入力ファイルを1行ずつ自動的に読み込んで、
パターン {アクション}を書くだけだ。
例えば、
/正規表現/ {一致した、その行の処理}

レコードは、改行で分けられるが、簡単に変更できる。
現在行は、常に、$0に入る。$1~$nには、フィールドに
自動で分解され、入るフィールドは空白1文字位樹生で分けられる。
この区切り文字も簡単に変更できる。