Webページからちょっとデータ抜き出したいときありますよね。
1回だけしか行わず、わざわざプログラム組むほどでもないならVimでやるのがおすすめです。

例：はてぶのページからリンクを取得する

vimを開いて4コマンドでリンクを抜き出します。
しかもエディタ上なのでその後の加工や連続スクレイピングなどもスムーズに行えます。

# 最初の行以外はどのサイトでも共通的に使えるはず
:e http://b.hatena.ne.jp/ctop/it
:%s/></>\r</g | filetype indent on | setf xml | normal gg=G
:%v/<a/d
:%s/^.*href="\([^"]*\)"[^>]*.*$/\1/

# 完全URLにしたいなら
:%s/^\//http:\/\/b.hatena.ne.jp\//

↓結果

解説

データ取得

# フォーマット
:e <url>

# 例:はてぶのページ取得
:e http://b.hatena.ne.jp/ctop/it

HTML整形

:%s/></>\r</g | filetype indent on | setf xml | normal gg=G

フィルタリング

# フォーマット：指定したパターンにマッチしない行を削除
:%v/<パターン>/d

# 例:aタグを含まない行を削除
:%v/<a/d

データの整形

# フォーマット
:%s/<置換前パターン>/<置換後パターン>/gc

# 例：hrefの中身だけを抽出（それ以外の部分は削除）
:%s/^.*href="\([^"]*\)"[^>]*.*$/\1/gc

# 例２：相対URLを絶対URLに置換
:%s/^\//http:\/\/b.hatena.ne.jp\//

おまけ

取得したURLを元にして再度スクレイピングしたいなら以下を実行

# ヤンク
yy
# ヤンクしたURLをペーストして新しいタブで開く
:tab new <url>

# あとは上の項目を繰り返し実施するだけ

プログラムいらず！vimで手動スクレイピング

例：はてぶのページからリンクを取得する

解説

データ取得

HTML整形

フィルタリング

データの整形

おまけ

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？