この記事は1年以上前の古い記事です。現状に即していない記述の場合があります。あらかじめご了承ください。

もう3月か

nogajun
2016/03/01

早すぎる。

参考: curl+xpath から始めるお手軽スクレイピング（２） - それマグで！: http://takuya-1st.hatenablog.jp/entry/2015/12/18/curl%2Bxpath

Webサイトのコンテンツを取ってきてMarkdownに変換したいけれど、メニューなど余計なものをsedやawkで取り除くのは面倒だなと思ってましたが、xmllintを使うとHTMLでもXpathで狙ったノードだけ取り出せるという事を知り、試してみました。

xmllintは、 --html オプションをつけるとXMLではなくHTMLとして扱うようになります。ということでワンライナーで試すならこんな感じ。

 $ curl -s http://www.nofuture.tv/diary/20151204.html | xmllint --html --xpath '//div[@class="main"]' - | pandoc -f html -t markdown_github

まだ少し加工する必要はあるけど、なかなかいい感じにメインコンテンツのみ抜き出せたのではないでしょうか。