この記事は1年以上前の古い記事です。現状に即していない記述の場合があります。あらかじめご了承ください。
もう3月か

nogajun
早すぎる。
_ curlとxmllintを使ってスクレイピングしてMarkdownに変換してみた
- 参考: curl+xpath から始めるお手軽スクレイピング(2) - それマグで!: http://takuya-1st.hatenablog.jp/entry/2015/12/18/curl%2Bxpath
Webサイトのコンテンツを取ってきてMarkdownに変換したいけれど、メニューなど余計なものをsedやawkで取り除くのは面倒だなと思ってましたが、xmllintを使うとHTMLでもXpathで狙ったノードだけ取り出せるという事を知り、試してみました。
xmllintは、 --html オプションをつけるとXMLではなくHTMLとして扱うようになります。 ということでワンライナーで試すならこんな感じ。
$ curl -s http://www.nofuture.tv/diary/20151204.html | xmllint --html --xpath '//div[@class="main"]' - | pandoc -f html -t markdown_github
まだ少し加工する必要はあるけど、なかなかいい感じにメインコンテンツのみ抜き出せたのではないでしょうか。