早すぎる。
_ curlとxmllintを使ってスクレイピングしてMarkdownに変換してみた
- 参考: curl+xpath から始めるお手軽スクレイピング(2) - それマグで!: http://takuya-1st.hatenablog.jp/entry/2015/12/18/curl%2Bxpath
Webサイトのコンテンツを取ってきてMarkdownに変換したいけれど、メニューなど余計なものをsedやawkで取り除くのは面倒だなと思ってましたが、xmllintを使うとHTMLでもXpathで狙ったノードだけ取り出せるという事を知り、試してみました。
xmllintは、 --html オプションをつけるとXMLではなくHTMLとして扱うようになります。 ということでワンライナーで試すならこんな感じ。
$ curl -s http://www.nofuture.tv/diary/20151204.html | xmllint --html --xpath '//div[@class="main"]' - | pandoc -f html -t markdown_github
まだ少し加工する必要はあるけど、なかなかいい感じにメインコンテンツのみ抜き出せたのではないでしょうか。