もう3月か

Posted by nogajun - 2016/03/01

_

早すぎる。

_ curlとxmllintを使ってスクレイピングしてMarkdownに変換してみた

Webサイトのコンテンツを取ってきてMarkdownに変換したいけれど、メニューなど余計なものをsedやawkで取り除くのは面倒だなと思ってましたが、xmllintを使うとHTMLでもXpathで狙ったノードだけ取り出せるという事を知り、試してみました。

xmllintは、 --html オプションをつけるとXMLではなくHTMLとして扱うようになります。 ということでワンライナーで試すならこんな感じ。

 $ curl -s http://www.nofuture.tv/diary/20151204.html | xmllint --html --xpath '//div[@class="main"]' - | pandoc -f html -t markdown_github

まだ少し加工する必要はあるけど、なかなかいい感じにメインコンテンツのみ抜き出せたのではないでしょうか。