トップ «前の日記(2016-02-29) 最新 次の日記(2016-03-06)» 編集

Days of Speed

過ぎゆく日々を書こう。忘れっぽい未来の自分のために


2016-03-01

_ もう3月か

早すぎる。

Tags: life

_ curlとxmllintを使ってスクレイピングしてMarkdownに変換してみた

Webサイトのコンテンツを取ってきてMarkdownに変換したいけれど、メニューなど余計なものをsedやawkで取り除くのは面倒だなと思ってましたが、xmllintを使うとHTMLでもXpathで狙ったノードだけ取り出せるという事を知り、試してみました。

xmllintは、--htmlオプションをつけるとXMLではなくHTMLとして扱うようになります。 ということでワンライナーで試すならこんな感じ。

 $ curl -s http://www.nofuture.tv/diary/20151204.html | xmllint --html --xpath '//div[@class="main"]' - | pandoc -f html -t markdown_github

まだ少し加工する必要はあるけど、なかなかいい感じにメインコンテンツのみ抜き出せたのではないでしょうか。


2001|12|
2002|01|02|03|04|05|06|07|08|09|10|11|12|
2003|01|02|03|04|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|06|08|12|
2011|01|02|03|06|07|08|09|10|11|12|
2012|01|02|03|05|06|07|08|09|10|11|12|
2013|01|02|03|04|05|06|07|08|09|10|12|
2014|02|03|04|05|06|07|08|09|10|11|12|
2015|01|02|03|04|05|06|07|08|09|10|11|12|
2016|01|02|03|04|05|06|07|10|11|12|
2017|01|02|11|12|
2018|01|02|03|04|07|09|10|11|12|
2019|01|03|04|08|09|10|11|12|
2020|01|02|03|04|05|06|07|08|09|10|11|

クリエイティブ・コモンズ・ライセンス Jun NOGATA を著作者とするこの 作品クリエイティブ・コモンズの 表示 - 継 承 4.0 国際 ライセンスで提供されています。