HTMLのパース

投稿者: | 2014年3月27日

jsoupを使ったwebスクレイピング
webスクレイピングは他サイトのデータを用いるため、無断転載等著作権の問題が起きる場合があるので利用の際には注意。
ダウンロードを選んで、core libraryとなっているものをクリック。
ダウンロードしたら自身のプロジェクトのlibsにコピペする。

http://yahoo.co.jpからtitleタグの中身を取ってくるサンプルコード

TextViewに「Yahoo!JAPAN」って出すだけです。
HTMLドキュメントを取ってくる時に通信が発生するため、
AsynkTaskを継承したHttpLoaderクラスを作ってdoInBackgroundメソッド内で、
リクエストを飛ばしてDocumentを取得しています。
getElementsByTagで取得したdocumentから引数に指定したtitleタグの値を抽出して、text()でタグ内のテキストだけを更に抽出し、
TextViewにセットします。
スクレイピングしてテキストビューにセットして表示されるまで少し時間がかかります。

久しぶりの訓練記事・・・・
色々書かずに溜まってるのでちょっとずつ出していこうと思う今日この頃・・・・
そもそもjsonのパースの記事とか出してなくね?いきなりHTMLのパース??というね・・・・


コメント

Loading Facebook Comments ...

コメントを残す

No Trackbacks.