Tidy関数を使ったスクレイピングとTwitterAPI(1)-Tidy関数でスクレイピング

APIとして使いやすい(動くサービスが作りやすい)TwitterのAPIを使って
昨年から少しずつ、Twitter-bot(自動投稿プログラム)を作成していました。
せっかくなので、ここにまとめておきたいと思います。

札幌市水道凍結情報配信bot

「水道凍結情報」-さっぽろお天気ネット-で公開されている情報を
WEBページから取得し、毎晩Twitterに配信するというbotです。
一定期間、一定地域にしかニーズはありません。
が、これも勉強です。

スクレイピング処理

今回スクレイピングしたかったHTMLはこんなソースです。

<tr>
    <td>
        <p class=center>中央区</p>
    </td>
    <td>
        <img src="../images/freeze3.gif" alt="注意">
        <span class=sfont>注意</span>
    </td>
    <td>
        <img src="../images/freeze2.gif" alt="念のため">
        <span class=sfont>念のため</span>
    </td>
</tr>

ここから class=center と class=sfont の中身を3つセットで取り出したい。

取り出すために必要になる処理は大雑把にいうと以下となります。

◇ html情報を文字列として取り出す
◇ Tidy関数を使用し、文字列にストアされたドキュメントをパースする
◇ パースしたTidyオブジェクトを操作して、html情報を切り出す

◇html情報を文字列として取り出す

fopen関数を使って指定URLの情報を取得します。

//GetHttpSource
class GetHttpSource {
	public function get_html($url){
		if (($fp = fopen($url, "r")) == FALSE) {
			$this->status = "エラーが発生しました。";
			return;
		}

		$str = fgets($fp);
		while (! feof($fp)) {
			$str = $str . fgets($fp);
		}
		fclose($fp);

		$data = mb_convert_encoding($str,"utf-8","auto");
		return $data;
	}
}

[プロキシを介してインターネットに接続している場合]
fsockopenを使います。

    $proxy_name = 'your_proxy';
    $proxy_port = 8888;
    $proxy_cont = '';

    $proxy_fp = fsockopen($proxy_name, $proxy_port);
    if ( $proxy_fp == false ) {
       echo "Error!!";
       return false;
    }
   // プロキシ情報を付加してファイル取得
    fputs($proxy_fp, "GET $proxy_url HTTP/1.0\r\nHost: $proxy_name\r\n\r\n");
    while(!feof($proxy_fp)) {$proxy_cont .= fread($proxy_fp,4096);}
    fclose($proxy_fp);
   // プロキシ情報を除去してデータとして格納する
    $data = mb_convert_encoding(substr($proxy_cont, strpos($proxy_cont,"\r\n\r\n")+4),"utf-8","auto");
    return $proxy_cont;

◇Tidy関数を使用し、文字列にストアされたドキュメントをパースする

PHP: Tidy – Manualを参考に。
Tidy 関数 parseString() と cleanRepair() を使用します。

// HTMLの取得
$ca = new GetHttpSource(); // 自作クラス
$data = $ca->get_html(INIT_URL);

// Tidy関数config
$config = array('indent' => TRUE,
                'output-xhtml' => TRUE,
                'wrap' => 200);
// 取得したHTMLファイルの内容をUTF-8の文字コードで$configで指定した設定で、tidyオブジェクトを作成
$tidy->parseString($data, $config, 'UTF8');
// パースされたマークアップに設定に基く誤りの修正を行う
$tidy->cleanRepair();

◇パースしたTidyオブジェクトを操作して、html情報を切り出す

ノードとして保持されているTidyオブジェクト内の情報を、再帰的に読み込み、
必要な情報だけを取り出します。
当日(当夜)予想と翌日(日中)予想を判断するのは「読み込まれる順番」しかなかったので、
class変数に取得した値を突っ込んでいって全てが埋まったらarrayに格納という手段をとっています。

class Scraping {
	private $center= "";
	private $sfont1 = "";
	private $sfont2 = "";
	private $result = array();
	private $result_date = "";

        // ############ 各地区の予測を取得
	public function scraping_data(tidyNode $node) {
		$this->doScraping($node);
		return $this->result;
	}

	private function doScraping(tidyNode $node) {
		    if(isset($node->id)) {
	        // $node->id が TABLEタグだったらそのなかにデータあり
	        if($node->id == TIDY_TAG_TD ) {
    			$chileNodes = $node->child ;
    	 		foreach( $chileNodes as $item ){
        	 		if(isset($item->id) && $item->id == TIDY_TAG_P ) {
			            if (isset($item->attribute['class'])){
			                // class属性値がcenterだったら
			                if (stristr ($item->attribute['class'] ,"center") !==FALSE){
								// 区
				                $this->center = trim( $item->child[0]->value);
			                }
			            }
        	 		}
        	 		if( isset($item->id) && $item->id == TIDY_TAG_SPAN ) {
			            if (isset($item->attribute['class'])){
			                // class属性値がsfontだったら
			                if (stristr ($item->attribute['class'] ,"sfont") !==FALSE){
						if( $this->sfont1 == "" ){
							// 夜から朝方の予想
							$this->sfont1 = trim( $item->child[0]->value );
						} else {
							// 日中の予想
							$this->sfont2 = trim( $item->child[0]->value );
						}
			                }
			            }
        	 		}
    	 		}
			// 情報セットが取れたらリストに格納
			if(  strlen($this->center) && strlen($this->sfont1) && strlen($this->sfont2) ) {
				$this->result[] = array("center" => $this->center ,"sfont1" =>$this->sfont1 , "sfont2" =>$this->sfont2 );
				//echo "OK";
				// クリアする
				$this->center = "";
				$this->sfont1 = "";
				$this->sfont2 = "";
			}
        	 }
	    }
	    // 子供のノードが存在すれば、再帰的にdoScraping()を繰り返す
	    if($node->hasChildren()) {
	        foreach($node->child as $c) {
	            $this->doScraping($c);
	        }
	    }
	}
}

おまけ(日付の取得)

このソースから日付も取り出すことにしました。

<h2>札幌市内の水道凍結予報</h2>
<h3>各区の水道凍結指数</h3>
<p class=comment>2009年02月24日 16時00分発表</p>
<p class=clear></p>

スクレイピング処理はこんな感じになります。

class Scraping {
	// ############ 日付を取得する
	public function scraping_date_data(tidyNode $node) {
            return $this->getDate($node);
	}

	private function getDate(tidyNode $node) {
	    if(isset($node->id)) {
            // $node->id が Pタグだったらそのなかに日付データあり
            if($node->id == TIDY_TAG_P ) {
                // $node->id の class属性値がcenterだったら
                if (stristr ($node->attribute['class'] ,"comment") !==FALSE){
                    return trim( $node->child[0]->value );
                 }
            }
        }
	    // 子供のノードが存在すれば、再帰的にdoScraping()を繰り返す
	    if($node->hasChildren()) {
	        foreach($node->child as $c) {
	            $result = $this->getDate($c);
                if(strlen($result)) return $result;
	        }
	    }
	}
}

これでスクレイピング処理が完了。
これをTwitterAPIを使用して、投稿します。

長くなったので続きは次回。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください