WEB Scrapingを理解し、PHPで実装するための参考情報

PHP Simple HTML DOM Parser
http://simplehtmldom.sourceforge.net/

HTMLをXML化してDOMやXPathで操作するWebスクレイピングPHPクラス
http://www.rcdtokyo.com/ucb/contents/i000851.php

PHPGoogle 第二回 サイト収集ツール(クローラ)と本文情報抽出を PHP で実装
http://d.hatena.ne.jp/h0x10/20090620/1245485703

PHPでのスクレイピングに役立つライブラリ
http://dxd8.com/archives/85/
→HTMLScraping
 HTMLをXML化してDOMやXPathで操作できるクラス。
 主にHTTP_Request+HTMLParser(XML_HTMLSax3を含む)/Tidy+Cache_Lite
 という構成で、スクレイピングに必要なものが一通り揃っている。
 ライセンスはLGPL他。

phpによるスクレイピング処理入門
http://www.usamimi.info/~ryouchi/scraping/index.html

MySQL InnoDBだけで全文検索
http://d.hatena.ne.jp/sh2/20091206


この辺りの情報のおかげで、ずいぶんとプログラミングが楽です.

イデア次第で、ちょっとしたニュース系サイトや情報収集ツールがつくれます.
やることは、
・HTMLファイルを取得して、
・パターン(規則性)を見出し、
・加工する


他、参考サイト
http://d.hatena.ne.jp/moriyoshi/20100714/1279085753

http://www.plusmb.jp/2009/01/30/2378.html

http://dxd8.com/archives/85/