WEB Scrapingを理解し、PHPで実装するための参考情報
PHP Simple HTML DOM Parser
http://simplehtmldom.sourceforge.net/
HTMLをXML化してDOMやXPathで操作するWebスクレイピング用PHPクラス
http://www.rcdtokyo.com/ucb/contents/i000851.php
PHP で Google 第二回 サイト収集ツール(クローラ)と本文情報抽出を PHP で実装
http://d.hatena.ne.jp/h0x10/20090620/1245485703
PHPでのスクレイピングに役立つライブラリ
http://dxd8.com/archives/85/
→HTMLScraping
HTMLをXML化してDOMやXPathで操作できるクラス。
主にHTTP_Request+HTMLParser(XML_HTMLSax3を含む)/Tidy+Cache_Lite
という構成で、スクレイピングに必要なものが一通り揃っている。
ライセンスはLGPL他。
phpによるスクレイピング処理入門
http://www.usamimi.info/~ryouchi/scraping/index.html
MySQL InnoDBだけで全文検索
http://d.hatena.ne.jp/sh2/20091206
この辺りの情報のおかげで、ずいぶんとプログラミングが楽です.
アイデア次第で、ちょっとしたニュース系サイトや情報収集ツールがつくれます.
やることは、
・HTMLファイルを取得して、
・パターン(規則性)を見出し、
・加工する
他、参考サイト
http://d.hatena.ne.jp/moriyoshi/20100714/1279085753