Hatena::Grouphatena

はてなブックマーク日記 このページをアンテナに追加 RSSフィード

2009-10-07

(開発者様向け) JavaScript での本文抽出ライブラリ extract-content-javascript を公開しました

12:14

本日、はてなブックマーク Firefox 拡張内部で利用*1している JavaScript の本文抽出ライブラリ、extract-content-javascript を公開しました。

このライブラリを利用することで、JavaScript から本文部分を抽出することが可能になります。

ブックマークレットからの利用サンプル

javascript:(function(){(function(){var%20d=document;var%20s=d.createElement('script');s.charset='UTF-8';s.src='http://github.com/hatena/extract-content-javascript/raw/master/lib/extract-content-all.js?'+(new%20Date).getTime();d.body.appendChild(s);var%20i=setInterval(function(){if(!window.ExtractContentJS)return;clearInterval(i);var%20ex=new%20ExtractContentJS.LayeredExtractor();ex.addHandler(ex.factory.getHandler('Heuristics'));var%20res=ex.extract(d);if(res.isSuccess){d.body.innerHTML=res.content.toString();}else{alert("don't%20get%20content");}},50);})();})();
// このブックマークレットは、IE6では文字の長さの制限上動作しません

コード例

var ex = new ExtractContentJS.LayeredExtractor();
ex.addHandler( ex.factory.getHandler('Heuristics') );
var res = ex.extract(document);

if (res.isSuccess) {
    res.url;   // URL string
    res.title; // title string
    res.engine; // 抽出に用いたハンドラそのもの
    res.content; // コンテンツクラスのインスタンス
}

ドキュメント等は github のプロジェクトページを参考ください。どうぞご利用ください。

また、JavaScript から本文抽出・おすすめタグを実装しているはてなブックマークFirefox拡張を、これを機会に利用してみてはいかがでしょうか。

はてなブックマークFirefox拡張について

はてなブックマークFirefox拡張は、はてなブックマークをより便利に活用するための、Mozilla Firefoxブラウザ専用の拡張機能です。はてなブックマークに追加したページをサイドバーツールバーに表示したり、過去のデータから高速に検索・参照したりと、オンライン上に保存したブックマークデータをまるでブラウザの一機能のように活用することができます。

より詳しくは以下のFirefox拡張のガイドページをご覧ください。

はてなブックマークFirefox拡張で新しいインターネットを体験しよう

*1おすすめタグ機能で利用しています。また、Firefox 拡張のソースコードに同梱されているコードは、Firefox 向けに速度と実装のチューニングを行っています