var ex = new ExtractContentJS.LayeredExtractor(); //ex.addHandler( ex.factory.getHandler('Description') ); //ex.addHandler( ex.factory.getHandler('Scraper')); //ex.addHandler( ex.factory.getHandler('GoogleAdsence') ); ex.addHandler( ex.factory.getHandler('Heuristics') ); var res = ex.extract(document); if (res.isSuccess) { res.url; // URL string res.title; // title string res.engine; // 抽出に用いたハンドラそのもの res.content; // コンテンツクラスのインスタンス(後述) }

ハンドラはいまのところHeuristicsのみ実装済み.

コンテンツクラス¶ ↑

content.asLeaves(); // 本文だと判定された葉ノードを含む葉クラスインスタンス(後述)の配列を返す content.asNode(); // すべての葉ノードの共通の祖先のうち最深のものを返す content.asTextFragment(); // asLeaves()に含まれるノードのテキストを連結したものを返す content.toString(); // asNode()のtextContentを返す

葉クラス¶ ↑

leaf.node; // 葉ノード leaf.depth; // ノードのbodyからの深さ

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

ExtractContentJS¶ ↑

やれること¶ ↑

ファイル¶ ↑

使い方¶ ↑

本文抽出インタフェース¶ ↑

ExtractContentJS.LayeredExtractor¶ ↑

コンテンツクラス¶ ↑

葉クラス¶ ↑

AUTHOR¶ ↑

Copryright¶ ↑

Copyright of the original implementation¶ ↑

LICENCE¶ ↑

About

Uh oh!

Releases

Packages

Languages

jumbojett/extract-content-javascript

Folders and files

Latest commit

History

Repository files navigation

ExtractContentJS¶ ↑

やれること¶ ↑

ファイル¶ ↑

使い方¶ ↑

本文抽出インタフェース¶ ↑

ExtractContentJS.LayeredExtractor¶ ↑

コンテンツクラス¶ ↑

葉クラス¶ ↑

AUTHOR¶ ↑

Copryright¶ ↑

Copyright of the original implementation¶ ↑

LICENCE¶ ↑

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages