[PHP-users 7147] Re: read the pdf

SATOH Fumiyasu php-users@php.gr.jp
Thu, 25 Apr 2002 19:22:34 +0900


At Wed, 24 Apr 2002 22:36:08 +0800,
Alex wrote:
> 私がやりたいのは、相当数のPDFにて作成されている画像入りの文書からテキストデータ
> のみを全て取り出して、これをMySQLに入れ高速なワード検索を可能としたいのです。
> perlなどではできるという「うわさ」をきいたことがあるのですが、phpでできるので
> あれば、と思っていました。しかし簡単には行かないようですね。

Xpdf (付属の pdftotext コマンド)
http://www.foolabs.com/xpdf/

DocCat (の PDF オプション)
http://www.dehenken.co.jp/

それらを利用する Namazu (DocCat の PDF 対応のモジュールは入れてない…)
http://namazu.org/

-- 
SATOH Fumiyasu - fumiya @net-thrust.com, @samba.gr.jp, @namazu.org or ...
THRUST Co., Ltd. @ Fujisawa, Kanagawa, Japan - http://www.net-thrust.com
Samba-JP, aka `Samba Users Group Japan'      - http://www.samba.gr.jp
Apache-JP(?), aka `Japan Apache Users Group' - http://www.apache.jp
Namazu, a full-text search engine            - http://www.namazu.org