[PHP-users 7137] Re: read the pdf

Naoto Imai php-users@php.gr.jp
Thu, 25 Apr 2002 00:07:06 +0900


今井です。

> いろいろとレスありがとうございます。
> 私がやりたいのは、相当数のPDFにて作成されている画像入りの文書からテキスト
> データのみを全て取り出して、これをMySQLに入れ高速なワード検索を可能とした
> いのです。
> perlなどではできるという「うわさ」をきいたことがあるのですが、phpでできる
> のであれば、と思っていました。しかし簡単には行かないようですね。

私も興味があったので、ちょっと調べてみました。
Xpdfというソフトウェアがあって、その中にpdftotextというのがあります。
それを使うとpdfからテキストを抽出することができるようです。
これは、コマンドラインで使うようですが、うまく組み合わせればPHPからも使える
と思います。(私は試したことがないので保証はできませんが・・)
googleなどでお調べになれば沢山出てきますので、トライしてみてはいかがでしょ
うか。
PHPとは直接関係なくなってきましたので、この辺で失礼します。

今井直人
n-imai@db3.so-net.ne.jp