画像やPDFの文字をテキスト化(文字起こし)できるフリーソフト

  • このエントリーをはてなブックマークに追加

当事務所はインタビューや会議などの録音音声を文字起こしする専門業者です。今回の記事は番外編とでもいえる内容になりますが、画像やPDFの文字をテキスト化できる、便利なアプリやサイトをご紹介します。

OCR(文字認識)フリーソフト・アプリ

OCRとは、Optical Character Recognition(またはReader)の略で、日本語では光学的文字認識といいます。ちょっと長いので、以下文中では文字認識と表記します。

OCR(文字認識)が役立つ場面

紙やPDFの資料をデジタル化

音声データの文字起こしをお客様から受けたときに、郵送で紙の資料(印刷物等)や、メール添付でPDFの資料が送られてくることがあります。

しかし、資料から引用する文字量が多いと、ワープロソフトで文字起こし入力中にいちいち打ち直すのは、けっこう面倒な作業です。こんなときに、紙やPDFの資料をOCR(文字認識)でテキスト化できると作業の効率アップになります。

なお、メモなど手書きの文字を読み取ってデジタル化することも可能です。

名刺の管理

文字起こしの仕事も、今はインターネット上ですべて完結できるようになっているので、直接、お客様や取引先とお会いする機会は随分減りました。

そうはいっても、ビジネスで文字起こしをしていると、名刺を交換したりいただいたりすることがあります。いつの間にか溜まってしまいがちな名刺の管理にもOCR(文字認識)は役立ちます。

名刺管理のソフト・アプリは、広告などでもよく見かけますね。

書籍のデジタル化

古い書籍などデジタルデータが残っていないとき、OCR(文字認識)でテキストを抽出すれば、人力で打ち直すのに比べて圧倒的に手間も時間も経費も節約できます。

じつは、だいぶ昔ですが、当事務所で古い書籍をワープロで打ち直す仕事を請け負ったことがあります。打ち直す作業も時間がかかりましたが、誤入力のチェックも大変でしたね。当時、OCRはまだ実用化されていなかったと思います。

また、書籍以外にも、会社の古い書類や名簿などにも応用できます。

書類の文章検索

紙の大量の書類であってもデジタル化してしまえば、文字の検索が容易にできます。例えば、書類の一部(担当者、部署、商品名など)に変更があった場合でも、紙のままだと修正するのも大変ですが、デジタル化できれば修正箇所を検索して、一括で直すことも可能です。

そのほか、ビジネスやプライベートでOCR(文字認識)が役立つ場面はいろいろあります。「こんな使い方もあるのか」といった目からうろこの使用法もあるようですので、ご関心のある方はぜひ試されてみてください。

画像・PDFの文字をテキスト化できるフリーソフト

Pick up Tool

MicrosoftのComputer Vision APIを利用したOCRソフトです。

マウスで囲んだ領域内に写っているテキストや、指定した画像の中に写っているテキストを読み取り、プレーンテキストとして出力してくれます。

Ground Truth Text

画像内に映し出されているテキストのうち、マウスで変換したい範囲を囲み、その範囲にある文字を識別し、クリップボードにコピーしてくれます。対応している画像ファイルは、BMP、JPEG、GIF、TIFF、PNG。

QuickOCR

Windows 10 に内蔵されているOCRエンジンを利用したOCRソフトです。マウスドラッグで囲んだ領域内に写っているテキストを読み取り、結果を専用のウインドウ内に抽出してくれます。

いつもは音声データからの文字起こしについて関連情報を掲載していますが、今回は画像・PDFの文字をテキスト化について取り上げてみました。

本記事でご紹介したもの以外にも、OCR(文字認識)ソフト・アプリは多数ありますので、ご興味がありましたらインターネット検索などで探してみてください。

  • このエントリーをはてなブックマークに追加

SNSでもご購読できます。