Googleは検索でも文字を読み込んでいるのでどれくらいパワーがあるのか?
そして画像から文字を起こす方法を紹介。
無料で簡単にGoogleでOCRができます!
01
Googleが画像から文字を読み込むパワーはどれくらい?
実際に使って感じたところは
- 背景があってもOK
- ゴシック・メイリオ・教科書文字が好き
- 明朝体は太線細線のメリハリが少ない方がいい
- 行書とかは辞めて欲しい
- 縦書きはちょっと苦手
- 行間をしっかり開けて
- 縁取りとか立体とか飾り文字は辞めて欲しい
- ちょっと中国語(簡体)が入る。「日本語」<「簡体」
- 白抜きはちょっと嫌い
実際にどんな感じで取れるかやってみるとわかります。
文字抽出方法は↓から
02
Googleで画像から文字を取り出す方法
ブラインドタッチができないから、紙に書いてある文字を打つのがすごく遅いので、どうにかして自動化できないかと思って良く使う方法です。
- 文字のある紙を写真で取ったり、pdfから切り取り画像化
- Google Driveで画像をアップロード
- 画像を「マウス右クリック」して「アプリで開く」「Googleドキュメント」
- ちょっと時間がかかります
- 文字抽出完了。
上部分に画像、下にテキスト文字が出るので、これを使えばOK
簡単で便利です。
03
この機能の落とし穴
「早く言ってよ~」と思うかもしれませんが、黙っていたのにはワケがあります。
2018年3月中旬にこのDriveサービスが終わります。
(2017年秋あたりからダメという話も出ていましたが、2018年3月に閉鎖になります)
「Backup and Sync」と言うのが新機能なんですが「同期」という言葉が嫌いなので、まだ入れていません。
あくまでスポットで使いたいだけです。
04
Googleの文字取りパワーの本来の力
一番最初に書いた見解はこのOCR機能を使った状況で感じた点です。
技術は日々更新されているので、アプリ上には反映していないけど飾り文字や明朝体も、ある程度は読めていると思います。
逆に、ちょっと飾り文字を使ったほうが、読み込み検証をするチャレンジになるのでアクセスしてくれそうなので気にしないで使っています。
05
その他の画像認識方法
- 「画像に日本語を使え」という話も出てきていますが、化けることが多いのであまり良くないです。
エンコードしてのファイルメインいするのが一番良いのですが、それもちょっと大変ですし、人間が管理できないので現実的じゃない。 - 英語名のファイル名の日本語検索にUPさせたいので非現実的
- alt=””に記述するのは古い方法だけど正解