Visionのスナップショット機能と外部OCRサービスの使用
  • 08 Jan 2025
  • 1 読む分
  • 寄稿者

Visionのスナップショット機能と外部OCRサービスの使用


記事の要約

外部OCRサービスでVisionのスナップショット機能を使う

外部のコンピュータビジョンサービスAPIに画像をキャプチャして送信する

NOTE

While you can accomplish this with Vision - another alternative is to use CoPilot. Read more about CoPilot and OCR here.

概要

Visionのスナップショット機能は、Tulipコネクターと外部OCRサービスと共に使用することができます。この記事では、Vision Cameraで撮影されたスナップショットからテキストを検出する、堅牢なOCR(光学式文字認識)パイプラインをすばやく構築する方法を説明します。この機能を活用することで、ドキュメントをスキャンしたり、印刷されたラベルからテキストを読み取ったり、あるいはエンボス加工やエッチングされたテキストを読み取ることができるようになります。

以下の記事では、Google Vision OCRを使ったこの機能の使い方を説明する。Google Vision OCR機能は、非常に厳しい画像条件でもテキストを読み取ることができます。

この記事で説明する手順

  1. Tulip VisionとGoogle Cloud Vision APIのセットアップ
  2. GCV APIへのTulip Connectorの作成方法
  3. スナップショットを撮影し、OCRコネクタ機能と通信するためのアプリの構築

前提条件

カメラ設定とスナップショットのセットアップ

Visionカメラ構成のセットアップに成功し、Visionのスナップショット機能に精通していることを確認してください。詳細については、以下を参照してください:Visionスナップショット機能の使用

Google Cloud Vision APIとGoogle Cloud Platformプロジェクトを有効にします。

GCPプロジェクトを作成し、この記事(https://cloud.google.com/vision/docs/ocr)に記載されている手順に従ってVision APIを有効にします。

認証に使用するAPIキーをGoogle Cloud Platformで作成する。

https://cloud.google.com/docs/authentication/api-keysに記載されている手順に従って、GCPプロジェクト用のAPIキーを作成してください。このAPI Keyの使用を制限し、適切な権限を設定することができます。ネットワーク管理者にご相談ください。

Google OCR用のTulipコネクタ関数の作成

以下の画像に記載されているように、構築するコネクタとコネクタ関数は、Vision APIが期待するリクエストのタイプに合わせて構成されます:

コネクタ機能の設定

  1. HTTP コネクタを作成します。

  1. Google Vision API エンドポイントを指すようにコネクタを構成します。

ホスト:vision.googleapis.com

TLS: はい3.Content-Typeを含むように、接続のヘッダを編集する。

  1. コネクタをテストし、設定を保存する。
  2. 次に、POSTリクエスト・コネクタ関数を作成し、エンドポイントに次のパスを追加します:v1/images:annotate

  1. コネクタ関数の入力として画像を追加します。入力タイプがText であることを確認します。

  1. リクエストタイプが JSON で、リクエスト ボディがGoogle Vision API のリクエストタイプと一致していることを確認します:

注:PUT_YOUR_API_KEY_HEREを、上記のステップで作成した自分の API Key で置き換えてください。 次に、テキストの画像をbase64string に変換して、このコネクタ関数をテストします(変換には、このウェブサイトを使用できます)。この文字列を画像入力変数のテスト値として使用します。

以下のような応答が返ってくるはずだ:

  1. 出力変数が**.responses.0.textAnnotations.0.descriptionを指すように設定します。**
  2. コネクタ関数を保存します。

スナップショットとGoogle OCRコネクタを使用するTulipアプリの作成

  1. App Editorに移動し、スナップショットトリガーの設定中に作成したアプリを使用します:スナップショット機能の使用
  2. 次に、Connector Functionを呼び出すトリガーを持つボタンを作成します。コネクタ関数の入力として、スナップショット出力によって格納されるイメージVariableを使用します。

  1. コネクタ関数から返された結果を表示できるように、アプリのステップに変数detected_text を追加します:

  1. アプリをテストし、OCR結果を確認します:

これで、Google Vision API OCRサービスに接続するTulip Visionアプリができました。今すぐ店頭で試してみてください!

さらに読む


この記事は役に立ちましたか?