Korzystanie z funkcji migawki Vision z zewnętrzną usługą OCR
  • 26 Mar 2024
  • 2 Minuty do przeczytania
  • Współtwórcy

Korzystanie z funkcji migawki Vision z zewnętrzną usługą OCR


Article Summary

Korzystanie z funkcji migawki Vision z zewnętrzną usługą OCR

Przechwytywanie i wysyłanie obrazów do zewnętrznego interfejsu API usługi widzenia komputerowego

:::(Warning) (UWAGA) Chociaż można to osiągnąć za pomocą Vision - inną alternatywą jest użycie CoPilot. Przeczytaj więcej o CoPilot i OCR tutaj:::

Przegląd

Funkcja Snapshot w Vision może być używana w połączeniu z Tulip Connectors i zewnętrzną usługą OCR. W tym artykule dowiesz się, jak szybko zbudować solidny potok OCR (Optical Character Recognition), który wykrywa tekst z migawki wykonanej za pomocą kamery Vision. Wykorzystując tę funkcjonalność, będziesz mógł skanować dokumenty, odczytywać tekst z wydrukowanych etykiet, a nawet tekst wytłoczony lub wytrawiony na przedmiotach.

W poniższym artykule omówimy, jak korzystać z tej funkcji za pomocą Google Vision OCR. Funkcja Google Vision OCR jest w stanie odczytać tekst w bardzo trudnych warunkach obrazu.

Kroki, przez które przeprowadzi Cię ten artykuł:

  1. Konfiguracja Tulip Vision i Google Cloud Vision API
  2. Jak utworzyć Tulip Connector do interfejsu API GCV
  3. Tworzenie aplikacji do robienia migawek i komunikowania się z funkcją konektora OCR.

Wymagania wstępne

Konfiguracja migawki wraz z konfiguracją kamery

Upewnij się, że pomyślnie skonfigurowałeś konfigurację kamery Vision i znasz funkcję Snapshot Vision. Aby uzyskać więcej informacji, zobacz: Korzystanie z funkcji Vision Snapshot

Włącz Google Cloud Vision API i projekt Google Cloud Platform

Utwórz projekt GCP i włącz interfejs Vision API, postępując zgodnie z instrukcjami podanymi w tym artykule: https://cloud.google.com/vision/docs/ocr.

Utwórz klucz API na Google Cloud Platform, który będzie używany do uwierzytelniania

Postępuj zgodnie z instrukcjami podanymi w artykule: https://cloud.google.com/docs/authentication/api-keys, aby utworzyć klucz API dla swojego projektu GCP. Możesz ograniczyć użycie tego klucza API i ustawić odpowiednie uprawnienia. Skonsultuj się z menedżerem sieci, aby pomóc Ci to skonfigurować.

Tworzenie funkcji konektora Tulip dla Google OCR

Utworzony konektor i funkcja konektora zostaną skonfigurowane tak, aby pasowały do typu żądania oczekiwanego przez Vision API, jak pokazano na poniższym obrazku:

Konfigurowanie funkcji konektora:

  1. Utwórz konektor HTTP.

  1. Skonfiguruj konektor tak, aby wskazywał punkt końcowy Google Vision API.

Host: vision.googleapis.com

TLS: Tak 3. Edytuj nagłówki połączenia, aby uwzględnić Content-Type.

  1. Przetestuj Connector i zapisz konfigurację.
  2. Następnie utwórz funkcję konektora żądania POST i dodaj następującą ścieżkę do punktu końcowego: v1/images:annotate

  1. Dodaj obraz jako dane wejściowe do funkcji łącznika. Upewnij się, że typ danych wejściowych to Text.

  1. Upewnij się, że typ żądania to JSON, a treść żądania jest zgodna z typem żądania Google Vision API:

Uwaga: Zastąp PUT_YOUR_API_KEY_HERE własnym kluczem API utworzonym w powyższych krokach. 8. Następnie przetestuj tę funkcję łącznika, konwertując obraz tekstu na ciąg base64string (aby to zrobić, możesz skorzystać z tej strony internetowej). Użyj tego ciągu jako wartości testowej dla zmiennej wejściowej obrazu.

Powinieneś otrzymać odpowiedź podobną do:

  1. Ustaw zmienną wyjściową tak, aby wskazywała na**.responses.0.textAnnotations.0.description**
  2. Zapisz funkcję łącznika.

Tworzenie aplikacji Tulip wykorzystującej Snapshots i Google OCR Connector

  1. Przejdź do edytora aplikacji i użyj aplikacji utworzonej podczas konfigurowania wyzwalacza migawki: Korzystanie z funkcji migawki
  2. Następnie utwórz przycisk z wyzwalaczem, aby wywołać funkcję konektora. Użyj zmiennej obrazu, która jest przechowywana przez wyjście Snapshot jako dane wejściowe do funkcji łącznika.

  1. Dodaj zmienną detected_text do kroku aplikacji, aby wyświetlić wyniki zwrócone przez funkcję konektora:

  1. Przetestuj aplikację i obserwuj wyniki OCR:

Stworzyłeś teraz aplikację Tulip Vision, która łączy się z usługą Google Vision API OCR. Wypróbuj ją teraz w swojej hali produkcyjnej!

Więcej informacji:


Czy ten artykuł był pomocny?