외부 OCR 서비스와 함께 Vision의 스냅샷 기능 사용

업데이트 날짜 08 Jan 2025
2 읽을 분
기여자

인쇄
공유

기사 요약

이 요약이 도움이 되었나요?

의견을 보내 주셔서 감사합니다.

외부 OCR 서비스와 함께 Vision의 스냅샷 기능 사용

이미지를 캡처하여 외부 컴퓨터 비전 서비스 API로 보내기

NOTE

While you can accomplish this with Vision - another alternative is to use CoPilot. Read more about CoPilot and OCR here.

개요

Vision의 스냅샷 기능은 Tulip 커넥터 및 외부 OCR 서비스와 함께 사용할 수 있습니다. 이 문서에서는 Vision 카메라로 촬영한 스냅샷에서 텍스트를 감지하는 강력한 OCR(광학 문자 인식) 파이프라인을 빠르게 구축하는 방법에 대해 안내합니다. 이 기능을 활용하면 문서를 스캔하거나 인쇄된 라벨의 텍스트, 심지어 물품에 엠보싱 또는 에칭된 텍스트를 읽을 수 있습니다.

다음 문서에서는 Google 비전 OCR로 이 기능을 사용하는 방법을 안내합니다. Google 비전 OCR 기능은 매우 열악한 이미지 조건에서도 텍스트를 판독할 수 있습니다.

이 문서에서 안내하는 단계를 따라하세요:

튤립 비전과 Google 클라우드 비전 API 설정하기
GCV API에 대한 튤립 커넥터를 만드는 방법
스냅샷을 찍고 OCR 커넥터 기능과 통신하는 앱 빌드하기

전제 조건

카메라 구성과 함께 스냅샷 설정하기

Vision 카메라 구성을 성공적으로 설정했는지 확인하고 Vision의 스냅샷 기능에 익숙해야 합니다. 자세한 내용은 다음을 참조하세요: Vision 스냅샷 기능 사용하기

구글 클라우드 비전 API 및 구글 클라우드 플랫폼 프로젝트 활성화하기

이 문서 (https://cloud.google.com/vision/docs/ocr)에 명시된 지침에 따라 GCP 프로젝트를 만들고 Vision API를 활성화합니다 .

인증에 사용할 Google Cloud Platform에서 API 키 만들기

https://cloud.google.com/docs/authentication/api-keys 문서에 명시된 지침에 따라 GCP 프로젝트의 API 키를 만듭니다. 이 API 키의 사용을 제한하고 적절한 권한을 설정할 수 있습니다. 이를 구성하는 데 도움이 필요하면 네트워크 관리자에게 문의하세요.

Google OCR용 튤립 커넥터 함수 만들기

빌드하는 커넥터와 커넥터 함수는 다음 이미지에 명시된 대로 Vision API가 예상하는 요청 유형에 맞게 구성됩니다:

커넥터 함수 구성하기:

HTTP 커넥터를 만듭니다.

Google Vision API 엔드포인트를 가리키도록 커넥터를 구성합니다.

호스트: vision.googleapis.com

TLS: 예3. 콘텐츠 유형을 포함하도록 연결의 헤더를 편집합니다.

커넥터를테스트하고 구성을 저장합니다.
다음으로 POST 요청 커넥터 함수를 만들고 엔드포인트에 다음 경로를 추가합니다: v1/images:annotate.

커넥터 함수에 이미지를 입력으로 추가합니다. 입력 유형이 텍스트인지 확인합니다.

요청 유형이 JSON이고 요청 본문이 Google Vision API 요청 유형과 일치하는지 확인합니다:

참고: PUT_YOUR_API_KEY_HERE를 위 단계에서 만든 자체 API 키로 바꿉니다.8. 다음으로 텍스트 이미지를 base64string으로 변환하여 이 커넥터 기능을 테스트합니다(이를 위해 이 웹사이트를 사용할 수 있습니다). 이 문자열을 이미지 입력 변수의 테스트 값으로 사용합니다.

다음과 유사한 응답이 돌아올 것입니다: