Tulip OCR az AWS Textract segítségével
  • 31 Jan 2024
  • 4 Elolvasandó percek
  • Közreműködők

Tulip OCR az AWS Textract segítségével


Article Summary

:::(Warning) (Megjegyzés) A Frontline Coplilot™ segítségével a szöveg közvetlenül kivonható a képekből és dokumentumokból, ami jelentősen leegyszerűsíti a Tulipban a képek OCR-felismerésének folyamatát. A továbbiakban ez a javasolt megközelítés. :::

Ez a cikk végigvezeti Önt az AWS Textract Connector beállításán a Tulipen.

Az AWS Textract az Amazon Web Services (AWS) felhőalapú szolgáltatása, amely gépi tanulási technológiát használ a szöveg és az adatok kinyerésére különböző típusú dokumentumokból. A Textract képes a beolvasott dokumentumok, PDF-ek, képek és egyéb fájlok elemzésére, hogy automatikusan kivonja a szöveges tartalmakat, táblázatokat, űrlapokat és kulcs-érték párokat.

Az AWS Textract legfontosabb jellemzői és képességei a következők:

  1. Optikai karakterfelismerés (OCR): A Textract az OCR segítségével kivonja a szöveget a beolvasott dokumentumokból és képekből, még akkor is, ha azok különböző nyelvűek vagy összetett elrendezésűek.
  2. Kulcs-érték párok kinyerése: A Textract képes kulcs-érték párokat kinyerni a dokumentumokból, például számlákból vagy nyugtákból, a címkék és a hozzájuk tartozó értékek közötti kapcsolat azonosításával.
  3. Táblázat-kivonatolás: A Textract képes felismerni és kivonni a táblázatos adatokat a dokumentumokból, megőrizve a táblázat szerkezetét, sorait és oszlopait.
  4. Lekérdezés alapú szövegkivonatolás: A Textract lehetővé teszi, hogy természetes nyelvi lekérdezések segítségével konkrét információkat nyerjen ki a dokumentumokból.
  5. Több dokumentumformátum támogatása: A Textract a dokumentumformátumok széles skáláját támogatja, többek között a PDF, JPEG, PNG és TIFF formátumokat.
  6. Formanyomtatvány-kivonatolás (hamarosan): A Textract képes automatikusan azonosítani az űrlapmezőket, például a jelölőnégyzeteket, rádiógombokat és szöveges mezőket, és kivonni a megfelelő adatokat.

Előfeltételek

Tulip Connector beállítása

A Tulip példányában válassza az Alkalmazások menüből a Csatlakozók menüpontot.

Válassza ki az AWS Connector-t és győződjön meg róla, hogy online van-e, vagy állítsa be a következő Connection Details segítségével:

AWS Connector Details

Válassza a Fejlécek szerkesztése lehetőséget, és frissítse a Tulip által biztosított X-API-kulcsot.

AWS Connector Header Details

Válassza a Back (Vissza ) lehetőséget, majd kattintson a Test (Teszt) gombra.

Textract egy Tulip-alkalmazásban a kulcs-érték párokhoz (Kivonás egy PDF-ből)

Ebben a példában végigvezetjük, hogyan használjuk a Textractot egy alkalmazásban kulcs-érték párok kinyerésére egy PDF-ből. Létre kell hoznunk és konfigurálnunk egy csatlakozófüggvényt az AWS-csatlakozóban, valamint triggerlogikát kell használnunk a csatlakozó futtatásához és a kívánt adatok kinyeréséhez.

A csatlakozófüggvény részletei

Hozzon létre egy új csatlakozófüggvényt az AWS-konnektorban. A következő információk segítségével állítsa be a Inputs és Outputs értékeket.

Bemenetek File_url (Text) - a Tulipba feltöltött PDF-fájl URL címe Start_page (Int) - a PDF-fájl első oldala, amelyből kivonatolni kell End_page (Int) - a PDF-fájl utolsó oldala, amelyből kivonatolni kell.

OutputResults (Objects) - a kulcs-érték párok objektumlistája.

AWS Connector Output Pairs Extraction

Alkalmazásindító

Az alkalmazásban a Triggerek hívja meg a csatlakozó függvényt, hogy fusson.

Hozzon létre egy új trigger-t a következő műveletekkel:

  1. Futtassa az URL-aláíró csatlakozót az URL aláírása funkcióval. A fájl bemenetének egy szöveges változónak kell lennie. Használja a FILETOTEXT (változó.File) kifejezést, ahol a "File" a változó neve, a fájl nevének szöveges karakterlánccá alakításához. Mentse a kimenetet egy változóba, és nevezze el ("SignedURL").
  2. Futtassa az AWS Textract Key-Value Pairs connector függvényt az aláírási URL bemenettel (file_url), valamint az összes kivonandó PDF kezdő- és végoldalával. Mentse a kimenetet egy új Array-be.

AWS Connector Trigger Key Extraction

A Textract eredményei egy Key-Value párokat tartalmazó objektumokból álló tömbben kerülnek elmentésre. A tömbből való kivonáshoz hozzon létre egy új kiváltót, amely szükség szerint megismétli a párok kiugrását a tömbből.
Érdemes megfontolni a Looping Customer Widget használatát több objektumnak a tömbből való kiemeléséhez.

AWS Connector Trigger Pair Extraction2

Textract egy Tulip alkalmazásban lekérdezéshez (kivonás egy PDF-ből)

Ebben a példában végigvezetjük, hogyan használjuk a Textractot egy alkalmazásban a PDF-ből kinyert adatok lekérdezésére. Létre kell hoznia és konfigurálnia egy új csatlakozófüggvényt az AWS-csatlakozóban, valamint triggerlogikát kell használnia a csatlakozó futtatásához. Az adatok lekérdezése lehetővé teszi a kapott adatok megértését vagy módosítását.

A csatlakozófunkció részletei

Hozzon létre egy új csatlakozófüggvényt az AWS-konnektorban. A következő információk segítségével állítsa be a Inputs és Outputs értékeket.

Bemenetek File_url (Text) - a Tulipba feltöltött PDF-fájl URL címe Start_page (Int) - a PDF-fájl első oldala, amelyből kivonatolni kell End_page (Int) - a PDF-fájl utolsó oldala, amelyből kivonatolni kell.

Kimenetieredmények (objektumok) - a válaszok és lekérdezések objektumlistája.

AWS Connector Output Query Extraction

Alkalmazásindító

Az alkalmazásban a Triggerek hívja meg a csatlakozó funkciót, hogy fusson.

Hozzon létre egy új trigger-t a következő műveletekkel:

  1. Mentse a lekérdezéseket egy kérdőjelekkel (?) elválasztott szöveges változóba.
  2. Futtassa az URL-aláíró csatlakozót az URL aláírása funkcióval. A fájl bemenetének egy szöveges változónak kell lennie. Használja a FILETOTEXT (változó.File) kifejezést, ahol a "File" a változó neve, a fájl nevének szöveges karakterlánccá alakításához. Mentse a kimenetet egy változóba, és nevezze el ("SignedURL").
  3. Futtassa az AWS Textract-ot úgy, hogy a lekérdezéscsatlakozó funkció segítségével kivonja a szöveget egy PDF-ből az aláírási URL bemenet (file_url), a lekérdezés változó, valamint a PDF kezdő és befejező oldalai segítségével. Mentse a kimenetet egy új tömbbe.

AWS Connector Trigger Query Extraction


Megtalálta, amit keresett?

A community.tulip.co oldalon is megteheti, hogy felteszi kérdését, vagy megnézheti, hogy mások is szembesültek-e hasonló kérdéssel!


Hasznos volt ez a cikk?