Automatické vytěžování dokumentů (respektive dat z dokumentů) je jedním ze zásadních kroků digitalizace dokumentů. Můžeme jej vlastně považovat za krok nejzásadnější, protože zpravidla ušetří nejvíce času a má tak nejvýraznější podíl na snížení nákladů celého procesu. Vytěžovat lze faktury, objednávky, pokladní a jiné účetní doklady, daňová přiznání a mnoho jiných typů dokumentů. Mezi nejčastěji vytěžované dokumenty v životě běžné firmy patří faktury přijaté od dodavatelů.

 

Strukturované, polostrukturované a nestrukturované dokumenty

Vytěžované dokumenty či doklady mohou mít různou strukturu (není tedy nutné předem specifikovat šablonu pro jednotlivé typy dokladů).

Strukturované dokumenty

Strukturovaným dokumentem rozumíme dokument členěný do uspořádaných částí, např. kapitol a podkapitol. Typickým představitelem strukturovaných dokumentů jsou různé formuláře. Strukturované dokumenty mají obecně nejvyšší úroveň přesnosti vytěžování dat, díky čemuž vyžadují nejmenší počet vzorových dokumentů. Významný vliv na přesnost zpracování má však vzhled formuláře.

Polostrukturované dokumenty

Dalším typem dokumentů jsou dokumenty polostrukturované. Ty mívají vložené tabulky (např. řádkové položky faktury), více tabulek v dokumentu nebo tabulky v tabulkách. Díky těmto prvkům pak obecně vykazují nižší přesnost při vytěžování. Typickým představitelem polostrukturovaných dokumentů jsou faktury, objednávky, nabídky či dodací listy.

Nestrukturované dokumenty

Mezi nestrukturované dokumenty pak patří dopisy, e-maily (respektive jejich obsah) či smlouvy. Tyto typy dokumentů jsou nejnáročnější pro automatické vytěžování obsahu. Nicméně dnešní technologie jsou schopny z obsahu rozpoznat, zda vám zákazník píše se stížností, objednávkou či jiným požadavkem, čeho se daná stížnost či požadavek týká a zároveň jakou povahu samotné sdělení má.

 

Automatické vytěžování dat z faktur přijatých

Vstup dokumentu do procesu

Abychom byli schopni (například) fakturu přijatou vytěžit, musí vstupovat do procesu již v elektronické podobě. Standardem jsou formáty TIF, PDF či JPG. Je-li faktura pouze v listinné podobě, je nutné ji digitalizovat - tedy převést do elektronické podoby. K tomuto účelu nejčastěji slouží skener či například fotoaparát mobilních telefonů.

Automatické vytěžení dat

Vytěžení dat z faktury zajistí tzv. OCR software, jenž automaticky rozpozná a přepíše údaje, které by jinak bylo nutné přepisovat ručně (IČ, variabilní symbol, č. účtu, datum přijetí, částka atd.). Tato data jsou zároveň kontrolována. Správný atribut bývá zpravidla označen zeleně, chybně zadaný atribut pak červeně. Zároveň u něj software vypíše důvod, proč jej označil jako chybný (např. špatné číslo účtu). OCR software se pomocí strojového učení učí znát vaši konkrétní agendu a výsledky vytěžování jsou tak průběžně zdokonalovány.

Výstup dokumentu

Získaná data vychází z OCR software ve formátu XML a PDF.

Správa dokumentů

Pro správu dokumentace je možné využít některé CRM (Customer Relationship Management) či většinu ERP (Enterprise Resource Planning) nebo DMS aplikací (Document Management System). DMS zajišťuje komplexní správu dokumentů, umožňuje jejich inteligentní vyhledávání a ukládání a usnadňuje tak workflow dokumentů.

Řešení Docspoint slouží jako elektronický archiv daňových dokladů.

Archivujte a spravujte své účetní doklady online, bez papírů a v souladu s českou legislativou. Docspoint spolupracuje s účetním software POHODA a umožňuje snadný import připravených dokladů.