Andmetoru (data pipeline) on süsteem või protsess, mis liigutab andmeid ühest kohast teise, et need jõuaksid analüüsi, aruandlusesse või andmelattu.
Võrdlus toruga ongi pädev. Andmetoru kannab andmeid nende allikast vajalikku sihtkohta, kus neid töödeldakse ja kasutatakse või hoitakse.
Peamised sammud andmetorus
1. Andmete kogumine (ingest). Andmeid võetakse eri allikatest: andmebaasid, veebiserverid, sensorid, failid.
2. Andmete puhastamine ja töötlemine (transform). Dubleerimised eemaldatakse, valeandmed parandatakse, andmed viiakse sobivale kujule.
3. Andmete laadimine (load). Töödeldud andmed laetakse sihtkohta: andmebaasi, andmelattu, andmehoidlasse, analüüsiplatvormile.
Ülal toodud andmetoru kasutas ETL-mudelit (Extract, Transform, Load). Näitena kasutame ettevõtet, mis kasutab veebimüügi andmeid:
- Extract: loeb andmed e-poe andmebaasist
- Transform: arvutab iga ostu koguhinna, kontrollib puuduvad väärtused
- Load: laeb andmed andmelattu tähtskeemi faktitabelisse
Miks on andmetoru oluline?
- Tagab, et andmed jõuavad õigeaegselt analüüsi.
- Andmed on korrastatud ja kvaliteetsed.
- Võimaldab automatiseerida suurte andmemahtude töötlemist.
Kirjutamisel on kasutatud tehisaru abi.