Hver er munurinn á ETL & Data Warehouse / Data Warehousing?


svara 1:

ETL er það ferli sem gögn eru sótt og hlaðin eftir vinnslu en gagnageymsla er staðurinn (svo sem gagnagrunna í kerfum eins og SQL Server, Oracle, AWS Redshift, MySQL osfrv.) Þar sem gögn eru geymd til greiningar / skýrslugerðar . Í gagnageymslu eru gögn hlaðin inn í gagnageymslu með ETL.

Lykilaðilar í atvinnurekstri taka ákvarðanir um betri framtíð fyrirtækisins út frá skýrslum sem eru að mestu búnar til úr gagnageymslu eða tilteknum gagnamörkum sem eru unnin úr gagnageymsluhúsi.

Dæmi um einfalt vörugeymsluverkefni er eftirfarandi:

Önnur skyld hugtök sem ber að skilja hér er eftirfarandi:

→ Gagnamörk: Gagnamörk eru hlutahluti gagnageymslunnar þar sem minni, efnisatriðin gögn eru geymd í því skyni að gera skjótari og auðveldari aðgang að tilteknum hópi notenda.

→ Sviðsetningarsvæði: Sviðsvið eða löndunarsvæði er biðminni sem er notað til gagnavinnslu við útdrátt, umbreytingu og hleðslu (ETL).

→ viðskiptagreind: Tæknidrifið ferli til að greina gögn og koma fram mögulegum upplýsingum til að hjálpa leiðtogum fyrirtækja, viðskiptaleiðtogum og öðrum endanotendum að taka upplýstrari viðskiptaákvarðanir.

→ ETL verkfæri: Tólin sem hjálpa okkur að framkvæma ETL ferlið, þ.e.a.s. H. Eftirfarandi 3 athafnir:

- Gagnaútdráttur - Útdráttur gagna frá einsleitum eða ólíkum gagnaheimildum

-Gagnaflutningur - breytir gögnum til að vista á réttu sniði eða uppbyggingu fyrir fyrirspurnir og greiningar tilgangi

- Hlaða gögn - Hleður þau á lokaáfangastað (gagnagrunn, nánar tiltekið, gagnageymsla, gagnamart eða gagnageymsla).

Tilvísanir: Wikipedia, Google leit


svara 2:

Útdráttur, umbreyting og hleðsla, stytt sem ETL, er ferlið við að samþætta gögn frá mismunandi uppsprettukerfum, beita umbreytingum í samræmi við viðskiptakröfur og hlaða þau síðan á stað sem er miðlæg geymsla fyrir öll viðskiptagögn sem skýrslur geta búið til. Hér eru skrefin:

  1. Útdráttur: Útdráttarhlutinn felur í sér öflun gagna frá ýmsum uppsprettukerfum svo sem flatum skrám, CSV-skjölum, gagnagrunnum, gagnagrunnum frá öðrum kerfum, vefþjónustum o.s.frv. Þeir eru frekar samþættir og færðir í gagnagrunn sem færir gögn frá mismunandi áttum í svipaða uppbyggingu. Margir arkitektar benda á að það sé sviðsetning gagnagrunns í greininni. Umbreyting: Nú er verið að umbreyta gögnum. Mismunandi umbreytingum er beitt. Þetta þýðir að gögnunum er breytt í form sem auðveldar skýrslugerð. Ýmsir útreikningar eru gerðir sem einfalda gagnagreiningu (sem er endanlegt markmið BI), t.d. Hreinsun gagna er einnig hluti af þessu ferli. Hleðsla: Umbreyttu gögnin eru hlaðin inn í miðlæga geymslu þar sem gögnum er flett upp vegna skýrslugerðar. Algengt er að þetta sé vísað til gagnageymslu. Þrátt fyrir að þetta veltur á arkitektúr BI kerfisins, getur það einnig verið gagnageymsla eða gagnamart. Þegar OLAP-kerfi eru notuð eru gögnin afgreidd í OLAP-teningum á ákveðnum tímum.

Þetta ETL ferli undirbýr gögnin þín fyrir skýrslugerð og geymir þau á einum stað (DW, OLAP Cube) sem eru byggð upp fyrir greiningar og skýrslugerð gagna.

Nú hef ég minnst á Data Warehouse nokkrum sinnum í lýsingunni hér að ofan. Hvað er gagnageymsla? Þú getur fundið hefðbundna skilgreiningu á gagnageymslu á Google eða í Oracle skjölunum. Á einföldu tungumáli er DataWarehouse samt:

  1. Stór miðlæg gagnagerð (venslagagnagrunnur) sem er mjög stór vegna þess að hún inniheldur mikið af gögnum. Það er byggð í staðreyndum / víddartöflum og hentar vel til skýrslugerðar, allt eftir kröfum um skýrslugerð og greiningar fyrirtækja, inniheldur öll söguleg gögn og gögn eru uppfærð reglulega með því að nota ETL störf á hverju kvöldi (sjálfvirk verklag / kóðar sem skilgreina ETL rökfræði) þetta hlaðinn.

Svo þetta er gagnageymsla þín. Allt ferlið við að sækja gögn frá ýmsum uppsprettukerfum og beina því í gegnum ETL til að loksins flytja þau í gagnageymsluna og gera þau aðgengileg til skýrslugerðar kallast gagnageymsla. Almennt eru OLAP-teningur einnig taldir hluti af gagnageymsluaðgerðinni, þó að margir séu ósammála, en þetta er óaðskiljanlegur hluti og ekki er hægt að aðgreina þá frá gagnageymsluaðgerðinni.

Láttu mig vita hvort það er enn rugl.


svara 3:

Útdráttur, umbreyting og hleðsla, stytt sem ETL, er ferlið við að samþætta gögn frá mismunandi uppsprettukerfum, beita umbreytingum í samræmi við viðskiptakröfur og hlaða þau síðan á stað sem er miðlæg geymsla fyrir öll viðskiptagögn sem skýrslur geta búið til. Hér eru skrefin:

  1. Útdráttur: Útdráttarhlutinn felur í sér öflun gagna frá ýmsum uppsprettukerfum svo sem flatum skrám, CSV-skjölum, gagnagrunnum, gagnagrunnum frá öðrum kerfum, vefþjónustum o.s.frv. Þeir eru frekar samþættir og færðir í gagnagrunn sem færir gögn frá mismunandi áttum í svipaða uppbyggingu. Margir arkitektar benda á að það sé sviðsetning gagnagrunns í greininni. Umbreyting: Nú er verið að umbreyta gögnum. Mismunandi umbreytingum er beitt. Þetta þýðir að gögnunum er breytt í form sem auðveldar skýrslugerð. Ýmsir útreikningar eru gerðir sem einfalda gagnagreiningu (sem er endanlegt markmið BI), t.d. Hreinsun gagna er einnig hluti af þessu ferli. Hleðsla: Umbreyttu gögnin eru hlaðin inn í miðlæga geymslu þar sem gögnum er flett upp vegna skýrslugerðar. Algengt er að þetta sé vísað til gagnageymslu. Þrátt fyrir að þetta veltur á arkitektúr BI kerfisins, getur það einnig verið gagnageymsla eða gagnamart. Þegar OLAP-kerfi eru notuð eru gögnin afgreidd í OLAP-teningum á ákveðnum tímum.

Þetta ETL ferli undirbýr gögnin þín fyrir skýrslugerð og geymir þau á einum stað (DW, OLAP Cube) sem eru byggð upp fyrir greiningar og skýrslugerð gagna.

Nú hef ég minnst á Data Warehouse nokkrum sinnum í lýsingunni hér að ofan. Hvað er gagnageymsla? Þú getur fundið hefðbundna skilgreiningu á gagnageymslu á Google eða í Oracle skjölunum. Á einföldu tungumáli er DataWarehouse samt:

  1. Stór miðlæg gagnagerð (venslagagnagrunnur) sem er mjög stór vegna þess að hún inniheldur mikið af gögnum. Það er byggð í staðreyndum / víddartöflum og hentar vel til skýrslugerðar, allt eftir kröfum um skýrslugerð og greiningar fyrirtækja, inniheldur öll söguleg gögn og gögn eru uppfærð reglulega með því að nota ETL störf á hverju kvöldi (sjálfvirk verklag / kóðar sem skilgreina ETL rökfræði) þetta hlaðinn.

Svo þetta er gagnageymsla þín. Allt ferlið við að sækja gögn frá ýmsum uppsprettukerfum og beina því í gegnum ETL til að loksins flytja þau í gagnageymsluna og gera þau aðgengileg til skýrslugerðar kallast gagnageymsla. Almennt eru OLAP-teningur einnig taldir hluti af gagnageymsluaðgerðinni, þó að margir séu ósammála, en þetta er óaðskiljanlegur hluti og ekki er hægt að aðgreina þá frá gagnageymsluaðgerðinni.

Láttu mig vita hvort það er enn rugl.