Vattentortyr - En analysanalogi går en bro för långt

droppanalys

Data, som vatten, finns i många former. Det mänskliga sinnet har utvecklats för att filtrera bort de flesta data som kommer vår väg eftersom det helt enkelt är så mycket av det.

När du öppnar dina ögon och öron finns data överallt. Väggens färg, ljudet från luftkonditioneringen och lukten av grannens kaffe behandlas som fukt. Vattnet är i luften hela tiden men det är inte användbart att ägna stor uppmärksamhet åt det.

När vatten kondenseras till dimma tvingar det dig att se det och gör det svårare att förstå världen omkring dig. Ofullständiga datamängder, skadad data, dålig vetenskap, falska slutsatser och kognitiv bias gör att du tappar vägen i dimman.

Data faller som regn. När det bara är lite är det vilt otillfredsställande - precis tillräckligt för att göra din bil smutsig och förvirra konversationen. Du upptäcker att du torkar bort platsen på dina glasögon när någon spottar någon slumpmässig datapunkt, plockad från någon dunkel källa.

  • Gammalt vatten i en grund damm är farligt. Data som samlas in från en opålitlig leverans, varken rengjord eller normaliserad och lämnas för att växa stillastående, kan lätt leda till felaktiga slutsatser.
  • A konstant sippra vatten kan vara tillräckligt för att fylla en matsal eller upprätthålla ett skogssystem. Bara tre datapunkter (antalet skickade e-postmeddelanden, kontra öppnade, kontra klickade) kan upprätthålla ett marknadsföringsprogram.
  • A hälsosammare flöde data i form av en liten bäck kan användas för att bada. Ett kontinuerligt dataflöde möjliggör benchmarking och historisk jämförelse. Optimering av målsidan kan åstadkommas med stadig konverteringsdata.
    A blygsam flod kan driva en kvarn för att såga trä eller slipa vete. En rekommendationsmotor behöver bara ett pålitligt bidrag från en handfull bifloder för att öka värdet på kundvagnar.
  • A vattenfall kan driva ett enormt vattenhjul och ett tillräckligt inflöde av information kan driva ett dynamiskt innehållssystem i realtid.
  • A ån det är tillräckligt brett och djupt kan stödja en hel transportindustri. Tillräckligt med data kan flyta pråmar och lastfartyg i form av en samling kakor från reklamnätverk, lojalitetskortprogramdataaggregat och datamäklare.

När data kommer i förväntade mängder vid förväntade tider kan den fångas, kanaliseras och tas i bruk. Bevattningssystem, dammar och reservoarer ger en känsla av kontroll och möjliggör byggande av en ständigt bredare infrastruktur med kanaler, lås och dammar. Datalager har byggts på mindre pålitliga flöden.

Renlighet är nästa gudomlighet

Rent vatten är avgörande för livets framgång, bevattning, drivande kraftverk etc. Definitionen av "rent" kan förändras för ändamålet; det är OK om det finns alger i vatten som kyler ett kraftverk och det är inte acceptabelt om det finns mer än 10 delar per miljard arsenik i dricksvatten.

Uppgifterna är desamma. I en direktreklamapplikation är det oväsentligt om du har en persons titel (herr, fru, fru) ... om du inte skickar en post till läkare. Men smutsiga data kommer att ge dig upp varje gång.

Som USA: s Chief Data Scientist, DJ Patil, uttryckte det vid ett CTO-toppmöte i första omgången, ”Om du inte funderar på hur du ska hålla dina data rena från början, är du f ^ ¢ & redigerad. Jag garanterar det. Att försöka städa upp det efter det tar åtminstone månader. ”

Om du värmer vatten till kokpunkten kan det driva en hel industriell revolution. Data verkar göra samma sak. Från det ögonblick som datorer kunde lagra och beräkna, har data samlats in så snabbt som lagringsutrustningen kunde skapas för att göra det.

Datasjön

När data från dessa bifloder sipprar genom kvarnarnas motorer hamnar allt i sjön, bakom dammen. Eftersom data släpps ut på ett kontrollerat sätt driver den databasernas turbiner; de stora motorerna för databehandling med namn som Google och Facebook. Det blir ingen torka här.

Och slutligen finns det en djup pool av vatten som väntar på att analytikern ska dyka i. Dykutrustning och spjutpistol i handen, analytikern undersöker djupet, kartlägger ny mark och upptäcker nya arter. Det är en mycket spännande tid att vara en datautforskare.

Det är därför så många av dem har dykt upp för toppmötet eMetrics sedan 2002. Nästa tillfälle är i Boston den 27 september till 1 oktober 2015.

eMetrics Summit -registrering

En bro för mycket

Och vad med datakraften för att hugga nästa Grand Canyon? Vad sägs om glacial smältning av strukturerade data? Hur behandlar vi avloppsvatten i en värld som blir mer och mer medveten om privatlivet?

Det är frågor för en annan gång och vatten under bron.

Vad tror du?

Den här sidan använder Akismet för att minska spam. Läs om hur din kommentardata behandlas.