Begreppsförvirring
av Christian Johansson Forum 2016-02, sida 27, 25.02.2016
Big data fortsätter sitt segertåg och man kan fråga sig vad det är som ger en sådan genomslagskraft åt analysen av stora datamängder.
Ekonomen Dan Ariely från Duke University har en förklaring: big data är som tonårssex, alla pratar om det, ingen vet riktigt vad det är, alla tror att alla andra gör det och därför säger man att man själv också gör det.
[caption id=“attachment_5793” align=“alignright” width=“201”] Christian Johansson är lektor i statistik vid Svenska handelshögskolan i Vasa.[/caption]
Big data har tillfört mycket nytt när det handlar om hantering av enorma, snabbt flödande och ostrukturerade datamängder. Samtidigt är det också mycket gammal skåpmat (i termens allra bästa bemärkelse) som nu paketeras om och säljs i en sexigare förpackning.
För egen del har jag skamlöst ridit på big data-vågen genom att införa en kurs i data mining vid vår högskola. Även här kunde man märka viss förvirring. Vad handlar kursen om? Är det här nu big data, är det predictive analytics, eller något annat? Till råga på allt innehöll kursbokens titel en annan modefras, nämligen business intelligence.
Realtid. Data mining har cirka 20 år på nacken, med rötter inom maskininlärning och statistik. Informationsutvinning uppstod ur ett behov – inte minst inom affärsvärlden – av att snabbt analysera växande datamaterial på ett mindre strikt vis jämfört med traditionell statistisk analys.
Data mining handlar om att genomsöka stora mängder data för att identifiera meningsfulla mönster och samband.
Grovt förenklat kan man jämföra statistik och data mining så här: Inom statistiken har man relativt sett lite data, vilket gör det viktigt att krama varje uns av information ur materialet. En bra statistisk modell är statistiskt signifikant och ger en bra beskrivning av datamaterialet. Inom data mining finns däremot data i överflöd, ofta används en del av materialet för att ”träna” en modell och en annan del för att utvärdera modellen. En bra data mining-modell är därför bra på att beskriva nya data.
Quick and dirty. En annan definition på data mining är att det handlar om statistisk analys som görs storskaligt, snabbt och lätt – det vill säga utgående från en väldigt enkel logik. Ett exempel är den så kallade nearest neighbor-metoden. Som namnet säger: vill man veta något om en enhet så tittar man på dess närmaste grannar. Anta att man vill estimera sannolikheten att en kund ska nappa på ett specialerbjudande. Då tittar man helt enkelt i sin databas på hur liknande kunder reagerat i motsvarande situationer.
Den 46-åriga kvinnan från Korsholm som varit kund i mindre än ett år kan kanske fungera som modell för den 53-åriga kvinnan från Vasa, som varit kund 1–3 år. Om variablerna är av relevans för kundbeteende kan vi förutspå utfallet åtminstone med viss precision. Det kan förstås vara riskabelt att bara jämföra med en person, antagligen är det bättre att välja de fem, tio eller femton närmaste grannarna.
Ge akt på trender. Det bästa är en lämplig kompromiss, ty med för få grannar riskerar vi att fånga upp individuella egenskaper som inte kan generaliseras, och med alltför många grannar riskerar vi att missar lokala trender i datamaterialet.
Metoden dyker upp i många intressanta tillämpningar, till exempel väderprognoser. I många fall ges noggranna väderprognoser enbart för lite större städer, men utgående från nearest neighbor-principen kan man lätt skapa en prognos för vilken lite by som helst genom att väga samman prognoserna för närliggande städer.
En annan tillämpning är identifiering av musik. Appar som Shazam kan genom att snappa upp ett stycke ur en låt ge information om titel, artist, album med mera. Det hela verkar som magi, men appen omvandlar musiken till ett så kallat akustiskt fingeravtryck där olika variabler mäts utgående från det ljud som fångas upp. Variabelvärdena jämförs med en databas och den närmaste grannen returneras.
Ny terräng. Data mining handlar alltså om analys av stora datamaterial, och kan utnyttjas vid dataanalys i stor skala. För business intelligence, det vill säga datadrivet beslutsfattande, gäller samma sak. Med predictive analytics avses tekniker för att analysera nuvarande och historiska data för att göra prognoser för framtiden. Data mining är i allra högsta grad predictive analytics.
Visst låter det kristallklart? Bortsett från att det inte finns någon hundraprocentig konsensus gällande definitionerna ovan. Frågar ni någon annan än mig så får ni antagligen varierande svar…?