Hvordan du bruker Apache Mahout for Predictive Analytics - dummies

Video: Slik bruker du Ordnett 2025

En åpen kildekode verktøy som er unikt nyttig i prediktiv analyse er Apache Mahout. Dette maskinlæringsbiblioteket inneholder omfattende versjoner av clustering, klassifisering, samarbeidsfiltrering og andre data-miningalgoritmer som kan støtte en storskala prediktiv analysemodell.

En svært anbefalt måte å behandle dataene som trengs for en slik modell, er å kjøre Mahout i et system som allerede kjører Hadoop. Hadoop utpeker en mastermaskin som orkestrerer de andre maskinene (for eksempel Kartmaskiner og Reduser maskiner) som er ansatt i sin distribuerte prosessering. Mahout skal installeres på denne masteren.

Tenk deg at du har stor mengde av streamede data - Google-nyhetsartikler - og du vil klynge etter emne, ved hjelp av en av klyngalgoritmer. Etter at du har installert Hadoop og Mahout, kan du utføre en av algoritmer - som K-betyr - på dataene dine.

Implementeringen av K-midler under Mahout bruker en MapReduce-tilnærming, noe som gjør at den er forskjellig fra den normale implementeringen av K-midler. Mahout deler K-middelalgoritmen i disse delprosedyrene:

KmeansMapper leser inntastingsdatasettet og tilordner hvert innspillingspunkt til nærmeste innledningsvis valgte midler (klusterrepresentanter).
KmeansCombiner prosedyren vil ta alle poster - par - produsert av KmeansMapper og produserer delvise beløp for å lette beregningen av de etterfølgende klyngerrepresentanter.
KmeansReducer mottar verdiene som produseres av alle deltakene (kombinatørene) for å beregne de faktiske sentroider av klyngene som er den endelige utgangen av K-midler.
KmeansDriver håndterer iterasjoner av prosessen til alle klynger har konvergert. Utgangen av en gitt iterasjon, en delvis clustering-utgang, brukes som inngang for neste iterasjon. Prosessen med å kartlegge og redusere datasettet til tildeling av poster og klynger viser ingen videre endringer.

Apache Mahout er et nylig utviklet prosjekt; dets funksjonalitet har fortsatt mye plass til å imøtekomme utvidelser. I mellomtiden bruker Mahout allerede MapReduce til å implementere klassifisering, clustering og andre maskinlære teknikker - og kan gjøre det i stor skala.