Video: Slik bruker du Ordnett 2025
En åpen kildekode verktøy som er unikt nyttig i prediktiv analyse er Apache Mahout. Dette maskinlæringsbiblioteket inneholder omfattende versjoner av clustering, klassifisering, samarbeidsfiltrering og andre data-miningalgoritmer som kan støtte en storskala prediktiv analysemodell.
En svært anbefalt måte å behandle dataene som trengs for en slik modell, er å kjøre Mahout i et system som allerede kjører Hadoop. Hadoop utpeker en mastermaskin som orkestrerer de andre maskinene (for eksempel Kartmaskiner og Reduser maskiner) som er ansatt i sin distribuerte prosessering. Mahout skal installeres på denne masteren.
Tenk deg at du har stor mengde av streamede data - Google-nyhetsartikler - og du vil klynge etter emne, ved hjelp av en av klyngalgoritmer. Etter at du har installert Hadoop og Mahout, kan du utføre en av algoritmer - som K-betyr - på dataene dine.
Implementeringen av K-midler under Mahout bruker en MapReduce-tilnærming, noe som gjør at den er forskjellig fra den normale implementeringen av K-midler. Mahout deler K-middelalgoritmen i disse delprosedyrene:
-
KmeansMapper leser inntastingsdatasettet og tilordner hvert innspillingspunkt til nærmeste innledningsvis valgte midler (klusterrepresentanter).
-
KmeansCombiner prosedyren vil ta alle poster - par - produsert av KmeansMapper og produserer delvise beløp for å lette beregningen av de etterfølgende klyngerrepresentanter.
-
KmeansReducer mottar verdiene som produseres av alle deltakene (kombinatørene) for å beregne de faktiske sentroider av klyngene som er den endelige utgangen av K-midler.
-
KmeansDriver håndterer iterasjoner av prosessen til alle klynger har konvergert. Utgangen av en gitt iterasjon, en delvis clustering-utgang, brukes som inngang for neste iterasjon. Prosessen med å kartlegge og redusere datasettet til tildeling av poster og klynger viser ingen videre endringer.
Apache Mahout er et nylig utviklet prosjekt; dets funksjonalitet har fortsatt mye plass til å imøtekomme utvidelser. I mellomtiden bruker Mahout allerede MapReduce til å implementere klassifisering, clustering og andre maskinlære teknikker - og kan gjøre det i stor skala.
