Video: Hadoop Processing Frameworks 2025
Maskinens læringsdisiplin har en rik og omfattende katalogkatalog. Mahout bringer en rekke statistiske verktøy og algoritmer til bordet, men det tar bare en brøkdel av disse teknikkene og algoritmer, da oppgaven med å konvertere disse modellene til et MapReduce-rammeverk er en utfordrende.
Over tid vil Mahout sikkert fortsette å utvide sin statistiske verktøykasse, men inntil da må alle dataforskere og statistikere der ute være oppmerksomme på alternativ statistisk modelleringsprogramvare - det er her R kommer inn.
R-språket er et kraftig og populært open-source statistisk språk og utviklingsmiljø. Den tilbyr et rikt analysekosystem som kan bistå datavitenskapere med datautforskning, visualisering, statistisk analyse og databehandling, modellering, maskinlæring og simulering. R-språket brukes vanligvis av statistikere, data minearbejdere, dataanalytikere og (i dag) dataforskere.
R-programmører har tilgang til Comprehensive R Archive Network (CRAN) biblioteker som fra og med tidspunktet for denne skrivelsen inneholder over 3000 statistiske analysepakker. Disse tilleggene kan trekkes inn i et hvilket som helst R-prosjekt, og gir rike analytiske verktøy for å kjøre klassifisering, regresjon, clustering, lineær modellering og mer spesialiserte maskinlæringsalgoritmer.
Språket er tilgjengelig for de som er kjent med enkle datastrukturtyper - vektorer, skalarer, datarammer (matriser) og lignende - vanligvis brukt av statistikere og programmerere.
Ut av boksen er en av de store fallgruvene med bruk av R-språket den mangelen på støtte det gir for å kjøre samtidige oppgaver. Statistiske språkverktøy som R utmerker seg ved grundig analyse, men mangler skalerbarhet og innfødt støtte for parallelle beregninger.
Disse systemene er ikke-distribusjonsbare og ble ikke utviklet for å skaleres for den moderne petabyte-verdenen med store data. Forslag til å overvinne disse begrensningene må utvide Rs omfang utenom iminnet lasting og enkeltkomputer-utførelsesmiljøer, samtidig som man opprettholder Rs flair for lett distribuerbare statistiske algoritmer.
