Slik konverterer du Raw Data til en Predictive Analysis Matrix - dummies

Video: Nassim Haramein 2015 - The Connected Universe 2025

Før du kan trekke ut grupper av lignende dataposter fra datasettet for ditt prediktive analyseprosjekt, kan det hende du må representere dataene dine i en tabellform format kjent som en datamatriks . Dette er et preprocessing-trinn som kommer før dataklynging.

Slik lager du en prediktiv analysematrise av vilkår i dokumenter

Anta at datasettet du skal analysere, finnes i et sett med Microsoft Word-dokumenter. Det første du må gjøre er å konvertere settet av dokumenter til en datamatrise. Flere kommersielle og åpne kildeverktøy kan håndtere oppgaven, og produsere en matrise, der hver rad tilsvarer et dokument i datasettet. Eksempler på disse verktøyene inkluderer RapidMiner og R text-mining pakker.

A dokument er i utgangspunktet et sett med ord. Et begrep er et sett med ett eller flere ord.

Hvert sikt som et dokument inneholder, blir nevnt enten en eller flere ganger i samme dokument. Antall ganger et begrep er nevnt i et dokument, kan representeres av termfrekvens (TF), en numerisk verdi.

Vi bygger matrisen av vilkårene i dokumentet som følger:

Vilkårene som vises i alle dokumenter er oppført over øverste rad.
Dokumenttittler er oppført i venstre kolonne
Tallene som vises i matrikscellene, samsvarer med hvert termins frekvens.

For eksempel er dokument A representert som sett med tall (5, 16, 0, 19, 0, 0.) hvor 5 tilsvarer antall ganger uttrykket predictive analytics gjentas, 16 tilsvarer tallet til ganger datavitenskap gjentas, og så videre. Dette er den enkleste måten å konvertere et sett med dokumenter til en matrise.

Prediktiv Analytics	Datamaskinfag	Læring	Klynger	2013	Antropologi
Dokument A	5	16	0 < 19	0	0	Dokument B
8	6	2	3	0	0	Dokument C
0 < 5	2	3	3	9	Dokument D	1
9	13	4	6	7 > Dokument E	2	16
16	0	2	13	Dokument F	13	0
19	16 > 4	2	Grunnleggende om valg av prediktiv analyse sikt	En utfordring i gruppering av tekstdokumenter bestemmer hvordan du velger de beste vilkårene for å representere alle dokumenter i samlingen. Hvor viktig et begrep er i en samling dokumenter kan beregnes på forskjellige måter.	Hvis du for eksempel teller antall ganger et begrep gjentas i et dokument og sammenligner det totale med hvor ofte det gjenoppstår i hele samlingen, får du en følelse av begrepet betydning i forhold til andre vilkår.	Basert på den relative betydningen av et begrep på frekvensen i en samling, kalles ofte

vekting

. Vekten du tildeler kan baseres på to prinsipper:

Vilkår som vises flere ganger i et dokument, blir favorisert over vilkår som bare vises én gang.

Vilkår som brukes i relativt få dokumenter, er favorisert over vilkår som er nevnt i alle dokumenter. Hvis (for eksempel) begrepet tall

er nevnt i alle dokumenter i datasettet, kan du kanskje ikke vurdere å gi den nok vekt til å ha en egen kolonne i matrisen.
På samme måte, hvis du arbeider med et datasett for brukere av et online sosialt nettverk, kan du enkelt konvertere datasettet til en matrise. Bruker-ID eller navn vil inneholde radene; kolonnene vil vise funksjoner som best beskriver disse brukerne.