Innholdsfortegnelse:
Video: Nassim Haramein 2015 - The Connected Universe 2025
Før du kan trekke ut grupper av lignende dataposter fra datasettet for ditt prediktive analyseprosjekt, kan det hende du må representere dataene dine i en tabellform format kjent som en datamatriks . Dette er et preprocessing-trinn som kommer før dataklynging.
Slik lager du en prediktiv analysematrise av vilkår i dokumenter
Anta at datasettet du skal analysere, finnes i et sett med Microsoft Word-dokumenter. Det første du må gjøre er å konvertere settet av dokumenter til en datamatrise. Flere kommersielle og åpne kildeverktøy kan håndtere oppgaven, og produsere en matrise, der hver rad tilsvarer et dokument i datasettet. Eksempler på disse verktøyene inkluderer RapidMiner og R text-mining pakker.
A dokument er i utgangspunktet et sett med ord. Et begrep er et sett med ett eller flere ord.
Hvert sikt som et dokument inneholder, blir nevnt enten en eller flere ganger i samme dokument. Antall ganger et begrep er nevnt i et dokument, kan representeres av termfrekvens (TF), en numerisk verdi.
Vi bygger matrisen av vilkårene i dokumentet som følger:
-
Vilkårene som vises i alle dokumenter er oppført over øverste rad.
-
Dokumenttittler er oppført i venstre kolonne
-
Tallene som vises i matrikscellene, samsvarer med hvert termins frekvens.
For eksempel er dokument A representert som sett med tall (5, 16, 0, 19, 0, 0.) hvor 5 tilsvarer antall ganger uttrykket predictive analytics gjentas, 16 tilsvarer tallet til ganger datavitenskap gjentas, og så videre. Dette er den enkleste måten å konvertere et sett med dokumenter til en matrise.
Prediktiv Analytics | Datamaskinfag | Læring | Klynger | 2013 | Antropologi | |
---|---|---|---|---|---|---|
Dokument A | 5 | 16 | 0 < 19 | 0 | 0 | Dokument B |
8 | 6 | 2 | 3 | 0 | 0 | Dokument C |
0 < 5 | 2 | 3 | 3 | 9 | Dokument D | 1 |
9 | 13 | 4 | 6 | 7 > Dokument E | 2 | 16 |
16 | 0 | 2 | 13 | Dokument F | 13 | 0 |
19 | 16 > 4 | 2 | Grunnleggende om valg av prediktiv analyse sikt | En utfordring i gruppering av tekstdokumenter bestemmer hvordan du velger de beste vilkårene for å representere alle dokumenter i samlingen. Hvor viktig et begrep er i en samling dokumenter kan beregnes på forskjellige måter. | Hvis du for eksempel teller antall ganger et begrep gjentas i et dokument og sammenligner det totale med hvor ofte det gjenoppstår i hele samlingen, får du en følelse av begrepet betydning i forhold til andre vilkår. | Basert på den relative betydningen av et begrep på frekvensen i en samling, kalles ofte |
vekting
. Vekten du tildeler kan baseres på to prinsipper:
Vilkår som vises flere ganger i et dokument, blir favorisert over vilkår som bare vises én gang.
Vilkår som brukes i relativt få dokumenter, er favorisert over vilkår som er nevnt i alle dokumenter. Hvis (for eksempel) begrepet tall
-
er nevnt i alle dokumenter i datasettet, kan du kanskje ikke vurdere å gi den nok vekt til å ha en egen kolonne i matrisen.
-
På samme måte, hvis du arbeider med et datasett for brukere av et online sosialt nettverk, kan du enkelt konvertere datasettet til en matrise. Bruker-ID eller navn vil inneholde radene; kolonnene vil vise funksjoner som best beskriver disse brukerne.
