Video: Friki-Retrogamer especial "Retromadrid 2017". #FRG #Frikiretrogamer #jandrolion 2025
Data mining har meget strenge krav til dataanalyse. De er ikke eksotiske, komplekse eller vanskelige krav å møte, men de er strenge. Figuren viser et utvalg av data som vises som en tabell i data mining programvare.
Hver rad representerer en pakke av fast eiendom. Informasjon om pakker av fast eiendom er organisert i kolonner. Den første kolonnen inneholder skatteidentifikasjonsnummeret (TAXKEY), den andre kolonnen inneholder den vurderte verdien av landet fra en tidligere vurdering (P_A_LAND), og så videre.
Hver oppføring i en rad gjelder en bestemt pakke land. Hver oppføring i en kolonne er den samme typen informasjon. Ingen rader eller kolonner blir tomme av grunner knyttet til stil og lesbarhet. Disse dataene er riktig organisert for å undersøke forskjeller mellom eiendomspakker.
Hvis du, i stedet for fast eiendom, undersøker folk, vil hver person bli representert av en rad i dataene, og alle detaljer om folket ville bli organisert i kolonner. Hvis du undersøker røntgenstråler i brystet, vil hver røntgenstråle være representert av en rad i dataene, og alle detaljer om røntgenstrålene vil bli organisert i kolonner.
I dataanalytikk terminologi, de tingene du studerer - tingene i radene - kalles tilfeller eller poster. Og detaljene om dem, som er i kolonnene, kalles variabler . Du vil også høre kolonnene kalt -felt, , spesielt i sammenheng med databaser.
Så datautvinning krever data organisert med en enkelt rad for hvert tilfelle og en enkelt kolonne for hver variabel. Mange kilder til data er allerede organisert på denne måten. Statistikere organiserer data på denne måten etter vane. Databasepersonell kan ikke bruke denne tilnærmingen for mye av sitt arbeid, men de forstår vanligvis hva du vil hvis du kaller det et flatbord.
Du finner subtile variasjoner i datastrukturen. Noen typer programvare bruker beskrivende informasjon i en header før dataene, for eksempel bestemte spesialformater tilknyttet Appelsin og Weka data-mining applikasjoner. Noen komplekse analyseprosedyrer har flere eller litt varierte krav (disse er ganske uvanlige). Men kjerne av dataene har fremdeles sakene i rader og variabler i kolonner.
