Bilde Klassifisering med Hadoop - dummies - Personlig finansiering 2024

Bildeklassifisering krever En betydelig mengde databehandlingsressurser, som imidlertid har begrenset omfanget av distribusjon. Bildeklassifisering er et hett tema i Hadoop-verdenen fordi ingen vanlig teknologi var i stand til - til Hadoop kom sammen - å åpne dører for denne typen dyre behandling i så stor og effektiv skala.

Bildeklassifisering starter med ideen om at du bygger et treningssett og at datamaskiner lærer å identifisere og klassifisere hva de ser på. På samme måte som det å ha flere data bidrar til å bygge bedre svindeldeteksjons- og risikomodeller, hjelper det også systemer for å bedre klassifisere bilder.

I dette brukssaken refereres dataene til treningssettet, samt modellene er klassifiserende. Classifiers gjenkjenner funksjoner eller mønstre i lyd, bilde eller video og klassifiser dem på riktig måte. Klassifikatorer er bygget og iterativt raffinert fra treningssett slik at deres presisjonspoeng (et mål for nøyaktighet) og tilbakekallingspoeng (et mål for dekning) er høye. Hadoop passer godt til bildeklassifisering fordi den gir et massivt parallelt behandlingsmiljø for ikke bare å opprette klassifiseringsmodeller (iterating over treningssett), men gir også nesten ubegrenset skalerbarhet for å behandle og kjøre disse klassifiseringene på tvers av massive sett med ustrukturerte datamengder.

Tenk på multimediekilder som YouTube, Facebook, Instagram og Flickr - alt er kilder til ustrukturerte binære data. Figuren viser en måte at du kan bruke Hadoop til å skalere behandlingen av store mengder lagrede bilder og video for multimedia semantisk klassifisering.

Du kan se hvordan alle konseptene knyttet til Hadoop-behandlingsrammen blir brukt på disse dataene. Legg merke til hvordan bilder lastes inn i HDFS. Klassifiseringsmodellene, bygget over tid, blir nå brukt på de ekstra bildegenskapskomponentene i kartfasen av denne løsningen. Som du ser i nederste høyre hjørne, består utgangen av denne behandlingen av bildeklassifiseringer som spenner fra tegneserier til sport og steder, blant annet.

Hadoop kan også brukes til lyd- eller stemmeanalyser. En sikkerhetsindustri klient vi jobber med skaper et lyd klassifiseringssystem for å klassifisere lyder som høres via akustisk berikede fiberoptiske kabler som ligger rundt omkretsen av atomreaktorer.

Dette systemet vet for eksempel hvordan man nesten umiddelbart klassifiserer hvisken av vinden i forhold til hvisken av en menneskelig stemme eller for å skille lyden av menneskelige fotspor som går i perimeterparkene fra dyrelivet.

Denne beskrivelsen kan ha en slags

Star Trek følelse av det, men du kan nå se levende eksempler. Faktisk gjør IBM det offentlige et av de største bildeklassifiseringssystemene i verden, via IBM Multimedia Analysis and Retrieval System (IMARS). Her er resultatet av et IMARS-søk for begrepet

alpint skisport. På toppen av figuren kan du se resultatene fra klassifiseringene som er kartlagt til bildesettet som ble behandlet av Hadoop, sammen med en tilhørende tagsky. Merk den mer grovde definerte overordnede klassifiseringen, i motsetning til den mer granulære. Faktisk merk merke til flere klassifiseringsklasser: ruller inn, som ruller inn - alle genereres automatisk av klassifiseringsmodellen, bygget og scoret med Hadoop.

Ingen av disse bildene har noen ekstra metadata. Ingen har åpnet iPhoto og merket et bilde som en vintersport for å få det til å dukke opp i denne klassifiseringen. Det er vinter sport klassifiserer som ble bygget for å gjenkjenne bildegenskaper og egenskaper av sport som spilles i en vinterinnstilling.

Bilde klassifisering har mange applikasjoner, og å kunne utføre denne klassifiseringen i massiv skala ved å bruke Hadoop åpner flere muligheter for analyse, da andre applikasjoner kan bruke klassifikasjonsinformasjonen generert for bildene.

Se på dette eksemplet fra helsevesenet. Et stort helseforetak i Asia var fokusert på å levere helsetjenester via mobilklinikker til en landbefolkning fordelt på en stor landmasse. Et betydelig problem som byrået møtte var den logistiske utfordringen ved å analysere medisinske bildedata som ble generert i sine mobile klinikker.

En radiolog er en knapp ressurs i denne delen av verden, så det var fornuftig å overføre de medisinske bildene elektronisk til et sentralt punkt og få en hær av leger å undersøke dem. Legene som undersøkte bildene ble imidlertid raskt overbelastet.

Byrået jobber nå med et klassifikasjonssystem for å identifisere mulige forhold for effektivt å gi forslag til legene om å verifisere. Tidlig testing har vist denne strategien for å redusere antall tapte eller unøyaktige diagnoser, sparer tid, penger og - mest av alt - lever.