Utviklingen av distribuert databehandling for store data - dummies

Video: Statistical Programming with R by Connor Harris 2025

Bak alle viktige trender i løpet av det siste tiåret, inkludert serviceorientering, cloud computing, virtualisering og store data, er en grunnleggende teknologi kalt distribuert databehandling. Enkelt sagt, uten å distribuere databehandling, ville ingen av disse fremskrittene være mulig.

Distribuert databehandling er en teknikk som gjør at enkelte datamaskiner kan kobles sammen på tvers av geografiske områder som om de var et enkelt miljø. Du finner mange forskjellige implementeringer av distribuert databehandling. I enkelte topologier sender enkelte databehandlingsenheter bare meldinger til hverandre.

I andre situasjoner kan et distribuert datamiljø dele ressurser som spenner fra minne til nettverk og lagring. Alle distribuerte databehandlingsmodeller har et felles attributt: De er en gruppe nettverksbaserte datamaskiner som samarbeider for å utføre en arbeidsbelastning eller prosess.

DARPA og store data

Den mest kjente distribuerte databehandlingsmodellen, Internett, er grunnlaget for alt fra e-handel til cloud computing til serviceadministrasjon og virtualisering. Internett ble oppfattet som et forskningsprosjekt finansiert av U. S. DARPA.

Det ble utformet for å skape et sammenkoblet nettverkssystem som ville støtte ikke-kommersiell, samarbeidende forskning blant forskere. I de tidlige dagene av Internett ble disse datamaskinene ofte forbundet med telefonlinjer! Med mindre du har opplevd den frustrasjonen, kan du bare forestille deg hvor langsom og skjøre de forbindelsene var.

Da teknologien er modnet i løpet av det neste tiåret, bidro vanlige protokoller som Transmission Control Protocol (TCP) til å sprede teknologien og nettverket. Når Internett-protokollen (IP) ble lagt til, flyttet prosjektet fra et lukket nettverk for en samling av forskere til en potensielt kommersiell plattform for å overføre e-post over hele kloden.

I løpet av 1980-årene begynte nye Internett-baserte tjenester å komme seg opp i markedet som et kommersielt alternativ til DARPA-nettverket. I 1992 passerte U.S kongressen Vitenskapelig og avansert-teknologiloven som for første gang tillot kommersiell bruk av denne kraftige nettverksteknologien. Med sin fortsatte eksplosive vekst er Internett virkelig et globalt distribuert nettverk og er fortsatt det beste eksempelet på kraften til distribuert databehandling.

Verdien av en konsistent stor datamodell

Hvilken forskjell har denne DARPA-ledde innsatsen gjort i bevegelsen til distribuert databehandling?Før kommersialisering av Internett var det hundrevis av selskaper og organisasjoner som skaper en programvareinfrastruktur som skulle gi en felles plattform for å støtte et svært distribuert datamiljø.

Hver leverandør eller standardorganisasjon oppnådde imidlertid egne RPC'er (Remote Procedures Calls) som alle kunder, kommersielle programvareutviklere og partnere måtte vedta og støtte. RPC er en primitiv mekanisme som brukes til å sende jobb til en ekstern datamaskin og krever vanligvis å vente på at fjernt arbeid skal fullføres før annet arbeid kan fortsette.

Med leverandører som implementerte proprietære RPCs, ble det upraktisk å forestille seg at et selskap ville kunne lage en universell standard for distribuert databehandling. I midten av 1990-tallet erstattet internettprotokollene disse primitive tilnærmingene og ble grunnlaget for det som distribueres databehandling i dag. Etter at dette ble avgjort, begynte bruken av denne tilnærmingen til nettverksbasert databehandling å blomstre.