Big data hvad er det


Wikipedias omfattende indhold af tekstmateriale og illustrationer, der fylder adskillige terabytes, udgør en arketypisk illustration af begrebet big data. Inden for den datalogiske verden betegner big data en bred vifte af discipliner, herunder opsamling, arkivering, undersøgelse, bearbejdning samt dechifrering af massive datamængder. I lighed med adskillige andre teknologiske termer findes der ikke et tilsvarende ord på dansk for big data.

Definitionerne og grænserne for, hvad der karakteriseres som big data, har gennemgået en markant udvikling over tid. Udviklingen har ført os fra en tid, hvor gigabytes blev betragtet som omfattende, til nutidens standarder, hvor man refererer til petabytes og exabytes som værende de virkeligt store volumener. Ofte genereres disse store datamængder i realtid via eksempelvis GPS-moduler og elektroniske sensorer integreret i køretøjer, medicinsk apparatur og lignende teknologier.

Big data kan ligeledes omfatte informationer, som man ikke nødvendigvis lagrer lokalt, men i stedet tilgår gennem programmeringsgrænseflader såsom API'er. Karakteristika Eftersom den direkte oversættelse af big data er store data, virker det logisk at definere feltet ud fra håndteringen af massive informationsmængder.

Big data hvad er det

Ikke desto mindre påpeger adskillige fagfolk, at det ikke udelukkende er volumen, der definerer paradigmet bag big data. Viktor Mayer-Schönberger sammen med Kenneth Cukier fremhæver tre centrale træk: Evnen til at granske hele datasæt frem for isolerede stikprøver, accepten af ustrukturerede og potentielt upræcise data samt et fokus på sammenhænge frem for årsagsforklaringer.

Dette skyldes delvist vanskeligheden ved at skabe modeller, der rummer samtlige dataegenskaber, og delvist at traditionelle metoder ikke kan skaleres til de kolossale mængder. Som konsekvens heraf benytter man hyppigt NoSQL-databaser til at administrere disse omfattende informationsmængder. Essentielt set udvælger man en databasetype, der faciliterer databehandling ud fra specifikke behov.

Hvis der arbejdes med en høj grad af semistruktureret information, falder valget ofte på en dokumentorienteret database.