toppbanner

Main topics

Study techniques
Religion and view of life
Denominations and church history
Ethics and Philosophy
Pedagogy
ICT
Math, technology and science
CV and publications
Miscellaneous

Search in this website:

Choose articles by genre:

V Essays, papers
A Other papers
U Education, lectures
O Tables or summaries
S Citations
F Readers fruits
K Textbook summaries
T Speaches, sermons
L Links
P Web portal
D Miscellaneous
G Thoughts
All articles, cronological
All articles, alphabetical

My websites:

Non Aliud professional
Semaphore railway Viaduct model railroad

Grunnleggende digital kompetanse

Svein Sando, 25.8.2010

Filer og filbehandling

Hva er egentlig en fil?

Grunnleggende om digital informasjon, teknisk

  • Informasjon satt sammen av digitale informasjonsbiter som kan innta kun to forskjellige tilstander: logisk sann eller logisk falsk, gjerne representert som de to eneste sifrene i det digitale tallsystemet: 1 eller 0. I en datamaskin representeres dette som elektriske spenningsnivåer som enten er 0 volt (ingen spenning) eller (normalt) 5 volt, som tilsvarer logisk 1 eller sann.

  • Siden en informasjonsbit kun kan innta to helt forskjellige nivåer, 0 eller 1, er det også mulig å kopiere digital informasjon nøyaktig likt fra gang til gang, det vi kaller tapsfritt. Dermed kan en digital informasjon reproduseres i det uendelig uten forringelse, i motsetning til analog informasjon som taper seg ved hver ny kopiering.
  • En slik grunnleggende informasjonsenhet kalles ?bit?, og er altså ett siffer i det digitale tallsystemet.
  • Ved å sette sammen mange bits, kan man representere nesten hva som helst bare man tar tilstrekkelig mange bits i bruk. Men det hele startet med å representere tegn og tall.

Tekstfiler

For å representere én bokstav, trengs altså flere bits, og i IT-barndommen, holdt det med 7 bits, som gir 126 ulike muligheter. Man kalte derfor 7 bits for en ?byte? eller ?ord?. Selv 126 muligheter synes tilstrekkelig når alfabetet består av 28 tegn, så viste det seg å være knapt når man etter hvert også ville framstille spesielle tegn og grafiske symboler. Man økte derfor til 8 bit, som gir 256 muligheter, og det er standard i dag. I dag er en ?byte? derfor 8 bits. Byte forkortes oftest ?B?, så når man sier at en minnepinne har en kapasitet på 16GB, så kan den altså lagre 16 milliarder bokstaver.

Bildet nedenfor viser de opprinnelige 126 såkalte ASCII-tegnene, som fortsatt danner basis i måten en datamaskin representerer tegn på.


[Kilde: Wikipedia]

Det vi kaller ren tekst, som altså bare består av tegn og tall og eventuelt noen enkle kontrolltegn som betegner linjeskift o.l. (ASCII 0-31), kan så settes sammen tegn for tegn til en lang sammenhengende rad med 0 og 1 og er direkte "forståelig" for enhver datamaskin. Sekvensen
010010000110010101101001
Gruppert:
0100-1000-0110-0101-0110-1001
Gjort om til 16-tallsystemet som også ASCII-tabellen bruker:
48-65-69
Gjort om til 10-tallsystemet:
72-101-105
Dette vil en datamaskin avkode som "Hei".

Disse enkle tekstfilene gis helst endelsen .txt i filnavnet, og de kan skrives rett ut og vil da være leselige og sendt til en skriver vil de komme pent ut med linjeskift og sideskift på riktig steder. De fleste tekstbehandlingsprogrammer har en mulighet for å lagre teksten som .txt-fil, hvilket noen ganger kan være nyttig for å kunne dele innholdet med noen som ikke har samme tekstbehandlingsprogram som deg, eller for å gjøre fila så liten som mulig, da den ikke inneholder noe annet enn ren tekst. Slike filer er også helt frie for virus og andre uhumskheter.

Etterhvert som behovet for å kunne lage mer spennende layout på tekstene enn ren skrivemaskin-etterligning, begynte man å lage egne tekstbehandlingsprogrammer. For å angi for eksempel at en tekst skal framstå med fet skrift, må det legges inn i teksten på en måte som tekstbehandlignsprogrammet oppfatter som en beskjed til seg selv om visningsmåten av den teksten som så følger. Dermed begynte man å innføre ulike koder i tillegg til den vanlige teksten. Hvert tekstbehandlingsprogram utviklet sitt sett med kontrollkoder og dermed oppstod behovet for å skjelne mellom ulike filtyper. Microsoft Word tok for eksempel i bruk endelsen .doc for å angi at dette var en Word-fil. Open Office bruker .odt for å angi at dette er en fil som passer i Open Office.

Men det har også vært bestrebelser på å samordne disse kodene slik at man kunne utveksle tekster på tvers av tekstbehandlingsprogram o.l. Tre interessante i så måte er disse:

  • rtf - Rich text format. Dette er også et format som virus ikke kan henge seg på, og som derfor regnes for et sikkert format.
  • pdf - Portable document format. Dette format klarer mye mer enn tekst, ja er et generelt format for datainformasjon.
  • html - HyperText marcup language. Dette er et ordinært tekstformat med kontrollkoder som er ment å kunne leses direkte av de som har lært seg disse kontrollkodene. Det er også "grunnspråket" på alle Internettsider. For de som arbeider med hjemmesider selv, vil en viss kunnskap om html være nyttig. Særlig vanskelig er dette format heller ikke. Kontrollkodene kalles "tag" og normalt har man en start-tag og en slutt-tag (starter alltid med /), slik at alt som står mellom disse vises på den måten som den spesielle tagen angir. Tagen starter med et <-tegn og slutter med et >-tegn. En b i mellom angir at teksten skal vises fet (bold) og en i (italic) angir skråstilt tekst. Disse kan kombineres, for eksempel slik: Dette er fet tekst og dette er skråstilt tekst, og dette er begge deler.
    Hele denne teksten med koder ser slik ut:
    Dette er <b>fet</b> tekst og dette er <i>skråstilt</i> tekst, og dette er <b><i>begge deler</i></b>.

    Hele dette dokumentet dere ser i nå, er skrevet direkte i html-språk. Ser man på den i en ren tekstleser, ser man alle kodene også, og man vi se at kodene utgjør en ganske liten del av teksten, så den er fortsatt brukbar lett leselig, og ikke mye lenger enn om den var en ren tekst.

    Tekstbehandlingsprogrammer kan oftest lagre tekst i html-format som da kan publiseres direkte på en nettside. Problemet med mange av disse konverteringsprogrammene, er at de forsøker å være veldig smarte, og pøser på med en mengde kontrolltegn (tags) som gjør fila ofte 2-3 ganger større enn nødvendig, og samtidig nesten uleselig. Det er forsåvidt greit dersom man aldri kommer til å se nærmere på den fila, eller man bare redigerer i den via det opprinnelig tekstbehandlingsprogrammet.

Hva er da en fil?

En datafil er en sammenhengende rekke med 1 og 0 som er datamaskinen kan lese og gjøre forståelig for sitt formål, og omvendt: maskinen kan ta vare på en informasjon ved å lagre den som en sammenhengende rekke med 1 og 0 i en fil på maskinen i et passende lagringsmedium.

I første omgang vil en datafil lagres i maskinens indre hukommelse, ofte kalt RAM (Random Access Memory). RAM tar vare på informasjonen så lenge det er en passende spenning til stede, men så snart man slår av maskinen, er også informasjonen i RAM tapt. Derfor lagrer man informasjonen i medier som ikke trenger strøm, og det tradisjonelt mest brukt er magnetiske medier som tape og disker belagt med et tynt magnetisk sjikt som kan stilles inn ulikt og dermed representere 1 og 0.

Filer deles opp i faste porsjoner, og hver porsjon må ligge fysisk sammenhengende på mediet, men hver porsjon kan ellers ligger hvor som helst på mediet. En lang fil vil derfor ofte lokaliseres fysisk her og der på en disk, hvilket gjør at disker med liten ledig kapasitet vil måtte gjøre seg i bruk av ledig plass her og der kanskje en rekke forskjellige steder, og det gjør at tiden det tar å lese (eller skrive) en fil, kan ved nesten fulle disker ta betydelig lenger tid, enn ved en nesten tom disk der filens ulike porsjoner kan legges pent og pyntelig rett etter hverandre.

Dette har en praktisk side ved at en datamaskin ofte blir tregere med tiden fordi disken fylles opp. Det er to måter ut av dette uføret:

  1. Slette filer man ikke trenger lenger
  2. Defragmentere disken. Dette gjøres av egne programmer som i dag er standardutstyr på en datamaskin. I Windows finnes det ved å høyreklikke på musa når den peker på en disk i Explorer, se bilde nedenfor.

Såkalt Flash Memory ble funnet opp allerede i 1980, men fikk utbredelse først mot slutten av 1990-tallet i og med digitale kameraer. Dermed kom minnebrikkene og litt senere minnepinnene som vi kjenner så godt i dag. I motsetning til en harddisk som vi må behandle varsomt som et ukokt egg, og som også tar litt plass, er minnebrikka svært liten og tåler det meste av ytre påvirkning, til og med å bli senket ned i vann. Kapasiteten er stigende og i dag er 32 GB-brikker tilgjengelig. Teoretisk sies det at øvre grense er 1 TB, altså 30 ganger mer enn der man er i dag. Prismessig ligger en minnebrikke på ca 20,- per GB og en ekstern harddisk på ca 1,- per GB. Så fortsatt vil nok harddisken i mange år ennå være hovedlagringsmåten for datafiler, mens minnepinnen er utmerket til å flytte mellomstore datamengder mellom datamaskiner som ikke står sammen i lokalt nettverk, samt til backup av særskilte filer.

Mer komplekse filtyper

Både lyd og bilde kan gjengis digitalt, ved at man oversetter et såkalt analogt uttrykk med et digitalt. Det gjøres ved at man hakker opp det analoge signalet i tilstrekkelig små biter som så hver for seg kan tilordnes et tall og dermed representeres digitalt. Bildet nedenfor viser en digitalisering av en et pens sinusignal, som hvis det er lyd og denne fortsetter likedan framover i tidsaksen, vil være en ren og jevn tone.

Lyd har alltid et tidsforløp siden lyd er svingninger i luft. Et bilde derimot, er statisk, selv om lys også er elektromagnetisk svingninger. For å representere et bilde, ser vi derfor ikke på tidsforløpet, men på hvordan lyset fordeler seg på en billedflate.

Billedgrafikk

Bilder bygges opp av en rekke billedpunkter og hvert billedpunkt har en bestemt farge og en bestemt intensitet. For å digitalisere et analogt bilde (i denne sammenhengen er det vi ser med våre øyne en analog virkelighet), må vi derfor dele opp billedflaten i tilstrekkelig små biter som hver for seg får en bestemt farge og intensitet, og antall punkter må være så mange at når vi betrakter bildet på riktig avstand, så ser vi ikke enkeltpunktene men helheten.

Egentlig er vi vel kjent med slik oppdeling, eller rastrering, av bilder fra TV-apparater. Går man nære en TV-skjerm man at bildet består av en rekke små røde, grønne og blå prikker som står sammen i tripletter. Hvis alle tre lyser like sterkt, ser tripletten hvit ut på litt avstand. Det europeiske fjernsynssystemet PAL har 625 horisontale linjer med billedpunkter, der halvparten oppdateres hvert 1/25-sekund. Til sammen blir det i underkant av en halv million billedpunkter på et TV-bildet. Med de nye HDTV blir oppløsningen vesentlig bedre, og altså tilsvarende flere billedpunkter.

Et digitalt stillbilde har imidlertid en helt annen kvalitet enn et digitalt levende bilde. Jeg fikk mitt første digitale kamera i 2001 med 2,1 Megapikslers billedsensor. Billedsensoren erstatter fortidens analoge film som ble fremkalt ved kjemi. Nå skjer "fremkallingen" i løpet av brøkdeler av et sekund og framkommer som et digitalt mønster på 1600 x 1200 billedpunkter. Dette blir tilsammen 1,92 millioner billedpunkter, altså omtrent fire ganger så mange som for et TV-bilde. La oss se nærmere på et slikt digitalt bilde fra nesten 10 år tilbake:
IMG_1253.JPG Bilde av Låven sept. 2001. Originalopptak 1200x1600, filstørrelse 648 kB
Filstørrelsen er påfallende liten. For 1600x1200 er som sagt 1,92 mill. For hvert billedpunkt lagres det tre farger, hver på en oppløsning med med 8 bits for å gi 256 intensitetsnivåer på hver farge. Det burde altså gitt en filstørrelse på 3x1200x1600 = 5,72 mill bytes, mens fila altså er på nesten tiendeparten. Hva er årsaken?

Årsaken er at filformatet som de fleste bruker for billedfiler, jpg eller jpeg (uttales: "jåddpegg") er et format som komprimerer informasjonen slik at den ikke skal ta så stor plass.

Det betyr at vi her stå overfor en type fil som IKKE oppfører seg slik jeg sa i starten som var digitalformatets fordel, nemlig at samme hvor mange ganger man kopierer det, så blir det nøyaktig likt hver gang. Vel, nesten ikke. Man kan kopiere jpg-filer så mange ganger man vil og lage identiske kloner av de. Men man hver gang man tar opp et jpeg-bilde i en billedbehandler og så lagrer det på nytt derfra, så vil filens kvalitet forringes litt hver gang. Derfor er anbefalingen at arkivkopier av et bilde som man vil arbeide med, det må man lagre i et tapsfritt filformat, for eksempel .tif, og så evt. lage en jpg-utgave først som siste ledd.

Som visningsformat på Internett, er jpg standard nettopp fordi den ikke tar så stor plass. jpg er derfor et visningsformat, men ikke et arkivformat. Nå lagrer de fleste kameraer bildene på minnebrikka direkte i jpg, så slik sett får vi jpg-originaler direkte. Dette er imidlertid jpg-bilder med relativt liten komprimeringsgrad, dvs. de framstår som nesten helt optimale. I et billedprogram kan man endre komprimeringsgraden til jpg mellom svært store ytterpunkter. Hold deg unna ytterpunktene. Velger du maksimal komprimeringsgrad blir gjengivelse ganske spesiell. Det har jeg gjort med det samme bildet her, og valgt Photoshops kvalitet 0, dårligst mulige altså. Filstørrelsen har også sunket til 43,8 kB, altså til under en tiendel av hva den startet med, men det skal sies at jeg også har redusert pikslene til halvparten i begge retninger, altså til 1/4 av flaten.

Filformater for billedfiler
FormatEgenskapTapsfri lagring?
jpgValgfri komprimeringsgrad. Standard for Internetvisning. Millioner av farger.Nei
gifMax 256 farger per bilde. Kan brukes til animasjon.Ja, innenfor de 256 fargene
pngMillioner av farger. Erstatter gif. Noe komprimerbar.Ja
bmpIngen komprimering -> store filer. Kan ikke vises på InternettJa
tifProfesjonelt format. Lagrer alle tenkelig informasjoner til bildet. Noe komprimerbarJa

Dette er de vanlige, allmenne formatene. I tillegg kommer særformater som er knyttet til hver enkelt kameraprodusert og kameratype dersom disse også tilbyr lagring i såkalt rå-format, dvs. at man lagrer informasjonen nøyaktig slik billedsensoren leverer informasjonen. For de som vil arbeide med enkeltbilder i et billedbehandlingsprogram, og særlig få noe mer ut av bidler tatt under vanskelige forhold eller de er feileksponert (for mørke eller for lyse), er råformatet et nyttig format. Det krever imidlertid gjerne at man har egne programtillegg for å kunne nyttiggjøre seg råformatet. Disse leveres ofte av kameraprodusenten, eller de bakes inn i de større bileldbehandlingsprogrammene etterhvert som formatene blir etablert. Ulempen er at de er kaameravhengige og ofte ikke så lenge aktuelle da et bestemt kameramerke ikke er så mange år i handelen. Man advares derfor mot å algre et bilde kun i råformat, men bare ha det som et supplement for bilder man tror man kan komme til å få nytte av formatet. Råformat-filene tar typisk 3-4 ganger så stor plass som et jpg-bilde levert fra samme kamera.

Bildene nedenfor viser et eksempel på det siste, nemlig hvordan jpg-bildet fra kameraet ser ut ubehandlet, og hvordan man via rå-format-fila kan "trylle" fram MtMckinley fra disen i bakgrunnen.

Orden på filene

De fleste av oss har en rekkefiltyper i maskinen vår, men også mange filer av samme type, og det blir bare flere og flere ettersom tiden går.

For å kunne ha en orden på alt dette, bruker man mapper som man legger filer i. (En mappe er selv en fil, men som har som innhold en oversikt over de filene som er "lagt" i mappa.)

Hvordan man organiserer mappene og hva du legger i de, er helt opp til deg selv. En mappe kan inneholde en ny mappe, osv. På den måten kan man lage seg en struktur over filene sine som passer både ens egen måte å strukturere ting på, og den kan romme så mange filer totalt sett som man bare vil (og har diskplass til).

Noen sier at man ikke bør ha flere enn 20 filer i én mappe. Har man flere, er det på tide å opprette en undermappe å fordele de i. Jeg synes kanskje 20 høres litt strengt ut, og mener nok at det er filenes innhold i forhold til hverandre som må avgjøre om man bør dele opp eller vente. Selv har jeg lagret bildene mine kronologisk med én mappe for hvert år, så 12 undermapper for hver måned, så én mappe per dag det er tatt bilder der mappa i tillegg til datoen også gir en kort beskrivelse av innholdet den dagen. Så da kan en mappe inneholde fra 1 til kanskje flere hundre bilder, avhengig hvor mange bilder det ble tatt en konkret dag. Dette er en lett forståelig struktur med sin egen logikk.

Mappene gis altså navn, på samme måter som man gir vanlige filer navn, eller endrer navnet. I våre dager er det også ok å bruke såkalte lange filnavn, og ikke være begrenset til 8 tegn slik vi måtte holde oss til for noen år siden. Dermed kan både filer og mapper får beskrivende navn som det er lett å skjønne hva inneholder.

Filsikkerhet

En datafil kan lett gå tapt. Harddisken kan få en feil, og så er fila ødelagt, eller kanskje hele disken også. Derfor er databrukerens bud nr 1 dette:

Ta alltid backup.

Bud nr.2 lyder slik:

Ta alltid en ekstra backup

Bud nr.3 lyder:

Spre backupene på flere fysiske steder. For brenner det hos deg, så er det lurt om dine verdifulle bilder ikke går tapt samtidig, siden det er så lett å ta backup og spre de. I våre dager er diskplass billig (1,- gigabyten!), og eksterne harddisker er en enkel måte å ta backup på hele tiden. Det finnes programmer som gjør dette for deg automatisk. Slike følger gjerne med de eksterne harddiskene.


This article is shown 4248 times

Ett tilfeldig blant 12 av mine antatt bedre bilder jeg har tatt selv:
menyadm/pix1/galleri/e2622.jpg

I dag 142 treff på nonaliud, og 1954446 totalt siden 20.04.2004 08:25. Dagsgjennomsnitt: 367 treff ·

© Svein Sando, PhD, Associate Professor at Queen Maud's College of Early Childhood Education (QMC), Trondheim, Norway
Phone +47 73 80 52 26 - fax: +47 73 80 52 52 - e-mail: seserstatt dette bildet med tegnet krøllalfadmmh.no               
Start page (Eng.) · Startside (Norw.) · · Display modes: Standard · Without menus: Arial · Times · Times spacious · Large ·    

The content of this webpage is subject to Norwegian legislation about copyright, which gives the author all publications wrights. Any further publication of this text and its pictures, completely or partly, can only be done after being authorized to do so by the author. Shorter citation in papers, students essays and so forth can be done if referring to the source. APA style reference to this webpage:

Sando, S. (2010). Grunnleggende digital kompetanse. Dronning Mauds Minne Høgskole. Downloaded 13.11.2018 from http://www2.dmmh.no/~ses/index.php?vis=287&nid=1&eng=1