Avlsverdier hos fisk


Innhold


På 1960-tallet var det ingen som hadde begynt å avle på laks på en systematisk måte, men i 1969 bestemte professor Harald Skjervold seg for å starte opp et fullskala avlsprogram på laks og regnbueørret. Avlsprogrammet ble basert på å beregne avlsverdier som hovedsakelig er beregnet ut fra halv- og fullsøskeninformasjon, siden laksen kan lage veldig store fullsøskengrupper. Siden alle avkom må merkes for å kjenne deres familietilhørighet, krever avl på fisk en velorganisert plan, mye arbeid og er generelt ressurskrevende. Ved hjelp av moderne DNA-verktøy kan fiskeavlen nå bruke mer detaljert slektskapsinformasjon og seleksjon basert på såkalt genombasert slektskap vil derfor øke den genetiske fremgangen, spesielt på egenskaper som ikke kan måles på avlskandidatene selv.


Moderne avl fra husdyr til fisk

Det var som pioner innen moderne fiskeavl i Norge at professor #Harald Skjervold ved NMBU (den gang NLH) satte i gang de første forsøkene med regnbueørret midt på 1960-tallet. Først var han egentlig opptatt av å bruke den som en modellfisk, fordi ekstern befruktning og mange avkom kunne gi forsøksdesign som var langt bedre enn det en kunne få til med andre modelldyr. Men da han skjønte at laksen kom til å bli en viktig oppdrettsart, dvs. allerede i 1969, bestemte han seg for å starte opp et fullskala avlsprogram på denne nye arten, og på regnbueørret. Allerede i 1970 fikk han planene og finansiering på plass, slik at avlsstasjonen på Sunndalsøra kunne ta imot de første lakserogna fra ulike elver i Norge høsten 1971. Oppdraget med å organisere og drive frem det nye avlsprogrammet gav han til #Trygve Gjedrem, som frem til da kun hadde drevet med avl på sau. Klikk her hvis du vil dykke ned i den historiske utviklingen i norsk fiskeoppdrett.


Fenotypeseleksjon – seleksjon basert kun på individet selv

Hvis man ikke har noe merkesystem, kan vi også på fisk benytte oss av den enkleste form for seleksjon, som er såkalt individbasert seleksjon, eller #fenotypeseleksjon. Dette var måten seleksjon ble gjort på for oppdrettet karpe i de tradisjonelle akvakulturnasjonene som Kina og India. En velger da kun ut de største og fineste individene en sitter igjen med ved innhøstningen av dammen. Dette vil kunne gå noenlunde bra i et par generasjoner, men da vil en raskt oppleve at #innavlsdepresjonen slår til, fordi de beste individene da i stor grad vil stamme fra de samme familiene. Løsningen da har tradisjonelt vært å krysse disse selekterte individene med en annen stamme av samme art, f.eks fra en annen lokalitet eller elv, noe som i stor grad vil kunne oppheve selve innavlsdepresjonen, men det gir jo ikke rom for ytterligere genetisk fremgang. Dette ble derfor et ganske statisk system, der en riktignok fikk til noe seleksjon innledningsvis og også kunne utnytte noe heterosis-effekter (dvs. krysningsfrodighet som skyldes #ikke-additive geneffekter) i selve produksjonen, men som siden ikke kunne skape ny genetisk fremgang.

Historisk har fenotypeseleksjon/individseleksjon vært hovedmåten domestisering av alle våre husdyr har vært gjort på, men grunnen til at det har gått bra med de vanlige husdyra og ikke fisk er selvsagt at for husdyra har vi vært i stand til se forskjell på de ulike individene og bonden har også visst hvem som var far og mor, og som regel besteforeldre også, og intuitivt eller erfaringsmessig har en forstått at å para nært beslektede individer ofte ikke var en god ide. Derfor har individbasert seleksjon fungert gått for alle andre husdyr enn fisk.


Seleksjon basert på stamtavle

All moderne avl baserer seg på bruk av slektskapsinformasjon når en beregner #avlsverdier. På denne måten kan alle registeringer utnyttes og veies sammen på en optimal måte. En viktig forutsetning for å kunne gjøre dette er at vi skille individer fra hverandre, og vite hvem som var far og mor til hvert enkelt individ. Dette var en utfordring da avlsarbeidet på laks startet tidlig på 70-tallet, siden det ikke fantes noe godt merkesystem, og hold av familier adskilt frem til de kunne merkes krevde store investeringer i form av mer enn hundre små oppdrettskar som hver måtte fôres og røktes. Det kreves også at alle observasjoner og slektskap registreres systematisk, slik at det senere kan bli brukt i de avanserte statiske modellene som gjør avlsverdivurderingene. De første tiåra ble alle registreringer først gjort på papir, før de senere ble registrert elektronisk, mens i dag blir dette gjort elektronisk med en gang, og mange registeringer gjøres automatisk. 

Registrering av stamtavle og beregning av en slektskapsmatrise

De fleste av oss har et forhold til stamtavler eller slektstre (eng.: pedigree), enten det gjelder mennesker eller dyr, f.eks. har en god stamtavle alltid vært viktig både i heste- og hundeavlen. Dette krever selvsagt at far og mor til hvert enkelt individ som skal bidra med observasjoner (fenotyper) eller som selv kan bli forelder til neste generasjon, må registreres i et datasystem. Dette blir som regel samlet i en egen datafil, slektskaps-fil eller -database, som inneholder all individer i en populasjon i kronologisk rekkefølge. For hvert individ er det oppgitt far og mor, helt tilbake til base-individene der far og mor da blir satt som ukjente.

Figur 1 illustrerer hvordan vi kan følge slektskapet tilbake i generasjoner i en avlspopulasjon (kun en liten del av en avlspopulasjon er tatt med her). Det blir selvsagt umulig å bruke en slik fremstilling til noe nyttig rent beregningsmessig, vi trenger derfor et mer nøyaktig mål på i hvor stor grad to individer er med hverandre, både for å vurdere om de kan pares med hverandre og for å kunne gi en korrekt vekt når observasjoner fra ulike typer slektninger skal veies sammen i BLUP-beregningene, som vi skal komme tilbake til.

Figur 1. Illustrasjon av hvordan slektskap kan spores tilbake i generasjoner. Av Rajesh Joshi m. fl. (2018). Lisens: CC BY 4.0

På basis as slektskapsfila, beskrevet over, kan vi sette opp en slektskapsmatrise, som viser innbyrdes slektskap mellom alle individer i avlspopulasjonen. Først skal vi imidlertid visualisere et enkelt eksempel over to generasjoner der individene 1-4 er base-individer, dvs. at foreldrene til disse er ukjente. Individene 5-9 er alle avkom av base-individene, og vi kan se at noen av dem er helsøsken og noen er halvsøsken (figur 2).

Figur 2. Enkelt flytdiagram for flyt av gener mellom to generasjoner. Av Hans Magnus Gjøen.

Selv med så få individer begynner dette å bli vankelig å holde rede på, og vi benytter oss derfor av en såkalt slektskapsmatrise for enkelt og nøyaktig kunne angi slektskapet mellom hvilke som helst to individer, og, ikke minst viktig, slektskapet for alle individer med seg selv, fordi dette faktisk vil vise #innavlgraden til hvert enkelt individ. Slektskapsmatrisa blir også kalt en A-matrise, fordi den angir det #additive slektskapet mellom individer i populasjonen.

I figur 3 kan vi se at på diagonalen er individenes slektskap med seg selv angitt. Som logisk er, er denne satt til 1, dersom det ikke er kjent innavl, som jo er tilfelle for basisindividene. Denne verdien kan være høyere enn 1 dersom det oppstår innavl, noe som er intuitivt siden innavl betyr økt grad av #homozygoti, dvs. gen med to like allel, som gjør at disse individene vil ha allel som er mer lik hverandre enn det som vil forventes hos et ikke-innavla individ. Dersom vi hadde lagt til enda en generasjon, og krysset individ 7 og 8, som er fullsøsken, ville avkommet her fått en verdien 1,25 på sin diagonal, som betyr at #innavlsgraden er på 25 % som fort vil resultere i #innavlsdepresjon, og dessuten sterkt redusere den genetiske variasjonen som disse individene kan bringe videre til neste generasjon, pga. høy grad av homozygoti som gir flere like alleler.  

Figur 3. Eksempel på starten av en enkel slektskaps­matrise, også kalt en A-matrise. Av Hans Magnus Gjøen.

De ikke-diagonale elementene angir slektskapet mellom individer. F.eks. er element 1,2, dvs. elementet i andre kolonne i første linje, lik 0, som det er for alle de fire baseindividene fordi de er antatt ubeslektet. Siden matrisen er symmetrisk er elementene over diagonalen symmetrisk like med de under diagonalen, f.eks. er element 1,2 er lik 2,1.

Når vi kommer til neste generasjon, dvs. individene 5-9, ser vi at også disse har verdien 1 på diagonalen, siden det fortsatt ikke har oppstått noe innavl. Men her har vi mange elementer som ikke er null: dette angir slektskapskoeffisienten mellom disse. F.eks. ser vi at i elementet som representer krysningspunktet mellom individ 7 og 8, dvs. 7,8 og 8,7, har verdien 0,5. Det betyr at disse deler 0,5 (50 %) av alle alleler, noe som angir at de er fullsøsken (Egentlig er dette er den forventede andelen av allel som fullsøsken vanligvis vil ha, men det kan være relativt store avvik fra dette, noe vi skal se nærmere på i neste kapittel, om #genomisk seleksjon). På tilsvarende måte ser vi at f.eks. halvsøsken har verdien 0,25 på deres krysningselement, mens slektskapskoeffisienten mellom foreldre og avkom også er 0,5.

Det ville naturligvis vært en enorm oppgave å sette opp en slik matrise manuelt, men det finnes relativt enkle regler for hvordan denne settes opp, og disse lar seg lett programmere. Det finnes også regler for hvordan den inverse A-matrise settes opp, noe som er nødvendig for å kunne løse de store BLUP-ligningene en får hvis det er mange dyr i avlspopulasjonen, som vi nå skal se litt nærmere på.

For å kunne utnytte alle fenotype-observasjonene/registreringene som blir gjort, både i avlskjernen, på teststasjonene og i de ulike smittetestene på en optimal måte, benytter vi oss av en statistisk modell som har den litt morsomme forkortelsen BLUP, som på engelsk står for «Best Linear Unbiased Prediction». Det betyr kort forklart at den statiske modellen vil gi oss avlsverdier som minimerer feilvariansen. Modellen gir oss forventningsriktige estimat hvis vi antar at effektene som påvirker våre observasjoner virker lineært (additivt) og at egenskapene vi modellerer er normalfordelte.  

Det vil ta for mye plass her hvis vi skulle forklare hvordan disse ligningene kan utledes, så vi skal nøye oss med å presentere hvordan de ser ut i sin enkleste form, i #matrisenotasjon, og så prøve å forklare intuitivt hva de ulike delene av ligningene representerer:

De ulike matrisene/vektorene representerer her:
X = er en design-matrise som knytter sammen observasjonene med fast-effekter (ikke-tilfeldige effekter) i modellen

Z = er en design-matrise som knytter sammen observasjonene med avlsverdier (tilfeldige effekter)

y = er en vektor med alle observasjonene eller fenotypene

A = er den additive slektskapsmatrisa (invertert)

b = fast-effekter i modellen (vektor)

a = avlsverdier (vektor)

, angir forventet forhold mellom miljøvariasjon og additiv genetisk variasjon.

Enkelt forklart så binder BLUP-ligningene alle observasjoner sammen og beskriver, eller modellerer, hvordan de blir påvirket av fast-effekter, av samvariasjon forårsaket av gener og av tilfeldig variasjon. Det som gjenstår for å kunne finne avlsverdier med BLUP-egenskaper er å løse disse ligningene mht. de ukjente faktorene, nemlig b og a, dvs. fast-effekter og tilfeldige-effekter/avlsverdier.  Dette gjøres ved å løse ligningene med hensyn på de ukjente:

Dette tilsvarer det vi ville gjort også i vanlig algebra for å løse en ligning:

XB = Y à B = Y / X = X-1 * Y

En må bare merke seg at her, ulikt det som er tilfelle i vanlig algebra, er faktorenes rekkefølge ikke er likegyldig, det er derfor ikke likegyldig om X-1 står foran Y, eller omvendt. 

Det elegante med disse ligningene er at de vekter sammen informasjonen fra ulike slektninger via A-matrisa. Dette gjør at all informasjon blir utnyttet på «riktig» måte slik at fenotyper observert på alle individer, nær eller fjern slektning, «tilflyter» alle andre slektninger og påvirker avlsverdien deres. Dette betyr at slektskapsinformasjonen, A-matrisa, blir et slags nettverk som sørger for at informasjon fra hele populasjon flyter riktig mellom individer i hele avlspopulasjonen.  

Over har vi vist BLUP-ligninger for en situasjon med bare én egenskap i avlsmålet. Som regel har vi mange egenskaper vi ønsker å forbedre samtidig, og ligningene lar seg relativt enkelt utvide til flere egenskaper, slik at også genetiske korrelasjoner mellom egenskaper og miljømessige korrelasjoner mellom ulike test-miljø blir inkludert. Dette gjør også at fenotypen observert på to forskjellige egenskaper kan påvirke avlsverdien til hverandre.  Dette igjen betyr at vi kan selektere for egenskaper som vi ikke direkte kan observere, men som vi indirekte kan påvirke via en annen egenskap som har en genetisk korrelasjon til egenskapen i avlsmålet. F.eks. er det per nå en utfordring å måle den viktige egenskapen fôrutnyttelse på en enkel måte, men fordi vi vet at denne egenskapen er positivt korrelert med egenskapen tilvekst, vil også fôrutnyttelsen i snitt bli bedre når vi selekterer for tilvekst.


Begrensninger for stamtavle- eller slektskapsbasert avl

Selv om BLUP vil veie sammen opplysningene fra ulike slektninger på en best mulig måte vil det fortsatt være gunstig å ha så mange observasjoner som mulig, og at disse er gjort på så nært beslektede individer som mulig. For å vise betydningen av dette har vi nedenfor gjengitt #sikkerhet på utvalget (inngår i ligningen for genetisk fremgang, se #Genetisk endring av en populasjon – seleksjonsrespons) for ulike typer informasjonskilder, dvs. type slektninger. Viktig å merke seg her at dette angir maksimal #sikkerhet på utvalget, dvs. at for f.eks fullsøsken, angis verdien som for veldig mange fullsøsken, noe det for så vidt kan være på fisk.

Det vi spesielt kan legge merke til er at fenotypeutvalg, dvs. seleksjon basert kun på egen fenotype, vil være veldig avhengig av arvegraden for egenskapen, mens for den viktigste informasjonskilden for fisk, fullsøsken, er sikkerheten på utvalget uavhengig av arvegraden.

Tabell  1. Tabellen angir maksimal sikkerhet på utvalget, rse, for ulike typer slektskapsinformasjon (se også tekst). Av Hans Magnus Gjøen.

Imidlertid er det en viktig begrensning for fullsøskeninformasjon når vi bare har slektskaps­informasjon i modellen som kun er basert på stamtavla, dvs. A-matrisa. Vi kan da bare utnytte mellom-familie-variasjon, ikke innen-familie-variasjon. Det betyr at det kun er halvparten av den genetiske variasjonen som blir utnyttet, siden halvparten av den genetiske variasjonen blir generert vha. ny mendelsk variasjon, et resultat av kjønnet formering, samt overkrysning av kromosomtrådene under dannelsen av kjønnscellene (gametene). Dette kan vi bare utnytte ved også å se på variasjon innen familie.

Derfor, siden de fleste egenskapene som er interessante som avlsmål i fiskeavlen kun blir registrert på fullsøsken, f.eks. sykdomsresistens og kvalitetsegenskaper, er det en vesentlig begrensning dersom vi kun benyttes tradisjonell slektskapsbasert A-matrise i modellen, dvs. basert på stamtavla. Det kan vi gjøre noe med vha. genomisk seleksjon, som vi skal se nærmere på i neste kapittel.


Genomisk seleksjon – GS

Som nevnt over, er innføringen av genomisk seleksjon (GS) en sterk forbedring av avlen for både husdyr og fisk. Før vi hadde tilgang på et stort antall #SNP-markører (det er vanlig nå å analysere hver avlskandidat for 50 000 SNP-markører), kunne vi ikke skille mellom gode og dårlige kandidater innen en fullsøskengruppe for disse egenskapene. Vha. DNA-markørene kan vi nå si hvem av kandidatene som er mest lik de søsknene som gjør det best i test-egenskapen, f.eks. filetfarge eller sykdomsresistens. 

Figur 4. Seleksjon skjer blant kandidater basert på observasjoner gjort på fullsøsken. Av Hans Magnus Gjøen.

Basis for GS i fiskeavl: finne nøyaktig slektskapet mellom søsken

I kapittelet om #Seleksjon basert på slektskap lærte vi at i tradisjonell #BLUP bruker vi stamtavlebasert slektskapsmatrise (A-matrise) for å beregne avlsverdier. En viktig forutsetning, eller antagelse, i den modellen er at all slektskap er akkurat på forventningen, dvs. akkurat det slektskapet som i gjennomsnitt blir resultatet av alle de tilfeldige prosessene som leder til dannelsen av et nytt individ. For slektskapet mellom foreldre og avkom er det nesten ingen variasjon i slektskapet, alle arver 50 % av sine allel fra far og tilsvarende fra mor (+ mitokondrielt-DNA fra mor), men mellom søsken kan det være store forskjeller i hvilke deler av en DNA-tråd som er blitt nedarvet fra hver av foreldrene, både pga. den binære prosessen bak hvilket kromosompar som danner hver enkelt gamet (kjønnscelle) og pga. overkrysning av kromosomtråder som også skjer i denne prosessen. 

Figur 5. Illustrasjon av hvordan ulike segmenter av DNA kan nedarves ulikt for ulike fullsøsken. Av Hans Magnus Gjøen.

Figur 5 viser at dette kan medføre at to fullsøsken kan ha ganske ulik genetisk sammensetning. Og når vi undersøker faktisk slektskap mellom fullsøsken i en store fullsøskengrupper, som vi jo har hos fisk, viser det seg at det er en slags normalfordelt spredning i slektskap (figur 6), der forventningen eller middelelet riktignok ligger på 50 %, slik vi regner med i standard BLUP, men spredningen rundt denne verdien er betydelig, slik figuren under viser. Her ser vi at slektskapen mellom fullsøsken kan variere betydelig.

Figur 6. Viser spredningen av slektskap mellom fullsøsken. Av Jørgen Ødegård, AquaGen.

Dette har selvsagt stor betydning for hvordan en registering av en fenotype, f.eks. farge i filet, skal vektes inn mot avlskandidaten som vi skal beregne avlsverdi for. Dette kan vi ta inn i BLUP-modellene ved å gjøre én vital endring i BLUP-ligningene, som vi nå skal se.

Den mest vanlige måten å bruke GS i fiskeavlen er å erstatte den slektskapsbaserte A-matrisa med en såkalt G-matrise, en slektskapsmatrise basert på faktisk genetisk likhet mellom individer i en populasjon.  G-matrisa er ganske lik A-matrisa, men vha. markørinformasjon angir den det faktiske slektskapet mellom alle slektninger mer korrekt, f.eks. mellom fullsøsken slik Figur 7 viser. Enkelt forklart blir G-matrisa satt opp ved at slektskapet mellom to individer blir bestemt ut ifra andel av markør-alleler som de deler. De nye BLUP-ligningene ser da slik ut:

Fordi G-matrisa har erstattet A-matrisa kalles dette G-BLUP.

Denne måten å bruke genomisk seleksjon på er nå blitt ganske vanlig innen akvakultur, i hvert fall for laks. Hovedgrunnen til dette er at totalt antall genotypede individer som inngår i avlsverdi­beregningene i slike programmer er relativt lavt, noen titusener, hvilket gjør at det er mulig å løse ligningene direkte (I den alternative metoden, som vi skal komme tilbake til, trenger en ikke å invertere G-matrisa, noe som kav bli relativt tungt rent regnemessig. I storfeavlen f.eks, kan en ha millioner av individer med i beregningene, og invertering av G-matrisa blir da vanskelig pga. regnekapasiteten som kreves). Det finnes også en mulighet for å kombinere vanlig stamtavlebasert slektskap med genomisk slektskap, og vi benevner da dette ved a kalle slektskapsmatrisa for en H-matrise (en Hybrid mellom A- og G-matrise).   

Den «opprinnelige» metoden for å bruke markørinformasjon for å bedre #sikkerheten i avlsverdivurderingen er å beregne avlsverdien for hver enkelt markør. Vha. regresjonsligninger blir da effekten av hver eneste DNA-markør beregnet, og så blir denne regresjonskoeffisienten brukt sammen med markørinformasjonen til avlskandidaten til å beregne den totale avlsverdien til denne:

EBVi = Zi1m1 + Zi2m2 + Zi3m3 + Zi4m4 + …

Her er:

EBVi den totale avlsverdien for individ i

Zi1-n er genotypen for markør 1 til n, for individ i

M1-n er den estimerte verdien markøreffekten for markør 1 til n

Det gunstige med denne metoden er som nevnt at vi her ikke trenger å invertere noe G-matrise for å finne avlsverdiene, noe som er veldig gunstig når antall individer er langt større enn antall markøreffekter som skal beregnes i første steg av metoden.

Metodens nøyaktighet vil være avhengig av antall individer som er brukt i beregningen av markøreffektene og at disse individene er tilstrekkelig nært beslektet med avlskandidatene som vi skal beregne avlsverdiene til. Denne metoden gir tilsvarende avlsverdier som ved bruk av G-BLUP, dersom en antar at effekten av markørene, eller de #QTL-ene disse er lenket til, har en normalfordelt effekt.

Det finnes andre GS-modeller som kan gi andre avlsverdier enn det G-BLUP gir. Hovedforskjellen på disse og G-BLUP at de ikke nødvendigvis forutsetter at markøreffektene er normalfordelte, slik vi gjør for G-BLUP. Kravet om normalfordeling gjør nemlig at hvis det er noen #QTLer som har mye større effekt enn de andre QTLene, vil dette ofte ikke komme til fullt uttrykk. Hvis vi derimot antar at noen markører kan ha betydelig større effekt enn andre, f.eks. ved å anta at effektene er #Poisson-fordelt, vil QTLer med stor effekt bedre kunne estimeres riktig. Disse alternative metodene vil være aktuelle å bruke på egenskaper som ikke er det vi kaller #polygene, dvs. er styrt av mange gen – hvert med relativt liten effekt, men der et eller noen få QTLer har stor effekt på fenotypen. Eksempler på slike egenskaper kan være visse #sykdomsegenkaper, den en ofte finner betydelige QTLer.


Bruk av GS i fiskeavlen

Som nevnt tidligere, kan de fleste egenskapene vi selekterer for på laks kun registrere på full- og halvsøsken fordi de er #invasive. Unntaket er tilvekst. Og det kan ikke gjentas ofte nok: Det betyr at vi kun kan utnytte halvparten av den genetiske variasjonen, den mellom familier. Innen-familievariasjonen får vi ikke benyttet, dersom vi da ikke bruker GS. Figuren viser hvordan GS ofte vil mer enn fordoble framgangen for disse invasive egenskapene, samt gi litt større fremgang også for tilvekst. GS er derfor en av de viktigste  forbedring av avlsarbeidet på fisk siden oppstarten på 1970-tallet.

Figur 7. Sikkerheten på utvalget/genetisk fremgang vil kunne dobles ved bruk av GS på invasive egenskaper.