{
"cells": [
{
"cell_type": "markdown",
"id": "62d5a33e",
"metadata": {},
"source": [
"# 💻 Reklassifisering av data\n",
"\n",
"[](https://colab.research.google.com/github/GMGI221-2024/forelesninger/blob/main/06_reklassifisering.ipynb)\n",
"\n",
"Reklassifisering av data basert på spesifikke kriterier er en vanlig oppgave når man utfører GIS\n",
"analyse. Formålet med denne notebooken er å se hvordan vi kan reklassifisere verdier\n",
"basert på noen kriterier. Man kunne for eksempel klassifisere informasjon basert på\n",
"reisetider og boligpriser ved hjelp av disse kriteriene:\n",
"\n",
"1. Hvis reisetiden til jobben min er mindre enn 30 minutter, **OG**\n",
"2. husleien for leiligheten er mindre enn 10000 kr per måned\n",
"\n",
"Hvis begge kriteriene er oppfylt: Jeg går for å se leiligheten og prøver å leie den\n",
"Hvis ikke: Jeg fortsetter å lete etter noe annet\n",
"\n",
"\n",
"I denne opplæringen vil vi:\n",
"\n",
"1. Bruk klassifiseringsskjemaer fra PySAL [mapclassify\n",
" bibliotek](https://pysal.org/mapclassify/) for å klassifisere befolkningstall til\n",
" flere klasser.\n",
"\n",
"2. Opprett en egendefinert klassifisering for å klassifisere og benytte den\n",
"\n",
"\n",
"## Inputdata\n",
"\n",
"Vi vil bruke befolkningsdata fra [SSB](https://kart.ssb.no/) for Oslo, som inneholder 2380 celler for Oslo kommune."
]
},
{
"cell_type": "code",
"execution_count": 1,
"id": "db569794",
"metadata": {},
"outputs": [],
"source": [
"import pathlib \n",
"NOTEBOOK_PATH = pathlib.Path().resolve()\n",
"DATA_MAPPE = NOTEBOOK_PATH / \"data\""
]
},
{
"cell_type": "code",
"execution_count": 2,
"id": "cc34b2cc-932b-46a9-9f9e-646610fb7643",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
fid
\n",
"
ru250m
\n",
"
pop_tot
\n",
"
geometry
\n",
"
\n",
" \n",
" \n",
"
\n",
"
0
\n",
"
1.0
\n",
"
2.263751e+13
\n",
"
14
\n",
"
POLYGON ((264000.000 6643000.000, 263750.000 6...
\n",
"
\n",
"
\n",
"
1
\n",
"
2.0
\n",
"
2.264001e+13
\n",
"
177
\n",
"
POLYGON ((264250.000 6643000.000, 264000.000 6...
\n",
"
\n",
"
\n",
"
2
\n",
"
3.0
\n",
"
2.264251e+13
\n",
"
169
\n",
"
POLYGON ((264500.000 6643000.000, 264250.000 6...
\n",
"
\n",
"
\n",
"
3
\n",
"
4.0
\n",
"
2.264501e+13
\n",
"
261
\n",
"
POLYGON ((264750.000 6643000.000, 264500.000 6...
\n",
"
\n",
"
\n",
"
4
\n",
"
5.0
\n",
"
2.264751e+13
\n",
"
106
\n",
"
POLYGON ((265000.000 6643000.000, 264750.000 6...
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" fid ru250m pop_tot \\\n",
"0 1.0 2.263751e+13 14 \n",
"1 2.0 2.264001e+13 177 \n",
"2 3.0 2.264251e+13 169 \n",
"3 4.0 2.264501e+13 261 \n",
"4 5.0 2.264751e+13 106 \n",
"\n",
" geometry \n",
"0 POLYGON ((264000.000 6643000.000, 263750.000 6... \n",
"1 POLYGON ((264250.000 6643000.000, 264000.000 6... \n",
"2 POLYGON ((264500.000 6643000.000, 264250.000 6... \n",
"3 POLYGON ((264750.000 6643000.000, 264500.000 6... \n",
"4 POLYGON ((265000.000 6643000.000, 264750.000 6... "
]
},
"execution_count": 2,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"import geopandas\n",
"\n",
"rutenett = geopandas.read_file(DATA_MAPPE / \"ssb_rutenett\" / \"befolkning_250m_2023_oslo.shp\")\n",
"\n",
"rutenett.head()"
]
},
{
"cell_type": "markdown",
"id": "6e83115b",
"metadata": {},
"source": [
"## Vanlige klassifiseringer\n",
"\n",
"### Klassifiseringsskjemaer for tematiske kart\n",
"\n",
"[PySAL](https://pysal.org/) -modulen er et omfattende Python-bibliotek for romlig\n",
"analyse. Det inkluderer også alle de vanligste dataklassifiseringene som er\n",
"brukt vanlig f.eks. når man visualiserer data. Tilgjengelige kartklassifiseringer i [pysal's\n",
"mapclassify -modul](https://github.com/pysal/mapclassify):\n",
"\n",
"- Box Plot\n",
"- Equal Interval\n",
"- Fisher Jenks\n",
"- Fisher Jenks Sampled\n",
"- HeadTail Breaks\n",
"- Jenks Caspall\n",
"- Jenks Caspall Forced\n",
"- Jenks Caspall Sampled\n",
"- Max P Classifier\n",
"- Maximum Breaks\n",
"- Natural Breaks\n",
"- Quantiles\n",
"- Percentiles\n",
"- Std Mean\n",
"- User Defined\n",
"\n",
"\n",
"\n",
"**NoData-verdiene presenteres med verdi -1**. \n",
"Derfor må vi først fjerne No Data-verdiene."
]
},
{
"cell_type": "code",
"execution_count": 3,
"id": "b2dbb165",
"metadata": {},
"outputs": [],
"source": [
"# Inkluder bare data som er over eller lik 0\n",
"rutenett = rutenett.loc[rutenett[\"pop_tot\"] >=0]"
]
},
{
"cell_type": "markdown",
"id": "9e56ed55",
"metadata": {},
"source": [
"La oss plotte dataene og se hvordan det ser ut\n",
"- `cmap` parameter definerer fargekartet. Les mer om [valg av fargekart i matplotlib](https://matplotlib.org/3.1.0/tutorials/colors/colormaps.html)\n",
"- `scheme` alternativ skalerer fargene i henhold til et klassifiseringsskjema (krever at `mapclassify` modulen er installert):"
]
},
{
"cell_type": "code",
"execution_count": 4,
"id": "fb540ac0",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
""
]
},
"execution_count": 4,
"metadata": {},
"output_type": "execute_result"
},
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"# Plott ved hjelp av 9 klasser og klassifiser verdiene ved hjelp av \"Natural Breaks\" klassifisering\n",
"rutenett.plot(column=\"pop_tot\", scheme=\"Natural_Breaks\", k=9, cmap=\"RdYlBu\", linewidth=0, legend=True, aspect=1)"
]
},
{
"cell_type": "markdown",
"id": "0f6591cc",
"metadata": {},
"source": [
"Som vi kan se fra dette kartet, er befolkningen større i sentrum, men det er også noen områder med få beboere i noen andre områder (hvor fargen er rød)."
]
},
{
"cell_type": "markdown",
"id": "2c710848",
"metadata": {},
"source": [
"### Bruk av klassifiseringer på data\n",
"\n",
"Som nevnt, definerer `scheme` alternativet klassifiseringsskjemaet ved hjelp av\n",
"`pysal/mapclassify`. La oss se nærmere på hvordan disse klassifiseringene fungerer."
]
},
{
"cell_type": "code",
"execution_count": 5,
"id": "0b50da15",
"metadata": {},
"outputs": [],
"source": [
"import mapclassify"
]
},
{
"cell_type": "markdown",
"id": "b889e486",
"metadata": {},
"source": [
"#### Natural Breaks"
]
},
{
"cell_type": "code",
"execution_count": 6,
"id": "a92c8e76",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"NaturalBreaks\n",
"\n",
" Interval Count\n",
"--------------------------\n",
"[ 1.00, 82.00] | 675\n",
"( 82.00, 198.00] | 461\n",
"( 198.00, 313.00] | 515\n",
"( 313.00, 461.00] | 283\n",
"( 461.00, 654.00] | 182\n",
"( 654.00, 896.00] | 100\n",
"( 896.00, 1212.00] | 81\n",
"(1212.00, 1618.00] | 58\n",
"(1618.00, 2351.00] | 25"
]
},
"execution_count": 6,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"mapclassify.NaturalBreaks(y=rutenett[\"pop_tot\"], k=9)"
]
},
{
"cell_type": "markdown",
"id": "d4ca8389",
"metadata": {},
"source": [
"#### Quantiles (standard er 5 klasser):"
]
},
{
"cell_type": "code",
"execution_count": 7,
"id": "b397080f",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"Quantiles\n",
"\n",
" Interval Count\n",
"--------------------------\n",
"[ 1.00, 31.00] | 480\n",
"( 31.00, 160.00] | 476\n",
"( 160.00, 262.00] | 476\n",
"( 262.00, 433.20] | 472\n",
"( 433.20, 2351.00] | 476"
]
},
"execution_count": 7,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"mapclassify.Quantiles(y=rutenett[\"pop_tot\"])"
]
},
{
"cell_type": "markdown",
"id": "db2659d8",
"metadata": {},
"source": [
"#### Trekk ut terskelverdiene\n",
"\n",
"Det er mulig å trekke ut terskelverdiene i en matrise:"
]
},
{
"cell_type": "code",
"execution_count": 8,
"id": "4b37a2b2",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"array([ 83., 198., 315., 462., 658., 896., 1212., 1618., 2351.])"
]
},
"execution_count": 8,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"klassifiserer = mapclassify.NaturalBreaks(y=rutenett[\"pop_tot\"], k=9)\n",
"klassifiserer.bins"
]
},
{
"cell_type": "markdown",
"id": "7ddfcc8e",
"metadata": {},
"source": [
"La oss bruke en av `Pysal` klassifiseringene på dataene våre og klassifisere\n",
"befolkningen til 9 klasser\n",
"Klassifiseringen må først initialiseres med `make()` funksjonen som tar\n",
"antall ønskede klasser som inngangsparameter"
]
},
{
"cell_type": "code",
"execution_count": 9,
"id": "a147e645",
"metadata": {},
"outputs": [],
"source": [
"# Lag en Natural Breaks klassifisering\n",
"klassifiserer = mapclassify.NaturalBreaks.make(k=9)"
]
},
{
"cell_type": "markdown",
"id": "bc94ef05",
"metadata": {},
"source": [
"- Nå kan vi bruke klassifiseringen på dataene våre ved å bruke `apply` -funksjonen"
]
},
{
"cell_type": "code",
"execution_count": 10,
"id": "a3ce4f0c",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
pop_tot
\n",
"
\n",
" \n",
" \n",
"
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1
\n",
"
1
\n",
"
\n",
"
\n",
"
2
\n",
"
1
\n",
"
\n",
"
\n",
"
3
\n",
"
2
\n",
"
\n",
"
\n",
"
4
\n",
"
1
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" pop_tot\n",
"0 0\n",
"1 1\n",
"2 1\n",
"3 2\n",
"4 1"
]
},
"execution_count": 10,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Klassifiser dataene\n",
"klassifiseringer = rutenett[[\"pop_tot\"]].apply(klassifiserer)\n",
"\n",
"# La oss se hva vi har\n",
"klassifiseringer.head()"
]
},
{
"cell_type": "code",
"execution_count": 11,
"id": "0bce101c",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"pandas.core.frame.DataFrame"
]
},
"execution_count": 11,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"type(klassifiseringer)"
]
},
{
"cell_type": "markdown",
"id": "8c37942d",
"metadata": {},
"source": [
"Ok, så nå har vi en DataFrame der inngangskolonnen vår ble klassifisert til 9\n",
"forskjellige klasser (tallene 1-9) basert på [Natural Breaks\n",
"klassifisering](http://wiki-1-1930356585.us-east-1.elb.amazonaws.com/wiki/index.php/Jenks_Natural_Breaks_Classification).\n",
"\n",
"Vi kan også legge til klassifiseringsverdiene direkte i en ny kolonne i vår dataframe:"
]
},
{
"cell_type": "code",
"execution_count": 12,
"id": "1cfa98aa",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
pop_tot
\n",
"
nb_pop_tot
\n",
"
\n",
" \n",
" \n",
"
\n",
"
0
\n",
"
14
\n",
"
0
\n",
"
\n",
"
\n",
"
1
\n",
"
177
\n",
"
1
\n",
"
\n",
"
\n",
"
2
\n",
"
169
\n",
"
1
\n",
"
\n",
"
\n",
"
3
\n",
"
261
\n",
"
2
\n",
"
\n",
"
\n",
"
4
\n",
"
106
\n",
"
1
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" pop_tot nb_pop_tot\n",
"0 14 0\n",
"1 177 1\n",
"2 169 1\n",
"3 261 2\n",
"4 106 1"
]
},
"execution_count": 12,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Gi nytt navn til kolonnen så vi vet at den ble klassifisert med naturlige brudd\n",
"rutenett[\"nb_pop_tot\"] = rutenett[[\"pop_tot\"]].apply(klassifiserer)\n",
"\n",
"# Sjekk de opprinnelige verdiene og klassifiseringen\n",
"rutenett[[\"pop_tot\", \"nb_pop_tot\"]].head()"
]
},
{
"cell_type": "markdown",
"id": "ca2305e5",
"metadata": {},
"source": [
"Flott, nå har vi disse verdiene i GeoDataFramen. La oss\n",
"visualisere resultatene og se hvordan de ser ut."
]
},
{
"cell_type": "code",
"execution_count": 13,
"id": "32c53729",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
""
]
},
"execution_count": 13,
"metadata": {},
"output_type": "execute_result"
},
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"# Plott\n",
"rutenett.plot(column=\"nb_pop_tot\", linewidth=0, legend=True)"
]
},
{
"cell_type": "markdown",
"id": "d12dc8a1",
"metadata": {},
"source": [
"Og her går vi, nå har vi et kart der vi har brukt en av de vanlige\n",
"klassifiseringene for å klassifisere dataene våre i 9 klasser.\n",
"\n",
"\n",
"## Plott et histogram\n",
"\n",
"Et histogram er en grafisk representasjon av datafordelingen. NÃ¥r\n",
"man klassifiserer data, er det alltid bra å vurdere hvordan dataene er fordelt,\n",
"og hvordan klassifiseringsskjemaet deler verdier i forskjellige områder.\n",
"\n",
"- plott histogrammet ved hjelp av [pandas.DataFrame.plot.hist](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.hist.html)\n",
"- Antall histogrambinner (grupper av data) kan kontrolleres ved hjelp av parameteren `bins`:"
]
},
{
"cell_type": "code",
"execution_count": 14,
"id": "70708402",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
""
]
},
"execution_count": 14,
"metadata": {},
"output_type": "execute_result"
},
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"# Definer klassifiserer\n",
"klassifiserer = mapclassify.Quantiles(y=rutenett['pop_tot'])\n",
"\n",
"# Plott histogram for befolkningsrutenettet\n",
"rutenett[\"pop_tot\"].plot.hist(bins=50)\n",
"\n",
"for break_point in klassifiserer.bins:\n",
" plt.axvline(break_point, color=\"k\", linestyle=\"dashed\", linewidth=1)"
]
},
{
"cell_type": "markdown",
"id": "55516b7f",
"metadata": {},
"source": [
"## Bruke en egendefinert klassifisering\n",
"\n",
"### Multikriterium dataklassifisering\n",
"\n",
"La oss klassifisere geometriene i to klasser basert\n",
"på en gitt `terskel` -parameter. Hvis området til en polygon er lavere enn terskelverdien, vil utgangskolonnen få en verdi\n",
"0, hvis den er større, vil den få en verdi 1. Denne typen klassifisering kalles ofte en [binær\n",
"klassifisering](https://en.wikipedia.org/wiki/Binary_classification).\n",
"\n",
"For å klassifisere hver rad i vår GeoDataFrame kan vi iterere over hver rad, eller vi kan bruke\n",
"en funksjon for hver rad. I vårt tilfelle vil vi bruke en lambda funksjon for hver rad i\n",
"vår GeoDataFrame, som returnerer en verdi basert på de vilkårene vi gir.\n",
"\n",
"La oss klassifisere basert på to kriterier: og finne ut rutenettceller\n",
"\n",
"1. Rutenettceller der befolkningen er **mindre eller lik 50** \n",
"\n",
"2. *og* Rutenettceller der befolkningen er **større eller lik 15** \n",
"\n",
"La oss først se hvordan vi klassifiserer en enkelt rad:"
]
},
{
"cell_type": "code",
"execution_count": 17,
"id": "264281fc",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"False"
]
},
"execution_count": 17,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"rutenett.iloc[0][\"pop_tot\"] <= 50 and rutenett.iloc[0][\"pop_tot\"] > 15"
]
},
{
"cell_type": "code",
"execution_count": 18,
"id": "ef703b73",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"0"
]
},
"execution_count": 18,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"int(rutenett.iloc[2000][\"pop_tot\"] < 50 and rutenett.iloc[2000][\"pop_tot\"] > 15)"
]
},
{
"cell_type": "markdown",
"id": "0fa0c8ae",
"metadata": {},
"source": [
"La oss nå bruke dette på vår GeoDataFrame og lagre det i en kolonne kalt `\"egnet\"`:"
]
},
{
"cell_type": "code",
"execution_count": 19,
"id": "d9109649",
"metadata": {},
"outputs": [],
"source": [
"rutenett[\"egnet\"] = rutenett.apply(lambda row: int(row[\"pop_tot\"] < 50 and row[\"pop_tot\"] > 15), axis=1)"
]
},
{
"cell_type": "code",
"execution_count": 20,
"id": "51f1ea50",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"