{
"cells": [
{
"cell_type": "markdown",
"id": "5e656f0d",
"metadata": {},
"source": [
"# 💻 Aggregering av data\n",
"\n",
"[](https://colab.research.google.com/github/GMGI221-2024/forelesninger/blob/main/06_aggregering_av_data.ipynb)\n",
"\n",
"Dataaggregering refererer til en prosess der vi kombinerer data i grupper. NÃ¥r\n",
"vi gjør romlig dataaggregering, slår vi geometriene sammen til grovere\n",
"enheter (basert på noen attributter), og kan også beregne sammendragsstatistikk for\n",
"disse kombinerte geometriene fra de opprinnelige, mer detaljerte verdiene. For eksempel,\n",
"anta at vi er interessert i å studere kontinenter, men vi har bare\n",
"landnivådata som datsettet for land; Hvis vi aggregerer dataene etter\n",
"kontinent, vil vi konvertere dataene på landsnivå til et datasett på\n",
"kontinentnivå.\n",
"\n",
"I denne opplæringen vil vi aggregere befolkningsdataene våre i Ås, dvs. rutenettcellene som har samme antall innbyggere vil bli slått sammen.\n",
"\n",
"La oss starte med å laste inn befolkningsdata i Ås fra filen: `aas_befolkning_2023.geojson`:"
]
},
{
"cell_type": "code",
"execution_count": 5,
"id": "0da59bd4",
"metadata": {},
"outputs": [],
"source": [
"import pathlib \n",
"NOTEBOOK_PATH = pathlib.Path().resolve()\n",
"DATA_MAPPE = NOTEBOOK_PATH / \"data\""
]
},
{
"cell_type": "code",
"execution_count": 6,
"id": "f60699fb",
"metadata": {},
"outputs": [],
"source": [
"import geopandas\n",
"intersection = geopandas.read_file(DATA_MAPPE / \"ssb_rutenett\" / \"aas_befolkning_2023.geojson\")"
]
},
{
"cell_type": "markdown",
"id": "af58fe34",
"metadata": {},
"source": [
"For å gjøre aggregeringen vil vi bruke en metode som heter `dissolve()` som tar\n",
"som inngang kolonnen som vil bli brukt til å utføre aggregeringen:"
]
},
{
"cell_type": "code",
"execution_count": 7,
"id": "c4befebe",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
geometry
\n",
"
ru250m
\n",
"
gml_id
\n",
"
lokalId
\n",
"
navnerom
\n",
"
versjonId
\n",
"
oppdateringsdato
\n",
"
gyldigFra
\n",
"
datauttaksdato
\n",
"
navn
\n",
"
språk
\n",
"
kommunenummer
\n",
"
kommunenavn
\n",
"
samiskForvaltningsområde
\n",
"
\n",
"
\n",
"
pop_tot
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" \n",
"
\n",
"
1
\n",
"
MULTIPOLYGON (((261225.860 6618040.140, 261183...
\n",
"
22605006626000
\n",
"
kommune.28
\n",
"
d285e9c4-8da0-4dfc-b927-31ba7ee17e6a
\n",
"
https://data.geonorge.no/sosi/inndelinger/innd...
\n",
"
3
\n",
"
2023-11-28 16:00:22
\n",
"
2024-01-01
\n",
"
2024-03-04 12:27:57
\n",
"
Ã…s
\n",
"
nor
\n",
"
3218
\n",
"
Ã…s
\n",
"
False
\n",
"
\n",
"
\n",
"
2
\n",
"
MULTIPOLYGON (((260250.000 6618500.000, 260250...
\n",
"
22650006625250
\n",
"
kommune.28
\n",
"
d285e9c4-8da0-4dfc-b927-31ba7ee17e6a
\n",
"
https://data.geonorge.no/sosi/inndelinger/innd...
\n",
"
3
\n",
"
2023-11-28 16:00:22
\n",
"
2024-01-01
\n",
"
2024-03-04 12:27:57
\n",
"
Ã…s
\n",
"
nor
\n",
"
3218
\n",
"
Ã…s
\n",
"
False
\n",
"
\n",
"
\n",
"
3
\n",
"
MULTIPOLYGON (((260000.000 6619250.000, 260250...
\n",
"
22617506625250
\n",
"
kommune.28
\n",
"
d285e9c4-8da0-4dfc-b927-31ba7ee17e6a
\n",
"
https://data.geonorge.no/sosi/inndelinger/innd...
\n",
"
3
\n",
"
2023-11-28 16:00:22
\n",
"
2024-01-01
\n",
"
2024-03-04 12:27:57
\n",
"
Ã…s
\n",
"
nor
\n",
"
3218
\n",
"
Ã…s
\n",
"
False
\n",
"
\n",
"
\n",
"
4
\n",
"
MULTIPOLYGON (((262000.000 6618000.000, 262000...
\n",
"
22602506625750
\n",
"
kommune.28
\n",
"
d285e9c4-8da0-4dfc-b927-31ba7ee17e6a
\n",
"
https://data.geonorge.no/sosi/inndelinger/innd...
\n",
"
3
\n",
"
2023-11-28 16:00:22
\n",
"
2024-01-01
\n",
"
2024-03-04 12:27:57
\n",
"
Ã…s
\n",
"
nor
\n",
"
3218
\n",
"
Ã…s
\n",
"
False
\n",
"
\n",
"
\n",
"
5
\n",
"
MULTIPOLYGON (((261079.690 6617980.860, 261078...
\n",
"
22650006625500
\n",
"
kommune.28
\n",
"
d285e9c4-8da0-4dfc-b927-31ba7ee17e6a
\n",
"
https://data.geonorge.no/sosi/inndelinger/innd...
\n",
"
3
\n",
"
2023-11-28 16:00:22
\n",
"
2024-01-01
\n",
"
2024-03-04 12:27:57
\n",
"
Ã…s
\n",
"
nor
\n",
"
3218
\n",
"
Ã…s
\n",
"
False
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" geometry ru250m \\\n",
"pop_tot \n",
"1 MULTIPOLYGON (((261225.860 6618040.140, 261183... 22605006626000 \n",
"2 MULTIPOLYGON (((260250.000 6618500.000, 260250... 22650006625250 \n",
"3 MULTIPOLYGON (((260000.000 6619250.000, 260250... 22617506625250 \n",
"4 MULTIPOLYGON (((262000.000 6618000.000, 262000... 22602506625750 \n",
"5 MULTIPOLYGON (((261079.690 6617980.860, 261078... 22650006625500 \n",
"\n",
" gml_id lokalId \\\n",
"pop_tot \n",
"1 kommune.28 d285e9c4-8da0-4dfc-b927-31ba7ee17e6a \n",
"2 kommune.28 d285e9c4-8da0-4dfc-b927-31ba7ee17e6a \n",
"3 kommune.28 d285e9c4-8da0-4dfc-b927-31ba7ee17e6a \n",
"4 kommune.28 d285e9c4-8da0-4dfc-b927-31ba7ee17e6a \n",
"5 kommune.28 d285e9c4-8da0-4dfc-b927-31ba7ee17e6a \n",
"\n",
" navnerom versjonId \\\n",
"pop_tot \n",
"1 https://data.geonorge.no/sosi/inndelinger/innd... 3 \n",
"2 https://data.geonorge.no/sosi/inndelinger/innd... 3 \n",
"3 https://data.geonorge.no/sosi/inndelinger/innd... 3 \n",
"4 https://data.geonorge.no/sosi/inndelinger/innd... 3 \n",
"5 https://data.geonorge.no/sosi/inndelinger/innd... 3 \n",
"\n",
" oppdateringsdato gyldigFra datauttaksdato navn språk \\\n",
"pop_tot \n",
"1 2023-11-28 16:00:22 2024-01-01 2024-03-04 12:27:57 Ã…s nor \n",
"2 2023-11-28 16:00:22 2024-01-01 2024-03-04 12:27:57 Ã…s nor \n",
"3 2023-11-28 16:00:22 2024-01-01 2024-03-04 12:27:57 Ã…s nor \n",
"4 2023-11-28 16:00:22 2024-01-01 2024-03-04 12:27:57 Ã…s nor \n",
"5 2023-11-28 16:00:22 2024-01-01 2024-03-04 12:27:57 Ã…s nor \n",
"\n",
" kommunenummer kommunenavn samiskForvaltningsområde \n",
"pop_tot \n",
"1 3218 Ã…s False \n",
"2 3218 Ã…s False \n",
"3 3218 Ã…s False \n",
"4 3218 Ã…s False \n",
"5 3218 Ã…s False "
]
},
"execution_count": 7,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Utføre aggregeringen\n",
"dissolved = intersection.dissolve(by=\"pop_tot\")\n",
"\n",
"# Hva fikk vi\n",
"dissolved.head()"
]
},
{
"cell_type": "markdown",
"id": "c6adf892",
"metadata": {},
"source": [
"La oss sammenligne antall celler i lagene før og etter aggregeringen:"
]
},
{
"cell_type": "code",
"execution_count": 8,
"id": "9b36aa39",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Rader i opprinnelig intersection GeoDataFrame: 636\n",
"Rader i oppløst lag: 142\n"
]
}
],
"source": [
"print(f\"Rader i opprinnelig intersection GeoDataFrame: {len(intersection)}\")\n",
"print(f\"Rader i oppløst lag: {len(dissolved)}\")"
]
},
{
"cell_type": "markdown",
"id": "1a0b8056",
"metadata": {},
"source": [
"Faktisk har antall rader i dataene våre blitt redusert og polygonene har blitt\n",
"slått sammen.\n",
"\n",
"Hva skjedde egentlig her? La oss ta en nærmere titt. \n",
"\n",
"La oss se hvilke kolonner vi nå har i vår GeoDataFrame:"
]
},
{
"cell_type": "code",
"execution_count": 9,
"id": "de0d71c9",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"Index(['geometry', 'ru250m', 'gml_id', 'lokalId', 'navnerom', 'versjonId',\n",
" 'oppdateringsdato', 'gyldigFra', 'datauttaksdato', 'navn', 'språk',\n",
" 'kommunenummer', 'kommunenavn', 'samiskForvaltningsområde'],\n",
" dtype='object')"
]
},
"execution_count": 9,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"dissolved.columns"
]
},
{
"cell_type": "markdown",
"id": "026ce48f",
"metadata": {},
"source": [
"Som vi kan se, kan ikke kolonnen som vi brukte for å utføre aggregeringen\n",
"(`pop_tot`) finnes lenger i kolonnelisten. Hva skjedde med\n",
"den?\n",
"\n",
"La oss ta en titt på indeksene i vår GeoDataFrame:"
]
},
{
"cell_type": "code",
"execution_count": 10,
"id": "0864f418",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"Index([ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,\n",
" ...\n",
" 250, 256, 261, 278, 284, 297, 300, 344, 368, 379],\n",
" dtype='int64', name='pop_tot', length=142)"
]
},
"execution_count": 10,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"dissolved.index"
]
},
{
"cell_type": "markdown",
"id": "41a49537",
"metadata": {},
"source": [
"Aha! Vel nå forstår vi hvor kolonnen vår gikk. Den brukes nå som indeks i\n",
"vår `dissolved` GeoDataFrame. \n",
"\n",
"NÃ¥ kan vi for eksempel bare velge slike geometrier fra laget som har for\n",
"eksempel nøyaktig 15 innbyggere:"
]
},
{
"cell_type": "code",
"execution_count": 11,
"id": "6b5f54db",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"geometry MULTIPOLYGON (((259250.00000892268 6620999.999...\n",
"ru250m 22612506625750\n",
"gml_id kommune.28\n",
"lokalId d285e9c4-8da0-4dfc-b927-31ba7ee17e6a\n",
"navnerom https://data.geonorge.no/sosi/inndelinger/innd...\n",
"versjonId 3\n",
"oppdateringsdato 2023-11-28 16:00:22\n",
"gyldigFra 2024-01-01\n",
"datauttaksdato 2024-03-04 12:27:57\n",
"navn Ã…s\n",
"språk nor\n",
"kommunenummer 3218\n",
"kommunenavn Ã…s\n",
"samiskForvaltningsområde False\n",
"Name: 15, dtype: object"
]
},
"execution_count": 11,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Velg bare geometrier som har 15 innbyggere\n",
"dissolved.loc[15]"
]
},
{
"cell_type": "code",
"execution_count": 12,
"id": "8806cba1",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"pandas.core.series.Series"
]
},
"execution_count": 12,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Se datatype\n",
"type(dissolved.loc[15])"
]
},
{
"cell_type": "markdown",
"id": "a64a16a3",
"metadata": {},
"source": [
"Som vi kan se, har vi nå som et resultat et Pandas `Series` objekt som inneholder\n",
"i utgangspunktet en rad fra vår opprinnelige aggregerte GeoDataFrame.\n",
"\n",
"La oss også visualisere disse 15 innbyggere-rutenettcellene.\n",
"\n",
"Først må vi konvertere den valgte raden tilbake til en GeoDataFrame:"
]
},
{
"cell_type": "code",
"execution_count": 13,
"id": "4eeb2269",
"metadata": {},
"outputs": [],
"source": [
"# Lag en GeoDataFrame\n",
"selection = geopandas.GeoDataFrame([dissolved.loc[15]], crs=dissolved.crs)"
]
},
{
"cell_type": "markdown",
"id": "9541de9a",
"metadata": {},
"source": [
"Plott utvalget på toppen av hele rutenettet:"
]
},
{
"cell_type": "code",
"execution_count": 14,
"id": "306e562a",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
""
]
},
"execution_count": 14,
"metadata": {},
"output_type": "execute_result"
},
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"# Plott alle rutenettcellene, og rutenettcellene som har 15 innbyggere\n",
"ax = dissolved.plot(facecolor=\"gray\")\n",
"selection.plot(ax=ax, facecolor=\"red\")"
]
},
{
"cell_type": "markdown",
"id": "b7421fab",
"metadata": {},
"source": [
"En annen måte å visualisere befolkningen i hele GeoDataFrame på er å plott ved hjelp av en spesifikk kolonne. For å bruke vår `pop_tot` kolonne, som nå er indeksen i GeoDataFrame, må vi tilbakestille indeksen:"
]
},
{
"cell_type": "code",
"execution_count": 15,
"id": "ab8d8424",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"