{ "cells": [ { "cell_type": "markdown", "id": "2b74d3b0", "metadata": {}, "source": [ "# 💻 Geopandas: en introduksjon\n", "\n", "[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/GMGI221-2024/forelesninger/blob/main/04_geopandas.ipynb)\n", "\n", "I denne seksjonen vil vi dekke det grunnleggende med *geopandas*, et Python-bibliotek for\n", "å samhandle med romlig vektordata.\n", "\n", "[Geopandas](https://geopandas.org/) gir et brukervennlig grensesnitt til vektordatasett. Det kombinerer mulighetene til *pandas*\n", "med geometrikapabilitetene til\n", "[shapely](#02_geometriske_objekter), [romlig-filformateringstøtte\n", "fra fiona](#03_vektor) og kartprojeksjonsbibliotekene til\n", "pyproj(som vi ser på neste uke).\n", "\n", "Hoveddatastrukturene i geopandas er `GeoDataFrame`s og `GeoSeries`. De\n", "utvider funksjonaliteten til `pandas.DataFrame`s og `pandas.Series`.\n", "\n", "Det er en nøkkelforskjell mellom pandas dataframes og geopandas\n", "[`GeoDataFrame`s](https://geopandas.org/en/stable/docs/user_guide/data_structures.html#geodataframe):\n", "en `GeoDataFrame` inneholder en ekstra kolonne for geometrier. Som standard er\n", "navnet på denne kolonnen `geometry`, og det er en\n", "[`GeoSeries`](https://geopandas.org/en/stable/docs/user_guide/data_structures.html#geoseries)\n", "som inneholder geometrier (punkter, linjer, polygoner, ...) som\n", "`shapely.geometry` objekter." ] }, { "cell_type": "code", "execution_count": 7, "id": "746d2668", "metadata": { "tags": [ "remove-input" ] }, "outputs": [ { "data": { "text/html": [ "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
 klasseklasse_navngeometry
0100myrPOLYGON ((265791.9 6614994.65, 265790.18 6614997.81, 265754.58 6614993.01, 265738.37 6614991.46, 265714.54 6614994.62, 265703.4 6614982.57, 265700.51 6614972.78, 265701.87 6614965.64, 265710.39 6614959.84, 265729.32 6614969.17, 265751.33 6614968.19, 265785.92 6614984.13, 265791.9 6614994.65))
1100myrPOLYGON ((262206.27 6628558.13, 262202.64 6628562.47, 262192.59 6628562.38, 262186.79 6628553.87, 262184.71 6628541.99, 262186.07 6628534.84, 262203.19 6628524.25, 262221.22 6628523.61, 262226.47 6628526.15, 262228.92 6628530.96, 262206.27 6628558.13))
2100myrPOLYGON ((265299.88 6621504.12, 265294.08 6621506.65, 265285.92 6621505.38, 265279.41 6621499.96, 265258.39 6621467.69, 265255.05 6621452.93, 265249.89 6621440.33, 265246.07 6621431.63, 265248.72 6621416.33, 265254.7 6621404.73, 265266.02 6621407.73, 265282.23 6621420.33, 265283.68 6621436.27, 265279.24 6621453.75, 265279.41 6621466.79, 265286.29 6621476.22, 265302.59 6621489.81, 265305.31 6621497.61, 265299.88 6621504.12))
3100myrPOLYGON ((260561.58 6622897.2, 260562.11 6622914.23, 260560.03 6622913.41, 260555.41 6622906.79, 260551.79 6622889.04, 260553.52 6622874.82, 260562.58 6622841.85, 260572.46 6622817.84, 260581.88 6622810.96, 260603.45 6622805, 260613.4 6622804.08, 260626.36 6622813.96, 260637.86 6622830, 260651.81 6622839.79, 260662.32 6622844.86, 260672.83 6622849.93, 260691.12 6622852.29, 260710.15 6622851.57, 260715.5 6622855.1, 260718.3 6622863.9, 260720.38 6622875.76, 260713.04 6622883.47, 260712.95 6622882.47, 260702.9 6622871.32, 260697.74 6622869.79, 260683.87 6622872.05, 260673.73 6622882.01, 260663.04 6622885.97, 260655.06 6622886.72, 260650.9 6622885.08, 260645.64 6622882.54, 260641.93 6622874.84, 260641.66 6622872.98, 260639.31 6622856.99, 260631.88 6622852.64, 260608.05 6622855.81, 260597.37 6622859.79, 260574.8 6622876.91, 260563.12 6622892.03, 260561.58 6622897.2))
4100myrPOLYGON ((265326.09 6621350.04, 265320.02 6621360.63, 265307.79 6621358.73, 265288.32 6621343.42, 265278.98 6621340.24, 265271.83 6621338.88, 265275.28 6621321.49, 265286.71 6621292.32, 265293.23 6621286.71, 265302.11 6621284.91, 265312.25 6621285.99, 265317.59 6621289.52, 265320.22 6621296.33, 265319.4 6621331.55, 265326.09 6621350.04))
\n" ], "text/plain": [ "" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import pathlib\n", "import geopandas\n", "import numpy\n", "\n", "DATA_MAPPE = pathlib.Path().resolve() / \"data\"\n", "\n", "HIGHLIGHT_STYLE = \"background: #f66161;\"\n", "\n", "# så følgende blokk er litt dårlig magi for å få tabellutdataen til å se\n", "# fin ut (denne cellen er skjult, vi er bare interessert i en kort tabellisting\n", "# der geometrikolonnen er fremhevet).\n", "#\n", "# For dette, vi\n", "# 1. konverterer geopandas tilbake til en ‘normal’ pandas.DataFrame med en forkortet\n", "# WKT-streng i geometrikolonnen\n", "# 1b. samtidig som vi gjør det, blir vi kvitt de fleste av kolonnene (gir de gjenværende kolonner nye navn)\n", "# 2. bruker stilen på alle celler i kolonnen \"geometry\", og til aksen-1-indeksen \"geometry\"\n", "\n", "# Hvorfor gikk jeg via en ‘plain’ `pandas.DataFrame`?\n", "# `pandas.set_option(\"display.max_colwidth\", 40)` ble ignorert, så dette så ut som den reneste måten\n", "\n", "df = geopandas.read_file(DATA_MAPPE / \"arealdekke\" / \"ArealdekkeN50.gpkg\")\n", "\n", "df[\"geom\"] = df.geometry.to_wkt().apply(lambda wkt: wkt[:40] + \" ...\")\n", "\n", "df = df[[\"klasse\", \"klasse_navn\", \"geometry\"]]\n", "\n", "(\n", " df.head().style\n", " .map(lambda x: HIGHLIGHT_STYLE, subset=[\"geometry\"])\n", " .apply_index(lambda x: numpy.where(x.isin([\"geometry\"]), HIGHLIGHT_STYLE, \"\"), axis=1)\n", ")" ] }, { "cell_type": "markdown", "id": "bfb5bf80", "metadata": {}, "source": [ "---\n", "\n", "## Inputdata: Arealdekke over Ås kommune\n", "\n", "I denne notebooken skal vi jobbe med et modifisert datasett fra [Kartverkets N50-serie](https://www.kartverket.no/api-og-data/kartgrunnlag-fastlands-norge).\n", "\n", "Til denne notebooken har vi lastet ned Arealdekke-data og endret det noe for å passe til formålet for denne timen. Dataene er lastet ned fra [Geonorge](https://kartkatalog.geonorge.no/metadata/n50-kartdata/ea192681-d039-42ec-b1bc-f3ce04c189ac). Filen vi skal jobbe med ligger i `data/ArealdekkeN50.gpkg`.\n", "\n", "---\n", "\n", "## Les og utforsk romlig datasett\n", "\n", "Før vi prøver å laste inn noen filer, la oss ikke glemme å definere en konstant\n", "som peker til vår datamappe:" ] }, { "cell_type": "code", "execution_count": 3, "id": "a707bab1", "metadata": {}, "outputs": [], "source": [ "import pathlib \n", "NOTEBOOK_PATH = pathlib.Path().resolve()\n", "DATA_MAPPE = NOTEBOOK_PATH / \"data\"" ] }, { "cell_type": "markdown", "id": "e1edc1a4", "metadata": {}, "source": [ "I denne notebooken skal vi fokusere på arealdekke-klasser\n", "\n", "**Målet vårt i denne notebooken er å lagre alle arealdekke-klassene i separate filer**.\n", "\n", "*Arealdekke-klasser i den datasettet:*\n", "\n", "| Klasse | Navn på klasse \n", "|----------------|-----------\n", "| 100 | myr\n", "| 110 | steinbrudd\n", "| 120 | tettbebyggelse\n", "| 200 | innsjø\n", "| 300 | indstriområde\n", "| 400 | havflate\n", "| 500 | gravplass\n", "| 600 | dyrket mark\n", "| 700 | åpent område\n", "| 800 | skog\n", "| 900 | sportidrettplass\n", "\n", ":::{admonition} Søk etter filer ved hjelp av et mønster\n", ":class: hint\n" ] }, { "cell_type": "code", "execution_count": 5, "id": "5e0779ec", "metadata": {}, "outputs": [], "source": [ "input_filename = DATA_MAPPE / \"arealdekke\" / \"ArealdekkeN50.gpkg\"\n", "data = geopandas.read_file(input_filename)" ] }, { "cell_type": "markdown", "id": "633975e4", "metadata": {}, "source": [ "Først, sjekk datatype av det leste datasettet:" ] }, { "cell_type": "code", "execution_count": 40, "id": "e1637c47", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "geopandas.geodataframe.GeoDataFrame" ] }, "execution_count": 40, "metadata": {}, "output_type": "execute_result" } ], "source": [ "type(data)" ] }, { "cell_type": "markdown", "id": "c8454e5a", "metadata": {}, "source": [ "Alt gikk bra, og vi har en `geopandas.GeoDataFrame`. \n", "La oss også utforske dataene: (1) skriv ut de første få radene, og \n", "(2) list opp kolonnene." ] }, { "cell_type": "code", "execution_count": 41, "id": "21b60ec6", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
gml_idoppdateringsdatoklasseklasse_navngeometry
0idd51cad71-d02b-4043-833b-8a6e50539af02016-12-02100myrPOLYGON ((265791.900 6614994.650, 265790.180 6...
1id41c8ac6e-b5ce-4657-958c-312c27dafd9a2016-12-02100myrPOLYGON ((262206.270 6628558.130, 262202.640 6...
2ide574839d-8f33-4b1e-bc44-01a865a1beb92016-12-02100myrPOLYGON ((265299.880 6621504.120, 265294.080 6...
3id2aa8beeb-8a23-4159-ae85-d218ead88c9f2016-12-02100myrPOLYGON ((260561.580 6622897.200, 260562.110 6...
4iddf0f9506-8358-49ae-bd65-b496cd4571be2016-12-02100myrPOLYGON ((265326.090 6621350.040, 265320.020 6...
\n", "
" ], "text/plain": [ " gml_id oppdateringsdato klasse \\\n", "0 idd51cad71-d02b-4043-833b-8a6e50539af0 2016-12-02 100 \n", "1 id41c8ac6e-b5ce-4657-958c-312c27dafd9a 2016-12-02 100 \n", "2 ide574839d-8f33-4b1e-bc44-01a865a1beb9 2016-12-02 100 \n", "3 id2aa8beeb-8a23-4159-ae85-d218ead88c9f 2016-12-02 100 \n", "4 iddf0f9506-8358-49ae-bd65-b496cd4571be 2016-12-02 100 \n", "\n", " klasse_navn geometry \n", "0 myr POLYGON ((265791.900 6614994.650, 265790.180 6... \n", "1 myr POLYGON ((262206.270 6628558.130, 262202.640 6... \n", "2 myr POLYGON ((265299.880 6621504.120, 265294.080 6... \n", "3 myr POLYGON ((260561.580 6622897.200, 260562.110 6... \n", "4 myr POLYGON ((265326.090 6621350.040, 265320.020 6... " ] }, "execution_count": 41, "metadata": {}, "output_type": "execute_result" } ], "source": [ "data.head()" ] }, { "cell_type": "code", "execution_count": 42, "id": "6dd48de3", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Index(['gml_id', 'oppdateringsdato', 'klasse', 'klasse_navn', 'geometry'], dtype='object')" ] }, "execution_count": 42, "metadata": {}, "output_type": "execute_result" } ], "source": [ "data.columns" ] }, { "cell_type": "markdown", "id": "034d4fd4", "metadata": {}, "source": [ "Dette datasettet har flere kolonner enn vi trenger, la oss gjøre et utvalg av de vi trenger. Vi beholder 'klasse’ og ’klassenavn’, og selvfølgelig kolonnen `geometry`." ] }, { "cell_type": "code", "execution_count": 43, "id": "8d02e53a", "metadata": {}, "outputs": [], "source": [ "data = data[[\"klasse\", \"klasse_navn\", \"geometry\"]]" ] }, { "cell_type": "markdown", "id": "e61deeb1", "metadata": {}, "source": [ "Hvordan ser datasettet ut nå?" ] }, { "cell_type": "code", "execution_count": 45, "id": "523c54ca", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
klasseklasse_navngeometry
0100myrPOLYGON ((265791.900 6614994.650, 265790.180 6...
1100myrPOLYGON ((262206.270 6628558.130, 262202.640 6...
2100myrPOLYGON ((265299.880 6621504.120, 265294.080 6...
3100myrPOLYGON ((260561.580 6622897.200, 260562.110 6...
4100myrPOLYGON ((265326.090 6621350.040, 265320.020 6...
\n", "
" ], "text/plain": [ " klasse klasse_navn geometry\n", "0 100 myr POLYGON ((265791.900 6614994.650, 265790.180 6...\n", "1 100 myr POLYGON ((262206.270 6628558.130, 262202.640 6...\n", "2 100 myr POLYGON ((265299.880 6621504.120, 265294.080 6...\n", "3 100 myr POLYGON ((260561.580 6622897.200, 260562.110 6...\n", "4 100 myr POLYGON ((265326.090 6621350.040, 265320.020 6..." ] }, "execution_count": 45, "metadata": {}, "output_type": "execute_result" } ], "source": [ "data.head()" ] }, { "cell_type": "markdown", "id": "7974c002", "metadata": {}, "source": [ ":::{admonition} Sjekk din forståelse:\n", ":class: hint\n", "\n", "Bruk dine pandas ferdigheter på dette geopandas datasettet for å finne ut følgende\n", "informasjon:\n", "\n", "- Hvor mange rader har datasettet?\n", "- Hvor mange unike klasser?\n", ":::\n", "\n" ] }, { "cell_type": "code", "execution_count": null, "id": "390a9181", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "id": "950ccdce", "metadata": {}, "source": [ "\n", "---\n", "\n", "### Utforsk datasettet på et kart:\n", "\n", "Som geografer, elsker vi kart. Men utover det, er det alltid en god idé å\n", "utforske et nytt datasett også på et kart. For å lage et enkelt kart av en\n", "`geopandas.GeoDataFrame`, bruk ganske enkelt dens `plot()` metode. Den fungerer likt som\n", "i pandas, men **tegner et kart basert på geometriene i datasettet** i stedet for et diagram." ] }, { "cell_type": "code", "execution_count": 46, "id": "132b77b4", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 46, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "data.plot()" ] }, { "cell_type": "markdown", "id": "d6e3669c", "metadata": {}, "source": [ "Voilá! Det er faktisk så enkelt å lage et kart ut av et geografisk datasett.\n", "Geopandas posisjonerer automatisk kartet ditt på en måte som dekker hele\n", "utstrekningen av dataene dine.\n", "\n", "### Geometrier i geopandas\n", "\n", "Geopandas drar nytte av shapelys geometriobjekter. Geometrier lagres\n", "i en kolonne kalt *geometry*.\n", "\n", "La oss skrive ut de første 5 radene av kolonnen `geometry`:" ] }, { "cell_type": "code", "execution_count": 47, "id": "8f7bafdb", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 POLYGON ((265791.900 6614994.650, 265790.180 6...\n", "1 POLYGON ((262206.270 6628558.130, 262202.640 6...\n", "2 POLYGON ((265299.880 6621504.120, 265294.080 6...\n", "3 POLYGON ((260561.580 6622897.200, 260562.110 6...\n", "4 POLYGON ((265326.090 6621350.040, 265320.020 6...\n", "Name: geometry, dtype: geometry" ] }, "execution_count": 47, "metadata": {}, "output_type": "execute_result" } ], "source": [ "data.geometry.head()" ] }, { "cell_type": "markdown", "id": "c1cb36b2", "metadata": {}, "source": [ "Kolonnen `geometry` inneholder kjente verdier:\n", "*Well-Known Text* (WKT) strenger. La deg ikke lure, de er faktisk,\n", "`shapely.geometry` objekter (du husker de kanskje fra [forrige uke](#02_geometriske_objekter)) som når man bruke `print()` eller konverterer til\n", "en `str`, blir representert som en WKT-streng).\n", "\n", "Siden geometriene i en `GeoDataFrame` er lagret som shapely-objekter, kan vi\n", "bruke **shapely metoder** for å håndtere geometrier i geopandas.\n", "\n", "La oss ta en nærmere titt på (en av) polygon-geometriene i datasettet,\n", "og prøve å bruke noe av shapely-funksjonaliteten vi allerede er kjent med. For enkelhetens skyld, jobber vi først med geometrien til bare den aller første linjen:" ] }, { "cell_type": "code", "execution_count": 48, "id": "89c5a119", "metadata": {}, "outputs": [ { "data": { "image/svg+xml": [ "" ], "text/plain": [ "" ] }, "execution_count": 48, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Verdien av kolonnen `geometry` i rad 0:\n", "data.at[0, \"geometry\"]" ] }, { "cell_type": "code", "execution_count": 49, "id": "42c86daf", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Område: 1955 m².\n" ] } ], "source": [ "# Skriv ut informasjon om arealet \n", "print(f\"Område: {round(data.at[0, 'geometry'].area)} m².\")" ] }, { "cell_type": "markdown", "id": "9819c5af", "metadata": {}, "source": [ ":::{admonition} Områdemålenhet\n", ":class: note\n", "\n", "Her kjenner vi koordinatsystemet (CRS) til inputdatasettet. CRS definerer også måleenheten (i vårt tilfelle, meter). Derfor kan vi skrive ut det beregnede området, inkludert en områdemåleenhet (kvadratmeter).\n", ":::\n", "\n", "\n", "La oss gjøre det samme for flere rader, og utforske ulike måter å gjøre det på.\n", "Først bruker vi `iterrows()`-metoden:" ] }, { "cell_type": "code", "execution_count": 50, "id": "3a5ce1c6", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Polygonet i rad 0 har et areal på 1955.5 m².\n", "Polygonet i rad 1 har et areal på 1101.9 m².\n", "Polygonet i rad 2 har et areal på 2658.0 m².\n", "Polygonet i rad 3 har et areal på 6741.0 m².\n", "Polygonet i rad 4 har et areal på 2715.1 m².\n" ] } ], "source": [ "# Iterer over de første 5 radene i datasettet\n", "for index, row in data[:5].iterrows():\n", " polygon_area = row[\"geometry\"].area\n", " print(f\"Polygonet i rad {index} har et areal på {polygon_area:0.1f} m².\")" ] }, { "cell_type": "markdown", "id": "e053d85b", "metadata": {}, "source": [ "Som du ser er alle **pandas** funksjoner, som `iterrows()`-metoden, tilgjengelige i geopandas uten behov for å kalle pandas separat. Geopandas bygger på toppen av pandas, og arver mesteparten av funksjonaliteten.\n", "\n", "Selvfølgelig er ikke `iterrows()`-metoden den mest praktiske og effektive måten\n", "å beregne arealet til mange rader. Både `GeoSeries` (geometri-kolonner) og\n", "`GeoDataFrame`s har en `area`-egenskap:" ] }, { "cell_type": "code", "execution_count": 51, "id": "0397c2f6", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 1955.48975\n", "1 1101.93145\n", "2 2657.99245\n", "3 6740.99175\n", "4 2715.09810\n", " ... \n", "1281 332.87820\n", "1282 157.27005\n", "1283 229322.51250\n", "1284 278301.64510\n", "1285 36206.47765\n", "Length: 1286, dtype: float64" ] }, "execution_count": 51, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# `area`-egenskapen til en `GeoDataFrame`\n", "data.area" ] }, { "cell_type": "code", "execution_count": 52, "id": "ccc78bdd", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 1955.48975\n", "1 1101.93145\n", "2 2657.99245\n", "3 6740.99175\n", "4 2715.09810\n", " ... \n", "1281 332.87820\n", "1282 157.27005\n", "1283 229322.51250\n", "1284 278301.64510\n", "1285 36206.47765\n", "Length: 1286, dtype: float64" ] }, "execution_count": 52, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# `area`-egenskapen til en `GeoSeries`\n", "data[\"geometry\"].area" ] }, { "cell_type": "markdown", "id": "a2b09c92", "metadata": {}, "source": [ "Det er enkelt å lage en ny kolonne som holder arealet:" ] }, { "cell_type": "code", "execution_count": 53, "id": "3858e586", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
klasseklasse_navngeometryareal
0100myrPOLYGON ((265791.900 6614994.650, 265790.180 6...1955.48975
1100myrPOLYGON ((262206.270 6628558.130, 262202.640 6...1101.93145
2100myrPOLYGON ((265299.880 6621504.120, 265294.080 6...2657.99245
3100myrPOLYGON ((260561.580 6622897.200, 260562.110 6...6740.99175
4100myrPOLYGON ((265326.090 6621350.040, 265320.020 6...2715.09810
...............
1281120tettbebyggelsePOLYGON ((264495.760 6627874.970, 264495.310 6...332.87820
1282120tettbebyggelsePOLYGON ((264428.770 6627393.320, 264429.130 6...157.27005
1283120tettbebyggelsePOLYGON ((264328.880 6627669.330, 264329.240 6...229322.51250
1284120tettbebyggelsePOLYGON ((262436.510 6622047.280, 262438.610 6...278301.64510
1285120tettbebyggelsePOLYGON ((264288.040 6627606.730, 264280.250 6...36206.47765
\n", "

1286 rows × 4 columns

\n", "
" ], "text/plain": [ " klasse klasse_navn \\\n", "0 100 myr \n", "1 100 myr \n", "2 100 myr \n", "3 100 myr \n", "4 100 myr \n", "... ... ... \n", "1281 120 tettbebyggelse \n", "1282 120 tettbebyggelse \n", "1283 120 tettbebyggelse \n", "1284 120 tettbebyggelse \n", "1285 120 tettbebyggelse \n", "\n", " geometry areal \n", "0 POLYGON ((265791.900 6614994.650, 265790.180 6... 1955.48975 \n", "1 POLYGON ((262206.270 6628558.130, 262202.640 6... 1101.93145 \n", "2 POLYGON ((265299.880 6621504.120, 265294.080 6... 2657.99245 \n", "3 POLYGON ((260561.580 6622897.200, 260562.110 6... 6740.99175 \n", "4 POLYGON ((265326.090 6621350.040, 265320.020 6... 2715.09810 \n", "... ... ... \n", "1281 POLYGON ((264495.760 6627874.970, 264495.310 6... 332.87820 \n", "1282 POLYGON ((264428.770 6627393.320, 264429.130 6... 157.27005 \n", "1283 POLYGON ((264328.880 6627669.330, 264329.240 6... 229322.51250 \n", "1284 POLYGON ((262436.510 6622047.280, 262438.610 6... 278301.64510 \n", "1285 POLYGON ((264288.040 6627606.730, 264280.250 6... 36206.47765 \n", "\n", "[1286 rows x 4 columns]" ] }, "execution_count": 53, "metadata": {}, "output_type": "execute_result" } ], "source": [ "data[\"areal\"] = data.area\n", "data" ] }, { "cell_type": "markdown", "id": "cd83e402", "metadata": {}, "source": [ ":::{admonition} Beskrivende statistikk\n", ":class: hint\n", "\n", "Vet du hvordan du beregner *minimum*, *maksimum*, *sum*, *gjennomsnitt*, og\n", "*standardavvik* av en pandas-kolonne? ([Les mer her, hvis du trenger å friske opp Pandas-kunnskapene dine](https://pythongis.org/part1/chapter-03/nb/00-pandas-basics.html#descriptive-statistics))\n", "Hva er disse verdiene for arealkolonnen i datasettet?\n", ":::\n", "\n", "\n", "\n", "## Lagre en delmengde av data til en fil\n", "\n", "[Tidligere](#03_vektor), har vi lært\n", "hvordan vi skriver en hel `GeoDataFrame` til en fil. Vi kan også skrive en\n", "filtrert delmengde av et datasett til en ny fil, f.eks. for å hjelpe med behandlingen av komplekse datasett.\n", "\n", "Først, isoler innsjøene i inngangsdatasettet (klassenummer `200`, se tabell\n", "over):" ] }, { "cell_type": "code", "execution_count": 54, "id": "c79edd7e", "metadata": {}, "outputs": [], "source": [ "innsjoer = data[data.klasse == 200]" ] }, { "cell_type": "markdown", "id": "c0e8cae8", "metadata": {}, "source": [ "Deretter, tegn datadelmengden for å visuelt sjekke om den ser riktig ut:" ] }, { "cell_type": "code", "execution_count": 55, "id": "9f823abe", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 55, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "innsjoer.plot()" ] }, { "cell_type": "markdown", "id": "9789f576", "metadata": {}, "source": [ "Og til slutt, skriv de filtrerte dataene til en Shapefile:" ] }, { "cell_type": "code", "execution_count": 56, "id": "68f87a89", "metadata": {}, "outputs": [], "source": [ "innsjoer.to_file(DATA_MAPPE / \"arealdekke\" / \"innsjoer.gpkg\")" ] }, { "cell_type": "markdown", "id": "212094a8-d518-4d80-9207-eb17d9b46b1c", "metadata": {}, "source": [ "Sjekk [Vector Data I/O](#03_vektor) avsnittet for å se hvilke dataformater\n", "geopandas kan skrive til." ] }, { "cell_type": "markdown", "id": "a3351d5f", "metadata": {}, "source": [ "## Gruppering av data\n", "\n", "En spesielt nyttig metode i (geo)pandas' dataframes er deres grupperingsfunksjon: [`groupby()`](https://pandas.pydata.org/docs/user_guide/groupby.html)\n", "kan **dele data inn i grupper** basert på noen kriterier, **bruke** en funksjon\n", "individuelt til hver av gruppene, og **kombinere** resultater av en slik\n", "operasjon i en felles datastruktur.\n", "\n", "Vi kan bruke *gruppering* her for å dele inputdatasettet vårt i delmengder som relatere\n", "til hver av `klasse`ne i arealdekke, deretter lagre en separat fil for hver\n", "klasse.\n", "\n", "La oss starte dette ved igjen å ta en titt på hvordan datasettet faktisk ser ut:" ] }, { "cell_type": "code", "execution_count": 57, "id": "39f59197", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
klasseklasse_navngeometryareal
0100myrPOLYGON ((265791.900 6614994.650, 265790.180 6...1955.48975
1100myrPOLYGON ((262206.270 6628558.130, 262202.640 6...1101.93145
2100myrPOLYGON ((265299.880 6621504.120, 265294.080 6...2657.99245
3100myrPOLYGON ((260561.580 6622897.200, 260562.110 6...6740.99175
4100myrPOLYGON ((265326.090 6621350.040, 265320.020 6...2715.09810
\n", "
" ], "text/plain": [ " klasse klasse_navn geometry \\\n", "0 100 myr POLYGON ((265791.900 6614994.650, 265790.180 6... \n", "1 100 myr POLYGON ((262206.270 6628558.130, 262202.640 6... \n", "2 100 myr POLYGON ((265299.880 6621504.120, 265294.080 6... \n", "3 100 myr POLYGON ((260561.580 6622897.200, 260562.110 6... \n", "4 100 myr POLYGON ((265326.090 6621350.040, 265320.020 6... \n", "\n", " areal \n", "0 1955.48975 \n", "1 1101.93145 \n", "2 2657.99245 \n", "3 6740.99175 \n", "4 2715.09810 " ] }, "execution_count": 57, "metadata": {}, "output_type": "execute_result" } ], "source": [ "data.head()" ] }, { "cell_type": "markdown", "id": "fbda2c64", "metadata": {}, "source": [ "Husk: kolonnen `klasse` inneholder informasjon om en polygons arealbrukstype. Bruk metoden [`pandas.Series.unique()`](https://pandas.pydata.org/docs/reference/api/pandas.Series.unique.html) for å liste alle verdier som forekommer:" ] }, { "cell_type": "code", "execution_count": 58, "id": "259800c7", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([100, 200, 700, 600, 500, 400, 300, 800, 900, 110, 120])" ] }, "execution_count": 58, "metadata": {}, "output_type": "execute_result" } ], "source": [ "data[\"klasse\"].unique()" ] }, { "cell_type": "markdown", "id": "893e9a94", "metadata": {}, "source": [ "For å gruppere data, bruk data-rammens `groupby()` metode, oppgi et kolonnenavn som parameter:" ] }, { "cell_type": "code", "execution_count": 60, "id": "dfe88718", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 60, "metadata": {}, "output_type": "execute_result" } ], "source": [ "gruppert_data = data.groupby(\"klasse\")\n", "gruppert_data" ] }, { "cell_type": "markdown", "id": "5e765e36", "metadata": {}, "source": [ "Så, `gruppert_data` er et `DataFrameGroupBy` objekt. Inne i et `GroupBy` objekt,\n", "er egenskapen `groups` en ordbok som fungerer som en oppslagstabell: den registrerer\n", "hvilke rader som hører til hvilken gruppe. Nøklene i ordboken er de unike\n", "verdiene av gruppekolonnen:" ] }, { "cell_type": "code", "execution_count": 62, "id": "d1b2d982", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "{100: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21], 110: [1255, 1256], 120: [1257, 1258, 1259, 1260, 1261, 1262, 1263, 1264, 1265, 1266, 1267, 1268, 1269, 1270, 1271, 1272, 1273, 1274, 1275, 1276, 1277, 1278, 1279, 1280, 1281, 1282, 1283, 1284, 1285], 200: [22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101], 300: [775, 776, 777, 778, 779, 780, 781, 782, 783], 400: [773, 774], 500: [770, 771, 772], 600: [623, 624, 625, 626, 627, 628, 629, 630, 631, 632, 633, 634, 635, 636, 637, 638, 639, 640, 641, 642, 643, 644, 645, 646, 647, 648, 649, 650, 651, 652, 653, 654, 655, 656, 657, 658, 659, 660, 661, 662, 663, 664, 665, 666, 667, 668, 669, 670, 671, 672, 673, 674, 675, 676, 677, 678, 679, 680, 681, 682, 683, 684, 685, 686, 687, 688, 689, 690, 691, 692, 693, 694, 695, 696, 697, 698, 699, 700, 701, 702, 703, 704, 705, 706, 707, 708, 709, 710, 711, 712, 713, 714, 715, 716, 717, 718, 719, 720, 721, 722, ...], 700: [102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200, 201, ...], 800: [784, 785, 786, 787, 788, 789, 790, 791, 792, 793, 794, 795, 796, 797, 798, 799, 800, 801, 802, 803, 804, 805, 806, 807, 808, 809, 810, 811, 812, 813, 814, 815, 816, 817, 818, 819, 820, 821, 822, 823, 824, 825, 826, 827, 828, 829, 830, 831, 832, 833, 834, 835, 836, 837, 838, 839, 840, 841, 842, 843, 844, 845, 846, 847, 848, 849, 850, 851, 852, 853, 854, 855, 856, 857, 858, 859, 860, 861, 862, 863, 864, 865, 866, 867, 868, 869, 870, 871, 872, 873, 874, 875, 876, 877, 878, 879, 880, 881, 882, 883, ...], 900: [1242, 1243, 1244, 1245, 1246, 1247, 1248, 1249, 1250, 1251, 1252, 1253, 1254]}" ] }, "execution_count": 62, "metadata": {}, "output_type": "execute_result" } ], "source": [ "gruppert_data.groups" ] }, { "cell_type": "markdown", "id": "fcc6f43b", "metadata": {}, "source": [ "Imidlertid kan man også ganske enkelt iterere over hele `GroupBy` objektet. La oss\n", "telle hvor mange rader med data hver gruppe har:" ] }, { "cell_type": "code", "execution_count": 63, "id": "01072ba9", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Arealdekkeklasse 100 har 22 rader.\n", "Arealdekkeklasse 110 har 2 rader.\n", "Arealdekkeklasse 120 har 29 rader.\n", "Arealdekkeklasse 200 har 80 rader.\n", "Arealdekkeklasse 300 har 9 rader.\n", "Arealdekkeklasse 400 har 2 rader.\n", "Arealdekkeklasse 500 har 3 rader.\n", "Arealdekkeklasse 600 har 147 rader.\n", "Arealdekkeklasse 700 har 521 rader.\n", "Arealdekkeklasse 800 har 458 rader.\n", "Arealdekkeklasse 900 har 13 rader.\n" ] } ], "source": [ "for key, group in gruppert_data:\n", " print(f\"Arealdekkeklasse {key} har {len(group)} rader.\")" ] }, { "cell_type": "markdown", "id": "63b80254", "metadata": {}, "source": [ "Det er for eksempel 80 innsjøpolygoner (klasse `200`) i inngangsdatasettet.\n", "\n", "For å få alle rader som tilhører en bestemt gruppe, bruk `get_group()`\n", "metoden, som returnerer en helt ny `GeoDataFrame`:" ] }, { "cell_type": "code", "execution_count": 65, "id": "a1e32392", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "geopandas.geodataframe.GeoDataFrame" ] }, "execution_count": 65, "metadata": {}, "output_type": "execute_result" } ], "source": [ "innsjøer = gruppert_data.get_group(200)\n", "type(innsjøer)" ] }, { "cell_type": "markdown", "id": "25aafb13", "metadata": {}, "source": [ ":::{caution}OBS\n", "Indeksen i den nye data-frammen forblir den samme som i det ugrupperte inputdatasettet.\n", "Dette kan være nyttig, for eksempel når du vil slå sammen de grupperte dataene\n", "tilbake til de originale inputdataene.\n", ":::\n", "\n", "\n", "## Skriv grupperte data til separate filer\n", "\n", "Nå har vi alle nødvendige verktøy for hånden for å dele inputdataene i\n", "separate datasett for hver arealdekkeklasse, og skrive de individuelle delmengdene til\n", "nye, separate, filer. Faktisk ser koden nesten for enkel ut, gjør den ikke?" ] }, { "cell_type": "code", "execution_count": 67, "id": "bcbd8fc0", "metadata": {}, "outputs": [], "source": [ "# Iterer over inngangsdataene, gruppert etter \"klasse\"\n", "for key, group in data.groupby(\"klasse\"):\n", " # lagre gruppen til en ny shapefile\n", " group.to_file(DATA_MAPPE / \"arealdekke\" / f\"arealdekke_{key}.gpkg\")" ] }, { "cell_type": "markdown", "id": "00876918", "metadata": {}, "source": [ ":::{admonition} Filnavn\n", ":class: attention\n", "\n", "Vi brukte en `pathlib.Path` kombinert med en f-streng for å generere den nye output-filens sti og navn. Sjekk [Håndtering av filstier-notebooken](#03_filstier)\n", "for å gå gjennom hvordan de fungerer.\n", ":::\n", "\n", "\n", "## Ekstra: lagre sammendragsstatistikk til CSV regneark\n", "\n", "Når resultatene av en operasjon på en `GeoDataFrame` ikke inkluderer en\n", "geometri, vil data-rammen som kommer ut automatisk bli en 'vanlig'\n", "`pandas.DataFrame`, og kan lagres til standard tabellformater.\n", "\n", "En interessant anvendelse av dette er å lagre grunnleggende beskrivende statistikk av et geografisk datasett til en CSV-tabell. For eksempel ønsker vi kanskje å vite arealet hver arealdekkeklasse dekker.\n", "\n", "Igjen starter vi med å gruppere inputdataene etter arealdekke, og deretter beregne summen av hver klasses areal. Dette kan kondenseres til en linje med kode:" ] }, { "cell_type": "code", "execution_count": 69, "id": "5eb727ae", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "klasse\n", "100 3.330440e+05\n", "110 1.382096e+05\n", "120 4.700334e+06\n", "200 1.839231e+06\n", "300 9.028421e+05\n", "400 1.024443e+06\n", "500 3.651047e+04\n", "600 3.785512e+07\n", "700 8.280398e+06\n", "800 4.854529e+07\n", "900 1.094627e+05\n", "Name: areal, dtype: float64" ] }, "execution_count": 69, "metadata": {}, "output_type": "execute_result" } ], "source": [ "areal_informasjon = data.groupby(\"klasse\").areal.sum()\n", "areal_informasjon" ] }, { "cell_type": "markdown", "id": "02e752b4", "metadata": {}, "source": [ "Vi kan deretter lagre den resulterende tabellen til en CSV-fil ved å bruke standard pandas tilnærming." ] }, { "cell_type": "code", "execution_count": 70, "id": "72bd1eb1", "metadata": {}, "outputs": [], "source": [ "areal_informasjon.to_csv(DATA_MAPPE / \"arealdekke\" / \"areal_per_arealdekkeklasse.csv\")" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.11.9" } }, "nbformat": 4, "nbformat_minor": 5 }