{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# 📥 Øving 3\n", "\n", "I denne øvingen skal du jobbe med å lese og bruke romlige data ved hjelp av GeoPandas.\n", "\n", "Øvingsoppgaven finner du på Canvas under Oppgaver, eller på [dette GitHub-repoet](https://github.com/GMGI221-2024/gmgi221-ovinger).\n", "\n", "Last den ned, åpne den i Jupyter Notebooks/Lab eller den editoren du bruker og følg instruksjonene i Notebooken. Lever den så inn på Canvas etter du har endret navn til \"oving3-ditt_navn.ipynb\"." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Tips til oppgaven:\n", "\n", "### Pandas `apply()`-metoden:\n", "\n", "Pandas' DataFrames har en metode `apply()` som kjører en brukerdefinert funksjon på hver rad eller på hver kolonne (avhengig av `axis`-parameteren, hvis `axis=1`, fungerer `apply()` på rader).\n", "\n", "Resultatene av å kjøre funksjonen gjentatte ganger (parallelt, for å være presis) samles i en pandas.GeoSeries som er returverdien av `apply()` og kan tilordnes til en ny kolonne eller rad.\n", "\n", "For eksempel kan dette brukes for å lage punkt-geometrier:\n", "\n", "```python\n", "def create_point(row):\n", " \"\"\"Create a Point geometry from a row with x and y values.\"\"\"\n", " point = shapely.geometry.Point(row[\"x\"], row[\"y\"])\n", " return point\n", "\n", "point_series = data.apply(create_point, axis=1)\n", "```\n", "\n", "#### Bruke en anonym `lambda`-funksjon med `apply()`\n", "\n", "Til slutt, for enkle funksjoner som passer på en enkelt linje, kan vi sende funksjonen inn i såkalt 'lambda-notasjon'. Lambda-funksjoner følger syntaksen `lambda argumenter: returverdi`, dvs. nøkkelordet `lambda` etterfulgt av ett eller flere, kommaseparerte argumentnavn (inputvariabler), et kolon (:), og returverdi-setningen (f.eks. en beregning). En lambda-funksjon som aksepterer to argumenter og returnerer summen av dem, vil se slik ut: `lambda a, b: (a + b)`.\n", "\n", "Lambda-funksjoner kan bare brukes der de er definert, men tilbyr en praktisk snarvei for å slippe separate funksjoner for enkle uttrykk. De er svært vanlige i datavitenskapsprosjekter, men bør ikke brukes for mye: som en tommelfingerregel, ikke bruk lambda-funksjoner hvis koden deres ikke passer på en (kort) linje.\n", "\n", "Les mer om lambda-funksjoner i [Python-dokumentasjonen](https://docs.python.org/3/tutorial/controlflow.html#lambda-expressions)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Konvertere en `pandas.DataFrame` til en `geopandas.GeoDataFrame`\n", "\n", "Noen ganger jobber vi med data som er i et ikke-romlig format (som Excel\n", "eller CSV-regneark) men inneholder informasjon om plasseringen av poster, for\n", "eksempel, i kolonner for lengde- og breddegradverdier. Mens geopandas sin\n", "`read_file()`-funksjon kan lese noen formater, er det ofte tryggest å bruke\n", "pandas for å lese datasettet og deretter konvertere det til en `GeoDataFrame`.\n", "\n", "La oss anta at vi leser følgende tabell ved å bruke `pandas.read_csv()` inn i en\n", "variabel `df`:" ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "tags": [ "remove-input" ] }, "outputs": [], "source": [ "# sample data\n", "import pandas\n", "df = pandas.DataFrame({\n", " \"longitude\": [24.9557, 24.8353, 24.9587],\n", " \"latitude\": [60.1555, 60.1878, 60.2029]\n", "})" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
longitudelatitude
024.955760.1555
124.835360.1878
224.958760.2029
\n", "
" ], "text/plain": [ " longitude latitude\n", "0 24.9557 60.1555\n", "1 24.8353 60.1878\n", "2 24.9587 60.2029" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`geopandas.GeoDataFrame()`-konstruktøren aksepterer en `pandas.DataFrame` som input, men den fyller ikke automatisk `geometry`-kolonnen. Biblioteket kommer imidlertid med en praktisk hjelpefunksjon `geopandas.points_from_xy()`. Som vi alle vet, bør et romlig datasett alltid ha et koordinatreferansesystem (CRS) definert; vi kan spesifisere CRS for inngangsdataene her også:" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
longitudelatitudegeometry
024.955760.1555POINT (24.95570 60.15550)
124.835360.1878POINT (24.83530 60.18780)
224.958760.2029POINT (24.95870 60.20290)
\n", "
" ], "text/plain": [ " longitude latitude geometry\n", "0 24.9557 60.1555 POINT (24.95570 60.15550)\n", "1 24.8353 60.1878 POINT (24.83530 60.18780)\n", "2 24.9587 60.2029 POINT (24.95870 60.20290)" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import geopandas\n", "\n", "gdf = geopandas.GeoDataFrame(\n", " df,\n", " geometry=geopandas.points_from_xy(df.longitude, df.latitude),\n", " crs=\"EPSG:4326\"\n", ")\n", "\n", "gdf" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Nå har vi en 'ordentlig' `GeoDataFrame` som vi kan utføre alle romlige operasjoner vi ønsker med.\n", "\n", "### Opprette en ny `geopandas.GeoDataFrame`: alternativ 1\n", "\n", "Noen ganger gir det mening å starte fra bunnen av med et tomt datasett og gradvis legge til poster. Selvfølgelig er dette også mulig med geopandas' dataframes, som deretter kan lagres som en ny geopackage eller shapefil.\n", "\n", "Først, opprett en helt tom `GeoDataFrame`:" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [], "source": [ "import geopandas\n", "\n", "new_geodataframe = geopandas.GeoDataFrame()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Deretter, opprett shapely-geometriobjekter og legg dem inn i dataframen. For å legge inn et geometriobjekt i `geometry`-kolonnen, og et navn i `name`-kolonnen, i en ny rad, bruk:" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
namegeometry
0StortorgetPOLYGON ((10.74487 59.91309, 10.74455 59.91273...
\n", "
" ], "text/plain": [ " name geometry\n", "0 Stortorget POLYGON ((10.74487 59.91309, 10.74455 59.91273..." ] }, "execution_count": 22, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import shapely.geometry\n", "polygon = shapely.geometry.Polygon(\n", " [\n", " (10.744868,59.913090),\n", " (10.744548,59.912731),\n", " (10.745796,59.912435),\n", " (10.746048,59.912704)\n", " ]\n", ")\n", "name = \"Stortorget\"\n", "\n", "new_geodataframe.loc[\n", " len(new_geodataframe), # in which row,\n", " [\"name\", \"geometry\"] # in which columns to save values\n", "] = [name, polygon]\n", "\n", "new_geodataframe" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Før du lagrer det nyopprettede datasettet, ikke glem å definere et kartografisk referansesystem for det. Ellers vil du få problemer med å gjenbruke filen i andre programmer:" ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 23, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "new_geodataframe = new_geodataframe.set_geometry(\"geometry\")\n", "new_geodataframe.crs = \"EPSG:4326\"" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ ":::{hint}\n", "I eksempelet ovenfor brukte vi `len(new_geodataframe)` som en radindeks\n", "(som, i en nyopprettet dataframe, er ekvivalent med radnummeret). Siden\n", "rader telles fra 0, er antall rader (lengden på dataframen) en større enn adressen til den siste raden. Dette uttrykket legger derfor alltid til en ny rad, uavhengig av den faktiske lengden på dataframen.\n", "\n", "Merk at, strengt tatt, er indeksen uavhengig av radnummeret,\n", "men i nyopprettede dataframes er de identiske.\n", ":::\n", "\n", "### Opprette en ny `geopandas.GeoDataFrame`: alternativ 2\n", "\n", "Ofte er det mer praktisk og mer elegant å først opprette en ordbok (dictionary)\n", "for å samle data, som deretter kan konverteres til en dataframe på en gang.\n", "\n", "For dette, definer først en `dict` med kolonnenavnene som nøkler, og tomme `list`er\n", "som verdier:\n" ] }, { "cell_type": "code", "execution_count": 24, "metadata": {}, "outputs": [], "source": [ "data = {\n", " \"name\": [],\n", " \"geometry\": []\n", "}" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Deretter fyller du ordboken med data:" ] }, { "cell_type": "code", "execution_count": 25, "metadata": {}, "outputs": [], "source": [ "import shapely.geometry\n", "\n", "data[\"name\"].append(\"Stortorget\")\n", "data[\"geometry\"].append(\n", " shapely.geometry.Polygon(\n", " [\n", " (10.744868,59.913090),\n", " (10.744548,59.912731),\n", " (10.745796,59.912435),\n", " (10.746048,59.912704)\n", " ]\n", " )\n", ")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Til slutt, bruk denne ordboken som input for en ny `GeoDataFrame`. Ikke glem å spesifisere et CRS:" ] }, { "cell_type": "code", "execution_count": 26, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
namegeometry
0StortorgetPOLYGON ((10.74487 59.91309, 10.74455 59.91273...
\n", "
" ], "text/plain": [ " name geometry\n", "0 Stortorget POLYGON ((10.74487 59.91309, 10.74455 59.91273..." ] }, "execution_count": 26, "metadata": {}, "output_type": "execute_result" } ], "source": [ "new_geodataframe = geopandas.GeoDataFrame(data, crs=\"EPSG:4326\")\n", "new_geodataframe" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ ":::{note}\n", "Disse to tilnærmingene resulterer i identiske `GeoDataFrame`s. Noen ganger er den ene teknikken mer praktisk enn den andre. Du bør alltid vurdere forskjellige måter å løse et problem på, og finne den mest passende og effektive løsningen (det finnes **alltid** mer enn én mulig løsning).\n", ":::" ] } ], "metadata": { "kernelspec": { "display_name": "gmgi221", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.11.9" } }, "nbformat": 4, "nbformat_minor": 2 }