💻 Geokoding i geopandas#

Open In Colab

Geopandas støtter geokoding via et bibliotek kalt geopy, som må være installert for å bruke geopandas ‘ geopandas.tools.geocode() funksjon. geocode() forventer en liste eller pandas.Series av adresser (strenger) og returnerer en GeoDataFrame med løste adresser og punktgeometrier.

La oss prøve dette ut.

Vi vil geokode adresser lagret i en semikolon-separert tekstfil kalt adresser.txt. Disse adressene ligger i alle i Oslo.

import pathlib
NOTEBOOK_PATH = pathlib.Path().resolve()
DATA_MAPPE = NOTEBOOK_PATH / "data"
import pandas
adresser = pandas.read_csv(
    DATA_MAPPE / "oslo_adresser" / "adresser.txt",
    sep=";"
)

adresser.head()
id adr
0 100 Statsråd Mathiesens vei 25, 0594 OSLO
1 101 Slimeveien 15, 1275 OSLO
2 102 Sognsveien 80, 0855 OSLO
3 103 Ullevålsveien 5, 0165 OSLO
4 104 Nydalsveien 30b, 0484 OSLO

Vi har en id for hver rad og en adresse i adr kolonnen.

Geokode adresser ved hjelp av Nominatim#

I vårt eksempel vil vi bruke Nominatim som en geokodingstilbyder. Nominatim er et bibliotek og en tjeneste som bruker OpenStreetMap-data, og drives av OpenStreetMap Foundation. Geopandas ‘ geocode() funksjon støtter den innebygd.

God bruk

Nominatims brukervilkår krever at brukere av tjenesten sørger for at de ikke sender mer hyppige forespørsler enn en per sekund, og at en tilpasset bruker-agent streng er knyttet til hver forespørsel.

Geopandas’ implementering lar oss spesifisere en user_agent; biblioteket tar også hånd om å respektere hastighetsbegrensningen til Nominatim.

Å slå opp en adresse er en ganske kostbar databaseoperasjon. Derfor er det, noen ganger, den offentlige og gratise Nominatim-serveren bruker litt lenger tid å på svare. I dette eksempelet legger vi til en parameter timeout=10 for å vente opptil 10 sekunder for et svar.

import geopandas

geokodede_adresser = geopandas.tools.geocode(
    adresser["adr"],
    provider="nominatim",
    user_agent="gmgi221",
    timeout=10
)
geokodede_adresser.head()
geometry address
0 POINT (10.83648 59.94104) 25, Statsråd Mathiesens vei, Linderud, Bjerke,...
1 POINT (10.83432 59.83557) 15, Slimeveien, Bjørnholt, Søndre Nordstrand, ...
2 POINT (10.72956 59.95011) Sognsveien 80, Konvallveien, Sogn, Nordre Aker...
3 POINT (10.74356 59.91863) 5, Ullevålsveien, Hammersborg, St. Hanshaugen,...
4 POINT (10.76402 59.9503) 30B, Nydalsveien, Nydalen, Nordre Aker, Oslo, ...

Et voilà! Som et resultat fikk vi tilbake en GeoDataFrame som inneholder en analysert versjon av våre originale adresser og en geometry kolonne med shapely.geometry.Points som vi kan bruke, for eksempel, til å eksportere dataene til et romlig dataformat.

Imidlertid ble id-kolonnen forkastet i prosessen. For å kombinere inputdatasettet med resultatsettet vårt, kan vi bruke pandas’ join operasjoner.

Koble sammen dataframes#

Koble sammen datasett ved hjelp av pandas

For en omfattende oversikt over forskjellige måter å kombinere dataframes og Series, ta en titt på pandas dokumentasjon om merge, join og concatenate.

Å koble data fra to eller flere dataframes eller tabeller er en vanlig oppgave i mange (romlige) dataanalysearbeidsflyter. Som du kanskje husker fra våre tidligere timer, kan kombinering av data fra forskjellige tabeller basert på en felles nøkkel-attributt gjøres enkelt i pandas/geopandas ved hjelp av merge() funksjonen.

Men, noen ganger er det nyttig å koble to dataframes sammen basert på deres indeks. Dataframes må ha samme antall rader og dele den samme indeksen (enkelt forklart, de skal ha samme rekkefølge av rader).

Vi kan bruke denne tilnærmingen, for å koble informasjon fra den originale dataframen adresser til de geokodede adressene geokodede_adresser, rad for rad. join()-funksjonen, som standard, kobler to dataframes basert på indeksen deres. Dette fungerer for eksemplet vårt, da rekkefølgen på de to dataframesene er identiske.

geokodede_adresser_med_id = geokodede_adresser.join(adresser)
geokodede_adresser_med_id
geometry address id adr
0 POINT (10.83648 59.94104) 25, Statsråd Mathiesens vei, Linderud, Bjerke,... 100 Statsråd Mathiesens vei 25, 0594 OSLO
1 POINT (10.83432 59.83557) 15, Slimeveien, Bjørnholt, Søndre Nordstrand, ... 101 Slimeveien 15, 1275 OSLO
2 POINT (10.72956 59.95011) Sognsveien 80, Konvallveien, Sogn, Nordre Aker... 102 Sognsveien 80, 0855 OSLO
3 POINT (10.74356 59.91863) 5, Ullevålsveien, Hammersborg, St. Hanshaugen,... 103 Ullevålsveien 5, 0165 OSLO
4 POINT (10.76402 59.9503) 30B, Nydalsveien, Nydalen, Nordre Aker, Oslo, ... 104 Nydalsveien 30b, 0484 OSLO
5 POINT (10.75292 59.919) 3, Vestre Elvebakke, Fredensborg, Grünerløkka,... 105 Vestre Elvebakke 3, 0182 OSLO
6 POINT (10.79645 59.90968) 5, Etterstadsletta, Gamle Oslo, Oslo, 0660, Norge 106 Etterstadsletta 5, 0660 OSLO
7 POINT (10.75544 59.92704) 20, Steenstrups gate, Grünerløkka, Oslo, 0554,... 107 Steenstrups gate 20, 0554 OSLO
8 POINT (10.79432 59.91526) 21, Fyrstikkalléen, Lilleberg, Gamle Oslo, Osl... 108 Fyrstikkalleen 21, 0661 OSLO
9 POINT (10.71724 59.91854) Niels Juels gate, Uranienborg, Frogner, Oslo, ... 109 Niels Juels gate 56, 0259 OSLO
10 POINT (10.84019 59.91439) 6, Wilhelm Stenersens vei, Tveita, Alna, Oslo,... 110 Wilhelm Stenersens vei 6, 0671 OSLO
11 POINT (10.76403 59.91812) 20B, Herslebs gate, Grønland, Gamle Oslo, Oslo... 111 Herslebs gate 20B, 0561 OSLO
12 POINT (10.78564 59.88545) 124, Ekebergveien, Holtet, Nordstrand, Oslo, 1... 112 Ekebergveien 124, 1178 OSLO
13 POINT (10.74013 59.93902) Ullevål sykehus, John Colletts allé, Ullevål h... 113 Ullevål sykehus, 0450 OSLO
14 POINT (10.75824 59.89739) 30, Kongsveien, Grønlia, Gamle Oslo, Oslo, 019... 114 Kongsveien 30, 0193 OSLO
15 POINT (10.7903 59.91467) Gladengveien 3B, Gladengveien, Ensjø, Gamle Os... 115 Gladengveien 3B, 0661 OSLO
16 POINT (10.81631 59.92734) 10, Kabelgata, Mellom-Hovin, Bjerke, Oslo, 058... 116 Kabelgata 10, 0580 OSLO
17 POINT (10.81041 59.87888) 6, Cecilie Thoresens vei, Karlsrud, Nordstrand... 117 Cecilie Thoresens vei 6, 1153 OSLO
18 POINT (10.71752 59.95709) 67, Sognsvannsveien, Rabben, Nordre Aker, Oslo... 118 Sognsvannsveien 67, 0372 OSLO
19 POINT (10.76286 59.95056) 30C, Nydalsveien, Nydalen, Nordre Aker, Oslo, ... 119 Nydalsveien 30c, 0484 OSLO
20 POINT (10.7206 59.91399) 65, Parkveien, Ruseløkka, Frogner, Oslo, 0254,... 120 Parkveien 65, 0254 OSLO
21 POINT (10.7416 59.92115) 31, Ullevålsveien, Hammersborg, St. Hanshaugen... 121 Ullevålsveien 31, 0131 OSLO
22 POINT (10.65787 59.94535) 1, Gamle Hovsetervei, Nordre Huseby, Vestre Ak... 122 Gamle Hovsetervei 1, 0768 OSLO
23 POINT (10.92678 59.9605) 25, Karl Fossums vei, Fossum, Stovner, Oslo, 0... 123 Karl Fossums vei 25, 0913 OSLO
24 POINT (10.71712 59.94804) 11, Sognsvannsveien, Gaustad, Nordre Aker, Osl... 124 Sognsvannsveien 11, 0372 OSLO
25 POINT (10.66345 59.93113) 66, Ullernchausséen, Montebello, Ullern, Oslo,... 125 Ullernchaussèen 66, 0379 OSLO
26 POINT (10.85068 59.88579) 5, Tor Jonssons veg, Myrvoll, Østensjø, Oslo, ... 126 Tor Jonssons veg 5, 0688 OSLO
27 POINT (10.80587 59.91724) 16G, Innspurten, Gullhaug, Gamle Oslo, Oslo, 0... 127 Innspurten 16, 0663 OSLO
28 POINT (10.72413 59.91304) 30, Cort Adelers gate, Ruseløkka, Frogner, Osl... 128 Cort Adelers gate 30, 0254 OSLO
29 POINT (10.78756 59.93246) Lørenveien 11, Lørenveien, Sinsen, Grünerløkka... 129 Lørenveien 11, 0585 OSLO

Utdataen fra join() er en ny geopandas.GeoDataFrame:

type(geokodede_adresser_med_id)
geopandas.geodataframe.GeoDataFrame

Den nye data rammen har alle originale kolonner pluss nye kolonner for geometry og for en analysert adresse som kan brukes til å spot-sjekke resultatene.

Note

Hvis du skulle gjøre join den andre veien, dvs. adresser.join(geokodede_adresser), ville utdata være en pandas.DataFrame, ikke en geopandas.GeoDataFrame.


Det er nå enkelt å lagre det nye datasettet som en geospatial fil, for eksempel, i GeoPackage format:

geokodede_adresser_med_id.to_file(DATA_MAPPE / "oslo_adresser" / "adresser.gpkg")