💻 Geokoding i geopandas#
Geopandas støtter geokoding via et bibliotek kalt
geopy, som må være installert for å bruke
geopandas ‘ geopandas.tools.geocode()
funksjon.
geocode()
forventer en liste
eller pandas.Series
av adresser (strenger) og
returnerer en GeoDataFrame
med løste adresser og punktgeometrier.
La oss prøve dette ut.
Vi vil geokode adresser lagret i en semikolon-separert tekstfil kalt
adresser.txt
. Disse adressene ligger i alle i Oslo.
import pathlib
NOTEBOOK_PATH = pathlib.Path().resolve()
DATA_MAPPE = NOTEBOOK_PATH / "data"
import pandas
adresser = pandas.read_csv(
DATA_MAPPE / "oslo_adresser" / "adresser.txt",
sep=";"
)
adresser.head()
id | adr | |
---|---|---|
0 | 100 | Statsråd Mathiesens vei 25, 0594 OSLO |
1 | 101 | Slimeveien 15, 1275 OSLO |
2 | 102 | Sognsveien 80, 0855 OSLO |
3 | 103 | Ullevålsveien 5, 0165 OSLO |
4 | 104 | Nydalsveien 30b, 0484 OSLO |
Vi har en id
for hver rad og en adresse i adr
kolonnen.
Geokode adresser ved hjelp av Nominatim#
I vårt eksempel vil vi bruke Nominatim som en geokodingstilbyder. Nominatim er et bibliotek og en tjeneste som bruker OpenStreetMap-data, og drives av OpenStreetMap Foundation. Geopandas ‘
geocode()
funksjon støtter den innebygd.
God bruk
Nominatims brukervilkår krever at brukere av tjenesten sørger for at de ikke sender mer hyppige forespørsler enn en per sekund, og at en tilpasset bruker-agent streng er knyttet til hver forespørsel.
Geopandas’ implementering lar oss spesifisere en user_agent
; biblioteket tar også
hånd om å respektere hastighetsbegrensningen til Nominatim.
Å slå opp en adresse er en ganske kostbar databaseoperasjon. Derfor er det,
noen ganger, den offentlige og gratise Nominatim-serveren bruker litt lenger tid å på
svare. I dette eksempelet legger vi til en parameter timeout=10
for å vente opptil 10
sekunder for et svar.
import geopandas
geokodede_adresser = geopandas.tools.geocode(
adresser["adr"],
provider="nominatim",
user_agent="gmgi221",
timeout=10
)
geokodede_adresser.head()
geometry | address | |
---|---|---|
0 | POINT (10.83648 59.94104) | 25, Statsråd Mathiesens vei, Linderud, Bjerke,... |
1 | POINT (10.83432 59.83557) | 15, Slimeveien, Bjørnholt, Søndre Nordstrand, ... |
2 | POINT (10.72956 59.95011) | Sognsveien 80, Konvallveien, Sogn, Nordre Aker... |
3 | POINT (10.74356 59.91863) | 5, Ullevålsveien, Hammersborg, St. Hanshaugen,... |
4 | POINT (10.76402 59.9503) | 30B, Nydalsveien, Nydalen, Nordre Aker, Oslo, ... |
Et voilà! Som et resultat fikk vi tilbake en GeoDataFrame
som inneholder en analysert
versjon av våre originale adresser og en geometry
kolonne med
shapely.geometry.Point
s som vi kan bruke, for eksempel, til å eksportere dataene til
et romlig dataformat.
Imidlertid ble id
-kolonnen forkastet i prosessen. For å kombinere inputdatasettet med resultatsettet vårt, kan vi bruke pandas’ join
operasjoner.
Koble sammen dataframes#
Koble sammen datasett ved hjelp av pandas
For en omfattende oversikt over forskjellige måter å kombinere dataframes og Series, ta en titt på pandas dokumentasjon om merge, join og concatenate.
Å koble data fra to eller flere dataframes eller tabeller er en vanlig oppgave i mange
(romlige) dataanalysearbeidsflyter. Som du kanskje husker fra våre tidligere
timer, kan kombinering av data fra forskjellige tabeller basert på en felles nøkkel-attributt
gjøres enkelt i pandas/geopandas ved hjelp av merge()
funksjonen.
Men, noen ganger er det nyttig å koble to dataframes sammen basert på deres indeks. Dataframes må ha samme antall rader og dele den samme indeksen (enkelt forklart, de skal ha samme rekkefølge av rader).
Vi kan bruke denne tilnærmingen, for å koble informasjon fra den originale dataframen adresser
til de geokodede adressene geokodede_adresser
, rad for rad.
join()
-funksjonen, som standard, kobler to dataframes basert på indeksen deres.
Dette fungerer for eksemplet vårt, da rekkefølgen på de to dataframesene er identiske.
geokodede_adresser_med_id = geokodede_adresser.join(adresser)
geokodede_adresser_med_id
geometry | address | id | adr | |
---|---|---|---|---|
0 | POINT (10.83648 59.94104) | 25, Statsråd Mathiesens vei, Linderud, Bjerke,... | 100 | Statsråd Mathiesens vei 25, 0594 OSLO |
1 | POINT (10.83432 59.83557) | 15, Slimeveien, Bjørnholt, Søndre Nordstrand, ... | 101 | Slimeveien 15, 1275 OSLO |
2 | POINT (10.72956 59.95011) | Sognsveien 80, Konvallveien, Sogn, Nordre Aker... | 102 | Sognsveien 80, 0855 OSLO |
3 | POINT (10.74356 59.91863) | 5, Ullevålsveien, Hammersborg, St. Hanshaugen,... | 103 | Ullevålsveien 5, 0165 OSLO |
4 | POINT (10.76402 59.9503) | 30B, Nydalsveien, Nydalen, Nordre Aker, Oslo, ... | 104 | Nydalsveien 30b, 0484 OSLO |
5 | POINT (10.75292 59.919) | 3, Vestre Elvebakke, Fredensborg, Grünerløkka,... | 105 | Vestre Elvebakke 3, 0182 OSLO |
6 | POINT (10.79645 59.90968) | 5, Etterstadsletta, Gamle Oslo, Oslo, 0660, Norge | 106 | Etterstadsletta 5, 0660 OSLO |
7 | POINT (10.75544 59.92704) | 20, Steenstrups gate, Grünerløkka, Oslo, 0554,... | 107 | Steenstrups gate 20, 0554 OSLO |
8 | POINT (10.79432 59.91526) | 21, Fyrstikkalléen, Lilleberg, Gamle Oslo, Osl... | 108 | Fyrstikkalleen 21, 0661 OSLO |
9 | POINT (10.71724 59.91854) | Niels Juels gate, Uranienborg, Frogner, Oslo, ... | 109 | Niels Juels gate 56, 0259 OSLO |
10 | POINT (10.84019 59.91439) | 6, Wilhelm Stenersens vei, Tveita, Alna, Oslo,... | 110 | Wilhelm Stenersens vei 6, 0671 OSLO |
11 | POINT (10.76403 59.91812) | 20B, Herslebs gate, Grønland, Gamle Oslo, Oslo... | 111 | Herslebs gate 20B, 0561 OSLO |
12 | POINT (10.78564 59.88545) | 124, Ekebergveien, Holtet, Nordstrand, Oslo, 1... | 112 | Ekebergveien 124, 1178 OSLO |
13 | POINT (10.74013 59.93902) | Ullevål sykehus, John Colletts allé, Ullevål h... | 113 | Ullevål sykehus, 0450 OSLO |
14 | POINT (10.75824 59.89739) | 30, Kongsveien, Grønlia, Gamle Oslo, Oslo, 019... | 114 | Kongsveien 30, 0193 OSLO |
15 | POINT (10.7903 59.91467) | Gladengveien 3B, Gladengveien, Ensjø, Gamle Os... | 115 | Gladengveien 3B, 0661 OSLO |
16 | POINT (10.81631 59.92734) | 10, Kabelgata, Mellom-Hovin, Bjerke, Oslo, 058... | 116 | Kabelgata 10, 0580 OSLO |
17 | POINT (10.81041 59.87888) | 6, Cecilie Thoresens vei, Karlsrud, Nordstrand... | 117 | Cecilie Thoresens vei 6, 1153 OSLO |
18 | POINT (10.71752 59.95709) | 67, Sognsvannsveien, Rabben, Nordre Aker, Oslo... | 118 | Sognsvannsveien 67, 0372 OSLO |
19 | POINT (10.76286 59.95056) | 30C, Nydalsveien, Nydalen, Nordre Aker, Oslo, ... | 119 | Nydalsveien 30c, 0484 OSLO |
20 | POINT (10.7206 59.91399) | 65, Parkveien, Ruseløkka, Frogner, Oslo, 0254,... | 120 | Parkveien 65, 0254 OSLO |
21 | POINT (10.7416 59.92115) | 31, Ullevålsveien, Hammersborg, St. Hanshaugen... | 121 | Ullevålsveien 31, 0131 OSLO |
22 | POINT (10.65787 59.94535) | 1, Gamle Hovsetervei, Nordre Huseby, Vestre Ak... | 122 | Gamle Hovsetervei 1, 0768 OSLO |
23 | POINT (10.92678 59.9605) | 25, Karl Fossums vei, Fossum, Stovner, Oslo, 0... | 123 | Karl Fossums vei 25, 0913 OSLO |
24 | POINT (10.71712 59.94804) | 11, Sognsvannsveien, Gaustad, Nordre Aker, Osl... | 124 | Sognsvannsveien 11, 0372 OSLO |
25 | POINT (10.66345 59.93113) | 66, Ullernchausséen, Montebello, Ullern, Oslo,... | 125 | Ullernchaussèen 66, 0379 OSLO |
26 | POINT (10.85068 59.88579) | 5, Tor Jonssons veg, Myrvoll, Østensjø, Oslo, ... | 126 | Tor Jonssons veg 5, 0688 OSLO |
27 | POINT (10.80587 59.91724) | 16G, Innspurten, Gullhaug, Gamle Oslo, Oslo, 0... | 127 | Innspurten 16, 0663 OSLO |
28 | POINT (10.72413 59.91304) | 30, Cort Adelers gate, Ruseløkka, Frogner, Osl... | 128 | Cort Adelers gate 30, 0254 OSLO |
29 | POINT (10.78756 59.93246) | Lørenveien 11, Lørenveien, Sinsen, Grünerløkka... | 129 | Lørenveien 11, 0585 OSLO |
Utdataen fra join()
er en ny geopandas.GeoDataFrame
:
type(geokodede_adresser_med_id)
geopandas.geodataframe.GeoDataFrame
Den nye data rammen har alle originale kolonner pluss nye kolonner for geometry
og for en analysert adresse
som kan brukes til å spot-sjekke resultatene.
Note
Hvis du skulle gjøre join den andre veien, dvs. adresser.join(geokodede_adresser)
, ville utdata være en pandas.DataFrame
, ikke en geopandas.GeoDataFrame
.
Det er nå enkelt å lagre det nye datasettet som en geospatial fil, for eksempel, i GeoPackage format:
geokodede_adresser_med_id.to_file(DATA_MAPPE / "oslo_adresser" / "adresser.gpkg")