Assessing automated gap imputation of regional scale groundwater level data sets with typical gap patterns
Responsible organisation
2023 (English)In: Journal of Hydrology, ISSN 0022-1694, E-ISSN 1879-2707, Vol. 620, no Part AArticle in journal (Refereed) Published
Abstract [sv]
Stora datamängder om grundvattennivåer (GWL) är ofta fragmenterade, med hydrografer som innehåller kontinuerliga luckor och oregelbundna mätfrekvenser. De flesta statistiska tidsserieanalyser kräver dock regelbundna observationer, vilket innebär att hydrografer med större luckor rutinmässigt utesluts från vidare analys – trots att detta medför förlust av täckning och representativitet i en ursprungligen stor datamängd. Saknade värden kan fyllas i med olika imputationsmetoder, men utmaningen ligger i att bedöma prestandan hos automatiserade metoder. Bedömningen av sådana metoder genomförs ofta på slumpmässigt införda saknade värden. Emellertid domineras stora GWL-datamängder vanligtvis av mer komplexa mönster av saknade värden, med längre sammanhängande luckor. Denna studie presenterar ett nytt tillvägagångssätt för artificiell introduktion av luckor (TGP – typical gap patterns) som förbättrar vår förståelse av automatiserad imputationsprestanda genom att efterlikna typiska luckmönster som återfinns i grundvattenhydrografer på regional skala. Imputationsprestandan hos maskininlärningsalgoritmerna missForest och imputePCA jämförs därefter med vanlig linjär interpolation för att ta fram en luckfri daglig GWL‑datamängd för de baltiska staterna (Estland, Lettland, Litauen). Vi observerade att imputationsprestandan varierar mellan olika luckmönster och att prestandan för samtliga metoder försämrades vid ifyllnad av tidigare osedda extremvärden samt för hydrografer som påverkats av grundvattenuttag. Vidare överträffade missForest‑algoritmen i hög grad de andra metoderna vid ifyllnad av sammanhängande luckor (upp till 2,5 år), medan linjär interpolation presterade likvärdigt vid korta slumpmässiga luckor. TGP‑metoden kan användas för att bedöma komplexiteten i mönster av saknade observationer i en datamängd, och dess värde ligger i att utvärdera prestandan hos luckifyllnadsmetoder på ett mer realistiskt sätt. Därmed underlättar metoden valet av lämplig imputationsmetod – en uppgift som inte är begränsad till tidsserier av grundvattennivåer. Studien ger dessutom insikter i regionspecifika dataegenskaper som kan stödja grundvattenanalyser och modellering.
Abstract [en]
Large groundwater level (GWL) data sets are often patchy with hydrographs containing continuous gaps and irregular measurement frequencies. However, most statistical time series analyses require regular observations, thus hydrographs with larger gaps are routinely excluded from further analysis despite the loss of coverage and representativity of an initially large data set. Missing values can be filled in with different imputation methods, yet the challenge is to assess the imputation performance of automated methods. Assessment of such methods tends to be carried out on randomly introduced missing values. However, large GWL data sets are commonly dominated by more complex patterns of missing values with longer contiguous gaps. This study presents a new artificial gap introduction approach (TGP- typical gap patterns) that improves our understanding of automated imputation performance by mimicking typical gap patterns found in regional scale groundwater hydrographs. Imputation performance of machine learning algorithm missForest and imputePCA is then compared with commonly applied linear interpolation to prepare a gapless daily GWL data set for the Baltic states (Estonia, Latvia, Lithuania). We observed that imputation performance varies among different gap patterns, and performance for all imputation algorithms declined when infilling previously unseen extremes and hydrographs influenced by groundwater abstraction. Further, missForest algorithm substantially outperformed other methods when infilling contiguous gaps (up to 2.5 years), while linear interpolation performs similarly for short random gaps. The TGP approach can be of use to assess the complexity of missing observation patterns in a data set and its value lies in assessing the performance of gap filling methods in a more realistic way. Thus the approach aids the appropriate selection of imputation methods, a task not limited to groundwater level time series alone. The study further provides insights into region-specific data peculiarities that can assist groundwater analysis and modelling.
Place, publisher, year, edition, pages
Journal of Hydrology, Elsevier , 2023. Vol. 620, no Part A
Keywords [sv]
Bygga, infrastruktur under mark, grundvatten, grundvattennivåer
National Category
Civil Engineering Water Engineering
Research subject
FOI-portföljer, Bygga
Identifiers
URN: urn:nbn:se:trafikverket:diva-22111DOI: 10.1016/j.jhydrol.2023.129424.Archive number: TRV 2019/45670OAI: oai:DiVA.org:trafikverket-22111DiVA, id: diva2:2051374
Projects
När var hur? – Identifikation av orsaker till hydrogeologiska störningar i undermarksbebyggelse
Funder
Swedish Transport Administration, TRV 2019/456702026-04-082026-04-082026-04-08