banner
Nachrichtenzentrum
Außergewöhnliche Kompetenz in ihrem Handwerk.

Ein Mensch

Apr 10, 2023

Scientific Reports Band 13, Artikelnummer: 8699 (2023) Diesen Artikel zitieren

903 Zugriffe

1 Altmetrisch

Details zu den Metriken

Dieser Artikel veranschaulicht die Ergebnisse, die durch die Verwendung vorab trainierter semantischer Segmentierungs-Deep-Learning-Modelle zur Erkennung archäologischer Stätten in der mesopotamischen Auenumgebung erzielt wurden. Die Feinabstimmung der Modelle erfolgte mithilfe öffentlich verfügbarer Satellitenbilder und Vektorformen, die aus einem großen Korpus von Anmerkungen (z. B. untersuchten Standorten) stammten. Ein randomisierter Test ergab, dass das beste Modell eine Erkennungsgenauigkeit von etwa 80 % erreicht. Die Integration von Domänenexpertise war von entscheidender Bedeutung, um zu definieren, wie der Datensatz erstellt und die Vorhersagen ausgewertet werden soll, da die Definition, ob eine vorgeschlagene Maske als Vorhersage gilt, sehr subjektiv ist. Darüber hinaus kann selbst eine ungenaue Vorhersage nützlich sein, wenn sie von einem ausgebildeten Archäologen in den Kontext gestellt und interpretiert wird. Ausgehend von diesen Überlegungen schließen wir den Artikel mit einer Vision für einen Arbeitsablauf für die Zusammenarbeit zwischen Mensch und KI. Ausgehend von einem annotierten Datensatz, der von einem menschlichen Experten verfeinert wird, erhalten wir ein Modell, dessen Vorhersagen entweder kombiniert werden können, um eine Heatmap zu erstellen, die auf Satelliten- und/oder Luftbildern überlagert wird, oder alternativ vektorisiert werden können, um weitere Analysen in einem GIS durchzuführen Software einfacher und automatischer. Im Gegenzug können die Archäologen die Vorhersagen analysieren, ihre Untersuchungen vor Ort organisieren und den Datensatz mit neuen, korrigierten Anmerkungen verfeinern.

Dieses Papier dokumentiert die Ergebnisse einer Zusammenarbeit zwischen Datenwissenschaftlern und Archäologen mit dem Ziel, ein System mit künstlicher Intelligenz (KI) zu schaffen, das bei der Erkennung potenzieller archäologischer Stätten anhand von Luft- oder, in unserem Fall, Satellitenbildern behilflich sein kann. Mithilfe semantischer Segmentierungsmodelle konnten wir präzise Umrisse zeichnen und die Human-in-the-Loop-Bewertung ergab, dass die Erkennungsgenauigkeit bei etwa 80 % liegt.

Dieses Verfahren fällt in den Bereich der Fernerkundung (Remote Sensing, RS), die den Vorgang der Erkennung und/oder Überwachung eines Punkts von Interesse aus der Entfernung bezeichnet. In der Welt der Archäologie ist diese Operation von unschätzbarem Wert geworden, da mehr und bessere Bilder von Satelliten verfügbar sind, die mit älteren Informationsquellen (z. B. den CORONA-Satellitenbildern) kombiniert werden können, um eine größere Anzahl archäologischer Stätten zu entdecken und diese zu verfolgen sukzessive Verschlechterung aufgrund anthropischer Faktoren1. Abhängig vom Untersuchungsgebiet und der Größe der zu untersuchenden archäologischen Objekte kann der dafür erforderliche Aufwand, insbesondere zeitlich, für den Forscher enorm sein.

Diese Zusammenarbeit zielte darauf ab, genau dieses Problem zu lösen, indem Deep-Learning-Modelle eingesetzt wurden, um den Prozess zu rationalisieren, aber nicht vollständig zu automatisieren. Ausgehend von einem Datensatz mit Vektorformen für alle archäologisch erfassten Stätten in der südlichen mesopotamischen Aue (die eine ausreichend kohärente geomorphologische Region darstellt) trainierten wir ein Modell, um Stätten in einem gegebenen Eingabebild zu erkennen und zu segmentieren. Im Verlauf des Projekts tauchten eine Reihe von Problemen auf, die die Lösung dieses Problems besonders schwierig machen und zu wichtigen Überlegungen zum Einsatz von Deep Learning im Allgemeinen und seiner Beziehung zu menschlichen Experten führten. Obwohl der Datensatz mit seinen fast 5.000 Standorten als sehr umfangreich für die Archäologie des Nahen Ostens angesehen werden kann, reicht er kaum aus, um ein so großes Modell wie die hochmodernen Modelle zu trainieren, die wir heute im Einsatz sehen, und vielleicht noch bedeutsamer enthält viele Fälle, die nur auf bestimmten alten Bildern sichtbar sind. Das erste Problem wird üblicherweise durch Transferlernen gelöst2. Diese Technik besteht darin, von einem Modell auszugehen, das auf einem großen und allgemeinen Datensatz (z. B. imagenet3) vorab trainiert wurde, und es dann anhand eines kleineren, aber spezifischeren Datensatzes zu verfeinern und dabei die zuvor erlernten Fähigkeiten zu nutzen, um die neue Aufgabe zu bewältigen besser beherrschbar. Die zweite Variante gefährdet jedoch sowohl das Training als auch die Bewertung, da das Modell während des Trainings dazu gedrängt wird, falsche Klassifizierungen vorzunehmen, und selbst wenn es robuste Darstellungen lernen würde, die schlechte Beispiele ignorieren, wäre es für uns schwierig zu erkennen, ob es sich um einen Fehler handelt durch das Modell oder in den Etiketten.

Wir glauben, dass der einzige Ausweg aus diesem Dilemma ein Human-in-the-Loop-Ansatz ist1. Aus diesem Grund betonen wir in der gesamten Arbeit, wie wichtig es ist, Fachwissen während der Trainings- und Auswertungsphase unserer Experimente zu integrieren, da dies für die Verbesserung des verwendeten Datensatzes und damit des Modells von entscheidender Bedeutung war. Das Endergebnis dieses iterativen Prozesses ist ein Modell mit einer Erkennungsgenauigkeit von etwa 80 %.

Basierend auf diesen vielversprechenden Ergebnissen stellen wir uns ein Werkzeug für die Zusammenarbeit zwischen Mensch und KI vor, um die Archäologen bei den Fernerkundungsoperationen zu unterstützen (anstatt sie zu ersetzen) und schlagen eine neue Art von Arbeitsablauf vor, der sowohl ihre Aufgabe als auch das Modell durch die Bereitstellung verbesserter Daten verbessert jeder Gebrauch4,5. Alle Ergebnisse wurden mithilfe von Open-Source-Software und -Modellen sowie offen verfügbaren Daten (Bilder, Anmerkungen) und Rechenressourcen (Google Colab) erzielt, wodurch diese Art von Arbeit auch in ressourcenbeschränkten Forschungsumgebungen leicht zugänglich und reproduzierbar ist. Alle genannten Codes, Daten und Ressourcen sind auf GitHub (https://bit.ly/NSR_floodplains) verfügbar.

Die südmesopotamische Aue ist eine entscheidende Region für das Verständnis des komplexen Zusammenspiels zwischen der räumlichen Ansammlung menschlicher Gemeinschaften und der Entwicklung von bewässertem Ackerland in einer ansonsten halbtrockenen Umgebung6. Robert McCormick Adams‘ Untersuchungen in der Gegend7,8,9 wurden nach Standards durchgeführt, die für die damalige Zeit beispiellos waren: Er nutzte eine Reihe von Luftbildern aus dem Jahr 1961, um potenzielle Standorte zu lokalisieren und Kanäle zu kartieren, deren Spuren an der Oberfläche sichtbar waren; Er erfasste systematisch Orte vom späteren 7. Jahrtausend v. Chr. bis zur osmanischen Zeit. Vor allem war er sich des historiografischen Potenzials seiner Vermessungsarbeit bewusst, die zu einer aussagekräftigen Interpretation von Siedlungsmustern und hydraulischen Aktivitäten führte8.

Nach einer langen Unterbrechung der Feldforschung aufgrund politischer Instabilität wurde die archäologische Forschung im Südirak in den letzten Jahren wieder aufgenommen, siehe10 für einen Überblick. In dieser Gegend werden Stätten üblicherweise mit dem arabischen Wort für Hügel „Tell“ bezeichnet. Aufgrund ihrer Farbe und Form sind diese Hügel auf Luft- und Satellitenbildern besonders gut sichtbar, was dazu führte, dass die Fernerkundung als praktikable Strategie zur Standortbestimmung eingesetzt wurde.

Wie Tony Wilkinson es ausdrückt: „Tells bestehen aus mehreren Schichten von Gebäudeebenen und angesammelten Abfällen, die sich im Laufe der Zeit angesammelt haben, teilweise weil der Ort der Besetzung stationär geblieben ist. Tell-Siedlungen werden häufig durch eine Außenmauer definiert, die die angesammelten Materialien sowohl enthielt als auch einschränkte.“ Dadurch wird ihre Ausbreitung eingeschränkt […]. Der Tell ist keineswegs der Verkaufsort der Besetzung […]. Außen- oder Unterstädte […] erscheinen oft als niedrige Hügel oder einfach als Artefaktstreuungen um Tells herum und können die gesamte besetzte Fläche erweitern einer Website mehrfach"11.

In Mesopotamien liegen Tells oft nur geringfügig höher als die umliegende Landschaft und müssen in solchen Fällen häufig künstlich eingeebnet werden, um bewässerbare landwirtschaftliche Flächen zu gewinnen. Daher ist die automatische Erkennung von Standorten in einer solchen dynamischen Umgebung ein äußerst komplexer Vorgang, obwohl die Kontraste ausreichend ausgeprägt sind, um den Versuch zu rechtfertigen.

Unter Fernerkundung versteht man die Verwendung eines beliebigen Sensors (z. B. Temperatur, Luftfeuchtigkeit, Hyperspektralsensoren, Satellitenbilder usw.) zur Erkennung oder Überwachung eines Punkts von Interesse, ohne dass eine direkte Beobachtung erforderlich ist. Dieser Ansatz ist für eine Vielzahl von Bereichen relevant, aber Lösungen, die in einem Bereich funktionieren, lassen sich möglicherweise nicht auf andere übertragen.

Die Ortung archäologischer Stätten aus der Ferne war sicherlich bereits vor dem Aufkommen der modernen Computertechnologie mithilfe von Luftbildern und topografischen Karten des zu untersuchenden Gebiets möglich. Heutzutage ist es jedoch einfacher, mehrere Quellen zu kombinieren, indem Sensoren unterschiedlicher Art oder aus unterschiedlichen Zeitpunkten verwendet werden , um ein vollständigeres Bild der Umwelt zu erhalten, insbesondere da sie sich aufgrund natürlicher oder anthropischer Faktoren verändern kann12,13,14. Abhängig von den Eigenschaften der Standorte können bestimmte Darstellungen hilfreich sein, z. B. Höhenmodelle aus stereoskopischen Bildern oder die Verwendung anderer Teile des elektromagnetischen Spektrums als des sichtbaren Lichts wie Infrarot- oder Radiowellen15,16. Auch Light Detection and Ranging (LiDAR) erfreut sich immer größerer Beliebtheit, da es zufriedenstellende hochauflösende Bilder liefert. Allerdings kann es schwierig sein, es einzusetzen, da es oft auf einer Art Luftfahrzeug wie Drohnen montiert werden muss17. Das Problem bei dieser Art von Quellen besteht darin, dass sie möglicherweise nicht für jeden Standort verfügbar sind oder nicht über eine ausreichend hohe Auflösung für die jeweilige Aufgabe verfügen. Andererseits sind qualitativ hochwertige Open-Source-RGB-Bilder von praktisch jedem Ort auf der Welt leicht verfügbar, insbesondere durch die Beliebtheit von Online-Diensten wie Google Maps oder Bing Maps. Konkret nutzen wir in diesem Projekt Satellitenbilder des Dienstes Bing Maps, die für das untersuchte Gebiet eine hervorragende Sichtbarkeit der anthropogenen Spuren bieten, auf die wir uns konzentrieren: Tells.

Deep Learning hat in jedem Anwendungsbereich vielfältige Einsatzmöglichkeiten gefunden, und die Archäologie bildet da keine Ausnahme. Es kann dabei helfen, Objekte und Texte zu klassifizieren, Ähnlichkeiten zu finden, 3D-Modelle zu erstellen und, wie dieser Artikel auch zeigt, bei der Erkennung von Standorten18,19,20,21,22. Eine Schwierigkeit beim Umgang mit einem solchen Modell besteht darin, dass dafür Fachexperten sowohl in der Archäologie als auch im Deep Learning zusammenkommen müssen, es kann aber auch von der Menge der verfügbaren Daten abhängen. Neuronale Netze sind bekanntermaßen datenhungrig, und die Archäologie ist ein Bereich mit „langsamen Daten“, wie Bickler es ausdrückte23. Dennoch gibt es einige aktuelle Beispiele für die erfolgreiche Anwendung von Deep Learning bei der Standorterkennung in verschiedenen Szenarien24,25,26,27. Die meisten Anwendungen verwenden entweder ein neuronales Netzwerk, um eine Klassifizierungs-, Erkennungs- oder Segmentierungsaufgabe auszuführen. Bei der ersten Methode werden Kacheln verwendet, die aus Karten stammen, auf denen markiert ist, ob sie den interessierenden Standort enthalten oder nicht. Die zweite besteht stattdessen darin, einen Begrenzungsrahmen um ein Objekt vorherzusagen und es bei Bedarf zu klassifizieren. Im dritten Schritt werden die einzelnen Pixel klassifiziert und das Ergebnis ist die Vorhersage einer dem Standort entsprechenden Form. In diesem Artikel verwenden wir den zweiten Ansatz, wie unten beschrieben.

Unter semantischer Segmentierung versteht man die Aufgabe, ein Bild in Teile zu unterteilen, die Einheiten mit einer bestimmten Bedeutung entsprechen. Diese können einem bestimmten Thema entsprechen (z. B. die Umrisse von Personen, Fahrzeugen usw.) oder einer generischen Kategorie, die mehrere Einheiten umfasst (z. B. Gebäude, Hintergründe usw.). Im Kontext dieser Arbeit haben wir nur zwei Kategorien: eine für Hügel-(Tell-)Standorte und eine andere für alles andere. Die Segmentierung kann mit verschiedenen Techniken durchgeführt werden, die eine Klassifizierung auf Pixelebene durchführen. Ein sehr verbreiteter Ansatz verwendet vorberechnete Merkmale, die von einem Algorithmus extrahiert oder manuell erstellt werden und dann von einem Random-Forest-Algorithmus28 klassifiziert werden. Den aktuellen Stand der Technik stellen End-to-End-Systeme dar, die auf Deep Learning mit Faltungs-Neuronalen Netzen basieren. Für diesen Ansatz stellte die Einführung von U-Net durch Ronnenberger im Kontext der medizinischen Bildgebung einen Meilenstein dar29. Diese Arbeit nutzt eine neuere Architektur namens MA-Net30, die als Upgrade der U-Net-Architektur mit der Einbeziehung eines Selbstaufmerksamkeitsmechanismus angesehen werden kann, wie er in den beliebten Transformer-Architekturen31 vorgeschlagen wird. Dies ermöglicht es dem Modell, je nach Inhalt unterschiedliche latente Merkmale abzuwägen und im übertragenen Sinne anzugeben, wo in diesem latenten Raum „aufgepasst“ werden muss, um besser zu lernen. Obwohl es im Zusammenhang mit der medizinischen Bildgebung entwickelt wurde, hat es auch bei Fernerkundungsaufgaben Verwendung gefunden32,33. Im Abschnitt „Materialien und Methoden“ weiter unten stellen wir weitere Details bereit.

In einem früheren Artikel haben wir versucht, dasselbe Problem mithilfe eines Bildklassifizierungsansatzes anzugehen, bei dem die Karte in Kacheln unterteilt wurde34. In diesem Experiment war der Datensatz jedoch um eine Größenordnung kleiner und wir mussten auf eine aggressive Datenerweiterung zurückgreifen, um die Leistung zu steigern. Das beste Modell erzielte einen AUC-Wert von etwa 70 %, zeigte jedoch beim Test an einem nicht sichtbaren Teil der Karte seine Grenzen, da es viele falsch positive Ergebnisse vorhersagte, aber auch einige Standorte übersah. Der größte Kompromiss dieses kachelbasierten Klassifizierungsansatzes besteht zwischen der Größe der Kacheln und der Granularität der Vorhersagen mit größeren Quadraten, die praktischer sind, aber zu einem Detailverlust führen. Es besteht auch das Problem, mit Standorten umzugehen, die am Rand einer Kachel landen. Eine Lösung, die wir versucht haben, bestand darin, einen schindelförmigen Datensatz mit dazwischen liegenden Kacheln zu erstellen, um die Lücken zu füllen. Dadurch erhöhte sich jedoch die Menge der zu erstellenden Vorhersagen erheblich. Schließlich sind die meisten Modelle zur Bildklassifizierung an die Verwendung einer festen Eingabegröße gebunden, was beim Umgang mit Karten eine große Einschränkung darstellen kann. In diesem neuen Experiment haben wir uns angesichts der größeren Größe des Datensatzes entschieden, Bildsegmentierungsmodelle mit vollständig Faltungsschichten zu nutzen, die sowohl die Grenzen der Eingabegröße als auch den Kompromiss bei der Granularität berücksichtigen.

In diesem Abschnitt beschreiben wir zunächst den verwendeten Datensatz, der auf der Grundlage offen verfügbarer Ressourcen erstellt wurde, und anschließend die Open-Source-Modelle, die wir an diesem Datensatz verfeinert haben.

Wir begannen mit einem Datensatz georeferenzierter Vektorformen, die den Konturen bekannter Hügelstandorte im Untersuchungsgebiet des Floodplains-Projekts entsprechen, das sich über 66.000 km2 erstreckt, wie in Abb. 1 dargestellt. Der Datensatz wurde an der Universität Bologna durch Archivierung aller Daten entwickelt veröffentlichte archäologische Untersuchungen in der Gegend und eine erneute Georeferenzierung der darin katalogisierten Standorte (https://floodplains.orientlab.net) – enthält 4934 Formen, die sich also alle auf Standorte beziehen, die durch Bodenuntersuchungen und die damit verbundene Untersuchung der bestätigt wurden Oberflächenstreuung von Artefakten.

Untersuchungsbereich. Orangefarbene Punkte stellen untersuchte Standorte in der mesopotamischen Aue dar. Das durchgezogene rote Rechteck ist ein ausgewähltes Testgebiet in Maysan. Alle angezeigten Daten unterliegen der Fair-Use-Nutzung geografischer Daten für akademische Zwecke. Die Liste aller relevanten Daten-/Softwareanbieter lautet wie folgt: (i) Originalkartenerstellung gemäß Abschnitt 5 der Nutzungsbedingungen der Microsoft Bing Maps Platform APIs (https://www.microsoft.com/en-us). /maps/product/print-rights); (ii) Kartenanzeige mit einer Open-Source-Software unter den GNU-Lizenzen von QGIS (https://qgis.org/en/site/) und QuickMapsServices (https://github.com/nextgis/quickmapservices); (iii) endgültige Kartenausarbeitung, die mit einer von den Autoren entwickelten Software durchgeführt wurde und unter (https://bit.ly/NSR_floodplains) verfügbar ist.

Da der Datensatz als umfassende Informationsquelle für Archäologen zusammengestellt wurde und nicht speziell zum Trainieren eines Deep-Learning-Modells, mussten wir einige Beispiele herausfiltern, die keine Informationen lieferten und den Lernprozess tatsächlich beeinträchtigen könnten. Wir begannen damit, die 200 wichtigsten Standorte nach Fläche zu entfernen, da diese deutlich größer waren als der Rest des Datensatzes und eine visuelle Untersuchung bestätigte, dass sie der Form von Gebieten folgen, die nicht nur einfache Hügel sind. Die Zahl 200 ergibt sich aus der Feststellung, dass diese Websites eine Fläche haben, die größer ist als der quadratische Bereich, den wir als Eingabe verwenden, und daher zu einer vollständig vollständigen Segmentierungsmaske führen könnte, was nicht sehr hilfreich wäre. Nach einer Diskussion zwischen Datenwissenschaftlern und Archäologen kamen wir zu dem Schluss, dass dies eine gute heuristische Lösung sei.

Darüber hinaus haben wir 684 Standorte herausgefiltert, deren Fläche entweder zu klein für einen Tell war oder die von den Archäologen als zerstört eingestuft wurden. Insbesondere wurde die Größenschwelle auf rund 1000 m2 festgelegt, was einem Kreis mit einem Durchmesser von 30 m entspricht. Diese sehr kleinen Standorte entsprechen tatsächlich einer allgemeinen Anmerkung für bekannte Standorte mit unbekannter Größe oder genauer Position.

Um eine Reihe von Bildern zur Feinabstimmung unseres vorab trainierten Modells zu generieren, haben wir die oben genannten Formen in QGIS, eine Open-Source-GIS-Software35, importiert und mithilfe eines Python-Skripts ein Quadrat der Länge L gespeichert, das auf dem Schwerpunkt der enthaltenen Site zentriert ist Nur Satellitenbilder von Bing Maps (wird direkt in der GIS-Umgebung über das QuickMapService-Plugin angezeigt, das den Zugriff auf Bilder ermöglicht, die von verschiedenen Online-Diensten, einschließlich Bing Maps, bereitgestellt werden). Anschließend haben wir dasselbe Bild ohne Basiskarte gespeichert, wobei die Konturen des Standorts jedoch als mit einer Volltonfarbe gefüllte Form dargestellt wurden, um als Grundwahrheitsmasken zu dienen.

So lernt unser neuronales Netzwerk während des Trainings, die Form des Standorts anhand der Bodenwahrnehmung zu reproduzieren, indem es nur das RGB-Satellitenbild betrachtet; Während der Inferenz können wir neue Standorte in einem bestimmten Eingabebild erkennen und skizzieren, sofern vorhanden.

In den ersten Experimenten haben wir L auf 1000 m festgelegt, aber wir haben uns vorgestellt, dass eine Vergrößerung des Vorhersagebereichs aufgrund der Einbeziehung eines größeren Kontexts von Vorteil sein könnte. Folglich haben wir es auch mit L = 2000 m versucht und insgesamt eine bessere Leistung erzielt.

Aus dem quadratischen Startbild schneiden wir zufällig ein Quadrat der Länge L/2 aus, das als Eingabe verwendet wird. Dadurch wird sichergestellt, dass das Modell keine verzerrte Darstellung lernt, bei der Websites immer im Mittelpunkt der Eingabe erscheinen, und dient zusätzlich der Datenerweiterung. Neben diesem Zuschnitt erweitern wir den Datensatz auch durch die Anwendung einer zufälligen Drehung und Spiegelung sowie einer leichten Verschiebung von Helligkeit und Kontrast, wobei alle diese Vorgänge bei jeder Trainingsiteration auf unterschiedliche Weise angewendet werden. Beim Extrahieren aus QGIS haben wir Bilder mit einer Auflösung von etwa 1 Pixel pro Meter gespeichert (1024 Pixel für 1000 m, doppelt so viel wie für das Modell mit erhöhter Eingabegröße), aber die Eingaben wurden dann auf die Hälfte verkleinert, um den Rechenaufwand zu verringern mit geringem Einfluss auf die Gesamtleistung36.

Schließlich haben wir 1155 Bilder mit leeren Masken (keine Standorte vorherzusagen) eingeführt, die von den von den Archäologen vorgeschlagenen Standorten entnommen wurden. Dazu gehören stark urbanisierte Gebiete, Gebiete mit intensiver Landwirtschaft, überschwemmungsgefährdete Gebiete (z. B. künstliche Seen und Becken) sowie felsige Hügel und Berge.

Die Anzahl wurde willkürlich unter Berücksichtigung der Größe der jeweils vorgeschlagenen Fläche und der Kacheln gewählt. Die endgültige Anzahl der Bilder beträgt somit 5025. Wir haben den Datensatz in einen 90 %-Trainingssatz und einen 10 %-Holdout-Testsatz aufgeteilt und die „leeren“ Bilder, die wir hinzugefügt haben, geschichtet. 10 % des Trainingssatzes wurden ebenfalls zufällig ausgewählt und als Validierungssatz verwendet.

Wir haben versucht, CORONA-Bilder als zusätzliche Eingabe zu integrieren37, da im üblichen archäologischen Arbeitsablauf historische Bilder sehr nützlich sind (da sie sich auf eine Situation beziehen, die viel weniger von der Entwicklung betroffen ist) und oft mit den Satellitengrundkarten und den topografischen Karten kombiniert werden (aber seitdem CORONA wurde hier als Ergänzung verwendet, wir haben die automatische Erkennung nicht allein auf sie ausgerichtet und daher wurden Standorte, die nach den 1970er Jahren zerstört wurden, von der Analyse ausgeschlossen. Nach dem Import der Bilder in QGIS folgten wir dem gleichen Verfahren zum Erstellen der Eingaben und stellten sicher, dass der Zuschneidevorgang für Bing- und CORONA-Bilder gleich war.

Dieses Projekt begann als Experiment zur Untersuchung der Eignung vorab trainierter semantischer Segmentierungsmodelle als Werkzeuge zur Standorterkennung. Aus diesem Grund haben wir uns entschieden, vorab trainierte Open-Source-Modelle zu vergleichen, die als Teil einer in PyTorch geschriebenen Bibliothek verfügbar sind. Die Bibliothek ermöglicht die unabhängige Auswahl eines Encoder-Faltungs-Neuronalen Netzwerks für die Merkmalsextraktion und einer Segmentierungsarchitektur und stellt eine Reihe verschiedener Verlustfunktionen bereit38.

In einer früheren vorläufigen Arbeit haben wir mit verschiedenen Architekturoptionen, Encodern und Verlustfunktionen experimentiert36. Wir verglichen U-Net mit MA-net, Resnet18 mit Efficientnet-B3 und Dice Loss mit Focal Loss. Die Leistungsunterschiede waren gering, bestenfalls innerhalb weniger Prozentpunkte, was sehr gut durch Schwankungen aufgrund der zufälligen Datenanreicherung erklärt werden kann.

Dennoch haben wir das beste Modell verwendet, das MA-net, Efficientnet-B3 und Focal Loss verwendet und für 20 Epochen trainiert wurde. Wir haben die Auswirkungen unseres Filterverfahrens (das gegenüber der vorherigen Arbeit leicht verbessert wurde) weiter getestet und zusätzlich mit der Einführung von CORONA-Bildern experimentiert und die Eingabegröße erhöht.

Wir haben auch einen zusätzlichen Test an einem anderen großen Datensatz (https://www.orientlab.net/samark-land/) durchgeführt, der vom Usbekisch-Italienischen Archäologischen Projekt in Samarkand39 erstellt wurde. Angesichts der Ähnlichkeit zwischen dem mesopotamischen Tell und dem usbekischen Tepa wollten wir sehen, ob das Modell in der Lage ist, diese Standorte zu erkennen, ohne dass zusätzliches Umschulen erforderlich ist.

Der Datensatz enthält 2318 punktförmige Anmerkungen, die auf unterschiedliche Weise kategorisiert sind und auch Attribute enthalten, die sich auf ihren Erhaltungszustand beziehen. Wir haben nur Standorte ausgewählt, die entweder als Tepa oder Low Mound mit dem Label „Gut erhalten“ klassifiziert sind. Die endgültige Zahl der Standorte beläuft sich auf 215: 148 Tepa und 67 Mounds. Die tatsächlichen Testsatzbilder wurden nach demselben oben beschriebenen Verfahren erstellt.

Zunächst präsentieren wir die Ergebnisse anhand des durchschnittlichen IoU-Scores (Intersection-over-Union) im Testdatensatz. Wir definieren die Metriken wie folgt: \(IoU = \frac{P\cap G}{P\cup G}\), wobei P die vorhergesagte Form und G die Grundwahrheitsform angibt. IoU stellt den Grad der Übereinstimmung zwischen der vorhergesagten Form und der Anmerkung im Datensatz dar. Es gibt uns zwar eine Vorstellung davon, wie sich das Modell verhält, und hilft uns bei der Auswahl des besten Modells, wir müssen uns jedoch darüber im Klaren sein, dass es nicht angibt, wie viele Standorte identifiziert wurden oder nicht, was unser Hauptziel ist.

Tabelle 1 fasst die Ergebnisse für alle Modelle im Holdout-Datensatz zusammen, wie im Abschnitt „Methoden“ beschrieben. Beachten Sie, dass wir für jedes Modell einen Mittelwert und die zugehörige Standardabweichung angeben. Dies ist auf die Tatsache zurückzuführen, dass wir die Bilder selbst im Testsatz zufällig zuschneiden und daher zehn Tests mit unterschiedlichen Zuschnitten durchführen, um diesen Effekt zu mitteln.

Als erstes fällt die deutliche Verbesserung auf, die sich aus der Vergrößerung der Eingabegröße ergibt. Wir gehen davon aus, dass der größere Bereich mehr Kontext für die Vorhersagen bietet und das Modell genauer macht. Ebenso wichtig ist das oben beschriebene Filterverfahren, das versucht, kleine und nicht erkennbare Websites zu entfernen, was unabhängig von der Eingabegröße zu Leistungseinbußen führt.

Schließlich ist die Verwendung von CORONA-Bildern etwas umstritten. Für die kleinere Eingabegröße scheint es keine Vorteile zu bieten (der niedrigere Fehlerwert liegt innerhalb der Fehlergrenze), und wir können annehmen, dass dies an der geringen Auflösung dieser Bilder liegt. Bei größeren Flächen scheinen sie stattdessen eine Leistungssteigerung zu bewirken, was möglicherweise wiederum auf den größeren Kontext zurückzuführen ist. Die Überprüfung der Vorhersage ergab jedoch, dass es keinen deutlichen Unterschied gab, was möglicherweise darauf hindeutet, dass die IoU allein aufgrund der etwas präziseren Konturen zunimmt.

Um die Ergebnisse weiter zu bewerten, sind wir zur Erkennungsgenauigkeit übergegangen. Zuerst haben wir die Rastervorhersagen aus dem Modell mithilfe der bekannten Bibliothek GDAL40 in Vektorformen umgewandelt und dann nach der Schnittstelle zwischen den Standortanmerkungen und den Vorhersagen gesucht. Um glattere Formen zu erhalten, haben wir vor der Konvertierung zunächst eine Gaußsche Unschärfe auf die Vorhersageraster angewendet und dann Werte über einem bestimmten Schwellenwert (0,5, aber die Zahl kann für ein mehr oder weniger empfindliches Modell geändert werden) auf 1,0 beschnitten, während alles andere dies tun würde auf 0,0 gesetzt werden.

Diese automatische Auswertung liefert gute, aber nicht allzu aufregende Ergebnisse mit einem Genauigkeitswert von 62,57 % für Modell 5 und 60,08 % für Modell 6. Ein Modell, das zwei von drei Standorten finden kann, wäre bereits ein guter Ausgangspunkt für die menschliche Analyse. Allerdings müssen Archäologen eine Überprüfung der Vorhersagen vorlegen und die Fälle unterscheiden, in denen das Modell richtige Fehler begeht, von denen, in denen es berechtigte Fehler macht, die ein Mensch ebenfalls machen würde41,42,43.

Erstens gibt es eine beträchtliche Anzahl von Standorten, die auf heutigen Satellitenbildern nicht mehr sichtbar sind und nicht aus dem Datensatz herausgefiltert wurden. Dies war zu erwarten, da nur die Hälfte der Anmerkungen zusätzliche Informationen und noch weniger Hinweise auf ihre Sichtbarkeit enthielten. Jedes Eingabebild, das nur nicht mehr sichtbare Stellen enthält, sollte als echtes Negativ und nicht als falsch negatives Bild betrachtet werden, wenn das Modell keine Kontur erzeugt.

Wenn es um Vorhersagen geht, die als falsch positiv markiert sind, sagt das Modell manchmal einen anderen Standort in der Nähe voraus, anstatt nicht den getesteten. Dies kann je nach Art der „übersehenen“ Website als Fehler gewertet werden oder auch nicht. Falls es sich bei der verpassten Site um eine derjenigen handelt, die nicht mehr sichtbar sind, wir aber eine nahezu sichtbare erkennen, ist die Vorhersage tatsächlich ein True Positive. Andererseits kann es sich bei der übersehenen Stelle um eine Stelle handeln, die noch sichtbar ist, aber vielleicht weniger sichtbar als eine andere auf dem Bild. In dieser Situation könnten wir entweder sowohl ein falsches Negativ als auch ein echtes Positiv betrachten oder einfach nur ein echtes Positiv, da in einem realen Szenario die Nähe zu anderen Standorten zu einem nützlichen Vorschlag führen würde, wie es der menschliche Experte tun würde Dann können Sie sie alle abrufen. Alternativ könnten wir die Berücksichtigung nicht sichtbarer Websites ganz vermeiden, aber der Unterschied wäre minimal (Genauigkeit 78,37 % und Erinnerung 82,01 %).

Schließlich waren einige Vorhersagen tatsächlich in den Ausgaben vorhanden, aber zu schwach für den von uns festgelegten Grenzwert. Wir haben diese Fehler nicht berücksichtigt, aber sie weisen auf einen möglichen Ansatz für die Interaktion hin: die Verwendung von Vorhersagen als Überlagerungen und die manuelle Betrachtung der Karte. Alternativ könnte die Festlegung eines niedrigeren Schwellenwerts das Problem lösen.

Die Anpassung erhöht die Genauigkeit und den Rückruf auf etwa 80 und vermittelt so eine objektivere Vorstellung von der tatsächlichen Modellleistung.

Tabelle 2 fasst die Ergebnisse der automatischen Auswertung und die angepassten Werte zusammen, nachdem die menschliche Auswertung nicht sichtbare Stellen hervorgehoben hatte. Die folgenden Gleichungen definieren die verwendeten Metriken im Hinblick auf Richtig/Falsch-Positiv/Negativ. Wir haben uns für Genauigkeit, Präzision, Rückruf und den Matthews-Korrelationskoeffizienten entschieden.

Es ist interessant zu sehen, dass das Modell 6, das einen höheren IoU-Wert erzielte, jetzt tatsächlich schlechter abzuschneiden scheint. Ein Blick auf die Bilder zeigt, dass dieses Modell etwas zurückhaltender und vorsichtiger ist, was zu weniger positiven Vorhersagen und damit weniger Fehlalarmen führt. Dies kann wiederum zu einem höheren IoU führen, da es den Union-Term reduziert und, wenn die Flächen etwas präziser sind, sogar den Intersection-Term erhöht. Zur Erkennung benötigen wir jedoch das Vorhandensein einer Schnittmenge und nicht einer perfekten Übereinstimmung, und in dieser Situation ist die geringere Anzahl positiver Ergebnisse eine Strafe. Insgesamt ist der Unterschied in der Genauigkeit nicht übermäßig groß, sodass beide Modelle nützlich sind und parallel verwendet werden könnten. Allerdings müssen wir auch die zusätzliche Komplexität und die Kosten berücksichtigen, die durch die Verwendung von zwei Sätzen von Eingabebildern entstehen, die Modell 6 etwas umständlich machen. Aus diesem Grund sind wir dazu übergegangen, nur noch Model 5 zu verwenden.

Wir haben diesen Unterabschnitt mit Abb. 2 abgeschlossen, die einige Beispiele aus dem Testdatensatz enthält, um die Qualität der Modellausgaben zu veranschaulichen. Beachten Sie, dass die Farben Wahrscheinlichkeitswerten entsprechen und dass schwache Bereiche durch den Schwellenwert von 0,5, den wir beim Erstellen der Vektorformen verwenden, abgeschnitten werden. Das Modell zeichnet die Standortumrisse sehr genau nach und in einigen Fällen (z. B. in der ersten Spalte in Abb. 2) sind diese sogar genauer als die Bodenwahrheit in Bezug auf aktuelle Satellitenbilder.

Einige Beispielvorhersagen aus dem Testsatz. Auf der linken Seite ist die dem Eingabebild überlagerte Zielmaske zu sehen. Rechts die Modellausgabe. Der Farbbalken entspricht der Klassifizierungswahrscheinlichkeit. Beachten Sie, dass das Modell in der Lage ist, den Umriss der Website genau abzugleichen. Alle angezeigten Daten unterliegen der Fair-Use-Nutzung geografischer Daten für akademische Zwecke. Die Liste aller relevanten Daten-/Softwareanbieter lautet wie folgt: (i) Originalkartenerstellung gemäß Abschnitt 5 der Nutzungsbedingungen der Microsoft Bing Maps Platform APIs (https://www.microsoft.com/en-us). /maps/product/print-rights); (ii) Kartenanzeige mit einer Open-Source-Software unter den GNU-Lizenzen von QGIS (https://qgis.org/en/site/) und QuickMapsServices (https://github.com/nextgis/quickmapservices); (iii) endgültige Kartenausarbeitung, die mit einer von den Autoren entwickelten Software durchgeführt wurde und unter (https://bit.ly/NSR_floodplains) verfügbar ist.

Nachdem wir die Erkennungsleistung bewertet hatten, wollten wir das Modell auf einem rechteckigen Gebiet in der nicht vermessenen Provinz Maysan testen, für das wir Fernerkundungen durchgeführt haben. Ziel dieses Tests war es, zu bewerten, wie viele Fehlalarme das Modell vorhersagen würde, und ein Beispiel für die Fehler zu geben, die das Modell in einem Betriebsszenario macht.

Das von uns ausgewählte Gebiet umfasst 20 mutmaßliche Standorte und erstreckt sich über 104 km2. Abbildung 3 zeigt das Gebiet mit der Anmerkung des Archäologen und der Vorhersage aus dem Modell. Wie man sieht, ist das Modell in der Lage, 17 der 20 Standorte wiederherzustellen und gleichzeitig etwa 20 weitere Formen vorzuschlagen (oder weniger, je nachdem, was als einzelne Instanz betrachtet wird). Die meisten dieser Vorschläge sind nicht nützlich, können aber auch von einem Experten leicht und schnell herausgefunden werden, insbesondere im Kontext, angesichts ihrer Größe oder ihres Standorts.

Testgebiet in der Provinz Maysan (rosa, gestrichelte Linie) mit von Archäologen entfernt identifizierten Standorten (blau, punktgefüllt) und Modellvorhersagen (gelb, liniengefüllt). Die vom geschulten Auge und vom Modell identifizierten Standorte sind gleichwertig und, was am wichtigsten ist, das Modell ist in der Lage, Bereiche ohne signifikante Merkmale zu ignorieren. Alle angezeigten Daten unterliegen der Fair-Use-Nutzung geografischer Daten für akademische Zwecke. Die Liste aller relevanten Daten-/Softwareanbieter lautet wie folgt: (i) Originalkartenerstellung gemäß Abschnitt 5 der Nutzungsbedingungen der Microsoft Bing Maps Platform APIs (https://www.microsoft.com/en-us). /maps/product/print-rights); (ii) Kartenanzeige mit einer Open-Source-Software unter den GNU-Lizenzen von QGIS (https://qgis.org/en/site/) und QuickMapsServices (https://github.com/nextgis/quickmapservices); (iii) endgültige Kartenausarbeitung, die mit einer von den Autoren entwickelten Software durchgeführt wurde und unter (https://bit.ly/NSR_floodplains) verfügbar ist.

Abbildung 4 zeigt stattdessen eine Überlagerung, die durch das Zusammenfügen der verschiedenen Vorhersagen und die Verwendung der Wahrscheinlichkeitswerte als eine Art Heatmap erstellt wurde. „Heißere“ Farben entsprechen höheren Wahrscheinlichkeiten, während Schwarz das Fehlen einer Site anzeigt. Beachten Sie, dass die Palette mit der in Abb. 2 identisch ist, wobei dunkelviolette Farben auf eine relativ geringe Wahrscheinlichkeit hinweisen (weniger als 0,5). Die Transparenz wird durch die Verwendung des Overlay-Filters in QGIS erreicht.

Die Ebene mit den Vorhersagewahrscheinlichkeiten des Maysan-Testgebiets wird als oberste Ebene in QGIS dargestellt. Diese Visualisierung ermöglicht es dem Benutzer, zu entscheiden, wo er suchen möchte, anstatt sich auf einen vordefinierten Schwellenwert zu verlassen. Alle angezeigten Daten unterliegen der Fair-Use-Nutzung geografischer Daten für akademische Zwecke. Die Liste aller relevanten Daten-/Softwareanbieter lautet wie folgt: (i) Originalkartenerstellung gemäß Abschnitt 5 der Nutzungsbedingungen der Microsoft Bing Maps Platform APIs (https://www.microsoft.com/en-us). /maps/product/print-rights); (ii) Kartenanzeige mit einer Open-Source-Software unter den GNU-Lizenzen von QGIS (https://qgis.org/en/site/) und QuickMapsServices (https://github.com/nextgis/quickmapservices); (iii) endgültige Kartenausarbeitung, die mit einer von den Autoren entwickelten Software durchgeführt wurde und unter (https://bit.ly/NSR_floodplains) verfügbar ist.

Leider ergab die menschliche Auswertung der Ergebnisse, dass das Modell je nach Wahl der Schwellenwerte nur etwa 25 bis 30 % der Standorte in dieser Region korrekt identifizieren kann. Der verbleibende Teil enthält entweder Orte, die völlig übersehen werden, oder Orte, die irgendwie angedeutet werden, entweder zu schwach oder innerhalb eines riesigen Bereichs, der bedeutungslos erscheint.

Der Grund für diesen starken Leistungsabfall liegt höchstwahrscheinlich in der unterschiedlichen Beschaffenheit der Landschaft in der Region, die an manchen Orten viel stärker urbanisiert zu sein scheint und im Allgemeinen mehr Vegetation aufweist: Daher sind nicht alle Auenumgebungen ähnlich genug für eine direkter Quervergleich. Darüber hinaus stimmen die Konventionen, die den Anmerkungen im usbekischen Datensatz zugrunde liegen, möglicherweise nicht perfekt mit den mesopotamischen überein, was die Situation weiter verkompliziert.

Dieses teilweise Scheitern muss in einen Zusammenhang gebracht werden, da wir glauben, dass unsere Methode auf eine Vielzahl ähnlicher Umgebungen in Asien und darüber hinaus mit mehrperiodischen Siedlungsgeschichten angewendet werden kann: Die einzige Möglichkeit, dieses Problem hier zu lösen, ist die von Erstellen eines kleinen Datensatzes ausgewählter Tepa-Standorte und Durchführung einer zusätzlichen Runde des Transferlernens, damit das Modell den neuen Kontext und die neuen Merkmale der jeweiligen Region erfassen kann.

Die erzielten Ergebnisse können als zufriedenstellend angesehen werden, auch wenn die IoU-Metrik im Vergleich zu anderen semantischen Segmentierungsanwendungen nicht besonders hoch ist. Beim Testen der Erkennungsleistung haben wir jedoch festgestellt, dass das Modell immer noch in der Lage ist, die meisten Standorte im Datensatz zu erkennen, sodass wir gute Erwartungen für den Einsatz in anderen Teilen des Untersuchungsgebiets haben. Wie der usbekische Test jedoch zeigt, kann es bei neuen Gebieten mit ähnlichen Standorten, aber in einem anderen Kontext zu erheblichen Leistungseinbußen kommen. Diese Frage der Übertragbarkeit, wie sie in der Archäologie genannt wird, ist ein aktives Forschungsthema. Eine Umschulungsphase, selbst mit einem kleineren Datensatz, könnte das Problem hoffentlich beheben und zukünftige Arbeiten könnten diese Forschungsrichtung untersuchen.

Es ist wichtig zu beachten, dass die Bewertungsmetriken bei dieser Aufgabe scheinbar an ihre Grenzen stoßen, wenn man mit der Tatsache konfrontiert wird, dass sie anhand von Annotationen berechnet werden, die oft nicht homogen sind und verschiedene falsche Bezeichnungen enthalten44. In unserem Fall haben wir die Tatsache in Kauf genommen, dass es viele Orte gibt, die nur auf einigen historischen Fotos oder Karten sichtbar sind, die Teil des Datensatzes sind, auch wenn sie keine nützlichen Beispiele liefern. Glücklicherweise scheint das Modell robust genug zu sein, um nützliche Konzepte zu lernen und diese verwirrenden Datenpunkte zu ignorieren. Ein noch kleinerer, saubererer Datensatz könnte die Leistung drastisch verbessern und gleichzeitig die Rechenlast verringern. Offensichtlich wären solche Reinigungsarbeiten eine enorme Zeitinvestition, und Archäologen würden diese stattdessen lieber selbst mit der aktiven Suche nach Stätten verbringen.

Unser Modell eröffnet jedoch die Möglichkeit, bereits vermessene Bereiche automatisch durchzugehen und dann eine Liste von Vorhersagen zu erstellen, die den Anmerkungen gegenübergestellt werden, die manuell überprüft werden sollen. Anschließend konnten die Archäologen einen neuen, saubereren Datensatz zusammenstellen und ein neues, verbessertes Modell trainieren. Siehe Lambers et al. für ein Beispiel mit Citizen Science45. Dasselbe Verfahren funktioniert auch bei Anwendungen in neuen Bereichen, in denen neuartige Vorhersagen manuell überprüft und im Laufe der Zeit zu einem neuen Datensatz hinzugefügt werden können.

Zusätzlich zum automatischen Verfahren könnte das Modell auch zur Erstellung eines Overlays zur Führung des Auges des Archäologen innerhalb einer GIS-Software verwendet werden. Dieser grafische Ansatz ermöglicht es den Benutzern, das Overlay auch mit anderen Karten zu vergleichen, die sie möglicherweise verwenden, und ihr Fachwissen zu nutzen, um auf der Grundlage aller ihnen vorliegenden Kontextinformationen auf die Existenz einer Site zu schließen46,47. Wir haben diesen Ansatz nur für einen kleinen Bereich ausprobiert, wie in Abb. 4 dargestellt, aber die Berechnung ließe sich leicht auf große Bereiche skalieren, da die Ausgabe weniger als eine Sekunde dauert und der Vorgang nicht abgeschlossen werden muss trotzdem einen Versuch machen. Der einzige Nachteil dieser Methode ist die offensichtliche Nichtübereinstimmung an der Grenze zwischen verschiedenen Eingabebildern, die dem Overlay sein mosaikartiges Aussehen verleihen. Theoretisch könnte die semantische Segmentierung mit Eingaben beliebiger Größe funktionieren, dafür ist jedoch eine große Menge an Speicher erforderlich, die möglicherweise nicht verfügbar ist. Eine Lösung könnte die Erstellung überlappender Vorhersagekarten sein, die dann gemittelt würden, wobei Rechenzeit zugunsten einer höheren Präzision geopfert würde.

Abbildung 5 fasst die Verwendung zusammen, die wir uns für das von uns beschriebene Modell vorstellen, im Sinne ähnlicher Lösungen48,49. Ausgehend vom Datensatz erstellt das Modell Vorhersagemasken, die wir durch Nachbearbeitung manipulieren können, um entweder ein Vektor-Shapefile zu erhalten, das zur automatischen Bewertung und Erkennung von Standorten verwendet werden kann. In dieser Phase hat der Benutzer die Möglichkeit, einen Schwellenwert zum Abschneiden der Vorhersage zu wählen und Techniken zum Glätten der Ausgabeformen zu verwenden, wie z. B. Unschärfe oder Pufferung der Vektoren. Ebenso kann die Kartenüberlagerung angepasst werden, indem verschiedene grafische Darstellungen direkt in der GIS-Software ausgewählt werden. Das Ziel besteht in diesem Fall darin, Orte zu erkennen, die beim automatischen Vergleich möglicherweise nicht erkannt werden, weil ihre Wahrscheinlichkeit unter dem Schwellenwert liegt, aber dennoch für einen Menschen erkennbar sind. Jedes Mal, wenn das Modell verwendet wird, können die Benutzer nach Überprüfung der Ergebnisse entweder einen neuen Satz von Anmerkungen oder eine Liste von Websites erhalten, die entfernt oder neu gekennzeichnet werden sollen. Wenn ein solcher Arbeitsablauf von mehr als einem Team verwendet wird, könnte dies auch die Suchbemühungen erheblich beschleunigen: Der Einsatz offener Technologien erleichtert in diesem Fall die gemeinsame Nutzung der Ergebnisse zwischen Forschungsgruppen, was der Archäologie als Fachgebiet sehr helfen könnte50.

Ein Human-in-the-Loop-Workflow basierend auf unserem Modell. Ein Modell wird aus annotierten Bildern trainiert und stellt Vorhersagemasken bereit. Die Masken können als Overlay oder vektorisiert verwendet werden. Die Ergebnisse werden von Menschen ausgewertet und im Gegenzug kann ein verfeinerter Datensatz erstellt werden, um das Modell zu verbessern.

Die Experimente mit CORONA-Bildern deuten auch auf die Möglichkeit hin, mehr Modelle zu kombinieren, möglicherweise mit unterschiedlichen Grundkarten oder einer Kombination davon trainiert, und die Vorhersagen aller dieser Modelle zu vergleichen. Insbesondere wenn historische Bilder vorhanden sind, könnten wir am Ende einen Datensatz erhalten, der auch zeitliche Informationen darüber enthält, wann ein Standort sichtbar ist und wann er nicht mehr erkennbar ist. Dieser letzte Aspekt ist ziemlich neu und stellt einen potenziellen Durchbruch in der automatisierten Fernerkundung dar. Die Verwendung stereoskopischer Bilder zur Erstellung von Höhenmodellen könnte ebenfalls von Nutzen sein, wenn die Auflösung ausreicht, um die gesuchten niedrigen Hügel hervorzuheben.

Wir stellten ein Deep-Learning-Modell zur Erkennung von Hügeln archäologischer Stätten in der mesopotamischen Überschwemmungsebene vor. Das Modell wurde mithilfe vorab trainierter Modelle für die semantische Segmentierung implementiert, die anhand von Satellitenbildern und Masken der Standortformen aus einem Datensatz mit fast 5.000 Beispielen verfeinert wurden.

Das Ergebnis unserer Experimente ist ein Modell, das im Testdatensatz einen IoU-Score von 0,8154 erreicht und Websites mit einer Genauigkeit von 80 % erkennt. Diese statistische Genauigkeit wird jedoch an die beträchtliche Anzahl von Standorten angepasst, die falsch beschriftet erscheinen, da sie auf modernen Satellitenbildern nicht mehr sichtbar sind. Obwohl wir den Datensatz nach besten Kräften bereinigt haben, blieben immer noch viele nicht erkennbare Websites übrig. Allerdings scheint das Modell recht robust zu sein.

Auf der Grundlage dieses Ergebnisses schlagen wir einen Arbeitsablauf für die Archäologen vor, bei dem ihre bereits etablierten Fernerkundungspraktiken durch die Verwendung eines Modells wie unseres unterstützt und verbessert werden. Die Ausgaben können sowohl für eine sehr schnelle automatische Erkennung verwendet werden, um auf mögliche Fehler aufmerksam zu machen, als auch zur Erstellung einer grafischen Überlagerung kombiniert werden, um die Aufmerksamkeit des Benutzers auf bestimmte Bereiche zu lenken. Die Verwendung des Modells führt wiederum zu neuen Formdateien und Anmerkungen, die zum Umschulen und Verbessern des Modells sowie zur Ermöglichung weiterer Analysen verwendet werden können. Die potenziellen Anwendungen dieser Methode sind weitreichend und betreffen nicht nur ihre Geschwindigkeit: Sie sollten vielmehr als notwendige Ergänzung zur traditionellen, auf Experten basierenden Fotointerpretation angesehen werden, die in vielen Fällen Standortmerkmale hinzufügt, die möglicherweise übersehen werden, aber wahrscheinlich übersehen werden bedeutsam sein.

Zusätzlich zu den spezifischen Informationen, die im Dokument bereitgestellt werden, sind der gesamte Code, die Daten und verschiedene Ressourcen auf GitHub (https://bit.ly/NSR_floodplains) verfügbar. Was geografische Daten betrifft, unterliegen alle angezeigten Daten der Bedingung der fairen Nutzung geografischer Daten für akademische Zwecke. Die Liste aller relevanten Daten-/Softwareanbieter lautet wie folgt: (i) Originalkartenerstellung gemäß Abschnitt 5 der Nutzungsbedingungen der Microsoft Bing Maps Platform APIs (https://www.microsoft.com/en-us/ Karten/Produkt/Druckrechte); (ii) Kartenanzeige mit einer Open-Source-Software unter den GNU-Lizenzen von QGIS (https://qgis.org/en/site/) und QuickMapsServices (https://github.com/nextgis/quickmapservices); (iii) endgültige Kartenausarbeitung, die mit einer von den Autoren entwickelten Software durchgeführt wurde und unter (https://bit.ly/NSR_floodplains) verfügbar ist.

Verschoof-van der Vaart, WB & Landauer, J. Verwendung von CarcassonNet zur automatischen Erkennung und Verfolgung hohler Straßen in LiDAR-Daten aus den Niederlanden. J. Kult. Erbe. 47, 143–154. https://doi.org/10.1016/j.culher.2020.10.009 (2021).

Artikel Google Scholar

Torrey, L. & Shavlik, J. Transferlernen. Im Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques (Hrsg. Torrey, L. & Shavlik, J.) 242–264 (IGI Global, 2010).

Kapitel Google Scholar

Deng, J. et al. ImageNet: Eine umfangreiche hierarchische Bilddatenbank. Im Jahr 2009 IEEE-Konferenz zu Computer Vision und Mustererkennung 248–255 (2009).

Traviglia, A., Cowley, D. & Lambers, K. Gemeinsamkeiten finden: Menschliches und computergestütztes Sehen in der archäologischen Prospektion. AARGnews Newsletter. Luftarchäologie. Res. Gruppe 53, 11–24 (2016).

Google Scholar

Palmer, R. Leitartikel. AARGnews (2021).

Wilkinson, TJ, Gibson, M. & Widell, M. Modelle mesopotamischer Landschaften: Wie kleinräumige Prozesse zum Wachstum früher Zivilisationen beitrugen (Archaeopress, 2013).

Buchen Sie Google Scholar

Adams, RM Land Behind Baghdad: A History of Settlement on the Diyala Plains (University of Chicago Press, 1965).

Google Scholar

Adams, RM „Heartland of Cities: Surveys of Ancient Settlement and Land Use on the Central Auen of the Euphrates“ (University of Chicago Press, 1981).

Google Scholar

Adams, RM & Nissen, HJ The Uruk Countryside: The Natural Setting of Urban Societies (University of Chicago Press, 1972).

Google Scholar

Marchetti, N. et al. Der Aufstieg urbanisierter Landschaften in Mesopotamien: Das QADIS integrierte Umfrageergebnisse und die Interpretation vielschichtiger historischer Landschaften. Z. Assyriol. Vorderasien. Archäol. 109, 214–237. https://doi.org/10.1515/za-2019-0016 (2019).

Artikel Google Scholar

Wilkinson, TJ Archäologische Landschaften des Nahen Ostens (University of Arizona Press, 2003).

Buchen Sie Google Scholar

Lyons, TR & Hitchcock, RK Luftfernerkundungstechniken in der Archäologie (Chaco Center, 1977).

Google Scholar

Kucukkaya, AG Photogrammetrie und Fernerkundung in der Archäologie. J. Quant. Spektroskopie Strahlen. Transf. 88, 83–88 (2004).

Artikel ADS CAS Google Scholar

Karamitrou, A., Sturt, F., Bogiatzis, P. & Beresford-Jones, D. Auf dem Weg zum Einsatz von Deep-Learning-Netzwerken mit künstlicher Intelligenz zur Erkennung archäologischer Stätten. Surfen. Topogr. Metrol. Prop. 10, 044001 (2022).

Artikel ADS Google Scholar

Hendrickx, M. et al. Die Verwendung stereoskopischer Bilder einer Mikrodrone zur Dokumentation des Erbes – ein Beispiel aus den Tuekta-Grabhügeln im russischen Altai. J. Archaeol. Wissenschaft. 38, 2968–2978 (2011).

Artikel Google Scholar

Küçükdemirci, M. & Sarris, A. GPR-Datenverarbeitung und -interpretation basierend auf Ansätzen der künstlichen Intelligenz: Zukunftsperspektiven für die archäologische Prospektion. Remote Sens. 14, 3377 (2022).

Artikel ADS Google Scholar

Balsi, M. et al. Vorläufige archäologische Stättenuntersuchung durch UAV-gestütztes Lidar: Eine Fallstudie. Remote Sens. 13, 332 (2021).

Artikel ADS Google Scholar

Assael, Y. et al. Wiederherstellung und Zuordnung alter Texte mithilfe tiefer neuronaler Netze. Natur 603, 280–283 (2022).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Verschoof-van der Vaart, WB, Lambers, K., Kowalczyk, W. & Bourgeois, QP Kombination von Deep Learning und ortsbasiertem Ranking für groß angelegte archäologische Prospektion von LiDAR-Daten aus den Niederlanden. ISPRS Int. J. Geo Inf. 9, 293 (2020).

Artikel Google Scholar

Trier, Ø. D., Cowley, DC & Waldeland, AU Verwendung tiefer neuronaler Netze auf luftgestützten Laserscandaten: Ergebnisse einer Fallstudie zur halbautomatischen Kartierung der archäologischen Topographie auf Arran, Schottland. Archäol. Aussicht. 26, 165–175 (2019).

Artikel Google Scholar

Anichini, F. et al. Die automatische Erkennung von Keramik anhand nur eines Fotos: Die ArchAIDE-App. J. Archaeol. Wissenschaft. Rep. 36, 102788 (2021).

Google Scholar

Mantovan, L. & Nanni, L. Die Computerisierung der Archäologie: Umfrage zu Techniken der künstlichen Intelligenz. SN-Computing. Wissenschaft. 1, 1–32 (2020).

Artikel Google Scholar

Bickler, SH Maschinelles Lernen hält Einzug in die Archäologie. Adv. Archäol. Üben. 9, 186–191 (2021).

Artikel Google Scholar

Guyot, A., Lennon, M., Lorho, T. & Hubert-Moy, L. Kombinierte Erkennung und Segmentierung archäologischer Strukturen aus LiDAR-Daten mithilfe eines Deep-Learning-Ansatzes. J. Comput. Appl. Archäol. 4, 1 (2021).

Google Scholar

Trier, Ø. D., Salberg, A.-B. & Pilø, LH Halbautomatische Kartierung von Holzkohleöfen aus luftgestützten Laserscandaten mithilfe von Deep Learning. In CAA2016: Ozeane der Daten. Proz. 44. Konferenz über Computeranwendungen und quantitative Methoden in der Archäologie 219–231 (Archaeopress, 2018).

Bickler, SH & Jones, B. Erweiterung des Deep Learning zur Identifizierung von Erdarbeiten in Te Tai Tokerau, Northland, Neuseeland. Archäologie 16, 1 (2021).

Google Scholar

Caspari, G. & Crespo, P. Faltungs-Neuronale Netze zur Erkennung archäologischer Stätten – Suche nach „Fürstengräbern“. J. Archaeol. Wissenschaft. 110, 104998 (2019).

Artikel Google Scholar

Orengo, HA et al. Automatisierte Erkennung archäologischer Hügel mittels maschineller Lernklassifizierung von Multisensor- und multitemporalen Satellitendaten. Proz. Natl. Acad. Wissenschaft. 117, 18240–18250. https://doi.org/10.1073/pnas.2005583117 (2020).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Ronneberger, O., Fischer, P. & Brox, T. U-net: Faltungsnetzwerke für die biomedizinische Bildsegmentierung. In International Conference on Medical Image Computing and Computer-Assisted Intervention 234–241 (Springer, 2015).

Fan, T., Wang, G., Li, Y. & Wang, H. MA-Net: Ein multiskaliges Aufmerksamkeitsnetzwerk für die Leber- und Tumorsegmentierung. IEEE Access 8, 179656–179665. https://doi.org/10.1109/ACCESS.2020.3025372 (2020).

Artikel Google Scholar

Vaswani, A. et al. Aufmerksamkeit ist alles, was Sie brauchen. In Advances in Neural Information Processing Systems (Hrsg. Vaswani, A. et al.) 5998–6008 (MIT Press, 2017).

Google Scholar

da Costa, LB et al. Tiefe semantische Segmentierung zur Erkennung von Eukalyptuswäldern auf brasilianischem Territorium mithilfe von Sentinel-2-Bildern. Geocarto Int. 37, 6538–6550 (2022).

Artikel Google Scholar

Li, R. et al. Multiattention-Netzwerk zur semantischen Segmentierung feinaufgelöster Fernerkundungsbilder. IEEE Trans. Geosci. Remote Sens. 60, 1–13 (2021).

Google Scholar

Roccetti, M. et al. Potenzial und Grenzen des Entwurfs eines Deep-Learning-Modells zur Entdeckung neuer archäologischer Stätten: Ein Fall mit der mesopotamischen Aue. In Proc. 6. Internationale EAI-Konferenz über intelligente Objekte und Technologien für das soziale Wohl 216–221 (Association for Computing Machinery, 2020).

QGIS-Entwicklungsteam. Geografisches Informationssystem QGIS (QGIS Association, 2022).

Google Scholar

Casini, L., Orrù, V., Roccetti, M. & Marchetti, N. Wenn Maschinen Orte für die Archäologen finden: Eine vorläufige Studie mit semantischer Segmentierung, angewendet auf Satellitenbilder der mesopotamischen Überschwemmungsebene. In Proc. 2022 ACM-Konferenz über Informationstechnologie für das soziale Wohl 378–383 (2022).

Casana, J. & Cothren, J. Das CORONA-Atlasprojekt: Orthorektifizierung von CORONA-Satellitenbildern und regionale archäologische Erkundung im Nahen Osten. In Mapping Archaeological Landscapes from Space (Hrsg. Comer, DC & Harrower, MJ) 33–43 (Springer, 2013).

Kapitel Google Scholar

Iakubovskii, P. Segmentierungsmodelle Pytorch. GitHub-Repository (2019).

Mantellini, S. & Berdimuradov, AE Bewertung des menschlichen Einflusses auf die archäologische Landschaft von Samarkand (Usbekistan): Eine diachrone Bewertung des Taylak-Distrikts durch Fernerkundung, Felduntersuchungen und lokale Kenntnisse. Archäol. Res. Asien 20, 100143. https://doi.org/10.1016/j.ara.2019.100143 (2019).

Artikel Google Scholar

GDAL/OGR-Mitwirkende. GDAL/OGR Geospatial Data Abstraction Software Library (Open Source Geospatial Foundation, 2022).

Google Scholar

Baeza-Yates, R. & Estévez-Almenzar, M. Die Relevanz nichtmenschlicher Fehler beim maschinellen Lernen. In EBeM'22: Workshop zur KI-Bewertung über Metriken hinaus (2022).

Cowley, DC Rein mit dem Neuen, raus mit dem Alten? Automatische Extraktion für die Fernerkundungsarchäologie. In Remote Sensing of the Ocean, Sea Ice, Coastal Waters, and Large Water Regions 2012 37–45 (SPIE, 2012).

Gallwey, J., Eyre, M., Tonkins, M. & Coggan, J. Mond-LiDAR zurück auf die Erde bringen: Kartierung unseres industriellen Erbes durch umfassendes Transferlernen. Remote Sens. 11, 1994. https://doi.org/10.3390/rs11171994 (2019).

Artikel ADS Google Scholar

Fiorucci, M. et al. Deep Learning für die Erkennung archäologischer Objekte auf LiDAR: Neue Bewertungsmaßnahmen und Erkenntnisse. Remote Sens. 14, 1694. https://doi.org/10.3390/rs14071694 (2022).

Artikel ADS Google Scholar

Lambers, K., Verschoof-van der Vaart, WB & Bourgeois, QPJ Integration von Fernerkundung, maschinellem Lernen und Citizen Science in die niederländische archäologische Prospektion. Remote Sens. 11, 794. https://doi.org/10.3390/rs11070794 (2019).

Artikel ADS Google Scholar

Verschoof-van der Vaart, WB Lernen, LiDAR zu betrachten: Kombination von CNN-basierter Objekterkennung und GIS für die archäologische Prospektion in Fernerkundungsdaten (Universität Leiden, 2022).

Google Scholar

Verschoof-van der Vaart, WB & Lambers, K. Anwendung der automatisierten Objekterkennung in der archäologischen Praxis: Eine Fallstudie aus den südlichen Niederlanden. Archäol. Aussicht. 29, 15–31. https://doi.org/10.1002/arp.1833 (2022).

Artikel Google Scholar

Herfort, B. et al. Kartierung menschlicher Siedlungen mit höherer Genauigkeit und weniger freiwilligem Aufwand durch die Kombination von Crowdsourcing und Deep Learning. Remote Sens. 11, 1799. https://doi.org/10.3390/rs11151799 (2019).

Artikel ADS Google Scholar

Ponti, M. & Seredko, A. Integration von Mensch-Maschine-Lernen und Aufgabenverteilung in der Bürgerwissenschaft. Humanit. Soc. Wissenschaft. Komm. 9, 1–15. https://doi.org/10.1057/s41599-022-01049-z (2022).

Artikel Google Scholar

Marchetti, N. et al. NEARCHOS. Vernetzte archäologische offene Wissenschaft: Fortschritte in der Archäologie durch Feldanalyse und Austausch in der wissenschaftlichen Gemeinschaft. J. Archaeol. Res. 26, 447–469 (2018).

Artikel Google Scholar

Referenzen herunterladen

Die Finanzierung erfolgte durch die Europäische Kommission (CSOLA/2016/382-631), die Volkswagen-Stiftung (Kalam-Projekt) und die University of Toronto (CRANE 2.0-Projekt).

Fakultät für Informatik und Ingenieurwesen, Universität Bologna, Bologna, Italien

Luca Casini, Andrea Montanucci und Marco Roccetti

Abteilung für Geschichte und Kulturen, Universität Bologna, Bologna, Italien

Nicolò Marchetti & Valentina Orrù

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

LC hat das Manuskript geschrieben, die Experimente mit AM entworfen und durchgeführt; VO stellte den Datensatz und die menschliche Bewertung bereit; NM und MR überwachten die Studie und überarbeiteten das Manuskript.

Korrespondenz mit Marco Roccetti.

Nicolò Marchetti wurde durch folgende Projekte finanziert: (i) das Projekt „EDUU – Bildung und Verbesserung des kulturellen Erbes für den sozialen Zusammenhalt im Irak“, finanziert von EuropeAid (CSOLA/2016/382–631), www.eduu.unibo.it , in dessen Rahmen das FloodPlains-Projekt entwickelt wurde, https://floodplains.orientlab.net/; (ii) das Projekt „KALAM. Analyse, Schutz und Entwicklung archäologischer Landschaften im Irak und Usbekistan durch IKT und gemeinschaftsbasierte Ansätze“, finanziert von der VolkswagenStiftung, www.kalam.unibo.it; (iii) das CRANE 2.0-Projekt der University of Toronto, das die Geodatenserver bereitstellte, auf denen FloodPlains läuft. Alle anderen Autoren erklären keine konkurrierenden Interessen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Casini, L., Marchetti, N., Montanucci, A. et al. Ein Arbeitsablauf für die Zusammenarbeit zwischen Mensch und KI zur Erkennung archäologischer Stätten. Sci Rep 13, 8699 (2023). https://doi.org/10.1038/s41598-023-36015-5

Zitat herunterladen

Eingegangen: 09. März 2023

Angenommen: 27. Mai 2023

Veröffentlicht: 29. Mai 2023

DOI: https://doi.org/10.1038/s41598-023-36015-5

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.