Die weite Verbreitung von Steinen auf der Marsoberfläche stellt eine potenzielle Bedrohung für das sichere Fahren des Rovers auf dem Mars dar und liefert gleichzeitig wichtige Hinweise für die Untersuchung der geologischen Entwicklung der Landezone auf dem Mars. Die Identifizierung von Steinen auf den Bildern des Marsrovers steht jedoch vor mehreren Herausforderungen: Die unscharfen Ränder von Steinen und Hintergrund machen das Extrahieren von Konturen schwierig, die Ähnlichkeit der texturierten Merkmale führt zu falschen Auslösungen und der Mangel an realen Datensätzen von Marsgestein begrenzt das Training des Modells. Um eine präzise Identifikation von Steinen auf den Bildern des Marsrovers zu erreichen, schlägt dieser Artikel ein Modell zur automatischen Identifikation von Steinen auf der Grundlage eines Convolutional Self-Attention Network zur Pixelsegmentierung von Bildern vor. Dieses Modell verwendet eine Encoder-Decoder-Architektur, bei der der Encoder Merkmale des Bildes auf der Grundlage eines Convolutional Neural Network extrahiert und auch ein verbessertes Self-Attention-Modul integriert, um die Fähigkeit des Modells zur Wahrnehmung von Kontextinformationen zu verstärken; der Decoder ist dafür verantwortlich, die vom Encoder extrahierten Merkmale auf den Bildraum abzubilden, um eine präzise Segmentierung zu erreichen. Zur Überprüfung der Leistung des Modells wurden in diesem Artikel Bilder des Rovers Zhurong beschriftet und ein Tianwen-Datensatz erstellt, und die Leistung des Modells wurde unter Verwendung mehrerer Datensätze wie dem simulierten Steindatensatz Synmars, Simmars6k, dem Bild Datensatz Curiosity MarsData-v2 und anderen getestet und validiert. Darüber hinaus wurden in diesem Artikel dieses Modell mit mehreren Methoden wie DeepLabv3+, Unet++, Segformer, Marsnet usw. verglichen. Mit Indikatoren wie durchschnittlicher Pixelgenauigkeit, Recall, Kreuzkorrelation usw. zeigen die Ergebnisse, dass dieses Modell in der Lage ist, Steine präzise zu identifizieren, wobei die Genauigkeit und der Recall in simulierten Datensätzen über 90% liegen und die optimale Genauigkeit und der optimale Recall in realen Datensätzen.