У овој вежбанци ћемо се бавити анализом сателитских снимака Земље у циљу идентификације намена површина. У различитим применама је од интереса идентификовати која је реална намена земљишта (ораница, шума, насеље, индустрија...). Стручна особа може увидом у сателитске снимке извршити овакву идентификацију намене земљишта, али је у том случају то мукотрпан и скуп посао, подложан грешкама, а који је тешко и неисплативо редовно радити. Као вид вештачке интелигенције, ми ћемо користити моделе машинског учења ради аутоматске анализе намене земљишта са датог сателитског снимка.
Сентинел 2 - мисија ЕСА¶
Kao извор података ћемо користити мисију Европске Свемирске Агенције (ЕСА), која руководи свемирским програмом Европске Уније. ЕСА оперише са већим бројем сателита који врше посматрање Земље у циљу различитих примена. Нама је од интереса Сентинел 2, што је група од два идентична сателита која посматрају континенталне и обалне пределе у светлосном спектру. Ми ћемо ради интуитивности користити само обсервације у видљивом спектру (дакле, слике у боји), мада су доступни и снимци на таласним дужинама ван видљивог спектра, као што су рецимо инфрацрвени таласи.
Снимци које даје Сентинел 2 у видљивом спектру светлости су са резолуцијом од 10 метара, а иста тачка на површини Земље се изнова снима у интервалу од око 5 дана. Оно што је од посебног интереса нама је да су наравно и подаци за Србију потпуно доступни.
Европска Свемирска Агенција је у оквиру програма Коперникус омогућила бестплатан приступ Сентинел 2 подацима како за некомерцијалне, тако и за комерцијалне сврхе уз једину обавезу навођења извора - што ћемо и учинити овде: У овој вежбанци користимо Коперникус Сентинел податке из 2021. године.
Пример испод је исечак који садржи град Шабац и реку Саву. Кроз примере, објашњења и Python код у овој вежбанци ћемо научити како да овакву слику учитамо из Сентинел 2 обсервација али и како да применимо модел вештачке интелигенције за њену аутоматску обраду у смислу идентификације намене земљишта.
Можете ли да уочите различите намене земљишта на њој? Да ли разликујете насеље од индустријске зоне?

Анализа путем машинског учења¶
Као што смо навели, желимо да решимо проблем идентификације намене земљишта на основу сателитског снимка у боји. Могуће је замислити различите једноставне алгоритме који би овај проблем могли решавати. На пример, можемо просто рећи да ако у региону доминира зелена боја то је шума, док ако доминира плава боја то је река.
Овде смо уочили да је доминантна боја у региону параметар од значаја, овакви параметри се у машинском учењу зову обележја. Поред боје могли бисмо уочити и обележја која се тичу постојања паралелних линија у региону што би могло да укаже на оранице.
Могуће је уочити и друга обележја од интереса - погледајте примере испод и размислите која?
![]() |
![]() |
![]() |
![]() |
![]() |
| Ораница | Индустрија | Насеље | Шума | Вода |
Класичан приступ машинском учењу подразумева да инжењер или научник сам дизајнира обележја на сличан начин као што смо горе урадили, док сам модел машинског учења кроз статистичке поступке анализира које комбинације и експресије обележја најбоље одговорају свакој од класа коју желимо да предвидимо.
Савремен приступ машинском учењу подразумева такозвано дубоко учење или учење репрезентације, где модел на основу великог скупа података уједно учи и класификациони задатак као и оптимална обележја која га решавају. Кроз истраживачки рад се испоставило да рачунарски алгоритам на основу анализе великог броја података може да уочи боља обележја него што човек може да их испројектује. Таква обележја бивају робусна на различите промене у обсервацијама (већа/мања осветљеност, сенке, морфолошке разлике...) и олакшавају класификациони задатак.
Запитајте се како бисте направили обележја која добро разликују индустрију од насеља на примерима изнад? Није тако једноставно као плава и зелена боја за разликовање шуме од воде (узгред, вода на примеру изнад изгледа поприлично зелено, зар не?)
Означена база података EuroSAT¶
Сами сателитски снимици иако богати и редовно доступни нису довољни за развој вештачке интелигенције базиране на машинском учењу. Као што и сам израз "машинско учење" наговештава, неопходно је имати извор на основу кога је могуће спровести учење које укључује анализу улаза (сателитских снимака) и кореспондирајућих очекиваних излаза (намене земљишта) - управо као што је на слици из претходне секције сваком исечку сателитског снимка (улаз) придружена одговарајућа класа у форми текстуалног описа (очекивани излаз).
Дакле, модел машинског учења се обучава тако што му се представе улази и кореспондирајући очекивани (тачни) излази које он треба да да, а у процесу обучавања се прилагођавају параметри модела тако да се максимизира број тачно датих предикција. Наравно, када скупимо сирове податке они немају придужене тачне очекиване излазе, већ је најчешће неопходно ручно извршити означавање очекиваних излаза за сваку од класа (што је углавном јако мукотрпан и скуп посао). Улазни примери који имају тако придружену очекивану класу се називају означеним или лабелираним. Дакле, поред сировог скупа улазних података, за машинско учење је неопходно те податке фино и прецизно означити, а како дубоко учење захтева огромну количину означених података (од десетине хиљада па до милиона лабелираних слика), једна од кључних инвестиција у процесу машинског учења је израда или набавка лабелираних скупова података. Вредно је навести да баш услед овог проблема савремена наука развија и методе учења којима су довољни само делимично означени подаци или пак потпуно неозначени подаци.
У овој свесци ћемо користити лабелирану базу података коју су дали аутори радова наведених испод. База је дата слободном за коришћење уз навођење кореспондирајућих референтних радова.
Helber, P., Bischke, B., Dengel, A., & Borth, D. (2019). Eurosat: A novel dataset and deep learning benchmark for land use and land cover classification. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 12(7), 2217-2226.
Helber, P., Bischke, B., Dengel, A., & Borth, D. (2018, July). Introducing eurosat: A novel dataset and deep learning benchmark for land use and land cover classification. In IGARSS 2018-2018 IEEE International Geoscience and Remote Sensing Symposium (pp. 204-207). IEEE.
Сама база се састоји од 27000 исечака обсервација са Сентинела 2, где је сваки исечак величине 64x64 пиксела и има придружену једну од 10 класа (излистане испод).
classes = [ 'AnnualCrop',
'Forest',
'HerbaceousVegetation',
'Highway',
'Industrial',
'Pasture',
'PermanentCrop',
'Residential',
'River',
'SeaLake']
На слици у претходној секцији су управо приказани примери из ове базе. У остатку ове вежбанке, између осталог, ћемо научити како да већ припремљену базу самостално учитамо.




