11. час: Учитавање табела из локалних датотека и из удаљених ресурса¶

На овом часу ћемо говорити о:

учитавању података из табела које су припремљене у формату CSV;
учитавање података из удаљених ресурса; и
транспоновање табеле.

11.1. Учитавање података из локалних CSV датотека¶

Видели смо у претходним примерима да се најмукотрпнији посао обраде података састоји у томе да се подаци унесу у табелу. То је досадан посао који се често састоји у томе да се подаци просто прекуцају. Табеле са којима смо се сретали су зато биле веома мале. Модерна обрада података се, међутим, све више усмерава на анализу огромних количина података (енгл. big data) и ту прекуцавање података не долази у обзир.

Подаци се данас углавном прикупљају аутоматски, и програми за прикупљање података генеришу велике табеле података које после треба обрађивати. Постоје разни формати за табеларно представљање података, а најједноставнији од њих се зове CSV, (од енгл. comma separated values што значи "вредности раздвојене зарезима").

CSV датотека је текстуална датотека у којој редови одговарају редовима табеле, а подаци унутар истог реда су раздвојени зарезима. На пример, у фолдеру podaci се налази датотека StanovnistvoSrbije2017.csv која изгледа овако:

Старост,Мушко,Женско
0,33145,31444
1,33252,31105
2,33807,31475
3,34076,31952
4,33436,31643
5,34278,32505
6,33773,31523
7,33892,32185
8,34706,32396
9,34519,32177
10,34017,32064
11,34947,33251
... (итд) ...
84,11450,18529
85 и више,44817,78323

Ова табела садржи процену броја становника Републике Србије по годинама на дан 31.12.2017. Први ред табеле представља заглавље табеле које нам каже да табела има три колоне (Старост, Мушко, Женско). Врста

7,33892,32185

значи да се процењује да је 31.12.2017. у Србији било 33.892 седмогодишњих дечака и 32.185 седмогодишњих девојчица.

Библиотека pandas има функцију read_csv која учитава CSV датотеку и од ње прави табелу типа DataFrame. Ево примера:

In [1]:

import pandas as pd
stanovnistvo = pd.read_csv("podaci/StanovnistvoSrbije2017.csv")

Пошто је табела велика, приказаћемо само првих неколико редова. Функција head(N) приказује првих N редова табеле (енгл. head значи "глава"):

In [2]:

stanovnistvo.head(5)

Out[2]:

	Старост	Мушко	Женско
0	0	33145	31444
1	1	33252	31105
2	2	33807	31475
3	3	34076	31952
4	4	33436	31643

Функција tail(N) приказује последњих N редова табеле (енгл. tail значи "реп"):

In [3]:

stanovnistvo.tail(5)

Out[3]:

	Старост	Мушко	Женско
81	81	16552	25345
82	82	15025	23036
83	83	13522	21435
84	84	11450	18529
85	85 и више	44817	78323

Табелу ћемо индексирати колоном "Старост":

In [4]:

stanovnistvo1 = stanovnistvo.set_index("Старост")
stanovnistvo1.head(5)

Out[4]:

	Мушко	Женско
Старост
0	33145	31444
1	33252	31105
2	33807	31475
3	34076	31952
4	33436	31643

In [5]:

stanovnistvo1.tail(5)

Out[5]:

	Мушко	Женско
Старост
81	16552	25345
82	15025	23036
83	13522	21435
84	11450	18529
85 и више	44817	78323

11.2. Учитавање података из удаљених ресурса¶

Могуће је преузети и податке са удаљених ресурса без потребе да се они прво пребаце на локалну машину. Да бисмо приступили податку који се налази на некој другој машини потребно је да обе машине имају приступ Интернету и да знамо тачну локацију податка на удаљеној машини. Тачна локација било ког ресурса на Интернету је описана његовим URL-ом (од енгл. Universal Resource Locator, што значи "Универзални локатор ресурса").

На адреси

https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv

се налази јавно доступан списак свих држава на свету. Ову табелу можемо лако учитати наредбом read_csv:

In [6]:

drzave = pd.read_csv("https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv")
drzave.head(10)

Out[6]:

	Country	Region
0	Algeria	AFRICA
1	Angola	AFRICA
2	Benin	AFRICA
3	Botswana	AFRICA
4	Burkina	AFRICA
5	Burundi	AFRICA
6	Cameroon	AFRICA
7	Cape Verde	AFRICA
8	Central African Republic	AFRICA
9	Chad	AFRICA

Помоћу наредбе read_html може се прочитати и табела директно из HTML кода неке веб странице. Рецимо, следећа наредба чита списак свих федералних јединица Сједињених Америчких Држава са одговарајуће странице Википедије:

In [7]:

US = pd.read_html("https://simple.wikipedia.org/wiki/List_of_U.S._states", header=0)[0]

Наредба read_html враћа релативно сложену структуру, али табела коју желимо да видимо је прва у тој структури. Зато иза наредбе следи конструкт [0] који враћа прву компоненту сложене структуре. Аргумент header=0 значи да прву врсту треба узети за заглавље табеле. Ево како изгледа табела:

In [8]:

US

Out[8]:

	Sl no.	Abbreviations	State Name	Capital	Became a State
0	1	AL	Alabama	Montgomery	December 14, 1819
1	2	AK	Alaska	Juneau	January 3, 1959
2	3	AZ	Arizona	Phoenix	February 14, 1912
3	4	AR	Arkansas	Little Rock	June 15, 1836
4	5	CA	California	Sacramento	September 9, 1850
5	6	CO	Colorado	Denver	August 1, 1876
6	7	CT	Connecticut	Hartford	January 9, 1788
7	8	DE	Delaware	Dover	December 7, 1787
8	9	FL	Florida	Tallahassee	March 3, 1845
9	10	GA	Georgia	Atlanta	January 2, 1788
10	11	HI	Hawaii	Honolulu	August 21, 1959
11	12	ID	Idaho	Boise	July 3, 1890
12	13	IL	Illinois	Springfield	December 3, 1818
13	14	IN	Indiana	Indianapolis	December 11, 1816
14	15	IA	Iowa	Des Moines	December 28, 1846
15	16	KS	Kansas	Topeka	January 29, 1861
16	17	KY	Kentucky	Frankfort	June 1, 1792
17	18	LA	Louisiana	Baton Rouge	April 30, 1812
18	19	ME	Maine	Augusta	March 15, 1820
19	20	MD	Maryland	Annapolis	April 28, 1788
20	21	MA	Massachusetts	Boston	February 6, 1788
21	22	MI	Michigan	Lansing	January 26, 1837
22	23	MN	Minnesota	Saint Paul	May 11, 1858
23	24	MS	Mississippi	Jackson	December 10, 1817
24	25	MO	Missouri	Jefferson City	August 10, 1821
25	26	MT	Montana	Helena	November 8, 1889
26	27	NE	Nebraska	Lincoln	March 1, 1867
27	28	NV	Nevada	Carson City	October 31, 1864
28	29	NH	New Hampshire	Concord	June 21, 1788
29	30	NJ	New Jersey	Trenton	December 18, 1787
30	31	NM	New Mexico	Santa Fe	January 6, 1912
31	32	NY	New York	Albany	July 26, 1788
32	33	NC	North Carolina	Raleigh	November 21, 1789
33	34	ND	North Dakota	Bismarck	November 2, 1889
34	35	OH	Ohio	Columbus	March 1, 1803
35	36	OK	Oklahoma	Oklahoma City	November 16, 1907
36	37	OR	Oregon	Salem	February 14, 1859
37	38	PA	Pennsylvania	Harrisburg	December 12, 1787
38	39	RI	Rhode Island	Providence	May 19, 1790
39	40	SC	South Carolina	Columbia	May 23, 1788
40	41	SD	South Dakota	Pierre	November 2, 1889
41	42	TN	Tennessee	Nashville	June 1, 1796
42	43	TX	Texas	Austin	December 29, 1845
43	44	UT	Utah	Salt Lake City	January 4, 1896
44	45	VT	Vermont	Montpelier	March 4, 1791
45	46	VA	Virginia	Richmond	June 25, 1788
46	47	WA	Washington	Olympia	November 11, 1889
47	48	WV	West Virginia	Charleston	June 20, 1863
48	49	WI	Wisconsin	Madison	May 29, 1848
49	50	WY	Wyoming	Cheyenne	July 10, 1890

11.3. Транспоновање табеле¶

Замена врста и колона табеле се зове транспоновање. Приликом транспоновања имена колона полазне табеле постају индекси нове табеле, док индексна колона полазне табеле одређује имена колона нове табеле:

Транспоновање

Транспоновање се често користи када табела има мало веома дугачких редова, па је у неким ситуацијама лакше посматрати транспоновану табелу која онда има пуно релативно кратких редова. Функције head и tail нам тада омогућују да се брзо упознамо са почетком и крајем табеле и да стекнемо неку интуицију о томе како табела изгледа.

Важно је рећи и то да се са табелама може радити и без транспоновања, јер све што можемо да урадимо на колонама табеле можемо да урадимо и на врстама. И поред тога, транспоновање се често користи јер је библиотека pandas оптимизована за рад по колонама табеле.

Табела се транспонује тако што се на њу примени функција Т која као резултат враћа нову, транспоновану табелу.

Ево примера са оценама:

In [9]:

razred = [["Ана",     5, 3, 5, 2, 4, 5],
          ["Бојан",   5, 5, 5, 5, 5, 5],
          ["Влада",   4, 5, 3, 4, 5, 4],
          ["Гордана", 5, 5, 5, 5, 5, 5],
          ["Дејан",   3, 4, 2, 3, 3, 4],
          ["Ђорђе",   4, 5, 3, 4, 5, 4],
          ["Елена",   3, 3, 3, 4, 2, 3],
          ["Жаклина", 5, 5, 4, 5, 4, 5],
          ["Зоран",   4, 5, 4, 4, 3, 5],
          ["Ивана",   2, 2, 2, 2, 2, 5],
          ["Јасна",   3, 4, 5, 4, 5, 5]]
ocene = pd.DataFrame(razred)
ocene.columns=["Име", "Српски", "Енглески", "Математика", "Физика", "Хемија", "Ликовно"]
ocene1 = ocene.set_index("Име")
ocene1

Out[9]:

	Српски	Енглески	Математика	Физика	Хемија	Ликовно
Име
Ана	5	3	5	2	4	5
Бојан	5	5	5	5	5	5
Влада	4	5	3	4	5	4
Гордана	5	5	5	5	5	5
Дејан	3	4	2	3	3	4
Ђорђе	4	5	3	4	5	4
Елена	3	3	3	4	2	3
Жаклина	5	5	4	5	4	5
Зоран	4	5	4	4	3	5
Ивана	2	2	2	2	2	5
Јасна	3	4	5	4	5	5

Транспоновану табелу добијамо овако:

In [10]:

ocene2 = ocene1.T
ocene2

Out[10]:

Име	Ана	Бојан	Влада	Гордана	Дејан	Ђорђе	Елена	Жаклина	Зоран	Ивана	Јасна
Српски	5	5	4	5	3	4	3	5	4	2	3
Енглески	3	5	5	5	4	5	3	5	5	2	4
Математика	5	5	3	5	2	3	3	4	4	2	5
Физика	2	5	4	5	3	4	4	5	4	2	4
Хемија	4	5	5	5	3	5	2	4	3	2	5
Ликовно	5	5	4	5	4	4	3	5	5	5	5

Хајде још да се уверимо да су врсте и колоне замениле места и у пољима index и columns. У полазној табели је:

In [11]:

ocene1.index

Out[11]:

Index(['Ана', 'Бојан', 'Влада', 'Гордана', 'Дејан', 'Ђорђе', 'Елена',
       'Жаклина', 'Зоран', 'Ивана', 'Јасна'],
      dtype='object', name='Име')

In [12]:

ocene1.columns

Out[12]:

Index(['Српски', 'Енглески', 'Математика', 'Физика', 'Хемија', 'Ликовно'], dtype='object')

А у транспонованој табели је:

In [13]:

ocene2.index

Out[13]:

Index(['Српски', 'Енглески', 'Математика', 'Физика', 'Хемија', 'Ликовно'], dtype='object')

In [14]:

ocene2.columns

Out[14]:

Index(['Ана', 'Бојан', 'Влада', 'Гордана', 'Дејан', 'Ђорђе', 'Елена',
       'Жаклина', 'Зоран', 'Ивана', 'Јасна'],
      dtype='object', name='Име')

Како смо раније већ видели, просек оцена по предметима добијамо лако:

In [15]:

for predmet in ocene1.columns:
    print(predmet, "->", ocene1[predmet].mean())

Српски -> 3.909090909090909
Енглески -> 4.181818181818182
Математика -> 3.727272727272727
Физика -> 3.8181818181818183
Хемија -> 3.909090909090909
Ликовно -> 4.545454545454546

Да бисмо добили просек оцена по ученицима, можемо да приступимо врстама табеле користећи функцију loc како смо то већ видели, али можемо и да употребимо транспоновану табелу (рачунање просека по колонама, јер су колоне транспоноване табеле заправо врсте полазне табеле):

In [16]:

for ucenik in ocene2.columns:
    print(ucenik, "->", ocene2[ucenik].mean())

Ана -> 4.0
Бојан -> 5.0
Влада -> 4.166666666666667
Гордана -> 5.0
Дејан -> 3.1666666666666665
Ђорђе -> 4.166666666666667
Елена -> 3.0
Жаклина -> 4.666666666666667
Зоран -> 4.166666666666667
Ивана -> 2.5
Јасна -> 4.333333333333333

Ево још једног примера. У фолдеру podaci се налази датотека TemperaturneAnomalije.csv која садржи податке о томе за колико степени Целзијуса је средња измерена температура на Земљи већа од оптималне у последњих 40 година. Ова табела има два дугачка реда који изгледају овако:

1977,1978,1979,1980,1981,...
0.22,0.14,0.15,0.3,0.37,...

У првом реду се налазе године (1977-2017), а у другом измерена температурна аномалија. Видимо да табела нема заглавље. Зато ћемо је учитати на следећи начин:

In [17]:

temp_anomalije = pd.read_csv("podaci/TemperaturneAnomalije.csv", header = None)
temp_anomalije

Out[17]:

	0	1	2	3	4	5	6	7	8	9	...	31	32	33	34	35	36	37	38	39	40
0	1977.00	1978.00	1979.00	1980.0	1981.00	1982.00	1983.0	1984.00	1985.00	1986.00	...	2008.00	2009.00	2010.00	2011.00	2012.00	2013.00	2014.00	2015.00	2016.0	2017.00
1	0.22	0.14	0.15	0.3	0.37	0.15	0.4	0.23	0.14	0.28	...	0.48	0.59	0.77	0.55	0.56	0.62	0.71	0.85	1.1	0.92

2 rows × 41 columns

Дакле, ако табела са подацима нема заглавље, приликом учитавања се то мора нагласити функцији read_csv тако што се наведе header = None.

Да бисмо добили податке у облику који се лакше обрађује, транспоноваћемо табелу и онда ћемо колонама транспоноване табеле дати одговарајућа имена.

In [18]:

temp_anomalije1 = temp_anomalije.T
temp_anomalije1.columns = ["Година", "Аномалија"]

Ево првих неколико редова табеле:

In [19]:

temp_anomalije1.head(10)

Out[19]:

	Година	Аномалија
0	1977.0	0.22
1	1978.0	0.14
2	1979.0	0.15
3	1980.0	0.30
4	1981.0	0.37
5	1982.0	0.15
6	1983.0	0.40
7	1984.0	0.23
8	1985.0	0.14
9	1986.0	0.28

Табелу ћемо индексирати колоном "Година":

In [20]:

temp_anomalije2 = temp_anomalije1.set_index("Година")
temp_anomalije2.head(5)

Out[20]:

	Аномалија
Година
1977.0	0.22
1978.0	0.14
1979.0	0.15
1980.0	0.30
1981.0	0.37

Приказаћемо температурне аномалије дијаграмом:

In [22]:

import matplotlib.pyplot as plt
plt.figure(figsize=(15,5))
plt.plot(temp_anomalije2.index, temp_anomalije2["Аномалија"], color="r")
plt.title("Температурне аномалије у периоду 1977--2017")
plt.show()
plt.close()

11.4. Задаци¶

Задатке реши у Џупајтеру.

Задатак 1. У фолдеру podaci се налази датотека StanovnistvoSrbije2017.csv (која има заглавље). Табела има три колоне које се зову "Старост", "Мушко" и "Женско".

(а) Учитај датотеку у структуру података DataFrame и индексирај табелу колоном "Старост".

(б) Прикажи процењени број мушкараца и жена по старости линијским дијаграмом.

Задатак 2. Ученици једног разреда су скакали у даљ. Сваки ученик је скакао три пута и резултати су дати у датотеци SkokUDalj.csv која се налази у фолдеру podaci. Табела има заглавље и састоји се од четири колоне: "Презиме и име", "Скок1", "Скок2" и "Скок3".

(а) Учитај датотеку у структуру података DataFrame.

(б) Прикажи ове податке линијским дијаграмом који ће имати три линије, једна линија за сваки скок. Дијаграм треба да има легенду.

Задатак 3. На адреси

https://raw.githubusercontent.com/resbaz/r-novice-gapminder-files/master/data/gapminder-FiveYearData.csv

се налази јавно доступна табела са списком држава света и неким параметрима економског развоја тих држава праћеним у интервалима од 5 година.

Табела има следеће колоне:

country = држава
year = година на коју се односе подаци
pop = број становника (енгл. population)
continent = континент
lifeExp = очекивани животни век у годинама (енгл. life expextancy)
gdpPercap = БДП по глави становника у америчким доларима (енгл. GDP per capitem)

Учитај ову табелу у структуру података DataFrame и прикажи првих 20 редова табеле, као и последњих 10 редова табеле.

Prijavi problem

Obeleži sve kategorije koje odgovaraju problemu

Još detalja - opišite nam problem

11. час: Учитавање табела из локалних датотека и из удаљених ресурса¶

11.1. Учитавање података из локалних CSV датотека¶

11.2. Учитавање података из удаљених ресурса¶

11.3. Транспоновање табеле¶

11.4. Задаци¶