Zk 11.1.2010

Logické a fyzické schéma souboru, logický a fyzický záznam. Základní databázové operace. Hierarchie pamětí, magnetická páska, magnetický disk, RAID, jukebox. Halda, sekvenční soubor, index-sekvenční soubor, indexovaný soubor. Bitové indexy. Jednoduchá hašovací schemata. Perfektní hašování. Dynamické hašování, skupinové štěpení stránek. Hašovací schemata na částečnou shodu. B-stromy, B+-stromy. B*-stromy, (a,b)-stromy. Srovnání paralelního přístupu pomocí B-stromů a (a,b)-stromů. Struktury pro vícerozměrnou indexaci: VB-stromy, vícerozměrná mřížka. n-cestný algoritmus třídění.
Uživatelský avatar
R.U.R.
Matfyz(ák|ačka) level III
Příspěvky: 140
Registrován: 25. 5. 2008 18:46
Typ studia: Informatika Ph.D.
Bydliště: Beroun
Kontaktovat uživatele:

Zk 11.1.2010

Příspěvek od R.U.R. »

PRAKTICKÁ ČÁST:

1 Insert do neredundantního B*stromu (8b)
byl tam strom (důležitá část je níže), byl tam špatně udělanej insert (bylo to rozštěpeno ale nemělo být), mělo se to orpavit a odůvodnit

Kód: Vybrat vše

   |17|50|   |   |
   |  |  |
něco  |  |63|89|90|  |
      |
     |19|23|35|47|

Insert(28)
2 Insert - Fagin (2b)
h(K) = k mod 64
Insert (80)
byla tam stránka
|3| (to je signatura)
| 17 |
| 22 |
do tý to padlo, takže štěpit všetně adresáře

3 Find - Litwin (3b)
h(k) = k mod 256
stránky 0, 1, 2, 3, 4, 5
kde byste hledali tyto klíče: 39, 70, 58, 9, 1, 11, 260, 33, 16

4 Insert - Cormack (2b)
h(k) = k mod 5
h_i (k, r) = (k >> i) mod r
Insert(22)

adresář na řádku 2 vypadá takhle:

Kód: Vybrat vše

2    |2|0|2|
a paměť:

Kód: Vybrat vše

0   |něco|
1   |něco|
2   |12|
3   | 7|
4   |  |
5   |  |
6   |  |
7   |  |
8   |  |
TEORETICKÁ ČÁST:

5 Paměť třetí úrovně (3b)
co to je, k čemu se to používá, jak se to dá realizovat

6 Vnější třídění (2b)
co to je, kdy a k čemu se to používá

7 RAID 5 (1b)
jaký je minimální počet disků pro plně funkční RAID 5

8 Grayovy kódy (2b)
jaká je úspora v počtu přístupů na disk

9 Lemmatizace (2b)
co to je, přínos v oblasti databází
Uživatelský avatar
R.U.R.
Matfyz(ák|ačka) level III
Příspěvky: 140
Registrován: 25. 5. 2008 18:46
Typ studia: Informatika Ph.D.
Bydliště: Beroun
Kontaktovat uživatele:

Re: Zk 11.1.2009

Příspěvek od R.U.R. »

7 Myslím si že 3, co myslíte vy?

8 Mezi 50% a 100%?

9 Lemmatizaci jsem před chvílí našel ve slajdech k OZD II, už jsem poslal e-mail Žemličkovi s dotazem, kde se to vzalo v naší písemce.
QZuzka
Matfyz(ák|ačka) level III
Příspěvky: 209
Registrován: 2. 12. 2007 19:51
Typ studia: Informatika Mgr.
Bydliště: Praha 4

Re: Zk 11.1.2009

Příspěvek od QZuzka »

R.U.R. píše:7 Myslím si že 3, co myslíte vy?

8 Mezi 50% a 100%?

9 Lemmatizaci jsem před chvílí našel ve slajdech k OZD II, už jsem poslal e-mail Žemličkovi s dotazem, kde se to vzalo v naší písemce.

7. mám taky 3

8. ne. Greyovy kódy nám nezaručují, že nastane vůbec nějaké zlepšení cca 0-50%

9. Zmínil ji na jedné přednášce (na té, kde se dělala i ta spirála), ale takovým působem, že kdybych nevěděla, co to je, tak bych ji nezachytila..


proti svému očekávání jsem se nějak nechytla právě na tom lineárním hashování, jinak to vypadalo podezřele jednoduše... (slovy cvičícího "až zbytečně lehké")
Uživatelský avatar
R.U.R.
Matfyz(ák|ačka) level III
Příspěvky: 140
Registrován: 25. 5. 2008 18:46
Typ studia: Informatika Ph.D.
Bydliště: Beroun
Kontaktovat uživatele:

Re: Zk 11.1.2009

Příspěvek od R.U.R. »

9
(...) Lemmatizaci jsme probírali v souvislosti s invertovaným souborem při hledání dokumentu v kolekci dokumentů jako prostředek k redukci dat a k tomu, aby se zachytily výskyty slov i v jiných tvarech. Na přednášce to určitě bylo. (...)
Michal Žemlička
Nakonec jsem opravdu našel ve svých zápiscích poznámku o lemmatizaci (14.12.2009):
- lemmatizace - problém u víceznačných slov - statisticky se dá udělat disambiguace; anebo označkovat všechny významy - roste nám zase velikost indexu
- musím znát doménu, nad kterou pracuji
Takže dobře, bylo to na přednášce, ale asi to vypadalo jen jako nějaká poznámka na okraj... Z tohohle bych to rozhodně nevymyslel, kdybych nechodil na lingvistiku... Navíc ve slajdech o tom není ani ťuk, stejně jako o celém problému hledání v kolekci dokumentů. A "invertovaný soubor" jsem nenašel ani v těch svých poznámkách.

8
A jo, jsem blbej, 100% úspora přístupů na disk je docela nesmysl, a vymyslet data u kterejch Grayovy kódy vůbec nepomůžou by asi taky nebyl problém.

3
No prostě se klíče i signatury převedly do bináru, kouklo se na poslední 2 až 3 bity, a hodilo se to do stránky, s jejíž signaturou to mečovalo. Aspoň doufám :-D

A s ohledem na to, že jsem se na to učil akorát v neděli odpoledne a večer a v noci, si myslim, že to bylo fakt celkem lehký. Tak snad tam někde neni skrytá zrada :-))
Uživatelský avatar
Blaf
Matfyz(ák|ačka) level I
Příspěvky: 12
Registrován: 28. 1. 2008 12:13
Typ studia: Informatika Bc.

Re: Zk 11.1.2009

Příspěvek od Blaf »

RAID 5 -- podle
http://www.pcguide.com/ref/hdd/perf/rai ... el5-c.html
skutecne jsou tri disky minimum. Otazka je, co znamena "plne funkcni", ja to pochopil tak, ze parita se obvykle pocita 8+1, takze 9, ale asi jsou spravne ty 3.

Tusite nekdo, kdy se dozvime vysledky?
in5inity
Matfyz(ák|ačka) level I
Příspěvky: 39
Registrován: 12. 1. 2008 10:40
Typ studia: Informatika Bc.

Re: Zk 11.1.2009

Příspěvek od in5inity »

Řekl bych, že netuším.
in5inity
Matfyz(ák|ačka) level I
Příspěvky: 39
Registrován: 12. 1. 2008 10:40
Typ studia: Informatika Bc.

Re: Zk 11.1.2009

Příspěvek od in5inity »

Psal jsem včera přednášejícímu mail s dotazem, kdy budou výsledky, zatím žádná odezva...
Germoe_

Re: Zk 11.1.2009

Příspěvek od Germoe_ »

Vloni byly výsledky průběžně zveřejňovány na jeho stránkách... a ty kteří se ptali, kdy to bude opravené, opravoval až jako poslední.
Uživatelský avatar
R.U.R.
Matfyz(ák|ačka) level III
Příspěvky: 140
Registrován: 25. 5. 2008 18:46
Typ studia: Informatika Ph.D.
Bydliště: Beroun
Kontaktovat uživatele:

Re: Zk 11.1.2009

Příspěvek od R.U.R. »

Hm, krása, to by se tak dalo čekat :-) Každopádně letos asi pro jistotu nezveřejňuje nic :-) Anebo třeba má jiný algoritmus - třeba každý mail, který mu někdo pošle, zpozdí zveřejnění výsledků o jeden den... :twisted:
janoro

Re: Zk 11.1.2009

Příspěvek od janoro »

V úterý na cvičení proklamoval, že v pátek odjíždí na týdenní služební cestu - pokud tedy do té doby nebudou výsledky, počkáme si nejméně do dalšího pondělku. O těch, kteří budou psát příští týden, radši ani nemluvím - možná, že se v březnu dočkají :-).
Uživatelský avatar
R.U.R.
Matfyz(ák|ačka) level III
Příspěvky: 140
Registrován: 25. 5. 2008 18:46
Typ studia: Informatika Ph.D.
Bydliště: Beroun
Kontaktovat uživatele:

Re: Zk 11.1.2009

Příspěvek od R.U.R. »

Včera ve 23:58 jsem od Žemličky dostal v SISu zápočet (na cvičení jsem k němu nechodil).
QZuzka
Matfyz(ák|ačka) level III
Příspěvky: 209
Registrován: 2. 12. 2007 19:51
Typ studia: Informatika Mgr.
Bydliště: Praha 4

Re: Zk 11.1.2009

Příspěvek od QZuzka »

je zveřejněno něco málo přes půlku výsledků. Výběr, kdo je a kdo není, bude nejspíš náhodný, ani podle abecedy, ani se mi to nezdá být podle podle pořadí odevzdávání..
http://www.ksi.mff.cuni.cz/~zemlicka/vyuka/DBI007/
in5inity
Matfyz(ák|ačka) level I
Příspěvky: 39
Registrován: 12. 1. 2008 10:40
Typ studia: Informatika Bc.

Re: Zk 11.1.2010

Příspěvek od in5inity »

Kdy bude Žemlička zapisovat známky? Psal mu někdo mail? Díky za info.
Odpovědět

Zpět na „DBI007 Organizace a zpracování dat I“