Piotr Andruszkiewicz
Projekt z przedmiotu: Wprowadzenie do eksploracji danych tekstowych w sieci WWW (lato 2012)
Informacje ogólne
Tematy projektów zamieszczone są na liscie tematów. Możliwe jest także zgłaszanie własnych propozycji bądź modyfikacji przedstawionych tematów.
Zespoly projektowe: 1-2-3 os.
Tematy mozna wybierac/zglaszac mailowo badz osobiscie na konsultacjach.
Etapy projektu
I - wybór tematu / propozycja własnego tematu (dookreslenie zakresu projektu) - termin wyboru tematu do 23 III,
II - projekt wstępny - (do 20 IV 2012) - przygotowanie
raportu podsumowujacego studia literaturowe i opisującego projekt
implementacji (już ze szczegółami),
III - oddanie projektu, pełna dokumentacja - (termin "zerowy" do 23 V 2012, termin ostateczny do 1 VI 2012).
Środowisko implementacji
O ile w temacie projektu nie zaznaczono inaczej, wybór języka programowania i systemu operacyjnego należy do wykonawców. Można używać powszechnie znanych języków programowania w szczególności: C++, C, Java, Scala, C#, Pascal, Delphi, Perl, R, Matlab... W przypadku innych języków proszę o informację o dokonanym wyborze.
Zaliczenie projektu
Wymaga:
- Oddania dokumentacji wstepnej
- Oddania dokumentacji koncowej wraz z czescia praktyczna projektu (zrodla i czesc "wykonywalna") w wyznaczonym terminie.
- Uwaga: nieprzekazanie do 1 VI 2012 dokumentacji koncowej z czescia praktyczna projektu skutkuje niezaliczeniem projektu.
Dane
Mozna uzywac danych pochodzacych z korpusu Reuters, np.
http://archive.ics.uci.edu/beta/datasets/Reuters-21578+Text+Categorization+Collection
Google T1 corpus - raczej za duzy
Przykladowe zbiory mozna znalezc pod adresem
http://archive.ics.uci.edu/beta/datasets.html
http://techtc.cs.technion.ac.il/ ("troche" wieksze)
Mozna korzystac z dowolnych zbiorow. Odpowiednio duzych, aby mozna bylo przetestowac algorytm i wyciagnac wnioski. Odpowiednio malych, aby mozna bylo zrobic to w skonczonym czasie.
Informacje dodatkowe
W korespondencji elektronicznej proszę o umieszczenie WEDT na początku tematu.
- Lista tematów.
- Repozytoria.
- Uwagi ogólne do projektów.
Dokumentacja koncowa powinna poruszac co najmniej nastepujace zagadnienia:
- Definicja problemu
- Opis rozwiazania/algorytmu (punkt b. wazny w przypadku propozycji wlasnego algorytmu)
- Implementacja
- Instrukcja obslugi (jak uruchomic to, co powstalo)
- Testy
- Wnioski (wazny punkt dokumentacji)
- Literatura