Piotr Andruszkiewicz

Projekt z przedmiotu: Wprowadzenie do eksploracji danych tekstowych w sieci WWW (lato 2012)


Informacje ogólne

Tematy projektów zamieszczone są na liscie tematów. Możliwe jest także zgłaszanie własnych propozycji bądź modyfikacji przedstawionych tematów.


Zespoly projektowe: 1-2-3 os.

Tematy mozna wybierac/zglaszac mailowo badz osobiscie na konsultacjach.

Etapy projektu


I - wybór tematu / propozycja własnego tematu (dookreslenie zakresu projektu) - termin wyboru tematu do 23 III,
II - projekt wstępny - (do 20 IV 2012) - przygotowanie raportu podsumowujacego studia literaturowe i opisującego projekt implementacji (już ze szczegółami),
III - oddanie projektu, pełna dokumentacja - (termin "zerowy" do 23 V 2012, termin ostateczny do 1 VI 2012).

Środowisko implementacji

O ile w temacie projektu nie zaznaczono inaczej, wybór języka programowania i systemu operacyjnego należy do wykonawców. Można używać powszechnie znanych języków programowania w szczególności: C++, C, Java, Scala, C#, Pascal, Delphi, Perl, R, Matlab... W przypadku innych języków proszę o informację o dokonanym wyborze.

Zaliczenie projektu

Wymaga:
  1. Oddania dokumentacji wstepnej
  2. Oddania dokumentacji koncowej wraz z czescia praktyczna projektu (zrodla i czesc "wykonywalna") w wyznaczonym terminie.
  3. Uwaga: nieprzekazanie do 1 VI 2012 dokumentacji koncowej z czescia praktyczna projektu skutkuje niezaliczeniem projektu.

Dane

Mozna uzywac danych pochodzacych z korpusu Reuters, np.
http://archive.ics.uci.edu/beta/datasets/Reuters-21578+Text+Categorization+Collection
Google T1 corpus - raczej za duzy

Przykladowe zbiory mozna znalezc pod adresem
http://archive.ics.uci.edu/beta/datasets.html
http://techtc.cs.technion.ac.il/ ("troche" wieksze)
Mozna korzystac z dowolnych zbiorow. Odpowiednio duzych, aby mozna bylo przetestowac algorytm i wyciagnac wnioski. Odpowiednio malych, aby mozna bylo zrobic to w skonczonym czasie.

Informacje dodatkowe


W korespondencji elektronicznej proszę o umieszczenie WEDT na początku tematu.
  1. Lista tematów.
  2. Repozytoria.
  3. Uwagi ogólne do projektów.

Dokumentacja koncowa powinna poruszac co najmniej nastepujace zagadnienia:
  1. Definicja problemu
  2. Opis rozwiazania/algorytmu (punkt b. wazny w przypadku propozycji wlasnego algorytmu)
  3. Implementacja
  4. Instrukcja obslugi (jak uruchomic to, co powstalo)
  5. Testy
  6. Wnioski (wazny punkt dokumentacji)
  7. Literatura