Nakatuon
ang proyektong ito sa pagkalap ng mga pasalita at pasulat na teksto sa wikang Filipino. Ginagabayan ng isang tiyak na disenyo sa pagkalap ng datos, nilalayon nitong makabuo ng kauna-unahang malakihang korpus para sa kontemporaryong paggamit ng Filipino.
Gabay sa Filipino Language Corpus
Dalawa ang pangunahing layunin ng pagbubuo ng disenyo ng UP Filipino Language Corpus (UP-FLC). Una, magsisilbi itong gabay para sa pangangalap ng datos sa anyo ng teksto na bubuo sa iminumungkahing korpus ng wikang Filipino. Sa ngayon, wala pang sistematikong paraan sa pangongolekta at pagtatala ng mga teksto ng Wikang Pambansa para sa layunin ng pananaliksik pangwika. Gumagamit ang mga mananaliksik sa wika ng kani-kanilang metodo at preperensiya sa pagkuha ng datos batay sa kanilang pangangailangan. Kadalasang hindi nagagamit ang nakolektang datos sa mga susunod pang pananaliksik dahil hindi nababago o dahil sa kalikasan ng orihinal na pananaliksik, hindi umaakma ang datos na nakuha para sa iba pang layunin.
Pangalawa, magsisilbing modelo ang UP-FLC para sa isang imbakan ng talasalitaang Filipino na kaagapay sa pagbubuo ng diksyunaryo ng wikang pambansa. Isa sa mga makabagong pamamaraan sa leksikograpiya ang paggamit ng naglalakihang korpus para sa layunin ng pagbuo ng pangkalahatang-deskriptibong diksyunaryo, monolinggwal man o bilinggwal. Hindi gaya ng mga tradisyonal na pamamaraan, mas mabilis at nakabatay sa mga aktwal na paggamit ng wika ang pinaghahanguan ng mga kahulugan at halimbawa na ilalagay sa artikulo ng mga entri o salitang pasok sa diksyunaryo. Nagiging realistiko at praktikal kung gayon ang pagbuo ng diksyunaryo ng Wikang Pambansa lalo na’t ang Filipino mismo ay isang lingua franca at dahil dito’y nakasandig ang paggamit at pag-unlad nito sa patuloy at paulit na pakikipagtalastasan ng mga Pilipino sa isa’t isa.
Mga kategorya ng korpus
Nasa kanan ang ginamit na kodigo sa pagmamarka ng mga natipong teksto at nasa kaliwa naman ang detalye ng pinagmulang batis. Kalakhan nitong disenyo ay ibinatay sa International Corpus of English (ICE) na pinasimulan ni Sidney Greenbaum (Nelson 1996) at ngayo’y inangkop para sa layunin ng pangangalap para sa korpus ng Filipino:
Detalye | Kodigo |
---|---|
Mga Pasulat na Teksto (40%) | W |
Di-limbag | W1 |
Mga Akademikong Sulatin Propesyonal na pagsulat Sanaysay ng mga estudyante Examination Scripts (Mga sanaysay) Mga Blog |
W1A |
Correspondence Mga sulat, Memo |
W1B |
Nakalimbag | W2 |
Akademikong Sulatin Humanidades Agham Panlipunan Siyensiya Teknolohiya |
W2A |
Di-akademikong Sulatin Mga Tampok na Lathalain |
W2B |
Pagbabalita Balita (hal. showbiz, sports) |
W2C |
Instruksyonal na Pagsulat Manual Instructions Regulations Pamphlets Tech/Voc |
W2D |
Mapanghimok na Pagsulat Press Editorials |
W2E |
Malikhaing Pagsulat Nobela at Kwento Malikhaing Sanaysay |
W2F |
Mga Pasalitang Teksto (60%) | S |
Dayalogo | S1 |
Pribado Direktang Pakikipag-usap Video Call, Skype |
S1A |
Publiko Talakayan sa Klase Talakayan sa mga Broadcast Panayam sa mga Broadcast Mga Talumpating Politikal Pag-uusap sa mga Pampulikong Lugar |
S1B |
Monologo | S2 |
Walang Skrip Spontaneous Commentaries Mga talumpating walang skrip Talumpati sa mga Demonstrasyon |
S2A |
May Skrip Broadcast News Broadcast Talks Non-broadcast Talks |
S2B |
Kabuuang paliwanag sa mga kategorya
Nahahati sa dalawang pangkalahatang kategorya ang UP-FLC: ang pasulat at pasalitang teksto. Minamarkahan ng “W” ang mga tekstong nagmula sa pasulat na batis samantalang “S” naman ang ginagamit para sa mga pasalitang teksto. Ang paghahati sa mga susunod na pangunahing kategorya sa ilalim ng mga ito ay ginagamitan ng mga Hindu-Arabikong numero na 1, 2, 3, atbp. na susundan ng mga kapitalisadong letra na A, B, C, atbp. sakaling may sub-kategorya pa ang mga ito.
Batay kina Atkins, Clear at Ostler (1991) ang depinisyon ng “teksto” na gingamit para sa layunin ng pagbuo ng korpus. Bukod sa karaniwang pagkakaintindi sa ‘teksto’ bilang mga pasulat na gawa, kasama sa teksto ang transkripsyon mula sa pasalitang gamit ng wika. Hindi gaya ng mga naunang korpus pangwika na nakatuon sa pasulat na mga teksto, sumasabay ang UP-FLC sa pagbibigay-halaga sa mga pasalitang gamit ng wika (makikita kay Nelson 2006 ang pagtalakay dito) kung kaya’t binigyan ng malaking porsyento ang pangangalap mula sa mga pasalitang batis. Sa unang yugto ng UP-FLC, 60% ng kabuuang makakalap na teksto ay kukunin mula sa pasalitang batis samantalang 40% naman sa mga naisulat na gawa. Inaasahan na patuloy ang pagdaragdag at pagpapakinis sa mga porsyento ng pangangalap bunga ng patuloy na pag-agapay sa pagbabago at pag-unlad ng wika.