Gabay sa Filipino Language Corpus

Filipino Language Corpus

Nakatuon
ang proyektong ito sa pagkalap ng mga pasalita at pasulat na teksto sa wikang Filipino. Ginagabayan ng isang tiyak na disenyo sa pagkalap ng datos, nilalayon nitong makabuo ng kauna-unahang malakihang korpus para sa kontemporaryong paggamit ng Filipino.

Gabay sa Filipino Language Corpus

Dalawa ang pangunahing layunin ng pagbubuo ng disenyo ng UP Filipino Language Corpus (UP-FLC). Una, magsisilbi itong gabay para sa pangangalap ng datos sa anyo ng teksto na bubuo sa iminumungkahing korpus ng wikang Filipino. Sa ngayon, wala pang sistematikong paraan sa pangongolekta at pagtatala ng mga teksto ng Wikang Pambansa para sa layunin ng pananaliksik pangwika. Gumagamit ang mga mananaliksik sa wika ng kani-kanilang metodo at preperensiya sa pagkuha ng datos batay sa kanilang pangangailangan. Kadalasang hindi nagagamit ang nakolektang datos sa mga susunod pang pananaliksik dahil hindi nababago o dahil sa kalikasan ng orihinal na pananaliksik, hindi umaakma ang datos na nakuha para sa iba pang layunin.

Pangalawa, magsisilbing modelo ang UP-FLC para sa isang imbakan ng talasalitaang Filipino na kaagapay sa pagbubuo ng diksyunaryo ng wikang pambansa. Isa sa mga makabagong pamamaraan sa leksikograpiya ang paggamit ng naglalakihang korpus para sa layunin ng pagbuo ng pangkalahatang-deskriptibong diksyunaryo, monolinggwal man o bilinggwal. Hindi gaya ng mga tradisyonal na pamamaraan, mas mabilis at nakabatay sa mga aktwal na paggamit ng wika ang pinaghahanguan ng mga kahulugan at halimbawa na ilalagay sa artikulo ng mga entri o salitang pasok sa diksyunaryo. Nagiging realistiko at praktikal kung gayon ang pagbuo ng diksyunaryo ng Wikang Pambansa lalo na’t ang Filipino mismo ay isang lingua franca at dahil dito’y nakasandig ang paggamit at pag-unlad nito sa patuloy at paulit na pakikipagtalastasan ng mga Pilipino sa isa’t isa.

Mga kategorya ng korpus

Nasa kanan ang ginamit na kodigo sa pagmamarka ng mga natipong teksto at nasa kaliwa naman ang detalye ng pinagmulang batis. Kalakhan nitong disenyo ay ibinatay sa International Corpus of English (ICE) na pinasimulan ni Sidney Greenbaum (Nelson 1996) at ngayo’y inangkop para sa layunin ng pangangalap para sa korpus ng Filipino:

Detalye Kodigo
Mga Pasulat na Teksto (40%) W
Di-limbag W1
Mga Akademikong Sulatin
Propesyonal na pagsulat
Sanaysay ng mga estudyante
Examination Scripts (Mga sanaysay)
Mga Blog
W1A
Correspondence
Mga sulat, Memo
W1B
Nakalimbag W2
Akademikong Sulatin
Humanidades
Agham Panlipunan
Siyensiya
Teknolohiya
W2A
Di-akademikong Sulatin
Mga Tampok na Lathalain
W2B
Pagbabalita
Balita (hal. showbiz, sports)
W2C
Instruksyonal na Pagsulat
Manual Instructions
Regulations
Pamphlets
Tech/Voc
W2D
Mapanghimok na Pagsulat
Press Editorials
W2E
Malikhaing Pagsulat
Nobela at Kwento
Malikhaing Sanaysay
W2F
Mga Pasalitang Teksto (60%) S
Dayalogo S1
Pribado
Direktang Pakikipag-usap
Video Call, Skype
S1A
Publiko
Talakayan sa Klase
Talakayan sa mga Broadcast
Panayam sa mga Broadcast
Mga Talumpating Politikal
Pag-uusap sa mga Pampulikong Lugar
S1B
Monologo S2
Walang Skrip
Spontaneous Commentaries
Mga talumpating walang skrip
Talumpati sa mga Demonstrasyon
S2A
May Skrip
Broadcast News
Broadcast Talks
Non-broadcast Talks
S2B

Kabuuang paliwanag sa mga kategorya

Nahahati sa dalawang pangkalahatang kategorya ang UP-FLC: ang pasulat at pasalitang teksto. Minamarkahan ng “W” ang mga tekstong nagmula sa pasulat na batis samantalang “S” naman ang ginagamit para sa mga pasalitang teksto. Ang paghahati sa mga susunod na pangunahing kategorya sa ilalim ng mga ito ay ginagamitan ng mga Hindu-Arabikong numero na 1, 2, 3, atbp. na susundan ng mga kapitalisadong letra na A, B, C, atbp. sakaling may sub-kategorya pa ang mga ito.

Batay kina Atkins, Clear at Ostler (1991) ang depinisyon ng “teksto” na gingamit para sa layunin ng pagbuo ng korpus. Bukod sa karaniwang pagkakaintindi sa ‘teksto’ bilang mga pasulat na gawa, kasama sa teksto ang transkripsyon mula sa pasalitang gamit ng wika. Hindi gaya ng mga naunang korpus pangwika na nakatuon sa pasulat na mga teksto, sumasabay ang UP-FLC sa pagbibigay-halaga sa mga pasalitang gamit ng wika (makikita kay Nelson 2006 ang pagtalakay dito) kung kaya’t binigyan ng malaking porsyento ang pangangalap mula sa mga pasalitang batis. Sa unang yugto ng UP-FLC, 60% ng kabuuang makakalap na teksto ay kukunin mula sa pasalitang batis samantalang 40% naman sa mga naisulat na gawa. Inaasahan na patuloy ang pagdaragdag at pagpapakinis sa mga porsyento ng pangangalap bunga ng patuloy na pag-agapay sa pagbabago at pag-unlad ng wika.