Как се търсят материали в корпуса?

Информацията може да бъде извличана от корпуса посредством три отделни механизъма за търсене, базирани съответно върху:

  • Ключови думи;
  • Лексеми или части от лексеми;
  • Румънски глоси.

Читателят има възможност да избере в какъв обхват от корпуса да търси: във всички диалектни текстове, в текстовете, записани в едно или повече селища, или в текстовете, представящи един или повече отвъддунавски говори. При това в намерените резултати не влизат репликите на диалектолозите, които водят анкетата, а само репликите на техните информатори. Единственото изключение са глосите на румънски елементи, тъй като, за да станат текстовете по-разбираеми, с глоси са снабдени всички реплики, независимо чии са те.

1. Търсене по ключови думи

Диалектните текстове, включени в корпуса, са структурирани като отделни отрязъци според темата, засегната в тях. Тези отрязъци, наречени теми, са номерирани и имат заглавия, които дават най-обща представа за какво става дума в съответния текст. Освен това темите са индексирани с ключови думи от различен ранг – типове теми и етикети. Резултатът от търсене по ключови думи е списък от заглавия на теми, които съответстват на зададените критерии за търсене, придружени от номерата на темите, имената на селищата, където са били записани, както и линкове към тези теми.

2. Търсене по лексеми

При търсене на лексеми не е необходимо те да бъдат изписани изцяло. Читателят може да търси по последователности от букви, които са произволни отрязъци от думи или, да речем, съответстват на корени, афикси и окончания. Тъй като търсенето не отчита ударението, резултатите включват всички зададени форми независимо от техните ударения. Резултатите се представят във вид на списък от намерени думи, съответстващи на зададените критерии за търсене. Всяка от думите е съпроводена от число, което показва броя на намерените съвпадения за същата форма. По желание на читателя намерените форми могат да бъдат показани в контекст, тоест те могат да се явят като конкорданс, като читателят предварително избира дали от двете страни на намерените форми да има по 6, по 12, или по 24 думи от контекста. Когато задържи курсора върху даден ред на конкорданса, читателят вижда плаващо прозорче, съдържащо името на селището, номера на темата и номера на реда, където се намира нужната им лексема. Същата информация е достъпна и в началото на реда и като линк към съответната тема. Ако е необходимо, читателят може да маркира намерения конкорданс и да го запази чрез copy и paste в свой файл.

Една от най-големите трудности, пред които са изправени читателите при търсене в текстове, които не са на стандартизирани, е вариативността на присъстващите в тях словоформи. Съществуващите в момента диалектни лексикални картотеки и публикувани диалектни речници разчитат техните читатели да издирят самостоятелно вариантите на необходимите им словоформи, всеки в зависимост от своята опитност и информираност. Препратките към възможни алтернативни варианти вътре в речниците и картотеките са непоследователни, доколкото въобще ги има. При търсене трябва да се отчитат и общите отличия на приетата в българската диалектология транскрипция от българския книжовен правопис: замяната на букви я, ю, щ и ь с йа (йъ, ’а, ’ъ), йу (’у), шт и апостроф, а също така замяна на диграфите дж и дз с џ и s.

Някои от най-важните диалектни явления, които допринасят за вариативността на словоформите са следните:

  • редукция на неударените гласни, т.е. замяната на неударени а, о и е с ъ, у и ибу̀лкъта срв. бу̀лката, бра̀шну срв. бра̀шно, да̀дуфми срв. да̀дохме;
  • обеззвучаване на звучни съгласни в определени позиции – вра̀пкъ срв. вра̀бка, глу̀паф срв. глу̀пав, флѐзна срв. влѐзна;
  • озвучване на беззвучни съгласни в определени позиции – збѝраме срв. сбѝраме, одвъ̀ржа срв. отвъ̀ржа;
  • изпадане на гласни и съгласни в определени позиции – бла̀тту срв. бла̀тото, ва̀ште срв. ва̀шите, ра̀птъ срв. ра̀бота, тва̀ срв. това̀, вѝкаа срв. викаха, исабѝш срв. исхабѝш, у̀баф срв. ху̀бав, г’а̀ол срв. г’а̀вол, ку̀чеата срв. ку̀четата, ма̀к’а срв. ма̀йк’а;
  • замяната на палатализирани съгласни с непалатализирани и обратното – га̀зът срв. га̀зят, дѝган’е срв. дѝгане, ма̀йк’а срв. ма̀йка;
  • алтернативно произношение на определени съгласни – въ̀lна срв. въ̀лна;
  • заместване в определени позиции на едни съгласни с други – дрѐйата срв. дрѐхата, ѝмаўа срв. ѝмаха, наsа̀т срв. наза̀т;
  • алтернативни застъпници на силабично л и рвръвѐа срв. вървя̀ха, къ̀рсницата срв. кръ̀сницата;
  • алтернативни застъпници на ѣголѐма срв. гул’а̀мъ.

В момента механизмът на търсене в корпуса не позволява автоматично да се намерят всички варианти на наличните словоформи. Когато корпусът бъде завършен и целият запас от словоформи е налице, ще може да бъде съставен пълен списък на възможните вариации и тогава ще се пристъпи към създаването на нов механизъм за търсене, който при изписване на една словоформа в прозорчето за издирване в идеалния случай ще извлича от корпуса всички нейни варианти.

3. Търсене по румънски глоси

Носителите на отвъддунавските диалекти са двуезични и постоянно включват румънски елементи в своята българска реч. Всички такива елементи ще бъдат постепенно глосирани на книжовен български език според значението на съответната румънска дума, израз или изречение в контекста, в който са употребени. В корпуса от глоси към диалектните текстове ще може да се търси по румънския елемент, изписан според правилата на съвременния румънски правопис, или по неговия български превод. Резултатът от търсене по румънски глоси ще представлява списък на глосите, които съответстват на зададените критерии за търсене, придружени от имената на селищата, заглавията и номерата на темите и на редовете в тях, както и линкове към тези теми.

Към всяка от трите търсачки има приложени кратки инструкции за улеснение на читателя.

Автори на текста: Олга Младенова и Веселин Стойков

© Олга Младенова & Дарина Младенова 2001-2018

Диалектология.

Website statistics: Currently 3 visitors are online. Unique visitors: 54553. Total visits: 1344225. Daily visits: 327.
Your visits: 18. Your last visit was on 6 Oct 2024 (Sun) at 12:49 GMT from 98.80.143.34. (idx=60)
Powered by Vssoft Engine 12.5 © 2008-2020. Last updated 10.01.2020