Подбор на текстовете
Пълното количество на материала, записан от колектива на БДЖТ, е около 250 часа. Откъси от този материал са избрани да бъдат транскрибирани като текстове и включени в базата данни. Изборът (работа предимно на Владимир Жобов) беше подчинен на два критерия. На първо място стремежът беше всеки текст да илюстрира максимално отличителните черти на съответния диалект; наред с това стремежът беше всеки текст да бъде добре оформен текст и по възможност да дава информация за някакъв аспект на живата на село. Някои текстове са завършени разкази, на народна приказка или на лично преживяване. Повечето са разговори за живота в старото време. Насочването на разговора в такава посока е начин да се получи ценна етнографска информация (за празници и свързани с тях обичаи, земеделски практики, приготвяне на храна и под.), но наред с това насочва вниманието на говорещия далеч от настоящето, което ограничава влиянието на книжовния език.
Повечето текстове съдържат речта само на един информатор. В някои случаи се чуват гласове и на други присъстващи, които обикновено са на заден план. В няколко случая текстът е диалог между двама, рядко трима участници. В някои случаи такива откъси са нарочно подбрани заради темата, но и заради оживения характер на разговора, представящ особено ярък пример за естествена диалектна реч.
С оглед на стремежа да се представи естествено звучаща реч, намесата в аудиофайловете е минимална. Това ще рече, че понякога се чува кукуригане на петли, блеене на овци, както и шум от уличното движение. Въпреки че такива странични шумови са сведени до минимум, водещият критерий винаги е да се подбере текст, който е добър като съдържание и като богатство на лингвистични признаци без по-нататъшна грижа за случайно появил се камион или петел.
Подготовка на текстовете
Оригиналните записи са дигитализирани в София. След избора на аудиофайловете в тази сбирка те са транскрибирани според принципите, описани в края на тази страница. Записите направени след 1990 г. включват пълно описание на обстоятелствата, в които се провежда разговорът, а транскрипцията включва всичко, което се чува на записа, включително невербални звуци като смях, кашляне, звукоподражания. Изключение са само разговори на заден план, които нямат връзка с основния разговор. Записите направени преди 1990 г. включват само речта на информаторите. В такива случаи участието на интервюиращия е реконструирано и включено в транскрипцията в квадратни скоби, за да се подчертае фактът, че тези реплики са реконструирани.
Всеки текст носи името на населеното място, в което е записан, и е разделен на редове, номерирани с цел локализиране на данни. Всяка смяна на говорещия в разговора е на нов ред. По-дълги изказвания от един и същ информатор заемат група съседни редове. Когато е възможно, разделянето на редовете отговаря на естествени синтактични групи или интонационни контури. В началото на всеки ред има код, идентифициращ говорещия: информаторите (които са анонимни) се идентифицират само с малки букви. Интервюиращите се идентифицират с инициали (собствено и фамилно име), а пълните им имена могат да се намерят в метаданните за записа. Английският превод цели не само предаване на съдържанието, но и запазване на стила на оригинала в рамките на възможното. Буквални преводи на повечето думи се откриват като глоси между редувете.
Всеки текст може да се види в три режима, наречени “views”. “Glossed view” включва английския превод, транскрипция на българската устна реч с латиница (описана по-долу в „За транскрипция“) и глосите на всяка лекса (token). “Line view” включва само български текст и английския превод и е предназначен за тези, които се интересуват само от съдържанието.“Cyrillic line view” включва само текста, написан във възприетата в българската лингвистична литература фонетична транскрипция.
Всяка лекса в текста има собствена страница, която съдържа всички маркери, които са ѝ приписани, и показва всичките ѝ други появи в сайта. Всеки ред в текста също има собствена станица, съдържаща цялата информация свързана с реда До страницата на лекса се достига с кликване върху лексата; до страницата на ред се достига с кликване върху реда в “Line view”.
Всяко име ва населено място в “home page” е свързано със страница на локация, която съдържа карта, показваща местонахождението на населеното място, както и описание на говорения в него диалект с примери от текстовете в сайта. Във всяко описание има линк към неговата българска версия.
Анотация на текстовете с цел откриване на данни
Сайтът има две главни цели: да представи спонтанна българска диалектна реч в естествената и среда (транскрибирана и преведена така, че да бъде достъпна и извън България) и да даде на учените възможност за изследвания, като им помогне да се ориентират в богатството от данни, което текстовете предлагат. Текстовете са анотирани на пет различни равнища с оглед откриване на данни на всяко едно от тях.
–– На равнището на словоформа (Wordform) всяка лекса (token) е характеризирана с маркери за основни граматически категории като падеж, число, род, време, вид и определеност. Маркирани са и прагматични и дискурсивни черти като удивление, проверка на връзката и под. За всяка пълнозначна лекса има английска глоса. Всички маркери са на латиница и се явяват под всяка лукся в модуса “Glossed view”. В сайта могат да се извършват търсения с всяка възможа комбинация на тези маркери.
–– На равнището на лексема (Lexeme) всяка лекса (token) е е отнесена към лексема (лема) в книжовния език, изписана на български. Лексите, за които не съществува книжовна лексема, са отнесени към диалектна лексема, образувана според конвенциите в книжовните речници (нечленувана форма за съществителните, мъжки род за прилагателните, първо лице единствено число сегашно време за глаголите). Тези маркери се намират в режима “Glossed text view” под маркерите за Wordform за всяка лекса.
–– На равнището на лингвистични признаци (Linguistic traits) много лекси (tokens) са характеризирани с маркери, които позволяват по-подробен лингвистичен анализ. Повечето са дескриптивни, а някои се отнасят до съвременните рефлекси на старобългарски или праславянски гласни, съгласни и съчетания. Маркерите са в съкратен вид, а всички маркери приписани на една лекса могат да се открият чрез кликване върху лексата, което отвежда към нейната страница. Кликване върху съкращението отвежда към пълната дефиниция за лингвистичния признак. Пълни дефиниции са дадени и на равнището на търсене по лингвистични признаци (Linguistic trait search). Тези търсения позволяват да се извлече важна информация.
–– На равнището на тематично съдържание (Thematic content) редовете имат един или повече маркери показващи темата на разговора. Така интересуващите се от етнографско съдържание могат да открият всички пасажи в текстовете, отнасящи се до определена тема. Тематичните маркери приписани на всеки един ред се появяват най-долу на съответната страница на реда (Line page).
–– На равнището на фразите (Phrases) маркерите не са приписани нито на лекса (token), нито на ред, а на фрази – граматически значими групи от думи, чието значение не може да се маркира на равнището на отделна лекса. Маркерите са идентифицирани на равнището на търсене (Phrase search); фразите, които се откриват във всеки отделен ред, могат да се намерят в съответната страница на реда (Line page).
За транскрипцията
Тъй като една от основните цели е да се направят данните за българските диалекти достъпни за широка международна публика, първичната транскрипция е на базата на латиницата. Текстовете са транскрибирани и на кирилица, в съответствие с традициите на българската диалектология.
Първичната транскрипция съдържа символи, чиято употреба са налага от спецификата на българската диалектна фонетика. Някои символи са взети от Международната фонетична азбука (МФА), други – от академичната транслитерация изпозвана от славистите. Където е необходима фонетична прецизност, за да се предаде важна диалектна черта, се използва символ от МФА. Другаде се използват опростени форми, за да бъдат текстовете по-достъпни. За списък на използваните символи вж. последната част на страницата Site Information > Principles of Data Presentation.