Подача материала

Содержимое сайта находится в GitHub repository https://github.com/opentorah/alter-rebbe.org

Рекомендуемый способ участия в расшифровке, исправлении ошибок и т.д. - открыть GitHub pull request. Если прогресс (пока) не пришёл в Ваш дом, и термины GitHub, repository и pull request Вам ничего не говорят - можно воспользоваться электронной почтой по адресу dub@podval.org.

Gitter

Рассылка: alter-rebbe@podval.org.

Формат

Файл со списком имён: names.xml. Файлы с расшифровами документов находятся в директориях docs/archive/tei/ и docs/dubnov/tei; они названы по номеру первой страницы документа, например: 001.xml, 088a.xml.

Все они хранятся в XMLе, в формате TEI (“Text Encoding Initiative”, “Инициатива по Кодировке Текстов”), вот уже более 30ти лет разрабатываемом содружеством учёных-гуманитариев.

Расшифровки документов на этом сайте используют лишь небольшое подмножество TEI; мы не пользуемся возможностями формата кодировать грамматический анализ текста, варианты текста, местоположение фрагментов текста на листе, разницу почерков и т.д.

Верность оригиналу

Наша задача - представить оригинальные тексты документов как они есть. В частности:

  • если текст использует буквы, которых нет в “современном” русском языке (например, ъ ѣ і ї І Ј ј), они должны быть переданы в расшифровке, причём - правильными символами стандарта Unicode (например,Ј а не J) ;
  • если текст использует “архаичные” формы слов (например, оной), они должны быть переданы в расшифровке;
  • если текст использует “архаичные” написания имён (например, Жегулин, а не Жигулин), они должны быть переданы в расшифровке;

и т.п.

Все расшифровки опубликованные на сайте на данный момент будут приведены в соответствие с оригиналом (или удалены).

Структура

Файл в формате TEI содержит в себе заголовок (teiHeader) и сам текст (text); расшифровка текста находится внутри элемента body.

<TEI xmlns="http://www.tei-c.org/ns/1.0">
  <teiHeader>
  ...
  </teiHeader>
  <text xml:lang="ru">
    <body>
    ...
    </body>
  </text>
</TEI>

Во всех файлах уже проставлены начала страниц (pb, “page beginning”):

  <pb xml:id="p002-1" n="002-1" facs="https://facsimiles.alter-rebbe.org/facsimiles/rgada/facsimiles/002-1.jpg"/>

Расшифровка текста страницы должна следовать за её началом :)

Кодировка

Для кодировки заметок не являющихся частью оригинального текста документов (например, номера документа, номера страницы, позднейших вставок другим почерком, информации о пошлинах и т.д.) используется элемент fw:

  <fw type="docNum">№ 1762.</fw>

Для кодировки зачёркнутого текста используется элемент del; добавляется атрибут rend со значением overstrike. Пример: на правой стороне страницы зачёркнут номер 33 и проставлен номер 30:

  <fw type="pageNum" place="right"><del rend="overstrike">33</del></fw>
  <fw type="pageNum" place="right">30</fw>

Заголовок документа (если он есть) кодируется элементом head:

  <head>Объяснение О начале и правилах секты Каролинов.</head>

Абзац текста кодируется элементом p:

  <p>Присланное при всепочтеннейшимъ отношении отъ ... </p>

Строчки текста кодируются элементом l:

  <l>Его императорское величество высо-</l>
  <l>чайше повелеть соизволил, дѣло между</l>

В тех (и только в тех!) случаях, когда новая строчка начинается внутри тага, начавшегося на предыдущей строчке, её начало кодируется тагом lb:

  <l>кавалеромъ <persName ref="Обольяниновъ">Петромъ Хрисанфови-<lb/>
     чемъ Обольяниновымъ</persName> въ <date when="1800-11-27">27<hi rend="superscript">й</hi> день<lb/>
     сего ноября</date>, о разсмотренiи Сенату</l>

Визуально выделенный текст кодируется элементом emph если его выделенность несёт смысловую нагрузку и элементом hi если нет. Каким образом текст выделен кодируется аттрибутом rend соответствующего элемента. Возможные значения этого атрибута: underline если текст подчёркнут, big если увеличен размер букв, superscript если текст поднят над строкой. Примеры:

  <emph rend="underline">Допросы Евреевъ</emph>
  <emph rend="big">вашему императорскому величеству</emph>
  Ноября 27<hi rend="superscript">го</hi> дня

Нерзборчивые места текста кодируются элементом unclear:

  отнял у них книги <unclear>Лекуда</unclear>

Нестандартное написание и описки присутствующие в оригинальных документах кодируются элементом sic:

  <sic>богаствъ</sic>

Правильное написание кодируется элементом choice с вложенными в него (в произвольном порядке) элементами sic и corr:

  <choice>
    <corr>успѣхѣ онаго</corr>
    <sic>успѣхѣ онаге</sic>
  </choice>

Замечания расшифровщика вставляются в текст расшифровки в виде элемента note с атрибутом place со значение end; на сайте эти замечания выглядят как подстрочные:

  <note place="end">Не отдельный ли это документ?</note>

Замечания, присутствующие в оригинале (где они, как правило, выделены символами |: и :|), кодируются элементом note с атрибутом type со значением gloss; на сайте эти замечания выделяются визуально:

  <note type="gloss">|: о коем выше :|</note>

То, что имеется в виду, может быть добавлено элементом supplied:

  <supplied reason="implied">Магид</supplied>

в браузере добавленное будет заключено в квадратные скобки [...].

Обращение:

  <salute>Милостивый государь мой Петръ Хрисанфовичь!</salute>

Подпись:

  <signed>θедоръ Брискорнъ.</signed>

Даты кодитуются элементом date, где атрибут when даёт дату в стандартной форме (в те годы использовался юлианский календарь):

  <date when="1798-10-18">18 Октября</date>

Дата вместе с местом написания:

  <dateline>В <placeName ref="Петербург">С.-П-Бургѣ</placeName>,
    <date when="1800-04-23">апрѣля 23-го 1800-го</date>.</dateline>

Для группирования информации в начале текста (дата, место, исходящий номер и т.д.) может быть использован элемент opener; в конце документа (дата, подпись и т.д.) - closer. Чётких правил по пользованию этими элементами пока не выработалось :(

Имена

Имена людей, мест и организаций кодируются элементами persName, placeName и orgName соответственно; атрибут ref отсылает к соответствующему элементу (person, place, org) в файле с именами (names.xml):

  <persName ref="alter-rebbe">Алтер Ребе</persName>
  в <placeName ref="Вильно">Вильне</placeName>
  <orgName ref="Виленский_кагал">виленский кагал</orgName>

Имена описываются в файлах в соответствующей директории внутри директории names: jews, officials, organizations, places или transcribers. В директории organizations файлы выглядят таким образом:

  <?xml version="1.0" encoding="UTF-8"?>
  <org>
    <orgName>Губернатор</orgName>
  </org>

в директории places - таким:

  <?xml version="1.0" encoding="UTF-8"?>
  <place>
    <placeName>Литва</placeName>
  </place>

а в остальных - вот так:

  <?xml version="1.0" encoding="UTF-8"?>
  <person>
    <persName>Баал Шем Тов</persName>
    <ref target="https://ru.wikipedia.org/wiki/Баал-Шем-Тов">[Википедия]</ref>
  </person>

Имена этих файлов - это те идентификаторы, которые используются для ссылок: ref="Баал_Шем_Тов"

Код который порождает сайт:

  • проверяет, что элемент кодирующий имя снабжён атрибутом ref;
  • создаёт файл с именами (names.xml); РЕДАКТИРОВАТЬ ЭТОТ ФАЙЛ БЕССМЫСЛЕННО;
  • проверяет, что в имя, на который атрибут ref ссылается, наличествует;
  • вставляет в файл с именами обратные ссылки на документы где каждое из имён присутствует.

Результаты этих проверок для Вашего pull requestа можно посмотреть в нём самом или на странице непрерывной интеграции.

Имя человека, которому документ адресован, кодируется в заголовке документа, внутри элемента profileDesc элементом correspDesc следующего вида:

  <correspDesc>
    <correspAction>
      <persName ref="Булгаков" role="addressee">Булгакову</persName>
    </correspAction>
  </correspDesc>

teiHeader

Элемент teiHeader содержит метаинформацию о документе, которая показывается в (порождаемом программой) оглавлении коллекции:

  • заголовок документа (то, что внутри документа закодировано как head) - если он есть (title);
  • краткое содержание (abstract);
  • автор (author);
  • расшифровщик (editor; атрибут role со значением transcriber);
  • дата написания (date внутри элемента creation):
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title type="main">Къ пророчеству о Бонапарте</title>
        <author>
          <persName ref="Гирша_Давыдовичъ">Гирш Давыдович</persName>
        </author>
        <editor role="transcriber">
          <persName ref="IA">Ифрах Абрамов</persName></editor>
      </titleStmt>
      ...
    </fileDesc>
    <profileDesc>
      ...
      <creation><date when="1798-05-08">8 мая 1798</date></creation>
      <abstract><p>Донос</p></abstract>
    </profileDesc>
  </teiHeader>