Представляем Вам программный комплекс

FURDUS

FURDUS способен в полуавтоматическом режиме выделить из документа термины, их определения и сокращения, которые приведены в этом документе!

Программа работает в Microsoft Word (устанавливается как надстройка), то есть открываете нужный документ, например статью, закон или ГОСТ, нажимаете "ПОИСК ТЕРМИНОВ" и получаете список терминов и их определений в виде отдельного файла, а также в виде предметного указателя, который добавляется в конец исходного документа. Термины, в распознавании которых у программы будут проблемы, она будет спрашивать Ваших подсказок. Под термином документа понимается любое слово или несколько слов, понятие (определение) которого есть в документе. Дополнительно по тексту ищутся сокращения и также добавляются в результирующий файл (JSON).

Помимо этого форматируется в удобочитаемый вид сам документ, формируется автоматом и добавляется оглавление документа (содержание), а также предметный указатель.

Программа обладает множеством сопутствующих функций обработки документов Word (см.подробное описание функций ниже).

Другими словами это программа для создания словаря терминов в некоторой предметной области - если обработать все документы этой области (скорость алгоритма будет приведена позднее на основе одной предметной области, содержащей 600 документов - сейчас в процессе формирования - см. krantest.ru).

Попробуйте, как это работает

Если хотите попробовать на вашем файле работу программы, то напишите нам в форме ниже и мы бесплатно выделим из вашего текста все термины. Вы увидите реальный результат работы программы Furdus.

Необходимо будет на нашу почту прислать свой документ в формате Word (rtf, doc, docx можно txt)

ИСТОРИЯ РАЗВИТИЯ ПРОГРАММЫ

улучшение

29.01.2019

добавлены новые сокращения для имен файлов, получаемых из длинного наименования документа

функционал

04.02.2019

добавлена функция удаления внешних гиперссылок, при этом убирается и цвет ссылок (делается как и у основого текста)

функционал

10.02.2019

из текста документа по ключевым словам можно выбирать важные абзацы и добавлять в результирующий файл JSON, например все абзацы, содержащие слова "запрещается", "запрещено"

улучшение

10.03.2019

Одна из функций программы - это поиск и сохранение абзацев, содержащих ключевые (важные) слова. Эти слова задаются в отдельном файле. Например, выделить все абзацы, где встречаются слова "обязаны", или там "запрещается". Программа позволяет это сделать и сегодняшнее улучшение коснулось этой функции. Теперь в сохраняемых абзацах сами ключевые слова можно разметить любыми тэгами html, например и сделать их большими буквами.

баги

14.03.2019

Исправлены некоторые ошибки, связанные с выделением терминов и важных абзацев (удаляются лишние кавычки)

баги

19.03.2019

Исправлена ошибка при форматировании текста. Программа находит все Приложения в тексте документа и делает так, чтобы они начинались с новой страницы. Теперь она делает это более корректно (связано с таблицами перед словом "Приложение").

баги

30.03.2019

Исправлены 2 ошибки:
1. В некоторых случаях не все отмеченные термины попадали в Предметный указатель документа, хотя сохранялись в базе терминов
2. В случае нахождения таблицы с сокращениями, была возможна ситуация, при которой термины, идущие за таблицей, могли быть пропущены.

улучшение

30.03.2019

добавлены новые сокращения для имен файлов, получаемых из длинного наименования документа

улучшение

05.05.2019

Доработка метода поиска терминов двойным ключом, например ".... под <термином таким-то> понимается <определение>." Теперь в определение можно включать и начало предложения. <br>Исправлена ошибка с очисткой параметров поиска.

улучшение

11.05.2019

Улучшен алгоритм автоматического создания оглавления. При поиске пунктов оглавления в тексте теперь может учитываться или отбрасываться уточняющий текст в скобках в конце в зависимости от его длины. Например, "Глава 7. Название главы (введена 01.05.2019)"

функционал

16.06.2019

Добавлена новая функция - это поиск в документе всех гиперссылок (могут быть не отмечены как гиперссылки - только текст). Ссылки сохраняются в массиве важных слов в самом начале и также экспортируются в результирующий JSON.

улучшение

16.06.2019

Доработан один из методов определения терминов, основанный на том. что сам термин и его определение отделены тире (добавлено и так называемое "длинное тире"). Добавлены некоторые исключения в этот метод, связанные с расшифровкой переменных под формулами.

улучшение

01.07.2019

Доработан метод получения терминов из таблиц (обычно встречается в ГОСТах) - приспособлен к таблицам разной структуры. При этом термины могут быть в одной колонке, определения в другой.

функционал

21.07.2019

В выходной файл JSON содержащий термины и определения, добавлены для каждого термина 2 переменные - это количество вхождений в документе и метод, по которому был определен термин (методы отличаются - есть косвенные, есть прямые - например, если в документе есть раздел терминов и определений, это прямой метод. Пример косвенного метода - термин выдернут из предложения, например "под <термин> понимается <определение>.....")

функционал

07.08.2019

в результирующий файл-документ *.pdf (в свойства) добавлены ключевые слова документа для лучшей индексации Яндексом

функционал

21.11.2019

все термины, найденные по тексту добавляются в выходной JSON и отдельно для каждого термина выделяются корни, при этом отбрасываются окончания, предлоги, союзы, местоимения, наречия, междометия и другой не нужный хлам. Например термин "ОПАСНЫЙ ПРОИЗВОДСТВЕННЫЙ ОБЪЕКТ", выделяются корни "ОПАСН", "ПРОИЗВОДСТВ", "ОБЪЕКТ"

баги

24.11.2019

Исправлены ошибки при формировании свойств документа PDF и при поиске и разметки ссылок (есть отличия при отображении ссылок документа внутри результирующих файлов (*.pdf, *.docx, на сайте после загрузки *.json)

функционал и баги

04.12.2019

Доработка алгоритма автоматической разметки уровней содержания и формирования самого содержания.
Введен упрощенный режим распознования терминов для больших документов (больше 100-200 страниц) при котором работают только методы с достоверностью до 2-о1 степени (100% методы - например, наличие в доументе раздела терминов), остальные методы поиска терминов для таких документов отключены, так как займут много времени оператора
Добавлены новые ключевые слова в метод поиска терминов по ключевым словам

функционал

03.01.2020

новая функция обработки текста:

перенос висячих заголовков и таблиц,

то есть заголовки, находящиеся внизу страницы или таблицы, которые начинаются также внизу страницы и переходят на следующую - вот их программа находит и переносит на начало страницы (заголовки кстати программа также может расставлять самостоятельно, если они отсутствуют и отсутствует оглавление)

функционал

06.01.2020

новая функция обработки текста:

автоматический переворот страниц из альбомного в книжный формат, при этом анализируются таблицы на страницах (даже DOS таблицы), то есть если они помещаются, то переворачиваем и делаем таблицам автоподбор по ширине

улучшение

20.01.2020

Доработаны функции, позволяющие, в случае необходимости, вручную выделить куски текста, где находится сам термин, а где его определение или сокращение (эта возможность добавлена в программу и доступна после автоматического распознавания терминов)

улучшение

12.02.2020

Доработана функция поиска файлов в банке данных, чтобы проверить а обрабатывался этот документ или нет, получить термины, которые уже были и ориентировочное время, которое было потрачено тогда. Это используется чтобы выдать предупреждение и если время на обработку велико, а термины в новой редакции документа не изменились, то используем старые.

функционал

20.02.2022

Сноски в тексте, выполненные вручную программа преобразует в полноценные сноски документа
Добавлена подсветка фоновая для заголовков, которые идут в оглавление

баги

24.02.2020

Исправлены ошибки при получении из таблицы терминов, также из "важных" абзацев удаляются теперь все коды полей и настроены по другому выдача предупреждений при разбиении на страницы

улучшение

17.03.2020

Доработан метод получения терминов из таблиц, который теперь корректно их определяет даже если термин занимает несколько абзацев (узкие таблицы).

функционал

01.04.2020

Добавлена возможность выделения из текста термина и его определения, состоящего из нескольких абзацев текста.

функционал

12.04.2020

Термины, найденные в тексте, переводятся в именительный падеж с помощью файла подстановки

Улучшение

19.04.2020

Доработан интерфейс окна ручного редактирования найденного в тексте термина: добавлены предупреждения о недопустимости наличия в терминах спец.символов и некоторых слов, добавлена кнопка "в нижний регистр", а также другие улучшения

Баги

25.06.2020

Исправлена ошибка при формировании уникальных корней термина (если один был производным от другого, то попадал только один)

Улучшение

03.10.2020

Доработана функция перевода терминов в именительный падеж в случае, если из текста они получены в других падежах (например, из абзаца "Под аварией понимается ...." получен термин "аварией", который переводится в "Авария"). Теперь функция может переводить корректно термин из нескольких слов - существительное и прилагательные.

Баги

26.10.2020

исправлена ошибка получения терминов из ГОСТов, где некоторые термины обведены в рамку (находятся в таблице)

Улучшение

03.01.2021

Добавлены несколько новых методов поиска терминов двойным ключом, а также доработана функция поиска URL-адресов в тексте (длинные заменяются короткими)

Улучшение

28.03.2021

Добавлен новый метод поиска терминов. Улучшена функция замены длинных ссылок в тексте на короткие - удобочитаемые с сохранением в массив

функционал

24.06.2021

Добавлена поддержка терминов с английским переводом. Теперь термины из ГОСТов, СНиПов и других документов, в которых содержатся английские написания этих терминов ложатся в базу в отдельное поле.

функционал

03.04.2022

При сохранении результирующих файлов, старые версии сохраняются в папке "Архив"

улучшение

11.09.2022

Улучшена работа поиска терминов, когда они находятся в таблице и в отдельном столбце английский вариант терминов. Теперь распознается и сохраняется в выходной json

функционал

17.12.2022

Добавлена обработка рисунков - для каждого рисунка ищется его наименование и помечается, чтобы на странице они всегда были вместе, не разрывались

функционал

20.12.2022

Наконец-то закончена окончательная обработка таблиц: названия таблиц и сами таблицы анализируются по тексту, приводятся к одному формату (или альбомный или книжный) и теперь не разбиваются. Таблицы расположенные на альбомных страницах если небольшие, то переводятся в книжный вариант.

ДЛЯ КОГО ЭТА ПРОГРАММА

Мы думаем наша разработка заинтересует институты, крупные компании, гос.структуры, все те, у кого существует нормативная база документов и кто заинтересован в её систематизации с целью дальнейшей разработки (программа исключит двоякое определение терминов) или с целью обучения персонала (программа создаст банк терминов) ...

Покупка программы


100 000 руб.
операторы Ваши

  • доработка под Ваши документы
  • годовая поддержка операторов

Выделить термины


от 5 до 10 руб. за страницу (зависит от плотности терминов по тексту)
операторы наши

    Вы даете нам документы, мы сами выделяем из них все термины и определения

Доработка программы


от 5000 руб. за каждый функционал

  • добавление желаемого функционала в программу

    годовая поддержка