770: gaps_title_and_text by LapshinAE0 · Pull Request #794 · moevm/document_insight_system

LapshinAE0 · 2026-03-27T11:29:27Z

No description provided.

HadronCollider

Следите за мерж-конфликтами и тестами CI - это вам необходимо их исправлять, а не мне
Такой результат на любом из загруженных мною файлов - Ошибка про проверке разрывов между заголовком и текстом: sequence item 0: expected str instance, int found
- 0 подробностей и понимания как исправить (мне, как проверяющему / разработчику, студенту и подавно)

HadronCollider · 2026-04-11T23:58:13Z

+
+    def get_text_after_title(self, header, chars_count=40):
+
+        if 'child' not in header or not header['child']:


header.get('child') превращает это в короткую строку и один вызов

HadronCollider · 2026-04-12T00:19:27Z

+    def search(self, str_1, str_2):
+        for page_num in range(1, self.file.page_counter() + 1):
+            text_on_page = self.file.pdf_file.text_on_page[page_num]
+
+            if str_1 in text_on_page and str_2 in text_on_page:
+                return page_num, True
+
+            if str_1 not in text_on_page and str_2 not in text_on_page:
+                continue
+
+            return page_num, False


Для каждого встреченного заголовка вы запускаете поиск по всем страницам отчета, ещё и каждый раз извлекая по новой текст с каждой страницы pdf

представляете, сколько будет только эта проверка выполняться при 100 страницах, 20 заголовках и 200 студентах?

HadronCollider · 2026-04-12T00:22:59Z

+            if str_1 in text_on_page and str_2 in text_on_page:
+                return page_num, True
+
+            if str_1 not in text_on_page and str_2 not in text_on_page:
+                continue


in ещё и для больших строк не самая быстрая - уменьшите 4 вызова до 2
Условно

in1 = str_1 in text_on_page in2 = str_2 in text_on_page

HadronCollider · 2026-04-12T00:24:47Z

+            for header in headers:
+                if "heading" in header['style']:
+                    page_num, perfom = self.search(header["text"], self.get_text_after_title(header))
+                    if not perfom and page_num not in list_page_num:
+                        list_page_num.append(page_num)


Про то, что так точно делать не надо - см. комментарий к search

соберите все заголовки заранее

оптимизируйте обход отчета при поиске - очевидно, что если вы 10й заголовок встретили на странице 50, 11й заголовок на первых 50 (или 49) явно не появится - какой смысл смотреть весь текст на всех страницы?

HadronCollider · 2026-04-12T00:26:58Z

+        full_text = ""
+        for child in header['child']:
+            if child.get('text'):
+                full_text += child['text'] + " "


А если разделитель между двумя child['text'] не - как вы потом найдете этот же текст на странице PDF, если сформировали его не так как он выглядит на самом деле?

HadronCollider · 2026-04-12T00:27:48Z

+                if len(full_text) >= chars_count:
+                    break


Проверить длину и прервать цикл можно и без выполнения условия if child.get('text'):

HadronCollider · 2026-04-12T00:29:59Z

+
+class ReportGapsBetweenTitleAndTextCheck(BaseReportCriterion):
+    label = "Проверка разрывов между заголовком и текстом"
+    _description = "Не должно быть разрывов между заголовком и текстом. Когда заголовок на одной странице, а текст уже на другой."


Заменить на Не должно быть висячих заголовков (заголовок и абзац текста расположены на разных страницах)

HadronCollider · 2026-04-12T00:30:27Z

+            if list(list_page_num) == 0:
+                return answer(True, "Проверка разрывов между заголовком и текстом пройдена!")
+
+            return answer(False, f"Проверка разрывов между заголовком и текстом не пройдена! Страницы, на которых найдено несоответствие: {'\n'.join(list_page_num)}")


Добавьте инструкцию / описание того как исправить

LapshinAE0 · 2026-05-04T17:47:41Z

@HadronCollider исправил Ваши замечания. Также обнаружил, возможно, баг с парсингом файла в pdf. На одном скрине фрагмент текста в word 2021, затем сохраненный на моей системе с помощью word в формате pdf и после уже скрин pdf после после парсинга (текст "поднимается" к заголовку).
Я не уверен, корректно ли такое обрабатывание и в таких случаях мой критерий будет считаться пройденным, что в исходном документе не является правдой

LapshinAE0 added the in_progress label Mar 27, 2026

github-actions Bot added the has conflicts if new merge has conflicts label Mar 27, 2026

HadronCollider changed the base branch from master to dev April 11, 2026 23:33

github-actions Bot removed the has conflicts if new merge has conflicts label Apr 11, 2026

HadronCollider requested changes Apr 12, 2026

View reviewed changes

HadronCollider added the Changes requested label Apr 12, 2026

LapshinAE0 added need_review in_progress and removed in_progress Changes requested need_review labels May 4, 2026

LapshinAE0 and others added 6 commits May 22, 2026 14:49

skeleton of the program

dd944de

to new description format

37516a0

fix full

c7b2c18

fix: linter

30ec61f

fix: linter

1872c32

fix: linter 2

7607dbc

LapshinAE0 force-pushed the 770_gaps_title_and_text branch from 79564ba to 7607dbc Compare May 22, 2026 11:50

fix: linter 3

a798a5f

LapshinAE0 added need_review and removed in_progress labels May 22, 2026

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

770: gaps_title_and_text#794

770: gaps_title_and_text#794
LapshinAE0 wants to merge 7 commits into
devfrom
770_gaps_title_and_text

LapshinAE0 commented Mar 27, 2026

Uh oh!

HadronCollider left a comment

Uh oh!

HadronCollider Apr 11, 2026

Uh oh!

HadronCollider Apr 12, 2026

Uh oh!

HadronCollider Apr 12, 2026

Uh oh!

HadronCollider Apr 12, 2026

Uh oh!

HadronCollider Apr 12, 2026

Uh oh!

HadronCollider Apr 12, 2026

Uh oh!

HadronCollider Apr 12, 2026

Uh oh!

HadronCollider Apr 12, 2026

Uh oh!

LapshinAE0 commented May 4, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants


		def get_text_after_title(self, header, chars_count=40):

		if 'child' not in header or not header['child']:

Conversation

LapshinAE0 commented Mar 27, 2026

Uh oh!

HadronCollider left a comment

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

LapshinAE0 commented May 4, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants