Skip to content

Papers processing refactoring#226

Draft
KamilFatkhiev wants to merge 3 commits intomainfrom
feature/paper_processing_refactoring
Draft

Papers processing refactoring#226
KamilFatkhiev wants to merge 3 commits intomainfrom
feature/paper_processing_refactoring

Conversation

@KamilFatkhiev
Copy link
Copy Markdown
Contributor

  • Большой класс для работы с векторной базой разделен на классы поменьше.
  • Пайплайн обработки статей разделен на отдельные шаги.
  • Состояние обработки статьи записывается в SQL базу (возобновление с последнего успешного шага). Пока SQLite.
  • Добавлено сохранение промежуточных артефактов обработки в отдельный бакет S3 на случай падения. После завершения обработки, очищается.
  • Финальные артефакты сохраняются в отдельный бакет, а чанки в векторное хранилище (пока ChromaDB).
  • В векторной базе одна коллекция с ролями чанков (описание изображения, суммаризация, осн. текст статьи). Так же имееется поле с доменом статьи. [Обсуждаемо]
  • Хранение артефактов разных доменов в S3 можно организовать на уровне бакетов либо через префиксы. [Обсуждаемо]
  • Пока работает только локальный источник статей (папка).
  • Нужно добавить параллельную обработку.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant