Update accelerator options for easy ocr

aakankshaduggal · aakankshaduggal · commit 87e4278e4b59 · 2025-02-13T11:43:37.000-05:00
Signed-off-by: Aakanksha Duggal &lt;aduggal@redhat.com&gt;
diff --git a/src/instructlab/sdg/utils/chunkers.py b/src/instructlab/sdg/utils/chunkers.py
@@ -8,6 +8,7 @@
 
 # Third Party
 from datasets import Dataset
+from docling.accelerator import decide_device
 from docling.chunking import HybridChunker
 from docling.datamodel.base_models import InputFormat
 from docling.datamodel.document import ConversionResult
@@ -53,14 +54,17 @@ def resolve_ocr_options() -> OcrOptions:
         ocr_options = EasyOcrOptions()
         # Keep easyocr models on the CPU instead of GPU
         ocr_options.use_gpu = False
+        accelerator_options = AcceleratorOptions(device=decide_device(None))
         # triggers torch loading, import lazily
         # pylint: disable=import-outside-toplevel
         # Third Party
         from docling.models.easyocr_model import EasyOcrModel
 
-        accelerator_options = AcceleratorOptions()
         _ = EasyOcrModel(
-            True, None, ocr_options, accelerator_options=accelerator_options
+            enabled=True,
+            artifacts_path=None,
+            options=ocr_options,
+            accelerator_options=accelerator_options,
         )
         return ocr_options
     except ImportError:
@@ -193,7 +197,9 @@ def _process_parsed_docling_json(self, json_fp: Path) -> Dataset:
         chunk_iter = chunker.chunk(
             dl_doc=data
         )  # Use hybrid chunker to chunk the document
-        chunks = [chunker.serialize_chunk(chunk) for chunk in chunk_iter]
+        
+        chunks = [chunker.serialize(chunk=chunk) for chunk in chunk_iter]
+        
         fused_texts = self.fuse_texts(chunks, 200)
 
         num_tokens_per_doc = _num_tokens_from_words(self.chunk_word_count)
@@ -317,11 +323,11 @@ def export_documents(self, converted_docs: Iterable[ConversionResult]):
 
                 # Export Deep Search document JSON format:
                 with (docling_artifacts_path / f"{doc_filename}.json").open("w") as fp:
-                    fp.write(json.dumps(doc.legacy_document.export_to_dict()))
+                    fp.write(json.dumps(doc.document.export_to_dict()))
 
                 # Export Markdown format:
                 with (docling_artifacts_path / f"{doc_filename}.md").open("w") as fp:
-                    fp.write(doc.legacy_document.export_to_markdown())
+                    fp.write(doc.document.export_to_markdown())
             else:
                 logger.info(f"Document {doc.input.file} failed to convert.")
                 failure_count += 1