fix: test AttributeError (base_url not _base_url), add build_ontology test, fix README raw_output reference

latenceainew · latenceainew · commit 0a50efc69abf · 2026-03-23T18:30:29.000Z
Made-with: Cursor
diff --git a/README.md b/README.md
@@ -362,20 +362,20 @@ See [SDK_TUTORIAL.md](SDK_TUTORIAL.md) for complete documentation of every servi
 Turn pipeline outputs into corpus-level knowledge graphs, ontologies, and structured datasets with incremental ingestion. Feed the output of any Latence pipeline into Dataset Intelligence to extract entities, resolve duplicates, build knowledge graphs with RotatE link prediction, and induce ontological concepts.
 
 ```python
-# Step 1: Run a pipeline to process documents
-job = client.pipeline.run(files=["doc1.pdf", "doc2.pdf", "doc3.pdf"])
-pkg = job.wait_for_completion()
-
-# Step 2: Feed pipeline output into Dataset Intelligence
+# Dataset Intelligence consumes pipeline stage outputs.
+# Use the portal's Dataset Intelligence UI to upload pipeline results,
+# or submit programmatically via the SDK:
 di = client.experimental.dataset_intelligence_service
-result = di.run(input_data=pkg.raw_output, return_job=True)
-# Poll at /api/v1/pipeline/{result.job_id} for status
 
-# Step 3: Append new documents later (incremental)
-new_pkg = client.pipeline.run(files=["doc4.pdf"]).wait_for_completion()
+# Create a new dataset from pipeline output (dict with stage keys)
+job = di.run(input_data=pipeline_output, return_job=True)
+print(f"Job submitted: {job.job_id}")
+# Poll status at GET /api/v1/pipeline/{job.job_id}
+
+# Append new documents to an existing dataset
 delta = di.run(
-    input_data=new_pkg.raw_output,
-    dataset_id=result.dataset_id,  # appends to existing dataset
+    input_data=new_pipeline_output,
+    dataset_id="ds_existing_id",  # appends to existing dataset
     return_job=True,
 )
 ```
diff --git a/docs/dataset_intelligence.md b/docs/dataset_intelligence.md
@@ -11,8 +11,8 @@ job = client.experimental.dataset_intelligence_service.run(
     input_data=pipeline_output,
     return_job=True,
 )
-result = client.jobs.wait(job.job_id)  # or poll /api/v1/pipeline/{job_id}
-print(result.status)
+print(f"Job submitted: {job.job_id}")
+# Poll status at GET /api/v1/pipeline/{job.job_id}
 ```
 
 > **Note:** Direct service APIs live under `client.experimental.*`. Dataset Intelligence requires pipeline output as input — run the [pipeline](pipelines.md) first, then feed its output here for corpus-level analysis.
@@ -76,6 +76,8 @@ result = client.experimental.dataset_intelligence_service.enrich(
 print(f"Tier: {result.tier}")  # "tier1"
 ```
 
+> `enrich()` is synchronous-only (no `return_job`). For large payloads, consider using `run(return_job=True)` with `tier="tier1"` via `config_overrides` if you need async submission.
+
 ## `client.experimental.dataset_intelligence_service.build_graph()`
 
 Tier 2 — knowledge graph construction with entity resolution and RotatE link prediction.
@@ -114,6 +116,8 @@ for concept in result.data.get("concepts", []):
     print(f"  {concept['label']} (level {concept.get('level', 0)})")
 ```
 
+> `build_ontology()` is synchronous-only (no `return_job`). For large payloads, consider using `run(return_job=True)` with `tier="tier3"` via `config_overrides` if you need async submission.
+
 ---
 
 ## Input Data Format
diff --git a/tests/integration/test_di_e2e.py b/tests/integration/test_di_e2e.py
@@ -19,7 +19,7 @@
 
 Run:
     LATENCE_API_KEY=lat_xxx \
-      pytest tests/integration/test_di_e2e.py -v -s --timeout=600
+      pytest tests/integration/test_di_e2e.py -v -s
 """
 
 import json
@@ -87,8 +87,8 @@ def pipeline_payload():
 
 def _poll_pipeline_job(client: Latence, job_id: str) -> dict:
     """Poll the pipeline endpoint until the job completes or times out."""
-    base_url = client._client._base_url
-    api_key = client._client._api_key
+    base_url = client._client.base_url
+    api_key = client._client.api_key
     url = f"{base_url}/api/v1/pipeline/{job_id}"
     headers = {"Authorization": f"Bearer {api_key}"}
 
@@ -299,6 +299,20 @@ def test_build_graph_async(self, client, pipeline_payload):
         assert result.job_id.startswith("di_")
         print(f"[DI E2E] build_graph() job: {result.job_id}")
 
+    def test_build_ontology_submits(self, client, pipeline_payload):
+        """Tier 3: build_ontology() submits without error."""
+        di = client.experimental.dataset_intelligence_service
+        try:
+            result = di.build_ontology(input_data=pipeline_payload)
+            assert isinstance(result, DatasetIntelligenceResponse)
+            assert result.tier == "tier3"
+            print(f"[DI E2E] build_ontology() returned: tier={result.tier}, "
+                  f"credits={result.usage.credits}")
+        except Exception as e:
+            if "timeout" in str(e).lower() or "504" in str(e):
+                pytest.skip(f"Tier3 sync call timed out (expected for large payloads): {e}")
+            raise
+
     def test_run_async(self, client, pipeline_payload):
         """Full: run(return_job=True) returns a job."""
         di = client.experimental.dataset_intelligence_service
@@ -326,8 +340,8 @@ def test_payload_exceeds_threshold(self, pipeline_payload):
 
     def test_presign_endpoint(self, client):
         """The /api/v1/di/presign endpoint responds correctly."""
-        base_url = client._client._base_url
-        api_key = client._client._api_key
+        base_url = client._client.base_url
+        api_key = client._client.api_key
 
         resp = httpx.post(
             f"{base_url}/api/v1/di/presign",