[NeuralChat] Suport pptx format for RAG (#1447)

xmx-521 · ClarkChin08 · lvliang-intel · web-flow · commit 6042826b8c17 · 2024-06-14T12:17:58.000+08:00
* enable rag for pptx format file

Signed-off-by: Chen Xi &lt;xi2.chen@intel.com&gt;


Signed-off-by: Manxin Xu &lt;1426356297@qq.com&gt;

---------

Signed-off-by: Chen Xi &lt;xi2.chen@intel.com&gt;
Signed-off-by: lvliang-intel &lt;liang1.lv@intel.com&gt;
Signed-off-by: Manxin Xu &lt;1426356297@qq.com&gt;
Co-authored-by: Chen Xi &lt;xi2.chen@intel.com&gt;
Co-authored-by: lvliang-intel &lt;liang1.lv@intel.com&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
diff --git a/intel_extension_for_transformers/neural_chat/assets/docs/sample.pptx b/intel_extension_for_transformers/neural_chat/assets/docs/sample.pptx
diff --git a/intel_extension_for_transformers/neural_chat/pipeline/plugins/retrieval/parser/context_utils.py b/intel_extension_for_transformers/neural_chat/pipeline/plugins/retrieval/parser/context_utils.py
@@ -19,6 +19,7 @@
 import pandas as pd
 import re, json
 from langchain_community.document_loaders import UnstructuredMarkdownLoader
+from langchain_community.document_loaders import UnstructuredPowerPointLoader
 from docx import Document as DDocument
 from bs4 import BeautifulSoup
 import fitz
@@ -112,6 +113,13 @@ def read_md(md_path):
     return text
 
 
+def read_pptx(pptx_path):
+    """Read pptx file."""
+    loader = UnstructuredPowerPointLoader(pptx_path)
+    text = loader.load()[0].page_content
+    return text
+
+
 def load_json(input, process, max_length, min_length):
     """Load and process json file."""
     data = []
@@ -226,6 +234,8 @@ def load_unstructured_data(input):
         text = read_txt(input)
     elif input.endswith("md"):
         text = read_md(input)
+    elif input.endswith("pptx"):
+        text = read_pptx(input)
 
     text = text.replace('\n', ' ')
     text = text.replace('\n\n', ' ')
diff --git a/intel_extension_for_transformers/neural_chat/pipeline/plugins/retrieval/parser/parser.py b/intel_extension_for_transformers/neural_chat/pipeline/plugins/retrieval/parser/parser.py
@@ -70,7 +70,7 @@ def load(self, input, **kwargs):
     def parse_document(self, input):
         """Parse the uploaded file."""
         if input.endswith("pdf") or input.endswith("docx") or input.endswith("html") \
-           or input.endswith("txt") or input.endswith("md"):
+           or input.endswith("txt") or input.endswith("md") or input.endswith("pptx"):
             content = load_unstructured_data(input)
             if self.process:
                 chuck = get_chuck_data(content, self.max_chuck_size, self.min_chuck_size, input)
@@ -110,7 +110,7 @@ def batch_parse_document(self, input):
         for dirpath, dirnames, filenames in os.walk(input):
             for filename in filenames:
                 if filename.endswith("pdf") or filename.endswith("docx") or filename.endswith("html") \
-                    or filename.endswith("txt") or filename.endswith("md"):
+                    or filename.endswith("txt") or filename.endswith("md") or filename.endswith("pptx"):
                     content = load_unstructured_data(os.path.join(dirpath, filename))
                     if self.process:
                         chuck = get_chuck_data(content, self.max_chuck_size, self.min_chuck_size, input)
diff --git a/intel_extension_for_transformers/neural_chat/tests/ci/plugins/retrieval/test_rag.py b/intel_extension_for_transformers/neural_chat/tests/ci/plugins/retrieval/test_rag.py
@@ -98,6 +98,31 @@ def test_retrieval_docx(self):
         self.assertIsNotNone(response)
         plugins.retrieval.enable = False
 
+class TestChatbotBuilder_pptx(unittest.TestCase):
+    def setUp(self):
+        if os.path.exists("test_pptx"):
+            shutil.rmtree("test_pptx", ignore_errors=True)
+        return super().setUp()
+
+    def tearDown(self) -> None:
+        if os.path.exists("test_pptx"):
+            shutil.rmtree("test_pptx", ignore_errors=True)
+        return super().tearDown()
+
+    def test_retrieval_pptx(self):
+        plugins.retrieval.enable = True
+        plugins.retrieval.args["input_path"] = "../assets/docs/sample.pptx"
+        plugins.retrieval.args["persist_directory"] = "./test_pptx"
+        plugins.retrieval.args["retrieval_type"] = 'default'
+        config = PipelineConfig(model_name_or_path="facebook/opt-125m",
+                                plugins=plugins)
+        chatbot = build_chatbot(config)
+        response = chatbot.predict("How many cores does the Intel Xeon Platinum 8480+ Processor have in total?")
+        print(response)
+        plugins.retrieval.args["persist_directory"] = "./output"
+        self.assertIsNotNone(response)
+        plugins.retrieval.enable = False
+
 class TestChatbotBuilder_xlsx(unittest.TestCase):
     def setUp(self):
         if os.path.exists("test_xlsx"):
diff --git a/intel_extension_for_transformers/neural_chat/tests/requirements.txt b/intel_extension_for_transformers/neural_chat/tests/requirements.txt
@@ -85,7 +85,7 @@ torchvision==0.18.0
 tqdm
 transformers==4.38.0
 transformers_stream_generator
-unstructured
+unstructured[all-docs]
 urllib3
 uvicorn
 vector_quantize_pytorch