first commit

macespinoza · web-flow · commit ec50b512c4f1 · 2024-11-01T19:17:50.000-05:00
diff --git a/README.md b/README.md
@@ -0,0 +1,58 @@
+
+# ETL para Integración de Datos de MySQL a Elasticsearch para Bot de WhatsApp
+
+Este proyecto proporciona un proceso ETL (Extract, Transform, Load) que permite extraer datos desde una base de datos MySQL, transformarlos utilizando embeddings vectorizados, y cargarlos en un índice de Elasticsearch. La información cargada en Elasticsearch está optimizada para el modelo de chatbot en WhatsApp, que utiliza el repositorio [BotWhatsappGPT](https://github.com/macespinoza/BotWhatsappGPT).
+
+---
+
+## Estructura del Proyecto
+
+- **main.py**: Código fuente principal que contiene las funciones para extracción, transformación y carga (ETL) de los datos.
+- **requirements.txt**: Lista de las dependencias necesarias para ejecutar el proyecto.
+- **mysqlsampledatabase.sql**: Base de datos de muestra en formato SQL para pruebas de desarrollo.
+
+## Despliegue en Google Cloud Functions
+
+Este proyecto está diseñado para ser desplegado fácilmente en **Google Cloud Functions**. Sigue estos pasos para el despliegue:
+
+1. **Configura tu entorno de Google Cloud**:
+   - Asegúrate de tener un proyecto en Google Cloud.
+   - Configura y autentica el SDK de Google Cloud en tu terminal.
+
+## Ejecución en Local o en Otros Ambientes
+
+Si prefieres ejecutar este proyecto en un entorno local u otro ambiente, solo se requieren cambios menores en el archivo `main.py`:
+
+1. **Ajusta las variables de entorno** en `main.py` o utiliza un archivo `.env` para definir los valores de conexión a MySQL y Elasticsearch.
+2. **Instala las dependencias** localmente:
+   ```bash
+   pip install -r requirements.txt
+   ```
+3. **Ejecución**:
+   ```bash
+   python main.py
+   ```
+
+La ejecución local permite realizar pruebas y ajustes de desarrollo antes de desplegar en Google Cloud Functions.
+
+## Configuración
+
+Antes de ejecutar el script, asegúrate de actualizar las configuraciones necesarias en `main.py`:
+
+1. **Credenciales de MySQL**: Configura las credenciales y la URL de la base de datos.
+2. **Conexión a Elasticsearch**: Asegúrate de que el índice y la configuración de Elasticsearch están definidos.
+
+## Integración con el Bot de WhatsApp
+
+El modelo de chatbot en WhatsApp utiliza la base vectorizada creada por este ETL para mejorar las consultas en lenguaje natural. Puedes encontrar el código del bot en el repositorio: [BotWhatsappGPT](https://github.com/macespinoza/BotWhatsappGPT).
+
+---
+
+## Desarrollado por
+
+**MAC: Miguel Angel Cotrina**  
+[LinkedIn](https://www.linkedin.com/in/mcotrina/)
+
+---
+
+Este proyecto es de código abierto y está disponible para la comunidad con el propósito de mejorar la integración de datos para aplicaciones de inteligencia artificial y chatbots en WhatsApp.
diff --git a/main.py b/main.py
@@ -0,0 +1,80 @@
+from langchain.document_loaders import DataFrameLoader
+from langchain.document_loaders import CSVLoader
+from langchain.text_splitter import CharacterTextSplitter
+from langchain.embeddings import OpenAIEmbeddings
+from langchain_elasticsearch import ElasticsearchStore
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+import tempfile
+import mysql.connector as connection
+import pandas as pd
+import mysql
+import os
+
+
+def ingestadata(request):
+    apikey="xxxxxxxxxxxxxxx"
+    os.environ["OPENAI_API_KEY"] =apikey
+    #credenciales mysql
+    myhost="xx.xx.xx.xx"
+    myuser="xxxxx"
+    mypws="xxxxx"
+    mydb="classicmodels"
+    myquery= """SELECT productName, productline, quantityInStock as stock, MSRP as precio FROM
+      `classicmodels`.`products`;
+    """
+    #credenciales Elasticsearch
+    el_url="http://xx.xx.xx.xx:9200"
+    el_usr="xxxxx"
+    el_pws="xxxxx"
+    el_idx="mprod-mcotrina-01"
+    
+    #conexion a base de datos
+    mydb = mysql.connector.connect(
+      host=myhost,
+      user=myuser,
+      passwd=mypws,
+      database=mydb
+      )
+    query = myquery
+    result_df = pd.read_sql(query,mydb)
+    mydb.close()
+    
+    # Guardar el DataFrame en un archivo temporal
+    with tempfile.NamedTemporaryFile(suffix=".csv", delete=False) as temp_file:
+        result_df.to_csv(temp_file.name, index=False)
+        temp_csv_path = temp_file.name
+    
+    # Cargar el archivo temporal usando CSVLoader
+    loader = CSVLoader(file_path=temp_csv_path)
+    documents = loader.load()
+    #explitear el docuemento
+    text_splitter = RecursiveCharacterTextSplitter(
+    chunk_size = 650,
+    chunk_overlap = 0
+    )
+    #generamos el embedding
+    docs = text_splitter.split_documents(documents)
+    embeddings = OpenAIEmbeddings()
+
+    # Crear el store en Elasticsearch
+    db_el = ElasticsearchStore(
+        es_url=el_url,
+        es_user=el_usr,
+        es_password=el_pws,
+        index_name=el_idx,
+    )
+    
+    # Eliminar el índice si ya existe(esto solo se hace para  carga full en caso de Delta el proceso es diferente)
+    if db_el.client.indices.exists(index=el_idx):
+        db_el.client.indices.delete(index=el_idx)
+        
+    db = ElasticsearchStore.from_documents(
+        docs,
+        embeddings,
+        es_url=el_url,
+        es_user=el_usr,
+        es_password=el_pws,
+        index_name=el_idx,
+    )
+    db.client.indices.refresh(index=el_idx)
+    return "ok"
diff --git a/mysqlsampledatabase.sql b/mysqlsampledatabase.sql
diff --git a/requirements.txt b/requirements.txt
@@ -0,0 +1,13 @@
+# Function dependencies, for example:
+# package>=version
+requests
+langchain
+langchain_experimental
+langchain_openai
+langchain-elasticsearch
+langchain_community
+pandas
+mysql-connector-python
+google-api-python-client
+SQLAlchemy
+pyarrow