Ey, ey, bienvenidos a doku-ssj, el chatbot que la rompe con tus docus locales. Directo desde el under de la IA, con el flow del trap argento. 🔥📚
Doku-ssj es como ese pibe del barrio que se las sabe todas. Usando LlamaIndex, Chroma y Ollama, este bot procesa tus docs y te tira la posta como si fuera freestyle. No más buscar como un gil, ahora tenés la data al toque.
¿Por qué armé este proyecto? Porque soy un cabrón, papá. Me cansé de ver a la gente perdiendo tiempo buscando info en sus propios archivos. Acá les traigo la solución, local, directo y sin vueltas. Esto es "inteligencia artificial pa' que me copien", pero con tu propia data.
- 🧠Modelos locales con Ollama (porque acá no dependemos de nadie, ¿tá claro?)
- 💾 Guardamos los embeddings con Chroma (más veloz que Messi esquivando rivales)
- 🦙 LlamaIndex integrado (armando flows más enredados que los auriculares en tu bolsillo)
- 📄 Soporte actual para PDF, HTML y Markdown (y vienen más en camino, ¡aguante!)
- Cloná el repo, asÃ:
git clone https://github.com/colkito/doku-ssj.git
cd doku-ssj- Instalá todo, metele:
pip install -r requirements.txt-
Asegurate de tener Ollama instalado y corriendo en tu máquina. Si no lo tenés, bajalo de acá.
-
Configurá tu movida:
El archivo
.enven la raÃz del proyecto ya viene con la justa, pero si te pinta cambiar algo, dale:
OLLAMA_BASE_URL: La dirección donde Ollama está haciendo la magia. Por defecto:http://localhost:11434.OLLAMA_CHAT_MODEL: El modelo que usa para chatear. Viene conllama3:latest, pero si tenés otro con más flow, mandate.OLLAMA_EMBEDDING_MODEL: El que convierte las palabras en números. Arranca connomic-embed-text:latest.CHROMA_PATH: Donde guarda toda la data procesada. Por defecto:./chroma_db.CHROMA_COLLECTION_NAME: El nombre de la colección en Chroma. Arranca comodoku.CHROMA_ANONYMIZED_TELEMETRY: Si querés mandar data anónima pa' mejorar Chroma. Viene enFalseporque acá no buchoneamos.DATA_PATH: Donde tiras tus docs para que Doku los mastique. Arranca en./data.
Es fácil, bro:
-
Metele tus docs en la carpeta
./data. El bot lee archivos PDF, HTML y Markdown (próximamente más formatos, estate atento). -
Corré el bot:
python doku_cli.py-
Chateá con el bot como si fuera tu dealer de conocimiento. Tirá tus preguntas y el bot te va a responder con la data de tus docs.
-
Cuando te pinte cortar, tirate un 'chau' y listo. (Si sos más del palo old school, 'quit' también va)
- 📚 Soporte para más tipos de archivos (doc, docx, txt, y lo que se te ocurra)
- 🚀 Mejoras en la velocidad y precisión
- 🎤 Personalización del flow de la respuesta
¿Te pintó mejorar doku-ssj? Demostrá lo que sabés. Tirá un issue o mandá un pull request. Mientras no la cagues, todo piola. Acá respetamos a los que le meten ganas y código.
Si algo no funca:
- Fijate que Ollama esté corriendo
- Chequeá que los modelos estén bajados (
llama3ynomic-embed-textvan de fábrica) - Si seguÃs en el horno, abrà un issue y lo vemos juntos
Bajo la Licencia MIT. Usalo, hacelo mierda, regalalo, vendelo, lo que se te cante. El conocimiento es free, como el Wi-Fi del vecino.
Hecho con 🖤 y mucho Fernet en la tierra del Diego. Inspirado en el flow de los que la rompen, pero sin giladas. Código puro, como trago sin hielo.