Unstructured, qui propose des outils pour préparer les données d'entreprise pour les LLM, lève 25 millions de dollars | Groupe de machines de production de pétrole de Shaoxing

Les grands modèles de langage (LLM) tels que le GPT-4 d'OpenAI sont les éléments constitutifs d'un nombre croissant d'applications d'IA. Mais certaines entreprises hésitent à les adopter, en raison de leur incapacité à accéder aux données propriétaires et propriétaires.

Ce n'est pas nécessairement un problème facile à résoudre, étant donné que ce type de données a tendance à rester derrière des pare-feu et est disponible dans des formats qui ne peuvent pas être exploités par les LLM. Mais une startup relativement nouvelle, Unstructured.io, tente de supprimer les obstacles avec une plate-forme qui extrait et organise les données d'entreprise d'une manière que les LLM peuvent comprendre et exploiter.

Brian Raymond, Matt Robinson et Crag Wolfe ont cofondé Unstructured en 2022 après avoir travaillé ensemble chez Primer AI, qui se concentrait sur la création et le déploiement de solutions de traitement du langage naturel (NLP) pour les entreprises clientes.

« Chez Primer, nous avons rencontré à maintes reprises un goulot d'étranglement lors de l'ingestion et du prétraitement de fichiers clients bruts contenant des données NLP (par exemple, PDF, e-mails, PPTX, XML, etc.) et de leur transformation en un fichier propre et organisé, prêt à être utilisé. un modèle ou un pipeline d'apprentissage automatique », a déclaré Raymond, PDG d'Unstructured, à TechCrunch dans une interview par courrier électronique. "Aucune des sociétés d'intégration de données ou de traitement intelligent des documents n'a contribué à résoudre ce problème. Nous avons donc décidé de créer une entreprise et de nous y attaquer de front."

En effet, le traitement et la préparation des données ont tendance à être une étape chronophage de tout flux de développement d’IA. Selon une enquête, les data scientists passent près de 80 % de leur temps à préparer et à gérer les données à analyser. En conséquence, la plupart des données produites par les entreprises – environ les deux tiers – restent inutilisées, selon un autre sondage.

« Les organisations génèrent quotidiennement de grandes quantités de données non structurées qui, combinées aux LLM, peuvent augmenter la productivité. Le problème est que ces données sont dispersées », poursuit Raymond. « Le sale secret de la communauté NLP est qu’aujourd’hui, les data scientists doivent encore créer des connecteurs de données artisanaux et uniques et des pipelines de prétraitement entièrement manuellement. Non structuré [fournit] une solution complète pour connecter, transformer et organiser des données en langage naturel pour les LLM.

Unstructured fournit un certain nombre d'outils pour aider à nettoyer et à transformer les données d'entreprise pour l'ingestion LLM, notamment des outils qui suppriment les publicités et autres objets indésirables des pages Web, concatènent le texte, effectuent une reconnaissance optique des caractères sur les pages numérisées, etc. La société développe des pipelines de traitement pour des types spécifiques de PDF ; Documents HTML et Word, y compris pour les dépôts auprès de la SEC ; et – de toutes choses – les rapports d’évaluation des officiers de l’armée américaine.

Pour gérer les documents, Unstructured a formé son propre modèle NLP de « transformation de fichiers » à partir de zéro et a assemblé une collection d'autres modèles pour extraire du texte et environ 20 éléments discrets (par exemple, des titres, des en-têtes et des pieds de page) à partir de fichiers bruts. Divers connecteurs (environ 15 au total) extraient des documents à partir de sources de données existantes, comme un logiciel de gestion de la relation client.

"En coulisses, nous utilisons diverses technologies différentes pour éliminer la complexité", a déclaré Raymond. « Par exemple, pour les anciens PDF et images, nous utilisons des modèles de vision par ordinateur. Et pour les autres types de fichiers, nous utilisons des combinaisons intelligentes de modèles NLP, de scripts Python et d'expressions régulières.

En aval, Unstructured s'intègre à des fournisseurs tels que LangChain, un cadre de création d'applications LLM et à des bases de données vectorielles telles que Weaviate et Atlas Vector Search de MongoDB.

Auparavant, le seul produit de Unstructured était une suite open source de ces outils de traitement de données. Raymond affirme qu'il a été téléchargé environ 700 000 fois et utilisé par plus de 100 entreprises. Mais pour couvrir les coûts de développement – et apaiser ses investisseurs, sans aucun doute – la société lance une API commerciale qui transformera les données dans 25 formats de fichiers différents, dont PowerPoint et JPG.

« Nous travaillons avec des agences gouvernementales et avons généré plusieurs millions de revenus en très peu de temps. . . . Puisque nous nous concentrons sur l'IA, nous nous concentrons sur un secteur du marché qui n'est pas affecté par le ralentissement économique plus large », a déclaré Raymond.