extract_text
Extraiga texto limpio y legible de HTML con análisis inteligente. Elimina automáticamente scripts, estilos y contenido repetitivo mientras conserva el contenido de texto principal.
Casos de uso
Extracción de artículos para LLMs
Extraiga texto limpio de artículos para resumir, analizar o procesar con IA
Análisis de contenido
Obtenga texto plano para conteo de palabras, análisis de legibilidad o detección de sentimiento
Texto limpio para resúmenes
Elimine el ruido HTML antes de pasarlo a los modelos de resumen
Eliminación de contenido repetitivo
Elimine anuncios, navegación y otros elementos que no son contenido
Endpoint
/api/v1/tools/extract_textParameters
html o url. Si proporciona ambos, html tiene prioridad.| Name | Type | Required | Default | Description |
|---|---|---|---|---|
html | string | Optional | - | Contenido HTML del que extraer texto (proporcione html o url) Example: <html><body><h1>Hello World</h1></body></html> |
url | string | Optional | - | URL para obtener y extraer texto (proporcione html o url) Example: https://example.com/article |
selector | string | Optional | - | Selector CSS para apuntar a elementos específicos (predeterminado: toda la página) Example: article, .content, #main |
clean | boolean | Optional | true | Eliminar espacios en blanco adicionales y normalizar el formato Example: true |
preserve_links | boolean | Optional | false | Incluir los enlaces en el texto extraído junto con sus URLs Example: false |
preserve_formatting | boolean | Optional | false | Conservar el formato HTML básico (párrafos, saltos de línea) Example: false |
max_length | number | Optional | - | Longitud máxima del texto extraído (se truncará con ...) Example: 5000 |
Ejemplos de solicitud
cURL - Extraer desde URL
TypeScript - Extraer desde HTML
Python - Extraer con selector
Ejemplo de respuesta
{ "success": true, "data": { "text": "Article Title\n\nThis is the main content of the article. It contains useful information that has been extracted from the HTML.\n\nLinks:\nRelated Article (/related)", "metadata": { "title": "Article Title - Example Site", "description": "Meta description of the article", "word_count": 248, "character_count": 1432, "selector_used": "article", "links_preserved": true, "formatting_preserved": false } }, "credits_used": 1, "credits_remaining": 999, "processing_time": 180}data.textEl contenido de texto plano extraídodata.metadata.word_countNúmero total de palabras en el texto extraídodata.metadata.character_countNúmero total de caracteresdata.metadata.selector_usedEl selector CSS que se aplicócredits_usedCredits descontados por esta solicitud (1 por cada extracción)Manejo de errores
Entrada faltante (400 Bad Request)
No se proporcionó ni html ni url. Debe proporcionar al menos uno.
Selector no válido (400 Bad Request)
El selector CSS no es válido o no coincide con ningún elemento. Verifique la sintaxis de su selector.
Fallo al obtener la URL (500 Internal Server Error)
No se pudo obtener la URL. Compruebe que la URL sea accesible y devuelva HTML.