ASPseek es un software de motor de búsqueda en Internet desarrollado por SWsoft y licenciado como software libre bajo licencia GNU GPL.
ASPseek consiste en un robot de indexación, un demonio de búsqueda, y una interfaz de búsqueda CGI. Se puede indexar todos los que unos pocos millones de direcciones URL y la búsqueda de palabras y frases, uso de comodines, y hacer una búsqueda de Boole. Resultados de la búsqueda se pueden limitar a determinado período de tiempo, lugar o espacio web (conjunto de páginas Web) y ordenado por relevancia (PageRank se utiliza) o fecha.
ASPseek está optimizado para múltiples sitios (índice de rosca, las búsquedas de DNS asíncronas, agrupando los resultados por el sitio, los espacios Web), pero se puede utilizar para buscar un sitio así. ASPseek puede trabajar con múltiples idiomas / codificaciones a la vez (incluyendo codificaciones multibyte como el chino), debido al modo de almacenamiento Unicode. Otras características incluyen palabras vacías y apoyo ispell, un conjunto de caracteres y el lenguaje adivinador, plantillas HTML para resultados de búsqueda, extractos, y palabras de consulta que destacan.
ASPseek está escrito en C ++ utilizando la biblioteca STL, y utiliza mezcla de base de datos SQL y archivos binarios para el almacenamiento.
Aquí están algunas características clave de "ASPseek":
Capacidad de índice y búsqueda a través de varios millones de documentos
· Uso de ASPseek, usted puede construir una base de datos y buscar a través de muchos sitios, y los resultados de cada consulta será devuelto rápido, incluso si usted tiene un par de millones de documentos indexados. Por supuesto, esto depende de hardware, así que no esperes "buen viejo" máquina i486 manejar cada sitio en el dominio .com. Todo depende de la CPU (s), la memoria, la velocidad del disco, etc. lo hacen sus propias pruebas antes de comprar hardware dedicado.
· El hecho de que ASPseek está optimizado para altos volúmenes no debe usted dejar de utilizarlo para buscar su propio sitio que contiene unos cientos de documentos - que funciona allí.
Muy bueno relevancia de los resultados
· El propósito de motor de búsqueda es encontrar lo que el usuario quiere. No puede haber miles de direcciones URL que se encuentran como consecuencia de la consulta de búsqueda, pero todo puede ser irrelevante, por lo que el usuario habrá insatisfecho.
· Los resultados de salida en ASPseek están ordenados por relevancia (o rango), pero el cálculo rango no es una tarea fácil. Desarrolladores hicieron todo lo posible para incorporar mayores y últimas técnicas en el motor ASPseek manteniendo una buena velocidad de búsqueda.
Apoyo Ispell
· Cuando ASPseek se usa con ispell apoyo, searchd (1) opcionalmente puede encontrar todas las formas de todas las palabras especificadas (ejemplo: create -> Crear o creados o crea). Por lo tanto, le permite encontrar la palabra en todas las diferentes formas.
Modo de almacenamiento Unicode
· ASPseek puede almacenar información sobre documentos en Unicode, lo que hace posible implementar un motor de búsqueda multilingüe. Así, se puede indexar y buscar los documentos en Inglés, ruso e incluso China, todo en una base de datos.
HTTP, HTTPS, HTTP proxy, FTP (a través de proxy) protocolos
· Como ASPseek es un motor de búsqueda en la web, que utiliza el protocolo HTTP para sitios de índice. ASPseek también soporta https seguras: // protocolo. Protocolo FTP no está soportado directamente, pero puede utilizar proxy (como el calamar) y sitios FTP índice a través de proxy.
· ASPseek compatible con la función "autorización básica" de HTTP por lo que puede indexar áreas protegidas por contraseña (por ejemplo, la información privada en su intranet).
Text / html y text / plain apoyo tipos de documentos
· ASPseek puede comprender documentos escritos en HTML y documentos de texto sin formato. Estos son los formatos más populares en Internet.
· Otros formatos, como PDF, RTF, etc, pueden ser apoyados con la ayuda de cualquier programa / script externo que es capaz de convertir ese formatos a HTML o texto plano.
Diseño multiproceso, asíncrono resolución de DNS, etc
· ASPseek utiliza hilos POSIX, que significa que un solo proceso tiene muchos hilos que se ejecutan en paralelo. Así descargas índice documentos desde muchos sitios, y los procesos daemon Búsqueda muchas consultas de búsqueda al mismo tiempo. Esto no sólo ayuda ASPseek a escala bien en sistemas multiprocesador (SMP), sino que también mejora la velocidad de indexación, porque en caso de un hilo que más tiempo se dedicará a la espera de los datos de la red.
· Una cosa que proceso de indexación desaceleración mucho es la búsqueda de DNS (un proceso para determinar la dirección IP utilizando el nombre del servidor). Para evitar demoras, las búsquedas asincrónicas (búsqueda se realiza mediante procesos dedicados separados) y la memoria caché de direcciones IP se implementan.
Stopwords
· Stopwords son unas palabras que no tienen significado por sí mismo. Ejemplos: está, son, en el Este. Busca en es inútil, por lo que tales palabras son excluidos de consulta de búsqueda. Stopwords También se excluyen de la base de datos durante la indexación, por lo que la base de datos se hace más pequeño y más rápido.
· No hay palabras vacías "incorporadas" en ASPseek, que se cargan durante el arranque de los archivos. Muchos archivos de palabras de parada para diferentes idiomas viene con ASPseek.
Charset guesse
· Algunos servidores rotos o mal configurados no dicen clientes el juego de caracteres en el que ofrecen contenido. Si está indexando estos servidores, o el uso de ASPseek a servidores ftp índice (protocolo FTP no saben nada de juegos de caracteres), adivinador charset se puede utilizar para tratar con él. Charset adivinador usa tablas de frecuencia de palabras (llamadas langmaps) para determinar charset correcto.
Apoyo (robots.txt) estándar de exclusión de robots
· ASPseek totalmente compatible con este estándar. Está destinado a autores de sitios web para decirle al robot (por ejemplo, el índice de ASPseek (1)) para saltar la indexación de algunos directorios de sus sitios.
· Para obtener más información, consulte http://www.robotstxt.org/wc/robots.html
Configuración para controlar el uso de ancho de banda de la red y los servidores web de carga
· Puede controlar con precisión el ancho de banda que el índice (1) usa. Exactamente, se puede limitar el ancho de banda (expresado en bytes por segundo) utilizado por el índice (1) para determinada hora del día. Por ejemplo, puede limitar el ancho de banda durante el horario comercial para que la gente en su oficina no experimentarán Internet lenta.
· También puede establecer el tiempo mínimo entre dos consultas al mismo servidor Web, por lo que no se sobrecargará y llegó hasta sus rodillas mientras ejecuta índice (1).
En tiempo real de indexación asincrónica
· Algunos motores de búsqueda requiere que la búsqueda debe dejar de tomarse el tiempo de actualización de base de datos. ASPseek no lo necesita, para que pueda buscar sin parar.
· Más que decir, hay un modo especial de indexación llamada indexación "en tiempo real". Se puede utilizar para la pequeña cantidad de documentos, y por lo que dicho documento se descarga y se procesa, los cambios son inmediatamente visibles en la interfaz de búsqueda. Esta característica es de gran ayuda si usted está construyendo buscador de páginas con contenido que cambia rápidamente, como las noticias en línea, etc.
· Tenga en cuenta que el número de documentos en "tiempo real" la base de datos es limitada. Se trata de 1000 en nuestro hardware (su experiencia puede variar), y los más documentos que tiene en la base de datos "en tiempo real", más lenta será la velocidad de indexación en que (y sólo eso) la base de datos. Esto no afectará a la velocidad de búsqueda sin embargo.
· Los documentos de la base de datos "en tiempo real" se mueven a la base de datos normal, después de ejecutar índice (1) de una manera normal.
Clasificar los resultados por relevancia o por fecha
· Los motores de búsqueda por lo general regresa primero los resultados más relevantes. Pero si usted está buscando para las últimas páginas, se puede decir ASPseek para ordenar los resultados por fecha de última modificación, por lo modificaron recientemente (o creados) páginas se mostrarán en primer lugar.
Extractos, palabras de consulta que destacan
· Extracto es un pedazo de documento encontrado con palabras buscado resaltado, sólo para dar una idea de lo que el documento se trata. Usted puede personalizar el número de fragmentos que muestran y su longitud. Si va a desactivar extractos, se mostrará el principio del documento.
· Cada documento encontrado se acompaña con el enlace "En caché". ASPseek mantiene una copia local comprimida de todos los documentos procesados, por lo que el usuario puede ver el todo el documento con (opcional) destacó las palabras que se han buscado, incluso si se ha eliminado del sitio original (esto sucede a veces).
Agrupar resultados por página
· Los resultados de un sitio se pueden agrupar. Si la agrupación por sitios está encendido, sólo dos resultados se muestran en el mismo sitio por defecto, y el usuario puede ver otras páginas del mismo sitio siguiendo "Más resultados de ..." enlace.
Clones
· Los clones son documentos idénticos en diferentes lugares. Ellos se detectan y se agrupan, para que el usuario no se presentarán con una página llena de URLs a los documentos idénticos.
· Detección Clone está generalmente limitado por un sitio (por lo documentos idénticos de diferentes sitios no son contados como clones), pero se puede cambiar esto recompilar ASPseek con la opción --disable-clones por sitio.
Espacios y subconjuntos
· El espacio es el conjunto de sitios. Así pues, si usted quiere proporcionar la búsqueda se redujo a alguna zona, se puede crear un espacio y buscar dentro de ese espacio. Sólo los sitios enteros (por ejemplo http://www.mysite.com/) pueden ser incluidos en el espacio.
· Subconjuntos también se puede utilizar para restringir la búsqueda. Puede crear subgrupo y poner máscara de URL (como http://www.mysite.com/mydir/%) en eso, y luego limitar ámbito de búsqueda a subconjunto única dada.
· Puede restringir el ámbito de búsqueda, no sólo uno, sino varios subconjuntos o espacios.
Plantillas HTML para obtener resultados de búsqueda fáciles de modificar para requisitos particulares
· Puede personalizar sus páginas de búsqueda, por lo que se verá como y ser integrado a la perfección con el resto de su sitio. Esto se hace mediante la edición sencilla del archivo de plantilla de búsqueda.
Instalación
gzip -dc ASPseek-1.2.10.tar.gz | tar xf -
cd ASPseek-1.2.10. / configurar
hacer
Do
make install
Búsqueda por categoría
- Conductores
- Disco y archivo de software
- Herramientas de desarrollo
- Juegos
- Mejoras de escritorio
- Navegadores
- Protectores de pantalla
- Software de audio
- Software de comunicación
- Software de desarrollo web
- Software de diseño gráfico
- Software de fotografía digital
- Software de Internet
- Software de la casa y familia
- Software de negocios y oficina
- Software de productividad
- Software de red
- Software de seguridad
- Software de vídeo
- Software educativo y la ciencia
- Utilidades del sistema
El software popular
-
BlackArch Linux 22 Jun 18
-
Boot-Repair-Disk 20 Feb 15
-
KAVClient 3 Jun 15
-
ed2k-gtk-gui 4 Jun 15
-
Syslinux 17 Feb 15
-
Google Music Manager 15 Apr 15
-
Porteus Xfce 12 Jan 17
ASPseek
Otro software de desarrollador SWsoft
Comentarios a la ASPseek
Búsqueda por categoría
- Conductores
- Disco y archivo de software
- Herramientas de desarrollo
- Juegos
- Mejoras de escritorio
- Navegadores
- Protectores de pantalla
- Software de audio
- Software de comunicación
- Software de desarrollo web
- Software de diseño gráfico
- Software de fotografía digital
- Software de Internet
- Software de la casa y familia
- Software de negocios y oficina
- Software de productividad
- Software de red
- Software de seguridad
- Software de vídeo
- Software educativo y la ciencia
- Utilidades del sistema
El software popular
-
Redis 28 Sep 15
-
Tiny Core Linux 2 Sep 17
-
Linux Lite 20 Jan 18
-
Pear OS 14 Nov 16
-
Elastix 2 Oct 16
-
Cub Linux 11 Apr 16
-
ed2k-gtk-gui 4 Jun 15
Comentarios que no se encuentran