top 32 best datastage interview questions
Lista de preguntas y respuestas de la entrevista de Datastage más frecuentes para ayudarlo a prepararse para la próxima entrevista:
DataStage es una herramienta ETL muy popular que estaba disponible en el mercado actual.
En este artículo, comparto un conjunto de preguntas-respuestas muy útiles destinadas a las entrevistas de IBM Datastage. Revisar las preguntas de la entrevista de Datastage a continuación puede facilitarle la resolución de la entrevista.
Hemos cubierto respuestas detalladas a las preguntas de la entrevista de Datastage que serán útiles para los principiantes y los profesionales experimentados.
Lectura recomendada => Preguntas de la entrevista de prueba ETL
Preguntas y respuestas más comunes de las entrevistas de Datastage
¡Empecemos!
P # 1) ¿Qué es Datastage?
Respuestas: Datastage es un Herramienta ETL dada por IBM que utiliza una GUI para diseñar soluciones de integración de datos. Esta fue la primera herramienta ETL que dio un concepto de paralelismo.
Está disponible en las siguientes 3 ediciones diferentes
- Edición de servidor
- Edición de Empresa
- Edición MVS
P # 2) ¿Destacar las características principales de Datastage?
Respuestas: Las principales características de Datastage se destacan a continuación:
- Es el componente de integración de datos del servidor de información de IBM Infosphere.
- Es una herramienta basada en GUI. Solo necesitamos arrastrar y soltar los objetos de Datastage y podemos convertirlos a código de Datastage.
- Se utiliza para realizar las operaciones ETL (Extraer, Transformar, Cargar)
- Proporciona conectividad a múltiples fuentes y múltiples objetivos al mismo tiempo
- Proporciona técnicas de procesamiento de particiones y paralelos que permiten que los trabajos de Datastage procesen un gran volumen de datos con bastante rapidez.
- Tiene conectividad de nivel empresarial.
P # 3) ¿Cuáles son los usos principales de la herramienta Datastage?
Respuestas: Datastage es una herramienta ETL que se utiliza principalmente para extraer datos de los sistemas de origen, transformar esos datos y finalmente cargarlos en los sistemas de destino.
P # 4) ¿Cuáles son las principales diferencias que ha observado entre la versión 7.xy 8.x de DataStage?
Respuestas: Aquí son las principales diferencias entre ambas versiones
7.x | 8.x |
---|---|
La versión 7.x dependía de la plataforma | Esta versión es independiente de la plataforma |
Tiene una arquitectura de 2 niveles donde la plataforma de datos se construye sobre el servidor Unix | Tiene una arquitectura de 3 niveles donde tenemos la base de datos del servidor UNIX en la parte inferior, luego la base de datos XMETA que actúa como un repositorio y luego tenemos la plataforma de datos en la parte superior. |
No existe el concepto de conjunto de parámetros | Disponemos de conjuntos de parámetros que se pueden utilizar en cualquier lugar del proyecto. |
Teníamos al diseñador y al gerente como dos clientes separados | En esta versión, el cliente administrador se fusionó con el cliente diseñador |
Tuvimos que buscar manualmente los trabajos en esta versión | Aquí tenemos la opción de búsqueda rápida en el repositorio donde podemos buscar fácilmente los trabajos. |
P # 5) ¿Puede destacar las características principales del servidor de información de IBM Infosphere?
Respuestas: Las principales características del conjunto de servidores de información IBM Infosphere son:
cómo eliminar un índice de una matriz java
- Proporciona una plataforma única para la integración de datos. Tiene la capacidad de conectarse a varios sistemas de origen y de escribir en varios sistemas de destino.
- Se basa en capas centralizadas. Todos los componentes de la suite pueden compartir la arquitectura básica de la suite.
- Tiene capas para el repositorio unificado, para servicios de metadatos integrados y un motor paralelo común.
- Proporciona herramientas para el análisis, la limpieza, el monitoreo, la transformación y la entrega de datos.
- Tiene capacidades de procesamiento masivamente paralelas. Resulta que el procesamiento es muy rápido.
P # 6) ¿Cuáles son las diferentes capas en la arquitectura del servidor de información?
Respuestas: A continuación se muestran las diferentes capas de la arquitectura del servidor de información.
- Interfaz de usuario unificada
- Servicios comunes
- Procesamiento paralelo unificado
- Metadatos unificados
- Conectividad común
P # 7) ¿Qué podría ser un sistema de fuente de datos?
Respuestas: Podría ser una tabla de base de datos, un archivo plano o incluso una aplicación externa como People Soft.
P # 8) ¿En qué interfaz trabajará como desarrollador?
Respuestas: Como desarrollador de Datastage, trabajamos en la interfaz del cliente de Datastage, conocida como diseñador de Datastage, que debe instalarse en el sistema local. En el backend, está conectado al servidor de Datastage.
P # 9) ¿Cuáles son los diferentes servicios comunes en Datastage?
Respuestas: A continuación se muestra la lista de servicios comunes en Datastage:
- Servicios de metadatos
- Implementación de servicios unificados
- Servicios de seguridad
- Servicios de generación de informes y bucle.
P # 10) ¿Cómo empiezas a desarrollar un proyecto de Datastage?
Respuestas: El primer paso es crear un trabajo de Datastage en el servidor de Datastage. Todos los objetos de Datastage que creamos se almacenan en el proyecto de Datastage. Un proyecto de Datastage es un entorno independiente en el servidor para trabajos, tablas, definiciones y rutinas.
Un proyecto de Datastage es un entorno independiente en el servidor para trabajos, tablas, definiciones y rutinas.
P # 11) ¿Qué es un trabajo de DataStage?
Respuestas: El trabajo de Datastage es simplemente un código de DataStage que creamos como desarrollador. Contiene diferentes etapas vinculadas entre sí para definir los datos y el flujo del proceso.
Las etapas no son más que las funcionalidades que se implementan.
Por ejemplo: Supongamos que quiero hacer una suma del monto de las ventas. Esta puede ser una operación 'agrupar por' que se realizará en una etapa.
Ahora, quiero escribir el resultado en un archivo de destino. Entonces, esta operación será realizada por otra etapa. Una vez que haya definido ambas etapas, necesito definir el flujo de datos desde mi etapa 'agrupar por' hasta la etapa del archivo de destino. Este flujo de datos está definido por enlaces DataStage.
Una vez que haya definido ambas etapas, necesito definir el flujo de datos desde mi etapa 'agrupar por' hasta la etapa del archivo de destino. Este flujo de datos está definido por enlaces DataStage.
P # 12) ¿Qué son las secuencias de DataStage?
Respuestas: La secuencia de la etapa de datos conecta los trabajos de DataStage en un flujo lógico.
P # 13) Si desea utilizar la misma pieza de código en diferentes trabajos, ¿cómo lo logrará?
Respuestas: Esto se puede hacer utilizando contenedores compartidos. Hemos compartido contenedores para su reutilización. Un contenedor compartido es un elemento de trabajo reutilizable que consta de etapas y enlaces. Podemos llamar a un contenedor compartido en diferentes trabajos de Datastage.
P # 14) ¿Dónde se almacenan los trabajos de Datastage?
Respuestas: Los trabajos de Datastage se almacenan en el repositorio. Tenemos varias carpetas en las que podemos almacenar los trabajos de Datastage.
P # 15) ¿Dónde ves las diferentes etapas del diseñador?
Respuestas: Todas las etapas están disponibles dentro de una ventana llamada ‘ Paleta ’ . Tiene varias categorías según el tipo de función que proporciona el escenario.
Las diversas categorías de etapas de la paleta son: general, calidad de datos, base de datos, desarrollo, archivo, procesamiento, etc.
P # 16) ¿Cuáles son las etapas de procesamiento?
Respuestas: Las etapas de procesamiento nos permiten aplicar la transformación de datos real.
Por ejemplo , Los ‘ La etapa de agregador en la categoría Procesamiento nos permite aplicar todas las operaciones de 'agrupar por'. Del mismo modo, tenemos otras etapas en el procesamiento como la etapa 'Unir' que nos permite unir los datos que provienen de dos flujos de entrada diferentes.
P # 17) ¿Cuáles son los pasos necesarios para crear un trabajo de Datastage básico simple?
Respuestas: Haga clic en Archivo -> Haga clic en Nuevo -> Seleccionar trabajo paralelo y presione Aceptar. Se abrirá una ventana de trabajo paralelo. En este trabajo paralelo, podemos juntar diferentes etapas y definir el flujo de datos entre ellas. El trabajo de DataStage más simple es un trabajo ETL.
En esto, primero necesitamos extraer los datos del sistema de origen para lo cual podemos usar una etapa de archivo o una etapa de base de datos porque mi sistema de origen puede ser una tabla de base de datos o un archivo.
Supongamos que estamos leyendo datos de un archivo de texto. En este caso, arrastraremos y soltaremos la etapa 'Archivo secuencial' en la ventana del trabajo paralelo. Ahora, necesitamos realizar alguna transformación sobre estos datos. Usaremos la etapa 'Transformador' que está disponible en la categoría Procesamiento. Podemos escribir cualquier lógica en la etapa Transformer.
Finalmente, necesitamos cargar los datos procesados en alguna tabla de destino. Digamos que mi base de datos de destino es DB2. Entonces, para esto, seleccionaremos la etapa del conector DB2. Luego, conectaremos estos estados de datos a través de enlaces secuenciales.
Después de este , necesitamos configurar las etapas para que apunten al sistema de archivos o base de datos correcto.
Por ejemplo, Para la etapa de archivo secuencial, necesitamos definir los parámetros obligatorios como el nombre del archivo, la ubicación del archivo, los metadatos de la columna.
Entonces necesitamos compilar el trabajo de Datastage. La compilación del trabajo comprueba la sintaxis del trabajo y crea un archivo ejecutable para el trabajo de Datastage que se puede ejecutar en tiempo de ejecución.
P # 18) Nombra los diferentes métodos de clasificación en Datastage.
Respuestas: Hay dos métodos disponibles:
- Orden de enlace
- Orden de escenario de datos incorporado
P # 19) En un lote, si un trabajo falla en el medio y desea reiniciar el lote desde ese trabajo en particular y no desde cero, ¿qué hará?
Respuestas: En Datastage, hay una opción en la secuencia de trabajos: 'Agregue puntos de control para que la secuencia se pueda reiniciar en caso de falla' . Si esta opción está marcada, entonces podemos volver a ejecutar la secuencia de trabajo desde el punto donde falló.
P # 20) ¿Cómo se importan y exportan los trabajos de Datastage?
etapas del ciclo de vida del desarrollo de software
Respuestas: F o esto, debajo de las funciones de línea de comandos para esto
- Importar: dsimport.exe
- Exportar: dsexport.exe
P # 21) ¿Qué son las rutinas en Datastage? Enlista varios tipos de rutinas.
Respuestas: rutina es un conjunto de funciones definidas por el administrador de DS. Se ejecuta a través de la etapa del transformador.
Hay 3 tipos de rutinas:
- Rutinas paralelas
- Rutinas de mainframe
- Rutinas del servidor
P # 22) ¿Cómo se eliminan los valores duplicados en DataStage?
Respuestas: Hay dos formas de manejar valores duplicados
- Podemos usar eliminar etapa duplicada para eliminar duplicados.
- Podemos usar la etapa Ordenar para eliminar duplicados. La etapa de clasificación tiene una propiedad llamada 'permitir duplicados'. No obtendremos valores duplicados en la salida de sort al establecer esta propiedad en falso.
P # 23) ¿Cuáles son los diferentes tipos de vistas disponibles en un director de Datastage?
Respuestas: Hay 3 tipos de vistas disponibles en el director de Datastage. Son:
- Vista de registro
- Vista de estado
- Vista de trabajo
P # 24) Distinga entre Informatica y Datastage. ¿Cuál escogerías y por qué?
Respuestas: Tanto Informatica como DataStage son potentes herramientas ETL.
Los puntos alistados diferencian entre ambas herramientas:
Informatica | Etapa de Datos | |
---|---|---|
Procesamiento en paralelo | Informatica no admite el procesamiento paralelo. | En contraste con esto, la etapa de datos proporciona un mecanismo para el procesamiento paralelo. |
Implementación de SCD | Es bastante sencillo implementar SCD (dimensiones que cambian lentamente) en Informatica. | Sin embargo, es complejo implementar SCD en datastage. Datastage admite SCD simplemente a través de scripts personalizados. |
Control de versiones | Informatica admite el control de versiones mediante el registro y la salida de objetos. | Sin embargo, no tenemos esta funcionalidad disponible en la etapa de datos. |
Transformaciones disponibles | Hay transformaciones menores disponibles. | Datastage ofrece más variedad de transformaciones que Informatica. |
Poder de búsqueda | Informatica proporciona una búsqueda de caché dinámica muy potente | No tenemos nada similar en la etapa de datos. |
En mi opinión personal, optaría por Informatica en lugar de Datastage. La razón es que he encontrado que Informatica es más sistemática y fácil de usar que DataStage.
Otra razón importante es que la depuración y el manejo de errores son mucho mejores en Informatica en comparación con Datastage. Por lo tanto, la solución de problemas se vuelve más fácil en Informatica. Datastage no proporciona soporte completo para el manejo de errores.
=> ¿Quiere saber más sobre Informatica? Tenemos una explicación detallada aquí.
P # 25) Dé una idea de las variables del sistema.
Respuestas: Las variables del sistema son las variables de solo lectura que comienzan con ‘@’ que puede leerse mediante la etapa del transformador o la rutina. Se utilizan para obtener la información del sistema.
P # 26) ¿Cuál es la diferencia entre la etapa pasiva y la etapa activa?
Respuestas: Las etapas pasivas se utilizan para la extracción y la carga, mientras que las etapas activas se utilizan para la transformación.
¿Cómo abro un archivo torrentado?
P # 27) ¿Cuáles son los distintos tipos de contenedores disponibles en Datastage?
Respuestas: Tenemos debajo de 2 contenedores en Datastage:
- Contenedor local
- Contenedor compartido
P # 28) ¿El valor de la variable de ensayo se almacena temporal o permanentemente?
Respuestas: Temporalmente. Es una variable temporal.
P # 29) ¿Cuáles son los diferentes tipos de trabajos en Datastage?
Respuestas: Tenemos dos tipos de trabajos en Datastage:
- Trabajos del servidor (se ejecutan de forma secuencial)
- Trabajos paralelos (se ejecutan de forma paralela)
P # 30) ¿Cuál es el uso del director de Datastage?
Respuestas: A través del director de Datastage, podemos programar un trabajo, validar el trabajo, ejecutar el trabajo y monitorear el trabajo.
P # 31) ¿Cuáles son los distintos tipos de archivos hash?
Respuestas: Tenemos 2 tipos de archivos hash:
- Archivo hash estático
- Archivo hash dinámico
Q # 32) ¿Qué es una etapa de calidad?
Respuestas: La etapa de calidad (también llamada etapa de integridad) es una etapa que ayuda a combinar los datos provenientes de diferentes fuentes.
Conclusión
Debe tener un conocimiento práctico sobre la arquitectura de Datastage, sus características principales y debe poder explicar en qué se diferencia de algunas otras herramientas ETL populares.
Adicionalmente , Debería tener una idea clara sobre las diferentes etapas y su uso, una forma integral de crear un trabajo de Datastage y ejecutarlo.
Lectura recomendada => ¿Qué son las pruebas ETL?
¡Todo lo mejor!
Lectura recomendada
- Preguntas y respuestas de la entrevista de prueba ETL
- Las 10 mejores herramientas de mapeo de datos útiles en el proceso ETL (2021 LIST)
- 15 mejores herramientas ETL en 2021 (una lista completa actualizada)
- Tutorial de pruebas de almacenamiento de datos con ejemplos | Guía de prueba ETL
- Tutorial de pruebas de almacenamiento de datos de pruebas ETL (una guía completa)
- Pruebas ETL frente a DB: una mirada más detallada a la necesidad de pruebas ETL, planificación y herramientas ETL
- Cómo realizar pruebas ETL con la herramienta Informatica PowerCenter
- Metadatos en el almacén de datos (ETL) explicados con ejemplos
- Comunicado de prensa - iCEDQ Soft Nueva versión Lanzamiento de ETL Testing & Data Migration Testing Platform
- Las 10 mejores herramientas de prueba de ETL en 2021
- ¿Qué es el proceso ETL (extraer, transformar, cargar) en el almacén de datos?