Las 32 mejores preguntas y respuestas de las entrevistas de Datastage

top 32 best datastage interview questions

Pruebe Nuestro Instrumento Para Eliminar Los Problemas

Seleccione El Sistema Operativo Elija Un Programa De Proyección (Opcionalmente)

Describe Tu Problema

Lista de preguntas y respuestas de la entrevista de Datastage más frecuentes para ayudarlo a prepararse para la próxima entrevista:

DataStage es una herramienta ETL muy popular que estaba disponible en el mercado actual.

En este artículo, comparto un conjunto de preguntas-respuestas muy útiles destinadas a las entrevistas de IBM Datastage. Revisar las preguntas de la entrevista de Datastage a continuación puede facilitarle la resolución de la entrevista.

Hemos cubierto respuestas detalladas a las preguntas de la entrevista de Datastage que serán útiles para los principiantes y los profesionales experimentados.

Lectura recomendada => Preguntas de la entrevista de prueba ETL

Preguntas y respuestas de la entrevista de Datastage

Preguntas y respuestas más comunes de las entrevistas de Datastage

¡Empecemos!

P # 1) ¿Qué es Datastage?

Respuestas: Datastage es un Herramienta ETL dada por IBM que utiliza una GUI para diseñar soluciones de integración de datos. Esta fue la primera herramienta ETL que dio un concepto de paralelismo.

IBM

Está disponible en las siguientes 3 ediciones diferentes

Edición de servidor
Edición de Empresa
Edición MVS

P # 2) ¿Destacar las características principales de Datastage?

Respuestas: Las principales características de Datastage se destacan a continuación:

Es el componente de integración de datos del servidor de información de IBM Infosphere.
Es una herramienta basada en GUI. Solo necesitamos arrastrar y soltar los objetos de Datastage y podemos convertirlos a código de Datastage.
Se utiliza para realizar las operaciones ETL (Extraer, Transformar, Cargar)
Proporciona conectividad a múltiples fuentes y múltiples objetivos al mismo tiempo
Proporciona técnicas de procesamiento de particiones y paralelos que permiten que los trabajos de Datastage procesen un gran volumen de datos con bastante rapidez.
Tiene conectividad de nivel empresarial.

P # 3) ¿Cuáles son los usos principales de la herramienta Datastage?

Respuestas: Datastage es una herramienta ETL que se utiliza principalmente para extraer datos de los sistemas de origen, transformar esos datos y finalmente cargarlos en los sistemas de destino.

P # 4) ¿Cuáles son las principales diferencias que ha observado entre la versión 7.xy 8.x de DataStage?

Respuestas: Aquí son las principales diferencias entre ambas versiones

7.x	8.x
La versión 7.x dependía de la plataforma	Esta versión es independiente de la plataforma
Tiene una arquitectura de 2 niveles donde la plataforma de datos se construye sobre el servidor Unix	Tiene una arquitectura de 3 niveles donde tenemos la base de datos del servidor UNIX en la parte inferior, luego la base de datos XMETA que actúa como un repositorio y luego tenemos la plataforma de datos en la parte superior.
No existe el concepto de conjunto de parámetros	Disponemos de conjuntos de parámetros que se pueden utilizar en cualquier lugar del proyecto.
Teníamos al diseñador y al gerente como dos clientes separados	En esta versión, el cliente administrador se fusionó con el cliente diseñador
Tuvimos que buscar manualmente los trabajos en esta versión	Aquí tenemos la opción de búsqueda rápida en el repositorio donde podemos buscar fácilmente los trabajos.

P # 5) ¿Puede destacar las características principales del servidor de información de IBM Infosphere?

Respuestas: Las principales características del conjunto de servidores de información IBM Infosphere son:

cómo eliminar un índice de una matriz java

Proporciona una plataforma única para la integración de datos. Tiene la capacidad de conectarse a varios sistemas de origen y de escribir en varios sistemas de destino.
Se basa en capas centralizadas. Todos los componentes de la suite pueden compartir la arquitectura básica de la suite.
Tiene capas para el repositorio unificado, para servicios de metadatos integrados y un motor paralelo común.
Proporciona herramientas para el análisis, la limpieza, el monitoreo, la transformación y la entrega de datos.
Tiene capacidades de procesamiento masivamente paralelas. Resulta que el procesamiento es muy rápido.

P # 6) ¿Cuáles son las diferentes capas en la arquitectura del servidor de información?

Respuestas: A continuación se muestran las diferentes capas de la arquitectura del servidor de información.

Interfaz de usuario unificada
Servicios comunes
Procesamiento paralelo unificado
Metadatos unificados
Conectividad común

P # 7) ¿Qué podría ser un sistema de fuente de datos?

Respuestas: Podría ser una tabla de base de datos, un archivo plano o incluso una aplicación externa como People Soft.

P # 8) ¿En qué interfaz trabajará como desarrollador?

Respuestas: Como desarrollador de Datastage, trabajamos en la interfaz del cliente de Datastage, conocida como diseñador de Datastage, que debe instalarse en el sistema local. En el backend, está conectado al servidor de Datastage.

P # 9) ¿Cuáles son los diferentes servicios comunes en Datastage?

Respuestas: A continuación se muestra la lista de servicios comunes en Datastage:

Servicios de metadatos
Implementación de servicios unificados
Servicios de seguridad
Servicios de generación de informes y bucle.

P # 10) ¿Cómo empiezas a desarrollar un proyecto de Datastage?

Respuestas: El primer paso es crear un trabajo de Datastage en el servidor de Datastage. Todos los objetos de Datastage que creamos se almacenan en el proyecto de Datastage. Un proyecto de Datastage es un entorno independiente en el servidor para trabajos, tablas, definiciones y rutinas.

Un proyecto de Datastage es un entorno independiente en el servidor para trabajos, tablas, definiciones y rutinas.

P # 11) ¿Qué es un trabajo de DataStage?

Respuestas: El trabajo de Datastage es simplemente un código de DataStage que creamos como desarrollador. Contiene diferentes etapas vinculadas entre sí para definir los datos y el flujo del proceso.

Las etapas no son más que las funcionalidades que se implementan.

Por ejemplo: Supongamos que quiero hacer una suma del monto de las ventas. Esta puede ser una operación 'agrupar por' que se realizará en una etapa.

Ahora, quiero escribir el resultado en un archivo de destino. Entonces, esta operación será realizada por otra etapa. Una vez que haya definido ambas etapas, necesito definir el flujo de datos desde mi etapa 'agrupar por' hasta la etapa del archivo de destino. Este flujo de datos está definido por enlaces DataStage.

Una vez que haya definido ambas etapas, necesito definir el flujo de datos desde mi etapa 'agrupar por' hasta la etapa del archivo de destino. Este flujo de datos está definido por enlaces DataStage.

enlaces de datastage

P # 12) ¿Qué son las secuencias de DataStage?

Respuestas: La secuencia de la etapa de datos conecta los trabajos de DataStage en un flujo lógico.

P # 13) Si desea utilizar la misma pieza de código en diferentes trabajos, ¿cómo lo logrará?

Respuestas: Esto se puede hacer utilizando contenedores compartidos. Hemos compartido contenedores para su reutilización. Un contenedor compartido es un elemento de trabajo reutilizable que consta de etapas y enlaces. Podemos llamar a un contenedor compartido en diferentes trabajos de Datastage.

P # 14) ¿Dónde se almacenan los trabajos de Datastage?

Respuestas: Los trabajos de Datastage se almacenan en el repositorio. Tenemos varias carpetas en las que podemos almacenar los trabajos de Datastage.

P # 15) ¿Dónde ves las diferentes etapas del diseñador?

Respuestas: Todas las etapas están disponibles dentro de una ventana llamada ‘ Paleta ’ . Tiene varias categorías según el tipo de función que proporciona el escenario.

Las diversas categorías de etapas de la paleta son: general, calidad de datos, base de datos, desarrollo, archivo, procesamiento, etc.

P # 16) ¿Cuáles son las etapas de procesamiento?

Respuestas: Las etapas de procesamiento nos permiten aplicar la transformación de datos real.

Por ejemplo , Los ‘ La etapa de agregador en la categoría Procesamiento nos permite aplicar todas las operaciones de 'agrupar por'. Del mismo modo, tenemos otras etapas en el procesamiento como la etapa 'Unir' que nos permite unir los datos que provienen de dos flujos de entrada diferentes.

P # 17) ¿Cuáles son los pasos necesarios para crear un trabajo de Datastage básico simple?

Respuestas: Haga clic en Archivo -> Haga clic en Nuevo -> Seleccionar trabajo paralelo y presione Aceptar. Se abrirá una ventana de trabajo paralelo. En este trabajo paralelo, podemos juntar diferentes etapas y definir el flujo de datos entre ellas. El trabajo de DataStage más simple es un trabajo ETL.

En esto, primero necesitamos extraer los datos del sistema de origen para lo cual podemos usar una etapa de archivo o una etapa de base de datos porque mi sistema de origen puede ser una tabla de base de datos o un archivo.

Supongamos que estamos leyendo datos de un archivo de texto. En este caso, arrastraremos y soltaremos la etapa 'Archivo secuencial' en la ventana del trabajo paralelo. Ahora, necesitamos realizar alguna transformación sobre estos datos. Usaremos la etapa 'Transformador' que está disponible en la categoría Procesamiento. Podemos escribir cualquier lógica en la etapa Transformer.

Finalmente, necesitamos cargar los datos procesados en alguna tabla de destino. Digamos que mi base de datos de destino es DB2. Entonces, para esto, seleccionaremos la etapa del conector DB2. Luego, conectaremos estos estados de datos a través de enlaces secuenciales.

Después de este , necesitamos configurar las etapas para que apunten al sistema de archivos o base de datos correcto.

Por ejemplo, Para la etapa de archivo secuencial, necesitamos definir los parámetros obligatorios como el nombre del archivo, la ubicación del archivo, los metadatos de la columna.

Entonces necesitamos compilar el trabajo de Datastage. La compilación del trabajo comprueba la sintaxis del trabajo y crea un archivo ejecutable para el trabajo de Datastage que se puede ejecutar en tiempo de ejecución.

P # 18) Nombra los diferentes métodos de clasificación en Datastage.

Respuestas: Hay dos métodos disponibles:

Orden de enlace
Orden de escenario de datos incorporado

métodos de clasificación

P # 19) En un lote, si un trabajo falla en el medio y desea reiniciar el lote desde ese trabajo en particular y no desde cero, ¿qué hará?

Respuestas: En Datastage, hay una opción en la secuencia de trabajos: 'Agregue puntos de control para que la secuencia se pueda reiniciar en caso de falla' . Si esta opción está marcada, entonces podemos volver a ejecutar la secuencia de trabajo desde el punto donde falló.

P # 20) ¿Cómo se importan y exportan los trabajos de Datastage?

etapas del ciclo de vida del desarrollo de software

Respuestas: F o esto, debajo de las funciones de línea de comandos para esto

Importar: dsimport.exe
Exportar: dsexport.exe

P # 21) ¿Qué son las rutinas en Datastage? Enlista varios tipos de rutinas.

Respuestas: rutina es un conjunto de funciones definidas por el administrador de DS. Se ejecuta a través de la etapa del transformador.

Hay 3 tipos de rutinas:

Rutinas paralelas
Rutinas de mainframe
Rutinas del servidor

rutinas en la etapa de datos

P # 22) ¿Cómo se eliminan los valores duplicados en DataStage?

Respuestas: Hay dos formas de manejar valores duplicados

Podemos usar eliminar etapa duplicada para eliminar duplicados.
Podemos usar la etapa Ordenar para eliminar duplicados. La etapa de clasificación tiene una propiedad llamada 'permitir duplicados'. No obtendremos valores duplicados en la salida de sort al establecer esta propiedad en falso.

P # 23) ¿Cuáles son los diferentes tipos de vistas disponibles en un director de Datastage?

Respuestas: Hay 3 tipos de vistas disponibles en el director de Datastage. Son:

Vista de registro
Vista de estado
Vista de trabajo

P # 24) Distinga entre Informatica y Datastage. ¿Cuál escogerías y por qué?

Respuestas: Tanto Informatica como DataStage son potentes herramientas ETL.

Los puntos alistados diferencian entre ambas herramientas:

	Informatica	Etapa de Datos
Procesamiento en paralelo	Informatica no admite el procesamiento paralelo.	En contraste con esto, la etapa de datos proporciona un mecanismo para el procesamiento paralelo.
Implementación de SCD	Es bastante sencillo implementar SCD (dimensiones que cambian lentamente) en Informatica.	Sin embargo, es complejo implementar SCD en datastage. Datastage admite SCD simplemente a través de scripts personalizados.
Control de versiones	Informatica admite el control de versiones mediante el registro y la salida de objetos.	Sin embargo, no tenemos esta funcionalidad disponible en la etapa de datos.
Transformaciones disponibles	Hay transformaciones menores disponibles.	Datastage ofrece más variedad de transformaciones que Informatica.
Poder de búsqueda	Informatica proporciona una búsqueda de caché dinámica muy potente	No tenemos nada similar en la etapa de datos.

En mi opinión personal, optaría por Informatica en lugar de Datastage. La razón es que he encontrado que Informatica es más sistemática y fácil de usar que DataStage.

Otra razón importante es que la depuración y el manejo de errores son mucho mejores en Informatica en comparación con Datastage. Por lo tanto, la solución de problemas se vuelve más fácil en Informatica. Datastage no proporciona soporte completo para el manejo de errores.

=> ¿Quiere saber más sobre Informatica? Tenemos una explicación detallada aquí.

P # 25) Dé una idea de las variables del sistema.

Respuestas: Las variables del sistema son las variables de solo lectura que comienzan con ‘@’ que puede leerse mediante la etapa del transformador o la rutina. Se utilizan para obtener la información del sistema.

P # 26) ¿Cuál es la diferencia entre la etapa pasiva y la etapa activa?

Respuestas: Las etapas pasivas se utilizan para la extracción y la carga, mientras que las etapas activas se utilizan para la transformación.

¿Cómo abro un archivo torrentado?

P # 27) ¿Cuáles son los distintos tipos de contenedores disponibles en Datastage?

Respuestas: Tenemos debajo de 2 contenedores en Datastage:

Contenedor local
Contenedor compartido

P # 28) ¿El valor de la variable de ensayo se almacena temporal o permanentemente?

Respuestas: Temporalmente. Es una variable temporal.

P # 29) ¿Cuáles son los diferentes tipos de trabajos en Datastage?

Respuestas: Tenemos dos tipos de trabajos en Datastage:

Trabajos del servidor (se ejecutan de forma secuencial)
Trabajos paralelos (se ejecutan de forma paralela)

P # 30) ¿Cuál es el uso del director de Datastage?

Respuestas: A través del director de Datastage, podemos programar un trabajo, validar el trabajo, ejecutar el trabajo y monitorear el trabajo.

P # 31) ¿Cuáles son los distintos tipos de archivos hash?

Respuestas: Tenemos 2 tipos de archivos hash:

Archivo hash estático
Archivo hash dinámico

Q # 32) ¿Qué es una etapa de calidad?

Respuestas: La etapa de calidad (también llamada etapa de integridad) es una etapa que ayuda a combinar los datos provenientes de diferentes fuentes.

Conclusión

Debe tener un conocimiento práctico sobre la arquitectura de Datastage, sus características principales y debe poder explicar en qué se diferencia de algunas otras herramientas ETL populares.

Adicionalmente , Debería tener una idea clara sobre las diferentes etapas y su uso, una forma integral de crear un trabajo de Datastage y ejecutarlo.

Lectura recomendada => ¿Qué son las pruebas ETL?

¡Todo lo mejor!

Las 32 mejores preguntas y respuestas de las entrevistas de Datastage

Preguntas y respuestas más comunes de las entrevistas de Datastage

Conclusión

Lectura recomendada

Artículos De Interés

La Elección Del Editor

Overwatch 2 atrae a 35 millones de jugadores en su primer mes

Pac-Man Championship Edition 2 Plus es una diversión desordenada

Demon Slayer: The Hinokami Chronicles alcanza el millón de ventas en el mes de lanzamiento

Pikmin 4 saca una fecha de lanzamiento del 21 de julio

Ese portátil 'falso' Neo Geo es real, se envía Q2

El sitio de Medal of Honor quiere que compres algunas armas

Cómo dejar la matriz y comprobar el Mantis en Jedi Survivor

BioWare continúa suavizando Mass Effect: Andromeda

El código de red de reversión de Dragon Ball FighterZ llega esta semana

El reabastecimiento de amiibo de Zelda podría coincidir con el próximo lanzamiento de Zelda: Tears of the Kingdom

Los pedidos de Steam Deck de Valve comenzarán a implementarse en febrero

Cómo solucionar el error de resolución en Granblue Fantasy Versus: Rising