Cómo implantar un clúster CDH en Skytap Cloud

Es posible que haya visto el reciente anuncio de Skytap sobre la disponibilidad de plantillas pre-configuradas CDH4 en la biblioteca pública Skytap Cloud. Así que para cualquiera que quiera probar un cluster Hadoop Cloudera (sea del tamaño que sea) ahora se puede lograr fácilmente en Skytap Cloud. Matt Sousely de Skytap explica cómo hacerlo a continuación:

por Matt Sousley, 23 de enero de 2013 (Artículo original: How-to: Deploy a CDH Cluster in Skytap Cloud)

El objetivo de este ejemplo será poner en funcionamiento un clúster Cloudera Hadoop en Skytap Cloud. Para empezar, vamos a hablar de las dos nuevas plantillas de clúster Cloudera Hadoop. La primera es clúster Hadoop Cloudera CDH4: una plantilla de 2 nodos del clúster Hadoop. Dispone de 2 nodos y un nodo de gestión / servidor. La segunda es la plantilla host Cloudera CDH4. Esta segunda plantilla no está diseñada para funcionar por sí misma en una configuración, en su lugar, contiene una máquina virtual host que está lista para convertirse en otro nodo del cluster Hadoop enel cluster Cloudera CDH4 Hadoop basado en plantillas.

Para empezar, pongamos en marcha el clúster Cloudera Hadoop.

 

 

  1. Log in en Skytap Cloud
  2. Seleccione "Templates tab"
  3. En el campo de búsqueda escriba hadoop
  4. Seleccione Cloudera CDH4 Hadoop cluster
  5. Click en New Configuration
  6. Click en Run

 

Una vez que todas las máquinas virtuales arranquen (en unos 90 segundos), estarán funcionando los servicios habituales de un clúster Hadoop Cloudera  (HDFS, HBase, Hue, MapReduce, oozie y Zookeeper). Es un clúster de 2 nodos (host 1 y 2) con un servidor de gestión (manager). Mientras que un clúster de 2 nodos es suficiente para ponerse en marcha con Cloudera Hadoop, en Skytap Cloud es posible ajustarlo a un clúster de cualquier tamaño. En esta entrada del blog vamos a ampliar esto a un grupo de 10 nodos.

 

El Administrador de Cloudera se encuentra alojado en la máquina virtual de administrador en el puerto 7180. Sin embargo, ninguna de las máquinas virtuales en esta configuración tiene un navegador web, por lo que necesitamos una manera de interactuar con el Administrador de Cloudera. Se puede lograr de diferentes maneras: 1) Utilizando un servicio Skytap publicado, 2) Usando ICNR (inter-configuration network routing) con una configuración que tenga un navegador web gráfico 3) Utilizando una dirección IP pública, o 4) Usando Skytap VPN para conectar la red local a esta configuración. Para su uso en producción, VPN es probablemente su mejor apuesta, pero para esta entrada de blog vamos a utilizar un servicio publicado. Para agregar el servicio publicado, haga lo siguiente:

  1. Click en Settings.
  2. Click en VM Settings.
  3. Seleccione manager en el menú Select a VM.
  4. Debajo de Network Adapters elija Add Published Service.
  5. En el desplegable, seleccione By Port:
  6. Escriba 7180.
  7. Click en Add Published Service.
  8. Expanda el link Show Published Services y fíjese en la url el número de puerto. Ejemplo –services.cloud.skytap.com:25693

Ahora puede poner la URL en el navegador web local y obtener la página de inicio de sesión del Cloudera Manager (Free Edition). A continuación, debería ser capaz de utilizar el nombre de usuario 'admin' y la contraseña se encuentra en la ficha Credenciales de los ajustes de VM Manager para la cuenta 'admin'.

Ahora que todo está funcionando, puede acceder al Cloudera Manager, y una vez loggeado, es el momento de expandir nuestro clúster de 2 nodos a 10. Para hacer esto:

 

  1. Click en Back to configuration para restaurar la configuración de 2 nodos.
  2. Click en Add VMs.
  3. En el campo de texto escriba hadoop.
  4. Seleccione Cloudera CDH4 Hadoop host.
  5. Click en Add.
  6. Repita los pasos 2-5 otras 7 veces (para que nuestro host cuente más de 10).
  • Tenga en cuenta que aunque los títulos para todos estos nuevos nodos aparecen como ‘host-n’ sus nombres de red han sido incrementados de forma automática.
  • Opcionalmente, para hacer la configuración más sencilla de visualizar, puede renombrar todos los "node hosts" de host-n a su correspondiente número de host "host-x".
  • Click en Run.
  • Después de alrededor de 90 segundos, todo empezará a ejecutarse y tendremos todos los hosts que necesitamos para nuestro clúster de 10 nodos. Ahora es el turno de volver al Cloudera Manager para terminar de configurar los nodos.

    1. Vuelva al Cloudera Manager. (Nota: puede necesitar loggearte de nuevo).
    2. Click en Hosts en la parte superior de la página.
    3. Click en Add Hosts.
    4. Click en Continue.
    5. En el campo de búsqueda, escriba host-[3-10].hadoop.local
    • Esto buscará el DNS para realizar el ping y encontrar los nuevos nodos host.
  • Deje todos los hosts seleccionados y haga click en Install CDH on selected hosts.
  • Mantenga todos los campos por defecto en la siguiente página y haga click en Continue.
  • Deje por defecto los "radio button" y utilice el password (root) que encontrará en la tabla de credenciales de cualquiera de las máquinas viruales host-n. (Nota: Todos tienen el mismo password.)
  • Click en Start Installation.
    • Espere a que termine la instalación en todos los nodos. (Nota: puede tomar 10-15 minutos).
    • Si por alguna razón, el tiempo de espera de la página expira, o simplemente algo no parece estar bien, puede realizar de nuevo los pasos 2-9 para comprobar que todo el software fue instalado correctamente.
  • Cuando finalice la instalación haga click en Continue.
  • El UI inspeccionará ahora todos los hosts.
    • Todos los hosts deberían aparecer en color verde. (Nota: Está bien si tiene un indicador amarillo relativo a que las versiones no coinciden).
  • Si todo parece correcto, haga click en Continue.
    • Si no parece correcto, realice de nuevo los pasos 2-11 de nuevo.
  • Click en Continue para terminar con el Wizard.
    • Debería dirigirle a la página de hosts donde todos sus hosts (del 1 al 10 y el manager) deberían aparecer en correcto funcionamiento.

    Llegados a este punto, tenemos un clúster Cloudera Hadoop de 10 nodos. pero queremos poner estos nuevos nodos a trabajar al igual que los nodos 1 y 2. Para conseguir esto:

     

    1. Click en Cloudera Manager (Free Edition) en la parte superior de la página UI. Esto le llevará de nuevo a la página de servicios.
    2. Click en el triángulo invertido al lado de cada servidor, después click en Instances.
    3. Click en Add.
    4. En la view de Add Role Instances, revise los mismos campos para hosts 3-10 que son revisados por los hosts 1 y 2.
    • En el caso de HDFS, esta será la columna ‘region server’.
  • Click en Continue.
  • Click en Accept.
    • Espere a que se completen los comandos.
  • Repita los pasos 1-6 para los diferentes servicios.
    • Nota: algunos servicios puede que no utilicen los nodos 1 y 2, en ese caso puede, con seguridad, dejar también fuera los nodos 3-10. Por ejemplo, el servicio Hue está alojado sólo en el VM manager y no existe configuración para los nodos 1 y 2. Si quisiera configurar el manager como tolerante a fallos, querrá seguir los pasos de este blog para crear un segundo "manager node" que sea exactamente igual al ya existente.

    Y aquí lo tiene, un clúster Cloudera Hadoop de 10 nodos.

    Matt es el Manager/Developer of Public Templates en Skytap. Empezó a crear contenido para NetIQ en su producto Operations Manager (más tarde fue comprado por Microsoft y llamado MOM) así como su producto AppManager. Trabajó tamb ién para iConclude/Opsware/HP y FullArmor.