4 ขั้นตอนในการทำ Big Data Project ให้ประสบความสำเร็จ

วิธีที่จะช่วยให้องค์กรได้รับมุมมองแบบ end-to-end เกี่ยวกับ Data Pipeline ของพวกเขา

หนึ่งในเทคโนโลยีที่ทำให้ธุรกิจมากมายประสบความสำเร็จนั่นก็คือ Big Data ด้วยข้อมูลจำนวมหาศาลที่อยู่ในมือ โดยที่พวกเขาสามารถนำมันมาประมวลผลและวิเคราะห์เพื่อนำผลที่ได้มาสร้างมูลค่าทางธุรกิจ และใช้ในการแก้ปัญหาสำคัญๆ ในขณะที่ เครื่องมือทั้งหมดของระบบนิเวศ (Ecosystem) ได้มีการพัฒนาขึ้นมาในช่วงเวลาที่ไล่เลี่ยกันกับ Hadoop เพื่อช่วยในการวิเคราะห์และจัดการกับข้อมูลนั้น แต่เครื่องมือต่างๆ เหล่านั้นก็มีความเชี่ยวชาญเพียงแค่บางส่วนของกระบวนการที่มีขนาดใหญ่นี้

เมื่อองค์กรสามารถใช้ประโยชน์จาก Hadoop ได้อย่างมีประสิทธิภาพ อาจจะส่งผลให้ศักยภาพทางด้านไอทีและผลประโยชน์ที่องค์กรจะได้รับ (Business Benefit) มีขนาดใหญ่เป็นพิเศษ ซึ่งก็เช่นเดียวกับเทคโนโลยีอื่นๆ ที่เพิ่งจะเริ่มมีการพัฒนาอย่างเต็มที่ โดยมีอุปสรรคในการเข้ามาเป็นคู่แข่งรายใหม่จึงกลายเป็นเรื่องที่ท้าทาย โดยเฉพาะในเรื่องของการนำ Hadoop ไปใช้เป็นเครื่องมือในการวิเคราะห์ผลการดำเนินงานตามแนวคิดมูลค่าเพิ่ม (Value-Added Analytics) ได้สำเร็จ

เพื่อให้ได้ประโยชน์สูงสุดจาก Hadoop องค์กรต่างๆ จำเป็นที่ต้องหยุดเพื่อทบทวน และทำการตรวจวิเคราะห์เกี่ยวกับ Data Pipeline ของพวกเขา โดยใช้มุมมองแบบ end-to-end โดยที่องค์กรควรที่จะต้องรักษาหลักการสำคัญ ดังต่อไปนี้

1.มั่นใจได้ถึงวิธีการที่ยืดหยุ่นและปรับขนาดได้เพื่อการนำข้อมูลเข้า (Data Ingestion) อย่างมีประสิทธิภาพ

โดยทั่วไปแล้ว ขั้นตอนแรกใน Data Pipeline ขององค์กรนั้น จะเกี่ยวข้องกับระบบต้นทางของการสื่อสารข้อมูล (Source Systems) และข้อมูลดิบ (Raw Data) โดยจะถูกส่งถ่ายข้อมูลจากต้นทางมายังปลายทาง (Ingest), ผสมผสาน (Blended) และวิเคราะห์ (Analyze) ในที่สุด และจากประสบการณ์ทางการตลาดเราสามารถบอกได้ว่า ข้อมูลเชิงลึกที่สำคัญที่สุดนั้นเกิดจากการผสมผสานของข้อมูลที่หลากหลาย ซึ่งในตอนแรกอาจจะถูกแยกเก็บใน Silo ซึ่งเป็นการเก็บแบบแยกส่วนตามโครงสร้างขององค์กร ที่จะต้องทำการรวบรวมจากทั่วทั้งองค์กร

ในปัจจุบัน องค์กรไม่เพียงแต่จะต้องเตรียมพร้อมสำหรับข้อมูลที่พวกเขาวางแผนที่จะรวมเข้ากับ Hadoop แล้ว แต่พวกเขายังมีข้อมูลที่จะต้องจัดการสำหรับ Use Cases อื่นๆ ที่เป็นไปได้ในอนาคต รวมถึงการวางแผนเพื่อลดภาระ (Effort) งานที่จะต้องทำในลักษณะ Manual ในขณะที่พวกเขายังต้องมองหาการออกแบบเวิร์กโฟลว์การนำเข้าข้อมูล เพื่อสร้างวิธีการแบบไดนามิก (Dynamic) และสามารถนำข้อมูลกลับมาใช้ใหม่ได้

2.ขับเคลื่อนการประมวลผลและการทำ Data Blending ข้อมูลที่มีขนาดใหญ่

เมื่อองค์กรประสบความสำเร็จในการดึงข้อมูลที่หลากหลายเข้าสู่ Hadoop ในรูปแบบที่ยืดหยุ่นและปรับขนาดได้แล้วนั้น ขั้นตอนต่อไป ก็จะนำไปสู่ขั้นตอนของการประมวลผล (Processing), การแปลงสภาพข้อมูล (Transforming) และการทำ Data Blending กับข้อมูลที่มีขนาดใหญ่บนคลัสเตอร์ของ Hadoop

นอกจากนี้ การวิเคราะห์ข้อมูลจาก Big data ยังต้องอาศัยหลักการพื้นฐานและเทคนิคบางอย่าง ในการดึงข้อมูลสำคัญออกจากชุดฐานข้อมูลขนาดใหญ่ซึ่งเต็มไปด้วยข้อมูลหลากหลายรูปแบบ เพื่อให้ได้มาซึ่งข้อมูลที่เป็นประโยชน์ทางธุรกิจ ไม่ว่าจะด้วยการใช้ Hadoop หรือเครื่องมืออย่างอื่นก็ตาม ดังนั้น การบำรุงรักษาและพัฒนาแอพพลิเคชั่นที่ใช้ข้อมูลจำนวนมากเหล่านี้ จึงกลายเป็นสิ่งที่ทุกคนสามารถเข้าถึงได้ นอกเหนือไปจากกลุ่มเล็กๆ ของผู้เชี่ยวชาญด้านการเขียนโค้ด เท่านั้น

ในโลกที่เต็มไปด้วยข้อมูลขนาดใหญ่ (Big Data) ที่มีการพัฒนาไปอย่างรวดเร็ว แผนกไอทีก็ยังต้องรักษาและออกแบบการแปลงสภาพของข้อมูล (Data Transformation) โดยที่ไม่ต้องกังวลกับการเปลี่ยนแปลงของโครงสร้างต้นแบบ (Underlying Structure) แทนที่จะใช้กล่องดำ (Black Box) เป็นแนวทางในการแปลงสภาพของข้อมูลบน Hadoop แต่องค์กรควรที่จะต้องพยายามหาแนวทางที่เป็นการผสานรวมระหว่างการการควบคุม (Control) และความสามารถในการมองเห็น (Visibility) ในเชิงลึก ที่จะช่วยให้การใช้งานง่ายยิ่งขึ้น

3.การส่งมอบข้อมูลเชิงลึกที่สมบูรณ์ เกี่ยวกับการวิเคราะห์ข้อมูลขนาดใหญ่ (Big Data Analytic) ไปยังธุรกิจ

สิ่งสำคัญที่จะช่วยปลดล็อคการวิเคราะห์ เพื่อให้ได้มาซึ่งข้อมูลที่เป็นประโยชน์สูงสุดจาก Hadoop นั่นก็คือ การพิจารณาอย่างรอบคอบถึงผู้ใช้ทางธุรกิจที่เกี่ยวข้องทั้งหมด ซึ่งก็รวมถึงกระบวนการทางธุรกิจและแอปพลิเคชั่นต่างๆ (ทั้งภายในและภายนอก) ที่มีส่วนเกี่ยวข้องกับโครงการ โดยข้อมูลผู้บริโภคที่แตกต่างกันนั้นก็อาจจำเป็นที่จะต้องใช้เครื่องมือและวิธีการที่แตกต่างกัน ทั้งนี้ก็ต้องขึ้นอยู่กับความต้องการข้อมูลและระดับความซับซ้อนของพวกเขา

ในขณะที่นักวิทยาศาสตร์ด้านข้อมูลและนักวิเคราะห์ที่มีความเชี่ยวชาญขั้นสูง เริ่มทำการสืบค้นและสำรวจชุดข้อมูลแบบผสมผสานใน Hadoop พวกเขามักจะใช้คลังข้อมูล (Data Warehouse) และเทคโนโลยีประมวลผลสำหรับ Hadoop ที่เป็นภาษาคล้าย SQL (SQL-like) เช่น Hive (ที่ทำหน้าที่ในการแปล SQL like ให้มาเป็น MapReduce) และ Impala (ซึ่งเป็นเครื่องมือที่คล้ายกับ Hive) นับว่าโชคดีที่เครื่องมือเหล่านี้ใช้เวลาในการเรียนรู้ไม่นาน เนื่องจากมันเป็นภาษาที่ใช้สำหรับค้นหาข้อมูลจากฐานข้อมูลหรือ Query Language (QL) ที่เราคุ้นเคยนั่นเอง

นี่ก็เป็นหนึ่งสถานการณ์ ที่การพิจารณา Hadoop จะเป็นส่วนหนึ่งที่สำคัญของการทำ Analytic Pipeline ที่กว้างขึ้น โดยเฉพาะในหลายๆ องค์กรที่คุ้นเคยกับฐานข้อมูลเชิงสัมพันธ์ (Relational Databases) ที่มีประสิทธิภาพสูง ที่ได้รับการปรับเพื่อให้เหมาะสำหรับการวิเคราะห์ของผู้ใช้ปลายทางแบบโต้ตอบ (Interactive) หรือเป็นที่รู้จักกันในชื่อของ "ฐานข้อมูลเชิงวิเคราะห์" (Analytic Databases) ซึ่งองค์กรต่างๆ เหล่านี้พบว่า การส่งมอบชุดข้อมูลที่ได้รับการปรับปรุงจาก Hadoop ไปยังฐานข้อมูลเหล่านี้ เป็นอีกหนึ่งวิธีที่จะช่วยให้การปลดปล่อยพลังการประมวลผลของ Hadoop มีประสิทธิภาพมากยิ่งขึ้น

4.ใช้วิธีการ "มุ่งเน้นไปที่วิธีการแก้ปัญหา" (Solution-Oriented) เป็นสำคัญ

ในช่วงไม่กี่ปีที่ผ่านมา ความก้าวหน้าหลายๆ อย่างได้ถูกสร้างขึ้นใน Hadoop Ecosystem ขณะที่มันก็ยังคงเติบโตในฐานะของแพลตฟอร์มเพื่อการปรับใช้กับองค์กรการผลิต (Production Enterprise) ในส่วนของข้อกำหนดต่างๆ ที่เกี่ยวกับโครงการริเริ่มด้านเทคโนโลยีขององค์กร (Technology Initiatives) มีแนวโน้มที่จะได้รับการพัฒนาและอยู่ในช่วงของการ "กำลังดำเนินการ" (Works in Progress) ซึ่ง Hadoop ก็ได้แสดงให้เห็นถึงองค์ประกอบใหม่ที่สำคัญใน Data Pipeline ที่กว้างขึ้น และความคิดริเริ่มที่เกี่ยวข้อง ซึ่งตามปกติแล้วจะต้องมีวิธีการแบบค่อยเป็นค่อยไป (Phased Approach)

ผู้ประเมินซอฟต์แวร์ต่างก็รู้ว่า พวกเขาจะไม่สามารถพบกับอุปกรณ์แม้แต่ชิ้นเดียวที่มีทุกอย่างพร้อม ( Off-the-shelf ) เพื่อที่จะตอบสนองความต้องการด้านข้อมูลและการวิเคราะห์ของ Hadoop ได้ทั้งหมด ทั้งในปัจจุบันและในอนาคตข้างหน้า ซึ่งในปัจจุบันนี้คำว่า "รองรับอนาคต" (Future-proof) ได้ถูกนำมาใช้มากเกินไปในเรื่องที่เกี่ยวกับ Big Data แต่ยังมีสิ่งที่ต้องคำนึงถึงนั่นก็คือ ความสามารถในการขยายระบบและความยืดหยุ่นเพื่อรองรับการทำงานที่สูงขึ้น ซึ่งทั้งสองอย่างนี้ควรจะเป็นส่วนสำคัญของแบบสำรวจรายการ (Checklist) ของโครงการทั้งหมด

อย่างไรก็ตาม ความสามารถในการแปลงสภาพข้อมูล (Transformations) เพื่อให้ทำงานได้อย่างราบรื่น ด้วยการแบ่งไฟล์ออกเป็นไฟล์ย่อยๆ ที่เรียกว่า Block แล้วนำไปเก็บกระจายตาม Node ต่างๆ ที่ถูกจัดอยู่ในรูปแบบ Cluster เพื่อนำไปสู่ความสามารถในการรองรับข้อมูลที่ไม่จำกัดของ Hadoop นั้น เป็นเพียงจุดเริ่มต้น แต่ความคงทน (Durability) ที่แท้จริงของข้อมูลนั้น จำเป็นต้องใช้วิธีการโดยรวมของแพลตฟอร์ม เพื่อให้มีความยืดหยุ่นที่สอดคล้องกับนวัตกรรมแบบเปิด (Open Innovation) ที่ขับเคลื่อนด้วย Hadoop Ecosystem