5 ขั้นตอนในการทำ Big Data Project ให้ประสบความสำเร็จ

วิธีที่จะช่วยให้องค์กรเห็นมุมมองแบบ end-to-end เกี่ยวกับ Data Pipeline ของพวกเขา

Big Data มีศักยภาพในการสร้างมูลค่าทางธุรกิจเพื่อเพิ่มผลกำไรและสามารถใช้ในการแก้ปัญหาสำคัญๆ ของธุรกิจได้ ในขณะที่เครื่องมือทั้งหมดในระบบนิเวศ (Ecosystem) ได้ผุดขึ้นมาไล่เลี่ยกันกับ Hadoop เพื่อการวิเคราะห์และจัดการกับข้อมูล แต่เครื่องมือเหล่านั้นกลับมีความเชี่ยวชาญที่น้อยกว่าและช่วยได้เพียงส่วนหนึ่งเท่านั้นหากเป็นกระบวนการขนาดใหญ่
เมื่อองค์กรสามารถใช้ประโยชน์จาก Hadoop ได้อย่างมีประสิทธิภาพจะทำให้เกิดศักยภาพทางธุรกิจและผลกำไรทางด้านไอทีมากเป็นพิเศษเช่นเดียวกับเทคโนโลยีใดๆก็ตามที่มีการพัฒนาอย่างเต็มที่ก็จะทำให้เกิดอุปสรรคต่อการเข้ามาเป็นคู่แข่งรายใหม่ในตลาด โดยเฉพาะในเรื่องของการนำ Hadoop ไปใช้เป็นเครื่องมือในการวิเคราะห์ผลการดำเนินงานตามแนวคิดมูลค่าเพิ่ม (Value-Added Analytics)เพื่อให้ได้ประโยชน์สูงสุดจากHadoop ดังนั้นองค์กรต่างๆ จึงจำเป็นที่ต้องทบทวนและทำการตรวจวิเคราะห์เกี่ยวกับ Data Pipeline ของพวกเขาโดยใช้มุมมองแบบ end-to-end ตามวิธีดังต่อไปนี้

1: รับรองการส่งผ่านข้อมูลที่ยืดหยุ่นและปรับขนาดได้

ขั้นตอนแรกของ Data Pipeline ในองค์กรนั้นเกี่ยวข้องกับระบบต้นทางการสื่อสารข้อมูล (Source Systems) และข้อมูลดิบ (Raw Data) โดยจะส่งข้อมูลจากต้นทาง(Ingest)ผสมผสาน (Blended)และวิเคราะห์ข้อมูล (Analyze) การผสมสานของข้อมูลที่หลากหลายจากไซโลทั่วทั้งองค์กรนั้นมักนำไปสู่ข้อมูลเชิงลึกที่สำคัญที่สุด
ด้วยเหตุนี้ ความสามารถในการใช้ประโยชน์จากชนิดข้อมูลที่หลากหลายรูปแบบ และแหล่งที่มา จึงเป็นสิ่งจำเป็นที่สำคัญมากในโครงการข้อมูลและการวิเคราะห์ของHadoop
ในปัจจุบัน องค์กรไม่เพียงแต่จะต้องเตรียมพร้อมข้อมูลที่พวกเขาวางแผนจะรวมเข้ากับHadoopแต่พวกเขาจำเป็นต้องเตรียมข้อมูลที่สำหรับการใช้งานอื่นๆ ที่อาจเป็นไปได้ในอนาคตรวมถึงการวางแผนเพื่อลดภาระงานที่ต้องทำเองด้วยตนเอง วางแผนรูปแบบการนำเข้าข้อมูลที่สามารถใช้ซ้ำได้และการออกแบบเวิร์กโฟลว์การนำเข้าข้อมูลแบบไดนามิกที่เป็นส่วนสำคัญของสิ่งนี้

2: ขับเคลื่อนการประมวลผลและการผสมผสานข้อมูลขนาดใหญ่

เมื่อองค์กรประสบความสำเร็จในการดึงข้อมูลอันหลากหลายเข้าสู่ Hadoop ในรูปแบบที่ยืดหยุ่นและปรับขนาดได้แล้วนั้น ขั้นตอนต่อไป ก็จะนำไปสู่ขั้นตอนของการประมวลผล (Processing) การแปลงสภาพข้อมูล (Transforming) และการผสมผสานข้อมูล (Data Blending) กับข้อมูลที่มีขนาดใหญ่บนคลัสเตอร์ของHadoop
การวิเคราะห์ข้อมูลจาก Big data ยังต้องอาศัยหลักการพื้นฐานและเทคนิคบางอย่าง จึงมีระดับของความเป็นนามธรรมที่ต่างจาก Hadoop หรือเครื่องมืออื่นๆ ดังนั้นการบำรุงรักษาและพัฒนาแอพพลิเคชั่นที่ใช้ข้อมูลจำนวนมากจึงกลายเป็นสิ่งที่ทุกคนสามารถเข้าถึงได้ง่ายกว่า ไม่ได้จำกัดเพียงกลุ่มเล็กๆ ของผู้เชี่ยวชาญด้านการเขียนโค้ดเท่านั้น
ในโลกที่ Big Data มีการพัฒนาไปอย่างรวดเร็ว แผนกไอทีก็ยังต้องรักษาและออกแบบการแปลงสภาพของข้อมูล (Data Transformation) โดยไม่ต้องกังวลกับการเปลี่ยนแปลงโครงสร้างพื้นฐาน องค์กรควรพยายามหาแนวทางที่เป็นการผสานรวมระหว่างการการควบคุม ความสามารถในการมองเห็นข้อมูลในเชิงลึกและการใช้งานที่ง่ายขึ้น แทนที่การใช้กล่องดำ (Black Box) ในการแปลงข้อมูลบน Hadoop

3: ส่งมอบข้อมูลเชิงลึกเกี่ยวกับการวิเคราะห์Big Data ที่สมบูรณ์

สิ่งสำคัญที่จะช่วยปลดล็อคการวิเคราะห์เพื่อให้ได้มาซึ่งข้อมูลที่เป็นประโยชน์สูงสุดจากHadoop นั่นก็คือ การพิจารณาอย่างรอบคอบเกี่ยวกับกระบวนการทางธุรกิจแอพพลิเคชั่นและผู้ใช้ปลายทาง โดยข้อมูลผู้บริโภคที่แตกต่างกันนั้นก็อาจจำเป็นที่จะต้องใช้เครื่องมือและวิธีการที่แตกต่างกัน ทั้งนี้ก็ขึ้นอยู่กับว่าพวกเขานั้นต้องการข้อมูลอะไร แผนต่างๆที่พวกเขาวางไว้สำหรับข้อมูลเหล่านั้น และมีระดับความซับซ้อนแค่ไหน
ในขณะที่นักวิทยาศาสตร์ด้านข้อมูลและนักวิเคราะห์ที่มีความเชี่ยวชาญขั้นสูง พวกเขาเริ่มทำการสืบค้นและสำรวจชุดข้อมูลในHadoopโดยพวกเขามักจะใช้คลังข้อมูล (Data Warehouse) และเทคโนโลยีประมวลผลเลเยอร์คล้ายSQL (SQL-like) เช่น Hive (ที่ทำหน้าที่ในการแปลSQL like ให้มาเป็น MapReduce) และ Impala (ซึ่งเป็นเครื่องมือที่คล้ายกับ Hive) นับว่าโชคดีที่เครื่องมือเหล่านี้ใช้เวลาในการเรียนรู้ไม่นาน เนื่องจากมันเป็นภาษาที่ใช้สำหรับค้นหาข้อมูลจากฐานข้อมูลหรือ Query Language (QL) ที่คุ้นเคย ฐานข้อมูล NoSQL ที่มีประสิทธิภาพสูงและปรับขนาดได้นั้นมีการใช้งานควบคู่กับHadoop มากขึ้น การรวบรวมBig Data จากเว็บมือถือและปริมาณงานของIoT นั้นได้ถูกสร้างในระบบ NoSQL ก่อนที่จะถูกส่งเข้าสู่ซอฟต์แวร์Hadoop ในทางกลับกัน ปริมาณงานแบตช์และสตรีมมิ่งการวิเคราะห์ที่ประมวลผลโดยHadoop ก็สามารถแชร์กับระบบ NoSQL ได้ การเพิ่มขึ้นของระบบNoSQL ที่เข้าคู่กับมูลค่าของBig Data ทำให้องค์กรต่างๆ เริ่มแสวงหาผู้เชี่ยวชาญด้านไอทีที่มีทักษะเกี่ยวกับ NoSQLและ Hadoop เพื่อให้ได้ประโยชน์สูงสุดจาก Big Data ของพวกเขา ดังนั้นการพิจารณาให้ Hadoop เป็นส่วนในการขยายAnalytic Pipeline จึงเป็นสิ่งสำคัญมาก ธุรกิจจำนวนมากคงคุ้นเคยกับฐานข้อมูลประสิทธิภาพสูงที่ปรับให้เหมาะสำหรับการวิเคราะห์ผู้ใช้ปลายทางหรือที่รู้จักกันดีว่า ‘ฐานข้อมูลการวิเคราะห์’ (Analytic Databases) องค์กรเหล่านี้ได้พบว่าการส่งมอบชุดข้อมูลที่ได้รับการแก้ไขจากHadoop ไปยังฐานข้อมูลที่กล่าวมานั้น เป็นวิธีที่มีประสิทธิภาพสูงในการปลดปล่อยพลังการประมวลผลของHadoop

4. ใช้แนวทางเชิงโซลูชัน (Solution-Oriented)

ในช่วงไม่กี่ปีที่ผ่านมา ความก้าวหน้าหลายๆ อย่างได้ถูกสร้างขึ้นในระบบนิเวศ(Ecosystem)Hadoop และยังคงเติบโตในฐานะของแพลตฟอร์มเพื่อการปรับใช้กับองค์กรการผลิต (Production Enterprise) ในส่วนของข้อกำหนดสำหรับความคิดริเริ่มด้านเทคโนโลยีนั้นมีแนวโน้มที่จะได้รับการพัฒนาและอยู่ในช่วงของการ "กำลังดำเนินการ" ซึ่ง Hadoopก็ได้แสดงให้เห็นถึงองค์ประกอบใหม่ใน Data Pipeline ที่กว้างขึ้น ผลที่ตามมาก็คือความคิดริเริ่มที่เกี่ยวข้องใหม่ๆนั้นมักจะมีวิธีการแบบค่อยเป็นค่อยไป (Phased Approach)
เมื่อคำนึงถึงเรื่องนี้แล้ว ผู้ประเมินซอฟต์แวร์ต่างก็รู้ว่าพวกเขาไม่สามารถพบกับอุปกรณ์ที่มีทุกอย่างครบครัน ( Off-the-shelf )เพื่อตอบสนองความต้องการด้านข้อมูลและการวิเคราะห์ของ Hadoopได้ ทั้งในปัจจุบันและในอนาคตข้างหน้า ซึ่งในปัจจุบันนี้คำว่า "รองรับอนาคต" (Future-proof) ได้ถูกนำมาใช้มากเกินไปในเรื่องที่เกี่ยวกับBig Data แต่ยังมีสิ่งที่ต้องคำนึงถึงนั่นก็คือ ความสามารถในการขยายระบบและความยืดหยุ่นเพื่อรองรับการทำงานที่สูงขึ้น ซึ่งทั้งสองอย่างนี้ควรจะเป็นส่วนสำคัญของแบบสำรวจรายการ (Checklist) ของโครงการทั้งหมด
การแปลงพอร์ตเพื่อให้ทำงานได้อย่างราบรื่นผ่านการกระจาย Hadoop ที่แตกต่างกันเป็นจุดเริ่มต้นของศักยภาพที่ดี แต่ความยั่งยืนที่แท้จริงนั้น องค์กรจำเป็นต้องมีแพลตฟอร์มเพื่อความยืดหยุ่นอันสอดคล้องกับนวัตกรรมแบบเปิดที่ขับเคลื่อนระบบนิเวศ(Ecosystem)Hadoop

5: เลือกผู้ขายที่เหมาะสม

กระแสของBig Data ส่งผลให้ผู้ให้บริการโซลูชันหลั่งไหลเข้าพื้นที่ตลาดกันอย่างท่วมท้น แพ็คเกจที่พวกเขาเสนอนั้นอาจแตกต่างกันอย่างหลากหลาย ซึ่งมีตั้งแต่เครื่องมือทางสถิติอย่างง่ายไปจนถึงแอปพลิเคชันการเรียนรู้เครื่องจักรขั้นสูง
องค์กรจึงควรระบุประเภทข้อมูลที่พวกเขาจะประมวลผลเพื่อเลือกเทคโนโลยีที่รองรับพวกเขา แพลตฟอร์มที่น่าพึงพอใจนั้นจำเป็นต้องเข้ากันได้ดีกับเครื่องมือวิเคราะห์ที่มีอยู่ โดยให้การเข้าถึงกับพนักงานที่พวกเขาต้องการและมีความยุ่งยากน้อยที่สุดต่อเวิร์กโฟลว์
ผู้ให้บริการ NoSQL และ Hadoop บางรายกำลังร่วมมือกันจัดทำข้อเสนอที่ครอบคลุม รวบรวมระบบของพวกเขาเพื่อเพิ่มความคล่องตัวในการเลื่อนไหลระหว่างระบบโครงสร้างและซอฟต์แวร์ สิ่งนี้ยังช่วยลดความยุ่งยากให้กับลูกค้าเนื่องจากพวกเขาสามารถจัดการกับทุกอย่างได้ในจุดๆ เดียว