當前位置 首頁 > 就業指導 > 面試須知 > 海量數據處理面試題
海量數據處理面試題
作者: 時間:2017/10/18 閱讀:

在處理海量數據問題時,首先要仔細分析問題,明白問題需要解決那些關鍵問題,明白需要達到怎樣的存儲、性能要求,在這之前,應充分理解業務數據的分布、數據粒度、數據服務的質量要求、數據的動態性、數據的關聯性等真實數據、業務熟悉。通常我認為,處理海量數據問題時,心中要有一些基本概念:

1. 現有的開源的優秀工具那些是處理海量數據的;

2. 海量數據就因為數據大嗎,可以考慮對海量數據進行分區操作;

3. 加快海量數據的訪問,數據索引必不可是;

4. 內存總是有限的,內存的速度是最好的,建立緩存機制是十分必要的;

5. 海量數據來源多樣,數據格式也不相同,最好是統一為字符串處理,邏輯處理交給上層應用;

6. 海量數據離不開集群、分布式,分布式的出錯處理、負載均衡就必然要有一套可行的機制;

7. 所有底層的問題或者說存儲的問題解決了,未來方便上層應用或者夸大底層支持的業務,對外應該有一個明朗的邏輯視圖;

8. 系統設計和結構,會因為不同的語言、操作性在實現難以上不同,這也需要考慮;

9. 海量數據的一個應用就是數據挖掘服務,多域數據來源統一管理下,數據倉庫和相關計算也應該了解一二;

10. 盡管說存儲不是問題,如果能對數據進行壓縮處理,又可以接受的性能,這何樂而不為呢。

在參考前人博客、文摘加上個人一點理解,匯總以下一些基礎概念已幫助和我一樣面臨就業的學生,應對未來公司的面試考核。當然,有實際工作經驗的大牛門來說,下面的問題早已不是問題,他們都在某個問題上是專家了。歡迎大牛指導!

具有通用性的數據結構和算法思路匯總有:

1. Bloom filter

2. Hashing

3. bit-map

4. 堆

5. 雙層桶劃分,可以理解為多級索引

6. 數據庫索引

7. 倒排索引(Inverted index)

8. 外排序

9.trie樹

10.分布式處理

來源:
熱門推薦
一肖中特公式