Пока наше светило думает как ответить на вопрос "кто автор замечательного текста для айтишников?", небольшая подборка ликбезов по используемым терминам, хотя написать ликбез к терминам бигдаты вряд ли возможно. Хэдлуп и Кассандра это ПО, позволяющее распараллелить процессы обработки этой самой бигдаты на кластерах из серверов. Застрельщик здесь Фейсбук, который очень плотно работает с поставщиками железа для таких специфических задач.
У Фейсбука бигдата уже промышленная технология. Это хорошо видно, когда Фейсбук "подсовывает" вам людей, близких по духу, хотя это далеко не самая сложная задача.
Купить кластер серверов и развернуть на нём стандартное ПО задача не сложное. Куда более сложная задача написать правила обработки и засунуть на вход этой "мясорубки" сами большие данные и получить на выходе полезные знания.
В Киевстаре этим шаманством занимался Милиневский и Ко. Результатов я не увидел, а сам Милиневский был выброшен за борт.
А теперь формальные определения:
Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Yahoo! и Facebook. Разработан на Java в рамках вычислительной парадигмы MapReduce, согласно которой приложение разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах кластера и естественным образом сводимых в конечный результат.
Считается одной из основополагающих технологий «больших данных». Вокруг Hadoop образовалась целая экосистема из связанных проектов и технологий, многие из которых развивались изначально в рамках проекта, а впоследствии стали самостоятельными. Со второй половины 2000-х годов идёт процесс активной коммерциализации технологии, несколько компаний строят бизнес целиком на создании коммерческих дистрибутивов Hadoop и услуг по технической поддержке экосистемы, а практически все крупные поставщики информационных технологий для организаций в том или ином виде включают Hadoop в продуктовые стратегии и линейки решений.
Apache Cassandra — распределённая система управления базами данных, относящаяся к классу noSQL-систем и рассчитанная на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных, представленных в виде хэша.
Изначально проект был разработан в недрах Facebook и в 2009 году передан под крыло фонда Apache Software Foundation, эта организация продолжает развитие проекта. Промышленные решения на базе Cassandra развёрнуты для обеспечения сервисов таких компаний, как Cisco, IBM, Cloudkick, Reddit, Digg, Rackspace и Twitter. К 2011 году крупнейший кластер серверов, обслуживающий единую БД Cassandra, насчитывает более 400 машин и содержит данные размером более 300 Тб.
dumb pipe (дословно "тупая труба", оператор, занимающийся только продажей трафика за фиксированную цену) пугает операторов до чёртиков, заставляя представлять мрачное, низкомаржинальное будущее.
FUBAR (позднее: foobar, foo, bar, biz, baz и так далее) — расово американское сокращение фразы «Fucked up beyond any recognition/all repair». В вольном переводе означает «полный пиздец» (в менее вольном переводе первый вариант будет звучать как «разъебанный до неузнаваемости»). Изначально придумано рядовым составом армии США во время Второй мировой войны за счёт внезапного пополнения армии повышенным количеством рядового состава, который начал стебаться над расово армейскими аббревиатурами. После демобилизации фразы естественным путём распространились уже и у гражданских.
SNAFU — situation normal: all fucked up («докладываю: обстановка стандартная, все пошло по пизде»).