Articles of bigdata

Является SparkSQL RDBMS или NOSQL?

Недавно у меня возникла дискуссия с моим другом по поводу особенностей SparkSQL, когда мы столкнулись с этим вопросом. Являются ли они транзакциями ACID? Отвечает ли SparkSQL теореме CAP? Я немного новичок в этой области, помоги мне. Заранее спасибо.

Читайте только n-й столбец текстового файла, который не имеет заголовка с R и sqldf

У меня такая же проблема, как и этот вопрос: выбор каждого столбца N в использовании SQLDF или read.csv.sql Я хочу прочитать несколько столбцов больших файлов (таблица из 150rows,> 500 000 столбцов, пробел разделен, заполнен числовыми данными и доступна только 32-битная система). Этот файл не имеет заголовка, поэтому код в потоке выше не работал, и я […]

Преобразование данных в Google bigquery – извлечение текста, разбиение на несколько столбцов и сворачивание данных

У меня есть некоторые данные веб-журнала в большом запросе, которые мне нужно преобразовать, чтобы упростить использование и запрос. Данные выглядят так: Я хочу извлечь и преобразовать данные в скрученные скобки после результатов {… ..} (цветной синий). Данные имеют вид '(\ d + ((PQ) | (KL)) + \ d +)' и в массиве результатов может быть […]

Как вывести файл с помощью разделителя табуляции в Netezza NZSQL

Я пытаюсь вывести некоторые файлы с помощью NZSQL CLI, но не могу выводить файлы с разделителями табуляции. Может ли кто-нибудь, кто работал над NZ, поделиться своими мыслями по этой команде ниже. Пробовал до сих пор: – nzsql -o sample.txt -F= -A -t -c "SELECT * FROM DW_ETL.USER WHERE datasliceid % 20 = 2 LIMIT 5;"

Как получить первое не пустое значение из столбца значений в Big Query?

Я пытаюсь извлечь первое не пустое значение из столбца значений на основе метки времени. Может кто-то поделится своими мыслями по этому поводу. Спасибо. Что я пробовал до сих пор? FIRST_VALUE( column ) OVER ( PARTITION BY id ORDER BY timestamp) Input :- id,column,timestamp 1,NULL,10:30 am 1,NULL,10:31 am 1,'xyz',10:32 am 1,'def',10:33 am 2,NULL,11:30 am 2,'abc',11:31 am […]

Как получить массив / пакет элементов из группы Hive оператором?

Я хочу сгруппировать по заданному полю и получить результат с сгруппированными полями. Ниже приведен пример того, чего я пытаюсь достичь: Представьте таблицу с именем «sample_table» с двумя столбцами, как показано ниже: F1 F2 001 111 001 222 001 123 002 222 002 333 003 555 Я хочу написать Hive Query, который даст следующий результат: 001 […]

Как создать большую базу данных pandas из SQL-запроса без исчерпания памяти?

У меня возникли проблемы с запросом таблицы из> 5 миллионов записей из моей базы данных MS SQL Server. Я хочу, чтобы иметь возможность выбирать все записи, но мой код, похоже, не работает при выборе большого количества данных в памяти. Это работает: import pandas.io.sql as psql sql = "SELECT TOP 1000000 * FROM MyTable" data = […]

Лучший способ удалить миллионы строк по ID

Мне нужно удалить около 2 миллионов строк из моей базы данных PG. У меня есть список идентификаторов, которые мне нужно удалить. Тем не менее, любой способ, которым я пытаюсь это сделать, – это занять несколько дней. Я попытался поместить их в таблицу и сделать это партиями по 100. Через 4 дня это все еще выполняется, […]

Intereting Posts
Как сделать SQL-запрос для получения определенного диапазона строк из таблицы Как определить последний день предыдущего месяца с помощью PostgreSQL? SQL возвращает n строк для значения строки Является ли этот запрос ColdFusion SQL Injection доказательством? Oracle – отдельное время и дата Таблица Oracle SQL PIVOT Oracle. С отношением от одного до нескольких выберите отдельные строки на основе значения min Почему «Да» значение -1 в базе данных MS Access? Выберите символьные переменные, у которых есть все отсутствующие значения Как я могу вызвать хранимую процедуру Oracle из сценария Excel VBA? коррелированный запрос / подзапрос VS join query Каково влияние ресурсов на нормализацию базы данных? Используя поиск снизу вверх или сверху вниз, чтобы найти наилучший путь из иерархических данных SQL: Получить записи, которые удовлетворяют условиям, поступающим из нескольких записей Сравнение MySQL с нулевым значением