Последующее наблюдение за previous question относительно анализа данных с помощью панд. Теперь я хочу, чтобы построить мои данные, которые выглядит следующим образом:Pandas: построение нескольких столбцов с одинаковым значением x
PrEST ID Gene Sequence Ratio1 Ratio2 Ratio3
HPRR12 ATF1 TTPSAXXXXXXXXXTTTK 6.3222 4.0558 4.958
HPRR23 CREB1 KIXXXXXXXXPGVPR NaN NaN NaN
HPRR23 CREB1 ILNXXXXXXXXGVPR 0.22691 2.077 NaN
HPRR15 ELK4 IEGDCEXXXXXXXGGK 1.177 NaN 12.073
HPRR15 ELK4 SPXXXXXXXXXXXSVIK 8.66 14.755 NaN
HPRR15 ELK4 IEGDCXXXXXXXVSSSSK 15.745 7.9122 9.5966
... кроме того есть куча строк больше, и я на самом деле не хочу, чтобы построить соотношения, но и некоторые другие расчетные значения, полученные из них , но это не имеет значения для моей проблемы с графикой. У меня есть dataframe, который выглядит более или менее, как эти данные выше, и то, что я хочу это:
- Каждая строка (3 отношения) должны быть нанесены на ID в строке и, как точки
- Все строки с тот же идентификатор должен быть построен к тому же значению х/ID, , но с другим цветом
- х клещами должна быть идентификаторами, и (если возможно) соответствующий ген, а также (так что некоторые гены будут появляться по нескольким х клещей, поскольку у них имеется множественное сопоставление идентификаторов)
Ниже изображение, что моя предыдущая, не панды версия этого скрипта производит:
... где красные треугольники указывают значения за пределами порогового значения, используемого для установки максимум по оси Y. стоимость. Идентификаторы затемнены, но вы должны быть в состоянии видеть, что мне нужно. Копировальный номер - это, по сути, отношения с расчетом сверху, поэтому они всего лишь другое число, а не те, которые я показываю в приведенных выше данных.
Я попытался найти похожие вопросы и решения в документации, но не нашел их. Большинство людей, похоже, должны делать это с датами, для которых, кажется, есть готовые функции построения, что мне не помогает (я думаю). Любая помощь очень ценится!
Я попытался с помощью кода как есть (за исключением я должен был измените color.next() на следующий (цвет)), и он отлично работает, но когда я попробовал его с фактическими данными, он не работал: я получаю только «ValueError: не могу преобразовать строку в float:» IDx «». Фактический DataFrame, который я хочу построить, это: peptide_data = data [['ID', 'Gene names', 'Sequence', 'Ratio H/L HCT_1', 'Ratio H/L HCT_2', 'Ratio H/L HCT_3 ',' pepCN1 ',' pepCN2 ',' pepCN3 ',' pepMedian ',' pepCV ']], где pepCN1, pepCN2 и pepCN3 - это то, что я хочу построить против «ID», если это помогает. (Если это было редактирование? Не знаете, как вы обычно это делаете здесь). – Sajber
Чтобы уточнить: фактические идентификаторы являются конфиденциальными строками, поэтому здесь очень простые числовые идентификаторы. – Sajber
Можете ли вы использовать число для идентификатора и иметь столбец (например, ген и последовательность) с конфиденциальными строками? Я думаю, что ValueError пытается использовать строку как число (по крайней мере, это проблема, с которой я столкнулся раньше). –