python - How to combine 2 csv files(each csv file having more than 100 columns and 425 & 7222 rows respectively) using pandas? -
i have used pandas library combine 2 csv files using pandas not getting desired result.in out.csv m getting column names.it seems dropna function not working after seeing code 3 , code 4.please suggest me how should it.first showing error dtype , low_memory used low_memory=false.after not getting right answer.
code1:
import pandas pd = pd.read_csv("true.csv",low_memory=false) b = pd.read_csv("false.csv",low_memory=false) #print b #a=a.dropna(axis=1,how="all") b = b.dropna(axis=1,how="all") #print merged = a.merge(b, on='name') merged.to_csv("out.csv", index=false)
output1:
cmd shows no error
code 2:
import pandas pd = pd.read_csv("true.csv",low_memory=false) b = pd.read_csv("false.csv",low_memory=false) #print b a=a.dropna(axis=1,how="all") b = b.dropna(axis=1,how="all") #print merged = a.merge(b, on='name') merged.to_csv("out.csv", index=false)
same out.csv
cmd shows no error
code 3:
import pandas pd = pd.read_csv("true.csv",low_memory=false) b = pd.read_csv("false.csv",low_memory=false) print b a=a.dropna(axis=1,how="all") b = b.dropna(axis=1,how="all") #print merged = a.merge(b, on='name') merged.to_csv("out.csv", index=false)
same out.csv
cmd output
name nacid alogp alogp2 amr apol \ 0 ncgc00090868-05 0 2.5092 6.296085 24.6331 11.087793 1 ncgc00258574-01 0 0.8580 0.736164 41.2286 25.019102 2 ncgc00256074-01 0 -1.2663 1.603516 29.8524 20.967516 3 ncgc00255887-01 0 -3.8723 14.994707 63.0584 48.122204 4 ncgc00257684-01 0 0.3201 0.102464 19.9881 15.227930 5 ncgc00255836-01 0 0.1835 0.033672 74.3973 37.687516 6 ncgc00255339-01 0 0.6030 0.363609 79.6663 44.210274 7 ncgc00254895-01 0 -0.0924 0.008538 50.8863 26.247516 8 ncgc00256627-01 0 1.6628 2.764904 50.8229 27.737102 9 ncgc00257445-01 0 -0.4644 0.215667 46.3842 24.281516 10 ncgc00256994-01 0 3.2104 10.306668 53.1445 30.028688 11 ncgc00256081-01 0 -0.1228 0.015080 43.5826 25.885516 12 ncgc00159473-05 0 2.1059 4.434815 62.4027 37.406481 13 ncgc00258886-01 0 0.5738 0.329246 24.9723 13.362758 14 ncgc00260536-01 0 1.5363 2.360218 91.9810 49.983860 15 ncgc00259214-01 0 -2.0207 4.083228 58.4309 40.459860 16 ncgc00254775-01 0 1.0180 1.036324 92.7307 47.861860 17 ncgc00257097-01 0 -0.8815 0.777042 44.2151 32.539860 18 ncgc00255059-01 0 0.8289 0.687075 54.5365 29.737516 19 ncgc00258829-01 0 0.6531 0.426540 38.7876 22.267930 20 ncgc00254435-01 0 -1.7996 3.238560 51.4988 41.589446 21 ncgc00256760-01 0 -1.9832 3.933082 37.0772 30.942653 22 ncgc00255967-01 1 nan nan nan 21.685516 23 ncgc00094572-12 0 3.2214 10.377418 100.9937 52.076239 24 ncgc00256955-01 0 1.1604 1.346528 30.5714 16.447965 25 ncgc00258571-01 0 -0.4011 0.160881 46.3328 26.965516 26 ncgc00018221-08 1 1.7889 3.200163 81.6449 38.198723 27 ncgc00257404-01 0 0.4681 0.219118 48.5267 25.783516 28 ncgc00024595-08 0 0.9066 0.821924 97.5488 59.376583 29 ncgc00095099-05 3 -2.8747 8.263900 165.3811 92.940134 ... ... ... ... ... ... ... 7692 ncgc00024309-17 0 1.1271 1.270354 123.3780 64.364618 7693 ncgc00092377-04 0 1.2781 1.633540 127.4281 65.573446 7694 ncgc00249894-01 2 0.9889 0.977923 93.7563 48.803895 7695 ncgc00258493-01 0 3.6334 13.201596 60.1071 25.220379 7696 ncgc00092328-02 1 0.9264 0.858217 117.7120 63.380618 7697 ncgc00015496-08 0 -3.4028 11.579048 55.2510 43.323790 7698 ncgc00255845-01 0 nan nan nan 197.835924 7699 ncgc00255892-01 0 0.4437 0.196870 77.3472 40.541895 7700 ncgc00257628-01 0 2.3992 5.756161 30.7638 13.573586 7701 ncgc00095795-06 0 1.7370 3.017169 62.7555 28.529551 7702 ncgc00259502-01 0 1.7456 3.047119 67.2834 32.485516 7703 ncgc00254185-01 0 1.9464 3.788473 46.7099 19.902379 7704 ncgc00254078-01 0 1.9464 3.788473 46.7099 19.902379 7705 ncgc00259798-01 0 0.7592 0.576385 30.1050 14.373965 7706 ncgc00255984-01 0 4.3541 18.958187 97.1672 47.655895 7707 ncgc00258735-01 0 2.2459 5.044067 86.0636 43.796688 7708 ncgc00257478-01 0 5.1368 26.386714 95.2848 52.536618 7709 ncgc00163355-05 0 -0.2722 0.074093 84.3928 38.631930 7710 ncgc00254263-01 0 nan nan nan 47.128758 7711 ncgc00260266-01 0 0.9368 0.877594 35.3574 21.567930 7712 ncgc00258239-01 0 2.3709 5.621167 75.0245 37.339102 7713 ncgc00257750-01 0 0.5695 0.324330 49.8130 25.248758 7714 ncgc00256348-01 0 0.2874 0.082599 41.9237 19.847551 7715 ncgc00254098-01 0 1.5354 2.357453 61.0800 33.663102 7716 ncgc00015563-13 0 1.6130 2.601769 97.3830 51.643032 7717 ncgc00258606-01 0 0.8041 0.646577 26.4598 15.491551 7718 ncgc00254798-01 0 -1.2646 1.599213 86.3007 41.545516 7719 ncgc00092310-06 0 -1.8789 3.530265 96.8643 57.331411 7720 ncgc00022043-06 0 0.6243 0.389750 102.7615 65.025376 7721 ncgc00257951-01 0 -0.2697 0.072738 142.9587 88.813306 naaromatom narombond natom nheavyatom ... p1s p2s e1s e2s e3s \ 0 0 0 8 7 ... nan nan nan nan nan 1 0 0 24 10 ... nan nan nan nan nan 2 0 0 21 9 ... nan nan nan nan nan 3 0 0 48 20 ... nan nan nan nan nan 4 0 0 15 5 ... nan nan nan nan nan 5 0 0 32 20 ... nan nan nan nan nan 6 0 0 38 20 ... nan nan nan nan nan 7 0 0 24 12 ... nan nan nan nan nan 8 0 0 25 11 ... nan nan nan nan nan 9 0 0 22 10 ... nan nan nan nan nan 10 0 0 27 11 ... nan nan nan nan nan 11 0 0 24 12 ... nan nan nan nan nan 12 0 0 34 17 ... nan nan nan nan nan 13 0 0 12 6 ... nan nan nan nan nan 14 0 0 43 23 ... nan nan nan nan nan 15 0 0 38 18 ... nan nan nan nan nan 16 0 0 42 22 ... nan nan nan nan nan 17 0 0 32 12 ... nan nan nan nan nan 18 0 0 24 12 ... nan nan nan nan nan 19 0 0 19 9 ... nan nan nan nan nan 20 0 0 36 14 ... nan nan nan nan nan 21 0 0 31 10 ... nan nan nan nan nan 22 0 0 21 9 ... nan nan nan nan nan 23 0 0 45 22 ... nan nan nan nan nan 24 0 0 12 7 ... nan nan nan nan nan 25 0 0 24 12 ... nan nan nan nan nan 26 0 0 30 19 ... nan nan nan nan nan 27 0 0 22 10 ... nan nan nan nan nan 28 0 0 55 24 ... nan nan nan nan nan 29 0 0 84 46 ... nan nan nan nan nan ... ... ... ... ... ... ... ... ... ... ... 7692 0 0 55 29 ... nan nan nan nan nan 7693 0 0 53 31 ... nan nan nan nan nan 7694 0 0 40 25 ... nan nan nan nan nan 7695 0 0 15 12 ... nan nan nan nan nan 7696 0 0 54 28 ... nan nan nan nan nan 7697 0 0 44 14 ... nan nan nan nan nan 7698 0 0 151 83 ... nan nan nan nan nan 7699 0 0 33 18 ... nan nan nan nan nan 7700 0 0 8 6 ... nan nan nan nan nan 7701 0 0 21 14 ... nan nan nan nan nan 7702 0 0 27 15 ... nan nan nan nan nan 7703 0 0 13 10 ... nan nan nan nan nan 7704 0 0 13 10 ... nan nan nan nan nan 7705 0 0 11 6 ... nan nan nan nan nan 7706 0 0 34 19 ... nan nan nan nan nan 7707 0 0 37 21 ... nan nan nan nan nan 7708 0 0 46 20 ... nan nan nan nan nan 7709 0 0 30 20 ... nan nan nan nan nan 7710 0 0 20 14 ... nan nan nan nan nan 7711 0 0 17 7 ... nan nan nan nan nan 7712 0 0 31 17 ... nan nan nan nan nan 7713 0 0 21 15 ... nan nan nan nan nan 7714 0 0 16 9 ... nan nan nan nan nan 7715 0 0 30 16 ... nan nan nan nan nan 7716 0 0 45 21 ... nan nan nan nan nan 7717 0 0 14 7 ... nan nan nan nan nan 7718 0 0 33 21 ... nan nan nan nan nan 7719 0 0 52 25 ... nan nan nan nan nan 7720 0 0 59 27 ... nan nan nan nan nan 7721 0 0 79 37 ... nan nan nan nan nan ts vs ks ds 0 nan nan nan nan nan 1 nan nan nan nan nan 2 nan nan nan nan nan 3 nan nan nan nan nan 4 nan nan nan nan nan 5 nan nan nan nan nan 6 nan nan nan nan nan 7 nan nan nan nan nan 8 nan nan nan nan nan 9 nan nan nan nan nan 10 nan nan nan nan nan 11 nan nan nan nan nan 12 nan nan nan nan nan 13 nan nan nan nan nan 14 nan nan nan nan nan 15 nan nan nan nan nan 16 nan nan nan nan nan 17 nan nan nan nan nan 18 nan nan nan nan nan 19 nan nan nan nan nan 20 nan nan nan nan nan 21 nan nan nan nan nan 22 nan nan nan nan nan 23 nan nan nan nan nan 24 nan nan nan nan nan 25 nan nan nan nan nan 26 nan nan nan nan nan 27 nan nan nan nan nan 28 nan nan nan nan nan 29 nan nan nan nan nan ... .. .. .. .. .. 7692 nan nan nan nan nan 7693 nan nan nan nan nan 7694 nan nan nan nan nan 7695 nan nan nan nan nan 7696 nan nan nan nan nan 7697 nan nan nan nan nan 7698 nan nan nan nan nan 7699 nan nan nan nan nan 7700 nan nan nan nan nan 7701 nan nan nan nan nan 7702 nan nan nan nan nan 7703 nan nan nan nan nan 7704 nan nan nan nan nan 7705 nan nan nan nan nan 7706 nan nan nan nan nan 7707 nan nan nan nan nan 7708 nan nan nan nan nan 7709 nan nan nan nan nan 7710 nan nan nan nan nan 7711 nan nan nan nan nan 7712 nan nan nan nan nan 7713 nan nan nan nan nan 7714 nan nan nan nan nan 7715 nan nan nan nan nan 7716 nan nan nan nan nan 7717 nan nan nan nan nan 7718 nan nan nan nan nan 7719 nan nan nan nan nan 7720 nan nan nan nan nan 7721 nan nan nan nan nan [7722 rows x 1876 columns]
code 4:
import pandas pd = pd.read_csv("true.csv",low_memory=false) b = pd.read_csv("false.csv",low_memory=false) #print b a=a.dropna(axis=1,how="all") b = b.dropna(axis=1,how="all") print b merged = a.merge(b, on='name') merged.to_csv("out.csv", index=false)
same out.csv
cmd output
name nacid alogp alogp2 amr apol \ 0 ncgc00090868-05 0 2.5092 6.296085 24.6331 11.087793 1 ncgc00258574-01 0 0.8580 0.736164 41.2286 25.019102 2 ncgc00256074-01 0 -1.2663 1.603516 29.8524 20.967516 3 ncgc00255887-01 0 -3.8723 14.994707 63.0584 48.122204 4 ncgc00257684-01 0 0.3201 0.102464 19.9881 15.227930 5 ncgc00255836-01 0 0.1835 0.033672 74.3973 37.687516 6 ncgc00255339-01 0 0.6030 0.363609 79.6663 44.210274 7 ncgc00254895-01 0 -0.0924 0.008538 50.8863 26.247516 8 ncgc00256627-01 0 1.6628 2.764904 50.8229 27.737102 9 ncgc00257445-01 0 -0.4644 0.215667 46.3842 24.281516 10 ncgc00256994-01 0 3.2104 10.306668 53.1445 30.028688 11 ncgc00256081-01 0 -0.1228 0.015080 43.5826 25.885516 12 ncgc00159473-05 0 2.1059 4.434815 62.4027 37.406481 13 ncgc00258886-01 0 0.5738 0.329246 24.9723 13.362758 14 ncgc00260536-01 0 1.5363 2.360218 91.9810 49.983860 15 ncgc00259214-01 0 -2.0207 4.083228 58.4309 40.459860 16 ncgc00254775-01 0 1.0180 1.036324 92.7307 47.861860 17 ncgc00257097-01 0 -0.8815 0.777042 44.2151 32.539860 18 ncgc00255059-01 0 0.8289 0.687075 54.5365 29.737516 19 ncgc00258829-01 0 0.6531 0.426540 38.7876 22.267930 20 ncgc00254435-01 0 -1.7996 3.238560 51.4988 41.589446 21 ncgc00256760-01 0 -1.9832 3.933082 37.0772 30.942653 22 ncgc00255967-01 1 nan nan nan 21.685516 23 ncgc00094572-12 0 3.2214 10.377418 100.9937 52.076239 24 ncgc00256955-01 0 1.1604 1.346528 30.5714 16.447965 25 ncgc00258571-01 0 -0.4011 0.160881 46.3328 26.965516 26 ncgc00018221-08 1 1.7889 3.200163 81.6449 38.198723 27 ncgc00257404-01 0 0.4681 0.219118 48.5267 25.783516 28 ncgc00024595-08 0 0.9066 0.821924 97.5488 59.376583 29 ncgc00095099-05 3 -2.8747 8.263900 165.3811 92.940134 ... ... ... ... ... ... ... 7692 ncgc00024309-17 0 1.1271 1.270354 123.3780 64.364618 7693 ncgc00092377-04 0 1.2781 1.633540 127.4281 65.573446 7694 ncgc00249894-01 2 0.9889 0.977923 93.7563 48.803895 7695 ncgc00258493-01 0 3.6334 13.201596 60.1071 25.220379 7696 ncgc00092328-02 1 0.9264 0.858217 117.7120 63.380618 7697 ncgc00015496-08 0 -3.4028 11.579048 55.2510 43.323790 7698 ncgc00255845-01 0 nan nan nan 197.835924 7699 ncgc00255892-01 0 0.4437 0.196870 77.3472 40.541895 7700 ncgc00257628-01 0 2.3992 5.756161 30.7638 13.573586 7701 ncgc00095795-06 0 1.7370 3.017169 62.7555 28.529551 7702 ncgc00259502-01 0 1.7456 3.047119 67.2834 32.485516 7703 ncgc00254185-01 0 1.9464 3.788473 46.7099 19.902379 7704 ncgc00254078-01 0 1.9464 3.788473 46.7099 19.902379 7705 ncgc00259798-01 0 0.7592 0.576385 30.1050 14.373965 7706 ncgc00255984-01 0 4.3541 18.958187 97.1672 47.655895 7707 ncgc00258735-01 0 2.2459 5.044067 86.0636 43.796688 7708 ncgc00257478-01 0 5.1368 26.386714 95.2848 52.536618 7709 ncgc00163355-05 0 -0.2722 0.074093 84.3928 38.631930 7710 ncgc00254263-01 0 nan nan nan 47.128758 7711 ncgc00260266-01 0 0.9368 0.877594 35.3574 21.567930 7712 ncgc00258239-01 0 2.3709 5.621167 75.0245 37.339102 7713 ncgc00257750-01 0 0.5695 0.324330 49.8130 25.248758 7714 ncgc00256348-01 0 0.2874 0.082599 41.9237 19.847551 7715 ncgc00254098-01 0 1.5354 2.357453 61.0800 33.663102 7716 ncgc00015563-13 0 1.6130 2.601769 97.3830 51.643032 7717 ncgc00258606-01 0 0.8041 0.646577 26.4598 15.491551 7718 ncgc00254798-01 0 -1.2646 1.599213 86.3007 41.545516 7719 ncgc00092310-06 0 -1.8789 3.530265 96.8643 57.331411 7720 ncgc00022043-06 0 0.6243 0.389750 102.7615 65.025376 7721 ncgc00257951-01 0 -0.2697 0.072738 142.9587 88.813306 naaromatom narombond natom nheavyatom ... tdb1r tdb2r tdb3r \ 0 0 0 8 7 ... nan nan nan 1 0 0 24 10 ... nan nan nan 2 0 0 21 9 ... nan nan nan 3 0 0 48 20 ... nan nan nan 4 0 0 15 5 ... nan nan nan 5 0 0 32 20 ... nan nan nan 6 0 0 38 20 ... nan nan nan 7 0 0 24 12 ... nan nan nan 8 0 0 25 11 ... nan nan nan 9 0 0 22 10 ... nan nan nan 10 0 0 27 11 ... nan nan nan 11 0 0 24 12 ... nan nan nan 12 0 0 34 17 ... nan nan nan 13 0 0 12 6 ... nan nan nan 14 0 0 43 23 ... nan nan nan 15 0 0 38 18 ... nan nan nan 16 0 0 42 22 ... nan nan nan 17 0 0 32 12 ... nan nan nan 18 0 0 24 12 ... nan nan nan 19 0 0 19 9 ... nan nan nan 20 0 0 36 14 ... nan nan nan 21 0 0 31 10 ... nan nan nan 22 0 0 21 9 ... nan nan nan 23 0 0 45 22 ... nan nan nan 24 0 0 12 7 ... nan nan nan 25 0 0 24 12 ... nan nan nan 26 0 0 30 19 ... nan nan nan 27 0 0 22 10 ... nan nan nan 28 0 0 55 24 ... nan nan nan 29 0 0 84 46 ... nan nan nan ... ... ... ... ... ... ... ... ... 7692 0 0 55 29 ... nan nan nan 7693 0 0 53 31 ... nan nan nan 7694 0 0 40 25 ... nan nan nan 7695 0 0 15 12 ... nan nan nan 7696 0 0 54 28 ... nan nan nan 7697 0 0 44 14 ... nan nan nan 7698 0 0 151 83 ... nan nan nan 7699 0 0 33 18 ... nan nan nan 7700 0 0 8 6 ... nan nan nan 7701 0 0 21 14 ... nan nan nan 7702 0 0 27 15 ... nan nan nan 7703 0 0 13 10 ... nan nan nan 7704 0 0 13 10 ... nan nan nan 7705 0 0 11 6 ... nan nan nan 7706 0 0 34 19 ... nan nan nan 7707 0 0 37 21 ... nan nan nan 7708 0 0 46 20 ... nan nan nan 7709 0 0 30 20 ... nan nan nan 7710 0 0 20 14 ... nan nan nan 7711 0 0 17 7 ... nan nan nan 7712 0 0 31 17 ... nan nan nan 7713 0 0 21 15 ... nan nan nan 7714 0 0 16 9 ... nan nan nan 7715 0 0 30 16 ... nan nan nan 7716 0 0 45 21 ... nan nan nan 7717 0 0 14 7 ... nan nan nan 7718 0 0 33 21 ... nan nan nan 7719 0 0 52 25 ... nan nan nan 7720 0 0 59 27 ... nan nan nan 7721 0 0 79 37 ... nan nan nan tdb4r tdb5r tdb6r tdb7r tdb8r tdb9r tdb10r 0 nan nan nan nan nan nan nan 1 nan nan nan nan nan nan nan 2 nan nan nan nan nan nan nan 3 nan nan nan nan nan nan nan 4 nan nan nan nan nan nan nan 5 nan nan nan nan nan nan nan 6 nan nan nan nan nan nan nan 7 nan nan nan nan nan nan nan 8 nan nan nan nan nan nan nan 9 nan nan nan nan nan nan nan 10 nan nan nan nan nan nan nan 11 nan nan nan nan nan nan nan 12 nan nan nan nan nan nan nan 13 nan nan nan nan nan nan nan 14 nan nan nan nan nan nan nan 15 nan nan nan nan nan nan nan 16 nan nan nan nan nan nan nan 17 nan nan nan nan nan nan nan 18 nan nan nan nan nan nan nan 19 nan nan nan nan nan nan nan 20 nan nan nan nan nan nan nan 21 nan nan nan nan nan nan nan 22 nan nan nan nan nan nan nan 23 nan nan nan nan nan nan nan 24 nan nan nan nan nan nan nan 25 nan nan nan nan nan nan nan 26 nan nan nan nan nan nan nan 27 nan nan nan nan nan nan nan 28 nan nan nan nan nan nan nan 29 nan nan nan nan nan nan nan ... ... ... ... ... ... ... ... 7692 nan nan nan nan nan nan nan 7693 nan nan nan nan nan nan nan 7694 nan nan nan nan nan nan nan 7695 nan nan nan nan nan nan nan 7696 nan nan nan nan nan nan nan 7697 nan nan nan nan nan nan nan 7698 nan nan nan nan nan nan nan 7699 nan nan nan nan nan nan nan 7700 nan nan nan nan nan nan nan 7701 nan nan nan nan nan nan nan 7702 nan nan nan nan nan nan nan 7703 nan nan nan nan nan nan nan 7704 nan nan nan nan nan nan nan 7705 nan nan nan nan nan nan nan 7706 nan nan nan nan nan nan nan 7707 nan nan nan nan nan nan nan 7708 nan nan nan nan nan nan nan 7709 nan nan nan nan nan nan nan 7710 nan nan nan nan nan nan nan 7711 nan nan nan nan nan nan nan 7712 nan nan nan nan nan nan nan 7713 nan nan nan nan nan nan nan 7714 nan nan nan nan nan nan nan 7715 nan nan nan nan nan nan nan 7716 nan nan nan nan nan nan nan 7717 nan nan nan nan nan nan nan 7718 nan nan nan nan nan nan nan 7719 nan nan nan nan nan nan nan 7720 nan nan nan nan nan nan nan 7721 nan nan nan nan nan nan nan [7722 rows x 1338 columns]
i didn't asking for, if 'nan' values in dfs problem, try this...
in code:
a=a.dropna(axis=1,how="all")
the issue "how" parameter using. takes 2 values any/all
how : {‘any’, ‘all’}
any
: if na values present, drop labelall
: if values na, drop label
so, try using dataframe.dropna()
:
a=a.dropna()
update: tested files, , found there no records matching!
i appending 2 files requirement, seems using wrong operation ("merge" instead of "append").
try code:
a = pd.read_csv("true.csv",low_memory=false) b = pd.read_csv("false.csv",low_memory=false) merged = a.append(b, ignore_index=false) merged.to_csv("out.csv", index=false)
after merge, can use dropna if want!!
Comments
Post a Comment