Throw a stone at me: September 2010

Thursday, September 30, 2010

Dynamic changes in the human methylome during differentiation

hmm.. there is no impressive scientific observation, I think. Then the reason why I choose this paper for journal club is for hope that I could find something on relation between methylation and development. hmm. nothing.

PPT

Monday, September 27, 2010

C++ part 4 (객체지향의 완성)

이제 마지막 파트이다. 아마도 C++을 시작한지 2주쯤 되는거 같다. 확실히 oop를 다시 보는거라 처음 자바로 시작할때보다 기억이 오래가고 이해가 빠르다. 마지막 4장을 향해서 고고~!

chapter10 : 연산자 오버로딩
연산자 오버로딩은 일종의 약속같은 것으로 기존의 연산자에 프로그래머가 추가적인 기능(새로운 피연산자등)을 확장시키는것. 예를 들어 p라는 객체가 있으면 p+3 과 같은 연산이 가능하게끔 연산자 +에 대해 새로히 연산자를 오버로딩하는 것이다.
연산자 오버로딩하는방법에 두가지가 있다. 한 코드의 예를 가지고 각각의 방법으로 연산자 오버로딩하는 것을 설명하겠다. main함수에 Point p1(1,2); Point p2(2,1); Point p3=p1+p2 라는 코드가 있다면...
1.멤버 함수에 의한 오버로딩 : 클래스의 멤버 함수로 연산자를 오버로딩 하는 것으로 위를 위한 코드는 class Point{public:Point operator+(const Point& p){Point temp(x+p.x,y+p.y);return temp;}} 과 같이 연산자 오버로딩을 위한 함수를 클래스 Point 안에 명시한다. 위의 마지막 문장 Point p3=p1+p2는 Point p3=p1.operator+(p2) 으로 해석된다. 기억해야 할것은 main함수에 p3=p1+p2에서 p1.operator+(p2)가 호출되고 결과인 temp 객체가 리턴되서 default 복사 생성자에 의해 p3이 생성되는 것이다.
2.전역 함수에 의한 오버로딩 : 연산자 오버로딩을 위한 함수를 전역 함수로 명시하는 것으로 위의 경우 Point operator+(const Point& p1, const Point& p2){Point temp(p1.x+p2.x,p1.y+p2.y); return temp;} 식으로 전역 함수로 표현할수 있다. 단 객체의 멤버 변수를 직접 접근하므로 operator+를 friend로 지정해야 한다. 이때 main의 마지막 문장 Point p3=p1+p2는 Point p3=operator+(p1,p2)를 의미하게 된다.
필자에 따르면 객체지향에서는 전역이라는 개념이 없기 때문에 멤버 함수로의 연산자 오버로딩을 권한다.
단항 연산자 오버로딩은 위의 이항 연산자랑 매개변수가 하나씩 적다는것 빼고 동일하다. 기억해야 할것은 '++'를 오버로딩할때 이를 멤버 함수로 구현해보면 Point& operator++(){x++;y++;return *this;}이다. 여기서 return 이 존재 하여야 하고 그 type이 reference 이여야 한다. p라는 객체가 있을 때 (++(++p)).ShowPosition()을 고려해 보면 return이 없으면 ++한뒤의 돌아오는 결과물이 없게 되서 에러가 나고 type이 reference가 아니면 돌아오는 것이 객체의 copy가 돌아오기때문에 정작 p의 값은 2가 더해진 것이 아니라 1이 더해지게된다(++p는 p.operator++()로 p++는 p.operator++(int)로 구분된다).
연산자 오버로딩을 통해 객체에 더하기가 가능할때, 즉 p+3, 교환법칙(3+p)가 가능하게 하기 위해서는 어쩔수 없이 전역 함수에 의한 오버로딩으로 구현해야 한다.
cout 은 ostream의 객체이고 cin은 istream의 객체이고 std라는 namespace에 존재하는 것이다. 그리고 <<나 >> 역시 연산자일 뿐이다. 그래서 cout<<"aa"라고 하는 것은 ostream클래스의 객체인 cout의 operator<<()를 호출하는 것이다.

Saturday, September 25, 2010

C++ part 3 (객체지향의 전개)

chapter7 : 상속의 이해
책에서 상속의 개념이 필요한 문제를 제기, "employee problem"(이 문제를 간략하게 요약하자면 회사가 있을때 처음에는 고용형태가 permanent 밖에 없었는데 회사가 커지면서 다른 형태의 고용형태가 생겼을때(예를 들어 part time, sales permanent) 새로운 형태의 고용에 대한 클래스를 만드는 것은 당연하나 이 모두를 담기위한 department 클래스의 변형이 불가피 하다. 이럴때 상속의 개념을 이용하면 department의 클래스 변형 없이 가능하게 한다라는 내용).
student하는 클래스가 person이라는 클래스를 상속할때 student 클래스의 정의시 다음과 같이 서술한다. class student : public person {클래스 내용...}. 여기서 student를 sub 클래스 (혹은 derived 클래스)라고 하며 person을 super 클래스 (혹은 base 클래스)라고 한다.
상속하고 있는 클래스의 객체 생성 과정: 1.메모리 공간의 할당, 이때 상속되는 클래스를 감안해서 메모리 공간 할당. 2.base 클래스의 생성자 실행. 3.derived 클래스의 생성자 실행.(추가적으로 설명하자면 derived 클래스가 생성될때 derived 클래스의 생성자가 먼저 호출이 되나 그 생성자의 몸체({}부분)가 실행하기에 앞서 이 클래스가 base 클래스를 상속하고 있음을 알고 base 클래스의 생성자를 호출해서 실행하고 그 다음에 derived 클래스의 생성자의 몸체가 실행이 된다.)
AAA 클래스의 생성자가 여러개일때(함수 오버로드) derived 클래스인 BBB 클래스의 생성자가 특정 AAA 클래스의 생성자를 호출하고자 할때 BBB(int j) : AAA(j) {BBB 생성자 내용} 식으로 선언한다(이는 앞서 배운 const 맴버 변수를 초기화 할때 사용하는 member initializer 와 같은 형태이다).
base 클래스의 맴버 변수가 private으로 선언되어 있을 시에는 위와 같이 member initializer방식으로 base 클래스의 초기화 하고 public으로 선언되어 있을때는 base 클래스의 맴버 변수를 직접 초기화도 가능하다.
상속된 개체의 소멸과정은 생성과정과 반대로 derived 클래스의 소멸자가 먼저 실행되고 base 클래스의 소멸자가 그 다음으로 실행된다.
protected 멤버는 상속 관계에 놓여 있는 경우에 접근을 허용한다는 것을 제외하고 private 멤버와 동일하다.
상속에는 세가지 형태 public, private, protected가 있는데 각각의 형태에 따라 상속되는 과정에서 접근 권한이 변경된다(아래 표와 같다).

control 클래스 : 기능적 성격이 강한 클래스. 프로그램의 주요기능을 설명한다.
entity 클래스 : 데이터적인 성격이 강한 클래스. 저장되어야 하는 최소 단위 데이터로 인식

chapter8 : 상속과 다형성
상속의 조건 :: 1.IS-A관계 : "A student is a person" 의 문장에서 student 클래스와 person 클래스는 IS-A 관계에 있다.곧 student가 person 클래스를 상속하게 된다. 2.HAS-A관계 : "The police have a cudgel"문자에서 police 클래스는 cudgel클래스와 HAS-A관계에 있다. 곧 police 클래스는 cudgel 클래스를 상속하게 된다.
그러나 HAS-A관계는 상속말고도 다른 방식으로 표현이 가능하다(police 클래스 안에 cudgel 클래스 맴버 변수 선언 혹은 cudgel 클래스를 가리키는 포인터 변수 선언). 그렇기에 거의 대부분의 클래스 상속은 IS-A관계를 표현하기 위해 사용된다.
Design pattern이란? 문제 상황에 따른 좋은 클래스 디자인 모델의 집합
CCC 클래스가 BBB 클래스를 상속하고 있고(CCC->BBB) BBB클래스가 AAA 클래스를 상속하고 있다면(BBB->AAA) AAA객체 포인터에 BBB객체와 CCC 객체의 주소를 넣을수 있다(AAA* t1=new BBB; AAA* t2=new CCC 가능). 곧 base 객체 포인터를 이용해서 derived 클래스의 객체의 주소를 담을 수 있다. 그러나 이때 base 객체 포인터로 정의된 변수는 base 클래스 내에 선언된 멤버만 접근이 가능하다(객체 레퍼런스도 마찬가지이다).
이를 해결하기 위한 방법이 virtual 키워드를 이용한 함수 오버라이딩.
함수 overriding : base 클래스에 선언된 형태의 함수를 derived 클래스에서 다시 선언하는 현상
virtual 키워드 : base 클래스(AAA)가 func이라는 이름의 함수를 virtual라는 키워드로 가상으로 선언하게 되면(virtual func(func매개변수){func의 함수 내용}) base 클래스의 객체 포인터로 derived 클래스(BBB)의 객체를 가리킬때(AAA* t1 = new BBB), 그 객체 포인터로 base 클래스의 func 함수에 접근하게 되면 자동적으로 derived에 오버라이딩하는 함수를 호출하게 된다. 이러한 형식의 함수 호출을 dynamic binding이라 한다(컴파일 되는 동안에 호출될 함수가 결정되는 것이 아니라 실행하는 동안에 호출될 함수가 결정되기때문).
다형성이란? 모습은 같은데 형태가 다른것 (dynamic binding, 함수 overriding등)
그렇다면 overriding 당한 함수는 어떻게 호출할수 있나? base 함수::virtual 함수 이름(AAA::func())으로 호출 가능하다.
virtual 키워드를 이용한 가상함수는 그 특성이 상속된다. 예를 들어 base 클래스 AAA에 virtual func으로 가상화된함수가 있고 derived 클래스 BBB에 함수 overriding을 위해 func 함수가 있을때 BBB 클래스의 func 함수도 virtual이란 키워드를 붙여 주지 않았다고 하더라도 저절로 가상화가된다.
이렇듯 가상화된 함수는 상속하는 클래스의 함수 오버라이딩을 위한 것이라서 base 클래스에 virtual 함수에 내용을 지정할 필요가 거의 없다. 그렇기 때문에 이러한 가상함수는 순수 가상 함수로 선언한다(virtual int func()=0 과 같이 =0을 붙이면 pure virtual function임을 나타내는 것이다). 이러한 순수 가상 함수를 포함하고 있는 base 클래스를 추상(abstract) 클래스라고 한다. 추상 클래스는 객체화되지 못한다.
가상함수 말고도 소멸자 역시 virtual 키워드를 이용해서 가상화 되어야 한다. 예를 들어 base 클래스(AAA)와 derived 클래스(BBB)가 있고 AAA* t1 = new BBB로 선언된 객체 포인터 t1이 있을때 t1을 소멸하게 되면 AAA 클래스의 소멸자만이 호출되어 BBB안에 있을지 모르는 동적메모리가 free되지 않는다. 이를 방지 하기 위하여 소멸자 역시 가상화 하는 것이 좋다(두 클래스의 소멸자의 이름은 다르나 소멸자라는 특성때문에 이름이 다르더라도 overriding된다),
8장에서 배운 내용을 가지고 7장의 employee problem을 완벽히 해결할수 있다(기본적으로 employee라는 base 클래스를 만들고 permenant와 parttime, salesperment클래스를만들어서 employee 클래스를 상속한다. employee클래스안에 permenant등 상속될 클래스의 각각의 구현이 다른 맴버함수에 대해서 virtual키워드로 가상화 시키면 contol클래스에서 employee 객체 포인터로 클래스들을 선언하더라도 각각의 클래스의 맴버 함수에 접근할수 있게 되어진다).

chapter9 : virtual의 원리와 다중 상속
객체가 생성되면, 멤버 변수는 객체 내에 존재한다. 그러나 멤버 함수는 메모리의 한 공간에 존재하면서, 모든 객체가 공유하는 형태를 취한다.
1개의 가상 함수를 포함하는 클래스에 대해서, 컴파일러는 가상 함수 테이블(virtual table,VTable)이라는 것을 만들어 준다. 이 VTable는 key로 함수의 이름이 들어가고 value로 그 함수가 메인 메모리에 위치한 메모리 주소를 갖게 된다. 함수가 overriding 되었을때 derived 클래스의 VTable에는 overriding된 base 클래스의 virtual 함수는 포함되어 있지 않는다.
하나 이상의 가상 함수를 멤버로 지니는 클래스의 객체에는 VTable을 위한 포인터가 멤버로 추가된다.
이렇듯 가상 함수를 지니는 클래스의 객체가 생성되어지고 그 객체의 함수가 호출되어지면 VTable을 가리키는 포인터를 참조해서 VTable의 내용을 읽게 되고 VTable안에 존재 하는 key로 함수를 찾게 되어 value(함수의 메모리 상의 위치)를 가져오게 된다. 곧 base 클래스의 virtual 함수가 derived 클래스에 의해 overriding되어지면 derived 클래스의 객체의 VTable에는 base 클래스의 virtual 함수에 대한 정보가 없기 때문에 derived 클래스의 함수가 호출되는 것이다.
가상함수가 없으면 VTable이 생성되지 않고 직접 호출할 함수에 접근하기때문에 성능은 좋아진다.
다중 상속에 대한 이야기도 있지만 필자가 말하듯 굉장히 모호해질수 있는 문법인지라 이 내용은 생략한다.

Monday, September 20, 2010

link programming to hardware

언제부터인가 프로그래밍을 공부하면서 하드웨어적인 용어가 많이 등장함을 느끼고 또한 그것에 대한 궁금증이 생겼다. 해서 샀던 책이 "프로그래머가 몰랐던 멀티코어 CPU 이야기" 라는 책이다. 표지나 소개와는 달리 나에게는 외계어로 느껴지는 언어로 설명을 해놨는데.. 아.. 좌절뿐..
그런데 얼마전에 좋은 blog를 발견해서 이를 포스팅한다. 회로에서 RAM, 결과적으로 cpu까지 그리고 기계어, 어셈블리어, 컴파일러등 내게 필요한 지식의 공백을 매워줄만한 내용들로 차있다. 또한 굉장히 intro적인, 그러니까 완전 생초짜를 위한 글인 듯 보인다. 물론 사이사이 전개에 설명이 부족하지만(이는 아마도 본역의 목적 "intro"의 역할을 위한 이율배반적인 것이라 느껴진다) 꼭 읽어보기를 강추할만한 블로그 인것 같다.
링크는 아래에.

http://maanu.egloos.com/

C++ part 2 (객체지향의 도입)

chapter3 : 클래스의 기본

C++에서는 구조체(struct)를 이용하여 변수를 선언할때 struct를 붙이 않아도 된다(C에서는 반드시 struct 를 붙여야 했고 이를 피하기 위해 구조체를 선언할때 typedef를 이용하였다). C++에서는 구조체에 함수를 넣을 수 있는데 이는 구조체가 class의 범주에 속하기 때문이다.

클래스 = 맴버변수 + 멤버함수

-데이터 추상화 : 현실세계의 사물을 데이터적인 측면과 기능적 측면을 통해서 정의하는 것.

-클래스 : 추상화된 데이터를 가지고 자료형을 정의 하는 것

-객체 : 클래스를 이용해서 정의된 자료형의 변수

내부접근은 같은 클래스 내의 존재하는 맴버에 의해 접근되는것, 이 이외는 외부 접근이라 한다.

private 으로 맴버가 선언되면 내부접근만 허용되는 것이고 public으로 선언되면 외부접근까지 허용하는 것이다. private도 public도 없으면 private 으로 간주한다 (단 구조체일 경우 default는 public이다).

클래스의 맴버함수가 전달 인자가 없을때 void는 보통 생략한다, 클래스의 내부를 간결하기 위하여 함수는 외부에서 정의가 가능하다(예를 들어 aa 라는 클래스가 있으면 그안에 bb라는 맴버함수가 잇을때 class aa{public: void bb();} 라고만 해놓고 외부에 aa::bb(){}식으로 외부에서 bb를 정의할수 있다). 클래스의 맴버 함수를 내부 선언 한다는 것은 그 함수를 in-line화 하고자 하는 것이다. 맴버 함수를 외부에서 정의 했을 때에 in-line화 하고 싶을 때는 외부 정의시 앞에 inline을 붙여 주면 된다.

chapter4 : 클래스의 완성

캡슐화와 정보은닉을 충족하는 클래스가 좋은 클래스이다.

캡슐화 : 관련 있는 데이터와 함수를 하나의 단위로 묶는 것.

정보은닉 : 객체 외부에서 객체의 맴버 변수에 직접적인 접근을 허용하지 않는것.

정보은닉을 위해 멤버변수의 접근을 위한 맴버함수들을 access method라고 한다.

C++에서는 클래스 선언및 정의 부분에서 맴버 변수를 초기화 할수 없다(java와 c#은 가능).

일반적으로 클래스 객체를 생성과 동시에 초기화 할수 없다(물론 맴버 변수가 public이라면 상관없다). 이럴 때 이용하는 것이 생성자 (constructor)이다.

생성자 : 1.함수이다, 2.클래스의 이름과 같은 이름을 지닌다, 3.리턴하지도 않고 리턴 타입도 선언되지 않는다.

클래스에 생성자가 하나도 정의되어 있지 않을시 default 생성자가 자동 삽입된다. 생성자 역시 함수 이므로 오버로딩이 가능하다. 디폴트 매개 변수 설정 역시 가능하다.

동적메모리가 할당된 클래스는 클래스의 객체의 소멸시 메모리를 반환해야 하는데 이를 자동화하기 위해 이용될 수 있는 것이 destructor(소멸자)이다.

소멸자 : 1.함수이다, 2.클래스의 이름 앞에 ~가 붙은 형태의 이름을 지닌다, 3.리턴하지도 않고 리턴타입도 선언되지 않는다, 4.매개변수를 받을 수 없다.따라서 오버로딩,디폴트 매개 변수 선언이 불가능하다.

소멸자 역시 생성자처럼 아무런 선언이 없을시 디폴트 소멸자가 삽입된다.

생성자 소멸자의 결론 : 클래스를 정의할때에 멤버 변수를 초기화를 위해서 생성자를 항상정의한다. 반면 객체 소멸 시 처리해야할 것(동적 메모리를 해제)이 있을때만 소멸자를 정의한다.

객체를 동적 메모리에 할당해서 생성과 소멸 시에 new와 delete가 사용된다. malloc과 free는 사용될수 없는데 이는 malloc과 free는 단순히 힙 영역에 메모리를 할당할 뿐이지 객체 생성시 필요한 생성자와 소멸시 필요한 소멸자를 호출하는 기능이 없기 때문이다.

this는 자기 참조 포인터로 이름 그대로 자기 자신을 가리키는 용도의 포인터이다.

private으로 선언된 맴버 변수는 원래 외부 접근이 불가능하나 friend로 선언된 전역 함수나 다른 클래스에 의해서 맴버 변수의 외부 접근이 가능해 진다.

chapter5 : 복사생성자

변수 초기화 하는 방법 int val = 20 이렇게 하는 방법이 있고, int val(20)이렇게 하는 방법이 있다. 첫번째 것이 두번째 것으로 묵시적 변환이 일어난 것이다.

복사 생성자 : 자기 자신과 같은 형태의 객체를 인자로 받을 수 있는 생성자 (예, class AA{public: AA(AA& a){}})

복사 생성자를 정의 할때 매개변수에 &(레퍼런스) 기호를 붙여야 한다. 그렇지 않으면 무한 루프에 빠지게 된다(레퍼런스화 되어 있지않다면 무한 반복해서 계속 복사 생성자를 call할 것이다.복사 생성자가 호출되는 시점을 고려해 보면 알수 있다).

복사 생성자 역시 정의 해주지 않아도 디폴트 복사 생성자가 생기나 이럴땐 shallow copy를 하기때문에 객체가 배열이나 스트링처럼 주소를 담고 있는 맴버 변수가 있을때 주소를 카피 하기 때문에 문제가 있을 수 있다. 이럴 땐 직접 복사 생성자를 정의해서 deep copy를 해야 한다.

복사 생성자가 호출되는 시점 : 1.기존에 생성된 객체로 새로운 객체를 초기화하는 경우, 2.함수 호출 시 객체를 값에 의해 전달하는 경우, 3.함수 내에서 객체를 값에 의해 리턴하는 경우.

chapter6 : static 멤버와 const 멤버

const 키워드의 복습 : 1.const double PI=3.14라고 선언시 PI=3.1415라고 하면 error,즉 const라고 지정한 변수는 값을 변화 할수 없다. 2. const int* pN=&n이라고 하고 *pN=20이라고 하면 error, 즉 const화한 포인터 변수는 자신이 가르키는 값을 변화 시킬수 없다(포인터 변수를 통해서 값을 바꿀수 없다). 3.int* const pN=&n1이라고 하면 *pN=20은 가능하나 pN=&n2를 하면 error, 즉 pN이 가리키는 주소가 저장한 value는 변경할수 있으나 pN이 가리키는 주소값 자첼 바꿀수는 없다.

클래스에서 값이 변하지 않는 맴버변수는 const를 지정하면 좋다. 이러한 const화 된 맴버 변수를 초기화 하기 위해서 member initializer라는 기법이 필요하다. 생성자이름(매개변수들) : const 맴버 변수(매개 변수) 꼴로 초기화 한다(예 student라는 class가 있고 그안에 id가 const int화 되어 있으면 id를 초기화 하기위한 생성자는 student(int _id) : id(_id) 가 되어야 한다).
const 함수도 만들수 있다. const화 된 함수는 맴버 변수를 참고 할수는 있으나 조작은 불가능하다. 또한 const화된 함수는 맴버 변수의 포인터를 리턴 할수도 없으며(리턴되는 포인터를 const화 시키면 가능하다, 곧 const char* func() const 라고 리턴되는 타입 char*을 const화 시킨면 가능) const화 되지 않은 함수를 호출할 수도 없다. 이는 다른 경로를 통한 맴버 변수의 조작을 방지하기 위함이다.
const 키워드를 이용해 객체도 상수화가 가능하다. 그렇게 되면 객체의 맴버 변수의 조작이 불가능 할뿐만 아니라 상수화된(const화된) 맴버 함수만 호출이 가능해 진다.
상수함수냐 아니냐에 따라 함수 오버로딩이 가능하다(매개변수가 같더라도 상수화냐 아니냐에 따라 다르게 인식).
클래스의 static 맴버의 특징 : 1.main 함수가 호출되기도 전에 메모리 공간에 올라가서 초기화된다. 따라서 public으로 선언이 된다면, 객체 생성 이전에도 접근이 가능하다(거꾸로 생각하면 static 변수를 private화하면 객체에 의한 접근만 가능해진다). 2.객체의 멤버로 존재하는 것이 아니다. 다만 선언되어 있는 클래스 내에서 직접 접근할 수 있는 권한이 부여된 것이다.
static 맴버변수, static 맴버함수는 다른말로 class 변수, class 함수라고 한다.
explicit 키워드 : 생성자 앞에 explicit를 써주면 묵시적인 생성자 호출을 허용하지 않는다는 의미이다(AA 라는 클래스가 있을때 explicit AA(int _a){}라고 생성자가 explicit 키워드가 붙어있으면 AA a(10)은 가능하나 AA a=10은 불가능)
mutable 키워드 : mutable로 선언된 맴버 변수는 맴버함수가 const라고 선언되었더라도 변경이 가능하다.

Thursday, September 16, 2010

C++ part 1 (C와 C++의 기본적 차이)

연대에 있는 Bernd Burgstaller의 parallel programming 수업자료 중에 computational history에서 3개의 crisis를 설명한다.
1960에서 1970년 사이에 사람들은 assembly 언어를 사용하였다. 그 당시 각각의 하드웨어가 자신 고유의 assembly언어가 있었기 때문에 프로그램의 다른 하드웨어로의 이식이 불가능했다. 그래서 나온것이 high-level language 인 C, fortran.
그런데 컴퓨터 사향이 좋아짐으로서 컴퓨터를 완전히 활용하기 위한 프로그램을 절차지향적으로 코딩을 하다보면 수만라인, 그리고 엄청난 인력이 필요했다. 이것이 두번째 crisis이다. 그뒤 해결책으로 나온것이 OOP 를 채택하고 있는 C++ 이나 JAVA와 design pattern 기법.
이후 uni 프로세서의 발달은 다른 부과적인 하드웨어나 파워등의 문제로 인해 uni processor 가 아닌 multi processor 체제로 가기 시작한다. 이것으로 인하여 기존의 방식의 프로그램밍으로는 multi processor를 온전히 활용하지 못한다. 이것이 세번째 crisis. 이것의 해결책이 병렬 프로그래밍.

병렬 프로그래밍 수업자료를 보는데.. 난 아직 두번째 crisis의 해결책 조차 모른다는 생각이 문뜩 든다. 해서 급하게 C++을 보려 한다. 단기간에 끝내는게 목표다. 물론 코딩은 체득이 중요하다는걸 안다. 하지만 우선은 책을 한번 다 보는게 목표다. 이번 포스팅에서 기억할 만한 것을 예전의 C 포스팅에서처럼 간략하게 적는다. 참고 자료는 윤성우의 열혈강의 C++이다.
----------------------------------------------------------------------------
chapter 1 : C 기반의 C++
c++는 확장자가 cpp 이며 컴파일러가 g++이다.
기본적으로 을 include 한다. #include
printf 대신 std::cout<< somthing<
scanf 대신 std::cin>>somthing;
c와 달리 함수 오버로딩이 가능하다. (return형만 다르면 오버로딩 불가)
함수에서 매개변수의 default 지정이 가능하다. 함수 선언이 먼저 될시 선언부에 default 지정을 해야 한다.
C에서는 매크로 #define을 써서 매크로 함수를 정의 하엿다. 이는 전처리 과정에서 in-line화가 되는데 C++에서는 그냥 함수 앞에 inline라고만 붙여주면 같은 효과가 생긴다.(이는 컴파일러에 의해 처리됨)
서로 다른 사람(곳)에서 만든 함수들의 이름이 겹치는 것을 방지 하기 위해 namespace 를 도입. 그래서 namespace something{void function(void){}}으로 함수를 감싸면 function이란 함수는 something이라는 이름 공간에 선언되어 잇는것이고 이를 사용하기 위해선 "::" 범위 지정 연산자 (scope resolution operator)를 사용한다.(something::function 이렇게)
using 이라는 키워드를 사용하면 함수를 사용할때 이름 공간을 명시할필요가 없다. (using something::function 또는 using namespace something 이라고 하면 그냥 function이라고 사용하면 된다.)
::를 이용하여 전역변수에 접근 할수도 있다.

chapter 2 : C 기반의 C++ 2
true와 false가 새로운 데이터 타입인 bool로 추가 되었다. int형으로 변환시 true는 1, false는 0으로 변환된다.
레퍼런스는 이름이 존재하는 메모리 공간에 하나의 이름을 더 부여하는 것으로 int &ref=val과 같이 레퍼런스(여기서 ref)앞에 &를 붙인다. 레퍼런스는 변수랑 동일하며 다만 만들어지는 차이만 있을 뿐이다. 레퍼런스 변수는 선언과 동시에 초기화가 되어야 한다.
이 레퍼런스 변수를 이용하면 swap 함수(변수 두개의 값을 서로 바꿔주는 역할)를 구현할때 함수의 매개 변수가 포인터가 아니라 레퍼런스 변수로 하면 포인터의 개념 없이 구현이 가능하다 (이는 call-by-reference인지 value인지를 구분하기 힘들기 때문에 위험할수 있다).
또한 call-by-value에서 value대신에 reference변수를 매개변수로 하면 넘기는 변수의 값이 copy되지 않아서 메모리를 아낄수 있다. (여기서도 문제가 있다. &p라는 매개변수로 받으면 함수에서 잘못된 연산으로 원본의 값이 변할수 잇기 때문에 최정적으로 매개변수를 const int &p 식으로 상수화 시켜 버린다. 그렇게 되면 매개변수 p를 통한 변수의 값이 변하는 일이 없다.)
C의 malloc과 free대신 new와 delelete를 사용한다.
int* p = (int*)malloc(sizeof(int)*size) 대신 int p = new int[size], free(p) 대신 delete []p
new를 통한 동적 메모리 할당이 실패할경우 NULL즉 0, 이 리턴된다.

Monday, September 13, 2010

Bowtie (short read alignment program)

I should have reviewed about mapper program (maq, bowtie..) earlier. Most of the first step in NGS data analysis is mapping read to reference genome. So knowing this process is prior to the others. But I just do this work now.

Here is the PPT.

ah.. I have to confess that some of slides in PPT come from mqoqol's ppt in SEQanswers.
Thanks mqoqol!

I found a blog today.
http://hackmap.blogspot.com/2010/07/aligners-since-starting-methylcoder.html

In the blog, the owner addressed shortcoming of Bowtie. And he introduced GSNAP. Actually in our firm, we made a tentative arrangement to use GSNAP for aligner.

I will also have to review the paper (GSNAP) ASAP.

Sunday, September 12, 2010

이보디보 (evo devo) 생명의 블랙박스를 열다.

이보디보 (evo devo), evolutionary devolepmental biology의 약자.

진화라는 키워드에 빠져 이것 저것 뒤지다가 발견한 보물 같은 책이다. 내가 보물이라고 할 정도의 책이라면 이건 진짜 보물이니 믿어도 좋다 (책읽는 걸 방청소 이상으로 싫어하는 것으로 여기니).
Sean B. Carroll 이 저잔데.. 대단한 사람인가보다. 이 정도의 지식을 단순한 사실의 전개가 아닌 자신의 철학과 함께 물흐르듯이 정리해서 책으로 내다니.. 글쓰기에 두려움을 느끼는 나로선 이 많은 내용을 한권의 책으로 매끄럽게 정리했다는 사실 조차로도 그를 우러러 보게 되는데.. 해서 그를 구글링 해보니.. 역시 CNN에서 인터뷰를 했을 정도의 과학자이다.

생물에 관련된 일을 하는 모든 사람들은 필수적으로 읽어야 하는 책인듯 싶다. 특히 한국인, 내 경험으로 비춰볼때(지극히 개인적인 의견이다) 생물학을 배우지만 철학없이, "왜" 라는 의미 없이 생물학을 단순한 사실을 찾는 정도인 양 교과서적으로 배우는 이들에게 절대적으로 필요하다.

점점 생물학 내지는 관련 분야를 공부할 수록 내가 얼마나 영혼없는 연구자(물론 아직 '연구자'라고 불릴 수 있는지는 모르겠지만)인지 느끼게 되었다. 내가 어떠한 과학적 사실을 발견했을때 그 사실이 어떠한 의미를 갖을 수 있는지 생물학의 거대한 흐름에서 어떠한 역할을 하는 것인지 의문이 생기고 그에 대한 어떠한 대답조차 할수 없다는 걸 느꼈다. 그리고 그것의 해답은 진화에 뿌리를 둠을 점차 깨달아 갔다.

이 책은 생물학을 배웠다면 익숙한 예제를 많이 포함하고 있다. 그러나 그 과학적 발견이 생물학의 큰 흐름에서 어떠한 의미를 갖었는지 명확히 보여준다. 이것이 진화라는 철학을 갖은 자와 갖지 못한자의 차이인것임을 알게된다. (내 기억으로는 분자 생물학 시간에 lactose가 있을때 E.coli가 B-galactose 를 발현시킨다는 사실을 배운적이 있었는데 그 땐 그게 그냥 그랬나보다 라고 아무 생각없었는데 그게 진화라는 개념을 가지고 접근하면 대장균에서 사람까지 굉장히 유사한 메커니즘을 가지고 있다는 사실에서 이러한 매커니즘으로 사람의 조직별 서로 다른 단백질의 발현이 가능한 이유가 될수 있다고 그 의미를 찾아가는 것에 놀랐다.)

이런 책을 읽으면 느낀 또 다른 안타까움은 이런 생물학적 "의미"를 가르치는 환경이 한국에서는 적다는 것이다. 의미를 알지못하면 결코 그들의 일에 대해 어떠한 즐거움이나 쾌감을 찾을 수 없다. 물론 일차적으로 그 책임은 내 자신에게 있겠지만 자신이 연구하는 단백질 내지는 종 하나만을 보지 않고 거시적인 통찰력을 가지고 있는 교수에게 수업을 받는다면 나와 같은 학생들도 진작에 가슴떨리는 열정을 찾을 수 있지 않을까 싶다.

이 책 정말 강추다!!

아.. 그리고 마지막 한가지.. 자연 현상을 담은 이 글이 세상의 그 어떤 픽션보다 재미 없지 않을 것임을 확신하는 저자의 머릿말이 참 인상깊다.

Thursday, September 9, 2010

The Language of Histone Crosstalk

organizing content of paper.. at first that's fun but more and more it's gonna be tiresome. below.. I just copy the sentences from paper.

이 논문을 보고 느낀게 아직 논문들이 글로벌한 패턴을 볼 수 밖에 없다는 것을 느꼈다. 같은 component 가지고 시간과 상황에 따라 다른 역할을 해버리니 각각의 position 별로 시간에 따라 정확한 기능을 알지 못한다면 잘못된 해석만이 나올 뿐이다. 그런데 이 시간과 포지션 별로의 데이터 양이 얼마나 될까? 인간 게놈이 30억인데 내 기억으로 하나의 히스톤에 감기는 dna의 길이가 백오십 베이스 정도였던거 같은데.. 물론 링커도 있지만 그렇다면 수많은 갰수의 hisone이 나오게 되고 hisone의 종류도 기본 3가지 뿐 아니라 사이드도 있고 게다가 modification도 phosphorylation과 mono-에서 tri-까지의 methylation과 histone 하나에서도 아미노산 하나하나의 modification이 가능하게 되면.. 음.. 모든 경우에 수는 우주의 원자 수보다도 많게 되는게 아닐까 (얼마전 읽은 책에서 보니까 원자수가 생각보다 적었던 걸로 기억, 물론 말도 안될 수 있지만)..
그렇다고 해석하는데 포기할수 는 없지만.. 가히 포기 하고 싶어진다.

epigenetic code (histone modification) :
revealing a nuanced and intriguing language, not
a strict code, as the basis for transcriptional regulation through
the chromatin signaling pathway

1. acetylation of histone:

A well-characterized
posttranslational modification regulating chromatin
structure is the acetylation of histone N-terminal tails, which is
thought to facilitate transcriptional activation either by charge
neutralization of the tails’ interaction with DNA or by forming
a binding site for bromodomain-containing transcription factors, some of which can remodel nucleosomes

2. methylation of H3K4:

a modification generally associated with transcriptionally
active genes and a binding site for a variety of factors that include
histone-modifying and -remodeling activities

histone crosstalk: effect of prior nearby histone modification to subsequent histone modification
examples : first picture,
point mutation in H3K14 (acetylation site) results in the specific loss of H3K4 trimethylation.
phosphorylation of H3S10 interferes with binding of HP1 (heterochromatin protein 1) to methylated H3K9
reason : histone modification enzymes are constituted with multisubunit complex

example of histone crosstalk is the stimulation of
acetyltransferase activity of GCN5 toward the histone H3 tail by prior phosphorylation
(P) of serine 10. Acetylation, Ac.

understanding the activities of these histone modification crosstalk is not simple, because the transcriptional readout depends on context and timing. Second figure represent this characteristics.
In A, show that depending on position and timing of binding of 14-3-3, a phosphoserine binding protein, to H3S10 it works differently. In B say that artificially increasing acetylation doesn't lead to productive trascription.
there is an example (fruit fly's dosage compensation study) which have different order of implementation of proteins.

Tuesday, September 7, 2010

evolution of methylome

dna methylation의 진화에 대한 생각들..

-사전에 생각해야 할점들.

methylation sequencing을 하게 되면 여러 cell들을 pool (물론 type은 비슷하겠지만)이 모여서 된다는 것. 그렇기때문에 methylation 정도가 read수로 아날로그적으로 나오게 될것. 사실 완벽하게 하나의 cell로만 한다면 0,1 식으로 정확하게 나올테지만.. 이 문제를 어떻게 고려 할 것이냐. 문뜩 떠오르는 생각 종간에 dna 시퀀스를 비교할때 어떻게 보면 종에서 한명의 dna를 가지고 비교한다. 정확하게 비교 할려면 사실 종을 대표할 수 있는 시퀀스를 비교해야 한다. 그렇다면 대표할 수 있는 시퀀스라는 건 무언인가. 쉽게 생각하면 가장 빈도수가 많이 나온 DNA. 즉 이말은 SNP를 제외하면 된다는 것. 이걸 변형 없이 고대로 methylation cell pool의 대표 sequence를 찾는 곳에 대입을 하면 SNP를 자르는 기준을 넣던지 아니면 50%이상의 리드에서 methylation이 나왔을때 이를 1로 표현하는것. 이는 경험론 적으로 접근해야 할것 같다.

genome의 범위? sims의 논문을 보면 intron인가 intergenic 부위만 가지고 phylogeny를 그렸다. 이것으로 충분하다고. 그러면 methylation은 genome의 어떤부위를 가지고 그려야 할까?기본적으로 논문에 나온것처럼 transposon부위와 gene의 부위만 본다. 아니면 그런거에 상관없이 CpG가 있는 부위, 아니면 methylation이 조금이라도 나오는 부위만 모아서

tissue별 methylation이 다른데 이는 어떻게 할것이냐? tissue 별 methylation이 얼마나 다른가? 다른 정도가 심각한가? 곧 profile의 변화가 큰가? 그렇지 않다는걸 보이고 특정 데이터를 선택해서 사용

다른 하나는 methylated dna 를 M이라고 표현한다면, 상보적인 DNA인 G는 어떻게 할것인가.

가장 기본적으로 떠오르는 생각은 상보적인 G를 표현하는 다른 alphabet을 추가한다. 그렇게 했을 때 profile의 변화는 어떻게 될것인가?... 생각이 필요

-methylated DNA 를 다섯번째 DNA로 생각해서 얻을 수 있는 궁극적인 결과가 무엇인가?

두가지 가설 DNA methylation을 시퀀스에 넣는다면

1.phylogeny가 변화가 없다.

2.dna 만 가지고 그린 phylogeny와 다르게 tree가 그려진다.

예상하기론 phylogeny의 트리는 변화가 없을것으로 생각되어진다. 그럼 만약 1번의 경우처럼 나온다면 어떻게 해석을 해야 할것이냐. 우선 methylated DNA 를 넣는다 하더도 A,G,T,C에 의한 종간의 sequence similarity의 영향이 커서 별로 영향이 없어서 그렇다.그럼 여기서 봐야 할점, methylated cytosine의 영향력 정도. random하게 methylation pattern을 넣었을때에 비해 어떠한 효과가 나타나느냐. 최고의 결과는 가까운 것들 (species) 간에 거리가 타이트 해진다. 그러면 methylation을 넣음으로서 확실한 관계도가 나타나는 것이나. 아무래도 예상하기로 tree의 section 별로 어떤 section은 가까워 지고 어떤 section은 멀어지고 하는 경향이 나올것으로 예상.

만약 2번의 상황이 벌어진다면.. 음..

-ffp를 disease의 diagnostic classification에 쓸수 잇는가?

-만약 위의 것이 가능하다면 database화도 생각할수 있다. 그러니까 bisulfite-sequencing을 하고 나서 이것이 어떠한 individual 내지는 어떠한 series의 experiment와 유사한가를 찾아주는 database

-development에서의 현상을 species의 evolution과 연관시 킬수 있는가?

이게 맞을 지 모르겠지만 development의 여러단계의 cell의 methylated cytosine의 정보를 넣은 시퀀스를 phylogeny에서 가장 가까이 분기한 종과 비교햇을때... 음..

추가적으로 between species 를 고려 하는게 아니라 아예 human 관련 데이터만 가지고 해본다. developmental stage 별로 나온 데이터, tissue 별 데이터 disease별 데이터릍 통으로 하면 어떤 결과가 나올까? 혹시 cancer의 methylation 패턴이 hESC과 비슷하게 나오지 않을까? 아예 DNA 알파벳을 methylated cytosine과 그 이외의 것 이렇게 두개로만 하면 어떻게 될까?

###################
우선은 human의 bisulfite-seq을 한 데이터를 다 모은다.(카페나 site를 만들어서 공유). 좀더 멀리 보면 SRA나 GEO에서 automatic 하게 bisulfite data를 모으는 방법을 생각한다.

우선은 tissue별 methylation의 차이를 반드시 확인해야 한다. 왜냐면 특정 데이터를 쓸때 그것의 methylation이 영향력이 크게 bias 되어 있다면 그걸 종간 비교로 쓰기에 문제가 있기때문에.

그리고 methylation rate 에 대해서는 다른 논문에서와 같이 5단계로 frequency를 나누고 각 단계별로의 profile을 따로 만든 다음에 각각의 profile에 대한 distance에다가 frequency에 따라 weight를 줘서 sum을 한다.

###################
논문을 보다가 느낀건데 여러군데서 methylation의 영향이 bimodal 하다는 경향이 많이 나타난다. evolution에서도 그러한 경향을 찾을 수 있고 유전자의 expression에 따른 percentile로 나눠서 methylation정도와의 그래프를 그려도 그렇고 promoter부위는 methylation 이 많이 된 반면 exon부분은 오히려 intron보다 methylation이 많이 되어 있는 예가 그러하다. methylation은 expression과 영향이 있다. 또한 분명 위에서의 예와 같이 bimodal한 성향이 있다. 그러면 이걸 구분해 주는 무언가가 있어야 한다. dna 시퀀스에 찾아야 하나 아니면 다른 epigenetic factor (histone modification)과 연관지어 설명을 해야 하나.. 전혀 감이 오지 않는다. 이 또한 좋은 연구 주제가 될것 같다.

##################
histone modification과 methylation이 transcriptional regulation에 작용을 한다고 생각한다. 이게 사실이라면 histone modification을 methylation 처럼 base resolution으로 나타낼수 있다면 이것 역시 시퀀스로 표현이 가능하고 그렇게 된다면 expression을 보지 않고 오히려 histone modification과 methylation이 들어가 잇는 시퀀스를 가지고 diagnostic test가 타당 할수 있겠다.

GSE19418

Monday, September 6, 2010

essential utility (cvs)

아무래도 cvs를 이용하게 될지모른다는 기분좋은 예감이 든다. 그래서 cvs 에 대해 정리하려 한다.

CVS

-CVS에 의한 프로젝트 파일 버전 관리-

1.CVS 소개

CVS (Concurrent Versions System)는 여러사람이 공동으로 프로젝트를 수행할 때 발생할 수 있는 소스 충돌이나 소스 동기화 문제들을 해결하기 위해서 나왔다. 이는 RCS의 확장에 의해 만들어 졌다.

2.CVS 서버 설정

cvs -v 명령을 내려보면 CVS가 설치되어 있는지 알 수 있다.
없으면 설치하고
프로젝트에서 사용할 프로젝트 파일들을 보관하는 저장소 디렉토리를 생성한다.
mkdir /home/cvs
그뒤 저장소 디렉토리를 초기화한다(초기화란 저장소 디렉토리에 CVS에서 사용하는 제어 파일들이 들어 있는 디렉토리를 생성하는 일).
cvs -d /home/cvs init
cvs 유저를 등록하고 저장소 디렉토리에 대한 접근 권한을 설정한다.
adduser cvs ; chown root.cvs /home/cvs -R ; chmod 770 /home/cvs -R

정리하려 했으나 내가 하려는 것과 완전 똑같은(같은 책을 참조하나 보다) 블로그를 발견하고 링크를 걸고 여기서 정리하기로 한다.
http://blog.naver.com/woorara7?Redirect=Log&logNo=20012018776

high-throughput sequencing data submission to NCBI (GEO, SRA)

The most papers upload their data into GEO or SRA. Therefore, understanding of format which is supported in those databases is needed. Here are links for the format.

soft file format :
http://www.ncbi.nlm.nih.gov/geo/info/soft-seq.html

submitting sequencing data :
http://www.ncbi.nlm.nih.gov/geo/info/seq.html

Why certain NGS data are in SRA database, while some are in GEO : Whole genome sequencing, metagenome, survey sequencing data and original short read format sequence files belong to SRA database.

SOFT (Simple Omnibus Format in Text) file format is just instruction about submission of data. Actual real data (fastq) can be contained or not.

Tip for checking of inclusion of
1.raw data : if SOFT file contain raw data, there should be "!Sample_raw_file...".
2. processed data : "!Sample_supplementary_file...".

Friday, September 3, 2010

NP-hard

bioinformatics 논문을 보다보면 종종 NP-hard 라는 용어를 많이 본다. 구글을 뒤져보라. 뒤질거 같다.ㅋ
다음 링크가 참 친절하다.
http://blog.naver.com/dekarno?Redirect=Log&logNo=140019592031

Thursday, September 2, 2010

cloud computing, grid computing... parallelism

nature genetics reveiw 에 'computational solutions to large-scale data management and analysis'라는 제목으로 논문이 나왔다. 이는 삼세대 시퀀싱 기계가 나옴에 따라 엄청난 양의 데이터와 high-dimensional 데이터를 어떻게 핸들링하는냐의 문제를 computational한 초점에서 바라본 논문이다.
여기서 내용을 간단하게 요약하자면 자신이 가지고 있는 데이터의 특성을 잘 파악하여 cluster computing, cloud computing, grid computing, heterogeneous computing등의 플랫폼을 선택하여 알고리즘의 병렬화를 통해서 해결하라는 거다.

그리드던 클라우드던 클러스터던 거기서 거기인거 같고 구분이 안되서 참고자료를 링크한다.
특히 그리드랑 클라우드 차이가 뭔지.. 아직도.. 잘.. ㅋ

http://blog.naver.com/happypcb?Redirect=Log&logNo=90077847232

아래는 병렬 컴퓨팅의 간략한 소개이다(메모리 접근 방식에 따른 분류)
http://blog.naver.com/belief_jesus?Redirect=Log&logNo=120102897585
간략하게 요약하면 메모리 접근 방식에 따라