1. 程式人生 > >Oracle中distinct的用法例項以及Oracle distince 用法和刪除重複資料

Oracle中distinct的用法例項以及Oracle distince 用法和刪除重複資料

Oracle中distinct的用法例項

摘要:

此外,distinct 會對返回的結果集進行排序 所以會大大影響查詢效率,大資料集時比較明顯 所以,最好和order by 結合使用,可以提高效率

select  distinct  a,b,c from t;表t裡列的順序為c,a,b ,則distinct 排序時是按前者還是後者來呢?

        distinct這個關鍵字來過濾掉多餘的重複記錄只保留一條,但往往只用 它來返回不重複記錄的條數,而不是用它來返回不重記錄的所有值。其原因是distinct只有用二重迴圈查詢來解決,而這樣對於一個數據量非常大的站來說,無疑是會直接影響到效率的。

下面先來看看例子:

table表

欄位1     欄位2
   id        name
   1           a
   2           b
   3           c
   4           c
   5           b

表結構大概這樣,這只是一個簡單的例子,實際情況會複雜得多。

比如我想用一條語句查詢得到name不重複的所有資料,那就必須使用distinct去掉多餘的重複記錄。

select distinct name from table
得到的結果是:

———- 

name
   a
   b
   c

好像達到效果了,可是,我想要得到的是id值呢?改一下查詢語句吧:

select distinct name, id from table

結果會是:

———- 

id name
   1 a
   2 b
   3 c
   4 c
   5 b

distinct怎麼沒起作用?作用是起了的,不過他同時作用了兩個欄位,也就是必須得id與name都相同的才會被排除。。。。。。。

我們再改改查詢語句:

select id, distinct name from table

很遺憾,除了錯誤資訊你什麼也得不到,distinct必須放在開頭。難到不能把distinct放到where條件裡?能,但是照樣會報錯。

————————————————————————————————————

下面方法可行:

select *, count(distinct name) from table group by name

結果:

   id name count(distinct name)
   1 a 1
   2 b 1
   3 c 1

最後一項是多餘的,不用管就行了,目的達到。。。。。

group by 必須放在 order by 和 limit之前,不然會報錯

===========================================================

另一篇網上轉載的博文:

Oracle distince 用法和刪除重複資料

oracle distinct語句的用法 建立檢視時過濾資料
distinct的只顯示一次重複出更的值。
不過這個值出現多少次只顯示一次。
select distinct 欄位名1,欄位名2 from 表格 order by 欄位名1
distinct 欄位名1 意思是隻顯示一次欄位名1顯示的是第一次出現的。
最好和order by 結合使用。可以提高效率
distinct 返回唯一的結果集
注意,是結果集,如果你選了N個欄位,當N個欄位都相同時
才會被視為相同,而只返加一個
當然,如果N=1的話,情況就會比較明顯
此外,distinct 會對返回的結果集進行排序 所以會大大影響查詢效率,大資料集時比較明顯
select distinct hjrq from T_MIDDLE_HJCG order by hjrq
asc 增序 預設
desc 降序

Oracle 中如何刪除重複資料

我們可能會出現這種情況,某個表原來設計不周全,導致表裡面的資料資料重複,那麼,如何對重複的資料進行刪除呢?
重複的資料可能有這樣兩種情況,第一種時表中只有某些欄位一樣,第二種是兩行記錄完全一樣。

一、對於部分欄位重複資料的刪除
先來談談如何查詢重複的資料吧。
下面語句可以查詢出那些資料是重複的:
select 欄位1,欄位2,count(*) from 表名 group by 欄位1,欄位2 having count(*) > 1
將上面的>號改為=號就可以查詢出沒有重複的資料了。
想要刪除這些重複的資料,可以使用下面語句進行刪除
delete from 表名 a where 欄位1,欄位2 in
(select 欄位1,欄位2,count(*) from 表名 group by 欄位1,欄位2 having count(*) > 1)
上面的語句非常簡單,就是將查詢到的資料刪除掉。不過這種刪除執行的效率非常低,對於大資料量來說,可能會將資料庫吊死。所以我建議先將查詢到的重複的資料插入到一個臨時表中,然後對進行刪除,這樣,執行刪除的時候就不用再進行一次查詢了。如下:
CREATE TABLE 臨時表 AS
(select 欄位1,欄位2,count(*) from 表名 group by 欄位1,欄位2 having count(*) > 1)
上面這句話就是建立了臨時表,並將查詢到的資料插入其中。
下面就可以進行這樣的刪除操作了:
delete from 表名 a where 欄位1,欄位2 in (select 欄位1,欄位2 from 臨時表);
這種先建臨時表再進行刪除的操作要比直接用一條語句進行刪除要高效得多。

這個時候,大家可能會跳出來說,什麼?你叫我們執行這種語句,那不是把所有重複的全都刪除嗎?而我們想保留重複資料中最新的一條記錄啊!大家不要急,下面我就講一下如何進行這種操作。
在oracle中,有個隱藏了自動rowid,裡面給每條記錄一個唯一的rowid,我們如果想保留最新的一條記錄,
我們就可以利用這個欄位,保留重複資料中rowid最大的一條記錄就可以了。
下面是查詢重複資料的一個例子:
select a.rowid,a.* from 表名 a
where a.rowid !=
(
select max(b.rowid) from 表名 b
where a.欄位1 = b.欄位1 and
a.欄位2 = b.欄位2
)
下面我就來講解一下,上面括號中的語句是查詢出重複資料中rowid最大的一條記錄。
而外面就是查詢出除了rowid最大之外的其他重複的資料了。
由此,我們要刪除重複資料,只保留最新的一條資料,就可以這樣寫了:
delete from 表名 a
where a.rowid !=
(
select max(b.rowid) from 表名 b
where a.欄位1 = b.欄位1 and
a.欄位2 = b.欄位2
)

隨便說一下,上面語句的執行效率是很低的,可以考慮建立臨時表,講需要判斷重複的欄位、rowid插入臨時表中,然後刪除的時候在進行比較。
create table 臨時表 as
select a.欄位1,a.欄位2,MAX(a.ROWID) dataid from 正式表 a GROUP BY a.欄位1,a.欄位2;
delete from 表名 a
where a.rowid !=
(
select b.dataid from 臨時表 b
where a.欄位1 = b.欄位1 and
a.欄位2 = b.欄位2
);
commit;

二、對於完全重複記錄的刪除

對於表中兩行記錄完全一樣的情況,可以用下面語句獲取到去掉重複資料後的記錄:
select distinct * from 表名
可以將查詢的記錄放到臨時表中,然後再將原來的表記錄刪除,最後將臨時表的資料導回原來的表中。如下:
CREATE TABLE 臨時表 AS (select distinct * from 表名);
drop table 正式表;
insert into 正式表 (select * from 臨時表);
drop table 臨時表;

如果想刪除一個表的重複資料,可以先建一個臨時表,將去掉重複資料後的資料匯入到臨時表,然後在從
臨時表將資料匯入正式表中
,如下:
INSERT INTO t_table_bak
select distinct * from t_table;